Goldman впервые взялся за гибридную модель Qwen3 от Alibaba

dailyblitz.de 2 месяцы назад

Goldman впервые взялся за гибридную модель Qwen3 от Alibaba

Гонка искусственного интеллекта, чтобы превзойти китайский DeepSeek, усилилась во вторник, когда Alibaba представила Qwen3, семейство крупных языковых моделей с открытым исходным кодом. Аналитики Goldman сообщили клиентам, что новые LLM представляют собой продолжающийся бум в области искусственного интеллекта в Китае.

Во вторник команда Qwen опубликовала сообщение в блоге на своем веб-сайте, объявляющее результаты Qwen3-235B-A22B, показывающие, что флагманская модель достигла конкурентных результатов в бенчмарках оценки кодирования, математики, общих возможностей и т. Д. По сравнению с другими LLM, включая DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.

Согласно Qwen, Qwen3-235B-A22B переходит между «режимом мышления» и «режимом немышления» в гибридном подходе к решению проблем.

Я не могу поверить, что это 0.6B LLM! @Alibaba_ Qwen выпустили Qwen3, серия гибридных моделей рассуждений, которые позволяют контролировать, сколько «мышления» модель делает для данной задачи.

Они даже могут работать локально в вашем браузере на WebGPU с Transformers.js! pic.twitter.com/jnjWanObw9

— Xenova (@xenovacom) 29 апреля 2025 г.

Аналитики Goldman Рональд Кеунг (Ronald Keung), Тимоти Чжао (Timothy Zhao) и его коллеги прокомментировали рост моделей ИИ в Китае, таких как Qwen, изложив семь ключевых наблюдений для клиентов после рассмотрения Qwen3-235B-A22B:

  1. Ведущие результаты бенчмаркинга для флагманской модели (Qwen3-235B-A22B) в кодировании, математике и т. Д. По сравнению с другими топовыми моделями DeepSeek-R1, o1 и т. Д.

  2. дальнейшее улучшение производительности наряду с более низкой стоимостью вывода, при этом меньшая модель MoE (Qwen3-30B-A3B) предлагает более высокую производительность с гораздо меньшими активированными параметрами;

  3. его меньшие модели обеспечивают гибкость локального развертывания и краевых приложений на мобильных устройствах, интеллектуальных очках, автономных транспортных средствах, робототехнике и т. Д.

  4. Интегрированное мышление (сложные рассуждения) и немыслящие (мгновенные ответы) режимы, предлагающие пользователям / предприятиям динамически управлять затратами на вывод.

  5. расширенный набор данных перед тренировкой для Qwen3 (токен 36 тонн против токена 18 тонн Qwen2.5),

  6. больше возможностей ИИ с поддержкой MCP (модельного контекстного протокола);

  7. Глобальная доступность, поддержка 119 языков и диалектов. Отдельно Alibaba Cloud объявила ранее на своей конференции по искусственному интеллекту 2025 года 9 апреля, где призывы API к моделям искусственного интеллекта на Alibaba Cloud выросли почти в 100 раз в январе 2025 года по сравнению с декабрем 2024 года, в то время как число предприятий, интегрированных с платформой модели PAI, также выросло в 100 раз до более 10 000 по сравнению с прошлым годом.

Аналитики оцениваются на BABA с 12-месячной ценовой целью в 159 долларов США «на стабилизацию внутренней прибыли от электронной коммерции и быстрый рост доходов Alibaba Cloud, являющийся крупнейшим облачным гипермасштабером Китая, с ведущими моделями ИИ и различными сценариями применения». "

Гонка за более эффективные LLM, вероятно, приведет к тому, что Вашингтон продолжит ужесточать экспорт чипов, чтобы обуздать достижения Китая, особенно с развитием DeepSeek и Alibaba. Американский экспорт чипов Nvidia H20 AI был недавно запрещен, в то время как китайская Huawei Technologies, включенная в черный список США, заявила в понедельник, что тестирует свои новые мощные чипы AI, которые превышают производительность H100.

«Выпуск серии Qwen 3 еще раз подчеркивает сильные возможности китайских лабораторий по разработке высококонкурентных, инновационных моделей с открытым исходным кодом, несмотря на растущее давление со стороны ужесточения экспортного контроля США», - сказал аналитик из Вашингтона Рэй Ван.

Ван предупредил: «США-Китай» Разрыв между американскими и китайскими лабораториями сократился, вероятно, до нескольких месяцев, а некоторые могут спорить, даже до нескольких недель. "

"" С последним выпуском Qwen 3 и предстоящим запуском R2 от DeepSeek этот разрыв вряд ли увеличится и может даже продолжить сокращаться.

На рынках Nasdaq 100 начал снижаться всего через неделю после запуска DeepSeek R1 в конце января.

Что происходит с Nasdaq при запуске DeepSeek R2?

Ну, во-первых, мы знаем, что пиковая емкость центра обработки данных, вероятно, наступила:

  • Аналитики Wells Fargo говорят, что Amazon приостановил некоторые обязательства по аренде центров обработки данных

  • Goldman бросает холодную воду на AI Hype и прогнозирует развитие дата-центра

..

Тайлер Дерден
Ту, 05/01/2025 - 02:45

Читать всю статью