XAI Маска представляет «State Of The Art» Grok 3 AI Bot, превосходящий OpenAI и DeepSeek

dailyblitz.de 1 год назад

Zdjęcie: musk’s-xai-unveils-„state-of-the-art”-grok-3-ai-bot,-surpassing-openai-&-deepseek

В понедельник вечером стартап Илона Маска по искусственному интеллекту xAI представил свою последнюю модель, Grok3, миллиардер назвал ее «самой популярной».Самый умный ИИ на Земле"и в ходе оценки ИИ, достигнув рекордный баллЛучшие модели от OpenAI и китайской DeepSeek. Помните, Маск одновременно жонглирует DOGE и несколькими предприятиями, включая автономные транспортные средства, исследования космоса, нейротехнологии, робототехнику, туннелирование и свою платформу социальных сетей X.

Маск объяснил это Миссия Grok:

"" Миссия xAI и Grok — понять Вселенную. Мы хотим ответить на самые большие вопросы: Где пришельцы? В чем смысл жизни? Чем кончается Вселенная? Для этого мы должны строго следовать истине. "

Илон Маск
«Миссия xAI и Грока — понять Вселенную.

Мы хотим ответить на самые большие вопросы: Где пришельцы? В чем смысл жизни? Чем кончается Вселенная?

Для этого мы должны строго следовать истине pic.twitter.com/rgDQStnE3 v

Владельцам Tesla в Силиконовой долине (@teslaownersSV) 18 февраля 2025 г.

Команда xAI показала, что Grok3 превзошел Google Gemini от Alphabet, модель V3 от DeepSeek, Claude от Anthropic и GPT-4o от OpenAI в математических, научных и кодирующих тестах.

Маск отметил, что у Grok3 естьболее 10 раз"вычислительная мощность своего предшественника и завершенная предварительная подготовка в начале этого года.

The LLM слепой тест LMArena Grok3 достиг рекорда веха 1400 баллов.

"" И он продолжает подниматься. Поэтому мы должны продолжать обновлять его. 1400 и восхождение- сказал Маск.

Маск сказал: Мы Постоянное совершенствование моделей каждый деньИ буквально через 24 часа вы увидите улучшения. "

@xAI ранняя версия Grok-3 (кодовое имя «шоколад») теперь #1 в Arena!

Грок-3 это:
Первая модель, которая побила 1400 баллов!
#1 во всех категориях, этап, который становится все труднее достичь

Огромные поздравления @xAI с этим событием! Просмотр темы... https://t.co/p8z8lccNd5 pic.twitter.com/hShGy8ZN1o

— lmarena.ai (ранее lmsys.org) (@lmarena_ai) 18 февраля 2025 г.

"" The Новый чат-бот ставит Грока впереди OpenAI Последний ChatGPT усиливает все более жесткое соперничество между двумя компаниями, — говорится в сообщении Bloomberg. Только на прошлой неделе Маск предложил купить некоммерческое подразделение OpenAI за $97,4 млрд. Однако предложение было быстро отклонено генеральным директором OpenAI Сэмом Альтманом.

Андрей Карпаты, бывший директор по ИИ в TeslaОн написал длинный пост о своем опыте раннего доступа к Grok3.

Вот он, этот резюме из поста:

Мыслительная способностьGrok 3 имеет передовую модель мышления наравне с лучшими моделями OpenAI, успешно справляясь со сложными задачами, такими как создание веб-страницы Settlers of Catan с динамическими шестнадцатеричными сетками. Тем не менее, он не смог решить загадку смайликов с использованием селекторов вариаций Unicode.
Тик-так палецGrok 3 может решить простой Tic Tac Головоломки пальцев ног, но изо всех сил пытались создать «сложные» доски, похожие на O1-pro OpenAI.
Поиск знаний: При тестировании с помощью основанных на знаниях вопросов, связанных с документом GPT-2, Grok 3 показал хорошие результаты, включая оценку вычислительной стоимости обучения GPT-2 без поиска в Интернете, что не удалось сделать другим моделям, таким как o1-pro.
Гипотеза РиманаГрок 3 пытался решить гипотезу Римана, проявляя инициативу, не отказываясь от сложных проблем, в отличие от некоторых других моделей.
DeepSarch: Эта функция сочетает в себе исследовательские возможности с мышлением, предоставляя высококачественные ответы на различные вопросы поиска. Однако у него были проблемы с упоминанием X в качестве источника и иногда галлюцинациями несуществующих URL-адресов.
юморЮмористические способности Grok 3 не показали улучшения, не сгенерировав новые или сложные шутки, что является общей проблемой для LLM.
Этическая чувствительность: Модель была чрезмерно чувствительна к сложным этическим вопросам, избегая вопросов, которые могут включать этические дилеммы.
Поколение SVGGrok 3 потерпел неудачу в создании SVG пеликана, едущего на велосипеде, тест пространственной компоновки, хотя он работал лучше, чем некоторые, но не так хорошо, как Клод.

Карпаты пришли к выводу, что Grok 3 Мыслительные способности находятся на самом современном уровненемного превосходящие такие модели, как DeepSeek-R1 и Gemini 2.0 Flash Thinking; XAI стартовал с нуля около года назад – беспрецедентное достижение.

Сегодня мне был предоставлен ранний доступ к Grok 3, что сделало меня одним из первых, кто смог быстро проверить вибрации.

мышление
Во-первых, Grok 3 явно имеет современную модель мышления (кнопка «Думай») и отлично справился с коробкой на моем Settler’s of Catan. pic.twitter.com/qIrUAN1IfD

— Andrej Karpathy (@karpathy) 18 февраля 2025 г.

Полная презентация и демо последней модели xAI

GROK 3: СОЛВИНГ ФИЗИКИ, ИГРЫ, И УНИВЕРСИЯ

Полная презентация и демонстрация последней модели xAI

0:00 Миссия xAI: Понять Вселенную
1:20 Представление команды
2:01 Грок означает глубокое понимание
2:29 От Грока 2 до Грока 3
6:30 Grok 3 бенчмарки
9:07 Grok 3 улучшает... https://t.co/7qbB6O16Yb pic.twitter.com/BomGwAOa1I

— Mario Nawfal (@MarioNawfal) 18 февраля 2025 г.

Маск: Все, что вам нужно знать, чтобы понять, какая компания выиграет технологический конкурс, - это посмотреть на первые и вторые производные скорости инноваций. "

Все, что вам нужно знать, чтобы понять, какая компания выиграет технологический конкурс, - это посмотреть на первую и вторую производные скорости инноваций https://t.co/rImcrpzfeY.

— Илон Маск (@elonmusk) 18 февраля 2025 г.

XAI получил «колоссальный суперкомпьютер»«На базе кластера из 100 000 продвинутых графических процессоров Nvidia для обучения ИИ» Мемфис, Теннесси.

Тайлер Дерден
Туэ, 02/18/2025 - 09:00

Читать всю статью