Визуализация ИИ против производительности человека в технических задачах

dailyblitz.de 3 месяцы назад

Визуализация ИИ против производительности человека в технических задачах

Разрыв между человеческим и машинным мышлением сокращается. И быстро.

За последний год системы искусственного интеллекта продолжали быстро развиваться, превзойдя человеческую производительность в технических задачах, где они ранее отставали, таких как продвинутая математика и визуальное мышление.

Скриншоты из игры Visual Capitalist's Kayla Чжу визуализирует производительность систем ИИ по сравнению с базовыми показателями человека для восьми контрольных показателей ИИ, измеряющих задачи, включая:

  1. Классификация изображений

  2. Визуальные рассуждения

  3. Понимание чтения на среднем уровне

  4. Понимание английского языка

  5. Многозадачное понимание языка

  6. Математика уровня конкуренции

  7. Научные вопросы уровня PhD

  8. Мультимодальное понимание и рассуждение

Эта визуализация является частью Неделя искусственного интеллекта Visual CapitalistСпонсируется Terzo. Данные взяты из отчета Stanford University 2025 AI Index Report.

бенчмарк ИИ — это стандартизированный тест, используемый для оценки производительности и возможностей систем ИИ по конкретным задачам.

Модели ИИ превосходят людей в технических задачах

Ниже мы показываем, как в последние годы модели ИИ выполняли различные технические задачи по сравнению с базовыми показателями человека.

Год Перфоманс относительно базовой линии человека (100%) Задание
2012 год89,15%Классификация изображений
201391,42%Классификация изображений
2014 год96,94%Классификация изображений
2015 год99,47%Классификация изображений
2016 год100,74%Классификация изображений
2016 год80,09%Визуальные рассуждения
2017 год101,37%Классификация изображений
2017 год82,35%Понимание чтения на среднем уровне
2017 год86,49%Визуальные рассуждения
2018 год102,85%Классификация изображений
2018 год96,23%Понимание чтения на среднем уровне
2018 год86,70%Визуальные рассуждения
2019 год103,75%Классификация изображений
2019 год36,08%Многозадачное понимание языка
2019 год103,27%Понимание чтения на среднем уровне
2019 год94,21%Понимание английского языка
2019 год90,67%Визуальные рассуждения
2020 год104,11%Классификация изображений
2020 год60,02%Многозадачное понимание языка
2020 год103,92%Понимание чтения на среднем уровне
2020 год99,44%Понимание английского языка
2020 год91,38%Визуальные рассуждения
2021 год104,34%Классификация изображений
2021 год7,67%Математика уровня конкуренции
2021 год66,82%Многозадачное понимание языка
2021 год104,15%Понимание чтения на среднем уровне
2021 год101,56%Понимание английского языка
2021 год102,48%Визуальные рассуждения
2022 год103,98%Классификация изображений
2022 год57,56%Математика уровня конкуренции
2022 год83,74%Многозадачное понимание языка
2022 год101,67%Понимание английского языка
2022 год104,36%Визуальные рассуждения
2023 год47,78%Научные вопросы уровня PhD
2023 год93,67%Математика уровня конкуренции
2023 год96,21%Многозадачное понимание языка
2023 год71,91%Мультимодальное понимание и рассуждение
2024 год108,00%Научные вопросы уровня PhD
2024 год108,78%Математика уровня конкуренции
2024 год102,78%Многозадачное понимание языка
2024 год94,67%Мультимодальное понимание и рассуждение
2024 год101,78%Понимание английского языка

От ChatGPT до Gemini многие из ведущих мировых моделей ИИ превосходят базовый уровень человека в ряде технических задач.

Единственная задача, в которой системы ИИ до сих пор не догнали людей, — это мультимодальное понимание и рассуждение, которое включает обработку и рассуждение в нескольких форматах и дисциплинах, таких как изображения, диаграммы и диаграммы.

Однако разрыв быстро сокращается.

В 2024 году модель O1 OpenAI набрала 78,2% на MMMU, эталон, который оценивает модели по многодисциплинарным задачам, требующим знаний предмета на уровне колледжа.

Это всего на 4,4 процентных пункта ниже человеческого показателя в 82,6%. Модель O1 также имеет один из самых низких показателей галлюцинаций среди всех моделей ИИ.

Это был большой скачок с конца 2023 года, когда Google Gemini набрал всего 59,4%, что подчеркивает быстрое улучшение производительности ИИ в этих технических задачах.

Чтобы погрузиться во весь контент AI Week, посетите наш центр контента AI, привезенный вам Терзо.

Чтобы узнать больше о мировой индустрии ИИ, ознакомьтесь с этой графикой, которая визуализирует, какие страны выигрывают гонку патентов на ИИ.

Тайлер Дерден
Туэ, 04/29/2025 - 05:45

Читать всю статью