Визуализация ИИ против производительности человека в технических задачах
Разрыв между человеческим и машинным мышлением сокращается. И быстро.
За последний год системы искусственного интеллекта продолжали быстро развиваться, превзойдя человеческую производительность в технических задачах, где они ранее отставали, таких как продвинутая математика и визуальное мышление.
Скриншоты из игры Visual Capitalist's Kayla Чжу визуализирует производительность систем ИИ по сравнению с базовыми показателями человека для восьми контрольных показателей ИИ, измеряющих задачи, включая:
Классификация изображений
Визуальные рассуждения
Понимание чтения на среднем уровне
Понимание английского языка
Многозадачное понимание языка
Математика уровня конкуренции
Научные вопросы уровня PhD
Мультимодальное понимание и рассуждение
Эта визуализация является частью Неделя искусственного интеллекта Visual CapitalistСпонсируется Terzo. Данные взяты из отчета Stanford University 2025 AI Index Report.
бенчмарк ИИ — это стандартизированный тест, используемый для оценки производительности и возможностей систем ИИ по конкретным задачам.
Модели ИИ превосходят людей в технических задачах
Ниже мы показываем, как в последние годы модели ИИ выполняли различные технические задачи по сравнению с базовыми показателями человека.
2012 год | 89,15% | Классификация изображений |
2013 | 91,42% | Классификация изображений |
2014 год | 96,94% | Классификация изображений |
2015 год | 99,47% | Классификация изображений |
2016 год | 100,74% | Классификация изображений |
2016 год | 80,09% | Визуальные рассуждения |
2017 год | 101,37% | Классификация изображений |
2017 год | 82,35% | Понимание чтения на среднем уровне |
2017 год | 86,49% | Визуальные рассуждения |
2018 год | 102,85% | Классификация изображений |
2018 год | 96,23% | Понимание чтения на среднем уровне |
2018 год | 86,70% | Визуальные рассуждения |
2019 год | 103,75% | Классификация изображений |
2019 год | 36,08% | Многозадачное понимание языка |
2019 год | 103,27% | Понимание чтения на среднем уровне |
2019 год | 94,21% | Понимание английского языка |
2019 год | 90,67% | Визуальные рассуждения |
2020 год | 104,11% | Классификация изображений |
2020 год | 60,02% | Многозадачное понимание языка |
2020 год | 103,92% | Понимание чтения на среднем уровне |
2020 год | 99,44% | Понимание английского языка |
2020 год | 91,38% | Визуальные рассуждения |
2021 год | 104,34% | Классификация изображений |
2021 год | 7,67% | Математика уровня конкуренции |
2021 год | 66,82% | Многозадачное понимание языка |
2021 год | 104,15% | Понимание чтения на среднем уровне |
2021 год | 101,56% | Понимание английского языка |
2021 год | 102,48% | Визуальные рассуждения |
2022 год | 103,98% | Классификация изображений |
2022 год | 57,56% | Математика уровня конкуренции |
2022 год | 83,74% | Многозадачное понимание языка |
2022 год | 101,67% | Понимание английского языка |
2022 год | 104,36% | Визуальные рассуждения |
2023 год | 47,78% | Научные вопросы уровня PhD |
2023 год | 93,67% | Математика уровня конкуренции |
2023 год | 96,21% | Многозадачное понимание языка |
2023 год | 71,91% | Мультимодальное понимание и рассуждение |
2024 год | 108,00% | Научные вопросы уровня PhD |
2024 год | 108,78% | Математика уровня конкуренции |
2024 год | 102,78% | Многозадачное понимание языка |
2024 год | 94,67% | Мультимодальное понимание и рассуждение |
2024 год | 101,78% | Понимание английского языка |
От ChatGPT до Gemini многие из ведущих мировых моделей ИИ превосходят базовый уровень человека в ряде технических задач.
Единственная задача, в которой системы ИИ до сих пор не догнали людей, — это мультимодальное понимание и рассуждение, которое включает обработку и рассуждение в нескольких форматах и дисциплинах, таких как изображения, диаграммы и диаграммы.
Однако разрыв быстро сокращается.
В 2024 году модель O1 OpenAI набрала 78,2% на MMMU, эталон, который оценивает модели по многодисциплинарным задачам, требующим знаний предмета на уровне колледжа.
Это всего на 4,4 процентных пункта ниже человеческого показателя в 82,6%. Модель O1 также имеет один из самых низких показателей галлюцинаций среди всех моделей ИИ.
Это был большой скачок с конца 2023 года, когда Google Gemini набрал всего 59,4%, что подчеркивает быстрое улучшение производительности ИИ в этих технических задачах.
Чтобы погрузиться во весь контент AI Week, посетите наш центр контента AI, привезенный вам Терзо.
Чтобы узнать больше о мировой индустрии ИИ, ознакомьтесь с этой графикой, которая визуализирует, какие страны выигрывают гонку патентов на ИИ.
Тайлер Дерден
Туэ, 04/29/2025 - 05:45