Последний экзамен человечества

Последний экзамен человечества (англ. Humanity's Last Exam, HLE) — это набор из 2500 однозначных и проверяемых академических вопросов по математике, гуманитарным и естественным наукам, которые были собраны при помощи почти 1000 экспертов-предметников из более чем 500 учреждений в 50 странах. Решение данных задач используется как тест, служащий бенчмарком для больших языковых моделей^[1].

История

Тест был разработан и предложен к прохождению компаниями CAIS и Scale AI, на фоне бурного развития и успехов больших языковых моделей, и призван оценить насколько близко AI-агенты приблизились к экспертному уровню^[2]. 15 сентября 2024 года был объявлен открытый сбор вопросов для теста, в котором предлагалось принять участие всем желающим. Авторы лучших вопросов получали денежное вознаграждение в $5000 или $500 и могли быть приглашены в соавторы датасета теста^[3]^[4].

Особенностью вопросов является их высокая сложность, но при этом решаемость с однозначным ответом. Например, перевести надпись с римского надгробия, сложность чего заключается в глубоком знании исторического и культурного контекста. Или ответить на вопрос о количестве сухожилий, скрепляющих характерную часть скелета определённого вида колибри. То есть предложенные задачи не являются аналогами задач тысячелетия^[4]^[5].

Результаты

В марте 2025 года разные модели показывали результативность прохождения теста от 3% до 4%^[2]^[6].

Производительность различных моделей на бенчмарке
Организация	Модель	Точность (%) ↑	Ошибка калибровки (%) ↓
Google DeepMind	Gemini 3 Pro Preview	37,52	57
OpenAI	GPT-5 Pro	31,64	49
Anthropic	Claude Opus 4.5 (Thinking)	25,20	55
Z.ai	GLM 4.5	8,32	79
Meta AI	Llama 4 Maverick	5,68	83
Mistral AI	Mistral Medium 3	4,52	77
Amazon Web Services	Nova Pro	4,40	80
Источник: Scale AI (17 декабря 2025)^[7]

Примечания

↑ Deep Research от OpenAI набрал рекордный балл в «Последнем экзамене человечества» . hightech.fm. Дата обращения: 30 марта 2025.
↑ ¹ ² Suresh, Aditi. Humanity’s Last Exam is the New MultiAgent AI Benchmark (амер. англ.). Analytics India Magazine (24 января 2025). Дата обращения: 30 марта 2025.
↑ ван дер Ватт, Юджин. Последний экзамен человечества хочет, чтобы ваши сложные вопросы поставили ИИ в тупик (рус.). DailyAI (17 сентября 2024). Дата обращения: 30 марта 2025.
↑ ¹ ² Submit Your Toughest Questions for Humanity's Last Exam | CAIS (англ.). www.safe.ai. Дата обращения: 30 марта 2025.
↑ Humanity's Last Exam . lastexam.ai. Дата обращения: 30 марта 2025.
↑ Introducing deep research (амер. англ.). openai.com. Дата обращения: 30 марта 2025.
↑ Humanity's Last Exam (англ.). SEAL Leaderboard. Дата обращения: 20 января 2026.

Ссылки

Humanity's Last Exam Leaderboard (англ.). Scale AI (17 декабря 2025). Дата обращения: 3 января 2026.

[1] Deep Research от OpenAI набрал рекордный балл в «Последнем экзамене человечества» . hightech.fm. Дата обращения: 30 марта 2025.

[:0-2] ¹ ² Suresh, Aditi. Humanity’s Last Exam is the New MultiAgent AI Benchmark (амер. англ.). Analytics India Magazine (24 января 2025). Дата обращения: 30 марта 2025.

[3] ван дер Ватт, Юджин. Последний экзамен человечества хочет, чтобы ваши сложные вопросы поставили ИИ в тупик (рус.). DailyAI (17 сентября 2024). Дата обращения: 30 марта 2025.

[:1-4] ¹ ² Submit Your Toughest Questions for Humanity's Last Exam | CAIS (англ.). www.safe.ai. Дата обращения: 30 марта 2025.

[5] Humanity's Last Exam . lastexam.ai. Дата обращения: 30 марта 2025.

[6] Introducing deep research (амер. англ.). openai.com. Дата обращения: 30 марта 2025.

[7] Humanity's Last Exam (англ.). SEAL Leaderboard. Дата обращения: 20 января 2026.

[1]

[2]

[3]

[4]

[5]

[6]

[7]