Последний экзамен человечества

Последний экзамен человечества (англ. Humanity's Last Exam, HLE) — это набор из 2500 однозначных и проверяемых академических вопросов по математике, гуманитарным и естественным наукам, которые были собраны при помощи почти 1000 экспертов-предметников из более чем 500 учреждений в 50 странах. Решение данных задач используется как тест, служащий бенчмарком для больших языковых моделей[1].

История

Тест был разработан и предложен к прохождению компаниями CAIS и Scale AI, на фоне бурного развития и успехов больших языковых моделей, и призван оценить насколько близко AI-агенты приблизились к экспертному уровню[2]. 15 сентября 2024 года был объявлен открытый сбор вопросов для теста, в котором предлагалось принять участие всем желающим. Авторы лучших вопросов получали денежное вознаграждение в $5000 или $500 и могли быть приглашены в соавторы датасета теста[3][4].

Особенностью вопросов является их высокая сложность, но при этом решаемость с однозначным ответом. Например, перевести надпись с римского надгробия, сложность чего заключается в глубоком знании исторического и культурного контекста. Или ответить на вопрос о количестве сухожилий, скрепляющих характерную часть скелета определённого вида колибри. То есть предложенные задачи не являются аналогами задач тысячелетия[4][5].

Результаты

В марте 2025 года разные модели показывали результативность прохождения теста от 3% до 4%[2][6].

Производительность различных моделей на бенчмарке
Организация Модель Точность (%) ↑ Ошибка калибровки (%) ↓
Google DeepMind Gemini 3 Pro Preview 37,52 57
OpenAI GPT-5 Pro 31,64 49
Anthropic Claude Opus 4.5 (Thinking) 25,20 55
Z.ai GLM 4.5 8,32 79
Meta AI Llama 4 Maverick 5,68 83
Mistral AI Mistral Medium 3 4,52 77
Amazon Web Services Nova Pro 4,40 80
Источник: Scale AI (17 декабря 2025)[7]

Примечания

  1. Deep Research от OpenAI набрал рекордный балл в «Последнем экзамене человечества». hightech.fm. Дата обращения: 30 марта 2025.
  2. 1 2 Suresh, Aditi. Humanity’s Last Exam is the New MultiAgent AI Benchmark (амер. англ.). Analytics India Magazine (24 января 2025). Дата обращения: 30 марта 2025.
  3. ван дер Ватт, Юджин. Последний экзамен человечества хочет, чтобы ваши сложные вопросы поставили ИИ в тупик. DailyAI (17 сентября 2024). Дата обращения: 30 марта 2025.
  4. 1 2 Submit Your Toughest Questions for Humanity's Last Exam | CAIS (англ.). www.safe.ai. Дата обращения: 30 марта 2025.
  5. Humanity's Last Exam. lastexam.ai. Дата обращения: 30 марта 2025.
  6. Introducing deep research (амер. англ.). openai.com. Дата обращения: 30 марта 2025.
  7. Humanity's Last Exam (англ.). SEAL Leaderboard. Дата обращения: 20 января 2026.

Ссылки