Последний экзамен человечества
Последний экзамен человечества (англ. Humanity's Last Exam, HLE) — это набор из 2500 однозначных и проверяемых академических вопросов по математике, гуманитарным и естественным наукам, которые были собраны при помощи почти 1000 экспертов-предметников из более чем 500 учреждений в 50 странах. Решение данных задач используется как тест, служащий бенчмарком для больших языковых моделей[1].
История
Тест был разработан и предложен к прохождению компаниями CAIS и Scale AI, на фоне бурного развития и успехов больших языковых моделей, и призван оценить насколько близко AI-агенты приблизились к экспертному уровню[2]. 15 сентября 2024 года был объявлен открытый сбор вопросов для теста, в котором предлагалось принять участие всем желающим. Авторы лучших вопросов получали денежное вознаграждение в $5000 или $500 и могли быть приглашены в соавторы датасета теста[3][4].
Особенностью вопросов является их высокая сложность, но при этом решаемость с однозначным ответом. Например, перевести надпись с римского надгробия, сложность чего заключается в глубоком знании исторического и культурного контекста. Или ответить на вопрос о количестве сухожилий, скрепляющих характерную часть скелета определённого вида колибри. То есть предложенные задачи не являются аналогами задач тысячелетия[4][5].
Результаты
В марте 2025 года разные модели показывали результативность прохождения теста от 3% до 4%[2][6].
| Организация | Модель | Точность (%) ↑ | Ошибка калибровки (%) ↓ |
|---|---|---|---|
| Google DeepMind | Gemini 3 Pro Preview | 37,52 | 57 |
| OpenAI | GPT-5 Pro | 31,64 | 49 |
| Anthropic | Claude Opus 4.5 (Thinking) | 25,20 | 55 |
| Z.ai | GLM 4.5 | 8,32 | 79 |
| Meta AI | Llama 4 Maverick | 5,68 | 83 |
| Mistral AI | Mistral Medium 3 | 4,52 | 77 |
| Amazon Web Services | Nova Pro | 4,40 | 80 |
| Источник: Scale AI (17 декабря 2025)[7] | |||
Примечания
- ↑ Deep Research от OpenAI набрал рекордный балл в «Последнем экзамене человечества». hightech.fm. Дата обращения: 30 марта 2025.
- ↑ 1 2 Suresh, Aditi. Humanity’s Last Exam is the New MultiAgent AI Benchmark (амер. англ.). Analytics India Magazine (24 января 2025). Дата обращения: 30 марта 2025.
- ↑ ван дер Ватт, Юджин. Последний экзамен человечества хочет, чтобы ваши сложные вопросы поставили ИИ в тупик. DailyAI (17 сентября 2024). Дата обращения: 30 марта 2025.
- ↑ 1 2 Submit Your Toughest Questions for Humanity's Last Exam | CAIS (англ.). www.safe.ai. Дата обращения: 30 марта 2025.
- ↑ Humanity's Last Exam. lastexam.ai. Дата обращения: 30 марта 2025.
- ↑ Introducing deep research (амер. англ.). openai.com. Дата обращения: 30 марта 2025.
- ↑ Humanity's Last Exam (англ.). SEAL Leaderboard. Дата обращения: 20 января 2026.
Ссылки
- Humanity's Last Exam Leaderboard (англ.). Scale AI (17 декабря 2025). Дата обращения: 3 января 2026.