Языковая модель рассуждений

Языковая модель рассуждений (англ. Reasoning language models, RLM, большая модель рассуждений, англ. large reasoning model, LRM) — разновидность больших языковых моделей, которые дополнительно обучаются для решения задач, требующих выполнения нескольких последовательных шагов рассуждения[1]. Данные модели демонстрируют превосходство в задачах логики, математики и программирования по сравнению со стандартными большими языковыми моделями. Они способны возвращаться и пересматривать предыдущие шаги рассуждения, а также использовать дополнительное вычислительное время при формировании ответа, что служит ещё одним способом повышения производительности наряду с ростом числа обучающих примеров, параметров и вычислений при обучении[2].

История

2024

В сентябре 2024 года компания OpenAI выпустила модель o1-preview, большую языковую модель с улучшенными возможностями рассуждения[3]. Полноценная версия o1 была выпущена в декабре 2024 года. Также OpenAI начала публиковать результаты следующей версии — o3[4][5][6].

Развитие языковых моделей рассуждений иллюстрирует так называемый «горький урок» Рича Саттона: увеличение вычислительных ресурсов часто приводит к лучшим результатам, чем попытки внедрять специальные человеческие эвристики[7]. Например, лаборатория GAIR исследовала сложные методы, такие как дерево поиска и обучение с подкреплением, чтобы воспроизвести возможности o1. В публикациях «o1 Replication Journey» сообщалось, что дистилляция знаний (обучение малой модели на выходах o1) неожиданно хорошо работает, что подчёркивало эффективность дистилляции в данном контексте[8][9].

Alibaba выпустила версии своих моделей Qwen с возможностями рассуждения в ноябре 2024 года[10]. В декабре 2024 года команда также представила QvQ-72B-Preview — экспериментальную модель визуального рассуждения[11].

В декабре 2024 года Google представила функцию Deep Research в Gemini[12], реализующую многозадачные многошаговые исследования[13].

16 декабря 2024 года эксперимент с моделью Llama 3B показал, что увеличение вычислений только на этапе вывода позволяет относительно небольшой модели опережать значительно большую Llama 70B на сложных задачах рассуждения, что говорит о важности эффективных стратегий инференса даже для маломасштабных моделей[14][15].

2025

В январе 2025 года компания DeepSeek выпустила модель R1, сопоставимую по качеству с o1, но более экономичную. Эта модель показала эффективность метода Относительная группировка политики (GRPO)[16][17]. 25 января 2025 года DeepSeek добавила в R1 возможность одновременного поиска информации в интернете при рассуждении, что облегчило комбинацию поиска и анализа. Эффективность дистилляции для моделей рассуждения была показана также моделью s1-32B, в которой сильное качество достигалось использованием методов ограничения ресурсов и масштабирования[18][9].

2 февраля 2025 года OpenAI выпустила Deep Research на базе модели o3[19], позволив проводить сложные исследовательские задачи и собирать расширенные отчёты с использованием различных источников из интернета[19].

Контролируемое дообучение

Большая языковая модель может быть дообучена на наборе данных, включающем задачи рассуждения с решениями и пошаговыми рассуждениями. Прошедшая дообучение модель затем способна генерировать собственную логическую цепочку для новых задач[20][21].

Поскольку сбор набора ручных рассуждений трудоёмок, для автоматизации разметки применяются такие методы, как дообучение с отбракованными решениями (rejection sampling finetuning, RFT):[22]

  1. Сэмплируется задача.
  2. Генерируется набор рассуждений для этой задачи.
  3. Верификатор отбраковывает варианты с неправильным финальным ответом (и, опционально, дубликаты).

Обучение с подкреплением

Предобученная языковая модель может быть дообучена с использованием методов обучения с подкреплением (RL). В таких задачах генеративная модель рассматривается как политика , задача — как состояние среды , а реакция модели — как действие . Вероятность генерации по запросу записывается .

Обучение модели рассуждения с помощью RL требует построения модели вознаграждения . Высокое вознаграждение означает правильное решение, низкое — ошибку.

Ответ может состоять из нескольких шагов: .

В современных системах чаще используют методы градиентного обновления политики, например, Proximal Policy Optimization (PPO), поскольку такие методы стабилизируют обучение крупных моделей[23].

Модель вознаграждения по результату

Модель вознаграждения по результату (Outcome reward model, ORM) или Outcome-supervised RM[20] назначает награду за шаг в зависимости от финального ответа: . Такие модели ещё называют «верификаторами».

Для задач, где легко проверить, верен ли ответ (например, текстовые математические задачи), результат определяется бинарно: 1 — если ответ правильный, 0 — иначе[20]. Если автоматическая проверка невозможна, требуется ручная разметка, на которой дообучается базовая модель[21]. Для творческих задач (например, сочинения) модели обучают на человеческих ранжированных предпочтениях (см. обучение с подкреплением на человеческой обратной связи)[24]. Базовая модель также может дообучаться на задаче предсказания, исходя из неполного (частичного) рассуждения, вероятности получения правильного финального ответа[20].

Такие модели обычно обучают методом логистическая регрессия, минимизируя кроссэнтропийную функцию потерь[25].

Имея PRM-модель, ORM может быть построена путём суммирования наград процесса, взятия минимума либо других агрегирующих методов. DeepSeek использовала простую ORM для обучения R1[17].

Модель вознаграждения по процессу

Модель вознаграждения по процессу (Process reward model, PRM) или process-supervised RM[20] оценивает качество шага только по текущему прогрессу рассуждения .

Аннотатор может вручную оценивать корректность каждого шага, не зная финального ответа. Это также приводит к бинарной оценке. Поскольку разметка ручным трудом дорога, её пытаются заменить дообучением модели на прогнозировании этих оценок[20]. Стандартное обучение — логистическая регрессия по человеческим меткам[25].

Например, в работе OpenAI 2023 года было собрано 800 тысяч меток для 75 тысяч цепочек рассуждений. Аннотатор отмечал каждый шаг как «положительный» (движение к решению), «нейтральный» (не ошибочен, но не помогает) или «отрицательный» (ошибка); при первой отрицательной метке аннотатор переходил к другому примеру[24][26].

Чтобы обойтись без ручной разметки, предлагаются методы генерации PRM без человеческих меток. Например, метод Math-Shepherd, вдохновлённый поиском по дереву Монте-Карло, прогоняет по несколько вариантов рассуждения с каждого шага, а затем присваивает награду в зависимости от доли правильных финальных ответов (soft/hard estimation)[25]. Некоторые работы используют полностью MCTS-подход[27].

Также возможно построение PRM на основе ORM по аналогии с direct preference optimization[28].

Управляемая генерация и подбор вариантов

Обученная ORM может выступать критиком: политика генерирует несколько ответов, ORM выбирает лучший — реализуя простое масштабирование вычислений на этапе вывода («best-of-N»)[21][29].

Обученная PRM может направлять рассуждение по дереву (tree search): политика выдвигает несколько шагов, PRM выбирает лучший, процедура повторяется. Жадный поиск реализуется так же. Более сложные методы, например, lookahead search, делают короткое форсирование на каждом шаге (rollout), PRM оценивает каждую ветку, выбирается оптимальная[15].

Комбинация self-consistency и ORM: генерируется множество ответов, они кластеризуются по совпадению финальных решений, ORM оценивает каждый, выбирается наиболее надёжный кластер[25].

Бенчмарки

Модели рассуждений практически всегда превосходят обычные языковые модели на тестах, особенно в задачах с несколькими шагами рассуждения[30][31][32][33][34].

Некоторые тестовые наборы исключают такие модели из-за высоких затрат времени и вычислений[35][36][37][38].

Humanity’s Last Exam

Бенчмарк HLE проверяет экспертные способности в рассуждениях по математике, гуманитарным и естественнонаучным дисциплинам и выявляет значительные различия между моделями. Даже новейшие модели показывают невысокие результаты: например, OpenAI o3 набрала 26,6 %[19], облегчённая o3-mini-high (на текстовых вопросах) — 13 %[39].

AIME

В конкурсе AIME (American Invitational Mathematics Examination) стандартные языковые модели обычно решают менее 30 % заданий, а модели рассуждений — от 50 до 80 %[2][17][18]. При этом o1 в 2025 году сохранила или незначительно улучшила точность по сравнению с 2024 годом, тогда как o3-mini (high) показала ещё более высокую точность (80 %) при примерно в 12 раз меньших издержках[40].

Результаты o3-mini

В отчёте OpenAI за январь 2025 года отмечается: регулировка «глубины рассуждения» существенно влияет на успехи модели, особенно в технических задачах. Переход от низкой к высокой степени рассуждения повышает точность на задачах AIME 2024, GPQA Diamond, Codeforces, обычно на 10-30 %. При высокой «глубине» o3-mini (high) достигала 87,3 % на AIME (отличается от MathArena AIME), 79,7 % на GPQA Diamond, 2130 Elo на Codeforces и 49,3 на SWE-bench Verified[40].

Недостатки

Вычислительные издержки

Подобные модели часто требуют гораздо больше вычислений на этапе ответа, чем стандартные языковые модели. Например, в AIME они могут оказаться в 10-74 раза дороже[24]. Они также уязвимы к атакам типа overthinking[41], вызывающим чрезмерно долгие рассуждения и потенциальные перебои в работе сервиса.

Время генерации

Выходные ответы моделей рассуждения обычно объёмнее, чем у стандартных больших языковых моделей, а их генерация занимает значительно больше времени.

Основные модели

  • V3.2
  • V3.1
  • R1 (на базе V3)
  • R1-Lite-Preview (тестовая версия на базе V2.5)
  • QvQ-72B-Preview — экспериментальная визуальная модель рассуждения (запущена 24 декабря 2024), объединяющая обработку изображений и текстовых цепочек рассуждений.
  • QwQ-32B-Preview — экспериментальная текстовая модель рассуждения, ориентированная на сложный пошаговый анализ (ноябрь 2024).
  • Magistral (средние и малые)
  • OlympicCoder-7B и 32B — в рамках проекта открытого воспроизведения обучения R1 (Open R1)[42][43].

Примечания

  1. Besta, Maciej; Barth, Julia; Schreiber, Eric; Kubicek, Ales; Catarino, Afonso; Gerstenberger, Robert; Nyczyk, Piotr; Iff, Patrick; Li, Yueling (23 января 2025). Reasoning Language Models: A Blueprint. arXiv:2501.11223 [cs.CL].
  2. 1 2 Learning to reason with LLMs. OpenAI (12 сентября 2024). Дата обращения: 26 июля 2025.
  3. Edwards, Benj (12 сентября 2024). OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini. Ars Technica (амер. англ.). Дата обращения: 6 февраля 2025.
  4. OpenAI o1 System Card. OpenAI (5 декабря 2024). Дата обращения: 26 июля 2025.
  5. Robison, Kylie (5 декабря 2024). OpenAI launches ChatGPT Pro, a $200/month plan with unlimited access to o1, GPT-4o, and more. The Verge. Дата обращения: 26 июля 2025.
  6. Singh, Jaspreet (20 декабря 2024). OpenAI unveils 'o3' model, touting advances in reasoning. Reuters. Дата обращения: 26 июля 2025.
  7. Sutton, Richard S. The Bitter Lesson. Incomplete Ideas. Дата обращения: 27 февраля 2025.
  8. Huang, Zhen; Zou, Haoyang; Li, Xuefeng; Liu, Yixiu; Zheng, Yuxiang; Chern, Ethan; Xia, Shijie; Qin, Yiwei; Yuan, Weizhe (25 ноября 2024). O1 Replication Journey — Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?. arXiv:2411.16489 [cs.CL].
  9. 1 2 Zeff, Maxwell (5 февраля 2025). Researchers created an open rival to OpenAI's o1 'reasoning' model for under $50. TechCrunch. Дата обращения: 26 июля 2025.
  10. QwQ-32B-Preview: Reflect Deeply on the Boundaries of the Unknown. Qwen (Alibaba Cloud) (28 ноября 2024). Дата обращения: 26 июля 2025.
  11. QVQ: To See the World with Wisdom. Qwen. Alibaba Cloud (25 декабря 2024). Дата обращения: 26 июля 2025.
  12. Try Deep Research and our new experimental model in Gemini, your AI assistant (амер. англ.). Google (11 декабря 2024). Дата обращения: 5 февраля 2025.
  13. Roth, Emma (11 декабря 2024). Google built an AI tool that can do research for you. The Verge. Дата обращения: 26 июля 2025.
  14. Scaling test-time compute. Hugging Face (16 декабря 2024). Дата обращения: 26 июля 2025.
  15. 1 2 Snell, Charlie; Lee, Jaehoon; Xu, Kelvin; Kumar, Aviral (2025). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. International Conference on Learning Representations (ICLR 2025). arXiv:2408.03314. Дата обращения: 26 июля 2025.
  16. Orland, Kyle (28 января 2025). How does DeepSeek R1 really fare against OpenAI's best reasoning models?. Ars Technica. Дата обращения: 6 февраля 2025.
  17. 1 2 3 DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao; Ma, Shirong (22 января 2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948 [cs.CL].
  18. 1 2 Muennighoff, Niklas; Yang, Zitong; Shi, Weijia; Li, Xiang Lisa; Fei-Fei, Li; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Liang, Percy; Candès, Emmanuel (3 февраля 2025). s1: Simple test-time scaling. arXiv:2501.19393 [cs.CL].
  19. 1 2 3 Introducing deep research (амер. англ.). OpenAI (2 февраля 2025). Дата обращения: 5 февраля 2025.
  20. 1 2 3 4 5 6 Uesato, Jonathan; Kushman, Nate; Kumar, Ramana; Song, Francis; Siegel, Noah; Wang, Lisa; Creswell, Antonia; Irving, Geoffrey; Higgins, Irina (25 ноября 2022). Solving math word problems with process- and outcome-based feedback. arXiv:2211.14275 [cs.LG].
  21. 1 2 3 Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; Chen, Mark; Jun, Heewoo; Kaiser, Lukasz; Plappert, Matthias; Tworek, Jerry; Hilton, Jacob (18 ноября 2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168 [cs.LG].
  22. Yuan, Zheng; Yuan, Hongyi; Li, Chengpeng; Dong, Guanting; Lu, Keming; Tan, Chuanqi; Zhou, Chang; Zhou, Jingren (13 сентября 2023). Scaling Relationship on Learning Mathematical Reasoning with Large Language Models. arXiv:2308.01825 [cs.CL].
  23. Aligning language models to follow instructions. OpenAI Blog (27 января 2022). Дата обращения: 4 мая 2025.
  24. 1 2 3 Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John; Sutskever, Ilya (2024). Let's Verify Step by Step. International Conference on Learning Representations (ICLR 2024). arXiv:2305.20050. Дата обращения: 26 июля 2025.
  25. 1 2 3 4 Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, Runxin; Dai, Damai; Li, Yifei; Chen, Deli; Wu, Yu; Sui, Zhifang (Август 2024). Ku, Lun-Wei; Martins, Andre; Srikumar, Vivek (eds.). Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Bangkok, Thailand: Association for Computational Linguistics: 9426—9439. arXiv:2312.08935. doi:10.18653/v1/2024.acl-long.510.
  26. prm800k. GitHub. OpenAI (27 января 2025). Дата обращения: 27 января 2025.
  27. Chen, Guoxin; Liao, Minpeng; Li, Chengxi; Fan, Kai (27 сентября 2024). AlphaMath Almost Zero: Process Supervision without Process. arXiv:2405.03553 [cs.LG].
  28. Yuan, Lifan; Li, Wendi; Chen, Huayu; Cui, Ganqu; Ding, Ning; Zhang, Kaiyan; Zhou, Bowen; Liu, Zhiyuan; Peng, Hao (2 декабря 2024). Free Process Rewards without Process Labels. arXiv:2412.01981 [cs.CL].
  29. Zhang, Di; Wu, Jianbo; Lei, Jingdi; Che, Tong; Li, Jiatong; Xie, Tong; Huang, Xiaoshui; Zhang, Shufei; Pavone, Marco (21 ноября 2024). LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning. arXiv:2410.02884 [cs.CL].
  30. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed; Le, Quoc; Zhou, Denny (10 января 2023). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903 [cs.CL].
  31. Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (7 марта 2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171 [cs.CL].
  32. Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601 [cs.CL].
  33. Qwen; Yang, An; Yang, Baosong; Zhang, Beichen; Hui, Binyuan; Zheng, Bo; Yu, Bowen; Li, Chengyuan; Liu, Dayiheng (2024). Qwen2.5 Technical Report. arXiv:2412.15115 [cs.CL].
  34. Comanici, Gheorghe; Bieber, Eric; Schaekermann, Mike; Pasupat, Ice; Sachdeva, Noveen; Dhillon, Inderjit; Blistein, Marcel; Ram, Ori; Zhang, Dan (22 июля 2025). Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. arXiv:2507.06261 [cs.CL].
  35. Huang, Yuting. Toward Foundation Models for Online Complex Event Detection in CPS-IoT: A Case Study // Proceedings of the 2nd International Workshop on Foundation Models for Cyber-Physical Systems & Internet of Things / Yuting Huang, Christos Zois, Yue Wang … [и др.]. — ACM, 2025. — P. 1–6. — «Although we did not evaluate o1 and o3 models ... their high cost and inference time make them impractical for online CED, which requires frequent, low-latency API requests.». — ISBN 979-8-4007-1608-9. — doi:10.1145/3722565.3727198.
  36. Hu, Zihao; Wang, Yuqing; Sun, Rui; Lu, Haoran; Gong, Qian; Wang, Jinshuai; Gong, Yunlong; Huang, Yiming; He, Peng (13 февраля 2025). Inference-Time Compute: More Faithful? A Research Note. arXiv:2502.09673 [cs.CL]. we were unable to evaluate O1 and R1 …
  37. Chen, Guoliang; Zhu, Zhiyao; Meng, Qinxiang; Liang, Weilin; Ji, Zijie; Liu, Jiangning; Zeng, Jie (7 марта 2025). RealBench: Evaluating LLMs as Verilog Engineers. arXiv:2503.04914 [cs.AI]. For O1-preview, we sample only once due to high cost..
  38. Gupta, Arpit; Schapira, Michael; Gill, Phillipa; Seetharaman, Srinivasan (30 января 2025). On the Feasibility of Using LLMs to Execute Multistage Network Attacks. arXiv:2501.16466 [cs.CR]. We were unable to evaluate o1 … the public API has a safeguard that prevents o1 from executing attacks..
  39. Humanity's Last Exam leaderboard. Safe.ai. Center for AI Safety. Дата обращения: 26 июля 2025.
  40. 1 2 OpenAI o3-mini (амер. англ.). OpenAI (31 января 2025). Дата обращения: 9 февраля 2025.
  41. Abhinav Kumar. OverThink: Slowdown Attacks on Reasoning LLMs (2025).
  42. Open-R1: a fully open reproduction of DeepSeek-R1. Hugging Face (24 февраля 2025). Дата обращения: 26 июля 2025.
  43. OlympicCoder-7B. Hugging Face (11 марта 2025). Дата обращения: 26 июля 2025.

Литература

  • Fortes, Armando. atfortes/Awesome-LLM-Reasoning. GitHub (27 января 2025). Дата обращения: 27 января 2025.
  • Huang, Jie; Chang, Kevin Chen-Chuan (26 мая 2023). Towards Reasoning in Large Language Models: A Survey. arXiv:2212.10403 [cs.CL].
  • Besta, Maciej; Barth, Julia; Schreiber, Eric; Kubicek, Ales; Catarino, Afonso; Gerstenberger, Robert; Nyczyk, Piotr; Iff, Patrick; Li, Yueling (23 января 2025). Reasoning Language Models: A Blueprint. arXiv:2501.11223 [cs.AI].

Ссылки