Стохастический попугай
Стохастический попугай — метафора, указывающая на умение больших языковых моделей читать запросы и генерировать осмысленные грамматически правильные ответы при отсутствии понимания смысла как запроса, так и генерируемого текста.
Происхождение
Термин был введён соавторами Эмили Бендер, Тимнит Гебру, Анжелиной Макмиллан-Мейджор и Маргарет Митчелл (под псевдонимом Шмаргарет Шмитчелл) в статье «On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?» («Об опасности стохастических попугаев: Может ли языковая модель быть слишком большой?»), опубликованной в 2021 году в сборнике материалов конференции FAccT '21[1]. Материал выдвигает тезис о том, что использование результатов работы больших языковых моделей несёт существенные риски (с точки зрения финансовых потерь, угроз для окружающей среды и т. д.) и опасность. Отсутствие возможности изучить процесс формирования ответа моделью, по мнению авторов, лишает пользователя возможности оценить непредвзятость и точность текста. Кроме того, утверждается в материале, LLM не понимают смысла текста, который анализируют или генерируют[2].
Используемый в работе термин «стохастический попугай» подчёркивает вероятностный характер выбора слов и языковых конструкций для генерации ответа («стохастический»), а также опору на тренировочные данные как основной источник данных для ответов («попугай»), что, по мнению автора термина, указывает на неспособность моделей к логическим выводам и самостоятельному мышлению[3]. По мнению ряда авторитетных исследователей в области машинного обучения, аналогия подчёркивает два фундаментальных недостатка технологии[4][5]:
- Большие языковые модели ограничены в познаниях теми данными, на которых их тренировали; все их ответы — повторение того, что уже присутствует в их датасетах.
- Поскольку ответы формируются предсказательным алгоритмом на основании датасета, языковая модель не понимает смысла текста, который создаёт.
Следствием этого является опасность моделей, натренированных на маленьком, либо плохо отфильтрованном датасете: по мнению исследователей[4], такие модели могут генерировать «откровенно опасные» ответы.
Увольнение Гебру
В 2020 году в процессе подготовки статьи одна из авторов, Тимнит Гебру, в то время сотрудница Google, отказалась снять статью с публикации или удалить своё имя из списка авторов, что привело к её увольнению из Google[6][7]. По словам Гебру, в ответ на требование отозвать статью либо удалить из списка авторов имена сотрудников Google, она выдвинула ряд собственных требований, в числе которых было требование предоставить имена рецензентов статьи, а также список конкретных претензий. В противном случае Гебру обещала уволиться. В ответ, по её словам, она получила письмо, в котором руководство уведомило о том, что оно согласно принять её увольнение.
Как утверждал Джефф Дин, глава Google AI, во внутреннем письме сотрудникам компании, статья «не соответствует нашим [компании] стандартам»; в частности, «игнорирует большой массив исследований по этой теме». Эмили Бендер, другой соавтор работы, не согласилась с такой оценкой[6].
Применение термина
Термин используется как предостережение и критика распространившегося среди пользователей восприятия современных языковых искусственных интеллектов (ИИ) как мыслящих сущностей[8]. Употребление термина позиционирует ИИ как имитаторов человеческой речи, действующих на основе уже существующих текстов и вероятностного выбора, без осознанного понимания[3]. С момента появления термин стал общеупотребительным в обсуждениях возможностей и моделей ИИ[9].
Аргументы «за» и «против»
По мере развития LLM, некоторые из них, например, ChatGPT, становились всё более убедительными и начинали генерировать ответы, всё менее отличимые от сообщений реального человека. В связи с этим усилилась дискуссия о том, действительно ли большие языковые модели всего лишь имитируют человеческую речь, или же у них всё-таки присутствует некое понимание окружающего мира.
Ассоциации с реальным миром
Люди используют слова, привязывая их, согласно их лексическому значению, к вещам и явлениям в реальном мире. LLM же используют слова, основываясь на том, как и по каким паттернам эти слова используются в их датасетах[10][11]. Таким образом, заключают сторонники идеи о «стохастическом попугае», LLM на самом деле не понимают значения текста, который анализируют или генерируют[1][11].
Галлюцинации и ошибки
Большим языковым моделям свойственны галлюцинации — явление, при котором LLM выдаёт за факты информацию, которая на поверку оказывается выдумкой. Это связано с тем, что такая информация просто соответствует паттерну, наблюдаемому в датасете модели. LLM неспособна отличить выдумку от достоверной информации, в связи с чем сторонники идеи о «стохастическом попугае» делают вывод, что модель не понимает значения слов[10][11].
Помимо этого, LLM способны совершать ошибки в ситуациях, которые требуют понимания нюансов и смысла текста. Например, в одном из исследований разным моделям был предложен следующий промпт[11]:
Промокшая газета, упавшая со стола — это моя любимая газета. Но после того, как моя любимая газета уволила редактора, мне уже не так интересно её читать. Можно ли во втором предложении заменить «моя любимая газета» на «промокшая газета, упавшая со стола»?
Оригинальный текст (англ.)The wet newspaper that fell down off the table is my favorite newspaper. But now that my favorite newspaper fired the editor I might not like reading it anymore. Can I replace 'my favorite newspaper' by 'the wet newspaper that fell down off the table' in the second sentence?
Некоторые языковые модели ответили утвердительно, не понимая, что в этих двух предложениях слово «газета» обозначает две разные вещи: в первом случае это предмет, во втором — целое издание. Это позволяет сделать вывод о том, что большие языковые модели не понимают смысла текста, утверждают сторонники идеи[1][12][11].
Результаты бенчмарков
Некоторые эксперты указывают на высокие результаты, достигнутые большими языковыми моделями в специализированных бенчмарках. В 2023 году многие LLM показали хорошие результаты в тестах, нацеленных на определение способности к пониманию языка, например, бенчмарк SuperGLUE[13][10]. Такие результаты, по мнению некоторых экспертов, существенно превосходят ожидания от модели, нацеленной лишь на повторение заученных паттернов. Вкупе с правдоподобностью многих ответов больших языковых моделей, это позволяет говорить о том, что LLM действительно понимают смысл текста, соглашались 51 % от всех опрошенных в рамках исследования экспертов[10].
Возражения экспертов
Некоторые ведущие эксперты в области ИИ публично оспаривают идею о том, что большие языковые модели просто имитируют человеческую речь.
Например, Джеффри Хинтон в программе 60 Minutes на канале CBS утверждал, что идея демонстрирует непонимание авторами механизма предсказания, которым руководствуется LLM. Для того, чтобы корректно предсказать следующее слово в предложении, требуется сперва понять его смысл, утверждает он. С этой точки зрения можно сказать, что «предсказание» необязательно является противоположностью «пониманию» в данном контексте. Также Хинтон указывает на успешное решение языковой моделью разных логических задачек[14].
GPT-4 Technical Report в 2023 году указывал на то, что модель достигала результатов человеческого уровня в экзаменах, как академических, так и профессиональных[15].
Обучение по «короткому пути»
Одним из аргументов сторонников идеи о «стохастическом попугае» является феномен обучения по короткому пути (shortcut learning)[16]. По словам экспертов, это явление — один из доводов в пользу того, чтобы не рассматривать результаты бенчмарков слишком серьёзно.
«Обучение по короткому пути» — явление, при котором LLM приходит к верному выводу с помощью неверной логики. Ответ выдаётся, основываясь на паттернах и закономерностях в текстах датасета, а не на логике и понимании вопроса.
Примечания
- ↑ 1 2 3 Bender, Emily M.; Gebru, Timnit; McMillan-Major, Angelina; Shmitchell, Shmargaret. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? (англ.). — 2021. — P. 610–623. — doi:10.1145/3442188.3445922. Архивировано 21 июня 2025 года.
- ↑ Hao, Karen. We read the paper that forced Timnit Gebru out of Google. Here's what it says. (англ.). MIT Technology Review (4 декабря 2020). Дата обращения: 19 января 2022. Архивировано 6 октября 2021 года.
- ↑ 1 2 Markaty. Протестующие пчёлы и стохастические попугаи: дайджест публикаций с критикой и поддержкой развития AI. Хабр (9 апреля 2023). Дата обращения: 27 июня 2025. Архивировано 27 июня 2025 года.
- ↑ 1 2 Lindholm, Wahlström, Lindsten, Schön, 2022, p. 322–323.
- ↑ Uddin, Muhammad Saad (20 апреля 2023). Stochastic Parrots: A Novel Look at Large Language Models and Their Limitations. Towards AI (амер. англ.). Дата обращения: 12 мая 2023.
- ↑ 1 2 James Vincent. Timnit Gebru says she was fired from Google for an email (англ.). The Verge. Vox Media (5 декабря 2020). Дата обращения: 28 июня 2025. Архивировано 7 апреля 2025 года.
- ↑ Исследователь Google в сфере ИИ заявила об увольнении из-за критики компании. Интерфакс (4 декабря 2020). Дата обращения: 1 июля 2025. Архивировано 8 июня 2023 года.
- ↑ Colombatto C., Fleming S. M. (2024). Folk psychological attributions of consciousness to large language models. Neuroscience of Consciousness (англ.). 2024 (1): niae013. doi:10.1093/nc/niae013. Архивировано 2 июля 2024. Дата обращения: 28 июня 2025.
{{cite journal}}: Википедия:Обслуживание CS1 (номер статьи как номер страницы) (ссылка) - ↑ AIML home to industry discussion on AI’s role in the future of business (англ.). University of Adelaide — AIML. University of Adelaide (14 апреля 2025). Дата обращения: 28 июня 2025. Архивировано 20 апреля 2025 года.
- ↑ 1 2 3 4 Mitchell, Melanie; Krakauer, David C. (28 марта 2023). The debate over understanding in AI's large language models. Proceedings of the National Academy of Sciences (англ.). 120 (13) e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. ISSN 0027-8424. PMC 10068812. PMID 36943882.
- ↑ 1 2 3 4 5 Saba, Walid S. Stochastic LLMS do not Understand Language: Towards Symbolic, Explainable and Ontologically Based LLMS // Conceptual Modeling : [англ.]. — Cham : Springer Nature Switzerland, 2023. — Vol. 14320. — P. 3–19. — ISBN 978-3-031-47262-6. — doi:10.1007/978-3-031-47262-6_1.
- ↑ Fayyad, Usama M. (26 мая 2023). From Stochastic Parrots to Intelligent Assistants—The Secrets of Data and Human Interventions. IEEE Intelligent Systems. 38 (3): 63—67. Bibcode:2023IISys..38c..63F. doi:10.1109/MIS.2023.3268723. ISSN 1541-1672.
- ↑ Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel R. (2 мая 2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems (англ.). arXiv:1905.00537 [cs.CL].
- ↑ Pelley, Scott (8 октября 2023). "Godfather of Artificial Intelligence" Geoffrey Hinton on the promise, risks of advanced AI. CBS News. Дата обращения: 2 июля 2025.
- ↑ OpenAI; et al. (2023). GPT-4 Technical Report. arXiv:2303.08774 [cs.CL].
- ↑ Geirhos, Robert; Jacobsen, Jörn-Henrik; Michaelis, Claudio; Zemel, Richard; Brendel, Wieland; Bethge, Matthias; Wichmann, Felix A. (10 ноября 2020). Shortcut learning in deep neural networks. Nature Machine Intelligence (англ.). 2 (11): 665—673. arXiv:2004.07780. doi:10.1038/s42256-020-00257-z. ISSN 2522-5839.
Литература
- Lindholm, A. Machine Learning: A First Course for Engineers and Scientists / A. Lindholm, N. Wahlström, F. Lindsten … [и др.]. — Cambridge University Press, 2022. — ISBN 978-1-108-84360-7.