Gemini (языковая модель)
| Gemini | |
|---|---|
| Тип | семейство больших языковых моделей |
| Разработчик | Google DeepMind |
| Первый выпуск | 6 декабря 2023 |
| Лицензия | проприетарная |
| Сайт | deepmind.google/t… (англ.) |
Gemini (досл. с англ. «Близнецы»; [ˈdʒɛmɪnaɪ] — «Дже́минай») — семейство мультимодальных больших языковых моделей (LLM), разработанное Google DeepMind и являющееся преемником LaMDA и PaLM 2. Эта модель лежит в основе одноимённого чат-бота. К нему относятся версии Gemini Ultra, Gemini Pro, Gemini Flash и Gemini Nano. Первый релиз вышел 6 декабря 2023 года.
18 ноября 2025 года компания Google объявила о выпуске моделей Gemini 3.0 Pro и Gemini 3.0 Deep Think. Эти новые модели пришли на смену Gemini 2.5 Pro и являются самыми мощными среди доступных моделей на ноябрь 2025 года. На момент релиза Gemini 3.0 Pro превзошёл ведущие модели искусственного интеллекта в 19 из 20 протестированных бенчмарках (исключением стал SWE-bench Verified[1], в котором Gemini 3.0 Pro уступил Claude Sonnet 4.5 — 76,2 % vs 77,2 %), включая превосходство над GPT-5 Pro в тесте «Последний экзамен человечества», показав точность 37,52 %[2] против 31,64 % у GPT-5 Pro[3][4].
История
Разработка
Google анонсировала Gemini, большую языковую модель (LLM), разработанную дочерней компанией Google DeepMind на ежегодной конференции Google I/O 10 мая 2023 года. Она была позиционирована как более мощный преемник PaLM 2, однако генеральный директор Google Сундар Пичаи заявил, что Gemini все еще находится на ранней стадии разработки[5][6]. Команда разработки заявила, что в отличие от других языковых моделей Gemini уникальна тем, что она мультимодальна, то есть обучалась не только на выборке текстов, а могла обрабатывать несколько типов данных одновременно: текст, изображения, аудио, видео и программный код[7]. Она была разработана в результате сотрудничества DeepMind и Google Brain — двух подразделений Google, которые были объединены в Google DeepMind месяцем ранее[8]. В интервью американскому журналу Wired генеральный директор DeepMind Демис Хассабис отмечал передовые возможности Gemini, которые, по его мнению, позволят алгоритму превзойти ChatGPT от OpenAI, работающий на GPT-4 и растущую популярность которого активно оспаривали Google с LaMDA и Bard. Хассабис подчеркнул сильные стороны программы AlphaGo от DeepMind, которая привлекла внимание всего мира в 2016 году, победив чемпиона по игре в го Ли Седоля, заявив, что Gemini объединит мощь AlphaGo и других программ LLM от Google и DeepMind[9]. В августе 2023 года издание The Information опубликовало отчет о плане развития Google по разработке Gemini. В отчете говорилось, что компания намечала дату запуска в конце 2023 года[10][11][12][13]. Поскольку Gemini обучался на расшифровках видео с YouTube, к разработке были привлечены юристы, чтобы отфильтровать любые потенциально защищенные авторским правом материалы[10].
В сентябре 2023 года издание The Information сообщило, что нескольким компаниям был предоставлен ранний доступ к бета-версии LLM, которую Google намеревалась предоставить клиентам через сервис Vertex AI от Google Cloud. В публикации также утверждалось, что Google готовит Gemini к конкуренции как с GPT-4, так и с GitHub Copilot от Microsoft[14][15][16].
Запуск
6 декабря 2023 года Пичаи и Хассабис анонсировали версию Gemini 1.0 на виртуальной пресс-конференции[17]. Она включала три модели: Gemini Ultra, разработанную для «очень сложных задач», Gemini Pro, разработанную для «широкого спектра задач», и Gemini Nano, разработанную для «простых задач на мобильных устройствах». На момент запуска Gemini Pro и Nano были интегрированы в смартфон Pixel 8 Pro, в то время как Gemini Ultra должен был стать версией, доступной по подписке «Bard Advanced» и быть доступным разработчикам программного обеспечения в начале 2024 года. Google намеревалась включить Gemini в Поиск, Ads, Duet AI и Google Workspace[18][19][20][21][22][23]. В рекламе преподносили LLM как «крупнейшую и самую мощную модель искусственного интеллекта» Google, разработанную для имитации человеческого поведения[24][20][21], позже заявив, что Gemini не будет публично доступен до следующего года из-за необходимости «обширных испытаний на безопасность»[25][26]. Gemini был обучен и работал на тензорных процессорах (TPU) разработки Google[22][23][27].
Эксперты разных изданий отмечают, что Gemini Ultra превзошел GPT-4, Claude 2 от Anthropic, Inflection-2 от Inflection AI, LLaMA 2 от Meta и Grok 1 от xAI по ряду отраслевых тестов[28][29].
Nano Banana
Nano Banana — неофициальное название модели Gemini 2.5 Flash Image для генерации и редактирования изображений. Модель была запущена 26 августа 2025 года в качестве функции чат-бота Gemini и других продуктов Google[30].
История
Название Nano Banana закрепилось за моделью после того, как в августе 2025 года в таблице лидеров LMArena (англ. LMArena) появилась загадочная модель под кодовым именем nano-banana, которая заняла первое место в категории нейросетей для обработки изображений. Модель получила более 5 миллионов голосов сообщества и установила рекорд по отрыву 1-го места от остальных в рейтинге Elo (171 балл) за всю историю LMArena. 26 августа 2025 года Google официально представила модель под названием Gemini 2.5 Flash Image, сохранив неофициальное название Nano Banana. 20 ноября 2025 года была выпущена улучшенная версия — Nano Banana Pro (официально Gemini 3 Pro Image) с улучшенным рендерингом текста, поддержкой разрешения до 4K и расширенными знаниями о мире[31].
Возможности
Модель позволяет изменять детали изображений, их фоны и объединять фотографии с помощью текстовых запросов (промптов) на естественном языке (лучше всего работает английский в силу особенностей обучения модели[32]). Ключевой особенностью является способность распознавать одного и того же человека или предмет (англ. subject consistency) при множественных правках. Функция слияния многих изображений (англ. multi-image fusion) позволяет объединять до 14 отдельных фотографий в одну композицию (при этом сохраняя идентичность до 5 персонажей и до 6 объектов с высокой точностью) — например, совместить изображение человека из одного снимка, фон из другого и объекты из третьего в единую сцену, а знание анатомии, географии и физических свойств объектов обеспечивает контекстно точные изображения, что снижает количество ошибок. Все созданные изображения содержат SynthID (англ. SynthID) — невидимую цифровую подпись для идентификации AI-сгенерированного контента. Модель доступна через Gemini API, Google AI Studio (англ. Google AI Studio) и Google Cloud Platform (Vertex AI)[33].
Примечания
- ↑ Поднабор SWE-bench Verified (500 задач, признанных корректными (non-problematic)) сформирован OpenAI совместно с авторами SWE-bench (SoftWare Engineering Benchmark включает 2 294 реальные задачи на GitHub) на основе ручной проверки (human annotation) задач 93 Python-разработчиками.
- ↑ Gemini 3 Deep Think достиг 41 %, по данным Google.
- ↑ A new era of intelligence with Gemini 3 (англ.). Google (18 ноября 2025). Дата обращения: 3 января 2026.
- ↑ Humanity's Last Exam (англ.). Scale AI. Дата обращения: 3 января 2026.
- ↑ Grant, Niko (10 мая 2023). Google Builds on Tech's Latest Craze With Its Own A.I. Products. The New York Times (англ.). Архивировано 10 мая 2023. Дата обращения: 1 октября 2025.
- ↑ Ortiz, Sabrina (10 мая 2023). Every major AI feature announced at Google I/O 2023. ZDNET (англ.). Архивировано 10 мая 2023. Дата обращения: 1 октября 2025.
- ↑ Google says new AI model Gemini outperforms ChatGPT in most tests. the Guardian (англ.). 6 декабря 2023. Архивировано 6 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ Nast, Condé (11 сентября 2023). Sundar Pichai on Google's AI, Microsoft's AI, OpenAI, and … Did We Mention AI?. WIRED (амер. англ.). Архивировано 11 сентября 2023. Дата обращения: 1 октября 2025.
- ↑ Nast, Condé (26 июня 2023). Google DeepMind CEO Demis Hassabis Says Its Next Algorithm Will Eclipse ChatGPT. WIRED (амер. англ.). Архивировано 26 июня 2023. Дата обращения: 1 октября 2025.
- ↑ 1 2 How Google is Planning to Beat OpenAI (амер. англ.). The Information. Дата обращения: 1 октября 2025. Архивировано 15 августа 2023 года.
- ↑ Grant, Niko (20 января 2023). Google Calls in Help From Larry Page and Sergey Brin for A.I. Fight. The New York Times (англ.). Архивировано 20 января 2023. Дата обращения: 1 октября 2025.
- ↑ Seetharaman, Miles Kruppa and Deepa. WSJ News Exclusive | Sergey Brin Is Back in the Trenches at Google (амер. англ.) (недоступная ссылка — история). The Wall Street Journal (21 июля 2023). Дата обращения: 1 октября 2025.
- ↑ Carter, Tom (7 декабря 2023). Google confirms that its cofounder Sergey Brin played a key role in creating its ChatGPT rival. Business Insider (амер. англ.). Архивировано 7 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ Google nears release of AI software Gemini, The Information reports. Reuters (амер. англ.). Архивировано 15 сентября 2023. Дата обращения: 1 октября 2025.
- ↑ Google is quietly handing out early demos of its GPT-4 rival called Gemini. Here's what we know so far about the upcoming AI model. Business Insider (амер. англ.). Архивировано 23 сентября 2023. Дата обращения: 1 октября 2025.
- ↑ OpenAI Hustles to Beat Google to Launch ‘Multimodal’ LLM. The Information. Дата обращения: 1 октября 2025. Архивировано 18 сентября 2023 года.
- ↑ Google Announces AI System Gemini After Turmoil at Rival OpenAI - WSJ (6 декабря 2023). Архивировано 6 декабря 2023 года.
- ↑ Edwards, Benj. Google launches Gemini—a powerful AI model it says can surpass GPT-4 (англ.). Ars Technica (6 декабря 2023). Дата обращения: 1 октября 2025.
- ↑ Google launches Gemini—a powerful AI model it says can surpass GPT-4. Ars Technica (амер. англ.). 6 декабря 2023. Архивировано 6 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ 1 2 Google launches Gemini, upping the stakes in the global AI race (англ.). AP News (6 декабря 2023). Дата обращения: 1 октября 2025.
- ↑ 1 2 Google launches Gemini, upping the stakes in the global AI race. AP News (англ.). 6 декабря 2023. Архивировано 6 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ 1 2 Pierce, David. Google launches Gemini, the AI model it hopes will take down GPT-4 (амер. англ.). The Verge (6 декабря 2023). Дата обращения: 1 октября 2025.
- ↑ 1 2 Google launches Gemini, the AI model it hopes will take down GPT-4. The Verge (англ.). 6 декабря 2023. Архивировано 6 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ Brian Fung, Catherine Thorbecke (6 декабря 2023). Google launches Gemini, its most-advanced AI model yet, as it races to compete with ChatGPT | CNN Business. CNN (англ.). Архивировано 6 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ n2:0099-9660 - Search Results. search.worldcat.org. Дата обращения: 1 октября 2025.
- ↑ Kruppa, Miles. Google Announces AI System Gemini After Turmoil at Rival OpenAI (амер. англ.). The Wall Street Journal (6 декабря 2023). Дата обращения: 1 октября 2025.
- ↑ Nast, Condé (6 декабря 2023). Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT. WIRED (амер. англ.). Архивировано 6 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ Google DeepMind Unveils Its Most Powerful AI Offering Yet. TIME (англ.). Архивировано 6 декабря 2023. Дата обращения: 1 октября 2025.
- ↑ Milmo, Dan (6 декабря 2023). Google says new AI model Gemini outperforms ChatGPT in most tests. The Guardian (брит. англ.). 0261-3077. Дата обращения: 1 октября 2025.
- ↑ Introducing Gemini 2.5 Flash Image, our state-of-the-art image model (англ.). Google Developers Blog (25 августа 2025). Дата обращения: 6 января 2026.
- ↑ Nano-Banana (Gemini 2.5 Flash Image): Try it on LMArena (англ.). LMArena News (1 сентября 2025). Дата обращения: 6 января 2026.
- ↑ Laura Vargas-Parada. Large language models are biased — local initiatives are fighting for change (англ.). Nature (27 ноября 2025). — «AI systems are built mostly on data using these widely spoken languages, especially English, for which there are plenty of tools and data needed for natural-language processing». Дата обращения: 6 января 2026.
- ↑ Image generation with Gemini (aka Nano Banana & Nano Banana Pro) (англ.). Google AI for Developers. Дата обращения: 6 января 2026.