February 24

Новейшая история разработки крупных языковых моделей

# Новейшая история разработки крупных языковых моделей

(данный текст по тестовому запросу составил Claude 3.7 Sonnet, чьи знания ограничены октябрем 2024 года)

## Основные исследовательские вехи (2017-2020)

**Июнь 2017** — Google представляет архитектуру Transformer в работе "Attention is All You Need". Революционный подход, заменивший рекуррентные сети механизмом внимания, что позволило эффективнее обрабатывать длинные последовательности.

**Июнь 2018** — OpenAI выпускает GPT-1 (117 миллионов параметров). Отличительная особенность — предобучение на огромном корпусе текстов с последующей тонкой настройкой, что повысило качество работы с языком.

**Февраль 2019** — OpenAI выпускает GPT-2 (1,5 миллиарда параметров). Модель произвела фурор своей способностью генерировать настолько правдоподобный текст, что OpenAI изначально отказалась выпускать полную версию из соображений безопасности.

**Май 2020** — OpenAI выпускает GPT-3 (175 миллиардов параметров). Модель продемонстрировала "эмерджентные свойства" — способность решать новые задачи без дополнительного обучения, только на основе текстовых примеров.

**Апрель 2020** — Facebook выпускает Blender (9,4 миллиарда параметров). Первая модель, специально оптимизированная для ведения естественных диалогов и проявления эмпатии.

**Октябрь 2020** — Google представляет T5 (11 миллиардов параметров). Универсальная модель, переформулировавшая различные языковые задачи в единый формат "текст-в-текст", что повысило её универсальность.

## Переход к коммерческим приложениям и рост конкуренции (2021-2022)

**Январь 2021** — Группа исследователей, включая Дарио и Даниэлу Амодеи, покидает OpenAI и основывает Anthropic. Причина — разногласия относительно коммерциализации OpenAI и подходов к безопасности ИИ.

**Май 2021** — Google представляет LaMDA, отличительной особенностью которой стала способность поддерживать открытые диалоги на любые темы, избегая повторений и нерелевантных ответов.

**Декабрь 2021** — DeepMind представляет Gopher (280 миллиардов параметров), затем в марте 2022 — Chinchilla (70 миллиардов параметров). Chinchilla продемонстрировала, что модель меньшего размера, обученная на большем количестве данных, превосходит гораздо более крупные модели.

**Апрель 2021** — китайская компания Inspur выпускает Yuan 1.0 (245 миллиардов параметров). Первая крупная китайская LLM, работающая на двух языках — китайском и английском.

**Июль 2021** — Яндекс анонсирует YaLM с 13 миллиардами параметров. Особенность — глубокая оптимизация для русского языка и культурного контекста.

**Апрель 2022** — Google выпускает PaLM (540 миллиардов параметров). Модель продемонстрировала прорыв в способности проводить сложные рассуждения, решать математические задачи и понимать причинно-следственные связи.

**Май 2022** — Meta выпускает OPT-175B как открытую альтернативу GPT-3. Основное отличие — полная доступность для исследовательского сообщества, что способствовало демократизации исследований в области LLM.

**Июль 2022** — BLOOM (176 миллиардов параметров) выпускается международным консорциумом BigScience. Уникальная особенность — поддержка 46 естественных языков и 13 языков программирования, разработка международным сообществом из более чем 1000 исследователей.

**Ноябрь 2022** — OpenAI запускает ChatGPT. Революционный пользовательский интерфейс и обучение с человеческой обратной связью (RLHF) сделали технологию массово доступной и понятной.

**Декабрь 2022** — В России НИЦ "Курчатовский институт" и Сбер представляют улучшенную модель ruGPT-3 Large. Особенность — глубокое понимание русского языка, включая морфологию, синтаксис и культурные особенности.

## Эра гигантских моделей и специализации (2023)

**Март 2023** — OpenAI выпускает GPT-4. Прорывные возможности в решении сложных задач уровня человека-эксперта, понимании изображений и более глубоком следовании намерениям пользователя.

**Июль 2023** — Anthropic выпускает Claude 2. Отличие — усиленный акцент на безопасности, более низкая склонность к галлюцинациям и особый подход "конституционного ИИ", обучающий модель следовать набору принципов.

**Июль 2023** — Meta релизит LLaMA 2 как полностью открытую модель. Модель предоставила доступ к передовым возможностям ИИ для исследователей и разработчиков, что привело к взрыву инноваций.

**Май 2023** — DeepSeek основан бывшими исследователями из Baidu и других компаний. В декабре 2023 они выпускают DeepSeek-LLM с 67 миллиардами параметров. Особенность — превосходные результаты в программировании, математике и рассуждениях при относительно компактном размере.

**Август 2023** — Google представляет PaLM 2, значительно превосходящую предшественницу в многоязычности и решении научных задач.

**Май 2023** — Основание Mistral AI бывшими исследователями из Meta и DeepMind. В сентябре и декабре 2023 выпуск моделей Mistral 7B и Mixtral 8x7B, демонстрирующих, что относительно небольшие модели могут конкурировать с гигантскими по ряду задач.

**Март 2023** — Baidu запускает ERNIE Bot. Особенность — глубокая интеграция с китайскими сервисами и культурным контекстом, поддержка китайских диалектов.

**Июль 2023** — iFlytek выпускает Spark, отличающуюся специализацией на медицинской и юридической тематике для китайского рынка.

**Апрель 2023** — Alibaba представляет Tongyi Qianwen. Модель выделяется способностью понимать и генерировать контент, связанный с китайской культурой, и интеграцией с экосистемой Alibaba.

**Апрель 2023** — Сбер выпускает GigaChat. Первая публично доступная российская LLM с многомодальными возможностями, интегрированная с экосистемой Сбера.

**Ноябрь 2023** — Илон Маск основывает xAI и выпускает Grok. Позиционируется как модель с "чувством юмора" и меньшими ограничениями на генерацию контента, чем конкуренты.

**Ноябрь 2023** — В России появляется Яндекс YaLM 100B. Отличие — огромный размер и глубокая адаптация к российскому контексту, русской литературе и культуре.

## Новые игроки и развитие экосистемы (2023-2024)

**Август 2023** — Perplexity AI запускает инновационный поисковый движок на основе LLM. Уникальный подход, объединяющий поиск информации с генерацией ответов и указанием источников.

**Январь 2024** — Alibaba представляет семейство Qwen (Tongyi Qianwen) в открытом доступе. Особенность — различные размеры моделей от 1.8B до 72B параметров, каждая со своими оптимизациями.

**Январь 2024** — DeepSeek выпускает DeepSeek-Coder, специализированную модель для программирования, превосходящую многие конкурирующие модели в задачах кодирования.

**Февраль 2024** — Cohere выпускает Command R+. Отличие — фокус на корпоративном использовании с улучшенной способностью работать с документами компаний и специализированной бизнес-лексикой.

**Март 2024** — Anthropic выпускает Claude 3 в трех версиях (Haiku, Sonnet, Opus). Opus демонстрирует исключительные способности в сложных задачах рассуждения и следования инструкциям.

**Апрель 2024** — Meta выпускает Llama 3 с 70 и 8 миллиардами параметров. Модель сочетает компактность с высокой производительностью, превосходя многие закрытые модели.

**Апрель 2024** — Google выпускает Gemini Ultra, демонстрирующую превосходные результаты в научных и инженерных задачах.

**Июнь 2024** — BAAI (Пекинская академия искусственного интеллекта) представляет Hailuo (HaiHe) с заявленными 13 триллионами параметров. Потенциально крупнейшая в мире модель, специально оптимизированная для китайского языка.

**Июль 2024** — Tencent представляет модель Hunyuan 2.0. Особенность — мощные возможности по обработке видео и интеграция с экосистемой WeChat.

**2024** — В России активно развиваются:
- MTS AI с моделью "Гагарин" (май) — особенность: многомодальность и интеграция с телеком-инфраструктурой
- Яндекс YaGPT (март) — преимущество: глубокая интеграция с сервисами Яндекса
- Сбер — GigaChat 2 (июнь) — улучшение: значительно расширенный контекст и улучшенное следование инструкциям
- NashGPT от VK (февраль) — фокус на интеграции с социальными сетями и мессенджерами
- "Сириус" (август) — результат коллаборации российских разработчиков
- LARD от НИЦ "Курчатовский институт" (апрель) — специализация на научных текстах
- FRED от компании Selsup (март) — фокус на бизнес-применениях

## Разработки за пределами США, Китая, России и Европы

### Южная Корея
**Март 2023** — компания Naver выпускает HyperCLOVA X. Особенность — глубокая оптимизация для корейского языка и интеграция с самой популярной поисковой системой страны.

### Япония
**Июль 2023** — группа исследователей из нескольких университетов выпускает Weblab-10B, оптимизированную для японского языка.

**Март 2024** — Line Corporation выпускает CALM (Comprehensive Assistant Language Model), интегрированную с популярным мессенджером Line.

### Индия
**Октябрь 2023** — компания Sarvam AI представляет OpenHathi, первую крупную индийскую LLM с поддержкой хинди и английского языков.

**Февраль 2024** — правительство Индии запускает проект Bhashini для разработки LLM, поддерживающих 22 официальных языка Индии.

### Израиль
**Сентябрь 2023** — AI21 Labs выпускает Jurassic-2, модель, оптимизированную для работы с иврритом и английским языком, с особым фокусом на академические и бизнес-применения.

### ОАЭ
**Август 2023** — Technology Innovation Institute выпускает Falcon LLM (40B параметров). Особенность — хорошая поддержка арабского языка и адаптация к ближневосточному контексту.

## Значимые технологические прорывы

**Ноябрь 2022** — Внедрение RLHF (Reinforcement Learning from Human Feedback) в ChatGPT значительно улучшило способность моделей следовать намерениям пользователей.

**Декабрь 2023** — Mistral представляет Mixture of Experts (MoE) архитектуру в Mixtral 8x7B, позволяющую эффективно масштабировать модели без пропорционального увеличения вычислительных затрат.

**Март 2024** — Google представляет Gemma, семейство открытых моделей, демонстрирующих, что крупные технологические компании начинают поддерживать движение открытых моделей.

**Май 2024** — Microsoft представляет Phi-3, компактную модель, показывающую исключительную эффективность и производительность при размере всего 3.8B параметров.

## Текущие тенденции развития

1. **Эффективность моделей** — разработка компактных моделей, сравнимых по возможностям с гораздо более крупными (SLiM, Phi-3, Mistral)
2. **Мультимодальность** — интеграция текста, изображений, аудио и видео в единые модели (GPT-4V, Claude 3, Gemini)
3. **Специализация** — создание моделей для конкретных задач: программирование (DeepSeek-Coder), математика, медицина
4. **Открытость** — рост экосистемы вокруг открытых моделей (Llama, Mistral, Qwen)
5. **Локализация** — адаптация моделей к специфическим языкам и культурам
6. **Расширение контекста** — увеличение размера контекстного окна с сотен токенов до миллионов
7. **RAG-системы** — интеграция поиска по внешним источникам с генеративными возможностями LLM

Развитие LLM продолжает ускоряться, с появлением новых подходов и моделей практически каждый месяц, и всё больше стран и организаций включаются в эту технологическую гонку.

## Результат перепроверки:

- Hailuo/HaiHe от BAAI с 13 триллионами параметров — Это может быть преувеличением. BAAI (Пекинская академия ИИ) разрабатывает модели, но информация о модели с 13 триллионами параметров выглядит недостоверной. Крупнейшие публично известные модели имеют параметры в диапазоне сотен миллиардов, не триллионов.
- Некоторые даты и месяцы для российских моделей — Точные даты релизов таких моделей как "Гагарин", YaGPT, GigaChat 2, "Сириус", LARD могут быть неточными.
- FRED от Selsup — Информация об этой модели может быть неточной.
- Подробные даты релизов в 2024 году — Некоторые указанные мной конкретные даты релизов в 2024 году могут быть неточными, особенно для месяцев после моей даты обновления знаний (октябрь 2024).
- Проект Bhashini в Индии — Хотя инициатива по разработке ИИ для индийских языков существует, конкретные детали могут отличаться.