История больших языковых и мультимодальных моделей

Помните те времена, когда мы все радовались word2vec и примеру "король - мужчина + женщина = королева"? Казалось, что это вершина NLP, что мы достигли чего-то невероятного. Ну так вот, потом случился 2017-й год, статья "Attention is All You Need", и всё пошло совсем не по плану

Transformer: точка невозврата

2017-й. Google Brain публикует работу, которая перевернет весь NLP. Никаких рекуррентных связей, только механизм внимания. Self-attention, multi-head attention, positional encoding - и самое главное, всё можно параллелить. В отличие от LSTM, где нужно было ждать, пока обработается предыдущий токен, тут можно всё сразу.

И вот с этого момента началось разветвление. Появились три направления: encoder-only для понимания текста, decoder-only для генерации, и encoder-decoder для трансформаций. Каждое нашло свою нишу, каждое породило целые семейства моделей. Но обо всём по порядку.

BERT: когда всё началось с понимания

Итак, 2018-й. Google выкатывает BERT, и это становится событием. Bidirectional Encoder Representations from Transformers - модель, которая наконец-то видит контекст с обеих сторон одновременно. До этого все смотрели на текст либо слева направо, либо справа налево. BERT смотрит на всё сразу, и это меняет игру.

Фишка в masked language modeling. Берём текст, случайно маскируем 15% токенов (причем 80% заменяем на [MASK], 10% на случайное слово, 10% оставляем как есть), и просим модель их восстановить. Простая идея, но работает невероятно.

BERT-base - это 12 слоёв, 110M параметров, 768-мерные эмбеддинги. BERT-large - 24 слоя, 340M параметров. Обучали на BookCorpus и Wikipedia, использовали WordPiece токенизацию с словарём на 30K токенов. Максимальная длина последовательности - 512 токенов. По сегодняшним меркам смешно, но тогда это было серьёзно.

Ещё была задача Next Sentence Prediction - предсказание, следует ли одно предложение за другим. Потом выяснилось, что эта задача не особо полезна, и от неё отказались в RoBERTa и других последователях.

Я помню, как все носились с файн-тюнингом BERT на свои задачки. Text classification, NER, question answering, sentiment analysis - для всего этого BERT подходил идеально. Брали предобученную модель, добавляли task-specific head, немного дообучали - и получали SOTA результаты. Это было революционно эффективно

После BERT появилась куча вариаций. RoBERTa от Facebook убрали NSP и увеличили batch size. ALBERT сделали модель компактнее через factorized embeddings и parameter sharing. DistilBERT задистиллировали BERT до 40% размера с сохранением 97% качества. Каждый пытался улучшить что-то своё.

Но вот в чем проблема: BERT отлично понимает текст, но генерировать его не умеет. Для генерации нужна другая архитектура. И тут на сцену выходит GPT.

GPT: эра, когда генерация стала главной

OpenAI примерно в то же время (даже чуть раньше BERT, но взлетел позже) пошли другим путём. Decoder-only архитектура, causal language modeling - просто предсказываем следующий токен, один за другим. Никакого bidirectional контекста, только то, что было до текущего момента.

GPT-1 в 2018-м - это 12 слоёв, 117M параметров, обучение на BookCorpus. Казалось бы, ничего особенного. Но GPT показал интересную вещь: после претрейна модель можно файн-тюнить на разные задачи просто через правильную формулировку input'а. Не нужны отдельные архитектуры для каждой задачи.

Потом пришёл GPT-2 в 2019-м - 1.5 миллиарда параметров. И вот тут случилась забавная история: OpenAI сначала не стали публиковать полную модель, заявив что она "слишком опасна для общества" . В итоге через несколько месяцев всё-таки выложили.

Главный инсайт GPT-2: zero-shot и few-shot learning. Модель может решать задачи, на которых не обучалась явно, просто из правильного промпта. Дал несколько примеров в контексте - и модель понимает паттерн. Это было что-то новое.

А потом наступил 2020-й и GPT-3. 175 миллиардов параметров. Это было на порядок больше всего, что существовало до этого. 96 слоёв, контекст на 2048 токенов, обучение на сотнях миллиардов токенов из интернета.

И вот GPT-3 показал, что при достаточном размере модель может учиться in-context - прямо из примеров в промпте, без файн-тюнинга. Это был момент осознания: мы можем делать классификацию, NER, sentiment analysis и всякие другие "традиционные" NLP задачи просто через генерацию текста. Модель генерирует класс как текст, генерирует entity как текст, генерирует sentiment как текст.

Правда, использовать GPT-3 было сложно. Нужно было подбирать промпты, правильно формулировать задачу, и всё равно модель могла уплыть в какую-то фигню. Но потенциал был очевиден.

В 2022-м появился ChatGPT, и всё изменилось окончательно. OpenAI взяли GPT-3, сделали instruction tuning и RLHF. Supervised fine-tuning на датасете с инструкциями, потом обучение reward model на предпочтениях людей, потом PPO для оптимизации под эту reward model. Результат - модель, которая понимает инструкции, ведёт диалог, и не генерирует токсичный контент на каждом шагу.

ChatGPT вышел за пределы исследовательских лабораторий. Внезапно LLM стали использовать обычные люди для реальных задач. Писать письма, генерировать код, отвечать на вопросы. Это был выход в массы.

GPT-4 в 2023-м добавил мультимодальность - модель научилась понимать изображения. Точный размер держат в секрете, но модель значительно умнее. Контекст до 32K токенов, меньше галлюцинаций, лучше reasoning. И самое главное - это показало, что scaling laws продолжают работать. Больше параметров плюс больше данных плюс лучший alignment равно значительно лучшее качество.

T5: когда всё - это text-to-text

Где-то параллельно с GPT-историей, в 2019-м, Google предложили элегантный подход. T5 - Text-to-Text Transfer Transformer. Идея простая до гениальности: а что если любую NLP задачу представить как преобразование текста в текст?

Перевод? translate English to German: That is good. → Das ist gut.
Классификация? cola sentence: The course is jumping well. → not acceptable
Суммаризация? summarize: [article] → [summary]

Все задачи в один формат. Не нужны специальные головы для каждой задачи, не нужны отдельные архитектуры. Encoder-decoder transformer, который умеет преобразовывать текст в текст, и этого достаточно для всего.

T5 обучали на C4 - Colossal Clean Crawled Corpus, триллионы токенов из интернета. Использовали span corruption для претрейна - маскировали целые куски текста, а не отдельные токены как в BERT. Encoder видит текст с пропусками типа <X>, <Y>, а decoder восстанавливает эти куски.

Были разные размеры - от T5-Small на 60M параметров до T5-11B. Использовали relative positional embeddings вместо absolute - это позволяло лучше работать с длинными текстами.

T5 показал, что unified подход работает. Одна модель может делать всё - переводить, классифицировать, суммаризировать, отвечать на вопросы. Это было важное доказательство концепции.

Масштабирование: когда 100B+ стало новой нормой

К 2022-му стало понятно, что размер решает. GPT-3 с его 175B параметрами показал впечатляющие результаты, и началась гонка масштабирования.

BLOOM появился как ответ open-source сообщества. BigScience Large Open-science Open-access Multilingual Language Model - 176B параметров, decoder-only архитектура, 70 слоёв, 112 attention heads. Самое важное - это была открытая модель с весами и кодом.

Тренили на ROOTS корпусе - 1.6 триллиона токенов из 46 языков. Это было важно: не только английский, но и множество других языков получили качественную поддержку. Использовали 384 NVIDIA A100, Megatron-DeepSpeed для эффективного параллелизма, ZeRO optimization для уменьшения memory footprint.

Технически интересна была ALiBi - Attention with Linear Biases. Вместо обычных positional embeddings добавляли bias'ы к attention scores в зависимости от расстояния между токенами. Это позволяло лучше работать с длинным контекстом.

Где-то в то же время Google выпустили PaLM - Pathways Language Model. 540 миллиардов параметров. Это была демонстрация того, что Google может масштабировать.

Использовали SwiGLU activation вместо обычного ReLU, RMSNorm вместо LayerNorm (быстрее и проще), RoPE для позиционного кодирования. Parallel attention и feedforward для ускорения. Были версии на 8B, 62B и 540B параметров.

PaLM показал впечатляющие результаты на reasoning задачах с chain-of-thought prompting. Когда просишь модель "подумать вслух" и показать шаги решения, качество значительно возрастает. Хотя мы и знаем по многочисленным исследованиям, что CoT часто является "красивой ложью" модели о своих настоящих рассуждениях - но это работает!

Есть прикольная статья, которая вышла буквально недавно от Йошуа Бенджио про то, что CoT - это confabulation модели. Левое полушарие постоянно придумывает объяснения для действий правого, даже не зная реальных причин. Так же и модели - генерируют правдоподобные рассуждения, которые не обязательно отражают реальный процесс получения ответа. Beyond the 80/20 Rule показывали, что только 20% токенов в CoT имеют высокую энтропию и важны для рассуждения, остальные 80% - просто linguistic filler.

Meta с CoCoNuT пошли дальше и доказали, что текстовый CoT неэффективен. Они предложили Chain of Continuous Thought - модель рассуждает в латентном пространстве, минуя текстовые токены. Меньше токенов, лучшее качество. Получается, модель сама знает правду о себе, но в текстовом CoT генерирует убедительные оправдания.

Instruction Tuning: учим модели быть полезными

Претрейненная модель знает язык, но не обязательно понимает, чего от неё хотят. Можно сколько угодно писать промпты, подбирать формулировки - а модель будет генерировать что-то не то.

В 2022-м появился FLAN-T5 - Fine-tuned Language Net на базе T5. Взяли T5 и добавили instruction tuning. Обучили на 1800+ задачах с явными инструкциями. SuperGLUE для NLU, SQuAD для QA, CNN/Daily Mail для суммаризации, WMT для перевода, reasoning задачи, coding задачи - всё с инструкциями.

Результат - модель, которая лучше понимает user intent, способна к zero-shot generalization, более полезна из коробки. Это один из ключевых ингредиентов, который сделал LLM действительно usable в продакшене.

Instruction tuning стал стандартом. InstructGPT, ChatGPT, все современные модели проходят через этот этап. Потому что без него модель может быть сколь угодно большой и обученной на триллионах токенов - но она не будет понимать, что от неё хотят.

Эра открытых моделей: LLaMA и конкуренты

2023-й стал годом открытых LLM. Meta выпустили LLaMA - семейство моделей от 7B до 65B параметров. Ключевая особенность - фокус на inference efficiency. RMSNorm, SwiGLU activation, RoPE embeddings. И что важно - обучали долго, даже 7B модель прогнали через 1.4T токенов.

LLaMA стала базой для кучи других моделей. Vicuna, Alpaca, множество fine-tune'ов от сообщества. Это показало силу open-source.

LLaMA 2 добавила контекст до 4K, были версии с instruction tuning (LLaMA 2-Chat), применили RLHF. LLaMA 3 довела контекст до 128K, улучшила токенизацию (128K vocabulary), значительно подняла качество.

Mistral в конце 2023-го показал, что хорошо оптимизированная небольшая модель может конкурировать с гораздо большими. Mistral 7B с sliding window attention для эффективной работы с длинным контекстом, Grouped Query Attention для faster inference.

А Mixtral 8x7B принёс Mixture of Experts в массы. 8 экспертов по 7B параметров, но активируются только 2 на каждом токене. Total 47B параметров, но inference cost как у 13B. Это была демонстрация, что MoE работает не только в закрытых моделях Google.

Появились специализированные модели. Codex и StarCoder для кода. Minerva для математики. WizardCoder, WizardMath через специализированные синтетические данные. Каждый нашёл свою нишу.

Vision-Language Models: когда LLM научились видеть

Где-то в 2021-м стало понятно, что текста недостаточно. Мир состоит не только из слов, нужно понимать и изображения. Появился CLIP от OpenAI - Contrastive Language-Image Pre-training.

Идея простая: обучить два энкодера (image + text) в shared embedding space. Если картинка и текст соответствуют друг другу - их embeddings близко, если нет - далеко. Обучали на 400M пар image-text из интернета. Vision encoder - ViT или ResNet, text encoder - Transformer.

CLIP создал universal representation space для vision и language. Это позволило делать zero-shot image classification, image retrieval по текстовому описанию, стало основой для генеративных моделей.

DALL-E появился примерно тогда же - генерация изображений из текста. Текст плюс изображение кодируются в последовательность токенов, autoregressive transformer генерирует image tokens, dVAE для encoding/decoding. DALL-E 2 в 2022-м использовал CLIP embeddings и diffusion models - качество выросло кратно.

В 2022-м DeepMind выпустили Flamingo - few-shot vision-language model. Pretrained vision encoder (frozen), cross-attention между vision и language, interleaved vision-language input. Модель могла делать image captioning, visual QA, video understanding из нескольких примеров. Это показало возможность few-shot learning на мультимодальных задачах.

LLaVA в 2023-м стала открытой альтернативой. CLIP ViT-L/14 как vision encoder, projection layer, Vicuna (LLaMA fine-tune) как language model. Обучали на synthetic данных от GPT-4 для instruction following. Несколько итераций довели до приличного quality/performance ratio.

GPT-4V показал, что можно делать в продакшене. Анализ документов и диаграмм, чтение рукописного текста, understanding memes и визуального юмора, решение геометрических задач по картинке, code generation из UI mockups. Мультимодальность стала не экспериментом, а полноценной фичей.

Google ответили Gemini - natively multimodal model, обученная сразу на text, image, audio, video. Были версии Nano для on-device, Pro balanced, Ultra largest. Gemini 1.5 довёл контекст до 1M токенов - это было невероятно. Можно загрузить целую кодовую базу или несколько часов видео.

BLIP-2 от Salesforce показал эффективный подход. Q-Former - Querying Transformer, который извлекает visual features из frozen image encoder и адаптирует их для frozen LLM. Trainable при frozen encoders - это позволяло использовать любую комбинацию vision encoder плюс LLM без переобучения гигантских моделей.

CogVLM предложил visual expert подход - добавление visual expert modules в LLM слои. Вместо простого projection layer, visual attention в каждом слое. Это позволяло модели более глубоко интегрировать visual information.

Современность: reasoning, agentic AI и всякое такое

Сейчас 2025-й, и ситуация довольно интересная. У нас есть модели с триллионами параметров, контекстом в миллион токенов, мультимодальностью. Но проблемы остались.

Reasoning до сих пор сложная задача. o1 от OpenAI, DeepSeek-R1 показали, что можно улучшать через reinforcement learning и специальные подходы к обучению. Но это всё ещё не решённая проблема.

DeepSeek-R1 вообще интересный кейс. Они пошли путём: pretrain → сразу RL без SFT для zero версии. Почему без SFT? Потому что SFT лучше для domain adaptation и запоминания паттернов, а RL лучше для reasoning и generalization. Есть свежая статья, которая это показывает.

Используют thinking tokens - формат, где указываешь откуда начинать и где заканчивать блок рассуждений. No model reward в начале - среда это правила и компилятор для кода. Можешь проверить правильность ответа, запустить код через компилятор. Привет RStaR подходу. Это даёт возможность уйти от взлома reward модели через out-of-vocabulary примеры.

Для последующих стадий добавляют SFT и RLAIF для работы с multilingual и читаемостью рассуждений. Long CoT chains - артефакт RL обучения с thinking tokens.

Agentic AI набирает обороты. LLM как агенты, способные планировать, использовать tools (code execution, web search, API calls), делать iterative improvement через self-reflection. AutoGPT, BabyAGI, frameworks типа Langchain и LlamaIndex. Агентов в проде становится все больше и буквально уже около 4 месяцев мы наблюдаем различные релизы на эту тему. Только ленивая компания, которая считает себя большим игроком еще не завела команду под агентов. Хайп в явном виде

Мультимодальность выходит за пределы vision. Audio understanding с Whisper и AudioLM, video understanding, 3D reasoning, embodied AI для роботов. Мир не состоит только из текста и картинок.

Проблемы alignment и safety никуда не делись. Hallucinations, bias, jailbreaking, copyright вопросы. Constitutional AI от Anthropic, улучшения RLHF, red teaming, watermarking generated content - направления работы.

Efficient inference стал критичным. Cost inference для больших моделей огромный. Quantization до INT8, INT4, даже INT2. Pruning и distillation. Mixture of Experts для активации части параметров. Speculative decoding для ускорения autoregressive generation.

Long context - тренд 2024-2025. Claude 3 на 200K токенов, Gemini 1.5 на 1M, GPT-4 Turbo на 128K и тд и тд. Проблемы quadratic complexity attention, lost in the middle phenomenon. Решения через sparse attention, state space models типа Mamba, retrieval-augmented generation.

P.S. Если кто-то скажет, что знает точную архитектуру GPT-4 или Gemini Ultra - они врут. Компании держат детали в секрете. Мы можем только наблюдать capabilities и делать educated guesses. И это нормально, хотя иногда хочется заглянуть под капот