От LLM до галлюцинаций: простое руководство по терминам ИИ

Искусственный интеллект — мир глубокий и запутанный. Учёные, работающие в этой сфере, нередко прибегают к жаргону и профессиональному сленгу, чтобы описать свою работу. Поэтому в моих материалах про ИИ мне постоянно приходится использовать эти технические термины. Решили собрать глоссарий с определениями самых важных слов и выражений встречающихся в ТГ канале: @prompt_design

AGI

Artificial general intelligence (общий искусственный интеллект, AGI) — понятие туманное. Обычно речь идёт об ИИ, который превосходит среднестатистического человека во многих, если не в большинстве, задач. Гендиректор OpenAI Сэм Альтман недавно описал AGI как «эквивалент среднего сотрудника, которого вы могли бы нанять». В уставе OpenAI AGI определяется как «высокоавтономные системы, превосходящие людей в большинстве экономически ценной работе». У Google DeepMind видение чуть отличается: там считают AGI «ИИ, который как минимум не уступает человеку в большинстве когнитивных задач». Запутались? Вы не одни — даже ведущие эксперты спорят о точном определении.

AI agent

ИИ-агент — инструмент, использующий технологии искусственного интеллекта для выполнения серии задач от вашего имени, используя дополнительные инструменты помимо LLM. Это может быть всё: от ведения расходов и бронирования билетов до написания и комментирования кода. Однако, как я уже говорил, термин еще не устоялся: «ИИ-агент» может означать разные вещи для разных людей. Инфраструктура всё ещё создаётся, чтобы реализовать задуманное, но базовый смысл — автономная система, которая может задействовать несколько ИИ-моделей, выполняя многошаговые задачи.

Chain of thought

На простой вопрос человек иногда отвечает «не задумываясь» — например, «кто выше: жираф или кот?». Но в более сложных случаях нужны промежуточные шаги и даже ручка с бумагой. Скажем, у фермера кур и коров с общим количеством 40 голов и 120 ног — сколько тех и других? (Ответ: 20 кур и 20 коров.)

В контексте ИИ цепочка-рассуждений для больших языковых моделей — это разбиение задачи на мелкие промежуточные шаги, что повышает качество итогового результата. Ответ формируется дольше, но чаще оказывается верным, особенно в логических или программных задачах. «Модели рассуждения» развиваются из классических LLM и оптимизируются для такого мышления за счёт обучения с подкреплением.

Deep learning

Глубокое обучение — подмножество самообучающегося машинного обучения, где алгоритмы строятся в виде многоуровневых искусственных нейронных сетей. Такая архитектура позволяет выявлять более сложные корреляции, чем простые ML-системы вроде линейных моделей или деревьев решений. Структура вдохновлена нейронными связями человеческого мозга.

Модели глубокого обучения сами «узнают» важные признаки в данных, без явного задания инженерами. Они учатся на ошибках и улучшают результат через повторение и коррекцию. Но им требуется очень много данных (миллионы и больше) и долгое время обучения, что повышает затраты.

Diffusion

Диффузия — технология в сердце многих ИИ-моделей для генерации изображений, музыки и текста. Вдохновлённая физикой, диффузионная система постепенно «разрушает» структуру данных (фото, аудио и т.д.), добавляя шум, пока не останется ничего. В физике процесс необратимый — растворённый в кофе сахар не вернуть в кубик. Задача ИИ — научиться «обратной диффузии», восстанавливая данные из шума и тем самым овладеть способностью создавать новое.

Distillation

Дистилляция — метод «учитель — ученик». Разработчики отправляют запросы большой модели-учителю и сохраняют ответы, иногда сверяя их с датасетом ради точности. Эти ответы служат материалом для обучения модели-ученика, которая стремится воспроизвести поведение учителя.

Так получают более компактную и эффективную модель с минимальной потерей качества. Вероятно, именно так OpenAI создала GPT-4 Turbo.

Хотя все компании применяют дистилляцию внутри, некоторые могли использовать её для «догонки» лидеров — что часто нарушает условия использования API конкурентов.

Fine-tuning

Финальная подгонка модели — дополнительное обучение, оптимизирующее её под более узкую задачу или область, чем исходная. Обычно вносят новый специализированный датасет.

Многие стартапы берут крупные LLM как основу продукта и повышают полезность в целевом секторе, подкрепляя обучение собственными отраслевыми данными и экспертизой.

GAN

Generative Adversarial Network (генеративно-состязательная сеть) — рамочная технология машинного обучения, стоящая за некоторыми ключевыми достижениями генеративного ИИ, например deepfake-инструментами. Пара нейросетей: первая (генератор) создаёт данные, вторая (дискриминатор) оценивает их. Сети «соревнуются»: генератор пытается «обмануть» дискриминатор, а тот — выявить подделку. Состязание без участия человека улучшает реализм результатов. Лучшие области применения — узкопрофильные (реалистичные фото/видео), а не универсальный ИИ.

Hallucination

Галлюцинация — любимый термин индустрии для обозначения того, что ИИ «выдумывает» факты. Генерация неправильной информации — огромная проблема качества. Галлюцинации могут вводить в заблуждение и быть опасны (например, медицинский совет). Поэтому большинство сервисов GenAI часто предупреждают: «проверяйте ответы».

Считается, что причина — пробелы в обучающих данных. Для универсальных моделей («фундаментальных») это трудно исправить: просто не существует данных, чтобы ответить на все мыслимые вопросы.

Из-за галлюцинаций растёт интерес к специализированным вертикальным моделям, где уже меньше пробелов и ниже риск дезинформации.

Inference

Инференс — процесс, когда обученная модель работает, делая предсказания или выводы из раньше увиденных данных. Без обучения инференс невозможен.

Запускать инференс можно на самом разном железе: от мобильных процессоров до GPU и специализированных ускорителей. Но большие модели на ноутбуке будут «думать» вечность по сравнению с облачным сервером.

Large language model (LLM)

Большие языковые модели — движок популярных ИИ-ассистентов: ChatGPT, Claude, Gemini, Llama, Microsoft Copilot, Mistral Le Chat и др. Общаясь с ChatGPT (чат ассистента) — вы взаимодействуете с LLM, которая может подключать веб-поиск, интерпретатор кода и прочие инструменты.

У ассистентов и LLM могут быть разные имена: GPT — модель, ChatGPT — продукт.

LLM — глубокая нейронная сеть с миллиардами числовых параметров (весов), изучающая взаимосвязи слов и создающая многомерную «карту» языка.

Модель обучается на миллиардах книг, статей, транскриптов. Получив запрос, она генерирует наиболее вероятный шаблон, затем выбирает следующее вероятное слово и так далее.

Neural network

Нейронная сеть — многоуровневая алгоритмическая структура, лежащая в основе глубокого обучения и всего бума генеративного ИИ после появления LLM.

Хотя идея «моделировать» связи нейронов человека появилась ещё в 1940-х, реальную мощь раскрыл рост GPU (игровая индустрия!). Эти чипы позволили обучать алгоритмы с куда большим числом слоёв, что резко подняло результаты в распознавании речи, автономной навигации, поиске лекарств и т.д.

Training

Обучение — процесс, в котором модель «впитывает» данные, чтобы научиться выявлять закономерности и давать полезные ответы.

До обучения нейросеть — лишь слои и случайные числа. Лишь реагируя на данные, система «формируется», приближая вывод к цели — будь то поиск котов на фото или хайку по запросу.

Не весь ИИ требует обучения: правиловые системы (скриптовые чат-боты) обходятся без него, но их возможности ограничены.

Обучение дорогое — нужны огромные объёмы данных, и эти объёмы растут.

Помогают гибриды: например, тонкая донастройка правиловой модели по данным — требует меньше данных, вычислений и энергии, чем обучение «с нуля».

Transfer learning

Передовое (трансферное) обучение — использование ранее обученной модели как отправной точки для новой, смежной задачи. Экономит время и деньги, полезно, если данных по новой задаче мало. Но у подхода есть пределы: для высоких результатов в узкой области модели всё равно понадобится дополнительное обучение.

Weights

Веса — числовые параметры, задающие важность разных признаков входных данных и формирующие вывод ИИ.

Проще: веса «говорят» модели, что главное в датасете. Изначально они случайны, но в процессе обучения корректируются, приближая результат к цели.

Например, модель оценки цен жилья может назначить веса таким признакам, как число спален и ванн, тип дома, наличие парковки, гаража и т.д. Итоговые веса отражают, как каждый фактор влияет на стоимость в данных.