Локис Александр

Вопросы с собесов. Деревья и ансамбли

abletobetable — Thu, 17 Apr 2025 16:33:47 GMT

Собрал подборку популярных вопросов с технических собеседований по теме деревьев решений и ансамблей — с подробными ответами и пояснениями. Подходит как для повторения перед интервью, так и для закрепления теории.

А ещё по этим вопросам провели мок-собес с моей ученицей — полезно, если хочется посмотреть, как это выглядит в формате собеседования.

Как выглядит алгоритм построения решающего дерева?

Начинаем с корня — берём весь обучающий датасет
Выбираем лучший признак и значение для сплита (критерия ветвления)
Разбиваем данные на две части по этому сплиту
Повторяем шаги для каждой части — рекурсивно строим поддеревья
Останавливаемся, если выполнен критерий остановки; тогда вершина становится листом

Критерии ветвления:

gini или entropy - классификация
mse или mae - регрессия

Критерий остановки:

достигнута максимальная глубина
в узле мало или много объектов
прирост информации от нового сплита слишком мал

Пример решающего дерева

Какие есть критерии сплиттинга? Джини, энтропия, мсе

Gini

Интуиция: вероятность, что случайно выбранный элемент будет неправильно классифицирован, если мы выберем класс случайно по распределению в узле.

первый вариант джини

второй вариант записи джини

где p_i - доля i-го класса в листе.

Особенности:

Быстро считается.
Часто используется по умолчанию (например, в DecisionTreeClassifier из sklearn).

Entropy

Интуиция: мера "неопределённости" или "хаоса" — насколько непредсказуемо распределение классов.

формула энтропии

где p_i - доля i-го класса в листе.

На практике разница в выборе критерия редко сильно влияет на итоговую модель — важнее настройка других параметров (например, глубины, минимального количества в узле и т.д.).

В чём разница между классификацией и регрессией в деревьях?

Классификация:

предсказываем метки классов
Используем gini или энтропию
самый популярный класс по объектам в листе (мода)

Регрессия:

предсказываем числовое значение
Оптимизируем mse/mae во время сплита
Используем среднее / медиану в листе как предсказание

Какие есть плюсы и минусы решающего дерева?

Плюсы:

Хорошо работают с нелинейными зависимостями
Интерпретируемость: легко объяснить, почему модель приняла решение
Работает с категориальными и числовыми признаками
Не требует нормализации данных

Минусы:

Легко переобучается, особенно при большой глубине
Плохо работает с трендами
Очень чувствительны к гиперпараметрам

Почему деревья плохо улавливают тренды и не умеют экстраполировать?

todo

Как глубина влияет на дерево?

Маленькая глубина → недообучение (underfitting): модель слишком простая, плохо захватывает зависимости.

Слишком большая глубина → переобучение (overfitting): модель подстраивается под шум в данных, плохо обобщает. Крайний случай, например, когда дерево поместила каждый объект обучающей выборки в отдельный лист, в таком случае у нас идеальные метрики на трейне и очень плохие на тесте.

Обычно глубина дерева — один из основных гиперпараметров для настройки

Пример переобученного = очень глубокого дерева для классификации

Пример переобученного = очень глубокого дерева для регрессии

Как можно регуляризировать решающее дерево?

Ограничить максимальную глубину дерева (max_depth)
Задать минимальное количество объектов в узле (min_samples_split, min_samples_leaf)
Ограничить максимальное число признаков для выбора сплита (max_features)
Использовать pruning (обрезку лишних веток после обучения)
max_leaf_nodes — ограничивает общее число листьев в дереве
min_impurity_decrease - минимальный прирост критерия сплита

Почему деревья не чувствительны к масштабированию признаков?

Потому что они не используют расстояния. Сплиты происходят по порогам типа: "если x > 3, то идти влево", и не важно, в каком масштабе заданы значения — хоть в сантиметрах, хоть в метрах.

Как оценить важность признаков по дереву?

Обычно важность признака измеряется как суммарное снижение impurity (Gini или энтропии), которое произошло благодаря разбиениям по этому признаку, по всем уровням дерева.

В ансамблях деревьев (например, в Random Forest) эти значения усредняются по всем деревьям.

Что такое бэггинг?

Бэггинг (Bagging) — это метод ансамблирования, в котором используется несколько одинаковых моделей, обученных на разных случайных подмножествах обучающих данных. Модели обучаются параллельно, а затем их прогнозы усредняются (для регрессии) или берётся мода (для классификации), чтобы получить итоговое решение.

Что такое бустинг?

Бустинг — это метод ансамблирования, в котором модели обучаются последовательно. Каждая последующая модель пытается исправить ошибки предыдущих. Например, слабые модели (например, слабые деревья) обучаются на ошибках предыдущих моделей, усиливая их предсказания на тяжёлых объектах.

Что такое стекинг?

Стекинг (Stacking) — это метод ансамблирования, при котором несколько моделей обучаются на исходных данных, а затем их предсказания используются как входные данные для мета-модели (вторичного уровня). Мета-модель учится на прогнозах базовых моделей и даёт итоговое предсказание.

Что такое bias-variance decomposition? Какой тип ансамблирования, что оптимизирует?

Bias-Variance Decomposition — это концепция, которая помогает понять, как ошибки модели можно разделить на две основные составляющие:

Bias (смещение) — ошибка, возникающая, когда модель слишком простая и не может захватить все закономерности в данных. Это приводит к систематической ошибке в предсказаниях.
Variance (вариативность) — ошибка, возникающая, когда модель слишком сложная и слишком чувствительна к случайным колебаниям данных, что приводит к нестабильным и переобученным предсказаниям.
Noise (шум) — это неизбежная ошибка, которая не может быть уменьшена ни с помощью улучшения модели, ни с помощью большого объёма данных.

Полная ошибка модели может быть разложена на три части:

Разложение ошибки на компоненты

Бэггинг - уменьшает вариенс и уже обладает низким смещением.

Как бэггинг уменьгает в К раз разброс (вариенс)

Бустинг имеет низкий вариенс и уменьшает смещение.

Стекинг явно ничего из этого не призван минимизировать.

Что такое бутстреп?

Бутстрэп (Bootstrap) — это метод случайного выбора подмножества данных с возвращением (т.е. с повторениями). В контексте бэггинга, для каждой базовой модели создаётся случайное подмножество обучающих данных путём повторного выбора объектов из исходного набора.

Что такое случайные лес? Где там случайность?

Случайный лес (Random Forest) — это ансамбль решающих деревьев, построенных на случайных подмножествах данных и признаков. Случайность здесь проявляется как в процессе бутстрэппинга (создание случайных подмножеств данных), так и в случайном выборе подмножества признаков на каждом сплите дерева.

Почему в Random Forest при выборе признаков на каждом сплите используют случайное подмножество признаков?

Это делается для того, чтобы снизить корреляцию между деревьями в лесу и улучшить общую производительность модели. Если все деревья будут использовать одни и те же признаки, они будут более похожи друг на друга, что приведёт к менее разнообразным решениям.

С точки зрения bias-variance decomposition мы хотим строить максимально разнообразные деревья и как можно больше их. То есть мы строим экспертов в своей области (по подмножеству данных и признаков), а потом их усредняем.

Да и просто с точки зрения логики - зачем нам строить одинаковые деревья?)

Почему градиентный бустинг называется градиентным? Где там градиент?

Когда мы говорим, что обучаемся на ошибках предыдущих моделей, мы:

выбираем функцию потерь
она зависит от таргета и нашего предсказания
после очередного шага считаем антиградиент в точке a_k(x_i) предсказания текущей части композиции на объекте x_i
обучаем следующий алгоритм на значение антиградиента

Таким образом мы обучаемся на ошибках, но не совсем на остатках (разницы между предсказанием и таргетом), а на значение антиградиента, что, например, для функции потерь mse одно и то же.

функция потерь

градиент (и также просто остаток)

Почему нельзя в качестве базовых алгоритмов использовать линейные модели, например?

Потому что будет линейная комбинация линейных моделей - это бессмысленно, будет просто та же самая линейная комбинация.

Где деревья глубже бустинг/бэггинг?

В бэггинге обычно деревья глубже, а бустинге с ограничением, чтобы не переобучаться.

Если в бустинге в какой-то момент будет переобучение - вырулить из этого никак не получится.

А в бэггинге даже если будет несколько переобученных деревьев, эффект от них может быть некритичным, так как мы берем несколько алгоритмов и усредняем их предсказаниях.

Что если сделать первое дерево очень глубоким в бэггинге/бустинге?

В бэггинге:

Если первое дерево очень глубокое, оно будет склонно к переобучению на обучающих данных, так как оно будет слишком подстраиваться под шум и выбросы в данных. Однако, поскольку в бэггинге используются ансамбли деревьев, остальные деревья будут обучаться на других подмножествах данных, и, возможно, это частично уменьшит влияние переобучения первого дерева. Но в целом такое дерево может ухудшить стабильность ансамбля.

В бустинге:

Если первое дерево слишком глубокое, это может усилить переобучение с самого начала. В бустинге каждая модель обучается на ошибках предыдущей, и если первое дерево слишком сильно подгоняет данные, оно будет давать плохие результаты для последующих моделей. Если у нас первое дерево уже переобучилось - что тогда делать другим деревьям, трейн данные мы уже идеально запомнили. Это может повлиять на стабильность и общую точность всей модели. Поэтому в бустинге часто ограничивают глубину деревьев для предотвращения этого.

Что если убрать первое дерево в бэггинге/устинге?

В бэггинге:

Если удалить первое дерево, в ансамбле всё равно останется множество других деревьев, и они будут давать разнообразие прогнозов. Так как в бэггинге важно среднее усреднение множества деревьев, удаление одного не сильно повлияет на итоговый результат, особенно если количество деревьев велико. Однако, если деревьев мало, удаление может снизить точность ансамбля.

В бустинге:

Если удалить первое дерево в бустинге, это сломает всю последовательность обучения, так как каждое следующее дерево пытается исправить ошибки предыдущего. Без первого дерева у модели не будет фундамента для исправления ошибок, и это может значительно снизить эффективность ансамбля. Это нарушает основной принцип бустинга, и результат будет хуже.

Можно ли переобучить бустинг? а бэггинг?

Да, бустинг легко переобучается, особенно при слишком большом количестве итераций, сложных базовых моделях.

Бэггинг в целом более устойчив к переобучению, поскольку каждое дерево обучается на случайных подмножествах данных. И при увеличении числа базовых алгоримтов переобучить ансамбль не получится.

Как можно регуляризировать ансамбли?

Для регуляризации можно:

Ограничить глубину деревьев и настраивать другие гиперпараметры.
Использовать бутстрэппинг и случайный выбор признаков (для Random Forest).
Использовать методы ранней остановки (early stopping) в бустинге.
Применять методы усечения моделей (например, ограничение на максимальное количество итераций).

Отличия LightGBM, XGBoost, CatBoost?

В основном в форме деревьев.

LightGBM

На каждом шаге выбираем вершину для ветвления с наилучшим скором
Дерево получается несимметричным
В этом алгоритме быстро подстраиваемся под трейн данные, поэтому можно быстрее переобучиться
Основной критерий остановки - максимальная глубина

LightGBM

XGBoost

Строим дерево последовательно по уровням до достижения максимальной глубины
Дерево получается симметричным, а иногда и бинарным
Такому алгоритму тяжелее переобучиться, чем LightGBM

XGBoost

CatBoost

Все вершини одного уровня имеют одинаковых предикат (см картинку ниже). предикат = условие ветвления
Такое жесткое ограничение является сильным регуляризатором
Также из-за отсутствия вложенных if-else ускоряется инференс дерева

CatBoost

Как делать трейн/тест сплит для стекинга?

Для стекинга важен out-of-fold split. Каждый базовый классификатор обучается на части данных (например, с использованием кросс-валидации), а затем делает предсказания на оставшихся данных, которые не использовались в обучении. Эти предсказания (out-of-fold) используются для тренировки мета-модели.

Часто делают кросс-валидацию, чтобы в итоге обучаться на всех данных.

трейн базовых алгоритмов на фолдах и предиктим новые фичи

на новых фичах обучаем мета-модель

Ссылки

Видео с мок-собесом

Блогпосты

Вопросы с собесов. RNNs: рекуррентные нейронные сети

abletobetable — Tue, 08 Apr 2025 16:29:22 GMT

Разберем RNN от А до Я: как отвечать на собеседованиях и что знать про них для работы!

Что такое RNN?

Тип нейросети, предназначенный для работы с последовательностями.

Последовательно проходят по последовательности: обновляют и передают скрытое представление на следующий шаг.

Так как у нас одинаковые блоки и те же параметры, то мы как будто зацикливаемся над ячейкой - отсюда рекуррентность.

h - скрытое состояние

x - новый элемент последовательности

Что такое Bidirectional RNN?

Две рекуррентных подсети:

прямая (forward, токены в нее подаются от первого к последнему)
обратная (backward, токены подаются в обратном порядке)

Можно аггрегировать не только конкаетнацией, но и усреднением, например.

Какие проблемы возникают при работе с RNN?

При обратном распространении ошибки мы будем умножать n раз на матрицу весов (где n - длина входа). Поэтому если у нас там большие собственные числа, то будет “взрыв” градиента, если маленькие, то “затухание”.

Ванишинг градиент (затухание градиента)

При обучении на длинных последовательностях градиент становится слишком малым, и ранние токены не оказывают влияния на выход.

Exploding gradient (взрыв градиента)

Градиенты становятся слишком большими, что приводит к нестабильному обучению.

Затрудненное запоминание долгосрочной информации

Базовые RNN плохо работают с зависимостями на длинных расстояниях из-за затухания градиента в том числе

Что такое LSTM?

У нас есть теперь не только скрытые состояния h_t (краткосрочная память), но еще и состояния блока c_t (долгосрочная память).

Forget gate (вентиль забывания)
На основании входа x_t и предыдущего скрытого состояния h_t-1 решаем какую долю из состояния блока c_t-1 на прошлом шаге пропустить.

Формула такая же как и обычной рнн, но меняются активация - на сигмоиду.
То есть получаем маску после сигмоиды и поэлементно умножаем на c_t-1.
Сигмоида из-за своего выхода на промежуток [0; 1] больше подходит для интерпретации, что забыть, а что пропустить.
Здесь обучаемые параметры учатся на то, чтобы эффективно определять, что нужно забыть, а что не надо забывать.

Input gate (вентиль входного состояния)

По той же формуле считаем с тангенсом новое состояние блока c_t по x_t и h_t-1. Но также накладываем маску после сигмоиды, но уже с параметрами, которые учатся определять, что нужно пропускать, а что пропускать не надо. Хотя шаблон слоев одинаковый.
Потом после гейта забывания и гейта входа суммируем полученное и это будет итоговое состояние c_t.

Output gate (вентиль выходного состояния)

По все той же формуле определяем какую долю выученной информации c_t отправить дальше на основании x_t и h_t-1.

Плюсы:

более умный подход, чтобы обрабатывать входы и выходы

Минусы:

громоздкая архитектура
нужно 2 состояния: скрытое h и обычное c

Что такое GRU?

Упрощение LSTM.

Оставляем только одно скрытое представление.

Теперь только 2 гейта: update и reset gate.

update - играет роль input и forget вентилей из LSTM
reset - решаем какие активации заново проинициализировать

По формулам все примерно то же самое. Но параметров меньше, обучается быстрее и часто на то же качество.

Какие особенности RNN по сложности реализации?

линейна по сложности от длины последовательности
но не распараллелить, потому что нужно проходить последовательно один за другим
квадратичная по размеру внутреннего представления

В чем отличие трансформеров от RNN?

Вопросы с собесов. База по NLP

abletobetable — Mon, 07 Apr 2025 10:07:56 GMT

Рассмотрим самые популярные вопросы по классическому NLP: от предобработки текста до Word2Vec.

Вопросы:

Какие основные задачи решает NLP?
Какие основные этапы обработки текста в NLP?
В чем разница между лемматизацией и стеммингом?
Что такое стоп-слова и почему их нужно удалять?
Что такое Bag of Words (BoW)?
Что такое TF-IDF (Term Frequency-Inverted Document Frequency)?
Что такое BM25?
Что такое word embeddings?
Как считается близость между векторами?
Что такое Word2Vec?
Что такое FastText?
Что такое GloVe (Global Vectors for Word Representation)?

Какие основные задачи решает NLP?

Классификация / регрессия текста
определение тональности, спам-фильтры, анализ тематики, предсказание возраста / цены
Извлечение информации
Named Entity Recognition, факты
Генерация текста
чат-боты, LLM, текстовые автодополнения, машинный перевод, RAG
Ранжирование / поиск
Как семантический поиск, так и поиск по ключевым словам
Векторные представления
Для того, чтобы добавить текстовые признаки в какую-нибудь другую модель

Какие основные этапы обработки текста в NLP?

фильтрация
токенизация
лемматизация / стемминг
векторное представление

В чем разница между лемматизацией и стеммингом?

Стемминг — алгоритмический подход, который просто отрезает окончания (не всегда грамматически правильно).
(пример: "running" → "run", но "studies" → "studi")
Лемматизация — использует морфологические базы и правила языка, поэтому точность выше.
(пример: "бегущий" → "бежать")

Что такое стоп-слова и почему их нужно удалять?

Стоп-слова — это часто встречающиеся слова (например, "и", "в", "на", "the", "is"), которые мало влияют на смысл текста. Они удаляются, чтобы снизить размерность и шум в данных при анализе.

Что такое Bag of Words (BoW)?

Составляем вектор текста по частоте встречаемости слов в нем.

Исключаем заранее заданные стоп-слова.

Особенности:

Не учитывает семантику и порядок (синонимы будут разными векторами)
Может приводить к разреженным векторам (особенно для больших корпусов)
Требует больших объемов памяти
Требует сильной предобработки

Что такое TF-IDF (Term Frequency-Inverted Document Frequency)?

Вместо обычной частоты слова, мы балансируем между распространенными и редкими (потенциально более информативными словами).

TF(t,d) * IDF(t,D)

где TF (Term Frequency) — частота появления термина в документе

IDF (Inverse Document Frequency) — обратная частота документа

Вектор представления документа будет выглядеть как набор tf-idf по словам в корпусе.

А именно:

там будет столько элементов, сколько у нас уникальных слов
для каждого слова мы будет считать TF(t, d) * IDF(t, D)
таким образом у нас все вектора будут одного размера и каждый текст будет иметь свое уникальное векторное представление

Плюсы:

Простота реализации
Эффективность для небольших корпусов

Минусы:

Не учитывает порядок слов
Плохо работает с многозначными словами
Нормализация по длине документа не всегда адекватна
Требует больших объемов памяти

Что такое BM25?

BM25 (Best Matching 25) — улучшенная версия TF-IDF, используемая в поисковых системах для ранжирования документов.

Плюсы:

Просто и быстро работает
Лучше ранжирует релевантные документы
Нормализует длину документа, устраняя проблему TF-IDF
Используется в полнотекстовом поиске (Elasticsearch)

Минусы:

Не учитывает порядок слов
Чувствителен к гиперпараметрам

Что такое word embeddings?

Word embeddings — это метод представления слов в виде плотных (dense) векторов в многомерном пространстве, где семантически похожие слова располагаются ближе друг к другу. В отличие от Bag of Words и TF-IDF, embeddings захватывают контекст и смысл слов.

Как считается близость между векторами?

косинусная близость - косинус угла между векторами (скалярное произведение / нормы векторов)

евклидовое расстояние - корень из суммы квадратов разностей между координатами

манхеттенское расстояние - сумму модулей разности между координатами

Что такое Word2Vec?

Метод получения вектора слова фиксированного размера = его эмбеддинга по контексту этого слова.

Проходимся окном контекста по тексту и может обучаться на 2 задачи: Skip-Gram или CBOW.

Skip-Gram — из центрального слова предсказываем контекст

для небольших корпусов, хорошо работает даже с редкими словами

CBOW — по сумме векторов контекста предсказываем само слово

быстрее обучается и для популярных слов качество выше

Как мы видим, у нас есть две большие матрицы U и V. В одной лежат вектора слов, когда они являются контекстом, а в другой когда они центральное слово.

Это все дело обучаем, используя косинусную близость, то есть увеличиваем скалярное произведение векторов слов, которые находятся в одном контексте, и отдаляем их друг от друга, если они не встречаются вместе.

Слова из контекста несложно получить - просто проходимся окном фиксированного размера и на каждом шаге имеем центральное слово и слова контекста.

Негативные слова мы случайно семплируем из всех остальных слов в словаре, это существенно ускоряет обучение, по сравнению с тем, когда мы для всех слов не из контекста увеличиваем расстояние.

Семплируем взвешенно относительно частоты встречаемости слова в корпусе, но корректируем таким образом, чтобы немного чаще выбирались более редкие слова (возводим частоту в степень ¾)

Шаги 1, 2, 3 нам напоминают формулу софтмакса, а это на самом деле и хорошо.

И теперь мы можем обучать наш word2vec с помощью sgd на кросс-энтропию между истинным распределением и предсказанным.

Плюсы:

Хорошо улавливает семантические и синтаксические связи между словами
Интерпретируемость –Близкие по смыслу слова оказываются рядом в векторном пространстве.
Простота использования – Готовая реализация в библиотеках
Работа с контекстом – Учитывает окружение слов

Минусы:

Не учитывает многозначность слов – Каждому слову соответствует один вектор, даже если оно имеет несколько значений
Не обрабатывает OOV-слова – Если слова не было в обучающей выборке, модель не сможет создать для него вектор
В разных предложениях эмбеддинг слова будет один и тот же, в отличие, например, от моделей типа BERT.

Что такое FastText?

Улучшает Word2Vec, разбивая слова на n-граммы.

Помогает работать с морфологически богатыми языками, редкими словами, опечатками, незнакомыми словами.

Вектор слова — это сумма векторов н-граммы слова.

Что такое GloVe (Global Vectors for Word Representation)?

Объединяет частотные подходы и обучение через SGD как у Word2Vec.

Работает так:

строим матрицу со встречаемости слов в корпусе
получается большая квадратная матрица
нормализуем частоты, чтобы сгладить слишком частые и редкие слова
у нас также есть 2 матрицы для векторов слов
обучаем с помощью SGD на лосс таким образом, чтобы вектора слов были другу на друга более похожи, если их совстречаемость выше

Плюсы:

Учитывает глобальную статистику корпуса (Word2Vec работает только на локальных окнах контекста)
Хорошо отражает семантические и синтаксические связи между словами
Обучается быстрее, чем Word2Vec (потому что использует матричное представление)

Минусы:

Требует большого корпуса для построения матрицы совместных встречаемостей
Потребляет много памяти (матрица соразмерна квадрату словаря)
Дает статические векторы, которые не зависят от контекста (в отличие от, например, эмбеддингов BERT)

Вопросы с собесов. Регуляризация в DL

abletobetable — Thu, 03 Apr 2025 11:38:07 GMT

Рассмотрим какие методы регуляризации есть в DL: от изменений лосс функций и до вмешательства в архитектуру модели.

Подобные вопросы не редкость на собеседованиях по глубокому обучению. Более того, неправильный ответ на них выдаёт вас за новичка, поскольку они уже стали базой собесов!

Dropout

Во время обучения:

С заранее заданной вероятностью обнуляем случайные признаки перед слоем. То есть накладываем маску из единиц и нулей на слой. Можем обнулять как входные признаки, так и внутренние представления.

Сделано это для того, чтобы модель училась использовать как можно больше своих нейронов, не подстраиваясь под возможный шум в данных. Таким образом избегаем переобучения сети.

Применение dropout

Во время инференса:

Конечно, мы не хотим делать жизнь модели тяжелее во время ее применения, поэтому обнулять активации нейронов не надо.

Но необходимо умножить все выходы нейронов на (1 - p), где p - это вероятность обнуления, чтобы распределение на инференсе совпадало с распределением на трейне.

Также есть обратный дропаут (аналогичный способ использовать дропаут), когда мы во время трейна умножаем на 1/(1-p), а на инференсе ничего не меняем.

Batch Norm

Мотивация батч нормализации в том, чтобы контролировать распределения активаций нейронов после слоя.

Это достигается за счет того, что мы на трейне:

сначала считаем матожидание и дисперсию по батчу
нормируем представление по формуле

нормировка

а потом делаем масштабирование с помощью умножение на scale (бета) и прибавление shift (гамма), эти параметры обучаются

масштабирование

Этот шаг нужен, чтобы с помощью обучающих параметров модель могла отменить нормализацию с прошлого шага

На инференсе у нас, конечно, нет подсчета статистик по батчу, хотя бы потому что батч может быть из одного элемента. Поэтому во время обучения мы также накапливаем скользящее среднее матожидания и дисперсии, чтобы потом их использовать на инференсе.

скользящее среднее

Обучаемые параметры бета и гамма также остаются и мы выученные значения используем по той же схеме во время инференса.

Плюсы:

ускоряет и улучшает сходимость, можно использовать более высокие learning rate-ы
уменьшает зависимость нейронной сети от начальной инициализации
в какой-то степени помогает бороться с переобучением, поэтому его и называют методом регуляризации

Существуют и другие способы нормировать промежуточные представления: instance normalization, layer normalization (используется в трансформерах) и по другим возможным размерностям.

Weight decay

По сути это L2 регуляризация, встроенная в оптимизатор AdamW, рассмотренный здесь.

регуляризация

То есть мы накладываем штраф за слишком большие по норме веса.

Label smoothing

Техника регуляризации, которая добавляет шум в целевым меткам, предполагая, что разметка может сама по себе где-то неправильной.

Принцип работы довольно прост:

Выбираем небольшую константу e (эпсилон)
Заменяем жесткие таргет лейблы 0 и 1 на e/k и 1 - e(k-1)/k

k - кол-во классов

Было

Стало

Пример результата работы label smoothing из статьи:

эффект от label smoothing

Аугментация

Аугментация данных или создание новых семплов на основе уже имеющихся тоже является методом регуляризации, так как мы в этом случае боремся с переобучением модели и делаем ее устойчивой к более разнообразным данным.

Например, в компьютерном зрении аугментацией может служить: поворот, разворот, переворот, добавление шума и тд. Объект на картинке не изменит свою метку класса после таких преобразований.

Ранняя остановка

Давайте вдумаемся, что такое регуляризация - это когда мы вмешиваемся в обучение модели и накладываем какие-то ограничения на разные аспекты ее обучения: в лосс функцию, в архитектуру, в данные.

Early stopping тоже регуляризация, потому что мы не даем модели достаточно времени на запоминание и прерываем оптимизацию раньше времени.

Обычно если модель склонна к переобучению, то это можно будет отследить на лоссе на валидации - он начнет расти, при падающем лоссе на трейне.

Заключение

Не переобучайтесь - обобщайтесь

Оптимизаторы в DL. От SGD до AdamW

abletobetable — Sat, 29 Mar 2025 04:58:03 GMT

Вопрос про то, какие есть оптимизаторы в глубоком обучении и какие у них особенности и отличия друг от друга очень популярный. В этом блоге разберем, как именно нужно отвечать на этот вопрос)

Для начала, пару слов о терминологии:

Оптимизировать будем функцию потерь, то есть некоторый функционал качества работы модели. Например, MSE или logloss.
Оптимизировать = искать глобальный (в идеале) минимум этой функции потерь.
Оптимизируем с помощью движения в сторону антиградиента, а тому как именно двигаться и будет посвящена эта статья.
Антиградиент - потому что градиент показывает наискорейшее локальное возрастание функции. Мы хотим искать убывание, то есть берем градиент со знаком минус = антиградиент.

1. GD: Gradient Descent

Считаем градиент по всей обучающей выборке.
Смещаемся в сторону антиградиента со скоростью learning rate по формуле:

GD формула

Может быть довольно точным, но считать градиент на всей выборке просто вычислительно нереально)

Поэтому придумали SGD.

2. SGD: Stochastic Gradient Descent

Нарезаем датасет на батчи: группы данных. Причем очень важно перемешать датасет и выдавать батчи случайно от эпохи к эпохе.
Считаем градиент по батчу
Смещаемся в сторону антиградиента со скоростью learning rate по все той же формуле:

SGD формула

Плюсы:

Баланс между скоростью и стабильностью
Прост в реализации
Кроме градиентов и весов модели ничего не нужно держать в оперативной памяти

Минусы:

Может застревать в локальных минимумах
Нужно подбирать learning rate

3. SGD с импульсом (Momentum)

Отличие от SGD в том, что мы дополнительно накапливаем градиенты с прошлых шагов и двигаемся не только в сторону “жадного” антиградиента на текущем шаге, но и в сторону общего движения оптимизации.

Пытаемся решить проблему того, что градиент показывает только в сторону локального изменения функции потерь, а мы целимся в сторону глобального минимума.

Считаем градиент по батчу
Считаем момент / импульс / скорость по формуле (1)
Смещаемся в сторону антиградиента со скорректированной скоростью по формуле: (2)

Momentum формула

Плюсы:

Ускоряет обучение в направлениях с устойчивым градиентом.
Сглаживает колебания в шумных градиентах.
Быстрее обычного SGD.
Лучше проходит "овраги" в ландшафте функции потерь.

Минусы:

Может "проскочить" минимум.
Нужно в оперативной памяти дополнительно хранить моменты.

4. Nesterov Accelerated Gradient (NAG)

Отличие от обычного момента в том, что мы как бы заглядываем в будущее и рассчитываем направление оптимального движения оттуда. Грубо: сначала смещаемся по моменту, а только потом по антиградиенту. Если до сих пор непонятно, то лучше всмотреться в формулу

Считаем градиент по батчу
Считаем момент / импульс / скорость по формуле (1)
Смещаемся в сторону антиградиента со скорректированной скоростью по формуле: (2)

Nesterov momentum формула

Видно, что изменился подсчет градиента, считаем не просто по тета, а по тета минус импульс

Плюсы:

Улучшенный Momentum, который "заглядывает вперед".
Корректирует градиент с учетом будущего шага.
Лучше сходится на сложных функциях.

Минусы:

Чуть сложнее в реализации.
Нужно в оперативной памяти дополнительно хранить моменты.

5. AdaGrad (Adaptive Gradient)

Делает адаптивные шаги, то есть у разных параметров разные по скорости шаги, тем самым выравнивает скорость в среднем на всем обучении. Логика в том, чтобы делать маленькие шаги при очень больших суммарных градиентах, и увеличивать скорость при небольших суммарных градиентах. Такое возможно за счет деления на корень из суммы квадратов градиентов.

Считаем градиент по батчу
Обновляем сумму квадратов градиентов (1)
Делим скорость learning rate на корень из суммы квадратов градиентов (эпсилон нужен, чтобы случайно на 0 не разделить)
Смещаемся в сторону антиградиента со скорректированной скоростью по формуле (2):

Adagrad

Плюсы:

Адаптивный learning rate для каждого параметра.
Большие градиенты уменьшают шаг, малые — увеличивают.

Минусы:

Learning rate может стать слишком малым (обучение останавливается).
Нужно в оперативной памяти дополнительно хранить квадраты градиентов.

5. RMSprop

Решаем проблему остановки обучения из-за очень низкого learning rate с помощью экспоненциального сглаживания. В остальном то же самое.

Считаем градиент по батчу
Обновляем сумму квадратов градиентов через скользящее среднее (1)
Делим скорость learning rate на корень из суммы квадратов градиентов (эпсилон нужен, чтобы случайно на 0 не разделить)
Смещаемся в сторону антиградиента со скорректированной скоростью по формуле (2):

Плюсы:

Исправляет проблему AdaGrad (не дает learning rate слишком уменьшиться).

Минусы:

Нужно подбирать gamma.
Нужно в оперативной памяти дополнительно хранить квадраты градиентов.

6. Adam (Adaptive Moment Estimation)

Комбинация Momentum и RMSprop, то есть адаптивный learning rate + учет истории градиентов.

Считаем градиент по батчу
Обновляем момент (1)
Обновляем сумму квадратов градиентов через скользящее среднее (2)
Смещаемся по формуле (3):

Плюсы:

Один из самых популярных оптимизаторов.
Хорошо работает "из коробки".

Минусы:

Иногда сходится к субоптимальным решениям
Требует тонкой настройки
Нужно в оперативной памяти дополнительно хранить моменты и квадраты градиентов.

7. AdamW

Улучшенный Adam с правильным учетом L2-регуляризации (weight decay).

Это сделано для того, чтобы эффект L2-регуляризации не затухал со временем и обобщающая способность модели была выше.

Плюсы и минусы такие же как у Адама, но чуть лучше сходится за счет регуляризации.

Заключение

Конечно, есть и другие оптимизаторы, и они даже используются на практике, но про них не спрашивают на собеседованиях и не особо часто используют в реальных задачах. Поэтому достаточно просто знать, что иногда придется использовать что-то кроме адама, например, lion.

Также не забывайте, что есть разные оптимизаторы специально придуманные для мульти-гпу, например, LARS, LAMB.

Но для собесов и работы до определенного момента достаточно знать только рассмотренные выше.

Вопросы с собесов. Функции активации в DL

abletobetable — Thu, 27 Mar 2025 18:55:38 GMT

Функции активации пронизывают все нейронные сети. Зачем это нужно и какие именно активации использовать — обсудим в этом блоге.

Подобные вопросы не редкость на собеседованиях по глубокому обучению. Более того, неправильный ответ на них выдаёт вас за новичка, поскольку они уже стали базой собесов в DL.

Зачем нужны функции активации?

Они нужны для внесения нелинейности в модель, что позволяет нейронным сетям аппроксимировать сложные функции.

Без них сеть свелась бы к одной линейной трансформации, а использование нескольких слоёв в том же многослойном перцептроне не имело бы смысла.

Какие бывают функции активации, их плюсы и минусы?

Sigmoid

Плюсы:

хороша для вероятностей
ограниченная область значений

Минусы:

на «хвостах» обладает практически нулевой производной, что может привести к затуханию градиента
максимальное значение производной составляет 0.25, что также приводит к затуханию градиента
нет симметричности относительно нуля
вычислительно сложно считать экспоненту

Tanh

Плюсы:

симметрична относительно 0, подходит для центровки данных.
ограниченная область значений

Минусы:

всё ещё имеет проблему затухания градиента
требует вычисления экспоненты, что является достаточно сложной вычислительной операцией

ReLU (Rectified Linear Unit)

Плюсы:

простая, быстрая в вычислении
не вызывает проблем с градиентами для положительных значений

Минусы:

Может вызывать проблему "dead neurons" из-за нулевой производной у отрицательных значений

Leaky ReLU

Плюсы:

решает проблему dead neurons, пропуская небольшое отрицательное значение

Минусы:

гиперпараметр наклона требует настройки

ELU (Exponential Linear Unit)

Плюсы:

сглаживает нулевую точку, помогает избежать dead neurons.

Минусы:

дороже в вычислениях, чем ReLU.

Конечно, кроме рассмотренных есть и другие функции активации, например, GELU (активно используемый в трансформерах), но на собеседованиях обычно спрашивают только про самые основные.

Заключение

Используйте функции активации.

Но используйте с умом, хотя бы для того, чтобы градиент не затухал.

Как оценивать качество генеративных моделей?

abletobetable — Sun, 23 Mar 2025 17:50:06 GMT

Оценка качества генеративных моделей — ключевой этап разработки, позволяющий определить, насколько хорошо модель справляется с поставленной задачей.

Также это не самый редкий вопрос на собеседованиях и важный пункт в ML System Design)

Существует два основных подхода к оценке: автоматические метрики и ручная оценка.

Автоматические метрики

Автоматические метрики позволяют быстро и объективно оценивать качество сгенерированного текста.

1. Exact match — проверяет точное совпадение с правильным ответом.

2. BLEU (Bilingual Evaluation Understudy) — измеряет точность совпадений n-грамм в сгенерированном и эталонном текстах (часто используется в машинном переводе). Также накладывает штраф за краткость.

BLEU формула.

Где

BP — это штраф за краткость, учитывающий длину сгенерированного текста по сравнению с ссылочным текстом(ами).
n — максимальный рассматриваемый порядок n-грамм (обычно 4).
P_i — это точность i-граммы между сгенерированным текстом и ссылочным текстом(ами).

формула штрафа за краткость

Где

c — длина сгенерированного текста
r — длина ближайшего ссылочного текста

3. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) — применяется для оценки суммаризации, например, сравнивая n-граммы с таргетом.

Общая формула ROUGE

Существует несколько видом оценки ROUGE. Ниже приведены наиболее популярные ее разновидности.

ROUGE-N: Эта метрика считает, сколько слов из вашего резюме встречается в референсном резюме.

ROUGE-1 считает, сколько отдельных слов из вашего резюме встречается в референсном резюме.

ROUGE-2 считает, сколько пар слов из вашего резюме встречается в референсном резюме.

ROUGE-L: Эта метрика считает, сколько слов в вашем резюме образуют самую длинную общую последовательность слов в референсном резюме. Это позволяет оценить, насколько ваше резюме похоже на референсное.

4. METEOR — расширяет BLEU, учитывая синонимы и морфологические вариации слов.

5. BERTScore — использует эмбеддинги BERT для оценки семантического сходства между сгенерированным и эталонным текстами. статья

6. Seahorse — бенчмарк и специально обученная модель на оценку качества суммаризации. статья

7. LLM as a judge — использование больших языковых моделей (LLM) для оценки генерации. блогпост huggingface
Могут быть очень полезны в случаях, когда требуется оценить очень много текстов без привлечения людей. Но в таком подходе оценка качества это тоже сгенерированный текст, который снова требует валидации)

Автоматические метрики оценки генерации текста могут быть полезны как прокси-метрики, например, для быстрого сравнения гипотез во время активной фазы исследования, но полагаться на них полностью будет не совсем правильно.

Те же BLEU / ROUGE не улавливают смысл предсказания и таргета, поэтому имеют потолок в адекватности своей оценки, то есть начиная с какой-то порога по качеству сгенерированного текста такие метрики не смогут улавливать улучшения и нужно будет применять ручную оценку.

Ручная оценка

Ручная оценка проводится экспертами в предметной области или с привлечением асессоров.

Обычно люди смотря на следующие критерии оценки качества:

Осмысленность (coherence) — логичность и связность текста.
Грамматическая правильность — наличие ошибок и соответствие нормам языка.
Стиль и естественность — насколько текст похож на человеческое письмо.
Фактическая точность — корректность представленных фактов (актуально для генерации ответов на вопросы и новостных статей).

Схемы оценивания генерации:

текст <–> бинарная оценка
логично такую схему реализовать в том числе прямо в сервисе и собирать фидбэк юзеров через лайк / дизлайк
текст <–> вещественная оценка
или от 1 до 10, например
side-by-side: winner > loser
как между ответами разных моделей, так и между таргетом и предсказанием

Заключение

Заранее продумайте иерархию метрик для оценки качества вашей модели.

Автоматизируйте валидацию с использованием bleu/rouge и тд.

Улучшайте систему оценки с помощью ручных методов.

Обзор и развитие LLM алаймента: История и современные практики

abletobetable — Tue, 07 Jan 2025 12:59:37 GMT

Что такое алаймент больших языковых моделей, как развивался и куда идем

Что такое alignment больших языковых моделей и зачем он нужен?

Большие языковые модели становятся все более совершенны, они не только хорошо генерируют текст, но и неплохо справляются с выполнением различных заданий, например, машинный перевод, суммаризация, вопросно-ответные системы, создание контента и другие.

Однако даже самые продвинутые LLM не всегда ведут себя корректно. Ответы языковых моделей могут не просто не соответствовать ожиданиям пользователей, отвечая нерелевантно или не точно следуя инструкции, но и генерировать неэтичный или небезопасный контент.

Alignment - это процесс выравнивания намерений большой языковой модели с намерениями человека.

В общем понимании alignment важен по трем причинам. В английском это правило трех H:

Honest
Helpful
Harmless

То есть модель должна быть честной и не пытаться обмануть пользователя. В тоже время была полезной, генерировала ответ строго по инструкции в приятном и удобном для конкретного случая виде, но при этом не распространяла опасную и вредную информацию. На самом деле здесь есть трейд офф между полезностью и безопасностью, потому что у каждого пользователя свои границы того, что считать полезным ответом, а что неэтичным. Задача алаймента минимизировать риски, связанные с использованием больших языковых моделей, при этом улучшив пользовательский опыт.

Роль алаймента в пайплайне обучения LLM.

Обычно пайплайн обучения больших языковых моделей состоит из следующих этапов:

Сбор большого корпуса текстовых данных, без какой либо разметки. Дальше предобучение на задачу предсказания следующего токена на этом корпусе.

На этом этапе модель получается очень умной, она знает все о мире, что мы смогли уложить в обучающий корпус, но она по-большому счету бесполезна, так как умеет лишь предсказывать следующий токен, но быть удобной и безопасной она не умеет.

Следующий этап это составление датасета инструкций: запрос - ответ, и дообучение претрен модели на нем - SFT, instruction tuning этап.

Здесь мы закладываем в модель навыки выполнения инструкций, она учится понимать, что от нее требуется, какие задачи нужно выполнять, как общаться с пользователем. На этом этапе модель не просто умная, но и существенно более полезная.

Заключительный этап - это Alignment. Здесь мы закладываем в LLM ценности, которым хотим, чтобы она следовала. Чтобы ее ответ был более естественным и сильнее нравился пользователем.

На самом деле, в сообществе есть мнение, что 20% усилий и 80% результата достигаются за счет простого SFT, то есть этапа instruction-tuning. А оставшиеся 80% усилий и 20% результата это alignment, потому что поведение модели обычно меняется не так сильно после него, особенно если требования не самые специфичные. В то время, как времени и денег на сбор датасета и проведения экспериментов по дообучению тратится сильно больше, чем на простой instruction tuning.

В каком виде собирать датасет для алаймента?

Выбор формата датасета для финальной стадии обучения LLM важный вопрос, от которого зависят трудозатраты при обучении и итоговое качество модели, поэтому сразу о нем проговорим.

Глобально можно выделить 3 формы датасетов.

Инструкция - ответ

Формат такой же как и для обычного instruction tuning.

Плюсы:

легко собирать
быстро обучать, много доступных и понятных библиотек и фреймворков
прогнозируемый результат

Минусы:

качество не самое высокое, потому что модель не знает, какие ответы могли бы быть плохими, а видит только хорошие ответы

Инструкция - ответ - лейбл (лайк / дизлайк)

Улучшение предыдущего формата, путем добавления явной информации о том, какие ответы приемлемы, а какие нет.

Плюсы:

учитывает фидбек пользователей: какой ответ понравился, а какой нет

Минусы:

сложнее найти такую разметку
лейблы могут быть шумными
сложнее обучать без какой-либо гарантии на лучший результат
не так много инструментов для дообучении на таком датасете

Инструкция - winner > loser (проранжированная пара ответов для нее)

Здесь оба ответа для того же самого промпта, что позволяет показать модели на примере одной инструкции как надо и как не надо отвечать.

Плюсы:

явно учитывает предпочтения пользователей

Минусы:

собирать такую разметку сложно, в каких-то бизнес кейсах напрямую с прода такой фидбек реальных пользователей не получить
непрогнозируемый результат: может переобучиться или не сойтись. Бывает такое, что модели вставляют странные символы, неправильные окончания, больше галлюцинируют.
обучать долго и дорого + не так много инструментов, и модели, которые работают с таким форматом, обычно требуют бОльшего кол-ва ГПУ памяти.

RLHF. OpenAI. PPO

Training language models to follow instructions with human feedback

Про формат данных поговорили, теперь давайте пройдемся по ключевым этапам развития алаймента.

В индустрии большой вклад в развитие технологии алаймента внесли исследователи из OpenAI в работе RLHF. Они предложили не останавливаться на этапе инстракшн тюнинг и продолжить дообучение модели через концепцию обучения с подкреплением для того, чтобы лучше учитывать предпочтения пользователей.

агент = модель
среда = промпт
действие = генерация текста
награда

Обучение с подкреплением здесь это обучаемый агент (то есть наша модель) или, как еще говорят, обучаемая политика взаимодействия со средой (то есть генерация текста при условии промпта), которая получает обратную связь от модели наград.

схема RLHF из статьи

Видим, что OpenAI не останавливаются на SFT дообучении претрен модели на датасете инструкций. Идут дальше и собирают human feedback - то есть датасет предпочтений, в котором для каждого промпта есть хороший и плохой ответы. На этом датасете, они обучают модель наград, которая должна ранжировать ответы LLM. Потом дообучаем большую языковую модель генерировать такие ответы, которые максимизируют скор из ревард модели.

Плюсы:

мы корректируем поведение LLM, показывая хорошие и плохие ответы

Минусы:

нужно собирать разметку для обучающей выборки для модели наград, через ассесоров это долго, дорого и сложно итеративно обновлять.
используем синтетическую награду от внешней модели, которую можно хакнуть, то есть сгенерировать плохой ответ, ревард которого будет очень большим, для этого в обучающий функционал помимо реварда добавляют штраф в виде KL-дивергенции между распределениями вероятностей следующего токена для SFT и обучаемой политик, чтобы итоговая модель не сильно далеко уходила от своей прошлой версии, тем не менее это не всегда помогает избежать переобучения или расхождения модели.
вычислительно дорого и долго, потому что нужно держать в памяти не только текущую модель, но и предыдущую версию для KL-дивергенции, а также ревард модель.
потом алгоритм PPO, используемый для обучения с подкреплением, очень чувствителен к гиперпараметрам, и его результаты сложно воспроизводить

Constitutional AI

Constitutional AI: Harmlessness from AI Feedback

Еще одним шагом в развитии технологии алаймента стал Constitutional AI.

Исследователи антропик предложили написать свод правил, то есть конституцию для большой языковой модели. Это подробная, полная расписанная система ценностей, которую хотим заложить в поведение модели.

Схема ConstitutionalAI

Рецепт антропик - это

Находим очень полезную (то есть разговорчивую) модель, обычно ее несложно получить, так как, после небольшого инстракт тюнинг получаются обычно именно такие модели.
Генерируем ответы с помощью этой модели на датасете инструкций.
Показываем конституцию той же самой модели и просим раскритиковать предыдущий ответ по ней
Просим перегенерировать ответ в соответствии с конституцией и критикой
Получаем датасет промпт + два ответа: плохой и хороший
Дообучаем исходную модель с помощью алаймента на собранном датасете

Я думаю, ключевой вклад антропик в том, что они показали, как можно только с помощью конституции и разговорчивой полезной LLM собрать хороший датасет для алаймента.

Также даже если у вас уже есть датасет или тем более его еще нет, нужно первым делом сформулировать свою конституцию, которой должна следовать большая языковая модель.

DPO

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Схема DPO из статьи

Авторы DPO поднимают вопрос о необходимости обучать модель наград на датасете предпочтений, чтобы потом с помощью обучения с подкреплением искать оптимальную политику, максимизирующую эту награду. Они выводят лосс так, что оптимизируемая политика наилучшим образом соответствует датасету предпочтений через функционал для классификации, обучая неявную модель наград, оптимальная политика которой может быть получена в явной форме.

Плюсы:

Избавились от необходимость дополнительно обучать модель наград и держать ее в памяти при обучении с подкреплением
Заменили сложные алгоритмы RL на простую максимизацию правдоподобия

Минусы:

По-прежнему нужно держать в памяти исходную политику, полученную до алаймента, чтобы не уходить далеко от нее и не переобучаться
DPO все равно не всегда стабильно обучается, может расходиться и переобучаться

Улучшения DPO

Чтобы преодолеть недостатки функционала DPO, авторы разных статей придумывали свои улучшения.

Авторы RSO предлагают использовать hinge лосс поверх negative likelihood из Slic-hf.
Авторы IPO приводят более глубокое понимание математических алгоритмов за DPO и пытаются бороться с переобучением по-своему трансформируя вид функционала.
Авторы CPO на примере задачи машинного перевода обобщают лосс DPO и выбивают из LLM еще большее качество.
Авторы KTO предлагают новый функционал для обучения на датасете с бинарными предпочтениями: лайк / дизлайк.

На самом деле улучшений и новых методов по типу DPO очень много, постоянно появляются новые, вот список тех, кто уже доступен для использования в trainer-е hf.

Упрощения процедуры алаймента

Есть работы, которые направлены на упрощение процедуры алаймента.

ORPO: Odds Ratio Preference Optimization

paper

ORPO, набирающая популярность в индустрии, предлагает избавиться от этапа SFT и сразу же дообучать претрен модель на датасете предпочтений, сильно максимизируя вероятность ответа победителя и слабо минимизируя вероятность ответа проигравшего.

Также в ORPO не нужно хранить в памяти исходную модель.

Схема ORPO

OpenChat: Advancing Open-source Language Models with Mixed-Quality Data

paper

Другая очень популярная, сильная открытая языковая модель openchat обучена с помощью C-RLFT алаймента. Он еще более простой в реализации.

Схема OpenChat

Рецепт следующий:

Собираем обычный SFT датасет, но разграничиваем источники, где-то качественные данные, а где-то не всегда хорошие ответы. Пример такого разделение: все ответы gpt3.5 считаем sub-optimal, а все ответы gpt-4 считаем экспертными.
Дальше просто дообучаем LLM с помощью кросс энтропии, присваивая большие веса в лоссе для экспертных семплов.

Lima: Less Is More for Alignment

paper

И еще одна статья, которая ставит под сомнение необходимость сложных методов, подчеркивая важность простого SFT дообучения. Авторы предлагают собрать максимально чистый и качественный датасет пусть и небольшой и на нем обучаться в supervised режиме. Таким образом, инвестиция времени и денег на разметку и простое дообучение приносит неплохой результат, а самое главное прогнозируемый.

Заключение

На сегодняшний день исследования и разработки в этой области ведутся в совершенно разных направлениях. Компании и лаборатории разрабатывают множество разнообразных подходов, и нет универсального метода, которым бы все пользовались.

Некоторые модели и методы направлены на обучение на датасете предпочтений, предлагая свои улучшения и обобщения на новые виды функций потерь. Какие-то подходы углубляются в понимание исходных моделей, данных и оптимизационных функционалов. Другие сосредоточены на освоении новых форматов датасетов. Существуют подходы, упрощающие процедуру алаймента, при которых обучение проводится только в supervised режиме.

Однако, не стоит забывать, что alignment не ограничивается лишь обучением моделей. Сейчас выходят статьи, направленные на интерпретацию внутренних процессов модели, там авторы пытаются понять, как мыслит модель и как можно влиять на ее поведение через активацию внутренних представлений.

Понятное заключение доклада - это то, что алаймент сложная задача, требующая в первую очередь системного подхода. Необходимо четко определить цели и проблемы, сформулировать систему ценностей, которую модель должна разделять, и итеративно усложнять способы обучения, учитывая ваши вычислительные ресурсы, специфичные задачи и данные.

Обзор Node2vec: Scalable Feature Learning for Networks

abletobetable — Tue, 07 Jan 2025 12:58:57 GMT

Статья

Вводные

Цель работы получать эмбеддинги вершин графа.

Авторы вдохновлялись SkipGram, поэтому работает по принципу Word2Vec.

Разметка не нужна, можем строить эмбеддинги оптимизируя функционал с SGD имея только информацию о связях вершин.

Shallow node embeddings scheme

Принцип работы

Случайно выбираем центральную вершину v из V
Сэмплируем вершины W
Максимизируем правдоподобие соседних вершин W
Минимизируем правдоподобие несоседних вершин V\W

Лосс

Contrastive loss for node2vec

Здесь V - все вершины, а W - соседние вершины.

Как сэмплируем

Генерируем random walk - случайный обход по графу. В результате имеем множестве вершин W, которые считаем соседними вершинами v.

Есть принципиально 2 разных подхода выбирать вершины: BFS и DFS.

Разница между BFS и DFS

Breadth-first Sampling (BFS) - обходим в первую очередь непосредственных соседей центральной вершины.

Depth-first Sampling (DFS) - обходим вершины с нарастанием длины пути до центральной вершины.

Интерпретируемость фичей

BFS выучивает структурные признаки вершин графа - то есть улавливает только локальный контекст, например, группирует в один кластер вершины-мосты, в то время как DFS выучивает более глобальные признаки и больше подходит для, например, поиска сообществ в графе.

Визуализация группировки вершин по выученный векторным представлениям разными способами семплирования в random walk

Авторы предлагают обощить BFS и DFS в один фреймворк, введя в random walk 2 гиперпараметра p и q

p - параметр, который отвечает за возвращение, то есть перепосетить вершину вновь. Увеличивая p ( > max(q, 1)) мы ближе к DFS, в противном случае BFS.
q - in-out параметр, чем он меньше, тем более дальние вершины мы будем посещать вероятнее.

Эксперименты

Обучается все с помощью обычного SGD, берем любой оптимайзер, обучаем с батчами, совместимо с pytorch в современных реализациях, можем учить на GPU.

Авторы учат фичи вершин, а потом используют их для multi-label классификации и link prediction задачи.

Качество выше, чем у других работ.

Сравнение по milti-label classification

Сравнение на link prediction

Выводы

Как бейзлайн можно брать спектральную кластеризацию, но node2vec классно работает, масштабируется, поддерживает батч обучение на GPU.

Обзор техник RAG: Retrieval Augmented Generation

abletobetable — Thu, 12 Dec 2024 10:55:53 GMT

Рассмотрим техники построения и улучшения RAG систем: от нарезания текстов на куски, до продвинутых способов улучшения качества ответа.

Этим блогом можно пользоваться как шпаргалкой для проектирования своего RAG-а и/или для подготовки к собеседованиям.

Все полезные ссылки и материалы, на которые я опирался будут в конце.

Что такое RAG и зачем нужен

RAG - это фреймворк взаимодействия предобученной LLM с базой знаний. То есть при ответе LLM на запрос пользователя модель отвечает используя актуальный контекст из базы и свои pre-trained знания.

RAG framework

Обогащение запрос контекстом позволяет модели дать более точный ответ без необходимости дообучения на этих данных.

RAG очень часто можно использовать для формирования отчетов, создания корпоративных и специализированных чат-ботов. Причем так как не нужно дополнительного дообучения на доменных данных, то использование RAG-а часто более дешевый и быстрый вариант, а также безопасный и интерпретируемый по сравнению с fine-tuning-ом.

Базовый пайплайн подготовки системы RAG:

Загрузить документы
Нарезать на куски
Построить базу данных
Подготовить ретривер и, возможно, эмбеддер
Развернуть LLM для инференса

Базовый пайплайн применения RAG:

Аутентифицировать пользователя
Обработать входной запрос
Найти релеватные куски из базы данных
Отранжировать контексты
Собрать промпт из запроса и контекстов
Запромптить LLM
Получить от LLM ответ на вопрос
Верифицировать и отдать пользователю

Базовый пайплайн использования RAG системы

Метрики RAG-а:

Приверженность - то, как сильно ответ похож на контекст, поданный в модель. Чем ниже метрика, тем выше вероятность галлюцинаций.
Полнота - то, насколько полный ответ для заданного вопроса и предоставленного контекста.
Учёт контекстов - то, какая доля контекстов использовалась при ответе.
Утилизация контекстов - то, какую долю контекста модель использовала при ответе на вопрос.
токсичность ответа
тональность ответа - например, по категориям эмоций

https://www.galileo.ai/blog/mastering-rag-improve-performance-with-4-powerful-metrics - больше про метрики можно почитать тут

Загрузка документов

Это первый этап построения RAG системы.

Еще одна схема, как выглядит RAG, если забыли

Для своей базы знаний можно использовать разные источники: видео на ютубе, конспекты ноушен, эксель таблицы и др.

Если в документе есть таблицы, или картинки, то из них можно извлечь полезную информацию в том числе - воспользоваться OCR и / или TableTransformer.

Библиотека, которая сама все делает за вас: https://unstructured-io.github.io/unstructured/introduction.html

Также важно помнить, что у каждого документа есть метаданные: название, дата, автор и др.

Нарезка документов

Mastering RAG: Advanced Chunking Techniques for LLM Applications

Урок по разделению с помощью LangChain

Нарезка документов на куски нужна для того, чтобы не переполнять контекст LLM ненужной и шумной информацией, а максимально информативной - это нужно как для более точного ответа, так и для ускорения работы LLM.

На что влияет нарезка на куски:

качество контекстов, которые отдаем LLM
Чем меньше контекст, тем меньше там информации, которая может сбить с толку LLM, а также тем легче правильнее определить семантический смысл эмбеддеру при создании вектора представления
затраты на индекс кусков
Чем больше кусков, тем выше затраты, так как нужно хранить больше векторов
Скорость извлечения релевантных кусков из индекса
Чем больше кусков, тем дольше задержка
Скорость ответа LLM
Чем длиннее контекст, подаваемый в LLM, тем дольше она будет отвечать

Факторы, влияющие на разделения документа на куски:

Структура текста
пунктуация, переносы строки, маркдаун верстка и др.
Контекстное окно LLM и эмбеддера
Сложность и специфика запросов

Параметра функции разделения документа на куски:

размер куска по символам или по токенам
размер пересечения (наложения) кусков
желаемый разделитель

Cunking techniques

Виды нарезок:

По символам / токенам без специфичного разделителя
Разделяем документ согласно длины контекста и размере пересечения.
Работает быстро, но глупо.
По символам / токенам с желаемыми разделителями
Пытаемся разделять на куски, например, по переносу строки, по точке или хотя бы по пробелу. Но все равно есть ограничение на длину контекста и длину наложения.
Чуть дольше, но намного умнее, потому что не обрывает слова или даже предложения.
По Маркдаун разметке
Примерно как предыдущий метод, только разделитель заголовки маркдауна
Получается более структурированное разделение, а также обновляет метадату кусков - добавляет поле названия.
Семантически
Разделяем текст на предложения.
Добавляем в кусок текста новое предложение, если оно похоже семантически на уже имеющийся кусок.
Ограничиваем количество предложений в куске.
Разделение довольно умное, но расчет более ресурсоемкий из-за модели схожести.
Переписываем текст как утверждение
С помощью специальной модели или через LLM переписываем исходные предложения так, чтобы каждой из них по отдельности имело смысл, было понятно, о чем идет речь и не могло больше разделится на более мелкое утверждение.
Потенциально очень умное разделение, которое сразу же помогает отвечать на вопрос. Но есть вероятность испортить хороший текст, а также требует дополнительных ресурсов на обработку документов.

Proposition chuncking

Мульти-векторная индексация
Иногда полезно для каждого документа иметь несколько векторов представления.
Например, поделить документ на куски и для каждого посчитать векторы, делать ретрив по векторам кусков, а возвращать сам документ, таким образом уменьшается влияние шума и разнообразие топиков в документе.
Также можно заменить или добавить к вектору документа вектор представление суммаризации этого документа.
Также частая практика это придумывать гипотетические вопросы, ответом на которые может быть документ, и складывать в индекс вектор представления этих вопросов.
https://python.langchain.com/docs/how_to/multi_vector/

Кстати, метадата документа должна наследоваться каждому его куску, а также иногда дополняться свойствами отдельного куска, например, заголовок маркдаун при соответствующем методе разделения.

Метрики оценки качества, на которые можно ориентироваться при выборе стратегии разбиения документов на куски:

Приверженность - то, как сильно ответ похож на контекст, поданный в модель. Чем ниже метрика, тем выше вероятность галлюцинаций.
Полнота - то, насколько полный ответ для заданного вопроса и предоставленного контекста.
Учёт контекстов - то, какая доля контекстов использовалась при ответе.
Утилизация контекстов - то, какую долю контекста модель использовала при ответе на вопрос.

https://www.galileo.ai/blog/mastering-rag-improve-performance-with-4-powerful-metrics - больше про метрики можно почитать тут

Как подбирать параметры для нарезки на куски:

RAG metrics ops

База данных

База данных это система, которая хранит, индексирует и позволяет обрабатывать запросы для неструктурированных данных, таких как текст, изображения и подобное через числовое представление в виде вектора.

С помощью таких векторов можно делать поиск похожих объектов в базе данных. В нашем случае обычно поиск похожих кусков текста на пользовательский запрос.

Ключевые факторы выбора базы данных:

Открытая ли база или закрытая
Язык программирования, на котором можно создать клиента для использования базы данных
Лицензия
Фичи для организаций:

лимиты
пользовательская аутентификация
многое другое

Продуктовые фичи:

точный поиск
приближенный поиск - когда можно пожертвовать качеством для ускорения и масштабирования
префильтрация - когда до векторного поиска нужно уменьшить количество кандидатов
постфильтрация - дополнительный фильтр для улучшения точности результатов
гибридный поиск
поддержка разреженных векторов
поддержка поиска напрямую по тексту, например, через bm25

Возможность инференса моделей эмбеддингов.
Например, sentence transformers, Mixedbread, BGE, OpenAI.
Возможность инференса модели реранкера
Скорость добавление новых объектов
Скорость поиска

индексация
кэширование
другие оптимизации

Затраты на обслуживание

disk-based базы данных VS in-memory
Serverless базы данных
квантизация эмбеддингов

Поддержка, мониторинг, бэкапы и тд

Выбор эмбеддера

Эмбеддинг - это векторное представление текста (или картинки, звука и тд) в пространстве, в котором похожие тексты отображаются в похожие векторы.

Что такое эмбеддинги

Как можно использовать эмбеддинги:

кодировать вопросы и контексты эмбеддером, чтобы для вопроса находить самые релевантные куски информации
находить few-shot примеры для in context learning (ICL)
определять намерения пользователя, чтобы, например провести по какой-нибудь ветке заготовленного сценария общения, или вызвать какой-нибудь инструмент

На что смотреть при выборе эмбеддера:

размерность векторного пространства
размер модели
перфоманс модели на доменных или общих бенчмарках
открытая или закрытая модель
стоимость
поддержка языков
гранулярность: на уровне слов, предложений, длинных документов

Виды эмбеддингов:

dense векторы
классика
разряженные
Извлекают из текста только самую релевантную информацию, а в других размерностях значения просто 0.
Часто используется в задачах со специфической терминологией.
Работает примерно как bag-of-words, но обходит многие его недостатки.
https://arxiv.org/abs/2109.10086
матрешка эмбеддинги
Позволяют выбирать размерность вектора на инференсе.
можно почитать тут лонгрид про них: https://teletype.in/@abletobetable/embeds_ops

Матрешка эмбеддинги

long-context эмбеддинги
Если мы можем эффективно и без потери качества кодировать более длинные куски текста, то будем уменьшать задержку при поиске и косты на хранение векторов, так как их будет меньше.
code эмбеддинги
специально натренированные модели для работы с кодом

Примеры как, на каких задачах измерить качество эмбеддингов:

Embedding benchmark

Метрики рага, которые подходят и для метрик эмбеддера:

Приверженность - то, как сильно ответ похож на контекст, поданный в модель. Чем ниже метрика, тем выше вероятность галлюцинаций.
Полнота - то, насколько полный ответ для заданного вопроса и предоставленного контекста.
Учёт контекстов - то, какая доля контекстов использовалась при ответе.
Утилизация контекстов - то, какую долю контекста модель использовала при ответе на вопрос.

https://www.galileo.ai/blog/mastering-rag-improve-performance-with-4-powerful-metrics - больше про метрики можно почитать тут

Извлечение, поиск

Поиск - это процесс извлечения максимально релевантных кусков текста из базы данных, в которых потенциально находится информация необходимая для ответа на вопрос пользователя.

Retrieve scheme

С одной стороны мы хотим найти как можно больше полезных кусков и предоставить максимально полную картину для LLM, поэтому мы хотим находить не только самые релевантные контексты, но и максимально разнообразные.

Но с другой стороны, чем больше текста вы извлекаем, тем более они зашумленные, менее релевантные, тем самым LLM будет проще галлюцинировать, поэтому важность этапа поиска нельзя недооценивать.

Техники для улучшения извлечения:

Hypothetical document embeddings (HyDE) https://arxiv.org/abs/2212.10496
На вопрос пользователя генерируем с помощью LLM такой текст, в котором гипотетически мог бы содержаться ответ на вопрос.
Такой документ будет недостоверным в большинстве случаев, но зато текстовый энкодер сможет построить очень близкий эмбеддинг для реального контекста.
Maximal Marginal Relevance (MMR)
Техника для увеличения разнообразия в найденном множестве контекстов. То есть мы скорее отдадим предпочтение менее релевантному контексту, но еще незнакомому.

MRR scheme

Autocut
Смотрим на скоры похожести контекста и определяем так называемые “прыжки” в них, находя самую оптимальную границу между релевантными и менее релевантными контекстами. https://weaviate.io/developers/weaviate/api/graphql/additional-operators#autocut
Recursive retrieval
Нарезаем контекст на более мелкие куски, ищем релевантный, но отдаем более крупный контекст.
https://youtu.be/TRjq7t2Ms5I?si=D0z5sHKW4SMqMgSG&t=742
https://docs.llamaindex.ai/en/stable/examples/query_engine/pdf_tables/recursive_retriever.html
Похожая техника Sentence window retrieval, где мы возвращаем не кусок, а окно, которое включает наш кусок текста
https://docs.llamaindex.ai/en/latest/examples/node_postprocessor/MetadataReplacementDemo.html

Recursive retriever scheme

SelfQuery
Техника для таких вопросов, где полезно будет сделать фильтрацию по какому-нибудь атрибуту, например, по дате.

Self query scheme

Сжатие контекстов
После извлечения самый релевантных контекстов, мы их суммаризируем при условии вопроса юзера с помощью LLM. Таким образом финальная LLM получает на вход более плотную информацию, с минимумом шума, но, скорее всего, довольно полную. Хотя тут мы делаем дополнительные вызовы суммаризатора.

Compresion scheme

Классический методы поиска

svm
tf-idf
и другие

Работают напрямую с текстом.

https://learn.deeplearning.ai/courses/langchain-chat-with-your-data/lesson/5/retrieval - урок по извлечению от LangChain

Question Answering / generation

На этапе генерации мы отдаем релевантные контексты вместе с вопросом пользователя в LLM, а от нее уже получаем ответ. Это центральный элемент RAG системы, поэтому тут также нужно аккуратно рассмотреть следующие пункты:

Выбор LLM
При выборе LLM стоит опираться на то, на каких данных и задачах была обучена модель, с какими языками она хорошо работает. Желательно проверить несколько моделей самостоятельно перед выкаткой, также можно опираться на результаты бенчмарков.
Open-source или проприетарная модель
С одной стороны использование закрытых апи упрощает разработку системы, но с другой стороны возникает вопрос конфиденциальности данных, а также зависимости от внешней апи.
Размер модели
При большем размере растет качество, но растет задержка и падает пропускная способность.
Параметры генерации
Такие параметры как температура, top p, top k, могу сильно влиять на ответы моделей, их креативность и разнообразие.
Способ инференса
Этот вопрос может отпасть, если мы будем использовать закрытые апи, но в случае с моделями, которые мы сами хотим разворачивать и поддерживать, этот вопрос является очень существенным.
Так как разные фреймворки инференса поддерживают разные модели, способы оптимизации и ускорения инференса.
Основные решения: tensorrt-llm, vllm, tgi, deepspeed-mii.

Отдельно затронем техники промпт-инжиниринга для улучшения ответов LLM. Они могут помочь сделать ответ информативнее, более персонализированным для юзера, а также уменьшить вероятность галлюцинаций.

Prompt engineering techniques

Few-shot prompting
Показываем несколько примеров, как могут выглядеть ответы.
Можно улучшить выбор этих нескольких примеров через поиск ближайших соседей.
Chain-Of-Thoughts
Заставлять LLM генерировать цепочку мыслей и только после размышления давать финальный ответ: “Take a deep breath and let’s think step by step”.
Map reduce
делаем суммаризацию каждого контекста, и только потом по всем суммаризациям генерируем ответ на вопрос.
Map refine
Начинаем с 1го контекста, отвечаем на вопрос по нему, затем обновляем ответ с учетом 2го контекста и так далее.
Thread of Thought
Разбиваем длинные куски текста на контексты, модель извлекает из них релевантную информацию, затем просим модель суммаризировать и проанализировать информацию, а не просто прочитать и понять.

ToT scheme

Chain of Note
Примерно то же самое, что и ToT, но здесь для каждого извлеченного куска текста генерируем суммаризацию и оцениваем его релевантность касательно вопроса. И уже на основании таких заметок отвечаем.

CoN

Chain of Verification(CoVe)
На запрос генеририруем бейзлайн, далее подбираем проверочные вопросы, отвечаем на них и редактируем ответ.

CoVe

Эмоциональное давление
Удивительно, но работает все: представь, что ты эксперт, я дам тебе 200 долларов за правильный ответ и др.)

Emotion prompt

Также для того, чтобы еще минимизировать риски галлюцинаций, можно ответ LLM проверять дополнительно на безопасность/адекватность той же LLM, или другими специализированными моделями, или просто регулярными выражениями.

Chat, user experience

Также для некоторых бизнес кейсов важно уметь помнить то, о чем шла речь в предыдущих сообщениях.

Это можно сделать, сохраняя предыдущие вопросы и ответы на них.

Можно переписывать вопрос с учетом истории, чтобы поиск релевантных контекстов работал корректно.
Можно вместе с вопросом и релевантным контекстом также предоставить доступ LLM к истории чата.
Если чат разрастается, его можно суммаризировать: либо просто извлечь самое главное, либо суммаризировать при условии текущего вопроса, чтобы точно не потерять ничего важного из истории.

Так как RAG это в общение с пользователем, то для дальнейших улучшений, можно в сервис внедрить логику сбора обратной связи: через лайки/дизлайки или открытых форм.

В том числе для большей прозрачности работы сервиса можно давать пользователю доступ к извлеченным контекстам и цепочкам мыслей модели.

А для ускорения работы модели, можно делать кэширование и не нагружать модели по несколько раз.

А также использовать техники оптимизации инференса как эмбеддинг модели (например, вот лонгрид: https://teletype.in/@abletobetable/embeds_ops ), так и LLM (начиная от continuous batching до speculative decoding).