October 13

ChatGPT и explainable AI

“Unlike with most human creations, we don’t really understand the inner workings of neural networks” (c)

Привет, друзья! Работа над продуктом на базе chatGPT — увлекательное путешествие. Косяки в доработке — и можно натолкнуться на ситуацию, когда в скрытом смысле в качестве борьбы со страхом модель предложит спалить дом.

В последнюю неделю поставила себе задачу разобраться, как сделать модель прозрачнее, сильнее и лучше, потому что я делаю продукт для детей. И мне показалось важным и интересным, поделиться найденными тезисами.

Welcome в пост!

1. Можно ли назвать ChatGPT объяснимой моделью?

ChatGPT не является объяснимой моделью в фундаментальном понимании области XAI.

Почему это так:
Во-первых, обучение на большом наборе данных. Здесь работает фундаментальный принцип — мусор на входе, мусор на выходе. Увеличивая объем данных модели удается захватывать сложные зависимости, но при этом чем больше данных, тем сложнее оценить их чистоту.
Для некоторых областей Википедия тоже может быть "мусоркой", а для некоторых — это необходимое и достаточное описание материала. Обучаясь в общем смысле, такое деление не может быть учтено.

Во-вторых, невозможность рассмотреть несколько результатов процесса объяснения в разрезе.

Методы атрибуции (выделения признаков, если попроще) могут давать разные результаты на одной и той же модели. Оценить какое объяснение лучше сложно, без формулировки задачи к объяснению.

Как видит две грани GPT YandexART

В-третьих, вычислительная сложность получения объяснений.

В силу закрытости модели, при проведении процедуры объяснения, необходимо планировать эксперимент четче, чем для открытых моделей. В статьях из методов иногда применяется LIME, градиентные методы (достаточно широкий класс), анализ карт внимания и применение техник механистической интерпретируемости отпадают.

2. Самообъяснения и извлекаемые объяснения

Трендом (не только для GPT, а в целом для LLM) является применение самообъяснений и проведение эмпирических экспериментов, для прививания оценок важности входным токенам.

Извлекаемые объяснения — представляют наиболее простой способ, требующий, однако, множественных запросов в рамках одного и того же промта. Примером является метод окклюзии. Окклюзия включает в себя многократное повторное выполнение одного и того же запроса, с удалением определенных слов, чтобы наблюдать их влияние на выходные данные модели.

Самообъяснения — способ, не требующий подготовки плана к проведению процесса объяснения. Всё, что необходимо — запросить объяснение у модели. Это может быть как просьба текстового пояснения, так и просьба присваивания коэффициентов входным признакам. Плюсы — действительно просто. Минусы — возникновение "компромисса между точностью и интерпретируемостью".

Например, в одном эксперименте исследователи наблюдали падение общей точности модели, когда ее просили объяснить ее прогноз. Там же, кстати, было обнаружено, что объяснения могут иметь высокие разногласия. Это связано с нестабильностью объяснений (разные в зависимости от запроса) и с чувствительныостью объяснений к выбору гиперпараметров модели. И в этом же исследовании для GPT было обнаружено, что объяснения, признанные "одинаково точными", также имеют высокие степени разногласия.

Explainable AI by YandexART

Вместо вывода — вопреки тому, что при помощи LLM можно автоматизировать даже машинное обучение, роль разработчиков ML, DL и не только в традиционном смысле, кажется, ещё долго будут важны. Продолжайте становиться лучше и делать системы, модели и исследования надежными, понятными и аккуратными.

Отличного вам вечера, друзья и спасибо за уделенное время!
Как всегда ваш,
Дата автор! :)