Неопределенность в архитектуре Трансформеров
Современные нейросети, особенно трансформеры в NLP, становятся незаменимыми, поэтому доверие к их предсказаниям критически важно. Однако, оценка неопределенности (uncertainty estimation) приобретает первостепенное значение, ведь даже самые мощные модели не застрахованы от ошибок, а традиционные подходы к оценке часто оказываются недостаточными для их сложности.
В ответ на этот вызов предложен метод на основе вариационной свободной энергии (Variational Free Energy) – концепции из статистической физики, адаптированной для машинного обучения (machine learning). Этот метод позволяет оценить "уверенность" модели, используя метод Монте-Карло (Monte Carlo) для исследования пространства решений. В результате, модель предоставляет не только прогноз, но и оценку его надежности.
Существующие альтернативы, такие как байесовские нейронные сети (Bayesian Neural Networks), точны, но вычислительно затратны. Dropout, напротив, прост, но менее аккуратен в оценке калибровочной неопределенности (calibration uncertainty). Предлагаемый метод нацелен на баланс между точностью и эффективностью.
Экспериментальная проверка на задачах NLP (Natural Language Processing, NLP, включая вопросно-ответные системы, QA) подтвердила конкурентоспособность метода вариационной свободной энергии. В частности, он продемонстрировал высокую точность прогнозов и качество оценки уверенности, даже на сложных и out-of-distribution данных (выходящих за рамки обучающей выборки).
Таким образом, предложенный метод – значительный шаг к созданию надежного искусственного интеллекта (Artificial Intelligence, AI), способного не только к точным предсказаниям, но и к адекватной оценке собственной неопределенности. Это открывает перспективы для ответственного применения AI в самых разных областях, а дальнейшие исследования позволят расширить применение вариационной свободной энергии на еще более сложные нейросетевые архитектуры.
https://arxiv.org/pdf/2207.06415