GPT-4 объясняет человеку как работают нейроны в GPT-2

В новом исследовании OpenAI GPT-4 используется для автоматического объяснения поведения нейронов внутри больших языковых моделей, таких как GPT-2.

Наши знания о том, как работают внутри языковые модели, все еще весьма ограничены. Исследования в области интерпретируемости направлены на получение дополнительной информации, заглядывая внутрь моделей. Традиционно для понимания того, что делают отдельные компоненты (нейроны и головы внимания), требовалось ручное изучение нейронов человеком. Однако этот процесс не масштабируется для нейросетей с десятками или сотнями миллиардов параметров.

В этом исследовании предлагается автоматизированный процесс, который использует GPT-4 для создания и оценки объяснений на естественном языке о поведении нейронов и применяется к нейронам другой языковой модели.

Эта работа является частью подхода OpenAI к исследованию alignment: автоматизация самого исследовательского процесса. Один из перспективных аспектов этого подхода заключается в том, что он масштабируется вместе с развитием AI. По мере того как будущие модели становятся все умнее и полезнее в качестве помощников, мы получим лучшие объяснения.

📝 Paper: https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

🧪 View neurons: https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html

👨‍💻 Github: https://github.com/openai/automated-interpretability

🔗 Post: https://openai.com/research/language-models-can-explain-neurons-in-language-models

#ai #gpt #interpretability #openai #neurons #alignment