May 10, 2023

GPT-4 объясняет человеку как работают нейроны в GPT-2

Технологии363,6K интересуютсяOpenAI60,9K интересуютсяЕда992,9K интересуютсяПутешествия686,5K интересуютсяКрасота и стиль392,1K интересуютсяСпорт278,1K интересуютсяНаука126K интересуютсяКультура75,9K интересуютсяЭкономика145,8K интересуютсяАвто268,3K интересуютсяГейминг277,1K интересуютсяИскуственный интелект (AI)80,8K интересуютсяПитомцы359,5K интересуютсяМашинное обучение (ML)35,8K интересуютсяКвантовые компьютеры48,1K интересуются

В новом исследовании OpenAI GPT-4 используется для автоматического объяснения поведения нейронов внутри больших языковых моделей, таких как GPT-2.

Наши знания о том, как работают внутри языковые модели, все еще весьма ограничены. Исследования в области интерпретируемости направлены на получение дополнительной информации, заглядывая внутрь моделей. Традиционно для понимания того, что делают отдельные компоненты (нейроны и головы внимания), требовалось ручное изучение нейронов человеком. Однако этот процесс не масштабируется для нейросетей с десятками или сотнями миллиардов параметров.

В этом исследовании предлагается автоматизированный процесс, который использует GPT-4 для создания и оценки объяснений на естественном языке о поведении нейронов и применяется к нейронам другой языковой модели.

Эта работа является частью подхода OpenAI к исследованию alignment: автоматизация самого исследовательского процесса. Один из перспективных аспектов этого подхода заключается в том, что он масштабируется вместе с развитием AI. По мере того как будущие модели становятся все умнее и полезнее в качестве помощников, мы получим лучшие объяснения.

📝 Paper: https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

🧪 View neurons: https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html

👨‍💻 Github: https://github.com/openai/automated-interpretability

🔗 Post: https://openai.com/research/language-models-can-explain-neurons-in-language-models

#ai #gpt #interpretability #openai #neurons #alignment