Карго-культ в мире нейросетей: почему имитация ума не делает модель умной

Мы живем в эпоху величайшего технологического самообмана. Пытаясь сделать искусственный интеллект доступным, быстрым и дешевым, разработчики совершили изящный подлог. Они научили маленькие нейросети безупречно копировать ответы больших моделей, что породило эффект "отличника-зубрилы", это состояние, когда маленькая модель выдает красивые, синтаксически идеальные тексты, но за этим фасадом скрывается абсолютная пустота.

Это карго-культ в мире ИИ: малая система строит самолеты из соломы и навоза, мастерски имитируя форму, но искренне не понимая, почему они не летают.

Карго-культ (или культ самолётопоклонников) — слепое копирование чужих действий, внешних атрибутов или ритуалов в надежде получить такой же результат. При этом человек или компания не понимают, как эти процессы работают на самом деле.

Как мы вырастили поколение цифровых попугаев

В индустрии этот процесс называется красивым словом дистилляция. Берут огромную, тяжелую нейросеть-учителя, которая сожрала терабайты данных и выстроила внутри себя сложные многомерные связи. Затем заставляют маленькую модель-ученика копировать её ответы. А потом:
Маленькая модель не проходит тот же путь эволюции мышления. Она не выводит законы физики или логики из данных, она просто запоминает, как на вопрос "А" большая модель отвечает фразой "Б". Это поверхностное сжатие информации без понимания её сути.

Как итог: на свет появляется цифровой попугай. Он знает все правильные слова, умеет расставлять запятые и даже шутить, но его "разум" держится на соплях и честном слове. Он выучил пиксели и буквы, но остался слеп к скрытым абстрактным концепциям.

Почему ломается соломенный самолет

Пока маленькая модель крутится в рамках привычных шаблонов, пользователь пищит от восторга: "Смотрите, она отвечает прямо как GPT-4, а весит всего 7 гигабайт!". Но этот карточный домик рушится при малейшем изменении условий.

Дистиллированная модель пасует перед любой нестандартной задачей, где нужно проявить здравый смысл или понять физику процесса. Если большая модель "знает", что такое гравитация и масса, то маленькая просто помнит, что слово "мяч" часто пишется рядом со словом "падает". Стоит изменить контекст (например, перенести действие на Луну или в невесомость), как маленькая модель выдает лютый, высокоточный бред с лицом абсолютной уверенности.

Дефицит параметров как физический потолок

Можно ли винить маленькую модель в этой глупости? Нет. Это чистая математика. У нее банально ограничен объем емкости памяти.

Физический мир многомерен и сложен. Чтобы закодировать в нейронных связях причинно-следственные связи, законы сохранения энергии, логические парадоксы и человеческую психологию, требуются сотни миллиардов параметров. Большая система может позволить себе выделить под абстракцию "гравитация" огромный кластер связей.

У маленькой модели параметры на вес золота. Пытаясь уместить в себя всё и сразу, она жертвует глубиной ради формы. Она срезает углы, превращая объемные трехмерные концепции в плоские текстовые скрипты. Она физически не способна вместить в себя многомерную структуру реальности.

Как использовать малые модели без иллюзий

Карго-культ опасен тем, что мы начинаем доверять имитации ума критически важные задачи. Чтобы не разочароваться, нужно принять ограничения малых систем и использовать их там, где они сильны:

Сужение мира до размеров песочницы. Ограничь вселенную маленькой модели одной задачей. Если запереть её в жесткие рамки (например, только игра в крестики-нолики или только сортировка входящих писем по пяти папкам), она сможет полностью понять и просчитать эту упрощенную среду. Внутри своей коробки она будет богом, потому что этой коробке не нужны абстракции.
Роль переводчика, а не генератора смыслов. Используй малую модель как интерфейс. Пусть большая, тяжелая система думает, строит прогнозы и считает физику, а маленькая лишь переводит эти сложные выкладки в простые, понятные человеку текстовые команды.

Бот

Дискорд сервер

Наши стикеры

Тут больше статей