Google - "Мы не защищены рвом, как и OpenAI"

Утечка внутреннего документа Google утверждает, что искусственный интеллект с открытым исходным кодом будет превосходить ИИ от Google и OpenAI

4 МАЯ 2023 ГОДА

Оригинальная англоязычная статья здесь.

Приведенный ниже текст - это совсем недавняя утечка документа, которым поделился анонимный человек на публичном сервере Discord, давший разрешение на его перепечатку. Он исходит от исследователя из Google. Мы проверили его подлинность. Единственными изменениями являются форматирование и удаление ссылок на внутренние веб-страницы. Документ является мнением только одного из сотрудников Google, а не всей компании. Мы не согласны с тем, что написано ниже, как и другие исследователи, которых мы опросили, но мы опубликуем свое мнение по этому поводу в отдельном материале для подписчиков. Мы просто являемся сосудом, чтобы поделиться этим документом, который поднимает некоторые очень интересные вопросы.

У нас нет рва - Как и у OpenAI

Мы часто оглядываемся через плечо на OpenAI. Кто преодолеет следующий рубеж? Каким будет следующий шаг?

Но неудобная правда заключается в том, что мы не в состоянии выиграть эту гонку вооружений, как и OpenAI. Пока мы препирались, третья фракция спокойно съедала наш обед.

Я говорю, конечно же, об открытом исходном коде. Проще говоря, они нас обгоняют. То, что мы считаем "основными открытыми проблемами", решено и находится в руках людей уже сегодня. Вот лишь некоторые из них:

• LLM на телефоне: Люди запускают фундаментальные модели на Pixel 6 со скоростью 5 токенов/сек.

• Масштабируемый персональный ИИ: вы можете за вечер настроить персональный ИИ на своем ноутбуке.

• Ответственное освобождение: Этот вопрос не столько "решен", сколько "устранен". Существуют целые веб-сайты, полные художественных моделей без каких-либо ограничений, и текст не отстает от них.

• Мультимодальность: Текущий мультимодальный ScienceQA SOTA был обучен за час.

Хотя наши модели все еще имеют небольшое преимущество в плане качества, разрыв сокращается поразительно быстро. Модели с открытым исходным кодом быстрее, более настраиваемы, более приватны и в фунтах стерлингов имеют больше возможностей. Они делают вещи с параметрами в $100 и 13B, которые мы с трудом решаем с параметрами в $10M и 540B. И они делают это за недели, а не за месяцы. Это имеет глубокие последствия для нас:

• У нас нет секретного соуса. Наша лучшая надежда - учиться и сотрудничать с теми, кто работает за пределами Google. Мы должны уделять первоочередное внимание обеспечению интеграции 3P.

• Люди не будут платить за ограниченную модель, если бесплатные, неограниченные альтернативы сопоставимы по качеству. Мы должны подумать о том, где действительно находится наша добавленная стоимость.

• Гигантские модели замедляют нашу работу. В долгосрочной перспективе лучшие модели - это те, которые можно быстро итерировать. Теперь, когда мы знаем, что возможно в режиме параметров <20B, мы должны сделать небольшие варианты более чем второстепенными.

https://lmsys.org/blog/2023-03-30-vicuna/

Что произошло

В начале марта сообщество с открытым исходным кодом получило в свои руки первую действительно способную модель основания, поскольку LLaMA от Meta стала достоянием общественности. В ней не было ни инструкций, ни настройки разговора, ни RLHF. Тем не менее, сообщество сразу же поняло значение того, что они получили.

За этим последовал огромный поток инноваций, причем между основными событиями прошло всего несколько дней (полный расклад см. в "Хронологии"). И вот, едва прошел месяц, а уже есть варианты с настройкой инструкций, квантованием, улучшением качества, человеческими оценками, мультимодальностью, RLHF и т.д. и т.п., многие из которых основываются друг на друге.

Самое главное, что они решили проблему масштабирования до такой степени, что каждый может возиться. Многие новые идеи приходят от обычных людей. Барьер входа для обучения и экспериментов снизился с общего объема производства крупной исследовательской организации до одного человека, вечера и мощного ноутбука.

Почему мы могли это предвидеть

Во многих отношениях это не должно никого удивлять. Нынешнее возрождение LLM с открытым исходным кодом идет по пятам за возрождением генерации изображений. Сходство не осталось незамеченным для сообщества, многие называют это "моментом Stable Diffusion" для LLM.

В обоих случаях недорогое привлечение общественности стало возможным благодаря гораздо более дешевому механизму тонкой настройки, называемому низкоранговой адаптацией, или LoRA, в сочетании со значительным прорывом в масштабе (латентная диффузия для синтеза изображений, Шиншилла для LLM). В обоих случаях доступ к достаточно качественной модели вызвал шквал идей и итераций со стороны отдельных людей и учреждений по всему миру. В обоих случаях это быстро опередило крупных игроков.

Этот вклад стал решающим в области генерации изображений, что позволило Stable Diffusion пойти по пути, отличному от пути Dall-E. Открытая модель привела к интеграции продуктов, рыночным площадкам, пользовательским интерфейсам и инновациям, которых не было у Dall-E.

Эффект был ощутимым: быстрое доминирование в плане культурного воздействия по сравнению с решением OpenAI, которое становилось все более неактуальным. Произойдет ли то же самое с LLM, еще предстоит выяснить, но общие структурные элементы те же.

Что мы пропустили

Инновации, обеспечившие недавние успехи открытого исходного кода, напрямую решают проблемы, с которыми мы все еще боремся. Уделение большего внимания их работе может помочь нам избежать повторного изобретения колеса.

LoRA - это невероятно мощная техника, которой мы, вероятно, должны уделять больше внимания.

LoRA работает, представляя обновления модели как факторизацию с низким рангом, что уменьшает размер матриц обновления в несколько тысяч раз. Это позволяет проводить тонкую настройку модели с меньшими затратами средств и времени. Возможность персонализировать языковую модель за несколько часов на бытовом оборудовании - это очень важно, особенно для тех целей, которые связаны с включением новых и разнообразных знаний практически в режиме реального времени. Тот факт, что эта технология существует, недостаточно используется в Google, хотя она напрямую влияет на некоторые из наших самых амбициозных проектов.

Переобучение моделей с нуля - сложный путь

Отчасти эффективность LoRA заключается в том, что, как и другие формы тонкой настройки, она может быть дополнена. Улучшения, подобные настройке инструкций, можно применять, а затем использовать по мере того, как другие участники добавляют диалог, или рассуждения, или использование инструментов. Хотя отдельные тонкие настройки имеют низкий ранг, их сумма не обязательно должна быть такой, позволяя со временем накапливать полноранговые обновления модели.

Это означает, что по мере появления новых и более качественных наборов данных и задач модель можно дешево поддерживать в актуальном состоянии, не оплачивая стоимость полного запуска.

В отличие от этого, при обучении гигантских моделей с нуля отбрасывается не только предварительное обучение, но и все итерационные улучшения, которые были сделаны поверх него. В мире открытого исходного кода эти улучшения не сразу становятся доминирующими, что делает полную переподготовку чрезвычайно дорогостоящей.

Мы должны хорошо подумать, действительно ли для каждого нового приложения или идеи нужна совершенно новая модель. Если у нас действительно есть серьезные архитектурные усовершенствования, которые исключают прямое повторное использование весов модели, тогда мы должны инвестировать в более агрессивные формы дистилляции, которые позволяют нам сохранить как можно больше возможностей предыдущего поколения.

Большие модели не являются более способными в долгосрочной перспективе, если мы можем быстрее проводить итерации на маленьких моделях

Обновления LoRA очень дешевы в производстве (~$100) для наиболее популярных размеров моделей. Это означает, что практически любой, у кого есть идея, может создать и распространить его. Время обучения менее одного дня является нормой. При таком темпе не требуется много времени, чтобы кумулятивный эффект от всех этих тонких настроек преодолел недостаток размера. Действительно, с точки зрения затраченных инженерных часов, темпы улучшения этих моделей значительно превосходят то, что мы можем сделать с нашими самыми большими вариантами, а лучшие из них уже практически неотличимы от ChatGPT. Сосредоточение усилий на поддержании одних из самых больших моделей на планете фактически ставит нас в невыгодное положение.

Качество данных масштабируется лучше, чем их размер

Многие из этих проектов экономят время за счет обучения на небольших, тщательно контролируемых наборах данных. Это говорит о существовании определенной гибкости в законах масштабирования данных. Существование таких наборов данных следует из линии мышления, изложенной в книге "Данные не делают того, что вы думаете", и они быстро становятся стандартным способом обучения за пределами Google. Эти наборы данных создаются с помощью синтетических методов (например, фильтрации лучших ответов из существующей модели) и сбора мусора из других проектов, ни один из которых не является доминирующим в Google. К счастью, эти высококачественные наборы данных имеют открытый исходный код, поэтому их можно использовать бесплатно.

Прямая конкуренция с открытым исходным кодом является проигрышным предложением

Этот недавний прогресс имеет прямые и непосредственные последствия для нашей бизнес-стратегии. Кто будет платить за продукт Google с ограничениями на использование, если есть бесплатная, высококачественная альтернатива без них?

И нам не следует ожидать, что мы сможем догнать их. Современный интернет работает на открытом коде не просто так. Открытый исходный код имеет ряд существенных преимуществ, которые мы не можем повторить.

Мы нуждаемся в них больше, чем они в нас

Сохранение нашей технологии в тайне всегда было непростым делом. Исследователи Google регулярно уходят в другие компании, поэтому мы можем предположить, что они знают все, что знаем мы, и будут знать до тех пор, пока этот канал открыт.

Но удержать конкурентное преимущество в технологиях становится еще сложнее теперь, когда передовые исследования в области LLM стали доступными. Исследовательские институты по всему миру опираются на наработки друг друга, исследуя пространство решений с широким охватом, который намного превосходит наши собственные возможности. Мы можем попытаться крепко хранить наши секреты, пока внешние инновации размывают их ценность, или мы можем попытаться учиться друг у друга.

Физические лица не ограничены лицензиями в той же степени, что и корпорации

Большая часть этих инноваций происходит на основе утечки весов моделей от Meta. Хотя это неизбежно изменится по мере совершенствования действительно открытых моделей, суть в том, что им не нужно ждать. Юридическая защита, предоставляемая "личным использованием", и непрактичность судебного преследования отдельных лиц означает, что люди получают доступ к этим технологиям, пока они горячие.

Быть собственным клиентом - значит понимать, как его использовать

Просматривая модели, которые люди создают в области генерации изображений, можно увидеть огромное количество творческих работ, от генераторов аниме до HDR-пейзажей. Эти модели используются и создаются людьми, которые глубоко погружены в свой конкретный поджанр, что придает им глубину знаний и сопереживания, с которыми мы не можем сравниться.

Владение экосистемой: Позволяя открытому исходному коду работать на нас

Парадоксально, но единственным явным победителем во всем этом является Meta. Поскольку утечка модели произошла по их инициативе, они фактически получили целую планету бесплатной рабочей силы. Поскольку большинство инноваций с открытым исходным кодом происходит поверх их архитектуры, ничто не мешает им напрямую внедрять их в свои продукты.

Ценность владения экосистемой невозможно переоценить. Сама компания Google успешно использует эту парадигму в своих предложениях с открытым исходным кодом, таких как Chrome и Android. Владея платформой, на которой происходят инновации, Google укрепляет свои позиции в качестве идейного лидера и разработчика направлений, получая возможность формировать повествование об идеях, превосходящих его самого.

Чем жестче мы контролируем наши модели, тем более привлекательными становятся открытые альтернативы. Google и OpenAI тяготеют к защитным моделям выпуска, которые позволяют им сохранять жесткий контроль над тем, как используются их модели. Но этот контроль - фикция. Любой, кто хочет использовать LLM в несанкционированных целях, может просто выбрать свободно распространяемые модели.

Google должен стать лидером в сообществе открытого исходного кода, взять на себя инициативу, сотрудничая с более широким сообществом, а не игнорируя его. Это, вероятно, означает принятие некоторых неудобных шагов, таких как публикация весов моделей для небольших вариантов ULM. Это неизбежно означает отказ от некоторого контроля над нашими моделями. Но этот компромисс неизбежен. Мы не можем надеяться одновременно стимулировать инновации и контролировать их.

Эпилог: Что насчет OpenAI?

Все эти разговоры об открытом исходном коде могут показаться несправедливыми, учитывая нынешнюю закрытую политику OpenAI. Почему мы должны делиться, если они не хотят? Но дело в том, что мы уже делимся с ними всем, благодаря постоянному потоку переманиваемых старших исследователей. Пока мы не остановим этот поток, секретность - это спорный вопрос.

И в конце концов, OpenAI не имеет значения. Они совершают те же ошибки, что и мы, в своей позиции по отношению к открытому исходному коду, и их способность сохранить преимущество неизбежно окажется под вопросом.

Альтернативы с открытым исходным кодом могут и в конечном итоге затмят их, если они не изменят свою позицию. По крайней мере, в этом отношении мы можем сделать первый шаг.

Временная шкала

24 февраля 2023 - Запуск LLaMA

Meta запускает LLaMA, открывая код, но не веса. На данный момент LLaMA не является инструкцией или настроенным разговором. Как и многие современные модели, это относительно небольшая модель (доступная с параметрами 7B, 13B, 33B и 65B), которая обучалась в течение относительно большого количества времени, и поэтому является достаточно способной относительно своего размера.

3 марта 2023 года - Неизбежное случается

В течение недели LLaMA стала достоянием общественности. Влияние на сообщество невозможно переоценить. Существующие лицензии не позволяют использовать ее в коммерческих целях, но внезапно все желающие получили возможность экспериментировать. С этого момента инновации появляются все быстрее и быстрее.

12 марта 2023 - Языковые модели на тостере

Чуть больше недели спустя Артем Андреенко получил модель, работающую на Raspberry Pi. На этом этапе модель работает слишком медленно, чтобы быть практичной, поскольку веса должны входить и выходить из памяти. Тем не менее, это создает основу для натиска усилий по минификации.

13 марта 2023 - Тонкая настройка на ноутбуке

На следующий день Стэнфорд выпустил Alpaca, которая добавляет настройку инструкций в LLaMA. Однако более важным, чем фактические веса, был репо Эрика Ванга alpaca-lora, который использовал тонкую настройку низких рангов для выполнения этого обучения "в течение нескольких часов на одном RTX 4090".

Внезапно любой мог доработать модель для выполнения любых задач, что положило начало гонке на дно в малобюджетных проектах по доработке. В статьях с гордостью описываются общие расходы в несколько сотен долларов. Более того, обновления низкого ранга можно легко распространять отдельно от оригинальных весов, что делает их независимыми от оригинальной лицензии от Meta. Любой может поделиться ими и применять их.

18 марта 2023 года - Теперь это быстро

Георгий Герганов использует 4-битное квантование для выполнения LLaMA на процессоре MacBook. Это первое решение "без GPU", достаточно быстрое для практического применения.

19 марта 2023 - Модель 13B достигает "паритета" с Bard

На следующий день межвузовское сотрудничество выпустило Vicuna и использовало GPT-4-powered eval для качественного сравнения результатов модели. Хотя метод оценки вызывает подозрения, модель существенно лучше предыдущих вариантов. Стоимость обучения: 300 долларов.

Примечательно, что они смогли использовать данные с ChatGPT, обойдя ограничения на его API - они просто взяли примеры "впечатляющих" диалогов ChatGPT, размещенных на сайтах типа ShareGPT.

25 марта 2023 года - Выберите свою собственную модель

Nomic создает GPT4All, который является одновременно моделью и, что более важно, экосистемой. Впервые мы видим, что модели (включая Vicuna) собраны в одном месте. Стоимость обучения: $100.

28 марта 2023 года - ГПТ-3 с открытым исходным кодом

Cerebras (не путать с нашим собственным Cerebra) обучает архитектуру GPT-3, используя оптимальное расписание вычислений, подразумеваемое Chinchilla, и оптимальное масштабирование, подразумеваемое μ-параметризацией. Это значительно превосходит существующие клоны GPT-3 и представляет собой первое подтвержденное использование μ-параметризации "в природе". Эти модели обучены с нуля, что означает, что сообщество больше не зависит от LLaMA.

28 марта 2023 - Мультимодальное обучение за один час

Используя новую технику Parameter Efficient Fine Tuning (PEFT), LLaMA-Adapter вводит настройку инструкций и мультимодальность за один час обучения. Впечатляет то, что для этого используется всего 1,2М обучаемых параметров. Модель достигла нового SOTA на мультимодальном ScienceQA.

3 апреля 2023 года - Реальные люди не могут отличить открытую модель 13B от ChatGPT

Беркли запускает Koala, диалоговую модель, обученную полностью на свободно доступных данных.

Они сделали решающий шаг - измерили реальные предпочтения людей между своей моделью и ChatGPT. Хотя ChatGPT все еще имеет небольшое преимущество, более 50% времени пользователи либо предпочитают Koala, либо не отдают предпочтения. Стоимость обучения: $100.

15 апреля 2023 года - RLHF с открытым исходным кодом на уровнях ChatGPT

Open Assistant запускает модель и, что более важно, набор данных для выравнивания через RLHF.

Их модель близка (48,3% против 51,7%) к ChatGPT с точки зрения предпочтений людей.

В дополнение к LLaMA, они показывают, что этот набор данных может быть применен к Pythia-12B, предоставляя людям возможность использовать полностью открытый стек для запуска модели. Более того, поскольку набор данных находится в открытом доступе, это переводит RLHF из разряда недостижимых в разряд дешевых и простых для малых предприятий.