January 16

Как за 450 долларов обучить модель уровня GPT-o1 и заработать миллионы? (clickbait)

Как за 450 долларов обучить модель уровня GPT-o1 и заработать миллионы?

Лаборатория Berkeley Sky Computing недавно обучила Sky-T1-32B-Preview — модель уровня рассуждения GPT-o1, потратив всего 450 долларов на создание набора инструкций. Данные включают 17 тысяч математических и программировочных задач, решённых пошагово. Этот набор данных был создан с помощью запроса к QwQ, что обошлось в 450 долларов. Можно ли сделать это без другой «рассуждающей» модели для дистилляции? Проведите курс для тысячи студентов и назначьте 17 домашних заданий. Дополнительная выгода: заработайте 10 миллионов долларов, взимая по 10 тысяч долларов за обучение. Данные модели и полный код здесь: (https://novasky-ai.github.io/posts/sky-t1/). Очень интересная работа, показывающая, что простого SFT достаточно — при условии, что у вас есть хорошие данные.

Источник: https://t.me/alwebbci/2909

Введение:

Современные прорывы в сфере искусственного интеллекта часто ассоциируются с крупными вливаниями капитала, когда компании тратят миллионы долларов на сбор данных и обучение больших языковых моделей. Однако недавний кейс, представленный командой из Berkeley Sky Computing Lab, показал, что создать модель с впечатляющими возможностями можно, потратив всего 450 долларов на формирование обучающего набора данных. Как им это удалось и что из этого может почерпнуть предприниматель или специалист по Data Science?


Кейс: Sky-T1-32B-Preview от Berkeley Sky Computing Lab

Исследователи из Berkeley Sky Computing Lab представили модель Sky-T1-32B-Preview, способную решать задачи на уровне GPT-o1 по качеству рассуждений. Важнейшей частью этого эксперимента стало то, как и за сколько они подготовили данные для обучения:

  1. Набор инструкций (instruction dataset) включал 17 тысяч математических и программировочных задач, каждую из которых модель решала пошагово.
  2. Для создания этих данных исследователи использовали другую модель, QwQ, составив вопросы и запросив у неё решения. Суммарные расходы на эту «генерацию» вопросов и ответов составили всего 450 долларов.
  3. Затем они применили простое SFT (Supervised Fine-Tuning), продемонстрировав, что хороший датасет играет едва ли не более важную роль, чем сложные или дорогие методы обучения.

Оригинальный пост разработчиков со ссылками на код и данные доступен на GitHub-странице NovaSky AI.


Главная идея: качественные данные вместо сверхсложных алгоритмов

Современные языковые модели всё чаще обучаются гигантскими датасетами. Но подход Berkeley Sky Computing Lab показывает, что даже относительно небольшой датасет может дать качественные результаты, если он:

  • Точно соответствует целевым задачам (в данном случае — математические и программировочные задания).
  • Содержит подробные пошаговые решения, позволяющие модели «научиться рассуждению» и объяснению хода мысли.

Итог: вместо поиска дорогостоящей инфраструктуры для многоэтапного обучения и дистилляции знаний, достаточно аккуратно собрать и разметить примеры, чтобы модель впоследствии могла обобщить логику.


Как на этом заработать: идеи для бизнесменов и специалистов DS

  1. Обучающий проект (EdTech)
    • Организовать курс, скажем, по Data Science или программированию, набрать 1000 студентов и дать им 17 домашних заданий.
    • Результаты решений аккуратно собирать в структурированную базу данных (вопрос → пошаговый ответ → пояснения).
    • Одновременно брать плату за обучение — например, 10 000 долларов за курс, что в сумме даст 10 миллионов долларов выручки.
    • В результате вы получите (а) прямую прибыль от слушателей, (б) качественный датасет для обучения модели.
  2. Сервис SFT под ключ
    • Вы можете упаковать процесс сборки и аннотации данных, их финальной проверки и обучения модели как готовую услугу.
    • Показывайте клиентам пример Sky-T1, чтобы убедить их в том, что даже с ограниченным бюджетом (а значит, с меньшим риском) можно обучить модель, решающую узкоспециализированные задачи.
  3. Сбор и продажа датасетов
    • Качественные датасеты становятся одной из самых ценных «валют» в эпоху ИИ.
    • Если вы сможете собирать и верифицировать базу задач и решений (например, юридические кейсы, медицинские заключения, инженерные расчёты), то сможете продавать доступ к таким уникальным датасетам компаниям, нуждающимся в «умных» моделях для своих задач.
  4. Консалтинг и брендинг
    • Используйте подобные кейсы, чтобы привлечь инвесторов и заявить о себе как о технологичном игроке.
    • Покажите готовые результаты: работающие модели, обученные на конкретных бизнес-кейсах (финансы, ритейл, HR, медицина).
    • За счёт этого сформируете репутацию инновационной компании, способной за краткий срок создавать решения, которые раньше казались недоступными без многомиллионных бюджетов.
  5. Лицензирование обученной модели
    • После обучения модели на уникальных данных (например, в сфере логистики, маркетинга, IT-безопасности), вы можете продавать подписки на её использование.
    • Такой подход особенно эффективен, если вы станете де-факто стандартом в своей нише.

Ссылки на источники


Выводы

  1. Главное — данные. Лучше иметь небольшой, но крайне релевантный датасет, чем гигантский «мусорный» массив.
  2. Можно обойтись без многомиллионных затрат, если грамотно организовать процесс генерации и сбора данных (будь то с помощью других моделей или людей).
  3. Потенциал для монетизации огромен: EdTech, консалтинг, продажи готовых датасетов и лицензирование собственных моделей.
  4. Открытые исследования (как в примере Sky-T1-32B-Preview) снижают барьеры для входа и помогают бизнесу быстро находить готовые решения.

Таким образом, случай Berkeley Sky Computing Lab является отличным примером того, как разумная стратегия и фокус на качестве данных позволяют добиться высоких результатов в области искусственного интеллекта при минимальных финансовых вложениях. Если вы — предприниматель, вам открываются новые возможности для запуска прибыльных AI-проектов. А если вы специалист по Data Science, то стоит еще раз убедиться: хороший датасет — залог успешной модели.