June 16, 2022

Генерируем уникальные тексты с помощью ИИ.

Неужели пора отказываться от копирайтеров? Насколько уникален и пригоден такой контент для сайта, и есть ли будущее у технологии GPT-3 в России?

Тестируем программу и разбираемся вместе с экспертами.

Тестирование русской модели

GPT-3 Large GPT-3 — это нейронная сеть 3 поколения, на основе искусственного интеллекта, которая умеет писать музыку, делать дизайн, программировать, а также генерировать уникальные тексты.

На платформе Sbercloud представлена русскоязычная модель GPT-3 Large. Она включает в себя 760 000 000 параметров и может:

  • Генерировать текст на русском и английском.
  • Продолжать программный код.
  • Отвечать на вопросы.

Работать с программой нужно методом «затравочного программирования». Необходимо ввести запрос, а GPT-3 подстраивается под него. Разработчики сразу оговорились, что результат не может быть предугадан заранее, иногда он бывает неуместным — за это программисты никакой ответственности не несут.

Я на данный момент работаю над заказом по seo-текстам для сайта по наркологии в Санкт-Петербурге, поэтому решил посмотреть, кто лучше: я или GPT-3?

Вбиваю ключ «Лечение наркомании в Санкт-Петербурге». Первые 5 попыток дают нелепые и смешные результаты:

Я решил уточнить задачу, что именно мне требуется. В окно «затравки» я вбил «Лечение наркомании в Санкт-Петербурге подробный текст». Результат был удачным:

Я получил контент на 1 255 символов с пробелами. Очень неплохого качества, со знанием дела и тематики.

Text.ru выдал 100% уникальность, ключевые показатели составили 33% заспамленности и 17% воды. Это соответствует требованиям моего заказчика. Хотя водянистость у меня обычно в зеленой зоне, не более 15%, но это мелочи. Можно подставить ключевые слова, и заказ готов.

Я попробовал сделать еще один текст. Мне заказывают их 4 в неделю. Теперь GPT-3 меня сразу понял и выдал результат с первой попытки. Версия стала лучше, на 1312 символов с пробелами и походила на классический контент статейника по наркологии.

Показатель заспамленности поднялся до 42%, до моего стандартного уровня. Но это произошло из-за того, что GPT-3 сам включил в текст большое количество нужных ключей. Уникальность 100%. Для медицинской тематики это очень высокий показатель.

Впечатление положительное. Конечно, программа понимает пользователя не сразу, выдает иногда бессмыслицу, но использовать ее как экстренного бесплатного копирайтера реально.

В России это единственная версия GPT-3. Я решил посмотреть, какие программы существуют в бурже. Я хорошо владею английским, поэтому иногда беру в работу контент на иностранном языке. Многие вебмастера также переходят на работу с буржем, поэтому наше исследование может быть им полезным, и даже помочь сэкономить денег.

Какая ситуация в бурже?

Когда летом я готовил первый материал об искусственном интеллекте, я зарегистрировался в листе ожидания OpenAI, разработчика GPT-3. Прошло больше четырех месяцев, а ответ на почту так и не пришел. При этом на самом портале набор продолжается до сих пор, только расширился список вопросов к кандидатам на демо доступ. Приоритет отдается академическим исследователям, к которым я, видимо, не отношусь.

На данный момент за рубежом существует большое количество уже готовых решений на ИИ. Этому вопросу посвящен портал https://gpt3examples.com. Тут есть база программ и подборка твитов разработчиков. Правда, последние публикации были лишь в конце октября 2020 года. Потом у вебмастера либо не стало времени, либо пропал интерес. Но база все равно очень обширная. С ней удобно работать, можно даже скачать в формате CSV или распечатать.

Первая программа, к которой я обратился, была сервисом почтовых рассылок Magic Email. На видео сообщалось, что можно по ключевым тезисам сгенерировать полноценное письмо, и это в 5 раз ускорит написание креативов для рассылок.

К сожалению, после регистрации я увидел уже знакомую надпись о листе ожидания. Новых пользователей приглашают редко, разработчики предложили мне запастись терпением.

Следующей программой для тестирования стала https://app.snazzy.ai. Она предлагает большой вариант генерации креативов. От банального контекста или объявления в Facebook, Google Ads до полноценного позиционирования бренда. В начале работы программа предложила мне ввести название и ключевые особенности моего бизнеса, чтобы GPT-3 лучше понимал поставленные задачи.

Я решил протестировать самую популярную задачу — генерацию контента. Тему выбрал строительство загородных домов. Она близка мне по работе с заказчиками.

Требовалось ввести следующую информацию:

  • Название темы
  • Краткое описание

Я указал 3 ключевых преимущества, и в результате получил полноценную статью о модульных домах с историей и даже небольшим количеством статистики.

Результат оказался приличный, но бесплатная версия программы длится всего неделю. Далее за каждый месяц придется платить $49. Не очень дешево по нашим меркам.

Следующее решение называлось https://www.copy.ai. Помимо создания креативов, данная программа предлагала даже идеи «мозгового штурма», то есть новые продукты, концепции брендинга и даже поиска способов роста клиентской базы.

В этот раз я затронул тематику финансов. В качестве идеи был выбран инвестиционный фонд малой капитализации. Ниша инвестиций популярна сейчас за рубежом. В результате мне были предложены 10 идей для стартапа с контентом разной степени проработки содержания:

7 идей описаний моего продукта, также разной степени детализации:

Результаты достойные, но следует учесть, что в исходных данных я указывал подробное описание объемом 649 знаков с пробелами, что помогло GPT-3 лучше меня понять.

Увы, бесплатная версия доступна недолго, всего три дня. Далее стоимость составляет $35 в месяц.

А есть ли что-то бесплатное полностью? На журналистском портале deadline.media я увидел пресс-релиз о запуске полноценной бесплатной базы данных big data, предназначенной для работы именно с ИИ.

На искомом портале https://tethys.xyz все действительно в свободном доступе. Но вот разобраться может тот, у кого есть навыки работы на Python или хотя бы опыт работы с Google Colab, GitHub.

А как быть простым пользователям? Пользоваться только платными программами в бурже, а для генерации русскоязычного контента тестовым решением монополиста Сбербанка?

Как Сбербанк разрабатывал GPT-3

Вернемся немного в прошлое. 22 октября 2020 года Сбербанк выложил в открытый доступ первую русскоязычную модель GPT-3, о чем сразу сообщили многие порталы, включая Т-Ж. Однако, пользоваться ей могли только пользователи с минимальными навыками, о чем говорил представитель разработчика.

Работа с уже обученными моделями проста. Требуется уметь скачивать и запускать готовое решение и минимальный набор навыков уровня Junior Data Scientist:

  • Язык программирования Python.
  • Понимание смысла одной метрики качества (перплексии).

Для реализации собственной задумки на основе GPT-3 нужна уже идея и навыки прототипирования.

Пользователи активно ждали более популярной версии, задавали вопросы специалисту по машинному обучению Сбербанка Сергею Маркову.

Релиз действительно состоялся, правда, с большой паузой. 4 декабря Сбербанк презентовал web-интерфейс для тестирования, а 15 декабря объявил о коммерческом запуске ML Space — облачной платформы для решений на основе GPT-3. Именно его мы сегодня и тестировали.

ML Space позиционируется как единственная система, позволяющая обучать ИИ более чем на 1 000 графических процессорах (GPU). Планы Сбербанка большие:

  • Сделать цены на программу самыми низкими — 3 рубля за GPU-минуту обучения и препроцессинга, 12 копеек за CPU-минуту, 0,054 копейки за инференс модели.
  • Выдавать предпринимателям гранты до 1 000 000 рублей на внедрение и обучение ML Space.

Результаты тестовой версии меня удовлетворили. Будет ли доступна пользователям бесплатная версия, или за нее все-таки придется платить. Я решил узнать, что думают об этом специалисты отрасли.

Мнение эксперта

Финансовый директор компании Work Solutions Максим Мул уверен, что модель Сбербанка и вовсе не GPT-3.

Стоит понимать, что модель от Сбера похожа на GPT-3, но не является ей. Сами авторы признают, что она в 230 раз меньше самой большой версии GPT-3, у которой 175 млрд весов, а значит, повторить результаты бенчмарков реальной GPT-3 она не сможет.

Сбер опирался на описание архитектуры GPT-3, которое, как показывает практика, может отличаться от реальной реализации. Сказать точно можно, только ознакомившись с тренировочными параметрами, и если раньше веса публиковали с задержкой, то в свете недавней сделки OpenAI и Microsoft шансы на это тают.

Многие пользователи в сети придерживаются такого же мнения, иногда не стесняясь в выражениях. Так настоящий ли это GPT-3 в России? Если нет, почему разработчики не используют оригинал?

Почему в России есть проблемы с GPT-3?

На данный момент частные разработчики в России практически не используют GPT-3. При этом за рубежом таких программ много. В чем причина?

Российские разработчики могут запросить доступ к модели GPT-3 через высокоуровневое API. Реального доступа к модели нет ни у кого кроме Майкрософт, с которой OpenAI недавно заключила сделку и дала эксклюзивные права на использование.

Обучение GPT-3 обошлось OpenAI не менее $10 000 000. Таким образом, воспроизвести работу OpenAI могут только крупные компании c сильными ML-специалистами и мощными вычислительными ресурсами.

OpenAI обладает очень сильными маркетологами. GPT-3 — потрясающая технология, но у Google и Facebook есть открытые языковые модели не хуже. Просто они менее раскручены.

Вывод

Русская версия GPT-3 существует только в исполнении Сбербанка. Правда, среди экспертов и вебмастеров есть мнение, что это лишь попытка создать свой ИИ по образу оригинала.

Основные причины для отсутствия русских приложений на GPT-3:

  • Трудность получения реального доступа.
  • Высокие затраты на разработку и обучение.

Тем не менее, решение Сбербанка практично, позволяет генерировать контент даже в тестовом доступе. Очевидно одно — технология GPT-3 развивается большими темпами, и появление полноценного программного обеспечения на русском языке лишь вопрос времени.