Как обучить ChatGPT на собственных текстах и сайтах — gLoRA
В этой статье мы рассмотрим алгоритм обучения ChatGPT по любым текстам и веб-сайтам, которые вам нужны для обработки в нейросети.
Обучение нейросети ChatGPT позволяет обойти ограничения оригинальной базы знаний, так как на текущий момент ChatGPT в официальной сборке может отвечать только на те вопросы, ответы на которые ему заранее известны. Теперь вы самостоятельно можете обучить ИИ отвечать на любые вопросы, "скормив" ему любые текстовые материалы.
Все, что будет описано в этой статье, касается алгоритма "gLoRA", разработанного компанией Yes Ai, который работает в Телеграм боте @yes_ai_bot
gLoRA — с англ. "gpt Low Rank Adaptation" — низкоуровневая адаптация для нейросети ChatGPT.
Алгоритм gLORA может быть полезен для решения широкого спектра задач:
- обучение на собственных статьях для получения ответов на вопросы
- обучение с целью генерации промптов для нейросетей, создающих изображения по текстовому описанию
- обучение по текстам из переписки с техподдержкой вашей компании для генерации ответов на вопросы клиентов
Потенциал алгоритма очень широк, вы сами можете определять цели, для которых его можно применить на практике.
Принцип работы алгоритма gLoRA
Вы можете указать любые ссылки из сети интернет в качестве материалов, на которых будет обучена модель gLoRA, это позволит в любое время получать ответы на запросы с использованием собранной информации.
Когда вы отправите боту @yes_ai_bot промпт, в котором будет описана суть вопроса и уникальный номер ранее созданной модели gLoRA, наша система произведет глубокий поиск, фильтрацию и анализ данных для того, чтобы нейросеть ChatGPT дала корректный ответ на ваш запрос.
Если в модели gLoRA, которая была вами обучена, не обнаружен ответ на отправленный боту вопрос, то бот Yes Ai сообщит, что на данный момент ответ еще не известен нейросети. Однако, вы будете иметь возможность дообучить модель gLoRA с помощью отправки дополнительных материалов — такой подход хорошо подойдет, например, для формирования базы знаний о вашей компании.
Еще один метод применения моделей gLoRa
Как вам известно, мессенджер Телеграм не позволяет отправлять большие сообщения в качестве промпта для получения ответов на вопросы от нейросети ChatGPT, эта проблема легко решается с помощью алгоритма gLoRA в @yes_ai_bot. Теперь вы можете обучить модель по всем имеющимся у вас документам и текстам, чтобы в последствии задавать вопросы с использованием этой локальной базы знаний. Объем текстовых материалов в данном случае практически не ограничен.
🔵 Как обучить ChatGPT по одному или нескольким ссылкам на страницы сайтов в интернете
- в мессенджере Телеграм перейдите в бота @yes_ai_bot
- в нижнем меню нажмите на "Нейросеть: ... [изменить]"
- в сообщении выберите нейросеть "ChatGPT"
- активируйте опцию "+WEB" (она необходима для активации доступа к сети интернет для нейросети ChatGPT)
- отправьте боту команду
--glora-urls link1 link2 link3
...где "link1 link2 link3" — это список ссылок на URL сайтов, с которых нужно собрать текстовую информацию для обучения gLoRA. Перечислять сайты нужно через пробел. - дождитесь от бота уведомления о том, что модель gLoRA успешно обучена. В сообщении вы получите уникальный номерной ключ, который можно будет использовать в режиме "+WEB" для получения ответов на свои запросы с учетом материалов, изученных нейросетью по тексту, найденному в перечисленных вами ссылках.
Пример того, как выглядит ключ: <glora:1049>
ПРИМЕЧАНИЕ: для обучения модели gLoRA можно использовать только валидные ссылки, при открытии которых отображается какая-либо текстовая информация с объемом полезного контента не менее 60 слов. PDF документы, таблицы Google и документы на данный момент не поддерживаются.
🎞 Наша система может обучить gLoRa по видео из YouTube, для этого в качестве URL укажите ссылку на любой видеоролик из ютуба.
ПРИМЕЧАНИЕ: мы рекомендуем незамедлительно сохранять полученные вами ключи gLoRA, так как их поиск в переписке с ботом в будущем может оказаться достаточно трудоемкой задачей.
🚩 Обучение gLoRA по одному URL стоит 🔅1 монету в @yes_ai_bot, соответственно, если вы укажете 35 ссылок, то обучение будет стоить 35 монет, оплата взимается однократно. Мы не снимаем монеты за ссылки, которые не удалось открыть в процессе обучения.
Как использовать gLoRA для генерации ответов на запросы
Вы можете использовать любые ключи gLoRA: как те, которые были созданы вами, так и те, которые были созданы другими пользователями Yes Ai.
- в сообщении выберите нейросеть "ChatGPT" и активируйте режим "+WEB"
- отправьте боту свой промпт вместе с ключом в формате <glora:****>
...где **** — это уникальный номер ранее созданной модели gLoRA.
Пример запроса с использованием gLoRA:
<glora:1263> как написать качественный промпт для аниме картинок
ПРИМЕЧАНИЕ: вы можете использовать не более двух ключей <glora:****> в каждом запросе. Если в вашем промпте присутствует 2 ключа, то нейросеть будет производить поиск ответов в двух моделях gLoRA одновременно.
ПРИМЕЧАНИЕ: стоимость запросов будет зависеть от объема контекста и объема ответа от нейросети (стоимость токенов для нейросети ChatGPT указана в @yes_ai_bot, для получения данных отправьте боту команду /prices). За сам факт использования gLoRA дополнительная оплата не взымается, тарификация производится только за объем токенов, отправленных и полученных от нейросети ChatGPT.
ПРИМЕЧАНИЕ: вы можете применять gLoRA как в модели ChatGPT 4_turbo, так и в 3.5_turbo — для этого используйте переключатель "GPT 4" в нижнем меню бота @yes_ai_bot. Модель ChatGPT 4 зачастую отвечает более корректно, но стоимость токенов выше.
🟠 Обучение gLoRA по поисковому запросу
Вы можете обучить нейросеть по всем ТОПовым страницам поисковых систем, которые будут найдены при вводе вашего запроса.
Для обучения используйте следующую команду:--glora-search *****
...где ***** — это текстовый запрос, который будет введен в поисковые системы для сбора текста с целевых страниц найденных сайтов.
Пример запроса для обучения gLoRA по поисковой выдаче:--glora-search как писать промпты для midjourney
...в этом случае модель будет обучена по всем страницам, найденным по запросу "как писать промпты для midjourney"
Как узнать, чему обучена та или иная модель gLoRA, зная ее номер
На практике часто возникает необходимость узнать, чему была обучена gLoRA, как правило, это происходит из-за того, что пользователь забывает назначение модели.
Чтобы узнать, что находится в памяти модели gLoRA, отправьте боту команду:--glora-about ****
...где **** — это номер существующей модели gLoRA.
Пример запроса: --glora-about 1263
Пример ответа на запрос для получения описания модели gLoRA:
🇷🇺 Описание gLoRA 1263: Основная тема этой модели сосредоточена на предоставлении рекомендаций и советов по написанию эффективных подсказок для платформы Midjourney с использованием нейронных сетей и технологии ChatGPT. В нем рассматриваются такие темы, как создание запросов для нейронных сетей, улучшение подсказок и руководства для начинающих по написанию увлекательного контента для Midjourney.
🇬🇧 Description of gLoRA 1263: The main theme in this model is focused on providing guidance and tips for writing effective prompts for the platform Midjourney, utilizing neural networks and chatGPT technology. It covers topics such as crafting queries for neural networks, improving prompts, and beginner's guides to writing engaging content for Midjourney.
🟢 Как обучить модель gLoRA по всем страницам нужного сайта
Мы разработали уникальный алгоритм, который самостоятельно найдет все страницы на указанном вами сайте, а затем обучит модель gLoRA по собранным текстовым материалам. Этот метод будет работать только с теми сайтами, у которых имеется карта "sitemap".
Команда для обучения gLoRA по карте сайта:--glora-sitemap URL
...где URL — это ссылка на главную страницу сайта, по текстовым данным которого необходимо обучить нейросеть.
ПРИМЕЧАНИЕ: по умолчанию наша система возьмет из карты сайта не более 300 уникальных ссылок, но вы можете увеличить или уменьшить количество обрабатываемых URL с помощью команды:--glora-sitemap URL --maxlinks XX
...где URL — это ссылка на сайт, по карте которого нужно обучить gLoRA
...XX — это число от 10 до 1000, указывающее на максимальное количество страниц сайта, по текстам которых нужно обучить модель gLoRA.
Если вам требуется обучить модель gLoRA по карте сайта, который содержит более 1000 страниц, то обращайтесь в техподдержку через мессенджер Телеграм @yes_ai_support — мы поможем сделать это в индивидуальном порядке.
ПРИМЕЧАНИЕ: чем больше страниц требуется проанализировать для обучения модели gLoRA, тем дольше займет процедура. Обучение модели по 100 страницам сайта займет приблизительно 10 минут.
ПОЛЕЗНЫЙ СОВЕТ: если вы хотите обучить собственную модель gLoRA на текстах, которые собраны в виде документов, но их нет в сети интернет, то загрузите эти тексты на любой сайт, позволяющий создавать статьи, например, teletype.in или telegra.ph. Когда все документы будут загружены, обучите gLoRA с помощью команды:--glora-urls link1 link2 link3
...где "link1 link2 link3" — это список ссылок на созданные вами текстовые документы, перечислить можно не более 50 ссылок.
🔴 Как доучить ранее созданную модель gLoRA по дополнительным данным
Если ранее вы или кто-то другой создал модель gLoRA, но вам кажется, что ее знаний не хватает для решения поставленных задач, то вы можете доучить ее с помощью любого из ранее представленных в этой статье методов: через поисковые запросы, через карту сайта или по перечисленным URL.
Дополнительное обучение запускается при помощи добавочного параметра:
...где xxxx - это номер уже существующей модели gLoRA, которую нужно доучить.
Пояснение: слово "enrich" переводится с английского как "обогащение".
Когда дополнительное обучение будет завершено, вы получите уникальный номер новой модели gLoRA, которая будет сочетать в себе все знания изначальной модели и информацию, собранную в качестве обогащения.
Вам не придется платить за те данные, которые имелись в оригинальной модели gLoRA, 🔅 монеты будут вычтены с вашего баланса только за новую информацию, полученную в процессе дополнительного обучения.
Команда для дополнительного обучения gLoRA по поисковому запросу:
--glora-search --enrich 1008 *****
...где 1008 - это номер модели gLoRA, которую нужно доучить
***** - это текст поискового запроса, по которому будут собраны дополнительные данные
Команда для дополнительного обучения gLoRA по перечисленным URL:
--glora-urls --enrich 1008 link1 link2 link3
...где 1008 - это номер модели gLoRA, которую нужно доучить
"link1 link2 link3" - это ссылка (или несколько ссылок), по которой был взят дополнительный текст для дополнительного обучения gLoRA
Команда для дополнительного обучения gLoRA по карте сайта:
--glora-sitemap --enrich 1008 URL
...где 1008 - это номер модели gLoRA, которую нужно доучить
URL
- это ссылка ссылка на сайт, по карте которого будет произведено обогащение модели gLoRA №1008
ПРИМЕЧАНИЕ: запросы для алгоритма gLoRA нужно отправлять только после того, как вы выберите нейросеть ChatGPT и включите режим "+WEB" в нижнем меню бота @yes_ai_bot в мессенджере Телеграм.
ПРИМЕЧАНИЕ: ответы на запросы с использованием gLoRA будут написаны на том же языке, на котором вами был введен исходный вопрос.
ПРИМЕЧАНИЕ: чем подробнее вы опишете свой вопрос с использованием gLoRA, тем точнее будет полученный от нейросети ответ.
Ответ на вопрос "Есть ли в Yes Ai методы API для работы с моделями gLoRA?"
ПРИМЕЧАНИЕ: если вам нужно лишь однократно использовать внешний сайт или несколько его страниц, для получения ответа на свой вопрос, то вместо gLoRA вполне уместно использовать алгоритм "+WEB", позволяющий нейросети ChatGPT получить доступ к сети интернет. Подробное описание этого метода находится тут: https://teletype.in/@yes_ai_bot/chatgpt_s_dostupom_k_internetu
Учитесь новому на нашем 👉 Форуме о нейросетях