LLM
December 18, 2024

Яндекс GPT

Описание инструмента

Цель данного исследования: проверить насколько YandexGPT пригоден для использования в работе внутреннего аудитора. Методология исследования будет в отдельной статье.

О чем речь: YandexGPT 4 Pro - нейросеть от Яндекса (она же используется в Алисе и Яндекс-браузере)

Где взять: https://console.yandex.cloud/

Цена: 10 бесплатных запросов в час, дальше генерация платная и зависит от длины вашего запроса, длины ответа и продвинутости модели (Pro или Lite). В среднем 1-3 рубля за небольшой запрос.

Регистрация: Достаточно аккаунта Яндекса; для запросов выше лимита требуется привязки карты и номера телефона.

Интерфейс: Явно заточен под большой экран. Делится на три колонки:

  • в левой список чатов, которые называются эксперименты;
  • в средней содержимое чата;
  • в правой настройки: выбор модели, температура и инструкция (контекст запроса и непосредственно задание, которое должна выполнить модель)
Загрузить документ нельзя. Так что придется копировать содержимое прямо в чат.

Тесты

Тест 1. Список процессов из описания компании.

Цель теста: проверить сможет ли модель по схематическому описанию компании составить четкий список процессов.

Задаем инструкцию: "Представь себе, что ты внутренний аудитор. В чат будет отправлено описание модели бизнеса. Твоя задача перечислить ключевые бизнес-процессы бизнес-модели."

Температура изменяет креативность модели: чем выше температура, тем больше креатива (но и больше шансов, что модель придумает несуществующий бред). Для внутреннего аудита высокая креативность не требуется, поэтому этот ползунок или не меняем, или делаем меньше.

Вставляем в чат описание компании. Исходник можно посмотреть тут. К сожалению, дать ссылку на документ или загрузить документ нельзя. Пришлось скопировать текст и вставить в чат вручную.

Про управление финансами в источнике ничего не было, но такой процесс выглядит логично.

Результат достойный. Считаю, что тест пройден, хоть и ручное копирование немного раздражает.

Тест 2. Описание процесса из регламента

Цель теста: проверить сможет ли модель по регламенту составить описание процесса.

Берем первый попавшийся регламент из интернета и попытаемся из него понять как выглядит регламент закупки.

Задаем инструкцию: "Представь себе, что ты внутренний аудитор. В чат будет отправлен регламент закупок ОАО "Кировские коммунальные системы". Твоя задача описать порядок закупки."

Температуру не меняем. Оставляем значение 0,3.

Вставляем в чат текст регламента вручную. Нажимаем отправить и получаем ошибку:

Оказывается в чат нельзя отправлять более 30 тыс. символов. А в нашем регламенте их 244 тыс.

Можно попробовать разрезать текст регламента на 9 частей и отправить их в чат по очереди, но стоит ли оно того? Может проще просто прочитать 38 страниц регламента?

Итого: тест провален.

Тест 3. Типовые риски процесса

Цель теста: проверить может ли модель сформулировать типовые риски процесса.

Задаем инструкцию: "Представь себе, что ты внутренний аудитор. В чат будет отправлено описание процесса закупки. Твоя задача описать основные риски, возникающие в этом процессе."

Температуру не меняем. Оставляем значение 0,3.

Вставляем текстовое описание процесса в чат текст вручную.

Модель попыталась сохранить структуру оригинального документа, но запуталась с нумерацией пунктов.

Перечень рисков есть, но очень общий. К тому же в исходном описании был такой пункт:

Вырезка из описания процесса закупки, которое мы дали на вход.

Мне хочется получить риск, связанный именно с этим пунктом. Попробуем дать подсказку:

Интересно, но мимо.

Попробуем снова.

Опять не о том.

Тогда спросим напрямую.

Ну хоть так.

По моей оценке тест скорее не пройден, чем пройден. С одной стороны мы вроде бы получили более-менее вменяемый список общих рисков. Но вот с адаптацией рисков под наш конкретный пример модель справилась плохо.

Тест 4. Как проверить, что риск реализовался?

Цель теста: проверить, что модель может предложить конкретные шаги для проверки риска.

Сначала попробуем спросить в контексте предыдущего теста.

На мой вкус не хватает конкретики.

Ладно. Начнем сначала. Сделаем новый чат.

Задаем инструкцию: "Представь себе, что ты внутренний аудитор. В чат будет отправлено описание процесса закупки. Твоя задача предложить конкретные шаги для проверки риска того, что часть закупок не прошла тендерный комитет."

Температуру не меняем. Оставляем значение 0,3.

Вставляем текстовое описание процесса в чат текст вручную.

В трех пунктах из 8 нам рекомендуют проверить, что же все таки закупили. Не хватает рекомендации сверить то, что закупили с решениями тендерного комитета.

Считаю, что тест скорее не пройден, чем пройден. Вроде бы есть две трети ответа, но суть ответа где-то потерялась.

Тест 5. Проверка гипотезы: сравнить 2 таблицы

Цель теста: проверить может ли модель помочь с расчетами.

Задаем инструкцию: "Представь себе, что ты внутренний аудитор. В чат будет отправлены две таблицы. Твоя задача сравнить цену в плане закупки и рыночную цену и вывести различия в таблицу."
Вставляем в чат таблицы в текстовом виде:

План закупки ОС ОАО "Кировские коммунальные системы" на 2025 год
Номенклатура |Количество|Цена|Сумма, руб
Беларус МТЗ 82|2|2 220 000|4 440 000
Щетка к трактору навесная|10|250 000|2 500 000
Поливалка навесная|2|350 000|700 000
Срез рыночных цен на 31.12.2024
Номенклатура|Цена рыночная
Беларус МТЗ 82|2 320 000
Щетка к трактору навесная|244 000
Поливалка навесная|300 000

В результате получаем:

Похоже, что модель перепутала цену и сумму. 😖

Ладно, удалим суммы из запроса.

В запросе суммы уже нет, а в ответе все еще сумма вместо цены. Похоже, нужно делать новый чат.

Тест не пройден. Мало того, что таблицы вставлять в чат не очень просто, так еще и модель понимает таблицы хуже, чем текст.

Тест 7. Написать выводы для отчета

Цель теста: проверить, что модель сможет предложить выводы для аудиторского отчета.

Учитывая результаты предыдущих тестов, сразу дисквалифицирую данную модель.

Вердикт

Плюсы:
+ не нужен VPN и сложная регистрация
+ понятно как платить
+ ваши данные остаются в РФ

Минусы
- модель часто ошибается, либо дает слишком общий ответ (возможно, промпт-инжиниринг мог бы исправить ситуацию, но это нужно проверять отдельно);
- нельзя загрузить файл или дать ссылку на файл, все нужно копировать в чат руками;
- в чат помещается не более 30 тыс. символов, что практически лишает смысла работу с большими документами.

Инструмент вряд ли можно рекомендовать для использования в ежедневной работе внутреннего аудитора.