June 16

Мой напарник - ИИ

Введение

Речь пойдет о ChatGPT.

Некоторое время назад я была скептически настроена в отношении ИИ, потому что тот же ChatGPT очень плохо справлялся с анализом данных, поиском и выдачей первоисточников. Сейчас же эти навыки сильно улучшились. Конкуренты вроде DeepSeek по многим параметрам отстают и постоянно «галлюцинируют».

Однако в узкоспециальных областях у ChatGPT всё ещё есть проблемы, о чём говорят многие учёные (я читаю много чатов и каналов по разным направлениям). Он может ошибаться даже при решении задач средней сложности по алгебре или теории поля. Блин, иногда он ошибается в задачах по алгебре начальной сложности!

Работоспособность

Но сейчас ChatGPT уже экономит много времени, в том числе и в рабочих процессах. Какие задачи он пока не делает:

  1. Поиск и написание досье на физических и юридических лиц
  2. Geoint
  3. Не очень хорошо справляется с построением фишинговых цепочек, основанных на последних трендах
  4. Анализ документов

В чем он может быть полезен?

  1. Анализ большого массива данных (но эти данные лучше не передавать в файлах + надо передавать небольшими фрагментами)
  2. Генерация дополнительных идей. Допустим, у меня есть какая-то задача, где нужны идеи и алгоритмы по ее решению. Я накидываю 5-6 вариантов, потом прошу ChatGPT мне помочь, и он выдает еще несколько вариантов, некоторые из которых мне даже в голову не приходили.
  3. Может помочь разобраться с новыми osint инструментами
  4. Может помочь в написании парсеров и других скриптов. Но здесь тоже есть нюанс. У меня есть друг, он профессиональный разработчик, и он легко может отличить код от ChatGPT от кода, написанного, например, мидлом.

Важный момент: ни в коем случае не надо передавать конфиденциальные данные о задаче.

Какие факторы будут влиять на выдачу, качество выданной информации и более полезное взаимодействие с ИИ (про разные версии говорить не буду, это очевидно)?

  1. Промпты. Чем более точно поставлена задача, тем полезнее будет выдача. Желательно указывать цели, типы источников, формат выдачи, описание задачи. Сюда же входят уточняющие вопросы\корректировка.
  2. У ChatGPT есть еще такая штука как temperature, которая контролирует случайность и креативность ответов модели. Она бывает трех видов:
    - Low (например, 0,2). Отдаётся предпочтение более распространённым и предсказуемым ответам, и подходит для задач, требующих точности и достоверности, например при ответах на технические вопросы или генерации кода.
    - Medium (например, 0,7). Баланс между креативностью и надежности.
    - High (например, 1,0). Модель становится более творческой и исследует менее распространённые возможности, что может привести к более уникальным (или галлюциногенным) результатам.
  3. Подключение плагинов веб-поиска или собственных API интеграций.
  4. Структурированные данные обычно обрабатываются точнее, чем "сырые"

Кейсы

Кейс 1

Простой кейс, который можно решить с помощью ИИ, сэкономив много времени:

Задача: нужно получить список ФИО, должностей, почт и телефонов сотрудников фирмы. Все эти данные были доступны на одной из страниц этой компании, но сотрудников указано очень много. Вручную делать это было бы долго и неприятно, поэтому просим помочь ChatGPT с этой задачей. Он загружает html страницы, разбирает dom с помощью BeautifulSoup, по регулярным выражениям ищет совпадения с шаблонами нужных нам данных и сохраняет в том формате, который нам нужен.

Можно возразить: "У нас же есть много инструментов для такого парсинга вроде Octoparse, ParseHub, WebScraper, Data Miner и тд". Их не всегда удобно использовать и настраивать. Так что здесь на вкус и цвет.

Кейс 2

Задача: есть набор из 200 ссылок на обсуждения скандала <name>. Есть 80 ссылок на английском, 50 на Reddit, 70 на русскоязычных форумах.

Надо скачать тексты по ссылкам, перевести все на русский язык, сгруппировать тексты по смысловым кластерам и по каждому дать краткое резюме.

Чем может помочь ChatGPT?

  1. Парсинг и сбор данных: предложил комбинацию requests + BeautifulSoup для Reddit и форумов, и tweepy для Twitter API.
  2. Для перевода можно использовать API DeepL или встроенный плагин перевода в ChatGPT, чтобы нормализовать язык.
  3. Кластеризация. Преобразование с помощью модели sentence-transformers (например, all-MiniLM-L6-v2).
  4. Резюмирование для каждого кластера можно попросить ChatGPT. Если массив слишком большой, можно выбрать несколько текстов из кластера и попросить дать краткий обзор. Но это будет зависеть от объема каждого кластера.

Критически важно

Все шаги и выдачу ИИ нужно проверять и включать критическое мышление, так что думать все равно придется. Но время действительно экономится.