Мой напарник - ИИ
Введение
Некоторое время назад я была скептически настроена в отношении ИИ, потому что тот же ChatGPT очень плохо справлялся с анализом данных, поиском и выдачей первоисточников. Сейчас же эти навыки сильно улучшились. Конкуренты вроде DeepSeek по многим параметрам отстают и постоянно «галлюцинируют».
Однако в узкоспециальных областях у ChatGPT всё ещё есть проблемы, о чём говорят многие учёные (я читаю много чатов и каналов по разным направлениям). Он может ошибаться даже при решении задач средней сложности по алгебре или теории поля. Блин, иногда он ошибается в задачах по алгебре начальной сложности!
Работоспособность
Но сейчас ChatGPT уже экономит много времени, в том числе и в рабочих процессах. Какие задачи он пока не делает:
- Поиск и написание досье на физических и юридических лиц
- Geoint
- Не очень хорошо справляется с построением фишинговых цепочек, основанных на последних трендах
- Анализ документов
- Анализ большого массива данных (но эти данные лучше не передавать в файлах + надо передавать небольшими фрагментами)
- Генерация дополнительных идей. Допустим, у меня есть какая-то задача, где нужны идеи и алгоритмы по ее решению. Я накидываю 5-6 вариантов, потом прошу ChatGPT мне помочь, и он выдает еще несколько вариантов, некоторые из которых мне даже в голову не приходили.
- Может помочь разобраться с новыми osint инструментами
- Может помочь в написании парсеров и других скриптов. Но здесь тоже есть нюанс. У меня есть друг, он профессиональный разработчик, и он легко может отличить код от ChatGPT от кода, написанного, например, мидлом.
Важный момент: ни в коем случае не надо передавать конфиденциальные данные о задаче.
Какие факторы будут влиять на выдачу, качество выданной информации и более полезное взаимодействие с ИИ (про разные версии говорить не буду, это очевидно)?
- Промпты. Чем более точно поставлена задача, тем полезнее будет выдача. Желательно указывать цели, типы источников, формат выдачи, описание задачи. Сюда же входят уточняющие вопросы\корректировка.
- У ChatGPT есть еще такая штука как temperature, которая контролирует случайность и креативность ответов модели. Она бывает трех видов:
- Low (например, 0,2). Отдаётся предпочтение более распространённым и предсказуемым ответам, и подходит для задач, требующих точности и достоверности, например при ответах на технические вопросы или генерации кода.
- Medium (например, 0,7). Баланс между креативностью и надежности.
- High (например, 1,0). Модель становится более творческой и исследует менее распространённые возможности, что может привести к более уникальным (или галлюциногенным) результатам. - Подключение плагинов веб-поиска или собственных API интеграций.
- Структурированные данные обычно обрабатываются точнее, чем "сырые"
Кейсы
Кейс 1
Простой кейс, который можно решить с помощью ИИ, сэкономив много времени:
Задача: нужно получить список ФИО, должностей, почт и телефонов сотрудников фирмы. Все эти данные были доступны на одной из страниц этой компании, но сотрудников указано очень много. Вручную делать это было бы долго и неприятно, поэтому просим помочь ChatGPT с этой задачей. Он загружает html страницы, разбирает dom с помощью BeautifulSoup, по регулярным выражениям ищет совпадения с шаблонами нужных нам данных и сохраняет в том формате, который нам нужен.
Можно возразить: "У нас же есть много инструментов для такого парсинга вроде Octoparse, ParseHub, WebScraper, Data Miner и тд". Их не всегда удобно использовать и настраивать. Так что здесь на вкус и цвет.
Кейс 2
Задача: есть набор из 200 ссылок на обсуждения скандала <name>. Есть 80 ссылок на английском, 50 на Reddit, 70 на русскоязычных форумах.
Надо скачать тексты по ссылкам, перевести все на русский язык, сгруппировать тексты по смысловым кластерам и по каждому дать краткое резюме.
- Парсинг и сбор данных: предложил комбинацию requests + BeautifulSoup для Reddit и форумов, и tweepy для Twitter API.
- Для перевода можно использовать API DeepL или встроенный плагин перевода в ChatGPT, чтобы нормализовать язык.
- Кластеризация. Преобразование с помощью модели sentence-transformers (например, all-MiniLM-L6-v2).
- Резюмирование для каждого кластера можно попросить ChatGPT. Если массив слишком большой, можно выбрать несколько текстов из кластера и попросить дать краткий обзор. Но это будет зависеть от объема каждого кластера.
Критически важно
Все шаги и выдачу ИИ нужно проверять и включать критическое мышление, так что думать все равно придется. Но время действительно экономится.