Бизнес
November 6, 2023

ChatGPT для веб-скрапинга: практическое руководство

Автоматизируем сценарии веб-скрапинга с помощью ChatGPT. Расскажу, как использовать чат-бот для создания действительно работающих скраперов на языке Python.

Шаг 1. Анализ структуры страницы

Исследуйте HTML-код страницы, с которой вы собираетесь извлекать данные, чтобы понять, какая информация вас интересует и как она организована.

Для примера возьмем список онлайн школ и рейтинг с сайта tutortop.ru.

Щелкните правой кнопкой мыши на любом названии школы и выберите пункт Inspect. Это откроет HTML-код данного элемента в окне Developer Tools.

Выберите Copy Selector, в котором содержится название школы. Запишите скопированный селектор и повторите то же самое, чтобы найти селектор для рейтинга.

Шаг 2. Написание кода

Попросите ChatGPT написать код, который будет выполнять запросы к веб-страницам, а затем анализировать и извлекать нужные данные.

Убедитесь в том, что запросы к нейросети понятны и подробны. Укажите используемый язык программирования, необходимые инструменты или библиотеки, конкретные части веб-страницы, с которыми необходимо работать, и т.д.

Также необходимо указать, что программа должна выдать в результате, и какие рекомендации должны быть в коде. Например сохранить данные в CSV-файле.

Пример кода ➞

Шаг 3. Просмотр кода

Просмотрите код, сгенерированный ChatGPT. Прежде чем использовать код, проверьте, не содержит ли он лишних библиотек, которые вам не нужны. Убедитесь, что у вас есть все необходимые пакеты, необходимые для работы с кодом.

Шаг 4. Сборка данных

Скопируйте код в редактор (например VS Code) и проверьте, правильно ли он выполняется. Если у вас возникли проблемы с кодом, не стесняйтесь сообщить об этом ChatGPT и попросить его создать код заново.

В результате получаем файл school_reviews.csv. Пример вывода отсканированных данных приведен ниже.