ChatGPT для веб-скрапинга: практическое руководство
Автоматизируем сценарии веб-скрапинга с помощью ChatGPT. Расскажу, как использовать чат-бот для создания действительно работающих скраперов на языке Python.
Шаг 1. Анализ структуры страницы
Исследуйте HTML-код страницы, с которой вы собираетесь извлекать данные, чтобы понять, какая информация вас интересует и как она организована.
Для примера возьмем список онлайн школ и рейтинг с сайта tutortop.ru.
Щелкните правой кнопкой мыши на любом названии школы и выберите пункт Inspect. Это откроет HTML-код данного элемента в окне Developer Tools.
Выберите Copy Selector, в котором содержится название школы. Запишите скопированный селектор и повторите то же самое, чтобы найти селектор для рейтинга.
Шаг 2. Написание кода
Попросите ChatGPT написать код, который будет выполнять запросы к веб-страницам, а затем анализировать и извлекать нужные данные.
Убедитесь в том, что запросы к нейросети понятны и подробны. Укажите используемый язык программирования, необходимые инструменты или библиотеки, конкретные части веб-страницы, с которыми необходимо работать, и т.д.
Также необходимо указать, что программа должна выдать в результате, и какие рекомендации должны быть в коде. Например сохранить данные в CSV-файле.
Шаг 3. Просмотр кода
Просмотрите код, сгенерированный ChatGPT. Прежде чем использовать код, проверьте, не содержит ли он лишних библиотек, которые вам не нужны. Убедитесь, что у вас есть все необходимые пакеты, необходимые для работы с кодом.
Шаг 4. Сборка данных
Скопируйте код в редактор (например VS Code) и проверьте, правильно ли он выполняется. Если у вас возникли проблемы с кодом, не стесняйтесь сообщить об этом ChatGPT и попросить его создать код заново.
В результате получаем файл school_reviews.csv
. Пример вывода отсканированных данных приведен ниже.