July 25
Скрипт для автоматического парсинга изображений с Pinterest
Описание
Этот скрипт предназначен для автоматического парсинга изображений с Pinterest по ключевым словам и URL-адресам. Он может работать с использованием куков для авторизации, а также без них.
Функциональность скрипта:
- Загрузка ключевых слов и URL-адресов:
- Ключевые слова и URL-адреса читаются из файла
keywords.txt
. - Ключевые слова используются для поиска на Pinterest.
- URL-адреса используются для непосредственного парсинга указанных страниц.
- Использование куков для авторизации:
- Скрипт может использовать файл
cookies.json
для авторизации в Pinterest. - Если куки отсутствуют, скрипт предложит авторизоваться и сохранит куки для последующего использования.
- Парсинг изображений:
- Логирование:
Требования:
Для работы скрипта необходимо установить следующие Python-модули:
Вы можете установить их с помощью команды:
pip install playwright requests
Инструкция по использованию:
haircuts fashion https://www.pinterest.com/pin/123456789/ https://www.pinterest.com/pin/987654321/
- Запуск скрипта:
- Убедитесь, что файлы
keywords.txt
иcookies.json
(если используете) находятся в той же директории, что и скрипт. - Запустите скрипт командой:bashКопировать код
python scraper.py
- Выберите использование куков:
- Скрипт спросит, хотите ли вы использовать куки для авторизации. Ответьте
yes
илиno
Use cookies for login? (yes/no):
- Авторизация в Pinterest (если выбрано использование куков):
Войдите в свой аккаунт Pinterest и нажмите Enter в терминале после завершения авторизации
Please log in to your Pinterest account... Press Enter after you have logged in...
Scraping for keyword: haircuts Scrolling page to load content... Found image URL: https://i.pinimg.com/originals/... Image saved: image1.jpg - Total downloaded: 1 ... Total images downloaded: 10
Пример содержимого файлов:
haircuts fashion https://www.pinterest.com/pin/123456789/ https://www.pinterest.com/pin/987654321/
С помощью этого скрипта вы сможете легко и быстро парсить изображения с Pinterest, автоматизируя процесс сохранения контента.