July 25

Скрипт для автоматического парсинга изображений с Pinterest 

Описание

Этот скрипт предназначен для автоматического парсинга изображений с Pinterest по ключевым словам и URL-адресам. Он может работать с использованием куков для авторизации, а также без них.

Функциональность скрипта:

  1. Загрузка ключевых слов и URL-адресов:
    • Ключевые слова и URL-адреса читаются из файла keywords.txt.
    • Ключевые слова используются для поиска на Pinterest.
    • URL-адреса используются для непосредственного парсинга указанных страниц.
  2. Использование куков для авторизации:
    • Скрипт может использовать файл cookies.json для авторизации в Pinterest.
    • Если куки отсутствуют, скрипт предложит авторизоваться и сохранит куки для последующего использования.
  3. Парсинг изображений:
    • Скрипт загружает только изображения в высоком разрешении.
    • Изображения сохраняются в папку save.
  4. Логирование:
    • Лог-файлы создаются при каждом запуске скрипта и сохраняются в папке logs.
    • Логи содержат информацию о процессе парсинга и количестве скачанных изображений.

Требования:

Для работы скрипта необходимо установить следующие Python-модули:

  • playwright
  • requests

Вы можете установить их с помощью команды:

pip install playwright requests

Инструкция по использованию:

  1. Подготовьте файлы:
    • keywords.txt: Содержит ключевые слова и URL-адреса, по одному на строку
haircuts 
fashion 
https://www.pinterest.com/pin/123456789/ 
https://www.pinterest.com/pin/987654321/ 
  1. Запуск скрипта:
    • Убедитесь, что файлы keywords.txt и cookies.json (если используете) находятся в той же директории, что и скрипт.
    • Запустите скрипт командой:bashКопировать кодpython scraper.py
  2. Выберите использование куков:
    • Скрипт спросит, хотите ли вы использовать куки для авторизации. Ответьте yes или no
      Use cookies for login? (yes/no):
  3. Авторизация в Pinterest (если выбрано использование куков):
    • Если вы выбрали yes и куки отсутствуют, скрипт откроет окно браузера для авторизации в Pinterest.

Войдите в свой аккаунт Pinterest и нажмите Enter в терминале после завершения авторизации

Please log in to your Pinterest account... 
Press Enter after you have logged in... 
  1. Процесс парсинга:
    • Скрипт начнет парсинг по указанным ключевым словам и URL-адресам.
    • Прогресс будет отображаться в терминале, включая количество скачанных изображений
Scraping for keyword: haircuts Scrolling page to load content... 
Found image URL: https://i.pinimg.com/originals/... 
Image saved: image1.jpg - Total downloaded: 1 ... 
Total images downloaded: 10 
  1. Логирование:
    • Лог-файл будет создаваться и обновляться в реальном времени в папке logs.
      Имя файла лога будет содержать дату и время запуска скрипта.plaintextКопировать код
      logs/log_19-15-37-25-07-2024.txt

Пример содержимого файлов:

keywords.txt:

haircuts fashion 
https://www.pinterest.com/pin/123456789/ 
https://www.pinterest.com/pin/987654321/ 

С помощью этого скрипта вы сможете легко и быстро парсить изображения с Pinterest, автоматизируя процесс сохранения контента.