September 12, 2023

ПАРСИНГ САЙТОВ ПОРТФОЛИО

О себе

Всем привет, меня зовут Денис, занимаюсь парсингом сайтов уже около полугода. За это время успел спарсить довольно большое количество сайтов, список которых вы уже могли увидеть выше. В каждом из этих разделов я покажу, какую информацию с этих сайтов была нужна заказчику, и как мне удавалось ее достать.

Если вам понадобиться что-то спарсить, то с радостью помогу)

Контакты ниже👇👇👇

Контакты для связи:

Телеграмм - @jlimon4ikww

Kwork - https://kwork.ru/user/jlimon4ikww

Онлайн магазины

1. joesnewbalanceoutlet.com

Заказчику была нужна вся информация о кроссовках, которую отдает сайт:

Основной сложностью в получении информации было нахождение способа перехода по страницам сайта. Обычно переходы на другую страницу изменяют ссылку в адресной строке, но тут такого не наблюдалось. Поэтому пришлось покопаться в коде страницы. В результате была найдена следующая ссылка:

Перейдя по этой ссылке, стало понятно, что самая сложная часть позади. Данная ссылка дает артикулы товаров, зная которые, можно без проблем достать всю интересующую информацию.

В результате всей работы заказчик получил JSON-файл, в котором содержалась информация со скрина выше: начиная от цены, заканчивая всеми имеющимися размерами.

Обычные сайты

1. oscarlubricants.lubricantadvisor.com

Со всего сайта заказчику нужно было получить именно эти 2 строчки данных. Всего нужно было отпарсить около 40 000 страниц, собирая эту информацию. Так как собрать информацию через код страницы не удавалось, то пришлось использовать api запросы для данного сайта. В результате получилось несколько Excel-файлов следующего вида:

2. napopravku.ru

Основной задачей в данном заказе было вытаскивание ссылок на все фото со страниц клиник.

Самым интересным моментом было то, что по-простому вообще никак не удавалось достать эти ссылки, но спустя несколько попыток все же удалось найти способ получения интересующей информации. Она была довольно неплохо спрятана, но меня это не сломило. В результате были получены следующие документы для каждой из страниц:

Ну а заказчик получил Excel-файл со всеми, нужными ему, клиниками. Их в сумме оказалось чуть более 2000

3. partsbooking.info - самый масштабный проект

На данный момент парсинг данного сайта является самым масштабным проектом. В сумме было отправлено около 5 миллионов запросов на сайт. Весь этот процесс занял около 2ух недель.

Вот такая вот структура у сайта

Сам сайт представляет из себя огромное дерево с папками, в конце которого расположено довольно большое количество страниц с чертежами деталей следующего вида:

Заказчику была нужна информация о всех составляющих данных деталей и все подкатегории, которые нужно пройти, чтобы добраться именно до этой детали. Данная информация доставалась с помощью api сайта, а полученные таким образом JSON-объекты обрабатывались и сохранялись в CSV-файл. Итоговый файл имел следующую структуру:

Вся эта информация потом переносилась в эксель

В результате заказчик получил около 30 CSV-файлов с нужной ему информацией. Суммарный размер всех файлов составил около 8гб.

OpenSea

1. Коллекция irl punks

Передо мной стояла задача - собрать всю информацию о nft, начиная от их атрибутов редкости, и заканчивая скачиванием фото каждого отдельного панка. Для получения данной информации я пользуюсь api opensea, которые после небольшой обработки отдают информацию следующего вида:

Также перед обработкой я изымал ссылку на картинку и скачивал ее. В итоге заказчик получил 2 папки с 10000 файлов в каждой. В одной были характеристики, в другой - картинки. Папка с картинками выглядела следующим образом:

2. Коллекция ul punks

Аналогичным способом была получена такая же информация и о другой коллекции. Спустя пару часов работы заказчик получил 2 папки с нужной ему информацией: