ПАРСИНГ САЙТОВ ПОРТФОЛИО
О себе
Всем привет, меня зовут Денис, занимаюсь парсингом сайтов уже около полугода. За это время успел спарсить довольно большое количество сайтов, список которых вы уже могли увидеть выше. В каждом из этих разделов я покажу, какую информацию с этих сайтов была нужна заказчику, и как мне удавалось ее достать.
Если вам понадобиться что-то спарсить, то с радостью помогу)
Телеграмм - @jlimon4ikww
Онлайн магазины
1. joesnewbalanceoutlet.com
Заказчику была нужна вся информация о кроссовках, которую отдает сайт:
Основной сложностью в получении информации было нахождение способа перехода по страницам сайта. Обычно переходы на другую страницу изменяют ссылку в адресной строке, но тут такого не наблюдалось. Поэтому пришлось покопаться в коде страницы. В результате была найдена следующая ссылка:
Перейдя по этой ссылке, стало понятно, что самая сложная часть позади. Данная ссылка дает артикулы товаров, зная которые, можно без проблем достать всю интересующую информацию.
В результате всей работы заказчик получил JSON-файл, в котором содержалась информация со скрина выше: начиная от цены, заканчивая всеми имеющимися размерами.
Обычные сайты
1. oscarlubricants.lubricantadvisor.com
Со всего сайта заказчику нужно было получить именно эти 2 строчки данных. Всего нужно было отпарсить около 40 000 страниц, собирая эту информацию. Так как собрать информацию через код страницы не удавалось, то пришлось использовать api запросы для данного сайта. В результате получилось несколько Excel-файлов следующего вида:
2. napopravku.ru
Основной задачей в данном заказе было вытаскивание ссылок на все фото со страниц клиник.
Самым интересным моментом было то, что по-простому вообще никак не удавалось достать эти ссылки, но спустя несколько попыток все же удалось найти способ получения интересующей информации. Она была довольно неплохо спрятана, но меня это не сломило. В результате были получены следующие документы для каждой из страниц:
Ну а заказчик получил Excel-файл со всеми, нужными ему, клиниками. Их в сумме оказалось чуть более 2000
3. partsbooking.info - самый масштабный проект
На данный момент парсинг данного сайта является самым масштабным проектом. В сумме было отправлено около 5 миллионов запросов на сайт. Весь этот процесс занял около 2ух недель.
Сам сайт представляет из себя огромное дерево с папками, в конце которого расположено довольно большое количество страниц с чертежами деталей следующего вида:
Заказчику была нужна информация о всех составляющих данных деталей и все подкатегории, которые нужно пройти, чтобы добраться именно до этой детали. Данная информация доставалась с помощью api сайта, а полученные таким образом JSON-объекты обрабатывались и сохранялись в CSV-файл. Итоговый файл имел следующую структуру:
В результате заказчик получил около 30 CSV-файлов с нужной ему информацией. Суммарный размер всех файлов составил около 8гб.
OpenSea
1. Коллекция irl punks
Передо мной стояла задача - собрать всю информацию о nft, начиная от их атрибутов редкости, и заканчивая скачиванием фото каждого отдельного панка. Для получения данной информации я пользуюсь api opensea, которые после небольшой обработки отдают информацию следующего вида:
Также перед обработкой я изымал ссылку на картинку и скачивал ее. В итоге заказчик получил 2 папки с 10000 файлов в каждой. В одной были характеристики, в другой - картинки. Папка с картинками выглядела следующим образом:
2. Коллекция ul punks
Аналогичным способом была получена такая же информация и о другой коллекции. Спустя пару часов работы заказчик получил 2 папки с нужной ему информацией: