February 4, 2021

Скелет для парсера на Python

Специалист  по анализу данных нуждается в постоянном притоке актуальных сведений. В  силу распространенной проблемы отсутствия релевантной информации в  необходимом для качественного  анализа объеме, зачастую приходится  извлекать эти сведения из веб-страниц путем парсинга и без использования  какого-либо API.

Ранее  я делился основами веб-скрапинга на Python с использованием библиотек  requests и urllib (для получения контента), а также beautifulsoup4 (для  его разбора). В частности, я сообщил об основах работы с методами  объекта BeautifulSoup find и findAll,   позволяющими получать первый и все результаты поиска тегов и их  атрибутов, а также привел код функции для безопасного получения страницы  с использованием средств анонимизации (подробнее здесь).

Теперь  предлагаю пойти дальше и поэтапно реализовать базовый функционал для  проведения парсинга ряда сайтов, имеющих шаблонную структуру. В их число  входят площадки для размещения объявлений о продаже товара либо  спортивные ресурсы о проведенных матчах или боях. Общим при проведении  их парсинга является необходимость определения контейнеров, в которых  находятся ссылки на события, извлечение этих адресов, после чего -  серфинг по товарам либо матчам со сбором статистики о каждом из них.

Таким образом, для скрапинга нам будет необходимо реализовать следующие модули:

В дальнейшем напишем код для программирования работы каждого модуля.