Скелет для парсера на Python
Специалист по анализу данных нуждается в постоянном притоке актуальных сведений. В силу распространенной проблемы отсутствия релевантной информации в необходимом для качественного анализа объеме, зачастую приходится извлекать эти сведения из веб-страниц путем парсинга и без использования какого-либо API.
Ранее я делился основами веб-скрапинга на Python с использованием библиотек requests и urllib (для получения контента), а также beautifulsoup4 (для его разбора). В частности, я сообщил об основах работы с методами объекта BeautifulSoup find и findAll, позволяющими получать первый и все результаты поиска тегов и их атрибутов, а также привел код функции для безопасного получения страницы с использованием средств анонимизации (подробнее здесь).
Теперь предлагаю пойти дальше и поэтапно реализовать базовый функционал для проведения парсинга ряда сайтов, имеющих шаблонную структуру. В их число входят площадки для размещения объявлений о продаже товара либо спортивные ресурсы о проведенных матчах или боях. Общим при проведении их парсинга является необходимость определения контейнеров, в которых находятся ссылки на события, извлечение этих адресов, после чего - серфинг по товарам либо матчам со сбором статистики о каждом из них.
Таким образом, для скрапинга нам будет необходимо реализовать следующие модули:
В дальнейшем напишем код для программирования работы каждого модуля.