Анонимизация парсера веб-страниц
В ходе работы вашего парсера/веб-скрапера следует заботиться об анонимизации. Некоторые сайты могут посчитать вас чересчур назойливым и периодически отказывать в передаче запрашиваемой информации. Для этого я вводил в парсер такой параметр, как pages_load_stop_num, после которого программа принудительно останавливается, напоминая о смене ip (подробнее здесь).
Кроме того, в целях повышения анонимности я написал специальную функцию get_url_delay (подробнее здесь):
Вместе с тем данные меры должны дополняться использованием прокси- и VPN-сервисов. Моей любимой программой является Windscribe. Она поддерживает работу на разных операционных системах и имеет хорошие условия бесплатного использования (10 Гб и 10 разных стран, в некоторых из которых доступны локации, например в США около 10):
В платной версии (обойдется в 3-4 тыс. рублей в год) трафик безлимитный, скорость неограниченная, и порядка 100 разных ip адресов. Сам я в прошлом году купил годовую подписку, но, если вы не нуждаетесь в постоянной анонимизации при работе в Интернете, то 10 Гб и около 25 разных ip для скрапинга вам будет достаточно.
Для операционной системы Windows программа имеет хороший графический клиент, для которого достаточно выбрать ip и нажать кнопку подключения:
В Linux работать с Windscribe чуть сложнее, так как придется делать это в командной строке:
Однако для повышения скорости взаимодействия с Windscribe я имею готовый набор рецептов. Вам понадобится список бесплатных локаций. Для их вывода, как подсказывает справка, можно набрать:
windscribe locations
Однако, здесь перечисляются как доступные, так и платные локации, поэтому нам на помощь приходит команда grep для фильтрации вывода (чтобы не содержал строки с символом "*"):
windscribe locations | grep -v '*'
Затем для подключения набираем:
windscribe connect имя_из_label
Например, для перевода трафика на сервер Франции:
Для отключения соединения следует набрать:
windscribe disconnect
Напоследок отмечу, что приложения анонимизации характеризуются прежде всего объемом бесплатного трафика и количеством всегда доступных ip адресов. По совокупности этих параметров ни одна известная мне программа не способна соперничать с Windscribe.