Работа с Facebook
March 14, 2021

Анализ данных в Keitaro. @PoiskROI

Последнее время люди часто пишут, мол рекламу апрувнули, но после определенного спенда - сходу policy , либо домен по политике вылетает и наш РК благополучно падает.

Потому я решил чисто для себя разобраться в чем может заключаться проблема (хоть и отчасти теоретически).

Погнали с вами @PoiskROI и автор: @DolloDo

В нашем эксперименте будет использоваться трекер Keitaro.

Стоит сразу заметить - что у каждого человека может попадаться отдельный вид ботов и их спецификации.
Так что подобные действия желательно делать изначально - чтобы всегда можно было ужесточить наш отбор, кому показывать блек.

Для начала далеко не будет идти.
Соберем с паблика список UserAgent'ов, которые заранее уже были обнаружены:

https://developers.whatismybrowser.com/useragents/explore/software_name/facebook-bot/

Я добавил их на стороне IMKLO - для фильтрации на стороне имкло. И продублировал в Keitaro.
Для чего это сделано? -

Часто видел что 1 и тот же IP бота. Заходил как 2 разных клика. В 1 клике - пустой UserAgent, а во 2ом клике - уже есть UserAgent.

Предположение: Я думаю что первое время для разгона вашей личной базы ботов в ситуациях подобным выше. Нужно покрутить и собрать IP и UserAgent'и чтобы в будущем они фильтровались без проблем.

Ранее я использовал подобную раскладу фильтров в Keitaro :

Она и сейчас нормально работает в плане сортировки. Но я решил пойти дальше.

Keitaro как и любой другой трекер - очень обширный в плане настроек велосипед.

И многие думаю - "зачем лезть внутрь, если он едет". Зря.


Давайте разберем детали "этого велосипеда" чтобы понимать что мы можем вообще использовать в ловле ботов.

Там есть как не очень полезные для нас фильтры:
- Интервалы дат, Расписание, Лимит кликов, Сайты, Ключевики, Поисковики, IP, IPv6, Сотовые операторы, Провайдеры (если ГЕО баз нету), ОС. Версии ОС, Языки.

Так и очень интересные для нас:
-Рефереры, Ad Campaign ID, Creative ID, Пустой реферер, Прокси, ГЕО (Город\Старана), Проверка IMKLO, Проверка HideClick, БОТ, Уникальность, Типы соединения, Браузеры (и версии) , Тип и модель устройств, UserAgent'ы и Sub'и.

А для тех, кто знает:
-Параметр, X-Requested-With.

С помощью этих запчастей можно собрать отличный апгрейд вашего велика. Главное знать что делать и понимать что получим в конечном итоге.

Сегодня хочу детальнее поглядеть на интересные для нас фильтры - исходя с уже отлитого трафика. Часть переменных есть там и это нам поможет в будущем.

При использовании ДОП параметров, которые передают с фб - ссылка подобная:

https://домен/ключ?utm_creative={{ad.name}}&utm_campaign={{campaign.name}}&utm_source={{site_source_name}}&utm_placement={{placement}}&campaign_id={{campaign.id}}&adset_id={{adset.id}}&ad_id={{ad.id}}&adset_name={{adset.name}}

Рефереры - сайты с которых был осуществлен переход на ваш сайт.

Placements, Ad Campaign ID, Creative ID - данные с фб. Точнее их ID и имя

UserAgnet'ы - отпечаток браузера, ну и Sub'ы понятно что это.

Остальное думаю понятно.

А теперь глянем на история трафика.

И так если мы глянем горизонтальные прямоугольники то увидим. Что 2\3 переходов было вполне с адекватными юзерагентами, даже с ОС и браузером.

Но что самое интересное - то ГЕО другое - и пустые переменные - {{campaign.name}} и другие.

Стоит учитывать что пустые {{}} переменные - это не всегда боты.

https://youtu.be/O2YOdXGep2w - оригинал

Как видно выше. Очень много идет юзерагентов:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

это краулер фейсбука - которые GET запросом выгружает весь HTML код вашей страницы.

Более детально можно глянуть здесь:

https://developers.facebook.com/docs/sharing/webmasters/crawler?locale=ru_RU#identify


Анализ отчетов:

Если смотреть - более подробно то картина выглядит следующим образом:

Самые ярко выраженные у нас выступают следующие боты (они отмечены)

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.89 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.188 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.88 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

так же если разбить еще и на Creative ID выходит подобное:

так же стоит учитывать что в боты записываются все клики которые заходят не с нашего ГЕО.


Выводы:

Используя этот список ботов фб:

https://developers.whatismybrowser.com/useragents/explore/software_name/facebook-bot/

+ добавим юзерагент

httpx - Open-source project (github.com/projectdiscovery/httpx)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.89 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 6P Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.83 Mobile Safari/537.36

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b

вот полный список UA - https://pastebin.com/MHLPZCNY

дальше

получаю список IP краулеров:

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route

и IP4 айпишки добавляю в кейтаро для ботов

IPv6 отключаю (хотя идет через cloudfare - и отключены там IPv6 вход)

На этом пока все. Но сразу хочу вас предупредить.

Не копируйте 1в1 настройки - зачастую это может просто даже не помочь. А наоборот сделать хуже.

Потому пробуйте и находите свои настройки, которые подходят вам.

Ps обновляйте айпишники краулеров FB.

PPs анализируйте свои клики, а не мои - либо других людей.

Ваш трафик = ваши боты = ваши проблемы.

С вами был @dollodo и канал @PoiskROI