April 18

Пробив клоаки или Google IP check

Кратко результаты и ниже лог действий: ✅⛔ https://search.google.com/test/rich-results - IP гугл бота совпадает, не совпадает User Agent. ✅⛔ https://search.google.com/test/amp?hl=ru - IP гугл бота совпадает, не совпадает User Agent. ✅⛔ Google Search Console - IP гугл бота совпадает, не совпадает User Agent. Проверка производилась через добавленный свой сайт в консоль, а с него 301 редирект на заклоаченый сайт. Если взять любой другой сайт чужой без норм защиты (сверки юзер агента), то пробивает. ⛔⛔ https://pagespeed.web.dev/ - не совпадают IP с гугл ботом и User Agent .

https://seo-9.ru/googlebot/ipgoogle.html - пробив принадлежности IP к отделам гугла.

+ если стоит метатег на сайте noarchive - то и гугл кеш не покажет.

Проблематика что сервисы гугла сменили юзер агент, и начали добавлять в него Google-InspectionTool, по которому и блочат.

Можно посмотреть клоаку если сайт проверяет только реверс DNS (IP адрес гугл бота или нет). Если совмещать проверку IP с User Agent ботом гугла, то никак не пробить пока что :) Есть идея пробовать через iframe (но айфрем может быть заблочен для подрузки) Тут в статье есть тоже эксперименты с айфремом и другие: https://marko-f.com/fetch-as-googlebot/ либо пробовать как-то подменять user agent гугла.

Конечно может быть такое что и не только юзер агент чекает а еще какие заголовки... хз )


Подопытные:

Сайт для 1 для теста: https://crazytime-game.bet/ (клоачит контент там есть текст и другие мета).

Сайт для 2 для теста где точно контент клоачат: https://www.jasonwomackblog.com/ Убедиться в этом, можно посмотрев кеш, они забыли закрыть ноархивом: https://cutt.ly/Iw5xOrIx

Этот сайт еще закрывают прямой заход на сайт, т.е просто скопировав в адресную строку браузера - блок. Заходит только если перейти с выдачи google (т.е отслеживает реферер что переход идет с гугла).

------------------------------- Вот тут есть диапазоны IP гугл ботов и их доп сервисов:

https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot?hl=ru

Конкретно Google Bot диапазон IP - https://developers.google.com/search/apis/ipranges/googlebot.json
DNS resolve: crawl-***-***-***-***.googlebot.com или geo-crawl-***-***-***-***.geo.googlebot.com

Какие USER AGENT использует гугл краулер: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=ru

-------------------------------

Ниже лог экспериментов:

Google Search Console

Посмотреть как гугл бот через консоль тест 1:

Стукнуло с двух ботов:

66.249.64.43 Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
66.249.64.41 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)

Посмотреть как гугл бот через консоль тест 2:

Стукнуло с двух ботов:

66.249.64.41 Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
66.249.64.41 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)

Эти IP резолвятьсяться как:

crawl-66-249-64-43.googlebot.com.
оба указанных IP-адреса попадают в диапазон IP-адресов листинга ботов гугла.

-------

Вывод: Т.е со стороны IP все гуд. Но в cloudflare добавляется правило block user agent contain Google-InspectionTool и всё. Уже не пробиться.

------

Идем дальше, со своего сайта site.com/test делаю редирект на https://www.jasonwomackblog.com/ - фонарь https://prnt.sc/bn5NykSBBaqY

site.com/test2 -> 301 на https://crazytime-game.bet/ - тож фонарь посмотреть неа дает https://prnt.sc/LputGscSxOjx

Т.е тут вопрос, можно ли как-то все таки скормить чужой сайт. Не имея его google search console )


Что самое интересное, делаю 301 site.com/test3 на сайт, где нет никаких защит ) И сайт показывает )))

Т.е пацаны точно намудрили к примеру с блоком юзер агента или еще с чемто )))) Т.е через серч консоль их не пробить )

Проверяем Google Page Speed:

Пришли боты:

66.102.9.200 Mozilla/5.0 (Linux; Android 7.0; Moto G (4)) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Mobile Safari/537.36 Chrome-Lighthouse

66.249.93.99 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Safari/537.36 Chrome-Lighthouse

66.249.81.6 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Safari/537.36 Chrome-Lighthouse

66.249.81.7 Mozilla/5.0 (Linux; Android 7.0; Moto G (4)) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Mobile Safari/537.36 Chrome-Lighthouse

Т.е имеем IP, делаем их резолв и проверяем попадают ли они в список диапазона предоставленного от гугла их ботов.

66.102.9.200 - google-proxy-66-102-9-200.google.com.
66.249.93.99 - google-proxy-66-249-93-99.google.com.
66.249.81.6 - google-proxy-66-249-81-6.google.com.
66.249.81.7 - google-proxy-66-249-81-7.google.com.

Т.е ни один из айпи не попал в диапазон гугл ботов. Т.е Google Page Speed в пизду ничем не поможет ) Проверяем https://search.google.com/test/rich-results тул для проверки микроразметки от гугла.

Есть два режима сматфон и десктоп.

Проверяем смартфон:

Пришел 66.249.64.39 - Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)

Отдает - crawl-66-249-64-39.googlebot.com и пападает в диапазон IP, отлично)

Проверяем десктоп:

66.249.64.39 - Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
тоже гуд айпи попададает в диапазон гугл бота.

Т.е Тул можно юзать, т.к в нем кроме микроразметки можно посмотреть и HTML, и скриншот сайта.

Но минус, что обратно у него не гугл ботовские User Agentы, и заблокировав их финито.

Но обратно же https://crazytime-game.bet/ и https://www.jasonwomackblog.com/ - не пробило :) Тест тула проверки AMP версии: https://search.google.com/test/amp/

66.249.64.43 - Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)

66.249.64.43 Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

IP отдает гул бота crawl-66-249-64-43.googlebot.com. тут ок только обратно User Agent левые.