Пробив клоаки или Google IP check
Кратко результаты и ниже лог действий: ✅⛔ https://search.google.com/test/rich-results - IP гугл бота совпадает, не совпадает User Agent. ✅⛔ https://search.google.com/test/amp?hl=ru - IP гугл бота совпадает, не совпадает User Agent. ✅⛔ Google Search Console - IP гугл бота совпадает, не совпадает User Agent. Проверка производилась через добавленный свой сайт в консоль, а с него 301 редирект на заклоаченый сайт. Если взять любой другой сайт чужой без норм защиты (сверки юзер агента), то пробивает. ⛔⛔ https://pagespeed.web.dev/ - не совпадают IP с гугл ботом и User Agent .
https://seo-9.ru/googlebot/ipgoogle.html - пробив принадлежности IP к отделам гугла.
+ если стоит метатег на сайте noarchive - то и гугл кеш не покажет.
Проблематика что сервисы гугла сменили юзер агент, и начали добавлять в него Google-InspectionTool, по которому и блочат.
Можно посмотреть клоаку если сайт проверяет только реверс DNS (IP адрес гугл бота или нет). Если совмещать проверку IP с User Agent ботом гугла, то никак не пробить пока что :) Есть идея пробовать через iframe (но айфрем может быть заблочен для подрузки) Тут в статье есть тоже эксперименты с айфремом и другие: https://marko-f.com/fetch-as-googlebot/ либо пробовать как-то подменять user agent гугла.
Конечно может быть такое что и не только юзер агент чекает а еще какие заголовки... хз )
Подопытные:
Сайт для 1 для теста: https://crazytime-game.bet/ (клоачит контент там есть текст и другие мета).
Сайт для 2 для теста где точно контент клоачат: https://www.jasonwomackblog.com/ Убедиться в этом, можно посмотрев кеш, они забыли закрыть ноархивом: https://cutt.ly/Iw5xOrIx
Этот сайт еще закрывают прямой заход на сайт, т.е просто скопировав в адресную строку браузера - блок. Заходит только если перейти с выдачи google (т.е отслеживает реферер что переход идет с гугла).
------------------------------- Вот тут есть диапазоны IP гугл ботов и их доп сервисов:
https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot?hl=ru
Конкретно Google Bot диапазон IP - https://developers.google.com/search/apis/ipranges/googlebot.json
DNS resolve: crawl-***-***-***-***.googlebot.com или geo-crawl-***-***-***-***.geo.googlebot.com
Какие USER AGENT использует гугл краулер: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=ru
-------------------------------
Ниже лог экспериментов:
Google Search Console
Посмотреть как гугл бот через консоль тест 1:
66.249.64.43 Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
66.249.64.41 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
Посмотреть как гугл бот через консоль тест 2:
66.249.64.41 Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
66.249.64.41 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
crawl-66-249-64-43.googlebot.com.
оба указанных IP-адреса попадают в диапазон IP-адресов листинга ботов гугла.
Вывод: Т.е со стороны IP все гуд. Но в cloudflare добавляется правило block user agent contain Google-InspectionTool и всё. Уже не пробиться.
Идем дальше, со своего сайта site.com/test делаю редирект на https://www.jasonwomackblog.com/ - фонарь https://prnt.sc/bn5NykSBBaqY
site.com/test2 -> 301 на https://crazytime-game.bet/ - тож фонарь посмотреть неа дает https://prnt.sc/LputGscSxOjx
Т.е тут вопрос, можно ли как-то все таки скормить чужой сайт. Не имея его google search console )
Что самое интересное, делаю 301 site.com/test3 на сайт, где нет никаких защит ) И сайт показывает )))
Т.е пацаны точно намудрили к примеру с блоком юзер агента или еще с чемто )))) Т.е через серч консоль их не пробить )
Проверяем Google Page Speed:
66.102.9.200 Mozilla/5.0 (Linux; Android 7.0; Moto G (4)) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Mobile Safari/537.36 Chrome-Lighthouse
66.249.93.99 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Safari/537.36 Chrome-Lighthouse
66.249.81.6 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Safari/537.36 Chrome-Lighthouse
66.249.81.7 Mozilla/5.0 (Linux; Android 7.0; Moto G (4)) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4590.2 Mobile Safari/537.36 Chrome-Lighthouse
Т.е имеем IP, делаем их резолв и проверяем попадают ли они в список диапазона предоставленного от гугла их ботов.
66.102.9.200 - google-proxy-66-102-9-200.google.com.
66.249.93.99 - google-proxy-66-249-93-99.google.com.
66.249.81.6 - google-proxy-66-249-81-6.google.com.
66.249.81.7 - google-proxy-66-249-81-7.google.com.
Т.е ни один из айпи не попал в диапазон гугл ботов. Т.е Google Page Speed в пизду ничем не поможет ) Проверяем https://search.google.com/test/rich-results тул для проверки микроразметки от гугла.
Есть два режима сматфон и десктоп.
Пришел 66.249.64.39 - Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
Отдает - crawl-66-249-64-39.googlebot.com и пападает в диапазон IP, отлично)
66.249.64.39 - Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
тоже гуд айпи попададает в диапазон гугл бота.
Т.е Тул можно юзать, т.к в нем кроме микроразметки можно посмотреть и HTML, и скриншот сайта.
Но минус, что обратно у него не гугл ботовские User Agentы, и заблокировав их финито.
Но обратно же https://crazytime-game.bet/ и https://www.jasonwomackblog.com/ - не пробило :) Тест тула проверки AMP версии: https://search.google.com/test/amp/
66.249.64.43 - Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
66.249.64.43 Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
IP отдает гул бота crawl-66-249-64-43.googlebot.com. тут ок только обратно User Agent левые.