January 4, 2022

Универсальный трюк для поиска по сайту, когда что-то трудно найти

Эффективный поиск является необходимым условием для быстрого решения аналитических задач. Расскажу о трюке, который спасает в ситуациях, когда на сайте отсутствует качественный поиск материалов или требуется найти скрытую страницу.

В этом случае на помощь приходят поисковые системы. В частности, и Google, и Яндекс предусматривают использование ключевой фразы site: для задания сайта, на котором требуется что-то найти.

Рассмотрим реальные кейсы. Я исследую вопрос соответствия коэффициентов ставок на исходы поединков UFC и степени уверенности моделей машинного обучения в результате. Для этого мне необходимо постоянно собирать соответствующую статистику до наступления турнира. Один из сайтов предоставляет ее, но не в том виде, который мне нужен для автоматического сбора (так как сведения выдаются в центре экрана лишь по одной схватке после ее выбора из списка в левом нижнем окне):

Предположив, что можно найти список всех боев сразу, я ввел поиск произвольного участника по сайту:

и уже во второй ссылке получил нужную страницу:

Теперь удобно осуществлять скрапинг содержимого страницы.

Другой реальный кейс. Иногда возникает необходимость освежить в памяти один из приемов, которые я уже рассматривал на своих блогах в Яндекс Дзене и Teletype. Однако встроенные поисковики в обоих платформах такие плохие, что даже нахождение своей статьи является крайне сложной задачей (если только не вспомнить полное название).

Опять же на помощь придет поисковой трюк:

Результат зависит от сайта, так как поисковики выбирают что индексировать по-разному. В примере выше Яндекс плохо индексирует Teletype, лучше - родную платформу Дзена, а Google - наоборот. При этом в обоих случаях результат Google более релевантный (чаще так и бывает, но советую использовать обе системы).