дистант
March 3, 2021

Как происходит поиск информации в Интернете?

Для начала, давайте определимся, кто для нас находит нужную нам информацию? Главные труженики – это поисковые системы и каталоги.

Поисковая система – это программно-аппаратный комплекс, который предназначен для осуществления поиска в сети Интернет. Он помогает пользователям быстро найти необходимые сведения, реагируя на запрос пользователя выдачей списка ссылок на источники информации.

Пользователь задает в поисковик запрос, в котором формулирует, что хочет найти. Поисковая система в ответ выдает результаты поиска – ссылки на страницы сайтов, где может находиться интересующая пользователя информация.

Критерием поиска является информационный запрос, выражающий информационную потребность пользователя в каких-либо данных.

Процесс поиска включает в себя несколько этапов:

  • формирование информационного запроса;
  • определение всех возможных источников данных;
  • извлечение информации из найденных информационных массивов;
  • представление полученной информации пользователю для оценки результатов.

Результаты поиска характеризуются релевантностью, т. е. степенью соответствия найденных данных информационному запросу, и пертинентностью – соотношением полезной информации к общему количеству представленных результатов.

Для того, чтобы страница соответствовала запросу, на ней хотя бы раз должно быть употреблено слово, его синоним или словоформа из искомой фразы. 385 миллионов страниц релевантны запросу «Что добавить на сайт».

Для того, чтобы решить какая из страниц более релевантна в формуле ранжирования учитывается огромное количество факторов (около 800 в Яндексе), таких как

  • возраст сайта. Чем старше веб-ресурс, чем дольше он остаётся на плаву, тем больше к нему доверия.
  • дата написания/обновления веб-документа. Для запроса «кто стал президентом» важна актуальность новости, а для «пробегающий по буквам блик на CSS» в плюс пойдёт продолжительность существования страницы, так как именно она была первоисточником.
  • является ли страница предпочтительней для пользователя. Для этого оценивается поведение человека.
  • указан ли контактный городской телефон на коммерческих проектах.
  • быстро ли загружается веб-документ.

и т.д., вплоть до цвета фона страницы. Причём список факторов и их приоритет меняется в зависимости от запроса.

Ранжирование — из релевантных страниц выбирается та, которая лучше других отвечает на запрос, другими словами, самая релевантная. А далее по убывающей. То есть ранжирование — это расстановка элементов системы по рангу, от самого значимого до самого невесомого.

Для получения полезных результатов немалую роль играет формулировка информационного запроса. В любой поисковой системе можно уточнить запрос с помощью определенных инструментов, тем самым сузив область поиска. Выбор определенной поисковой системы также значительно влияет на вид информационной выдачи.

В общем случае любая поисковая система строится по одному алгоритму.

Она состоит из двух компонентов: программа, осуществляющая сбор информации и ее индексацию, и программный комплекс отбирающий данные по запросу пользователя и ранжирующий (сортирующий) их для вывода результата.

Поисковый робот – программа, осуществляющая основную функцию поисковой системы – поиск новых источников данных (страниц). Так как эта программа свободно перемещается по всемирной паутине, ее стали называть "пауком". Принцип действия "паука" достаточно прост: попадая на одну страницу, он ищет на ней ссылки на другие страницы и заходит на каждую из них, повторяя предыдущие действия.

При этом, робот индексирует (сохраняет основные сведения о сайте в базе данных) и отправляет копию каждой найденной страницы в архив. Стоит понимать, что под словом "каждая" подразумевается страница, соответствующая параметрам поиска.

Прежде чем попасть в индекс, страницы сайта проверяются на вирусы, технические ошибки и плагиат.

Плохие страницы сразу отсеиваются. И, конечно, исходя из принципа работы "паука", очевидно, что чем больше ссылок на сайт, тем быстрее он попадет в индекс.