Расшифровка голосового чата: Яндекс Антиспам

Условно, для каждой выдачи есть целая партия метрик, которые смотрят за разными позициями.

1. Одна из таких метрик – метрики про спам. Яндекс изобрел метрику «Пифаунд» (PFound) – это вероятность пользователя найти ответ в n-первых результатах десятка, релевантно. Метрики по спамности рассчитываются так же - т.е. вероятность того, что пользователь увидит какой-то спамный результат выдачи. Есть много запросов, по каждому запросу много сайтов и если в топ-10 появляется сайт, который по какому-то алгоритму из Яндекса размещается как спам, то эта метрика сигнализирует и проксима тусует выдачу, чтобы найти более релевантный ответ, т.е. убрать этот спам из выдачи.

У Яндекса есть целый кластер разметок, который он чекает и который на выдаче по этим результатам. Идеальная выдача для пользователя, где и происходит оценка, все эти метрики оценивают нахождение спамных результатов в топ-10. То, как размещаются эти результаты, там все очень просто

Что касается факторов, когда очень много SEO-оптимизации (много ссылок покупается или ПФ накручивается или сделано много вхождений), все эти вещи онлайн-метрики по качеству поиска не отслеживают. Вся SEO-шная переоптимизация не учитывается онлайн-метриками, потому что если формально сайт попадает под «нормальный сайт» (есть регион, есть релевантные страницы, все хорошо с оптимизацией, сайт грузит ПФ), то такие метрики его не видят, то есть он для метрик «нормальный сайт».

Другое дело, если вступает антиспам, который определяет человек ли это или бот. Просто роботные запросы не учитываются в расчете поведенческих метрик на выдаче. Яндекс с этим борется, иногда успешно, иногда нет. Сейчас, когда год назад был подключен трансформер в определении последовательности кликов на выдаче, взаимодействие пользователя по запросу с документами стало лучше, но не до конца. Ссылочный спам был побежден, то история с ПФ достаточно длительная, но каждый год идет итерация, и накручивать становится все сложнее.

Аспекты выдачи, оцениваемые поисковиками, что Яндекс оценивает по своим файлам? Есть группа метрик, отвечающая за аспекты: релевантность (соответствие выдачи поисковому запросу), зарекламленность (наличие избыточного количества рекламы), порно (есть ли выдача), спам, свежие документы, дубликаты документов, для мобильного поиска какие-либо оценки, какие-то технические алерты, и оценочные, то что предназначенные талог и всеми ассесорами (там такие документы присутствуют), это все тоже оценивается. Документ оценивается ассесором, и оценки не уходят в трубу , они используются как для обучения, так и для построения невыдачи, т.е. в ряде метрик используется только топ-5 используемых ассесорами документов, туда просто так встать нельзя, если сайт ассесор не разметил.

Если посмотреть, что внутри спамных метрик? Есть зарекламленность – оценка рекламности выдачи, это один из факторов, определяющих качество поиска (проксима, которая смотрит на рекламу, в этой метрике это выражено. Реклама может быть разделена на 2 группы, это всплывающая реклама (Pop-up) и реклама, отражающаяся на страницах сайта. Pop-up-ы – это, по-мнению яндекса, распространенная форма рекламы, но она должна быть оформлена определенным образом , т.е. не должно быть так, что при входе на страницу и сразу много Pop-up-ов, пользователь ничего не понимает, закрывает и уходит.

У них(Pop-up-ов) есть градация:

1. Popunder (открывается новое окно при попытке закрыть рекламный слой)

2. Clickunder (открывается новое окно при нажатии любой области документа)

3. Присутствие обоих типов попандеров

4. Отсутствие всплывающей рекламы

Реклама является одной из основных статей дохода любого сайта, при этом качественный документ, ориентированный на пользователя, не должен содержать агрессивную рекламу, отвлекающую внимание от основного содержимого. Для такой оценки используется такая шкала, как зарекламленность.

Шкала оценки зарекламленности

1. Оценка «чисто», реклама аккуратно интегрирована в дизайн документа и соответствует ему, не мешает просмотру содержимого и не преобладает над контентом;

2. Оценка «годится», реклама выделяется над общим фоном содержимого документа, но не мешает доступу к основному содержимому документа

3. Оценка «мешает», реклама мешает навигации, и/или закрывает содержимое документа.

4. Оценка «невозможно», реклама сильно затрудняет доступ к содержимому документа, который возможно и создан для показа рекламы.

В целом, очень много сайтов используют рекламу для монетизации трафика и жизни/существования, потому что они сами используют рекламу. Она должна не мешать человеку.

Градация спама: все их знают, по факту уже часто не встречаются в выдаче.

На что нацелен поисковик?:

1. дорвей (doorway) – создан ля быстрого перехода, в том числе и автоматического перехода, на другой ресурс.

2. Домен на продажу – качество поиска лучше не станет, он содержит рекламу, и представляет услуги по продаже домена, по которому доступен.

3. QR-спам? При оценке зарубежными ассесорами (российскими ассесорами). Содержит в списке запросов нечитаемый текст. Создан для индексации и поискового продвижения. Полезная информация на ресурсах, отнесенных к данной категории спама, отсутствует. (В Яндексе подобное не встречалось, в Google встречается, где при входе вся страница практически – это списки ключевых слов, нет никакого контента, и они все равно каким-то образом ранжируются, с этим поисковики ведут борьбу)

4. Спам-форум (заспамленный форум) - страницы форумов, на которых содержится спам-контент, бессмысленный набор поисковых фраз.

5. Спам-реклама – состоит только из рекламных блоков, ведущих на другие ресурсы.

Оценка так же выставляется для следующих устаревшихся категорий спама:

1. Спам каталок

2. Спам треферов. Это виды страниц-спама, которые уже устарели

6. Псевдосайт – документ, выдаваемый за официальное представительство организации, города, клуба и т.п., но не являющийся таковым

Мимикрия – когда копируется логотип, все технические тексты, делается такой же домен, такой же цвет, такая же информация, только имитируется что это сайт, но таковым не является. С этим поисковики ведут борьбу.

7. Вторконтент – содержание документа является релевантным, однако существует достаточное количество документов, содержащихся данных материал. При этом прочие документы, имеющие данное содержание, сделаны более качественно и имеет меньшее количество рекламы. Вторконтент - это взяли статью с сайта, не приложено никаких усилий, чтобы там была еще какая-либо польза, и используют рекламу. Поэтому создаются закрытые SEO-клубы, SEO-сообщества, SEO-курсы, с целью избежать подобного.

8. Партнерка – это документ представляет содержание по партнерской программе. Т.е. это партнерские программы либо услуги, которые не несут никакой добавленной ценности, просто предлагается воспользоваться этой партнерской программой или услугой – «переходите по ссылке партнера и решайте свои вопросы». Это тоже расценивается как категория спама. Сейчас очень много сайтов по страхованию, НФО и прочее (особенно крупных сайтов), у которых есть своя аудитория, они не размечены как партнерский спам, потому что у них есть реальная ценность самого ресурса и проекта. Как правило, есть и свое мобильное приложение, целая группа редакторов пишет уникальный контент, проводится анализ. Это не «copy & paste», поэтому ранжируется

9. Satellite – документ расположен на сайте, являющийся частью группы сайтов, созданных одной организацией для продвижения в поисковых системах. Это так называемые PBN или satellite – это такой тип сайта, который не должен появляться в выдаче по нормальным запросам.

10. Агрегатор контента – содержит материалы с других сайтов, никакой ценности нет, просто берется на себя и агрегирует.

11. Переоптимизированные страницы – градация спама, которая содержит требуемую информацию, однако имеет текст, не относящийся на прямую к объекту запроса. В некоторых случаях текст является несогласованным для включения требуемых поисковых фраз. Т.е. оптимизаторы приказали «налить воды» в тексте и поставить туда какие-то ключи, которые, по их мнению, должны поднять сайт в топ. По итогу получается несогласованная «портянка».

12. Технический спам – спам, который содержит информацию, непредназначенную для индексации. Открыли ботом индексацию того, чего не надо, для пользователя это не принесет ничего хорошего, поэтому все технические неполадки SEO-шники просят закрывать владельца сайта, когда делают технический аудит в 1-2-3 месяц анализа сайта. Все технические «портянки», которые делаются клиенту, не должны утечь в поиск как технический спам.

13. search result – результаты поиска. Содержит результаты поиска по сайту или по поисковой системе. Если ozon.ru или 2gis.ru открыли результаты поиска, то скорее всего будет получено в 2 раза больше трафика, потому что очень много трафика на эти сами сайты. Можно сделать грамотную систему, которая будет отдавать релевантные URL-ы под все эти запросы, ничем не отличающиеся от витрин, созданных и оптимизированных веб-мастерами изначально. Поэтому, необходимо смотреть, что за сайт, как все сделано.

14. Спам или спам-контент – малоинформативный документ, содержащий большое количество рекламы (здесь проходит градация между полезностью и рекламой, т.е. важно какая доля рекламы, какая доля полезной информации). Если есть спам-контент, все «завешано» рекламой, используется скопированный у кого-то текст, плюс текст без структуры (были даны одни ключи, много «воды») – ранжироваться не будет.

15. link farm – ссылочная помойка – автоматически созданный каталог ссылок или часть группы документов, все ссылки которых являются замкнутыми, ссылаются только на прочие документы, входящие в группу. Идет из 00-х годов, когда можно было сделать такую ферму/ссылкопомойку, и это работало отлично. Такого рода страница в выдаче не должна быть.

16. Обман пользователя – содержимое документа вводит пользователя в заблуждение, например, контент анонсируется как бесплатный, но при попытке доступа оказывается платным. Текст документа генерируется случайным образом и т.д.

Есть устаревшая градация спама: спам-каталог, спам-реферат, спам-доска объявлений, просто доска объявлений, просто каталог, просто реферат, платный контент. Эта градация сейчас не используется.

SEO-шники, которые продвигают коммерческие сайты, беспокоятся о следующем:

1. Что будет, если поставить много анкорных ссылок, не заспамится ли?

2. Что будет, если начать крутить на себя ПФ, не забанят ли сайт?

3. Что будет, если поставить по текстовому анализу не 20 вхождений в анкор-исходящих ссылок на листинге, например, название товара, а 150, заспамится ли?

Необходимо исходить из того, что: т.к. сайт уже может находится в выдаче и уже хорошо решать потребности и проблемы пользователей, даже если переспамить, это не критично.

В случае ПФ, накрученный ПФ не учитывается, сайт скатывает вниз (если некачественный контент, некачественная оптимизация, нет ядра реальной аудитории).

Что касается ссылок, давно не было, до этого пару лет публичная «порка» поисковой системы, отучала людей заходить в САПы и оставлять там месячные бюджеты на продвижение, а перенаправлять деньги в контекстную рекламу. С этой задачей Яндекс справился, люди перестали массово закупать ссылки, поэтому можно их вставить для Google на себя. По алгоритмам Яндекса, сложная система, которая оценивает у внешних ссылок доноров множество характеристик, и если страницы доноров не соответствует этим характеристикам, эти ссылки просто не учитываются. Какой-либо градации по «зашкаренным» донорам, которые ссылаются и получается «минусинск», сейчас нет. Скорее всего, этого фильтра сейчас нет, не существует как такового, потому что Яндекс просто не учитывает эти ссылки. Он реально понимает, что есть множество ссылочных бирж, но сейчас при нынешних алгоритмах эти ссылки вносят минимальный вклад в оценку качества поиска, и Яндекс просто «забил» на них. Поэтому ссылки надо покупать сейчас у Google.

Что касается всех текстовых фильтров? На сегодняшний день не существует никакого инструмента, который покажет , что у вас есть текстовый фильтр, что наспамили. Можно по-разному, хитро склонять выдачу, но с тех пор, как поиск переехал на нейросети, все поисковые операторы, которые в 2016 г. хоть как-то работали, сейчас не работают вообще. Все конструкции, которые можно построить при помощи них, ничего, по сути, не показывают.

Под каждый запрос строится своя уникальная формула ранжирования в Яндексе, при том есть простые фичи, которые еще из старого поиска остались, есть новые фичи (нейросетевые).

Существуют границы спама, это индивидуально под каждый запрос, тут надо делать операциями: поставили текст, оптимизацию «завезли», и дальше необходимо смотреть, что будет. Если никак не ранжируется вообще, либо страница поменяла релевантность (по всем запросам другая страница), то возможно есть какие-либо проблемы, и необходимо пересмотреть свою оптимизацию. Либо же можно создать абсолютно новую страницу, залить на нее весь текст, который уместен, и посмотреть, что будет. Если она сразу в первую неделю войдет в индекс, в ранж и будет ранжироваться, а потом через неделю-две результаты откатятся, это может говорить о том, что наложили на страницу какой-то пост-фильтр, и это все не так классно. Поэтому, можно работать операциями, оптимизировать страницу, смотреть как на это откликается поиск, если все хорошо, то можно довставить вхождений, дописать, что-то поменять местами. Если сменилась релевантность, либо вообще ничего не ранжируется, тогда необходимо пересматривать весь текст и все блоки. Первоначально оценивают по текстовому анализу для попадания в топ 10. Когда уже попали в топ-10, то в принципе, текстовый анализатор уже никак не поможет. Уже необходимо делать разрез либо по страницам, по каждому блоку на странице, какие там есть вхождения, сквозной блок/несквозной, какие блоки, элементы закрывают на странице (в сниппет уходят, для людей нужны), и исходя из этого делать оптимизацию.

С Google ситуация иная. Там работают ссылочные алгоритмы по PR, Google не может сразу в онлайне пересчитать всё, потому что это итерационные алгоритмы, там апдейты идут раз в несколько месяцев, в полгода, разные апдейты, в зависимости от того, что они выкатывают. Суть простая: берутся запросы, из этих запросов извлекаются какие-то аспекты, метрики, потом берутся сайты в интернете (страницы, где есть аспекты, эта информация), и строятся сверху алгоритмы, которые основаны на PR. Это достаточно долго все пересчитывается, в итоге имеется не такая волатильная выдача, как в Яндексе, которая подвержена влиянию ПФ сильно. Т.е. необходимо сделать качественные ссылки и делается много полезного тематического контента по теме.

Проводили исследование по GPT-2 и GPT-3 моделям (в сентябре), модели очень много генерировали неправдоподобных ответов на вопросы, т.е. сейчас качество текстов, которые пишут люди, очень высокое, не надо думать, что модели массово заменят сложные темы.

Google-у надо создать не одну страницу по теме, а хотя бы 10-20-30 страниц, смотря на сколько ниша позволит. Тогда Google поймет, что документ или сайт про это, и будет ранжировать домен.

Вопросы.

· Какой инструмент показывает наиболее достоверно спам-текст? По опыту, какие данные сейчас в топе? Через что самостоятельно проверяются текста? Все проверяется самостоятельно на глазок, или в сервис turgenev.ashmanov.com, он показывает как раз согласованность конструкции, деепричастные обороты в русском языке. Поменять неграмотного копирайтера, если он пишет не согласованно. SEO-шные метрики – это просто количество вхождений. Оценка может делаться по-разному:

1. анализ простых вхождений, которые есть,

2.можно брать всю семантику, которая должна идти на страницу (т.е. списки ключевых слов), разбивать на униграммы и смотреть покрытие этими униграммами текста, сколько уникальных униграмм в тексте встречается. Т.к. текстовый анализатор анализирует то, что стоит в топе, а не то, как надо делать. Поэтому подгонять под топ супер-значения не имеет смысла, надо просто покрывать всю семантику текста.

3. Оценивать спам косвенными вещами, например, в текстах по займам должны быть раскрыты такие-то подтемы, встречаться такие-то запросы, такие-то слова, такие-то слова из запросов. Необходимо смотреть, если это все покрывается, грамотно написано, то это идет на страницу.

Какой-либо универсальной чекалки нет.

· Мнение по поводу сервиса главред (glvrd.ru)?. Никакого отношения ни к чему не имеет. Не использовался. Рядовые SEO-шники за контент не отвечают, есть человек, который общается со всеми копирайтерами и он супер прокачен, знает все тематики, все вертикали, знает, как работать с копирайтерами, как оценивать. Если он ставит им задачу и не до конца понимает, что от него хотят, приходят некачественные тексты (недостаточное количество символов, не та структура, не раскрыта структура, не употреблены ключевые слова, то текст переделывается)

· В Яндексе есть способ определять спам-тексты: у быстрых ответов есть свой отдельный слой ранжирования, отдельные индекса, и соответственно, когда накладывают фильтр, то он накладывается только на основной документ. При этом быстро-ответный слой остается естественным, поэтому показывается, условно, от обычного url-а ноль, а от быстроответного url-а все остается на том же уровне, на котором есть. Сейчас все быстроответные выпаливаются в вебмастере, необходимо смотреть url, если там быстроответных 1000, а обычного 0, то значит это пост-фильтр. Но какой пост-фильтр – надо объяснять на конкретных примерах.

В вебмастере можно посмотреть infact-тип ответа. Действительно, в Яндексе немного по-разному работает алгоритм, который отправляет в нулевые сниппеты куски текста. Существуют генеративные нейронные сети y1 и y2 (аналог GPT-3 и GPT-4) в «яндексовском» развитии, и наблюдалось на многих сайтах, когда сносят текст со страницы, но текст остается в нулевом сниппете, он там может находится до полугода, т.е. это отдельный ранжировщик. Таковы особенности работы Яндекса. По многим коммерческим и товарным запросам подобного не будет, но по темам «страхование», «беттинг» и другие ВЧ темы может такое подойти.

· Метрики в выдаче. Все чекалки, что чекают позиции, не показывают объективной картины.

12 метрик, показывающих то, насколько сайты раздублированы, сколько находится url-ов одного домена, присутствуют ли они в нулевом сниппете одновременно и т.д., и т.п. Количество результатов выдачи больше одного url-а с домена, если топ-30, наличие нулевого сниппета, одновременное нахождение в нулевом сниппете, будучи в обычном url-е для конкретного домена и для всех доменов, наличие нулевого сниппета по ВЧ запросам и другие метрики. Т.е. к обычным SEO-позициям надо прикрутить такие метрики, чтобы видеть, насколько сильно меняется выдача, особенно в Google от up-date к up-date, чтобы понимать, что там забустилось, сильные агрегаторы или что-то в этом роде. Оценка продвижения будет как раз рост в этих метриках, когда у хоста будет появляться и больше нулевых сниппетов, и больше разгруппировки выдачи, будет ранжироваться в топ-3, потому что сейчас просто ранжироваться в топ-3 в Google недостаточно.

Коммерческие сайты плотно завязаны на трафике. К ним добавляются вещи, которые распознают запрос как коммерческий. Коммерция делится на два типа: та, которую можно купить онлайн (вся товарка и электронные услуги, просто делают каталог с возможностью купить на сайте через карту, и это будет ранжироваться), и та, которую покупают в офлайне. Первое, на что смотрит Яндекс – геопривязка, если разные регионы, например в Москве зарегистрирован, не будет ранжироваться коммерческое предложение из Санкт-Петербурга. Самый первый уровень ранжирования: когда из всего миллиона кандидатов Яндекс выбирает по 11 факторам гео-релевантности. Гео-фактор очень важен. Дальше пользователь должен сам решить, какой хост ему интересен. Если сделать удобную онлайн-витрину с возможностью купить онлайн, то люди начинают этим пользоваться, и выбирать эту выдачу. Т.е. это CTR и поведенческие настройки (длинные клики и количество возвратов) – если очень утрированно.

«Колдунщик» - возможность ранжироваться и конкурировать для всех маленьких магазинов не за счет того, что много людей приходит (что главное в алгоритме), а за счет других характеристик (например, за счет лучшей цены). Т.е. если сделать цену лучше всех и пройти проверку в Яндексе, можно получить бейджик и высветиться на первом месте, соответственно, люди будут покупать.

· От поведенческих характеристик больше зависит по хостовому или по страничному? И есть ли смысл подкручивать с учетом этого сказанного? Если много тысяч товаров в магазине и запросов, если все накручивать, то можно разориться. Какой-либо один кластер можно покрутить.

Как поняли какой пользователю нужен выбор? Есть первичные вещи, которые были собраны с поведения на выдаче. Получилось, что по таким-то запросам такой-то тип страниц дает хороший поведенческий. Если представить, что по коммерческим запросам и агрегаторы интернет-магазинов изначально получили хорошие оценки, предварительно. Есть метрики качества, что они хотят. Эти метрики качества, офлайн метрики – от чувства прекрасного до самих Яндексоидов. Если по каким-то причинам, они решили, что по коммерческим запросам товарами должны быть выдачи агрегаторами, они могут провести тест, замерить ПФ на выдаче, когда у них показываются просто агрегаторы и интернет-магазины, и посмотреть, если там есть статистически значимое отклонение, и агрегаторы выигрывают. Вообще, в целом, верхний уровень метрики – «счастье пользователя», оно выражены еще в том, сколько человек после серфинга на Яндексе вернется опять в Яндекс и будет серфить. Т.к. надо продавать рекламу, держать большой пул людей, который им пользуется. Поэтому подсовывают в топ то, что либо монетизируется, либо от чего люди возвращаются потом на поиск и покупают. Вполне возможно, что был проведен тест, и выяснилось, что агрегаторы рвут. Интернет-магазины с маленькими возможностями по доставке и по сервису (нет примерочных, доставка дорогая, ассортиментная матрица маленькая, скидок нет) не выгодно показывать наверху. В Яндексе сейчас оценивается, будет ли конверсия, для этого берутся множество поведенческих метрик, метрик по запросу, коммерческих метрик, не важно какие будут магазины, если конверсия в топ-10 будет выше, то эти магазины будут там стоять.

Первично в Яндексе в выдаче важно качество хоста. Оптимизация, которая есть на странице – вторична.