July 20

Аналіз патенту information retrieval based on historical data

Часто SEO спеціалісти працюють довіряючи своєй інтуїції або якимось релігійним практиками. Але багато чого було описано в патентах від самого Гугла. Як би ж їх писали людською мовою! Можливо більше сеошників їх читало та мало б грунтовний підхід до SEO оптимізації. Команда K2 Aff на протязі всієї своєї історії намагається не займатися карго культом, а науково підходити до всього що робить. Не завжди вдається будемо відверті 😁, але давайте розберемо один з наших улюбленних, і на нашу думку топових патентів 🔥, US7346839B2 - Information retrieval based on historical data, який привідкриває завісу що там робиться в тих алгоритмах. Поїхали!

Які типи історичних даних згадуються

1. Document Inception Date

В одному з варіантів реалізації цього винаходу, серед критеріїв, що використовуються для оцінювання документа, є дата його створення. Хоча ця дата може подаватися "упередженим" джерелом - наприклад, вебсервером, який може змінювати її так, щоб вона завжди була актуальною - також можуть враховуватись інші ознаки дати створення, як описано нижче.

У деяких випадках, датою створення документа вважається момент, коли пошукова система вперше дізнається про нього або індексує його. Термін "дата" тут використовується в широкому сенсі - він може включати і дату, і час. Пошуковик може виявити документ шляхом сканування (краулінгу), через подачу документа стороннім джерелом, або комбінацію обох методів.

Інший підхід - це непряме визначення дати створення. Наприклад, можна взяти дату реєстрації домену, на якому розміщений документ.

Ще один варіант - використовувати дату першого згадування документа в інших джерелах, таких як новини, форуми, листи розсилки тощо.

Також, датою створення може вважатися момент, коли пошукова система вперше виявила посилання на документ.

У певній реалізації ця дата використовується для оцінки значущості на основі посилань. Наприклад, документ, створений вчора, на який вже існує 10 посилань, може вважатися важливішим, ніж документ 10-річної давнини зі 100 посиланнями - адже швидкість зростання посилань у першому випадку вища. Але важливо зазначити, що стрімке зростання кількості посилань може бути також сигналом спаму, тому система може знизити оцінку документа в таких випадках.

Тобто, пошуковик може використовувати дату створення, щоб оцінити швидкість появи нових посилань на документ. Цей темп може бути використаний для підвищення або зниження оцінки документа.

У прикладі формули для оцінювання:

H = L / log(F + 2)

де:

  • F (elapsed time) — час із моменту виявлення сторінки.
  • L (link score) — класичний PageRank або інший лінковий сигнал.
  • H = L / F — коригування лінкової сили через фактор часу.

Що це може значити для SEO:

  1. Розміщувати контент завчасно, особливо під сезонні запити.
  2. Слідкувати за динамікою посилань (link velocity), уникаnb “вибухів” лінків за короткого проміжку часу
  3. Використовати старі сторінки як базу, не створювати нові без потреби, а оновлюй існуючі.

2. Content Updates/Changes

В одному з варіантів реалізації цього винаходу, серед часових критеріїв для оцінки документа враховується те, як змінюється його вміст з часом.

Частота оновлень

Документ, який часто оновлюється, може отримати вищу оцінку, ніж той, який залишається статичним. Також, документ, в якому змінюється велика частка контенту, може отримати вищу оцінку, ніж той, у якого зміни мінімальні.

Для цього може розраховуватись спеціальний коефіцієнт оновлення (U), який є функцією:

U = f(UF, UA)

де:

  • UF (Update Frequency) — частота оновлень, наприклад:
    • середній проміжок між оновленнями;
    • кількість оновлень за певний період.
  • UA (Update Amount) — обсяг змін, наприклад:
    • кількість нових сторінок на сайті за певний час;
    • відношення нових сторінок до загальної кількості;
    • середній відсоток зміни вмісту сторінки (наприклад, 30% контенту змінилося за останній місяць).

Важливість типу змін

Не всі зміни мають однакову вагу. Наприклад:

  • Оновлення JavaScript-коду, реклами, коментарів, навігаційних елементів, шаблонів чи дати можуть мати нульову або низьку вагу.
  • Натомість зміни в заголовках, основному тексті або анкорному тексті можуть мати високу вагу.

Оптимізація зберігання

Щоб не зберігати весь документ цілком, система може зберігати "сигнатури" (наприклад, вектори термів або simhash) і моніторити тільки суттєві зміни.

Simhash дозволяє виявляти майже ідентичні документи - навіть невелика зміна simhash-значення може сигналізувати про значну зміну контенту.

Таким чином, пошукова система може:

  • розуміти, які частини документа оновлюються;
  • розрізняти реальні зміни від технічних або шаблонних;
  • ефективно зберігати лише те, що має сенс для оцінки.

Що це може значити для SEO:

  1. Регулярно оновлювати важливі документи (сторінки): додавати нові блоки, видаляти застарілу інформацію, оновлювати приклади.
  2. Не редагувати “для галочки” - краще раз на місяць велике оновлення, ніж 5 разів змінити одну дату.

3. Query Analysis

У цьому розділі описано, як поведінка користувачів при взаємодії з пошуковими запитами може впливати на оцінку документів.

Поведінка користувачів у видачі

Пошукова система може враховувати, як часто користувачі натискають на певний документ у результатах пошуку з плином часу. Якщо документ обирається частіше, ніж інші, він може отримати вищий рейтинг.

Популярні терміни

Ще один фактор - збільшення частоти певних слів у пошукових запитах. Якщо терміни (наприклад, “землетрус” або “чемпіонат світу”) починають стрімко зростати в популярності, документи, що їх містять, можуть отримати підвищення в рейтингу.

Динаміка результатів

Якщо для одного і того ж запиту (наприклад, “чемпіони World Series”) результати змінюються з часом (наприклад, у 2021 році - Yankees, у 2022 - Red Sox), то система може враховувати такі зміни і адаптувати оцінку документів, які краще відповідають актуальному контексту.

Також пошукова система може знижувати оцінку “застарілих” документів, якщо:

  • у них спадає зростання анкорних посилань;
  • знижується трафік;
  • вміст не оновлюється;
  • зменшується кількість вхідних/вихідних посилань.

Різноманітність запитів (Query Entropy)

Ще один індикатор - розмаїття запитів, за якими з’являється документ. Якщо документ з’являється у надто несумісних запитах, це може сигналізувати спам. Наприклад: документ з’являється і в запиті "купити смартфон", і в "найкращий суп для немовлят".

Баланс “свіжості” та “актуальності”

Але не завжди “старі” документи гірші за нові. Якщо користувачі регулярно обирають старішу сторінку навіть попри появу нових - це сигнал, що документ все ще релевантний, і варто підвищити його оцінку.

Також пошуковик може порівнювати час створення документа із середнім часом по всій видачі, щоб оцінити, чи справді документ застарів або ні.

Що це може значити для SEO:

  1. Працювати над CTR у видачі: заголовки та мета-описи повинні приваблювати.
  2. Відстежувати зростання популярності запитів і оновлювати контент під них.

4. Link-Based Criteria

Суть з патенту

Google відстежує поведінку посилань у часі, тобто:

  • Коли з’являються нові посилання на документ;
  • Коли зникають старі;
  • Чи є зростання чи спад кількості посилань;
  • Швидкість появи посилань (темп);
  • Скільки з нових лінків з’явились нещодавно.

Приклад:

Є два сайти, обидва в проіндесовані 100 днів тому. У сайту А 10% лінків з’явились за останні 10 днів. У сайту B - 0%. Отже, сайт А виглядає "свіжішим", має більший темп зростання посилань = може отримати кращу оцінку.

Ознаки спаму

Google виявляє аномальні "піки" в кількості посилань. Наприклад:

  • Раптово з’являються сотні лінків за день;
  • Посилання розміщені на guestbooks, форумах, "free-for-all" сторінках - тобто без модерації;
  • Велике число нових посилань із сумнівних сайтів.

Такі ситуації можуть свідчити про спамні дії: купівлю посилань, PBN, автоматизовану генерацію посилань.

Якість джерела посилання

Google дивиться не тільки на сам факт посилання, але й:

  • Наскільки “свіжими” є сторінки, що посилаються;
  • Чи мають вони високий авторитет;
  • Чи надійні це джерела (напр., .gov/edu, каталоги типу Yahoo тощо).

Якщо spike (вибух) посилань іде з авторитетних сайтів, Google не буде знижувати рейтинг, навіть якщо зростання різке.

Посилання, що зникають

Google також відстежує зникнення лінків. Якщо багато посилань зникають або сторінки, де вони були, стають неактивними - це може сигналізувати, що документ втрачає актуальність.

Такі лінки можуть бути проігноровані в обчисленні рейтингу.

Що це може значити для SEO:

  1. Нарощувати посилання природно, поступово.
  2. Важливо не кількість, а темп і якість зростання. 10 лінків із трастових сайтів за місяць краще, ніж 100 за день із смітників.
  3. Монітори так звані. "Fresh Inlinks" - відсоток нових посилань за останні 10–30 днів
  4. Слідкувати і дісавовити атаки конкурентів та всякий спам (прогони GSA, ломом та всякі list-a6d5da0fdd357f07cad69d8e058f6eb0.html та TELEGRAM @SEO_ANOMALY – SEO BACKLINKS)

5. Anchortext

В одному з варіантів реалізації цього винаходу поведінка анкорного тексту у часі (тобто тексту, що міститься в гіперпосиланні, зазвичай підкресленого чи виділеного) може використовуватись для оцінювання документа.

Наприклад, зміни анкорного тексту з часом, що веде до певного документа, можуть бути індикатором оновлення або навіть зміни фокусу самого документа. Відповідно, ці зміни можуть бути враховані під час обчислення його релевантності.

Оскільки деякі пошукові системи використовують анкорний текст як фактор ранжування, в одному з варіантів реалізації винаходу поведінка анкорного тексту і документів, які ведуть до нього у часі може бути використана для:

  • виявлення зміни тематики домену,
  • та запобігання використанню застарілого анкорного тексту у результатах пошуку.

Приклад:

Зміни в анкорному тексті можуть сигналізувати, що фокус пов’язаного документа змінився. Або, якщо контент документа вже не відповідає анкорному тексту, це може бути ознакою того, що:

  • домен повністю змінив власника або тематику;
  • домен закінчився і був викуплений іншою особою.

У таких випадках домен все ще може з’являтися у результатах пошуку за старими запитами, хоча його актуальний вміст вже не відповідає цим анкорам.

В одному з варіантів:

Пошукова система може оцінити дату, коли фокус домену змінився (наприклад, коли текст на сторінці суттєво оновився або анкорні тексти змінились), і ігнорувати всі анкорні тексти та посилання, що виникли до цієї дати.

Що це означає для SEO:

  1. Google аналізує зміни анкорного тексту в часі. Якщо вони радикально змінилися - це сигнал: “цей сайт більше не про те, про що був раніше”.
  2. Якщо ви використовуєти дроп-домени, будьте уважним:
    – Google може виявити зміну тематики,
    – і відкинути "спадкові" анкорні лінки, які вже не відповідають новому контенту.
  3. Слідкувати за якістю анкорів у своїх посиланнях. Вони мають відповідати вмісту сторінки на момент індексації, і краще не змінювати радикально тему сторінки з часом.
  4. Якщо ви масово змінюєте тексти сторінок на сайті, пам'ятайте: Google буде перевіряти, чи анкорні тексти з інших сайтів ще мають сенс, і якщо ні - може їх знецінити.

6. Traffic

В одному з варіантів реалізації цього винаходу часові характеристики трафіку або “використання” документа користувачами враховуються при обчисленні його оцінки.

Наприклад, вебсайт, що зазнав значного падіння трафіку, може більше не оновлюватися або бути замінений іншим ресурсом.

У одному з варіантів реалізації пошукова система може порівнювати середній трафік на сайт за останні n днів (наприклад, n = 30) з:

  • середнім трафіком у той місяць, коли сайт мав найбільшу кількість відвідувачів (опціонально з урахуванням сезонності),
  • або з трафіком за останні m днів (наприклад, m = 365).

Крім того, у одному з варіантів система може виявляти повторювані шаблони трафіку, або зміни в цих шаблонах з плином часу. Наприклад, документ може бути більш чи менш популярним у літній період, на вихідних, або в інші сезони — пошукова система може коригувати оцінку документа відповідно до цього.

Також у одному з варіантів, часові фактори, пов’язані з “рекламним трафіком”, можуть відслідковуватись і використовуватись для ранжування:

  • (1) Наскільки часто та з якою швидкістю показуються або оновлюються оголошення на сторінці;
  • (2) Якість рекламодавців: наприклад, документ із оголошеннями, які ведуть на сайти з високим трафіком і довірою (наприклад, amazon.com), може отримати вищу вагу, ніж той, що веде на сайти з низьким трафіком або сумнівною репутацією (наприклад, новий порносайт);
  • (3) Наскільки оголошення генерують трафік до цільових сторінок (наприклад, через CTR).

Що це означає для SEO:

  1. Зниження трафіку - це поганий сигнал. Google може подумати, що сайт більше неактуальний або не заслуговує довіри.
  2. Сезонність враховується. Якщо сайт про “лижі” має сплеск трафіку взимку, а провисання влітку - Google не буде його штрафувати. Але ви можете використовувати ці знання для таймінгу оновлень контенту.

7. User Behavior

В одному з варіантів реалізації цього винаходу індивідуальна або агрегована поведінка користувачів з часом може використовуватися для оцінювання одного або кількох документів.

Наприклад, у реалізації згідно з винаходом, може враховуватись:

  • кількість разів, коли документ обирається зі списку результатів пошуку;
  • тривалість часу, який один або кілька користувачів проводять на цьому документі.

Приклад:

Якщо вебсторінка з’являється у видачі за певним запитом, і з плином часу (або у визначеному часовому вікні) користувачі витрачають на ній більше або менше часу в середньому, то це може бути використано як сигнал “свіжості” або “застарілості”.

Пошукова система може відповідно підвищити або знизити оцінку документа.

Що це означає для SEO:

Pogo-sticking (користувач швидко повертається з ващої сторінки назад у видачу) = поганий сигнал. Google вважає, що ця сторінка не задовольнила інтенцію користувача.

Час на сторінці важливий (dwell time), але лише у контексті релевантності.

Клікабельність (CTR) в SERP. Якщо на вас частіше клікають, ніж на конкурента, Google може підвищити вас у видачі, навіть без змін контенту.

В одному з варіантів реалізації цього винаходу, інформація, що стосується того, як документ обслуговується через комп’ютерну мережу (наприклад, Інтернет, інтранет або інша мережа чи база даних документів), може використовуватись для оцінювання релевантності документа. Ця інформація може, а може й не бути часовою.

Наприклад, особи, які намагаються обманути пошукові системи, часто використовують "throwaway" та “doorway” домени, щоб отримати якомога більше трафіку до того, як їх заблокують.

Сигнали, що дозволяють відрізнити ці “fly-by-night” домени, можуть бути використані для оцінки. Наприклад:

  • цінні домени часто оплачуються на кілька років наперед;
  • doorway-домени рідко реєструються більш ніж на 1 рік.

Дата, коли домен має закінчитися в майбутньому, може використовуватись як фактор законності документа, з ним пов’язаного.

В одному з варіантів реалізації система моніторить DNS-запис домену для оцінки документа. DNS-запис містить:

  • дані про реєстранта,
  • адміністраторські та технічні адреси,
  • імена DNS-серверів.

Пошукова система може аналізувати цю інформацію з часом для виявлення спам-доменів або інших “фальшивих” сайтів.

Наприклад, може відстежуватись:

  • чи надається правильна фізична адреса;
  • як часто змінюється контактна інформація;
  • чи є часті зміни DNS-серверів або хостингів.

Також у системі може бути база “поганих” контактів, DNS-серверів або IP-адрес, які використовуються для обману.

У варіанті реалізації вік DNS-сервера також може впливати на оцінку. “Хороший” DNS-сервер зазвичай обслуговує різноманітні домени від різних реєстраторів і має історію. “Поганий” сервер:

  • обслуговує переважно порносайти, doorway-сайти або масові комерційні домени;
  • є новим;
  • або обслуговує домени лише одного реєстратора.

Хоча новизна DNS-сервера не є автоматично негативним фактором, у поєднанні з іншими — може знижувати рейтинг.

Що це означає для SEO:

  1. Вибирайте якісних провайдерів та уникайте токсичних "сусідів"

10. Ranking History

В одному з варіантів реалізації цього винаходу, часова поведінка того, як документ ранжується у відповідь на пошукові запити, може використовуватись для коригування його оцінки.

Пошукова система може виявити, що домен, який стрибає у позиціях по багатьох запитах, може бути або топіковим сайтом, або спробою “заспамити” систему.

Таким чином, кількість або швидкість змін позицій може бути використана як фактор оцінки.

У варіанті реалізації, для кожного набору результатів, домен може отримувати вагу залежно від позиції в топ-N. Наприклад, для N = 30:

Вага =  [ ((N+1)-SLOT)/N] 1\ 4.

Отже:

  • позиція #1 = оцінка ~1.0,
  • остання позиція = ~0.

Такий розрахунок може застосовуватись до набору комерційних запитів, які повторюються. Сайти, що піднялись більш ніж на M%, можуть бути позначені. Відсоток зростання в рейтингу також може використовуватись як сигнал.

Пошукова система може вважати запит комерційним, якщо:

  • середній (медіанний) IR-бал у топ-результатах високий;
  • спостерігається значна зміна в топ-10 результатах з місяця в місяць.

Також може враховуватись показник “churn” (ротації в топі).

Крім історії позицій за запитом, документ може оцінюватись за іншими часовими показниками, наприклад:

  • кількість запитів, за якими документ з’являвся в результатах;
  • швидкість (темп) змін;
  • сезонність, сплески, повторювані шаблони;
  • зміни IR-балів у часі по парах запит-URL.

Також система може відстежувати незалежні від конкретного запиту сигнали, зокрема:

  • середній IR-бал в топових результатах за певним запитом або набором запитів;
  • зміна кількості результатів із часом;
  • якщо кількість результатів збільшується або зростає її темп — це може сигналізувати про “гарячу тему” → підвищення оцінок.

Що це означає для SEO:

  1. Різкий стрибок позицій - не завжди добре. Google може сприйняти це як спробу маніпуляції.
  2. Стале зростання у видачі - ознака стабільності. Намагайтесь поступово масштабуватися, а не “вистрілювати” за всіма ключами одразу.
  3. Якщо ви оновлюєте сторінки і бачиш зростання IR-рейтингу (наприклад, більше кліків, більше часу на сторінці) — це сигнал, що Google помітив покращення і можливо “підніме” вас далі.
  4. Сезонний контент має триматись у топі в потрібний час. Оптимізуйте публікації під таймінг, коли попит росте.

11. UNIQUE WORDS, BIGRAMS, PHRASES IN ANCHORTEXT

В одному з варіантів реалізації цього винаходу, посилальні або веб-графи та їхня поведінка у часі можуть відстежуватись і використовуватись пошуковою системою для:

  • оцінювання,
  • виявлення спаму,
  • або інших цілей.

Природні vs. синтетичні графи

  • Природно сформовані веб-графи зазвичай включають незалежні рішення різних вебмайстрів.
  • Синтетично сформовані графи - зазвичай створюються координовано і вказують на наміри маніпулювати пошуковою системою.

У таких випадках профіль зростання анкорних слів, біграм або фраз часто виглядає нерівномірно “піковим” (sudden spike).

Причини піків:

  • Додання великої кількості однакових анкорів з багатьох джерел;
  • Або навпаки - свідоме варіювання анкорів з багатьох джерел для маскування.

Один з варіантів реалізації:

Система може відстежувати такі патерни і враховувати їх при ранжуванні, обмежуючи вплив підозрілих анкорів на загальну оцінку документа. Це може бути реалізовано як бінарне рішення (наприклад, "відкинути всі підозрілі лінки").

В іншому варіанті реалізації - використовується шкала ймовірності штучної генерації і розраховується множник, що коригує фінальну оцінку документа.

Що це означає для SEO:

  1. Google аналізує не лише кількість анкорів, а патерни їх зміни з часом.
  2. Якщо різко з’являється багато однакових анкорів це підозріло.
  3. Якщо різні анкорні тексти виглядають штучно “варіативно”, але всі ведуть на одну сторінку - це теж червоний прапорець

12. LINKAGE OF INDEPENDENT PEERS

Раптове збільшення кількості посилань з, або на, начебто незалежні ресурси (aka PBN) (тобто сайти, що не мають очевидного зв’язку між собою) з великою кількістю лінків на окремі сторінки може свідчити про синтетичний посилаьний граф.

Це, у свою чергу, може означати спробу спамити пошукову систему.

Підсилюючі сигнали:

  • Якщо таке зростання супроводжується надмірно одноманітними або навпаки дуже варіантивними анкорами, це посилює підозру.

Ця інформація може бути використана для зниження впливу таких лінків - наприклад, у системі ранжування, заснованій на лінках, це може бути реалізовано як:

  • бінарне рішення (наприклад, знизити оцінку на фіксовану величину),
  • або через множник, що коригує оцінку документа.

Що це означає для SEO:

  1. Не вмієти робити і працювати з PBN краще не лізьте)

13. DOCUMENT TOPIC

В одному з варіантів реалізації цього винаходу, може виконуватись витяг теми документа (наприклад, через категоризацію, аналіз URL, контенту, кластеризацію, узагальнення, набір унікальних низькочастотних слів або інші методи), а також моніторинг теми у часі з метою використання в системі оцінювання.

Якщо з часом спостерігається суттєва зміна тематики документа, пошукова система може інтерпретувати це як сигнал, що:

  • посилальні оцінки,
  • анкорний текст,
  • або інші зовнішні сигнали, пов’язані з цим документом, що існували до зміни, повинні бути знецінені або проігноровані.

Спайк тем:

Раптове зростання кількості тем (наприклад, за класифікаторами) також може вказувати на спам (класичний приклад вашу WPшку взломали і залили туди дорвей)

Приклад:

  • Сайт стабільно асоціювався з 1–2 темами;
  • Потім раптово покрив 10+ тем = можливо, був “хакнутий” doorwayщіками.

Іншим індикатором може бути зникнення початкової тематики, пов’язаної з сайтом.

У таких випадках пошукова система може:

  • знизити відносну оцінку документа,
  • і/або знецінити лінки, анкорний текст або інші дані, які раніше використовувались для його ранжування.

Що це означає для SEO:

  1. Потрібно захистити сайти від злому, особливо якщо вони на WP
  2. Тримати тематику сайту в рамках ващої теми
  3. "Правильно" перебивати дропи якщо хочете щоб вони ранжувалися

Замість висновку

Google, згідно з цим патентом, може враховувати часову поведінку сторінок і сайтів, а не лише статичні фактори. Потенційно, система здатна фіксувати, коли документ був створений, як часто змінюється його вміст, з якою швидкістю зростає або зменшується кількість посилань, і як оновлюється анкорний текст.

Також Google може аналізувати історію позицій у видачі, поведінку користувачів (перегляди, закладки, кліки), та інфраструктурні дані - наприклад, WHOIS, DNS або вік домену. В окремих випадках система може визначати, що сайт змінив тематику, або виявляти ознаки штучного лінкбілдингу. Усе це потенційно використовується для побудови більш комплексного і “живого” у часі рейтингу документів у пошуку.