Разное
February 16, 2020

Альфа Центавра – новый алгоритм Яндекс.Дзена

Алгоритм запущен в конце марта 2019 года Действует на сегодняшний день 17.02.2020

Постараюсь рассказать о том, как меняется алгоритм рекомендаций Яндекс.Дзена и что это дает пользователям и авторам. Теперь у каждой версии алгоритма будет свое имя – в честь одной из звезд.

Эта версия алгоритма называется Альфа Центавра – как ближайшая к Земле тройная звездная система. Потому что основных изменений в нашем алгоритме – три. Они получили названия трех звезд этой системы (А, B и «Проксима»).

Новый алгоритм заработал в начале марта, и мы уже видим первые результаты. Дзен стал точнее подбирать пользователям публикации, а главное – научился делать это намного быстрее. Усовершенствованные технологии машинного обучения теперь выбирают статьи из огромного объема документов – на порядок больше, чем раньше. Так что теперь качественные публикации в Дзене получат больше внимания, а нишевые и молодые каналы быстрее наберут заинтересованную аудиторию.

С момента запуска алгоритма пользователи стали больше времени проводить в Дзене – причем за чтением статей, а не просто листая ленту. Суммарное время в Дзене благодаря изменениям выросло на 25%. Первые результаты показывают, что люди стали чаще лайкать статьи (на 13%) и подписываться на интересующие их каналы (на 61%).

Как работает Альфа Центавра

Рассказывает руководитель отдела технологий Яндекс.Дзена Антон Фролов.

Всю работу рекомендательного алгоритма можно условно разделить на два больших этапа:

1. Первичный отбор кандидатов. Когда мы из миллионов публикаций Дзена выбираем для пользователя 10 000 для более тщательного анализа.

2. Ранжирование. Когда мы формируем из этих 10 000 финальные рекомендации, которые и попадают в ленту пользователя.

В алгоритме Альфа Центавра мы реализовали три новых технологических решения, каждое из которых работает на разных этапах этого процесса.

💥Система «A» помогает пользователям получать больше тематического контента, а нишевым авторам – найти аудиторию.

Система «A» – это «резко поумневший» отбор кандидатов. На этом этапе самым важным показателем для алгоритма является скорость обработки огромных объемов данных, поэтому он по умолчанию работает с базовой информацией о публикации вроде темы источника, даты размещения, количества просмотров и дочитываний, оформления и т.д.

Новая технология, основанная на методе поиска «ближайших соседей» (k-NN), позволяет уже на этапе первичного отбора работать с содержанием каждой публикации. Она умеет очень быстро сравнивать интересы пользователя и содержание материала, находя ближайшие по содержанию публикации среди всего множества материалов Дзена. А также она может анализировать намного больше публикаций за раз, значительно расширяя «воронку отбора».

Как это повлияет на меня?
Теперь весь контент платформы анализируется в режиме реального времени и с учетом персональных интересов пользователей уже на этапе первичного отбора. А значит на этап ранжирования попадает больше качественных материалов, которые вышли в небольшом нишевом канале, или не успели быстро набрать популярность, или находятся в нетипичном для пользователя источнике.
В результате «длинный хвост» каналов Дзена, пишущих на узкие темы, растет. Авторам небольших качественных каналов становится проще получить аудиторию, даже не будучи популярными.

💥 Система «B» рекомендует статьи более точно: она учитывает оценки не только от конкретного пользователя Дзена, но и от тех, кто на него похож.

На этапе ранжирования тех публикаций, которые прошли первичный отбор, алгоритм в качестве одного из параметров учитывает реакцию пользователей. Система «B» углубляет этот анализ. Теперь в Дзене используется алгоритм матричных разложений (matrix factorization), который обычно используется для рекомендаций «долго живущего» контента — например, музыки или фильмов.

Эта технология смотрит на оценки контента разными людьми, и это помогает системе точно рекомендовать его другим пользователям с похожим профилем.

Мы научились применять эти классические алгоритмы рекомендаций для совсем другого типа контента – для быстро теряющих актуальность публикаций (например, новостей).

Как это повлияет на меня?
Изменения коснулись прежде всего масштаба и быстродействия – теперь миллиарды матричных коэффициентов обновляются в режиме реального времени и позволяют быстрее анализировать реакцию читателей на конкретные материалы Дзена. А значит более точно учитывать ее при ранжировании публикаций для ленты пользователей.
Оценки одних пользователей помогают предугадать реакцию других в случае сходства их интересов. А значит система делает рекомендации контента более точными и разнообразными, а пользователи с похожими интересами начинают видеть такие публикации в ленте намного быстрее.

💥 Система «Проксима»: новостная повестка будет меньше оттягивать внимание от интересных, но не таких актуальных материалов.

Отдельная боль наших авторов – влияние на показы статей общей новостной повестки. Так, в день публикации интересной статьи про космос может произойти громкое событие, которое на несколько дней оттянет на себя внимание пользователей. Это заставит алгоритм подумать, что публикация о космосе не так интересна пользователям, и он положит ее на дальнюю полку. Хотя среди пользователей Дзена много людей, интересующихся космосом, и им бы понравился этот материал – просто не сегодня.

Технология continuous exploration увеличивает время, за которое алгоритм собирает реакции на опубликованный контент. Поэтому любой материал получает шанс снова попасть в ленты пользователей.

Как это повлияет на меня?
«Проксима» дает возможность набрать аудиторию публикациям, независимо от того, когда они были опубликованы. Она снижает влияние новостей на ленту пользователя и быстрее «восстанавливает в правах» статьи, которые попали в Дзен во время информационной волны. Поэтому авторы «вечнозеленого контента» в Дзене теперь имеют больше возможностей получать аудиторию независимо от новостной повестки.