October 12, 2022

is_predicted_as_business - как мы создали классификатор бизнес-сообществ


Действительно, сообществ внутри ВКонтакте очень много – больше 200 млн. Помочь сообществам развиваться, а пользователям находить нужное помогают технологии machine learning. Так команда разработки фичей для бизнеса и покупателей может предложить инструменты поиска, рекомендаций, мессенджер для бизнеса, формирование корзины и оплаты заказов и сделать это точно под запрос конкретного бизнеса или пользователя.
Первая моделька идентификации сообществ появилась в социальной сети больше 8 лет назад. С тех пор мы не раз оценивали качество и эффективность ML-модели, а этим летом пошли еще дальше и создали новую модель, которую обучили и постепенно обновляем.

По каким критериям мы определяем качество новой ML-модели:

  1. recall – насколько точно модель не упускает из виду сообщества. Здесь мы получили +4 п.п. от точности предыдущей модели;
  2. precision – надежность оценки: прирост +12 п.п. среди тех, кого модель считает бизнесами, реально являются бизнесами;
  3. accuracy – новая модель модель на 9% чаще правильно определяет бизнес-сообщество.

Чтобы модель использовалась на проде, мы создали собственное хранилище. Признак сообщества можно брать напрямую из кода, что упрощает исследования и эксперименты, разработку и выкатку новых фичей.