August 31, 2021

Артём Воронов, победитель IT-чемпионата «Цифрового прорыва 2021»

Как давно ты в IT сфере? Чем именно занимаешься?
На данный момент я занимаюсь внедрением технологий искусственного интеллекта в группе компаний «АПТЕКА — А.в.е», на московском рынке известную по аптечным сетям «36.6» и «Горздрав».
В основном я занимаюсь «классическими» методами машинного обучения: это и прогноз временных рядов, и рекомендательные системы, и прочие математические модели, позволяющие повысить эффективность бизнес-процессов.
В IT сфере я работаю примерно с 2014 года, до этого профессионально занимался спортом, даже получилось поучаствовать в Зимней Олимпиаде 2014 года в Сочи.

Участвовал ли ты ранее в IT-чемпионатах и хакатонах? Для чего?
Я принимаю участие во многих IT-чемпионатах и хакатонах, в основном связанных с машинным обучением. Даже если не удается найти время
для полноценного участия, я стараюсь ознакомиться с данными и лучшими подходами, применяемыми участниками для решения поставленных задач.
Для меня это возможность быть в курсе текущих SOTA (State of the art) решений, а также попробовать их на реальных данных, ну и, естественно, соревновательный азарт.

Как ты узнал об IT-чемпионате Цифрового прорыва?
В прошлом году я уже принимал участие в онлайн-чемпионате «Цифрового прорыва», где мне удалось занять 2-е место в задаче «Распознавание микроколоний в бактериальном посеве», так что анонса задач IT-чемпионата в этом году я уже ждал заранее.

Как ты выбирал задачу, которую будешь решать? За 2 недели до окончания чемпионата я начал заниматься задачей поиска пропавших самолетов, и примерно через неделю я переключился на задачу музейного фонда. Нужно сказать, что меня сразу заинтересовала задача поиска пропавших самолетов, так как продолжительное время я работал в авиации, и в целом эта сфера мне близка. Задача музейного фонда привлекла обширным набором хорошо структурированных данных и возможностью использовать уже хорошо зарекомендовавшие себя методы решения подобных задач.

Расскажи о своих решениях Задача поиска пропавших самолетов имеет большое значение, ведь, если речь идет о пропаже людей, во многих случаях время играет критическую роль, и не всегда «ручной» просмотр огромного объема данных является посильной задачей, даже с привлечением большого количества людей. Технологии компьютерного зрения позволяют решать подобные задачи на порядки быстрее, а с недавних пор и с лучшей точностью, чем человек. В задаче как раз представлено решение на основе искусственных нейронных сетей, позволяющих распознать изображения, на которых присутствует самолет.

В задаче музейного фонда (классификация различных предметов) помимо изображений предметов представлено их текстовое описание, что позволило использовать в решении технологии обработки естественного языка (кроме уже упомянутых технологий компьютерного зрения). Это сильно повысило качество классификации. В данном решении присутствует широкий задел на повышение качества классификации, ведь в нем использовался базовый подход на основе подсчета ключевых фраз в описании предмета, а текущие методы обработки естественного языка позволяют решать данную задачу с гораздо лучшим качеством. Также для решения был использован сильно урезанный набор данных (около 300 тысяч изображений из 25 миллионов).

Как тебе удалось создать два успешных решения на одном чемпионате? Как я уже упомянул, я часто участвую в различных чемпионатах, и у меня уже накопились наработанные пайплайны для решения задач подобного рода. Так что в основном решение обоих задач сводилось к первоначальной обработке данных и автоматическому запуску (раз в 1–2 дня) множества различных конфигураций решений, из которых впоследствии и были отобраны лучшие.

Хочешь участвовать во внедрении своих решений?
Хоть решения, представленные на чемпионате, и показали очень высокие метрики (во многом благодаря организаторам, которые провели большую работу по подготовке данных), стоит помнить, что внедрение подобных технологий — это достаточно трудоемкий процесс, требующий тщательной работы с данными, которые в реальности могут оказаться не такого хорошего качества. Также важно выбрать метрики/модели, наиболее соответствующие поставленным задачам. В случае запроса на доработку и внедрение данных решений я, конечно, буду рад поделиться своими знаниями и опытом.