July 15, 2023

Про машинное обучение на Совбаке

Продолжаем рассказывать о курсах, которые предлагает программа ВШЭ-РЭШ. Часть доступных дисциплин посвящена работе с кодом: «Наука о данных», «Основы программирования и информатики» (C++), «Машинное обучение-1» и «Машинное обучение-2». Начать рассказ про программирование на Совбаке нам захотелось с машинного обучения, поэтому мы поговорили со старшекурсниками о практической пользе предметов, их плюсах и минусах.

Поделитесь впечатлениями от «Машинного обучения-1» и «Машинного обучения-2». Насколько они полезны?

Никита Хоменко (студент четвёртого курса Совбака): Было интересно на обоих курсах, и мы прошли много новых лично для меня тем.

Да, оба курса полезны. Из тех мест, куда я отбирался (а я не отбирался прямо на позицию Machine Learner), «Машинное обучение-1» будет полезнее, потому что содержит больше фундаментальных концептов, понимание которых можно и на собеседовании показать, и в работе использовать. «Машинное обучение-2» действительно раскрывается, если целенаправленно идти на ML-позиции. Но даже без этого там были всякие прикольные штуки, о которых просто можно с людьми говорить, показывая, какой ты умный.

Матвей Шевченко (студент третьего курса Совбака): «Машинное обучение-1» я считаю одним из лучших курсов Совбака, это мастхэв для любого трека в будущем — будь то академия или индустрия. Технологии машинного обучения применяются повсеместно, и именно этот курс дает широкое понимание основ, достаточно углубляясь в идеи, которые стояли у истоков.

«Машинное обучение-2» — курс чуть более неоднозначный. С одной стороны, один из лучших преподавателей, очень крутой семинарист (с двумя котами), и к концу курса ты научишься писать свою GPT-2. С другой стороны, знания, которые я получил, несмотря на несомненную интересность, как мне кажется, не слишком применимы. Писать модели NLP (natural language programming — технологии обработки естественного языка) редко становится необходимостью в условиях большого распространения так называемых предобученных моделей. Но курс дает хорошее идейное и математическое понимание концепций, которые были придуманы за последние два десятилетия.

Егор Быков (студент третьего курса Совбака): Было очень интересно, оба курса вели разные преподаватели. Сначала было тяжело, потому что я взял «Машинное обучение» на втором курсе, то есть без знания статистики и питона. Обе дисциплины по машинному обучению очень прикладные. Мы не только узнали, что такое нейросети, но и научились сами их создавать. В общем, курсы бомба. Всем советую.

Чем отличается «Машинное обучение-1» от второй части?

Никита: «Машинное обучение-1» про классические ML-алгоритмы по типу регрессий, деревьев, бустингов, кластеризаций. А «Машинное обучение-2» про нейронки, то есть на нем ты практически забываешь про scikit-learn и переходишь в PyTorch.

Планируете ли вы заниматься машинным обучением дальше?

Никита: В каком-то количестве да. Скорее всего не на уровне людей, которые в OpenAI идут, но тем не менее. Какое-то количество машинки делает почти любую работу проще.

Матвей: Я не планирую заниматься машинкой дальше, мне близка хардкорная аналитика в цеху. Но даже в ней можно найти применение методов машинного обучения.

Егор: Благодаря этим курсам я понял, что хочу работать ML-инженером. Сейчас прохожу отбор в ШАД.

Cчитаете ли вы, что программа по этим курсам поверхностна и что можно было бы рассказать больше и глубже?

Никита: Я бы не сказал, что она поверхностна в подобном смысле слова. Но я бы сказал немного крамольную вещь — домашек нужно больше, потому что без практики невозможно нормально что-то понять, когда речь идет о коде. А если брать «Машинное обучение-2», то у него просто структура немного странная, потому что он проходит по разным областям нейронок, но сильно углубляется в одну. Кажется, что было бы логичнее либо еще какое-то продолжение этого курса создавать, либо меньше фокусироваться на NLP.

Матвей: Я залетал на «Машинное обучение-1» без знания питона (только C++) и все равно закрылся на 9 из 10. Мне кажется, программа и нагрузка в самый раз, чтобы хорошо освоить материал, но не умирать на домашках по 8 часов. А «Машинное обучение-2» — это про умирать на домашках 800 часов. Нетрудно предположить, что написать свою GPT-2 — это та еще задачка. Но домашек мало, так что половину семестра нагрузки мало, половину — много

Егор: Я считаю, что мы прошли по максимуму всё, что можно было изучить в такое ограниченное время. Классическое машинное изучение изучать можно долго, в нейросети тоже можно бесконечно копать и изучать отдельные темы по нейронке можно целым курсом.