РОАДМАП в Data Science: Рост из вкатуна в победителя по жизни
Вы думаете, мы тут просто учим код писать? Не, слоняры, хер там. Мы строим базу, которая будет кормить вас всю жизнь. И я говорю это не потому, что прочитал в книжке, а потому что прожил это сам.
Буду рассказывать всё на личном примере. До того как я глубоко погрузился в DS, я ничего не понимал, как работает бизнес. Я думал: «Вот есть задача, я пишу код, я молодец». Но реальность дала мне леща на первой же серьезной работе.
Мне дали задачу: «Оптимизируй время работы копирайтеров». И всё. Никакого сеньора-няньки, который давал бы мне указания. Никакого четкого ТЗ. Просто бизнесовая проблема: «Девочки-копирайтеры тратя много времени, сделай, чтобы было меньше».
Я сидел и думал: «Ну и прикол, норм первая работка, а с чего начать?». И тут до меня дошло. Я не могу просто сесть и сделать фит/пердикт. Мне пришлось встать, пойти к людям и разбираться:
- Откуда растут ноги у проблемы?
- Как вообще устроен процесс написания текстов?
- Зачем мы это делаем и где тут деньги?
Пока я не разобрался в Бизнесе, я не мог написать ни строчки Технички. В итоге я сделал решение, которое реально сэкономило часы работы.
Этот паттерн преследовал меня везде: в Сбере, в Точке, в стартапах. Чтобы сделать рабочее ML-решение, тебе нужно понимать А ЗАЧЕМ ЭТО НУЖНО?. Именно этот навык - видеть связь между кодом и бабками - позволил мне потом построить свою школу и запускать успешные проекты.
Data Science - это одна из немногих сфер, которая делает из тебя гибрида. Ты и Технарь, и Предприниматель. И именно за это платят те самые 300к+, а не за знание библиотек.
Вот карта, по которой ты пройдешь этот путь. От «нуля» до Инженера, который решает проблемы бизнеса.
🚀 ЭТАП 1. Учим техническую БАЗУ (0 - 6 месяцев)
Мы отсекаем всё лишнее знания, которые нам пытаются вдолбить курсы за 500к, и оставляем только то, за что реально платят. Этот база составлялась на более 500 вопросах на реальных собеседованиях. То есть тут то, что реально спрашивают но собеседованиях
🔵 Python Base
Ну эта база каждого разраба. Не надо учить его годами, нужно просто уметь им пользоваться, чтобы крутить данные
- Core: Типы данных, Циклы, Функции (args/kwargs, lambda).
- Data Stack: Pandas (твоя вторая рука для таблиц), NumPy (матрицы), Matplotlib/Seaborn (визуализация).
- Дополнительно, что могут спросить: Декораторы, Генераторы (yield), List Comprehensions, GIL, асинхронность, мультипроцессинг
🧩 Алгоритмы
1. Arrays & Hashing (Входной билет) - Это фундамент. 90% лайв-кодинга начинается здесь. Уметь быстро искать дубликаты, работать с хэш-таблицами (dict в Python) и массивами.
2. Two Pointers (Оптимизация) - Техника для тех, кто умеет думать, а не просто перебирать циклы. Использовать два указателя для прохода по массиву с разных сторон, чтобы снизить сложность алгоритма.
3. Stack (Структура LIFO) - Принцип "Последним пришел — первым ушел".
- Зачем: Валидация скобок, парсинг выражений, история браузера. Показывает, что ты понимаешь, как компьютер хранит вызовы функций.
4. Binary Search (Скорость)- Найти элемент в отсортированном массиве не перебором, а делением пополам.
- Зачем: Ты должен понимать, что такое O(log n). Если ты предлагаешь перебирать миллион записей циклом
for, когда можно сделать бинарный поиск — ты не Инженер.
5. Sliding Window (Аналитика)- Работа с подмассивами. Двигаем "окно" по данным, считая суммы или среднее.
6. Linked List (Работа с памятью)- Понимать, как данные ссылаются друг на друга в памяти (узлы и ссылки), а не лежат сплошным куском.
- Зачем: Разворот списка, поиск циклов. Проверяет, понимаешь ли ты, как работают указатели, даже если пишешь на Python.
🟣 SQL
Данные лежат в базах. Если ты не умеешь их достать - ты бесполезен. Забудь про простые SELECT *.
- Joins:
INNER,LEFT,RIGHT - Window Functions:
RANK,LEAD,LAG— это то, что спрашивают на каждом собесе для аналитики. - Aggregation:
GROUP BY,HAVING, а также подзапросы
🧠 Математика
Не нужно быть профессором МГУ. Когда твоя модель начнет выдавать бред, ты должен понять ПОЧЕМУ. Математика — это твоя страховка.
- Мат.Анализ: Градиентный спуск (понимать, как сеть учится).+1
- Линейная Алгебра: Матричные операции (понимать, как перемножаются веса).
- Статистика: Распределения, гипотезы, A/B тесты — чтобы не врать бизнесу цифрами
🟢 Classic ML
Классический ML - это база, кредитный скоринг, динамическое ценообразование, предсказание поломок оборудования — всё это решается здесь.
Здесь твой путь делится на 4 этапа. Пропустить хоть один = провалить собес.
А. Типы Задач (Что мы вообще делаем?)
Прежде чем писать код, ты должен понять, что хочет бизнес.
- Регрессия (Regression): Ответ на вопрос «СКОЛЬКО?».
- Примеры: Сколько выручки принесет магазин в следующем месяце? Какую зарплату поставить кандидату? Какова будет цена на квартиру?
- Алгоритмы: Линейная регрессия, Ridge/Lasso (регуляризация, чтобы модель не сходила с ума).
- Классификация (Classification): Ответ на вопрос «ДА или НЕТ?» (или «Какой класс?»).
Б. Работа с данными (Feature Engineering)
Запомни: Garbage In — Garbage Out. Если ты скормишь модели мусор, на выходе получишь мусор, даже если используешь самый мощный алгоритм.
- EDA (Разведка): Построить гистограммы, найти выбросы (кто-то указал возраст 999 лет), понять корреляции.
- Препроцессинг: Что делать с пропусками (NaN)? Заменить средним или предсказать другой моделью?
- Feature Engineering (Магия): Это то, что отличает Сеньора от Джуна. Умение создать новые признаки.
В. От Деревьев к Ансамблям (Эволюция Мощи)
Одиночные модели слабые. Сила в толпе.
- Деревья Решений (Decision Trees): База. Серия вопросов «Если... то...». Понятно, интерпретируемо, но легко переобучается.
- Ансамбли (Ensembles): Мы берем 1000 слабых деревьев и заставляем их голосовать.
- Random Forest (Случайный лес): Параллельное обучение кучи независимых деревьев. Надежно, как автомат Калашникова, почти не переобучается.
- Gradient Boosting (Градиентный бустинг): Последовательное обучение. Каждое следующее дерево исправляет ошибки предыдущего. Это снайперская винтовка. Точно, мощно, но нужно уметь настраивать.
Г. Большая Тройка Бустингов (Must Have)
В 2025 году никто не пишет бустинг с нуля. Ты обязан владеть библиотеками, на которых держится весь Kaggle и весь Enterprise:
- CatBoost (Yandex): Король работы с категориями (города, бренды, типы товаров). Лучший выбор для старта.
- XGBoost: Классика. На нем выиграно 80% соревнований прошлых лет.
- LightGBM: Скорость. Если данных терабайты — берем его.
Д. Метрики (Твой щит и меч)
Бизнесу плевать на твой loss function. Ему важно, не теряет ли он деньги.
- Для Регрессии:
MAE(ошибка в рублях),MAPE(ошибка в процентах — бизнесу это понятнее всего). - Для Классификации:
Accuracy— забудь про неё (она врет на дисбалансе классов).Precision(Точность): Чтобы не заблокировать нормального клиента, назвав его мошенником.Recall(Полнота): Чтобы найти ВСЕХ мошенников, никого не упустив.ROC-AUC: Универсальная метрика качества ранжирования.Lift: Насколько твоя модель лучше, чем случайное угадывание.
🧠 2. Deep Learning
Когда таблицы заканчиваются и начинаются картинки, звук или сложный текст в игру вступает Deep Learning.
- PyTorch: Индустрия живет на PyTorch. Ты должен понимать, что такое тензор и как писать кастомные слои.
- Backpropagation: Обратное распространение ошибки. Ты должен понимать "под капотом", как сеть учится, как текут градиенты и почему они затухают.
- Optimization:
Adam,SGD. Как заставить сеть учиться быстрее и не застрять в локальном минимуме. - Stabilization:
Dropout,Batch Normalization— техники, чтобы твоя сеть не переобучилась и работала стабильно.
🗣️ 3. NLP
Чтобы работать с LLM, ты должен понимать, как машина вообще "читает".
- Embeddings:
Word2Vec. Понимание того, как превратить слово "Король" в вектор цифр, чтобы можно было математически вычесть из него "Мужчина" и прибавить "Женщина", получив "Королева". - Attention Mechanism: Сейчас на этом работают все основные архитектуры LLM - Self-Attention. Ты должен понимать, как модель фокусируется на важных словах в предложении.
- Transformers: Архитектура Encoder/Decoder.
BERT(для классификации текстов),GPT(для генерации). Это база, на которой строятся все современные "умные" системы.
🤖 4. LLM & Agents (Высшая Лига)
Это самый горячий и денежный сектор прямо сейчас. Бизнесу не нужен просто ChatGPT. Ему нужно внедрить ИИ в свои процессы.
- RAG (Retrieval-Augmented Generation): Умение "поженить" тупую LLM с умной базой знаний компании. Векторные базы данных (
FAISS,Chroma), нарезка чанков, реранкинг ответов. - Fine-tuning (Дообучение): Как взять QWEN и заточить её под юридический сленг, не тратя миллионы на видеокарты? Технологии
LoRAиPEFT— это навык экономии бюджетов. - Agents (AI, который работает):
LangChain,ReAct. Мы учим создавать автономных агентов, которые не просто болтают, а действуют: гуглят, пишут код, делают SQL-запросы к базе и бронируют встречи. - Prompt Engineering: Не "напиши стих", а инженерные подходы:
Chain of Thought(CoT),Tree of Thoughts— как заставить модель думать логически.
🟣 ML System Design
На этом этапе сыпется 90% кандидатов, потому что они привыкли жить в вакууме Jupyter Notebook. Но на собеседовании (и в работе) ваша цель — не просто обучить модель, а построить Пайплайн.
Твоя стратегия: Сначала ты строишь систему из говна и палок (на костылях), чтобы она просто работала от входа до выхода. И только потом начинаешь улучшать каждый блок.
Вот 7 шагов, по которым ты должен протащить интервьюера, чтобы он отдал тебе оффер:
1️⃣ Сформулируй проблему (Бизнес-задача)
Не кидайся писать код! Сначала пойми, куда воевать.
- Бизнес-цель: Задай вопрос: "Правильно ли я понял, что мы хотим увеличить выручку, уменьшив отток?".
- Ограничения: У нас есть GPU? Сколько времени на инференс (50мс или 5 минут)? Если ты предложишь тяжелый BERT для мобильного приложения — ты провалился.
2️⃣ Метрики (Навигатор)
Ты должен понимать, к чему идешь. Дизайн начинается с цифр.
- Бизнес-метрики: Деньги, LTV, Retention (то, что волнует директора).
- Offline метрики: ROC-AUC, RMSE (то, на чем ты учишь модель в ноутбуке).
- Online метрики: CTR, Conversion Rate (то, что мы увидим в реальном мире на пользователях).
3️⃣ Данные (Топливо)
- Сущности: Пользователь, Товар, Магазин.
- Фичи: Пол, возраст, цена, бренд.
- Источники: Парсим сайт? Нанимаем копирайтеров? Тянем логи из базы?
4️⃣ Pipeline (Схема)
Ты рисуешь квадратики. Как данные перетекают из базы в модель и обратно к пользователю. Кто с кем взаимодействует. Это показывает твое инженерное мышление.
5️⃣ Модель (От простого к сложному)
Золотое правило: Начинай с БЕЙЗЛАЙНА (Baseline). Не надо сразу предлагать сложную нейросеть. Скажи: "Для начала выдадим просто самые популярные товары. Это наш ноль. Потом улучшим". Когда база готова, ты накручиваешь ML:
- Task: Классификация или Ранжирование?
- Loss: Какую функцию потерь минимизируем?
- Split: Как бьем на Train/Test (по времени или случайно)?
6️⃣ Deploy (Зоопарк технологий)
Тут ты показываешь, что ты не просто математик, а инженер. Называй инструменты:
- Хранение: Amazon S3, HDFS (где лежат данные).
- Транспорт: Kafka (как данные летят в потоке).
- Обучение: Airflow (расписание переобучения).
- Микросервис: Docker + Kubernetes (K8s) — чтобы это жило в облаке.
- Мониторинг: MLFlow (следить, не сошла ли модель с ума).
7️⃣ A/B Test (Судья Дредд)
Модель готова. Но верить ей нельзя.
- Контроль vs Тест: Делим юзеров: 70% на старой модели (А), 30% на новой (В).
- Значимость: Главное — набрать достаточно данных, чтобы разница в деньгах была не случайной, а статистически значимой.
🟡 Бизнес-мышление
Ты можешь быть хоть трижды гением, знать наизусть все формулы градиентного спуска и писать код закрытыми глазами. Но если ты не умеешь продавать свой результат - ты будешь сидеть на зарплате 150к, пока твой более наглый конкурент (который кодит хуже, но умеет говорить) лутает 400к.
Бизнес-мышление - это навык перевода с технического на язык бизнеса
А. Правило «А ЗАЧЕМ?»
Вспоминаем мой кейс с копирайтерами. Прежде чем писать код, ты должен задать бизнесу (или себе) неудобные вопросы:
- "А зачем мы это делаем?"
- "Сколько денег мы теряем сейчас?"
- "Окупится ли моя зарплата, если я потрачу на это месяц?"
Если ты просто делаешь таски из Jira, не думая - ты Исполнитель. Если ты предлагаешь решения, которые экономят бюджет —-ты Партнер. Партнерам платят процент, исполнителям - оклад.
Б. Переводчик с DS на Money
Директору насрать на твой ROC-AUC = 0.85. Ему это ничего не говорит. Ты должен уметь переводить метрики:
- ❌ Плохо: "Мы подняли Precision модели на 5%".
- ✅ Хорошо: "Благодаря новой модели мы перестали блокировать нормальных клиентов, и это сохранит нам 2 млн рублей выручки в месяц".
Как только ты начинаешь говорить о деньгах, тебя перестают воспринимать как просто человека-кодера и начинают больше воспринимать как бизнес-юнита.
В. Продажа себя
Собеседование - это не экзамен, где ты студент, а HR — препод. Это Сделка. Ты продаешь свою услугу (голову), компания покупает решение своих болей.
- Soft Skills: Это не про быть вежливым, улыбаться и хавать унижения. Это про умение слушать и слышать. Твоя задача - слышать истинную БОЛЬ человека/бизнеса (у него горит KPI? его дрочит инвестор? он боится облажаться?) и предложить решение, которое снимет именно эту боль. Ты должен бить точно в цель. Продажа случается не когда ты «защищаешь» решение, а когда ты показал, что понимаешь проблему лучше, чем сам заказчик.
- Самопрезентация: Ты должен уметь упаковать свой опыт (даже пет-проекты) так, чтобы HR увидел в этом коммерческую ценность. Не "я учил Python", а "я создал бота, который автоматизировал рутину".
Итог: Техничка дает тебе возможность выполнить работу. Бизнес-мышление дает тебе право просить за неё 300к+, а порой и все 400к+.
💰 ЭТАП 2. ОКУПАЕМОСТЬ (6 – 8 месяцы)
Компании не хотят нанимать людей с "нулевым" опытом за 60к, чтобы тратить время сеньоров на их обучение. Это экономически невыгодно, особенно в текущее время больших ставок в стране, когда нет много время на развитие.
- Цель: Позиция Middle Data Scientist.
- Инструмент: Упаковка пет-проектов и бизнес-описание. Мы упаковываем твои 6-8 месяцев обучения и пет-проектов как 1.5–2 года коммерческого опыта.
- Суть: Ты просто грамотно продаешь свой учебный опыт как рабочий. Рынку плевать, где ты взял навык (дома или в офисе), если ты умеешь решать задачи.
2. Воронка Найма
Ты выходишь на рынок. Это будет больно, но это часть плана.
- Скрининг: Ты учишься проходить HR-фильтры, чтобы твое резюме не улетало в помойку.
- Техничка: Тебя будут валить: первый, второй, пятый раз. Порой ты будешь выходить с собесов расстроенным и с чувством, что ты тупой, но это нормально все мы через это проходили.
- Адаптация: После каждого провала ты выписываешь вопросы, которые не знал, и закрываешь пробелы. На 10-й раз ты начинаешь отвечать на автомате.
- Оффер: В какой-то момент количество переходит в качество. Тебе говорят «Да».
3. Экономика
Вот тут включается калькулятор.
- Кэш: 250к – 300к на руки со старта.
- Математика: Ты окупаешь стоимость менторства, курсов и ноутбука с первой зарплаты. Дальше - чистая прибыль.
4. Философия «Платного Университета»
Самый главный секрет этого этапа: Твоя первая работа — это продолжение обучения. Компания платит тебе 300к пока ты учишься, предоставляя:
Даже если ты проработаешь там всего 3 месяца и не потянешь (худший сценарий) - ты заработаешь почти миллион рублей и получишь строчку в резюме, с которой следующая работа ищется за неделю. Но очень хочу подметить, что на работе мы выполняем минимум то, что от нас требуется, врать и ебланить тут не надо. Тебе дали возможность, так используй её на максимум. Когда обучишься, тогда можно расслабляться, работая 2-3 часа в день и при этом всё равно, закрывая таски, которые тебе сказали.
💎 ЭТАП 3. ОЧЕНЬ ВАЖНЫЙ КАБАН КАБАНЫЧ (1 – 3 года)
То, ради чего всё затевалось. Из DS ты можешь выйти в любую дверь, где крутятся большие бюджеты. Куда идут лютые ебаки, когда перерастают сеньоров:
1️⃣ CTO / Head of AI: Управляешь стратегией и людьми. Говоришь бизнесу, куда тратить миллионы. Доход: 500к – 1млн+
2️⃣ Валютная удалёнка: Работаешь на Штаты или Европу за валюту. Математика везде одна, язык цифр универсален. Доход: $5,000 – $10,000+
3️⃣ Свой продукт / Стартап: Видишь дыру в рынке -> закрываешь боли продуктам -> забираешь всю маржу себе. Доход: Без потолка.
4️⃣ Algotrading/HFT: Пишешь роботов для биржи. Прямая конвертация интеллекта в деньги без посредников. Доход: $8,000 – $30,000+
5️⃣ Многоработничество: Ты настолько преисполнился, что тянешь 2-3 работы одновременно. Благодаря автоматизации и скриптам тратишь на всё те же 8 часов, но лутаешь х3 к рынку. Доход: 600к – 1кк.
6️⃣ Shadow Mode: Тебя нанимают в штат на сеньорскую ставку (400к), а ты отдаешь задачи толковому джуну за 150к. Разницу кладешь в карман, появляясь только на дейликах. Ты не работаешь, ты владеешь активом «своё рабочее место». Доход: Чистый арбитраж, но примерно около 1кк+.
7️⃣ IT-Пенсионер: Вариант для тех, кто прошел игру. Ты берешь одну спокойную работу за свои 450к, настраиваешь процессы и работаешь 2 часа в день. Остальное время - хобби, спорт, семья и кайф. Доход: Стабильные 450к+ и куча свободного времени.
Этот путь открыт, но халявы не будет. Входной билет стоит дорого - это твое время и дисциплина сейчас.
На вебинаре я на молекулы разберу как правильно действовать, чтобы ты не тратил год на изучение мусора, а сразу бил в цель.