РОАДМАП в Data Science: Рост из вкатуна в победителя по жизни

Вы думаете, мы тут просто учим код писать? Не, слоняры, хер там. Мы строим базу, которая будет кормить вас всю жизнь. И я говорю это не потому, что прочитал в книжке, а потому что прожил это сам.

Буду рассказывать всё на личном примере. До того как я глубоко погрузился в DS, я ничего не понимал, как работает бизнес. Я думал: «Вот есть задача, я пишу код, я молодец». Но реальность дала мне леща на первой же серьезной работе.

Мне дали задачу: «Оптимизируй время работы копирайтеров». И всё. Никакого сеньора-няньки, который давал бы мне указания. Никакого четкого ТЗ. Просто бизнесовая проблема: «Девочки-копирайтеры тратя много времени, сделай, чтобы было меньше».

Я сидел и думал: «Ну и прикол, норм первая работка, а с чего начать?». И тут до меня дошло. Я не могу просто сесть и сделать фит/пердикт. Мне пришлось встать, пойти к людям и разбираться:

- Откуда растут ноги у проблемы?

- Как вообще устроен процесс написания текстов?

- Зачем мы это делаем и где тут деньги?

Пока я не разобрался в Бизнесе, я не мог написать ни строчки Технички. В итоге я сделал решение, которое реально сэкономило часы работы.

Этот паттерн преследовал меня везде: в Сбере, в Точке, в стартапах. Чтобы сделать рабочее ML-решение, тебе нужно понимать А ЗАЧЕМ ЭТО НУЖНО?. Именно этот навык - видеть связь между кодом и бабками - позволил мне потом построить свою школу и запускать успешные проекты.

Data Science - это одна из немногих сфер, которая делает из тебя гибрида. Ты и Технарь, и Предприниматель. И именно за это платят те самые 300к+, а не за знание библиотек.

Вот карта, по которой ты пройдешь этот путь. От «нуля» до Инженера, который решает проблемы бизнеса.

🚀 ЭТАП 1. Учим техническую БАЗУ (0 - 6 месяцев)

Мы отсекаем всё лишнее знания, которые нам пытаются вдолбить курсы за 500к, и оставляем только то, за что реально платят. Этот база составлялась на более 500 вопросах на реальных собеседованиях. То есть тут то, что реально спрашивают но собеседованиях

🔵 Python Base

Ну эта база каждого разраба. Не надо учить его годами, нужно просто уметь им пользоваться, чтобы крутить данные

- Core: Типы данных, Циклы, Функции (args/kwargs, lambda).

- Data Stack: Pandas (твоя вторая рука для таблиц), NumPy (матрицы), Matplotlib/Seaborn (визуализация).

- Дополнительно, что могут спросить: Декораторы, Генераторы (yield), List Comprehensions, GIL, асинхронность, мультипроцессинг

🧩 Алгоритмы

1. Arrays & Hashing (Входной билет) - Это фундамент. 90% лайв-кодинга начинается здесь. Уметь быстро искать дубликаты, работать с хэш-таблицами (dict в Python) и массивами.

2. Two Pointers (Оптимизация) - Техника для тех, кто умеет думать, а не просто перебирать циклы. Использовать два указателя для прохода по массиву с разных сторон, чтобы снизить сложность алгоритма.

3. Stack (Структура LIFO) - Принцип "Последним пришел — первым ушел".

Зачем: Валидация скобок, парсинг выражений, история браузера. Показывает, что ты понимаешь, как компьютер хранит вызовы функций.

4. Binary Search (Скорость)- Найти элемент в отсортированном массиве не перебором, а делением пополам.

Зачем: Ты должен понимать, что такое O(log n). Если ты предлагаешь перебирать миллион записей циклом for, когда можно сделать бинарный поиск — ты не Инженер.

5. Sliding Window (Аналитика)- Работа с подмассивами. Двигаем "окно" по данным, считая суммы или среднее.

Зачем: Это прямая база для Временных рядов (Time Series) и обработки стриминговых данных.

6. Linked List (Работа с памятью)- Понимать, как данные ссылаются друг на друга в памяти (узлы и ссылки), а не лежат сплошным куском.

Зачем: Разворот списка, поиск циклов. Проверяет, понимаешь ли ты, как работают указатели, даже если пишешь на Python.

🟣 SQL

Данные лежат в базах. Если ты не умеешь их достать - ты бесполезен. Забудь про простые SELECT *.

Joins: INNER, LEFT, RIGHT
Window Functions: RANK, LEAD, LAG — это то, что спрашивают на каждом собесе для аналитики.
Aggregation: GROUP BY, HAVING, а также подзапросы

🧠 Математика

Не нужно быть профессором МГУ. Когда твоя модель начнет выдавать бред, ты должен понять ПОЧЕМУ. Математика — это твоя страховка.

Мат.Анализ: Градиентный спуск (понимать, как сеть учится).+1
Линейная Алгебра: Матричные операции (понимать, как перемножаются веса).
Статистика: Распределения, гипотезы, A/B тесты — чтобы не врать бизнесу цифрами

🟢 Classic ML

Классический ML - это база, кредитный скоринг, динамическое ценообразование, предсказание поломок оборудования — всё это решается здесь.

Здесь твой путь делится на 4 этапа. Пропустить хоть один = провалить собес.

А. Типы Задач (Что мы вообще делаем?)

Прежде чем писать код, ты должен понять, что хочет бизнес.

Регрессия (Regression): Ответ на вопрос «СКОЛЬКО?».

Примеры: Сколько выручки принесет магазин в следующем месяце? Какую зарплату поставить кандидату? Какова будет цена на квартиру?
Алгоритмы: Линейная регрессия, Ridge/Lasso (регуляризация, чтобы модель не сходила с ума).

Классификация (Classification): Ответ на вопрос «ДА или НЕТ?» (или «Какой класс?»).

Примеры: Вернет ли клиент кредит? (1/0). Это спам или важное письмо? Это котик, собачка или хлебушек?
Алгоритмы: Логистическая регрессия, KNN (ближайшие соседи), SVM.

Б. Работа с данными (Feature Engineering)

Запомни: Garbage In — Garbage Out. Если ты скормишь модели мусор, на выходе получишь мусор, даже если используешь самый мощный алгоритм.

EDA (Разведка): Построить гистограммы, найти выбросы (кто-то указал возраст 999 лет), понять корреляции.
Препроцессинг: Что делать с пропусками (NaN)? Заменить средним или предсказать другой моделью?
Feature Engineering (Магия): Это то, что отличает Сеньора от Джуна. Умение создать новые признаки.

Пример: Вместо дат «Дата открытия» и «Дата закрытия» ты создаешь признак «Длительность сделки». Модели плевать на календарь, ей важен интервал.

В. От Деревьев к Ансамблям (Эволюция Мощи)

Одиночные модели слабые. Сила в толпе.

Деревья Решений (Decision Trees): База. Серия вопросов «Если... то...». Понятно, интерпретируемо, но легко переобучается.
Ансамбли (Ensembles): Мы берем 1000 слабых деревьев и заставляем их голосовать.

Random Forest (Случайный лес): Параллельное обучение кучи независимых деревьев. Надежно, как автомат Калашникова, почти не переобучается.
Gradient Boosting (Градиентный бустинг): Последовательное обучение. Каждое следующее дерево исправляет ошибки предыдущего. Это снайперская винтовка. Точно, мощно, но нужно уметь настраивать.

Г. Большая Тройка Бустингов (Must Have)

В 2025 году никто не пишет бустинг с нуля. Ты обязан владеть библиотеками, на которых держится весь Kaggle и весь Enterprise:

CatBoost (Yandex): Король работы с категориями (города, бренды, типы товаров). Лучший выбор для старта.
XGBoost: Классика. На нем выиграно 80% соревнований прошлых лет.
LightGBM: Скорость. Если данных терабайты — берем его.

Д. Метрики (Твой щит и меч)

Бизнесу плевать на твой loss function. Ему важно, не теряет ли он деньги.

Для Регрессии: MAE (ошибка в рублях), MAPE (ошибка в процентах — бизнесу это понятнее всего).
Для Классификации:

Accuracy — забудь про неё (она врет на дисбалансе классов).
Precision (Точность): Чтобы не заблокировать нормального клиента, назвав его мошенником.
Recall (Полнота): Чтобы найти ВСЕХ мошенников, никого не упустив.
ROC-AUC: Универсальная метрика качества ранжирования.
Lift: Насколько твоя модель лучше, чем случайное угадывание.

🧠 2. Deep Learning

Когда таблицы заканчиваются и начинаются картинки, звук или сложный текст в игру вступает Deep Learning.

PyTorch: Индустрия живет на PyTorch. Ты должен понимать, что такое тензор и как писать кастомные слои.
Backpropagation: Обратное распространение ошибки. Ты должен понимать "под капотом", как сеть учится, как текут градиенты и почему они затухают.
Optimization: Adam, SGD. Как заставить сеть учиться быстрее и не застрять в локальном минимуме.
Stabilization: Dropout, Batch Normalization — техники, чтобы твоя сеть не переобучилась и работала стабильно.

🗣️ 3. NLP

Чтобы работать с LLM, ты должен понимать, как машина вообще "читает".

Embeddings: Word2Vec. Понимание того, как превратить слово "Король" в вектор цифр, чтобы можно было математически вычесть из него "Мужчина" и прибавить "Женщина", получив "Королева".
Attention Mechanism: Сейчас на этом работают все основные архитектуры LLM - Self-Attention. Ты должен понимать, как модель фокусируется на важных словах в предложении.
Transformers: Архитектура Encoder/Decoder. BERT (для классификации текстов), GPT (для генерации). Это база, на которой строятся все современные "умные" системы.

🤖 4. LLM & Agents (Высшая Лига)

Это самый горячий и денежный сектор прямо сейчас. Бизнесу не нужен просто ChatGPT. Ему нужно внедрить ИИ в свои процессы.

RAG (Retrieval-Augmented Generation): Умение "поженить" тупую LLM с умной базой знаний компании. Векторные базы данных (FAISS, Chroma), нарезка чанков, реранкинг ответов.
Fine-tuning (Дообучение): Как взять QWEN и заточить её под юридический сленг, не тратя миллионы на видеокарты? Технологии LoRA и PEFT — это навык экономии бюджетов.
Agents (AI, который работает): LangChain, ReAct. Мы учим создавать автономных агентов, которые не просто болтают, а действуют: гуглят, пишут код, делают SQL-запросы к базе и бронируют встречи.
Prompt Engineering: Не "напиши стих", а инженерные подходы: Chain of Thought (CoT), Tree of Thoughts — как заставить модель думать логически.

🟣 ML System Design

На этом этапе сыпется 90% кандидатов, потому что они привыкли жить в вакууме Jupyter Notebook. Но на собеседовании (и в работе) ваша цель — не просто обучить модель, а построить Пайплайн.

Твоя стратегия: Сначала ты строишь систему из говна и палок (на костылях), чтобы она просто работала от входа до выхода. И только потом начинаешь улучшать каждый блок.

Вот 7 шагов, по которым ты должен протащить интервьюера, чтобы он отдал тебе оффер:

1️⃣ Сформулируй проблему (Бизнес-задача)

Не кидайся писать код! Сначала пойми, куда воевать.

Бизнес-цель: Задай вопрос: "Правильно ли я понял, что мы хотим увеличить выручку, уменьшив отток?".
Ограничения: У нас есть GPU? Сколько времени на инференс (50мс или 5 минут)? Если ты предложишь тяжелый BERT для мобильного приложения — ты провалился.

2️⃣ Метрики (Навигатор)

Ты должен понимать, к чему идешь. Дизайн начинается с цифр.

Бизнес-метрики: Деньги, LTV, Retention (то, что волнует директора).
Offline метрики: ROC-AUC, RMSE (то, на чем ты учишь модель в ноутбуке).
Online метрики: CTR, Conversion Rate (то, что мы увидим в реальном мире на пользователях).

3️⃣ Данные (Топливо)

Откуда берем инфу?

Сущности: Пользователь, Товар, Магазин.
Фичи: Пол, возраст, цена, бренд.
Источники: Парсим сайт? Нанимаем копирайтеров? Тянем логи из базы?

4️⃣ Pipeline (Схема)

Ты рисуешь квадратики. Как данные перетекают из базы в модель и обратно к пользователю. Кто с кем взаимодействует. Это показывает твое инженерное мышление.

5️⃣ Модель (От простого к сложному)

Золотое правило: Начинай с БЕЙЗЛАЙНА (Baseline). Не надо сразу предлагать сложную нейросеть. Скажи: "Для начала выдадим просто самые популярные товары. Это наш ноль. Потом улучшим". Когда база готова, ты накручиваешь ML:

Task: Классификация или Ранжирование?
Loss: Какую функцию потерь минимизируем?
Split: Как бьем на Train/Test (по времени или случайно)?

6️⃣ Deploy (Зоопарк технологий)

Тут ты показываешь, что ты не просто математик, а инженер. Называй инструменты:

Хранение: Amazon S3, HDFS (где лежат данные).
Транспорт: Kafka (как данные летят в потоке).
Обучение: Airflow (расписание переобучения).
Микросервис: Docker + Kubernetes (K8s) — чтобы это жило в облаке.
Мониторинг: MLFlow (следить, не сошла ли модель с ума).

7️⃣ A/B Test (Судья Дредд)

Модель готова. Но верить ей нельзя.

Контроль vs Тест: Делим юзеров: 70% на старой модели (А), 30% на новой (В).
Значимость: Главное — набрать достаточно данных, чтобы разница в деньгах была не случайной, а статистически значимой.

🟡 Бизнес-мышление

Ты можешь быть хоть трижды гением, знать наизусть все формулы градиентного спуска и писать код закрытыми глазами. Но если ты не умеешь продавать свой результат - ты будешь сидеть на зарплате 150к, пока твой более наглый конкурент (который кодит хуже, но умеет говорить) лутает 400к.

Бизнес-мышление - это навык перевода с технического на язык бизнеса

А. Правило «А ЗАЧЕМ?»

Вспоминаем мой кейс с копирайтерами. Прежде чем писать код, ты должен задать бизнесу (или себе) неудобные вопросы:

"А зачем мы это делаем?"
"Сколько денег мы теряем сейчас?"
"Окупится ли моя зарплата, если я потрачу на это месяц?"

Если ты просто делаешь таски из Jira, не думая - ты Исполнитель. Если ты предлагаешь решения, которые экономят бюджет —-ты Партнер. Партнерам платят процент, исполнителям - оклад.

Б. Переводчик с DS на Money

Директору насрать на твой ROC-AUC = 0.85. Ему это ничего не говорит. Ты должен уметь переводить метрики:

❌ Плохо: "Мы подняли Precision модели на 5%".
✅ Хорошо: "Благодаря новой модели мы перестали блокировать нормальных клиентов, и это сохранит нам 2 млн рублей выручки в месяц".

Как только ты начинаешь говорить о деньгах, тебя перестают воспринимать как просто человека-кодера и начинают больше воспринимать как бизнес-юнита.

В. Продажа себя

Собеседование - это не экзамен, где ты студент, а HR — препод. Это Сделка. Ты продаешь свою услугу (голову), компания покупает решение своих болей.

Soft Skills: Это не про быть вежливым, улыбаться и хавать унижения. Это про умение слушать и слышать. Твоя задача - слышать истинную БОЛЬ человека/бизнеса (у него горит KPI? его дрочит инвестор? он боится облажаться?) и предложить решение, которое снимет именно эту боль. Ты должен бить точно в цель. Продажа случается не когда ты «защищаешь» решение, а когда ты показал, что понимаешь проблему лучше, чем сам заказчик.
Самопрезентация: Ты должен уметь упаковать свой опыт (даже пет-проекты) так, чтобы HR увидел в этом коммерческую ценность. Не "я учил Python", а "я создал бота, который автоматизировал рутину".

Итог: Техничка дает тебе возможность выполнить работу. Бизнес-мышление дает тебе право просить за неё 300к+, а порой и все 400к+.

💰 ЭТАП 2. ОКУПАЕМОСТЬ (6 – 8 месяцы)

Компании не хотят нанимать людей с "нулевым" опытом за 60к, чтобы тратить время сеньоров на их обучение. Это экономически невыгодно, особенно в текущее время больших ставок в стране, когда нет много время на развитие.

Поэтому мы делаем так:

Цель: Позиция Middle Data Scientist.
Инструмент: Упаковка пет-проектов и бизнес-описание. Мы упаковываем твои 6-8 месяцев обучения и пет-проектов как 1.5–2 года коммерческого опыта.
Суть: Ты просто грамотно продаешь свой учебный опыт как рабочий. Рынку плевать, где ты взял навык (дома или в офисе), если ты умеешь решать задачи.

2. Воронка Найма

Ты выходишь на рынок. Это будет больно, но это часть плана.

Скрининг: Ты учишься проходить HR-фильтры, чтобы твое резюме не улетало в помойку.
Техничка: Тебя будут валить: первый, второй, пятый раз. Порой ты будешь выходить с собесов расстроенным и с чувством, что ты тупой, но это нормально все мы через это проходили.
Адаптация: После каждого провала ты выписываешь вопросы, которые не знал, и закрываешь пробелы. На 10-й раз ты начинаешь отвечать на автомате.
Оффер: В какой-то момент количество переходит в качество. Тебе говорят «Да».

3. Экономика

Вот тут включается калькулятор.

Кэш: 250к – 300к на руки со старта.
Математика: Ты окупаешь стоимость менторства, курсов и ноутбука с первой зарплаты. Дальше - чистая прибыль.

4. Философия «Платного Университета»

Самый главный секрет этого этапа: Твоя первая работа — это продолжение обучения. Компания платит тебе 300к пока ты учишься, предоставляя:

Доступ к серверам с GPU.
Реальные данные.
Коллег-сеньоров, у которых можно учиться.

Даже если ты проработаешь там всего 3 месяца и не потянешь (худший сценарий) - ты заработаешь почти миллион рублей и получишь строчку в резюме, с которой следующая работа ищется за неделю. Но очень хочу подметить, что на работе мы выполняем минимум то, что от нас требуется, врать и ебланить тут не надо. Тебе дали возможность, так используй её на максимум. Когда обучишься, тогда можно расслабляться, работая 2-3 часа в день и при этом всё равно, закрывая таски, которые тебе сказали.

💎 ЭТАП 3. ОЧЕНЬ ВАЖНЫЙ КАБАН КАБАНЫЧ (1 – 3 года)

То, ради чего всё затевалось. Из DS ты можешь выйти в любую дверь, где крутятся большие бюджеты. Куда идут лютые ебаки, когда перерастают сеньоров:

1️⃣ CTO / Head of AI: Управляешь стратегией и людьми. Говоришь бизнесу, куда тратить миллионы. Доход: 500к – 1млн+

2️⃣ Валютная удалёнка: Работаешь на Штаты или Европу за валюту. Математика везде одна, язык цифр универсален. Доход: $5,000 – $10,000+

3️⃣ Свой продукт / Стартап: Видишь дыру в рынке -> закрываешь боли продуктам -> забираешь всю маржу себе. Доход: Без потолка.

4️⃣ Algotrading/HFT: Пишешь роботов для биржи. Прямая конвертация интеллекта в деньги без посредников. Доход: $8,000 – $30,000+

5️⃣ Многоработничество: Ты настолько преисполнился, что тянешь 2-3 работы одновременно. Благодаря автоматизации и скриптам тратишь на всё те же 8 часов, но лутаешь х3 к рынку. Доход: 600к – 1кк.

6️⃣ Shadow Mode: Тебя нанимают в штат на сеньорскую ставку (400к), а ты отдаешь задачи толковому джуну за 150к. Разницу кладешь в карман, появляясь только на дейликах. Ты не работаешь, ты владеешь активом «своё рабочее место». Доход: Чистый арбитраж, но примерно около 1кк+.

7️⃣ IT-Пенсионер: Вариант для тех, кто прошел игру. Ты берешь одну спокойную работу за свои 450к, настраиваешь процессы и работаешь 2 часа в день. Остальное время - хобби, спорт, семья и кайф. Доход: Стабильные 450к+ и куча свободного времени.

Этот путь открыт, но халявы не будет. Входной билет стоит дорого - это твое время и дисциплина сейчас.

На вебинаре я на молекулы разберу как правильно действовать, чтобы ты не тратил год на изучение мусора, а сразу бил в цель.