Как стать Data Scientist в финансах?
Data Science – наука молодая, но очень амбициозная и перспективная. Научившись эффективно обрабатывать данные, она вывела на новый уровень все сферы человеческой деятельности.
Грамотный data scientist может принести компании огромную прибыль, поэтому он необычайно востребован на рынке труда.
Активный спрос и острый дефицит кадров определили привлекательный уровень зарплат. Получается, что быть аналитиком данных очень выгодно.
Особенно большая потребность в этих специалистах наблюдается в data-зависимых отраслях, например, в финансах. Если вы чувствуете, что анализ финансовой информации – это ваше призвание, смело ступайте на тернистый путь Data Science!
Эта статья по шагам проведет вас в мир аналитики, больших данных и умных машин.
Шаг 1. Найдите в себе силы
Наука о данных в настоящее время молода, полна энергии и безгранична. В ней сочетаются фундаментальные научные подходы и современные технологии.
Хороший специалист должен во всем этом разбираться, так что учиться будет трудно. Чтобы пройти этот путь, вы должны по-настоящему любить данные и работу с ними.
Успешный data scientist — это человек с особым образом мышления. Он любит решать сложные задачи — а других в этой области и не бывает — и не останавливается перед трудностями. По большому счету, именно эти качества отличают хороших специалистов от посредственных.
А еще вам придется много общаться с коллегами и руководителями. Сначала нужно будет понять задачу, затем разобраться, как ее решить, и наконец лучшим образом представить результаты.
Если вы к этому готовы, замечательно! Делайте следующий шаг.
Шаг 2. Разберитесь в концепциях
Насколько велики «большие» данные (big data), как и зачем их майнить (data mining), при чем здесь нейронные сети (neural network), и чему именно учатся машины (machine learning)?
Data Science полна непонятных терминов, в которых вам придется разобраться. Составьте общее представление с помощью книг и видео-уроков для начинающих.
Очень важно понимать, какие основные этапы обработки должны пройти данные, чтобы их можно было использовать:
- сбор, очистка и предварительная подготовка;
- статистический анализ;
- обнаружение закономерностей, прогнозирование;
- визуализация.
Шаг 3. Постройте фундамент
Анализ данных совершенно немыслим без отличных математических и статистических навыков. Даже великолепное владение инструментами не спасет, если вы не понимаете самой сути аналитики.
Для работы вам точно потребуются знания в области статистического анализа, линейной алгебры, теории вероятностей, многомерного исчисления.
- Матричный анализ и линейная алгебра, Е. Е. Тыртышников;
- Курс линейной алгебры, Coursera;
- Теория вероятностей, Н. И. Чернова;
- Теория вероятностей для начинающих, Coursera;
- Математическая статистика, Н. И. Чернова;
- Курс по основам статистики, Stepik.
И конечно, вы должны отлично разбираться в вашей предметной области — финансах. Нельзя решить задачу, которую не понимаешь. Уделите время изучению основных финансовых статистических моделей. Также будет полезно углубиться в анализ временных рядов, так как большинство данных в этой сфере представлено именно в таком виде.
Шаг 4. Научитесь пользоваться инструментами
Для успешной работы вам нужно овладеть рядом инструментов, которые помогают:
- собирать данные из разных источников;
- извлекать из них полезную информацию;
- структурировать ее;
- проводить статистический анализ;
- находить закономерности и связи;
- визуализировать результаты.
Ниже перечислены основные полезные навыки для каждого этапа.
1.Извлечение и предварительная обработка
Большая часть необходимой для работы информации хранится в SQL-хранилищах. Чтобы извлечь ее оттуда, нужно владеть языком запросов к базе. Важно также понимать основы реляционной алгебры, чтобы уже на этом этапе придать данным определенную структуру.
Для работы с большими данными используется Hadoop, позволяющий распределять вычисления на сотни узлов. Полезно будет ознакомиться с Hadoop-экосистемой, моделью MapReduce и сопутствующими технологиями вроде Apache Spark и Apache Flink.
Эти инструменты особенно важны, так как в финансовой сфере работа ведется со многими потоками данных.
Иногда с неструктурированными данными удобнее всего работать через UNIX-консоль без зависимости от базы. Поэтому специалисту полезно знать некоторые команды.
Самый популярный язык программирования для Data Science – это дружелюбный Python. На самом деле, он может использоваться на всех этапах обработки данных, так как имеет великолепные средства анализа и инструменты визуализации.
Для эффективной работы вам потребуются базовые знания языка, а также его библиотеки, в которых уже реализована большая часть необходимых алгоритмов, например, pandas.
Если вы решите сосредоточиться на первом этапе обработки данных, обратите внимание на такие прогрессивные направления, как распознавание объектов и обработка естественного языка.
2.Анализ
Язык программирования R – основной конкурент Python в области анализа данных. Он больше популярен в науке. Библиотеки обоих языков имеют богатейший набор методов для обработки данных.
SAS – еще одна альтернатива. Он чаще всего применяется в задачах прогнозирования. Если не знаете, какой язык выбрать, взгляните сюда.
Пожалуй, самая интересная часть работы data-аналитика – это построение моделей машинного обучения, которые способны автоматически обрабатывать, сопоставлять данные и прогнозировать будущие события.
Чтобы стать профи в этом деле, разберитесь с python-библиотекой scikit-learn. Она имеет понятный интерфейс и позволяет тонко настраивать модели.
Для прогнозирования применяются алгоритмы нейронных сетей.
3. Представление результатов
Нельзя недооценивать этап визуализации данных.
Важная задача аналитика – донести результаты своей работы до тех, кто будет непосредственно воплощать их в жизнь.
Это значит, что представление должно быть максимально ясным и четким, исключающим всякую двусмысленность.
Для визуализации создано множество удобных инструментов, с которыми вам следует познакомиться, например:
Владение этими инструментами даст вам преимущество при устройстве на работу. Также широко применяется старый добрый Excel.
Шаг 5. Практикуйтесь
Изучив основы, немедленно принимайтесь за практическую работу. Работодатели не станут подпускать к своим ценным данным человека, не имеющего реального опыта.
Вы можете самостоятельно придумывать себе задачи, пользуясь готовыми наборами данных, или отправиться на Kaggle и принять участие в соревновании.
Отличные датасеты можно найти здесь и здесь.
А вот замечательные примеры готовых работ:
Выкладывайте свои решения на github, обсуждайте их на форумах, улучшайте. Все время усложняйте задачи: берите больше данных, делайте лучше, быстрее, эффективнее.
Великолепной возможностью для развития являются стажировки в компаниях, на которых вы можете поработать с реальными задачами.
Шаг 6. Определитесь со сферой интересов
Теперь, после первого погружения в Data Science, окиньте взглядом всю эту сферу и определитесь, что вам действительно интересно.
Возможно, ваше призвание — машинное обучение и алгоритмическая торговля, или вы виртуозно отбираете ценную информацию из грязных данных. А может быть, ваша дорога ведет в business intelligence и анализ финансовых отчетов.
Это непростой выбор, и вам, возможно, придется сделать несколько попыток. А для начала просто ознакомьтесь с базовыми ролями Data Science и ее основными применениями в финансах.
Есть две основополагающие технологии работы с данными:
- ETL (Extract/Transform/Load). Это технические специалисты: инженеры и архитекторы данных, администраторы баз данных. Сфера их ответственности — хранение, извлечение и преобразование информации. Они имеют дело прежде всего с формой.
- DAD (Discover/Access/Distill). А это аналитики, для которых важнее содержание. Они ищут и обрабатывают данные разнообразными способами, выявляют взаимосвязи и делают прогнозы.
В отдельную группу можно выделить бизнес-аналитиков. Они в работе больше полагаются на абсолютно точную информацию прошлого: отчеты, ключевые показатели эффективности (KPI). Их задача — ретроспективный анализ исторических данных и бизнес-тенденций.
Наука о данных в финансах в некоторых отраслях:
- кредитование — определение платежеспособности заемщика;
- анализ финансовых рисков;
- прогнозирование движения рынка;
- алгоритмическая торговля;
- обнаружение мошеннических операций.
Посмотрите, как наука о данных применяется в Сбербанке.
Шаг 7. Получите сертификат
Вы почти достигли своей цели, осталось лишь подтвердить ваши умения официальным сертификатом, который можно будет предъявить работодателю.
Существует множество курсов и программ аккредитации. Главное, подобрать подходящую именно вам. Будьте аккуратны, это очень модная сфера, здесь много шумихи и некачественных услуг.
Шаг 8. Найдите работу
- Для примера посмотрите, как проводят реальные собеседования.
- Проверьте свои знания.
- Вспомните, какой путь вы уже прошли.