Data Science
January 7, 2022

7 проектов в Data Science, которые сделают ваше резюме запоминающимся

Проекты в области Data Science, которые позволят вам получить работу мечты.

Источник изображения

Сфера Data Science является сейчас крайне популярной, и самый лучший способ доказать свой профессионализм в этой области — создать собственные проекты.

В этой статье мы рассмотрим 7 Data Science-проектов, выполнение которых выделит ваше резюме среди других.

1. Проект по регрессии

Во-первых, стоит выполнить проект, в основе которого лежит регрессия.

Регрессия — это процесс оценки взаимосвязи между двумя переменными. Она используется, когда необходимо выяснить, как изменение одной переменной влияет на изменение другой. Это делает регрессию очень важным инструментом в работе дата-сайентистов.

Для создания проекта на основе регрессии выберите интересный вам датасет и попробуйте определить отношения между различными переменными.

К примеру, можно найти взаимозависимость:

  • роста и веса;
  • дохода и уровня образования;
  • политических предпочтений и возраста;
  • среднего балла и оценок за итоговые экзамены у старшеклассников.

Выполнение любого из этих проектов не займёт много времени и даст вам ясное представление о том, как работает регрессия.


2. Проект по классификации

Выполнение проекта по классификации позволит понять, как использовать алгоритмы машинного обучения для распределения данных по заранее подготовленным категориям.

Дата-сайентисту важно знать о классификации, поскольку она имеет множество применений: к примеру, классификация используется в распознавании изображений и тегировании документов.

На различные категории можно разбивать:

  • изображения (изображения животных — на категории "Млекопитающие", "Птицы", "Рептилии" и т. д.);
  • документы (статьи из The New York Times — на категории "Политика", "Бизнес", "Спорт" и т. д.);
  • электронные письма (категории "Спам" и "Не спам");
  • посты в блоге (посты из популярных блогов — на категории "Положительные" и "Отрицательные").

3. Проект по кластеризации

Кластеризация — это алгоритм обучения без учителя, который позволяет группировать данные на основе их свойств.

Такой проект поможет вам понять, как определять кластеры в датасете и как использовать алгоритмы кластеризации для группировки данных по сегментам или категориям, что облегчает пользователям задачу восприятия больших наборов данных.

Кластеризация много где применяется (от маркетинга до выявления случаев мошенничества), поэтому дата-сайентисту также важно быть с ней знакомым.

Можно кластеризовать:

  • твиты по темам (например, чтобы понять отношение общества к какому-либо вопросу или отследить распространение информации в Twitter);
  • фильмы или телепередачи по жанрам (кластеризовать данные в датасете IMDB, чтобы найти новые поджанры, похожие на ваши любые жанры, но не идентичные им — например, "Романтическая комедия" и "Драматическая комедия");
  • товары по типам, например "Средство для стирки" vs. "Дезодорант" (для этого данные можно кластеризовать по свойствам "Бренд", "Размер", "Цвет" и т. д.);
  • клиентов на сегменты для таргетинговых рекламных кампаний (кластеризация по истории покупок или демографическим данным).

4. Проект по анализу эмоциональной окраски текста

Анализ эмоциональной окраски предполагает идентификацию и измерение выраженного в тексте эмоционального настроя.

Такой анализ может пригодиться дата-сайентисту, когда необходимо исследовать обратную связь от клиентов, отзывы на товары и даже тренды на рынке ценных бумаг.

Вот несколько примеров проектов по анализу эмоциональной окраски текста:

  • Анализ обратной связи от клиентов для определения её позитивной или негативной тональности (определить наиболее часто встречающиеся жалобы и похвалы в отзывах на новый товар).
  • Анализ данных в Twitter для понимания изменения тональности с течением времени (отслеживать изменения тональности вокруг определённой темы, например, вокруг выборов президента, в Twitter за недели или месяцы).
  • Разделение рецензий на фильмы на положительные и отрицательные (использовать алгоритм классификации текста для разделения рецензий на сайте Rotten Tomatoes на положительные и отрицательные).
  • Анализ тональности отзывов о вашей компании и о компаниях-конкурентах (исследовать отзывы на товар на различных площадках и определять, как тональность изменяется с течением времени).

5. Проект по рекомендательным системам

Такие системы используются для предоставления индивидуальных рекомендаций товаров или услуг.

Рекомендательные системы помогают бизнесу создавать персонализированные рекламные кампании и повышать уровень вовлечённости клиентов.

В качестве тренировочного проекта можно создать рекомендательную систему по:

  • фильмам (построить алгоритм, который будет рекомендовать пользователю новые фильмы на основе выставленных оценок за уже просмотренные);
  • товарам на Amazon (это можно сделать, например, с помощью метода чередующихся наименьших квадратов, или ALS);
  • товарам интернет-магазина компании (построить ассоциации между разными товарами, чтобы рекомендовать товары из одной категории — "Если вам понравился данный товар, вам также могут понравиться...");
  • путешествиям (по данным о геолокации рекомендовать мероприятия или рестораны).

6. Проект по NLP

Обработка естественного языка (Natural Language Processing, NLP) — это процесс понимания и извлечения информации из текстовых данных.

Такой проект позволит вам познакомиться с основами NLP, а также понять, как извлекать данные из текста.

NLP используется для анализа обратной связи, отзывов на товары и даже юридических документов.

Примеры проектов, которые вы можете выполнить:

  • Анализ обратной связи от клиентов, чтобы понять, как они описывают товар или услугу своими словами (содержит ли текст положительные или отрицательные ключевые слова).
  • Извлечение информации из юридических документов (например, выделение основных положений договора).
  • Извлечение информации из описания товаров на Amazon (например, выделение свойств и преимуществ товара).
  • Извлечение информации из отзывов о вашей компании и компаниях-конкурентах в социальных сетях.

7. Проект по искусственным нейронным сетям

Искусственная нейронная сеть (Artificial Neural Network, ANN) — это вид алгоритма машинного обучения, функционирование которого сходно с функционированием мозга.

Нейронная сеть состоит из взаимосвязанных нейронов, которые используются для выучивания и распознавания паттернов в данных. ANN часто используется для таких задач, как распознавание изображения или обработка естественного языка.

Есть множество видов нейросетей, поэтому вам необходимо выбрать подходящий для вашей задачи и датасета.

Ваш проект может предполагать построение или обучение нейронной сети для:

  • распознавания цифр, написанных от руки;
  • прогнозирования цен на рынке ценных бумаг;
  • разделения изображений на категории (например, "Собака" или "Кошка");
  • распознавания языка документа.

Мы перечислили 7 проектов, которые позволят вам "прокачать" ваше резюме и выгодно выделиться среди других соискателей.

Чему бы ни были посвящены ваши проекты (построению нейросети, обучению NLP-алгоритма, анализу обратной связи от клиентов или отзывов на товары и т. д.), они способны отразить многообразие ваших умений в сфере Data Science.

Перевод статьи "7 Data Science Projects You Should Do to Make Your Resume Stand Out", Andrew Lombarti