Machine Learning 101. Part 1

"AI is the new electricity" - Andrew Ng

В последние 10 лет интерес к машинному обучению вырос в несколько раз и сейчас очень много хайпа крутится вокруг него, но не все понимают что такое машинное обучение и зачастую все модели машинного обучения называются Искусственным Интеллектом.

Давайте сначала поговорим про то что такое машинное обучение. Машинное обучение - это область искусственного интеллекта, которая использует алгоритмы для обучения на основе данных и составления прогнозов не будучи явно запрограммированными (without being explicitly programmed). Оно стало мощным инструментом для предприятий, позволяющим автоматизировать задачи и получать глубокие знания из данных.

Существует три основных типа машинного обучения: Supervised learning, Unsupervised learning, and Reinforcement learning. Supervised learning - обучение с учителем использует данные которые заранее были подготовлены по типу "задача - решение" (размеченные данные - labeled data), unsupervised learning - обучение без учителя использует неразмеченные данные - unlabeled data, reinforcement learning - обучение с подкреплением использует технику "победа - награда". Каждый тип машинного обучения имеет свои преимущества и недостатки и может быть использован в различных сценариях.

Сегодня поговорим про "Обучение с учителем".

Как мы говорили ранее процесс обучения с учителем предполагает предоставление алгоритму данных и меток, которые используются для обучения алгоритма и составления прогнозов. Метки предоставляют алгоритму информацию, необходимую ему для того, чтобы научиться классифицировать данные и делать точные прогнозы.

Существует два основных типа обучения с учителем: классификация и регрессия. Алгоритмы классификации используются для прогнозирования дискретных значений, например, является ли письмо спамом или нет. Алгоритмы регрессии используются для прогнозирования непрерывных величин, таких как цена акции. Алгоритмы обучения с учителем также можно разделить на три категории: линейные, нелинейные и ансамблевые. Линейные алгоритмы являются самыми простыми и наиболее часто используемыми, в то время как нелинейные алгоритмы более сложные и могут использоваться для решения более сложных задач. Алгоритмы ансамбля объединяют несколько алгоритмов для достижения лучшей производительности.

Классификация - это метод обучения с учителем, используемый для отнесения точек данных к одному из нескольких заранее определенных классов. Наиболее распространенные алгоритмы классификации включают логистическую регрессию, деревья решений и метод опорных векторов (SVM). Каждый алгоритм имеет свои сильные и слабые стороны и может использоваться для решения различных типов задач классификации. Например, логистическая регрессия лучше подходит для задач с небольшим количеством признаков, а SVM - для задач с большим количеством признаков.

Пример логистической регрессий

Пример дерева решений

Пример метода опорных векторов

Ограничение классификации

Модели классификации точны лишь настолько, насколько точны данные, на которых они обучены. Если данные неполные или содержат ошибки, модель не сможет точно классифицировать точки данных. Кроме того, модели классификации на основе контролируемого обучения могут быть вычислительно дорогими и требовать значительных вычислительных мощностей. Еще одним ограничением классификации на основе контролируемого обучения является ее неспособность уловить сложные взаимосвязи между признаками. Например, модель классификации с контролируемым обучением может оказаться неспособной точно классифицировать точки данных, если связь между признаками нелинейна или если точки данных принадлежат более чем к двум классам.

Алгоритмы регрессии используют различные методы, такие как линейная регрессия, логистическая регрессия и деревья решений, для создания моделей, которые могут точно предсказывать результаты. Они часто используются в продуктовой аналитике, где помогают выявить тенденции и закономерности в данных. Они также могут использоваться для выявления взаимосвязей между различными переменными и для составления прогнозов относительно будущих событий.

Когда регрессия рисует прямую линию, её называют линейной, когда кривую — логистической регрессией

Примеры линейной и логистической(полиномиальной) регрессии

Применение регрессии: Прогнозирование цены дома на основе его размера, количества спален, количества ванных комнат и т.д.

Ограничение регрессии

Она опирается на маркированные данные, которые в некоторых случаях бывает трудно получить. Кроме того, точность прогнозов, сделанных моделью, зависит от качества данных, использованных для ее создания. Если данные неполные или неточные, модель не сможет сделать точные прогнозы. Кроме того, это трудоемкий процесс, поскольку он требует анализа и обработки большого количества данных. Это может стать проблемой для предприятий и организаций с ограниченными ресурсами.

Заключение:

Supervised learning - обучение с учителем учится, получая "правильный ответ"

Регрессия - предсказывает число. Бесконечно много возможных выходов

Классификация - предсказывает категории. Небольшое количество возможных выходов