"Просчитать будущее" за 10 минут
Основные идеи
- Прогнозная аналитика (ПА) применяется везде: в бизнесе, промышленности, здравоохранении, государственном управлении и охране правопорядка.
- Прогнозный анализ данных позволяет предсказывать просрочку платежей по кредитам, болезни, ДТП и предпочтения покупателей.
- Точный прогноз невозможен, но в любом случае ПА намного точнее, чем простое угадывание и даже мнение эксперта.
- В любой прогнозной модели низкое качество данных ведет к получению ненадежных результатов.
- ПА добывает из данных знания, позволяющие принимать более точные и беспристрастные решения, не ориентируясь на опыт или интуицию.
- В традиционном прогнозировании делаются масштабные прогнозы на большую перспективу, а ПА занимается прогнозированием поведения на уровне отдельных людей.
- Первым применением ПА стал анализ кредитных рейтингов, начатый еще в 1940-х годах.
- Прогностические модели состоят из деревьев решений, которые позволяют выявить тот или иной риск с помощью простых вопросов с ответами “да-нет”.
- Многим потребителям не по душе массовый сбор данных. 25% всех личных профилей на Facebook содержат ложную информацию – так пользователи пытаются обмануть алгоритмы анализа больших данных.
- Чем выше конфиденциальность данных, тем больше их прогностическая ценность.
Краткое содержание
Прогнозирование на основе анализа больших данных
Представим, что настал 2022 год. Применение прогнозной аналитики стало частью жизни. Начать хотя бы с утренней поездки на работу. Вы садитесь в автомобиль, и прогнозная модель считывает биометрическую информацию, проверяя, что вы – это вы. Сервис Spotify подбирает подходящую музыку, ориентируясь на ваши музыкальные предпочтения. Во время поездки ваш “техносекретарь по социальным сетям” зачитывает вам ленты новостей из Facebook, объявления о вакансиях из CareerBuilder и сообщения с сайта знакомств Match.com, которые, по его прогнозам, вас заинтересуют. Сервис Siri подсказывает маршрут и сообщает, где образовались пробки. Стоит вам слишком надолго оторвать взгляд от дороги, и водительское кресло под вами начинает вибрировать, призывая сосредоточиться. При возникновении какой-либо другой опасности – например, приближении автомобиля с невнимательным водителем или появлении ребенка на проезжей части – в машине раздается звуковой сигнал. Вдобавок ко всему этому диагностическая система автомобиля ведет мониторинг работы двигателя и состояния подвески и выдает предупреждение о скорой механической поломке.
“Прибегая к помощи прогнозных аналитиков, организации удерживают детей в школах, обеспечивают приток новых клиентов и предотвращают совершение преступлений””.
Такое взаимодействие человека и автомобиля – самые явные примеры применения ПА. В других случаях прогнозы работают “за кулисами” действия. На покупку этой машины банк выдал вам кредит, потому что у вас хороший кредитный рейтинг. Компания, застраховавшая этот автомобиль, с помощью датчиков собирает для своей прогнозной модели информацию о вашей манере вождения. Сверяясь с моделью, она определяет, сколько для вас будет стоить страховка. Ваши автомобиль и телефон прогнозируют возникновение рисков в области защиты данных и принимают меры к их устранению, а системы прогнозирования в государственных учреждениях тем временем предсказывают такие угрозы, как обрушение мостов.
“Данные представляют собой бесценное собрание опыта, на котором можно учиться””.
Такая картина может показаться научной фантастикой, и тем не менее эти способы применения ПА уже существуют или активно разрабатываются. Поток данных, генерируемых смартфонами, “умными” часами и веб-очками, непрерывно увеличивается. Влияние прогнозной аналитики и больших данных на жизнь постепенно еще больше усилится.
Вездесущность данных
Методы ПА активно применяются в бизнесе, промышленности, здравоохранении, государственном управлении и охране правопорядка. Использование инструментов прогнозирования нередко становится главным фактором успеха. Так, наиболее успешные отделы продаж применяют методы ПА в четыре раза чаще, чем наименее успешные. Популярность ПА стремительно растет. По оценке McKinsey, на рынке труда в США вскоре возникнет дефицит аналитиков, измеряющийся цифрой 140 000 человек. Сегодня перед нашими глазами происходит настоящий “Большой взрыв” в области больших данных – сырья для ПА. Множество устройств фиксируют каждый ваш шаг, будь то заявка на кредит, сообщения в Facebook, посещения врача или покупки на Amazon, и вся эта информация направляется в хранилища данных, размеры которых стремительно растут. Ежесуточно объем данных в мире увеличивается примерно на 2,5 квинтильона байт. Это значит, что у аналитиков имеется колоссальный задел для работы и победителями окажутся компании, умеющие анализировать данные.
Области применения прогнозной аналитики
ПА помогает компаниями искать благоприятные возможности для бизнеса и заблаговременно выявлять риски, связанные, например, с несчастными случаями или кражами. Приведем несколько примеров того, как компании используют ПА:
- Покупательское поведение. Голливудские киностудии анализируют сценарии фильмов, пытаясь предсказать, хорошо ли будут продаваться билеты. Банки и кондитерские фабрики проводят маркетинговые кампании, ориентируясь на недавние покупки своих клиентов. Энергетики прогнозируют спрос на электричество, а Уолл-стрит – стоимость акций.
- Потеря лояльности сотрудников и клиентов. Всегда полезно знать, кто из сотрудников уволится и какие клиенты уйдут к конкурентам. С помощью ПА компании могут контролировать риски, связанные с уходом недовольных сотрудников или покупателей. В Hewlett-Packard для каждого из 300 с лишним тысяч сотрудников оценивается “риск ухода”. Сотовые компании вычисляют, кто из клиентов прекратит пользоваться их услугами. В FedEx научились предсказывать уход клиентов с точностью более 65%. Администрации учебных заведений оценивают, кто из студентов с большой вероятностью может бросить учебу.
- Несчастные случаи и неплатежи по кредитам. Страховые компании анализируют данные, выясняя, кто из водителей, вероятнее всего, попадет в ДТП. Банки и коллекторские агентства рассчитывают, какие заемщики с наибольшей вероятностью окажутся неплатежеспособными, а кто из должников все-таки сумеет расплатиться.
- Болезни. Клиники и компании медицинского страхования все чаще занимаются прогнозированием того, кому из больных потребуется госпитализация, сколько они проведут на больничной койке и как долго проживут. Новейшая диагностика позволяет точно прогнозировать возникновение рака, расстройств психики и даже преждевременные роды.
- Преступления. В Citizens Bank воспользовались ПА для обнаружения поддельных чеков, в результате чего убытки от этого вида мошенничества уменьшились на 20%. Hewlett-Packard сэкономила миллионы долларов, научившись выявлять фиктивные гарантийные претензии. В Чикаго и Мемфисе полиция патрулирует районы, где предполагается всплеск преступности. А налоговые службы с помощью ПА выявляют махинации с налогами.
Могущество несовершенных прогнозов
Прогнозная аналитика – это технология, которая на основе изучения прошлого опыта (то есть данных) позволяет предсказывать будущее поведение людей с целью принятия наиболее оптимальных решений. Она далека от совершенства, и тем не менее результаты ее применения по точности намного превосходят любой другой вид оценки, даже сделанной экспертом. Рассмотрим пример компании, которая обычно проводит прямую почтовую рассылку с откликом 1%. В этой компании решили выяснить с помощью методов ПА, какие потребители с большей вероятностью отреагируют на ее маркетинговые усилия. По результатам анализа были отобраны адресаты с показателем отклика 3%. На первый взгляд, применение ПА завершилось провалом: 97% рекламных писем оказались в мусорной корзине. С другой стороны, эффективность маркетинговой кампании благодаря ПА выросла втрое. Одно из золотых правил ПА гласит: “Малым достигается многое”. По сообщению одной страховой компании, снижение коэффициента убыточности всего на полпроцента в результате применения ПА позволило ей сэкономить около 50 миллионов долларов.
“ПА является ведущим направлением в рамках растущей тенденции по принятию решений, «основанных на данных», опирающихся не на «чутье», а на объективные эмпирические факты””.
До эпохи больших данных руководители принимали решения, опираясь на личный опыт, интуицию и знания. Такая практика оправданна, однако не спасает от разного рода искажений. Данные обеспечивают намного более взвешенный и точный подход к принятию решений. Имея точный прогноз, вы сэкономите деньги, не отправив рекламные сообщения людям, которым они заведомо неинтересны, и не выдадите кредит неплатежеспособному заемщику. Прогнозная аналитика отличается от традиционного прогнозирования, нацеленного на составление общих масштабных прогнозов: она предсказывает поведение отдельных людей. Иными словами, специалисты по прогнозированию пытаются предсказать, кто из кандидатов в президенты победит, например, в штате Огайо, а ПА старается выяснить, кто именно из избирателей в этом штате проголосует за конкретного кандидата.
Вторжение в частную жизнь?
На основе анализа своих данных розничная компания Target научилась определять, кто из покупательниц ждет ребенка. В качестве источника сведений Target использовала собственный онлайн-сервис. Чтобы приобретать товары для новорожденных, будущие мамы регистрируются на сайте Target, указывая при этом предполагаемую дату родов. Поскольку аккаунты на сайте заводят далеко не все покупательницы – будущие матери, компания решила с помощью ПА выявить таких клиентов, рассчитывая предлагать им товары, которые могли бы их заинтересовать. Прогнозную модель в Target построили, объединив данные своего онлайн-сервиса для будущих мам с данными из других источников и проанализировав общие закономерности. Аналитики компании обнаружили, что беременные женщины склонны покупать определенные товары, многие из которых не имеют, казалось бы, никакого отношения к уходу за младенцем. Модель позволила выявить на 30% больше покупательниц, которых потенциально могли бы заинтересовать товары для будущих матерей.
“Гораздо лучше иметь хотя бы смутное представление о том, что произойдет в будущем, чем пребывать в полной неизвестности””.
Специалисты по прогнозированию скажут, что выполненный в Target анализ увенчался несомненным успехом: на основе анализа собственных данных компания увеличила продажи. Но когда история об этом стала известна широкой публике, такая работа с данными подверглась резкой критике. В феврале 2012 года The New York Times Magazineопубликовал статью журналиста Чарльза Дахигга “Как компании узнают ваши секреты”. В ней Дахигг делает вывод, что ПА грубо покушается на неприкосновенность частной жизни, а ее методы позволяют алчным компаниям манипулировать беззащитными потребителями. Дахигг, в частности, описал ситуацию, когда отец узнал о беременности дочери-подростка, изучив рекламные материалы, присланные ей из магазина Target. Этот случай вошел и в ставшую бестселлером книгу Дахигга “Сила привычки”. После этого в СМИ поднялась буря негодования по поводу негативной стороны ПА, хотя Дахигг в своей книге ничего не упоминает о том, что Target предоставила сведения об этой анонимной девочке-подростке третьим сторонам. Реакция СМИ неудивительна: когда при анализе данных затрагиваются такие интимные вопросы, как беременность, сразу возникают опасения, связанные с защитой конфиденциальности. Вместе с тем чем выше конфиденциальность данных, тем больше их прогностическая ценность.
“Ряд факторов будет способствовать еще более активному развитию этой тенденции: интенсификация накопления данных, появление все более мощных компьютеров, развитие аналитической науки и более широкая осведомленность о прогнозных технологиях””.
Результаты применения ПА действительно могут поставить человека в неловкую ситуацию. Так, если вы недавно покупали в аптеке средство от вздутия живота, то при следующем посещении вам могут предложить купон со скидкой на лекарство от метеоризма. Потребителям не нравится такого рода сбор данных. Об этом свидетельствует хотя бы такой факт: 25% всех личных профилей на Facebook содержат ложную информацию – так пользователи пытаются обмануть алгоритмы анализа больших данных.
Обучение на исходной информации
Прогнозная аналитика опирается на алгоритмы машинного обучения. Составление прогнозных моделей начинается со сбора “обучающих данных” – исходной информации (например, списка будущих мам на сайте Target и купленных ими товаров), на которой модель обучается предсказывать поведение в будущем. По мере добавления новых данных модели учатся выявлять причинно-следственные связи. Но при этом какой бы хорошей ни была модель, ввод в нее некачественных данных даст некачественные результаты.
“Микрориски имеют значение. Оставленные без контроля, они способны нарастать, как снежный ком. Лучший метод борьбы с ними – научиться прогнозировать””.
Какие сведения, к примеру, собирала Hewlett-Packard для оценки сотрудников по шкале “риска ухода”? Были проанализированы данные за два года о заработной плате, аттестации, выданных сотрудникам заданиях и о том, кто именно уволился за этот период. Руководство HP решило выяснить заранее, какие сотрудники, вероятнее всего, уйдут. С точки зрения работодателя такое применение анализа данных полностью оправданно: оно дает возможность подготовиться к уходу сотрудника или принять меры к удержанию ценных кадров. Однако самим сотрудникам подобный рейтинг едва ли придется по душе. Что если лояльному работнику по какой-либо причине припишут высокий “риск ухода”? В HP прекрасно понимают, что составление рейтинга лояльности – дело деликатное, поэтому компания придерживается “политики предельной осторожности”: доступ к отчетам имеют лишь несколько руководителей, сотрудники перечислены в них не под своими именами, а под номерами. Было установлено, что долгий стаж работы в HP коррелирует с высокой зарплатой и высокой частотой ротации должностей. Но при этом частые продвижения по службе, например, почти никак не отразились на лояльности работников из отдела расчетов вознаграждения менеджеров по продажам. Даже наоборот: те работники, которых чаще других повышают, уволятся с большей вероятностью – видимо, протестуя против слишком незначительного роста зарплаты. Оценка сотрудников по шкале “риска ухода” позволила HP сэкономить около 300 миллионов долларов за счет снижения текучести кадров.
Кредитные рейтинги
Впервые кредитные рейтинги начали составлять в начале 1940-х годов – собственно, благодаря им и утвердилась концепция прогнозной аналитики. Когда стало ясно, что кредитные рейтинги действительно помогают снижать риски потребительского кредитования, банки стали составлять их для всего портфеля кредитов. Так, в 1996 году, после серии слияний, банк Chase получил в свое распоряжение огромный кредитный портфель, состоявший из миллионов ипотечных кредитов. Для управления ими в Chase разработали концепцию “микрориска” и “макрориска”. Каждый кредит по отдельности – это микрориск. Просрочка с оплатой или досрочное погашение отдельного кредита никак не отразятся на таком огромном банке. Однако если проблемными окажется большое количество мелких кредитов, то возникнет макрориск, который создаст реальную угрозу для прибыльности банка.
Деревья решений
Прогнозные модели состоят из деревьев решений, позволяющих выявить риск с помощью последовательности простых вопросов, рассчитанных на ответ “да-нет”. Так, в Chase анализировался риск досрочного погашения кредитов, из-за которого банк меньше зарабатывает на процентах. Выяснилось, что 19,2% заемщиков, процентная ставка по кредиту у которых была выше 7,94%, с большой вероятностью погашали его досрочно, тогда как при ставке ниже 7,94% риск досрочного погашения составлял всего 3,8%. Аналитики Chase начали строить дерево решений с вопроса: “Процентная ставка: меньше 7,94%?” После ответа на этот вопрос следовал вопрос о годовом доходе заемщика, за ним – вопрос о сумме кредита. Чем больше данных используется для построения дерева решений, тем точнее выводы. Например, специалисты Chase пришли к выводу, что если сумма ипотеки находится в диапазоне между 67 750 и 182 926 долларами, то заемщик вернет кредит досрочно в 25,6% случаев. Деревья решений “просты, элегантны и точны” и “почти не требуют математики”. Данные для них не обязательно должны иметь количественный вид (как в случае с суммами кредитов и процентными ставками). Однако нужно иметь в виду, что по достижении определенного предела отдача от дерева решений перестает расти. Точность результатов повышается очень мало, но при этом сложность структуры “дерева” резко возрастает.