Data Science - что это и для чего?
Пример достижений Data Science - роботы, которые никогда не падают.
Так что же это такое - Data Science?
Самая понятная формулировка, которую можно найти в интернет, гласит:
Data Science — это наука о методах анализа данных и извлечения из них ценной информации, знаний.
Чуть менее понятная, но тоже вполне правильная:
Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе.
На самом деле, в академическом смысле науки Data Science нет. Это такое условное название компота, в который входят несколько "настоящих" наук и еще множество слов, для непосвященных таких же непонятых, как и сам Data Science.
Что же это за "настоящие" науки входят в Data Science?
Во-первых, математика. А прежде всего такие разделы, как математическая статистика, теория вероятностей и смежные.
Во-вторых, Compter Science. Под этим очередным непонятным термином скрывается информатика. Но не те уроки, что были в школе, а в более широком смысле: программирование, "железо", база данных, методы как все это заставить работать.
В-третьих, это наука о мышлении. Еще одно малопонятное для посторонних выражение - Cognitive Science. Вкратце скажу, что благодаря этой науке люди научились понимать и имитировать работу мозга.
Выше писал, что помимо классических наук под Data Science подразумевается еще много непонятных терминов. Это data mining, data visualisation, machine learning, и многое другое. О них поговорим в отдельных статьях.
Сделаю вид что понял(а). И зачем же это нужно?
О, сейчас где только не используются достижения Data Science!
Например, в банковском деле. Именно благодаря Data Science вам отказывают в кредите (или наоборот) буквально за 1 минуту. Умная машина получает от вас информацию - возраст, доход, семейное положение и т.д. И тут же подсчитывает вероятность, что вы не будете отдавать кредит. Если она высокая - вам вежливо откажут, если низкая - одобрят. Примерно так же происходит кредитование предприятий, ввод новых банковских тарифов (вклады, банковские карточки) - все тщательно просчитывается.
В страховании теперь можно рассчитать вероятность того, что клиент разобьет свою машину и страховой придется отстегивать деньги на ее ремонт. Это и раньше делалось, с помощью математической статистики. Но теперь точность таких расчетов просто поражает.
А вот примеры, которые еще лет 10-20 назад казались фантастикой:
- распознавние изображений (ваши штрафы за превышение скорости, сфотографированные камерами, приходят благодаря Data Science);
- предсказания в самых разных областях: ваших покупок в магазине - на основе вашей предыдущей истории покупок, еще не проявившихся болезней - по набору анализов и обследований, результатов спортивных матчей, выборов, эконмических показателей;
- автоматическое регулирование светофоров в городах так, чтобы пробки не появлялись, или рассасывались как можно быстрее (к сожалению, это не про РФ);
- распознавание речи, переводы - пока еще с очень сильными ограничениями, но прогресс есть;
- сочинение картин, стихов, музыки компьютером, с помощью так называемых нейросетей (об этом будет отдельный пост);
- беспилотные автомобили, ездящие по настоящим дорогам куда лучше, чем классический homo vodyatlus;
- и многое другое.
Круто! А чего ж раньше тогда не пользовались?
Если вкратце - раньше банально не было таких мощных и дешевых компьютеров. Именно благодаря постоянному росту мощности "железа" появились методы и инструменты (то есть программы), позволяющие быстро и легко делать все описанное выше. Раньше же все это было доступно только очень крупным околовоенным организациям, да и то в гораздо более примитивном виде.