Бесплатные данные — польза из ничего. Ускоритель аналитики в 1*n раз. Как их видеть и о них помнить
Что такое бесплатное? Это то, за что не заплачено. Обычно платят деньгами, но в широком понимании, бесплатно — значит без затрат. Бесплатно = очень энергоэффективно. Затраты энергии и ресурсов — только на сбор готового.
Если поехать в лес и собрать там грибов — это не бесплатно. Затраты на транспортировку туда и обратно, временные и трудовые затраты на поиск и сбор.
А если сделать привал по дороге куда-то и обнаружить целую поляну чистых и достоверно съедобных грибов, да так чтобы за пять минут можно было набрать полную корзину — это бесплатно. То есть на изыскание, получение, не будет потрачено никакой энергии и ресурсов. Энергия будет затрачена только на снятие уже чистого продукта — эти затраты энергии пренебрежимо малы, сравнимы с перекладыванием готового блюда в тарелку.
При решении аналитической задачи очень полезно взглянуть на исходные данные с разных сторон. Сырые данные, которые будут запущены в переработку для очистки и нормализации, могут содержать в себе бесплатные полезные данные — они не целевые, не нужны в решении, но могут открыть несколько новых путей для поиска решения. С помощью дополнительных данных можно существенно снижать диапазоны для поиска, отсекать явно лишние части информации.
Такие полезные бесплатные данные можно извлечь при всестороннем взгляде на исходные или получить без затрат. Все зависит от конкретной задачи и конкретного источника данных.
Примеры извлекаемых бесплатно данных:
- Извлекая список сотрудников, включить в выгрузку табельные номера, даты рождения, должности
- Извлекая список оборудования, включить в выгрузку шифры проекта, на которые оно отнесено, производителей и поставщиков
- Извлекая список командировок, включить в него номера и даты служебных записок о направлении в командировку
- В инвентаризационную опись к каждой позиции включать табельный номер и имя сотрудника
- …
Примеры получаемых бесплатно данных:
- Зная дату рождения сотрудника мы автоматически, бесплатно, узнаем его возраст
- Зная полные имена сотрудников мы получаем первые буквы — ФИО (поразительно!)
- Зная шифр проекта по позиции оборудования мы автоматически получаем знание о системе, к которой относится (или не относится) позиция или группа позиций
- Зная, что бренд «Ромашка scientific valves» производит или не производит этот вид оборудования или приборов, мы уточняем очищенные данные (это часто происходит в контакте с технарями/разработчиками/производственниками/проектировщиками. Контакты с профильными специалистами незаменимы и прибавляют очень много пользы в аналитической работе)
- …
Любой пример кажется очевидным и естественным, но важно вырабатывать привычку видеть эту прибавочную пользу бесплатных данных и видеть сами эти данные.
польза(∑1i=n) > польза 1 + польза 2 … + польза n
Общая польза — выше, чем сумма пользы всех отдельных позиций. Нужно разместиться над имеющимися данными и посмотреть сверху. Общей пользы еще больше от порядка, унификации номенклатуры, системы нумерации и связей с данными других подразделений, то есть от системности.
Обычно профильный специалист, смотрящий с теплом и очень глубоким пониманием на каждую отдельную строчку «своей таблицы», может не увидеть очевиднейших закономерностей, и подавно если они будут существовать в связке с другим подразделением. Если не смотреть на «свою таблицу» как на данные, то можно годами не понимать, что позиция или группа могла быть идентифицирована по наличию типового кода или с применением двух-трех фильтров, а задача по извлечению этих позиций регулярная и каждый раз выполняется вручную.
Регулярные выражения
Например: всегда определенная буквенно-цифровая комбинация вроде AA111AAA — «две буквы+три цифры+три буквы», указывающая на отнесение позиции к основной учетной группе — оборудование, материал, лицензии или сотрудники, может быть найдена в любой позиции с помощью регулярного выражения (RegEx).
На языке регулярных выражений коды AX212DSA, KL515GFS, OP221KKK … будут определяться выражением:
[A-Z]{2}\d{3}[A-Z]{3}
Если коды содержат не постоянное количество, например цифр AX2DSA, KL51GFS, OP221KKK … то и это не проблема для RegEx
[A-Z]{2}\d+[A-Z]{3}
Регулярные выражения (регулярки, Regular expressions, RegEx) — это инструмент невероятной мощи. Функционал регулярных выражений не встроен в excel, но добавляется в него с помощью макросов.
Также, при постоянной потребности в определенном роде сведений, имеет смысл ввести идентификатор в отдельной графе таблицы и перевести знание из сакрального в бесплатное. Сакральное знание существует только в голове одного очень ценного специалиста. Важно, чтобы ценность специалиста была не только в этом знании. Возможно специалист обладает уникальным свойством — умеет присваивать нужные идентификаторы, тогда позиция специалиста никак не страдает.
Понимание нормы
Подход использования полезных данных упирается в способность исполнителя видеть эти данные, а исполнитель, который видит свою работу как данные, будет и относиться к ним соответствующе — ответственно, соблюдая культуру. Это влечет за собой дальнейшее движение к порядку и системности.
И наоборот, если результат работы — хаотичная информация, отсутствует нумерация, отсутствует общий подход к именованию позиций, файлов и папок, расположение информации в структуре таблиц (неизменность граф) не строгое, присутствуют цветовые кодировки задаваемые вручную — как основные маркеры — тогда никаких бесплатных и вспомогательных данных извлечь не получится. Придется постараться, чтобы получить и очистить хотя бы целевые данные.