July 24, 2020

В Счетной палате изучают инструменты анализа больших данных

Начались практические занятия по работе с клиент-серверной платформой анализа данных PolyAnalyst, недавно развернутой в Счетной палате. Занятия под руководством разработчиков платформы проходят два раза в неделю в дистанционном режиме и продлятся примерно полтора месяца. По завершении занятий слушатели смогут самостоятельно решать задачи анализа данных при помощи одного из лучших современных инструментов в области Data Mining и Data Analysis.

О критериях выбора платформы, которыми руководствовались специалисты Счетной палаты, рассказал директор Департамента цифровой трансформации Михаил Петров:

— PolyAnalyst считается одним из лучших средств аналитики данных, он получил широкое распространение во всем мире. Среди пользователей платформы — множество крупнейших мировых корпораций. При том, что это полностью российская разработка, начатая в МГУ четверть века назад! Платформа полностью ориентирована на пользователей нетехнических, не владеющих всеми компьютерными премудростями. Это важнейший фактор для нас, поскольку среди сотрудников Счетной палаты найдется не так много людей, способных и желающих заниматься программированием. А научиться анализировать большие данные с помощью графического интерфейса может практически любой работник контрольно-счетной отрасли. PolyAnalyst ориентирован именно на такую целевую аудиторию. Экспертная группа пользователей опробовала продукт в деле – и он понравился. Поэтому мы выбрали PolyAnalyst в качестве одного из базовых инструментов работы с данными, развернули его на серверах Счетной палаты и приступили к обучению сотрудников использованию возможностей платформы.

О том, как будут проходить занятия, рассказал заместитель директора Департамента цифровой трансформации Александр Шпирак:

— Мы набрали учебную группу из 32 человек. В нее по собственному желанию вошли представители Цифрового актива Счетной палаты — инспекторского состава, Департамента исследований и методологии, Департамента внешних коммуникаций, Федерального казенного учреждения «Центр экспертно-аналитических и информационных технологий Счетной палаты Российской Федерации» (ФКУ «ЦЭАИТ СП»), — а также Центра перспективных управленческих решений (ЦПУР). Занятия проходят вечером, два раза в неделю, по вторникам и четвергам, каждое продолжается примерно полтора часа. Всего запланировано 12 занятий, половина которых посвящена методам анализа числовых данных, другая половина — анализу текстовой информации. Курс обучения базовым возможностям PolyAnalyst займет полтора месяца и завершится в сентябре. А в октябре мы планируем продолжить обучение, заняться освоением глубоких и тонких возможностей платформы анализа данных. Ведется видеозапись всех занятий, и в дальнейшем мы дадим к ней доступ всем желающим сотрудникам Счетной палаты.

Подробнее о том, какие возможности предоставляет PolyAnalyst пользователю, рассказал ведущий эксперт ФКУ «ЦЭАИТ СП» Роман Некрасов. Он выделил три главных свойства аналитической платформы:

— Во-первых, PolyAnalyst — это прежде всего инструмент текстовой аналитики. Он позволяет, по сути дела, дать вторую жизнь сырым, неструктурированным текстовым данным, которые в огромном количестве накапливаются за годы работы контрольно-счетных органов. Из этих данных можно «выкопать» (отсюда термин Data Mining) настоящие жемчужины нетривиальных выводов и неожиданных интерпретаций. Анализ численных данных в PolyAnalyst тоже реализован прекрасно, но все же главная «фишка» платформы — аналитика текстов.

Во-вторых, PolyAnalyst — это графический интерфейс. Хотя в платформу и встроены интерпретаторы языков программирования Python и R, так что можно использовать коды на этих языках. Но основная работа делается в графическом интерфейсе при помощи мыши.

И, наконец, в-третьих, PolyAnalyst содержит свой собственный оригинальный метаязык анализа текстов. Это не язык программирования, он не требует профессионального обучения. Но метаязык позволяет строить запросы и извлекать сущности из больших текстовых данных. Примеры сущностей: персональные данные, географические объекты, государственные учреждения... PolyAnalyst использует десятки словарей и морфологических баз для распознавания синонимов, синтаксических связей, близких понятий. В результате одним кликом мыши можно извлечь из огромного массива отчетов всю информацию, относящуюся, например, к финансовым затратам на борьбу с коронавирусной инфекцией в образовательных учреждениях конкретного региона. При этом данные, с которыми работает платформа, могут быть загружены в нее практически в любом формате: рабочие файлы любых офисных приложений, PDF-файлы, сканы бумажных документов, фотоархивы, даже архивы почты Outlook.

Департамент цифровой трансформации подчеркнул, что владение инструментальными средствами PolyAnalyst, его метаязыком запросов — не только возможность решать повседневные практические задачи направлений деятельности Счетной палаты Российской Федерации, но и полезный пункт служебного резюме любого специалиста.

Текст: Департамент цифровой трансформации