Сережа, епт, где дашборд?!

Python: подключение к MS SQL с использованием библиотеки SQLAlchemy и аутентификации NTLM

2023-12-29T14:28:17.422Z

Для подключения к MS SQL с использованием библиотеки SQLAlchemy и аутентификации NTLM, вы можете воспользоваться библиотекой pyodbc вместе с sqlalchemy и pyodbc:

from sqlalchemy import create_engine
from sqlalchemy import MetaData, Table

# Укажите свои параметры подключения
server = 'your_server_name'
database = 'your_database_name'
username = 'your_username'
password = 'your_password'

# Создайте строку подключения с использованием NTLM аутентификации
connection_string = f'mssql+pyodbc://{username}:{password}@{server}/{database}?driver=ODBC+Driver+17+for+SQL+Server&authentication=NTLM'

# Создайте движок SQLAlchemy
engine = create_engine(connection_string, echo=True)

# Создайте метаданные SQLAlchemy
metadata = MetaData()

# Пример выполнения SQL-запроса
# Замените 'your_table_name' на имя вашей таблицы
your_table = Table('your_table_name', metadata, autoload_with=engine)

# Ваш SQL-запрос
query = your_table.select()

# Выполнение запроса
result = engine.execute(query)

# Вывод результатов
for row in result:
    print(row)

# Закрытие соединения
engine.dispose()

Обратите внимание, что вы должны заменить 'your_server_name', 'your_database_name', 'your_username', и 'your_password' на свои реальные данные подключения. Также, убедитесь, что у вас установлены библиотеки pyodbc, sqlalchemy и pandas:

pip install pyodbc sqlalchemy pandas

Аунтентификация без логина и пароля

Если вы хотите использовать NTLM аутентификацию без явного указания логина и пароля, вы можете использовать Windows Integrated Authentication. В этом случае, библиотека pyodbc будет использовать учетные данные текущего пользователя Windows. Вот обновленный код:

from sqlalchemy import create_engine
from sqlalchemy import MetaData, Table

# Укажите свои параметры подключения
server = 'your_server_name'
database = 'your_database_name'

# Создайте строку подключения с использованием Windows Integrated Authentication (NTLM)
connection_string = f'mssql+pyodbc://{server}/{database}?driver=ODBC+Driver+17+for+SQL+Server&authentication=NTLM'

# Создайте движок SQLAlchemy
engine = create_engine(connection_string, echo=True)

# Создайте метаданные SQLAlchemy
metadata = MetaData()

# Пример выполнения SQL-запроса
# Замените 'your_table_name' на имя вашей таблицы
your_table = Table('your_table_name', metadata, autoload_with=engine)

# Ваш SQL-запрос
query = your_table.select()

# Выполнение запроса
result = engine.execute(query)

# Вывод результатов
for row in result:
    print(row)

# Закрытие соединения
engine.dispose()

В этом коде логин и пароль не указаны явно в строке подключения. Вместо этого используется Windows Integrated Authentication (NTLM), и библиотека pyodbc использует учетные данные текущего пользователя Windows для аутентификации. Пожалуйста, замените 'your_server_name', 'your_database_name', и 'your_table_name' на свои реальные данные.

Как при помощи Python читать таблицу из MS SQL с помощью chunksize

2023-12-29T13:27:49.247Z

Как при помощи Python читать таблицу из MS SQL состоящую из 20 миллионов строк данных не полностью за один запрос, а с помощью chunksize и писать output в один файл parquet.

Для выполнения этой задачи вы можете использовать библиотеки pandas для работы с данными и pyodbc для подключения к базе данных MS SQL. Вот пример кода, который демонстрирует, как это можно сделать:

Установите необходимые библиотеки:

pip install pandas pyodbc pyarrow

Импортируйте библиотеки в вашем скрипте:

import pandas as pd
import pyodbc

Установите параметры подключения к вашей базе данных MS SQL:

server = 'your_server_name'
database = 'your_database_name'
username = 'your_username'
password = 'your_password'

Установите параметры запроса:

table_name = 'your_table_name'
chunksize = 10000  # Размер блока (chunk) для пошагового чтения данных

Создайте подключение к базе данных и используйте pd.read_sql с параметром chunksize для пошагового чтения данных:

connection_string = f'DRIVER={{SQL Server}};SERVER={server};DATABASE={database};UID={username};PWD={password}'
conn = pyodbc.connect(connection_string)

query = f'SELECT * FROM {table_name}'
chunks = pd.read_sql(query, conn, chunksize=chunksize)

Используйте цикл для пошаговой обработки и записи данных в файл parquet:

output_filename = 'output.parquet'

for i, chunk in enumerate(chunks):
    if i == 0:
        chunk.to_parquet(output_filename, index=False, engine='pyarrow')
    else:
        chunk.to_parquet(output_filename, index=False, engine='pyarrow', mode='a')

Преобразование типов данных при загрузке данных из MS SQL в Pandas DataFrame и сохранение в Parquet

2023-12-29T12:31:18.085Z

Pandas - мощная библиотека для анализа данных в языке программирования Python. Одной из её ключевых особенностей является работа с DataFrame, табличной структурой данных, которая предоставляет удобный интерфейс для манипуляций с данными. В этой статье мы рассмотрим, как произвести преобразование типов данных при загрузке данных из Microsoft SQL Server в Pandas DataFrame и как сохранить данные в формате Parquet с учетом корректных типов данных.

Шаг 1: Установка библиотек

Перед началом работы убедитесь, что у вас установлены необходимые библиотеки. Если их нет, установите их с помощью следующих команд:

pip install pandas
pip install pyodbc
pip install fastparquet

Шаг 2: Подключение к MS SQL и загрузка данных в Pandas DataFrame

Для начала подключимся к базе данных MS SQL Server с использованием библиотеки pyodbc:

import pandas as pd
import pyodbc

# Задайте свои параметры подключения
server = 'your_server'
database = 'your_database'
username = 'your_username'
password = 'your_password'

# Строка подключения
connection_string = f'DRIVER=ODBC Driver 17 for SQL Server;SERVER={server};DATABASE={database};UID={username};PWD={password}'

# Установка соединения
conn = pyodbc.connect(connection_string)

# SQL-запрос
sql_query = 'SELECT * FROM your_table'

# Загрузка данных в DataFrame
df = pd.read_sql(sql_query, conn)

Шаг 3: Преобразование типов данных

После загрузки данных из базы данных MS SQL в DataFrame необходимо убедиться, что типы данных корректны. Для этого воспользуемся методом astype():

# Преобразование типов данных
df['DatetimeColumn'] = pd.to_datetime(df['DatetimeColumn'], format='%Y-%m-%d %H:%M:%S', errors='coerce')
df['DateColumn'] = pd.to_datetime(df['DateColumn'], format='%Y-%m-%d', errors='coerce').dt.date
df['TimeColumn'] = pd.to_datetime(df['TimeColumn'], format='%H:%M:%S', errors='coerce').dt.time
df['IntColumn'] = df['IntColumn'].astype(int)
df['FlagColumn'] = df['FlagColumn'].astype(int)
df['FloatColumn'] = df['FloatColumn'].astype(float)

В приведенном выше коде DatetimeColumn, DateColumn и TimeColumn преобразуются в соответствующие типы данных даты и времени. IntColumn преобразуется в целое число, FlagColumn - в целое число 0 или 1, а FloatColumn - в число с плавающей точкой.

Шаг 4: Сохранение в формате Parquet

Теперь, когда типы данных корректны, можно сохранить данные в формате Parquet с использованием библиотеки fastparquet:

# Задайте путь к файлу Parquet
parquet_path = 'your_file.parquet'

# Сохранение в Parquet
df.to_parquet(parquet_path, index=False)

Теперь у вас есть DataFrame с корректными типами данных, загруженный из MS SQL Server, и сохраненный в формате Parquet.

Этот процесс обеспечивает правильное представление данных и сохраняет целостность типов при последующей загрузке данных в Pandas DataFrame.

Лучшие практики преобразования типов при загрузке данных в pandas

Преобразование типов данных при загрузке данных из CSV в DataFrame важно для обеспечения корректности анализа данных и оптимизации использования памяти. Ниже представлены лучшие практики для преобразования типов данных в Pandas DataFrame при чтении данных из CSV файлов:

Используйте параметр dtype при чтении данных:Параметр dtype позволяет явно указать тип данных для каждого столбца. Это может быть особенно полезно при загрузке больших данных, чтобы избежать автоматического определения типов, которое может быть медленным. Пример:

dtype_dict = {'column1': 'int32', 'column2': 'float64', 'column3': 'str'}
df = pd.read_csv('your_file.csv', dtype=dtype_dict)

Используйте параметр parse_dates для дат:

Если ваши данные содержат столбцы с датами, используйте параметр parse_dates для автоматического преобразования в объекты даты. Пример:

date_columns = ['date_column1', 'date_column2']
df = pd.read_csv('your_file.csv', parse_dates=date_columns)

Обрабатывайте пропущенные значения:

Используйте параметр na_values для указания значений, которые следует считать пропущенными. Это важно, чтобы Pandas правильно обрабатывал пропущенные значения и не превращал их в строки. Пример:

na_values = ['-1', 'NA', 'null']
df = pd.read_csv('your_file.csv', na_values=na_values)

Выбирайте наименьший подходящий тип данных:Выбирайте наименьший подходящий тип данных для каждого столбца, чтобы оптимизировать использование памяти. Например, если столбец содержит целые числа в ограниченном диапазоне, используйте int8 или int16, чтобы сэкономить память.

Оптимизируйте строковые столбцы:Если столбцы содержат ограниченное количество уникальных значений, рассмотрите возможность использования категориальных данных с помощью astype('category'). Это снижает потребление памяти и может ускорить операции с данными.

df['categorical_column'] = df['categorical_column'].astype('category')

Обрабатывайте большие файлы порциями:

При работе с большими CSV-файлами используйте параметр chunksize для чтения данных порциями. Это может быть полезно, если ваши ресурсы по памяти ограничены.

chunk_size = 10000
chunks = pd.read_csv('your_file.csv', chunksize=chunk_size)
for chunk in chunks:
    # Обработка каждой порции данных

Используйте память для чисел с плавающей точкой:

Если столбцы содержат числа с плавающей точкой, рассмотрите возможность использования float32 вместо float64. Это уменьшит потребление памяти в два раза.

df['float_column'] = df['float_column'].astype('float32')

Как обрабатывать отдельно пустые значения для строк, для int, для дат, datetime

При формировании DataFrame из разных типов столбцов в одной команде с использованием read_csv, можно применить более общий подход к обработке пустых значений для разных типов данных. Воспользуемся параметром converters для более гибкого управления преобразованием данных.

Пример:

import pandas as pd

# Задайте путь к вашему CSV файлу
csv_file_path = 'your_file.csv'

# Функция для обработки пустых значений для строк (str)
def process_string(value):
    return '' if value in ('', 'NA', 'null') else value

# Функция для обработки пустых значений для целых чисел (int)
def process_int(value):
    return pd.to_numeric(value, errors='coerce')

# Функция для обработки пустых значений для дат
def process_date(value):
    return pd.to_datetime(value, errors='coerce')

# Функция для обработки пустых значений для datetime
def process_datetime(value):
    return pd.to_datetime(value, errors='coerce')

# Задайте словарь с функциями-обработчиками для каждого столбца
column_processors = {
    'column1': process_string,
    'column2': process_string,
    'column3': process_int,
    'column4': process_int,
    'date_column1': process_date,
    'date_column2': process_date,
    'datetime_column1': process_datetime,
    'datetime_column2': process_datetime,
}

# Чтение CSV с применением обработчиков
df = pd.read_csv(csv_file_path, converters=column_processors)

В данном примере:

Создаются функции-обработчики (process_string, process_int, process_date, process_datetime), каждая из которых принимает значение и возвращает преобразованное значение, обрабатывая пустые значения по своему усмотрению.
Создается словарь column_processors, в котором каждому столбцу сопоставляется соответствующая функция-обработчик.
При чтении CSV используется параметр converters, который применяет соответствующий обработчик для каждого столбца.

10 трендов визуализации данных, которые будут актуальны в 2021 году

2021-02-10T06:59:24.336Z

Источник: https://www.e-xecutive.ru/management/marketing/1993476-10-trendov-vizualizatsii-dannyh-kotorye-budut-aktualny-v-2021-godu

Эти тренды помогут переосмыслить ваши отчеты, планы и презентации, чтобы они стали красивее и доступнее.

В конце года подводят итоги, а в начале года занимаются планированием. И это вполне логично. Я же хотела бы начать год с рассказа о трендах, которые будут задавать тон в визуализации в 2021 году. Как это ни странно, но в бесконечном мире интернета я не нашла ни одной статьи, где были бы собраны все тренды визуализации. Поэтому решила сделать это самостоятельно и поделиться с вами.

Итак, 10 основных трендов визуализации с примерами.

Тренд 1. Минимализм

При разработке графических данных, диаграмм и таблиц важно не перегружать пользователя ненужной информацией. В мире визуализации есть понятие Data-ink ratio (коэффициент полезных чернил). Если вы в своем отчете потратите 75% чернил для украшения и только 25% для отображения полезной информации, то есть большая вероятность, что читатель упустит действительно значимые вещи. Ценность такой визуализации теряется.

Меньше визуального мусора! Убираем все ненужное – сетку, лишние элементы дизайна, оси, если есть подписи данных. На первый план должны выходить данные, а не форма. Все больше диаграмм появляется именно в таком минималистическом стиле. И это прекрасно!

Источник: Росстат

Тренд 2. Простая инфографика для визуализации больших массивов данных

Читатели не будут долго разбираться в графиках, если глядя на них ничего не понятно. Сложная визуализация – это как лонгриды, которые мало, кто читает до конца. Упрощайте анализ информации: разбивайте данные на несколько графиков, подписывайте основные выводы, расставляйте акценты.

Источник: исследования Яндекса

Источник: Reddit

Тренд 3. Неяркие цвета, приглушенная цветовая палитра

Люди устали не только от лишних элементов на диаграммах, но и от ярких цветов. Слишком много вокруг раздражителей и информации. Используйте приглушенные оттенки, если хотите, чтобы на ваши диаграммы было приятно смотреть.

Любовь к пастельным, мягким и неярким цветам в дизайне появилась еще в прошлом году. И этот тренд не намерен сбавлять обороты.

Приглушенные цвета – это оттенки, разбавленные белым или черным цветом. Наглядно эту мысль демонстрирует вот этот пример:

Источник: Biecom

Если вы сомневаетесь в своем чувстве цвета, используйте сервисы для подбора гармоничных палитр (Color Hunt, COLOURLovers, Adobe Color).

Источник: исследования Яндекса

Паллеты Colorhunt

Тренд 4. Упрощение легенды

Данный тренд относится именно к визуализации. Если можете не использовать легенду как отдельный элемент диаграммы – не используйте. Размещайте подписи в непосредственной близости с рядами данных. При этом цвет шрифта подписей должен соответствовать цвету линий.

Посмотрите, как эффективно работает данное правило на линейных графиках ниже. И никаких лишних элементов!

Источник: Ayecapitalist

Источник: Towardsdatascience

Отличное решение – вынести легенду в заголовок, делая акценты цветом:

Источник: Economist

Источник: Тинькоф-журнал

Тренд 5. Тонкие линии

Простые формы и иллюстрации, нарисованные тонкими линиями как будто от руки – еще один тренд 2021 года. Жирным шрифтам и прописным буквам нет места в трендовых отчетах. Используйте полужирное форматирование, которое выглядит более легким.

Источник: Nytimes

В данном контексте обратите внимание на шрифты light. Они занимают меньше места и не перегружают восприятие текста.

Тренд 6. Монохром и легкие градиенты

Диаграмма будет выглядеть более профессиональной (и, следовательно, более достоверной), когда используется только несколько цветов или градиент – градация одного цвета от темного к светлому. При этом для акцента можно добавить более яркий оттенок комплементарного цвета, т.е. наиболее подходящего по сочетанию.

Все чаще встречается и легкий градиент в более светлый тон основного цвета. Главное – не переусердствовать.

Источник: Habr

Источник: Lukebeacon

Тренд 7. Шрифты с засечками

Шрифты с засечками становятся все популярнее. Их используют такие бренды как New York Times и Tiffany. Текст, набранный шрифтом с засечками, смотрится единым целым и легко читается. Часто такие элегантные шрифты составляют отличную пару сдержанному шрифту без засечек.

В диаграммах и на графиках шрифт с засечками тоже смотрится гармонично. Times New Roman, знакомый нам со школы, навевает легкое чувство ностальгии.

Источник: онлайн-школа визуализации Excellent

Тренд 8. Геометрические фигуры везде

В рекламе, в оформлении обложек и упаковок, в бизнес-презентациях все чаще встречаются геометрические фигуры: круги, квадраты, овалы, треугольники. Четкие фигуры легко нарисовать, смотрятся они современно и, что немаловажно, структурировано. В этом контексте графики и диаграммы – чистая геометрия, и, значит, актуальны.

Источник: Biecom

Даже в шаблоне резюме есть элементы инфографики.

Больше примеров бесплатных шаблонов для Google Docs можно найти здесь

Тренд 9. Плоские иконки и эмодзи

На первый взгляд для бизнеса иконки и эмодзи не очень подходят. Однако, когда надо упростить восприятие информации или добавить эмоций, разделить контент или расставить акценты, без них не обойтись. При использовании иконок важно соблюдать единство типа, цвета и размера.

Источник: Canva

Почему бы не использовать иконки и эмодзи в Excel? На круговой диаграмме они смотрятся очень органично. Да и на гистограмме смайлик не воспринимается как нечто чуждое.

Источник: онлайн-школа визуализации Excellent

Тренд 10. Анимация

Все больше набирает тренд применения анимации. И это понятно, так как живые картинки притягивают и удерживают внимание, они очень показательные и интересно смотрятся. Все это решается несложным программированием. Пока сложно представить, как можно использовать анимацию в Excel в полной мере без специальных навыков программирования. Первое, что приходит на ум – срезы, сводные таблицы, формулы, выпадающие списки, дашборды.

Еще элементы «анимации» в Excel-отчете можно сделать следующим образом:

Акцентируем внимание на область, на которую надо обратить внимание, «приглушив» остальную область фигурой с заливкой → подписываем вывод по «открытой» части.
Следующим пунктом показываем тот же график, но оставляем «не приглушенной» другую область, на которую следует обратить внимание → остальные части «приглушаем» областью с заливкой → пишем новый вывод по «открытой» части графика.

Например:

В период 2006 по 2009 год наблюдался стабильный рост выручки в связи с открытием новых магазинов:

В период 2010 по 2013 год резкое падение по всем показателям в связи с ростом курса валюты:

И второй пример по этой же теме: делаем ярким цветом все элементы одной категории, по которой делаем вывод, а остальное – «приглушенным» тоном → следующим пунктом выделяем ярким элементы следующей категории с выводом, остальное – «приглушенным»:

Количество заболеваний в цехе 1 с 2005 года пошло на спад после улучшения производственных условий (установка фильтра и снижение температуры среды):

Количество заболеваний в цехе 2 с 2005 года осталось в той же тенденции. В данном цехе не было произведено улучшение условий труда. Необходимо запланировать работы в следующий кап.ремонт:

Такие приемы очень хорошо использовать в презентациях Power Point. При перелистывании слайдов будет появляться эффект анимации.

Итак, самое время переосмыслить свои отчеты, исходя из представленных трендов. Оставляйте только самое важное, делайте отчеты легкими и воздушными, подбирайте правильные цвета и шрифты, расставляйте акценты, смело добавляйте эмоций.

Ваши красивые и доступные отчеты делают вас трендовым специалистом, а мир – чуточку красивее и лучше.

Без проектирования сложно масштабировать систему

2020-05-25T18:44:38.012Z

Рассуждения про проектирование системы.

Проектирование

Проектирование системы - это когда на старте, до самой разработки, вы рисуете схему взаимодействия всех компонентов системы, описываете принципы функционирования системы, рисуете логические схемы, прорабатываете какие слои нужны в системе, продумываете структуру каталогов и т.д. Причем этот процесс всегда проходит несколько итераций улучшений.

Постепенно накапливается много компонентов системы, вы начинаете оптимизировать схему, что-то убираете, что-то группируете/объединяете, где-то применяется динамическая схема работы (за счет параметров). Постепенно из сложной запутанной схемы вырастает лаконичное Решение на бумаге.

Если процесс проектирования пропустить, то система/решение может функционировать и масштабироваться за счет энтузиазма разработчиков очень долгое время. Вы будете на ходу поднимать систему после очередного краха, латать дыры в архитектуре хардкодом, плодить дублированный код, хранить одинаковые данные в разных таблицах хранилища и т.д.

Без проектирования скорость получения первых сверх быстрых результатов воодушевляет, правда через пару лет такой подход приведет к коллапсу развития системы. Даже опытные разработчики будут плутать в построенной системе, подолгу зависая над теми или иными справочниками, над кодом и т.д.

Почему игнорируют или пропускают стадию проектирования?

По сути, стадия проектирования всегда присутствует при разработке. Варьируется только продолжительность этого этапа и глубина проработки. Если у вас уже есть опыт разработки и есть ряд реализаций, то вы можете из различных кусков собрать новую архитектуру, более качественную и гибкую. Причем вам будет гораздо легче предусмотреть разные ситуации, заложить в систему нужную гибкость для дальнейшего масштабирования. Вы сможете спрогнозировать узкие места системы и предложить оптимальное решение исходя из ваших ресурсов.

Когда опыта нет, то вы пытаетесь придумать хоть что-то, чтобы закрыть стоящую перед вами задачу. В таких ситуациях 20-ти килограммовая тачка с квадратными колесами кажется идеальным решением для грузчика, которому надо срочно раскидать кучу песка. Да, с большими усилиями, но это возможно.

Рассмотрим пример с API:

Например, вам нужно выгрузить данные из API, без какого-либо опыта вы полезете гуглить, найдете какой-то рабочий пример и из-него соберете свое решение задачи. Далее будет расти объем данных, ширина данных (количество полей в выгрузке), будет усложняться обработка данных, появится еще ряд API и т.д. Разработанный инструмент будет требовать все больше и больше вашего времени (на поддержку работоспособности, оптимизацию и т.д.). В какой-то момент вы достигните лимита запросов для API, придется использовать еще одну учетную запись или придется переработать алгоритм получения данных от API. В какой-то момент вы сядите за комп и придумаете как переработать решение, чтобы учесть все полученные шишки. На это уйдет некоторое время - эту стадию можно обозвать Редизайн системы. А дальше придется переписывать код, повторно тестировать систему, тестировать смежные области.

Если бы у вас был опыт работы с API, то вы наверняка бы сразу предусмотрели инкрементальную выгрузку данных, разбили процесс на подэтапы (tasks), задачи бы объединили в jobs (пакеты обработки данных). Взяли бы какой-то менеджер для запуска задач. На основе запусков сформировали бы ежедневную отчетность, чтобы отслеживать текущие ошибки и видеть узкие места системы (которые потом можно переработать и снизить издержки эксплуатации системы).

Проектирование аналитической структуры предприятия

Проектировать можно как программу (из каких модулей состоит, как они взаимодействуют, какие классы или функции нужно написать и т.д.), так и аналитическую структуру предприятия.

Есть управленческий учет, где продумываются количественные показатели для оценки эффективности бизнес-процессов, проектов, работы фирмы, производства и т.д. На основе общепринятых в компании показателей вырабатываются аналитические признаки. Справочники в системе учета приводятся в порядок, проверяется качество занесенных данных в справочники (контроль качества справочников). Это относится зачастую к справочникам контрагентов, товарных справочников и справочников услуг, должна быть выстроена иерархия категорий товаров. Должна быть выстроена четкая структура каналов продаж, введена классификация клиентов, чтобы можно было по этой классификации оценить наиболее прибыльные направления, а также понять где компания теряет деньги.

Контроль данных

Обязательно закладывайте в проектировании элемент контроля данных. Например, у вас должно быть описано или отображено на схеме, как вы будете автоматически сверять правдивость данных. Например, вы выгрузили данные из системы, сформировали отчеты и отправили руководству. Через час звонок и неприятный разговор. А если бы у вас были заложены механизмы контроля данных, то вам бы пришла отбивка - выявлены расхождения между системой аналитики и отчетом в системе 1С Предприятие.

Какие бесплатные инструменты для проектирования есть

Я использую очень часто сервис https://app.diagrams.net/ (ранее https://draw.io). Документы можно сохранять на гугл диск и повторно открывать хоть с работы, хоть из дома.

Аналитика на мусорных данных

2020-05-21T21:44:36.764Z

Салют! Это мой первый пост про отчетность компаний.

Многие компании задумываются о внедрении различных BI инструментов, потому что руководство хочет видеть красивые отчеты, дашборды, понимать как работает бизнес.

Что хотелось бы получить при внедрении BI

Для того, чтобы реализовать эту задачу качественно, нужно правильно выстраивать процессы не обработки данных для BI системы, а бизнес-процессы по вводу данных в учетных системах. Далеко не всегда у бизнеса есть это понимание. Это большая проблема в людях на местах (скорей всего). Сделать хорошо всегда сложно и нужен человек драйвер, который все выстроит грамотно. Возможно даже в одиночку, главное, чтобы специалист был с руками из плеч и была воля руководства наделить этого человека правами творить.

Если бизнес плохо ведет учет своей деятельности и хочет внедрить BI, то можно ли построить бизнес-аналитику?

Можно, даже нужно! Сначала может получится очень хорошая аналитика за счет усилий по очистке данных. Различные меппинги, правила для обработки данных. Появится много различных отчетов у менеджмента. Даже выводы будут сделаны верные и BI себя окупит. Но вот дальше путь раздваивается.

Проблема качества данных - это проблема масштабируемости. Если ваши данные кристально чистые и понятные, то вы меньше времени думаете как сделать правильную модель, как связать данные, как проверять данные, меньше времени тратите на исправление косяков.

Выдавать правильные и качественные данные - это задача ERP: правильные бизнес-процессы, правильные настройки системы учета, защита от дурака, понятный интерфейс ERP.

На картинке два пути, но их все же три:

Пойти к топам и заявить - система говно, отдел такой-то работает несистемно, надо перестроить ведение данных вот так то и так то. За такие действия естественно можно заслужить плохую репутацию, поссориться с коллегами, вас скорей всего могут назначить ответственным за предложенные изменения, а коллеги навставляют палок в колеса. И в завершении вы либо справитесь с войне за качество данных, либо провалите битву со всеми вытекающими.
Начать строить BI систему без участия в модернизации учета данных. Тут тоже свои последствия - Вы с каждым разом все меньше и меньше будете хотеть смотреть на эту кучу говна из палок. Безусловно, можно делать качественно из мусора, но с большими усилиями. И каждый раз прилагать титанические усилия не к поиску смыслов в данных, а к созданию моделей для аналитических приложений, очищать данные, настраивать правила, меппинги и харкод.
Строить систему бизнес-аналитики на плохих данных и постепенно втираться в доверие к топам и сеять зерна сомнений в тех или иных подходах. Предлагать свои идеи, когда наберется лимит доверия.

Вам очень повезло, если у вас есть отдел толковых ребят, которые занимаются качеством данных, правильно проектируют аналитические признаки в системе (атрибуты контрагентов, товаров и т.п.). Все выстроено логично, четко, системно. Но бывают и не очень ситуации ;)

Первый рассмотренный вариант является самым быстрым и самым рискованным.

Второй вариант непонятно к чему приведет, скорей всего к продолжительным страданиям.

Третий вариант компромиссный с точки зрения сберегания своих нервов, но за пару лет разрастется система учета, разрастется система бизнес-аналитики, появится куча отчетов, которые уже не переделать без огромных трудозатрат. Но при этом можно постепенно все больше и больше оказывать влияние на топ-менеджмент по развороту к проблеме качества данных и учету данных.

Опытным бы я советовал идти по первому пути - так можно попасть в топ менеджмент, проявив инициативу. Правда все зависит от открытости руководства. Если между вами и руководством амбарный замок, то лучше не соваться в эту гавань.

Без опыта, конечно же второй вариант (у вас скорей всего будет начальник, который будет отвечать за последствия такой стратегии). Просто наслаждайтесь плохим опытом, ведь плохой опыт - тоже опыт. При этом вы вдоволь наэкспериментируетесь на всяких меппингах, мудренной обработке данных.

Ну а третий вариант я проживаю в данный момент, уже набравшись опыта. Надеюсь, что может моя ситуация вырулит в правильное направление!