Data

Контакты

Работа с данными

Разработка с использованием Open Source технологий для создания аналитических бизнес-приложений и высоконагруженных платформ по обработке данных
Например, таких как бизнес аналитика, работа с множественными источниками данных, корпоративные хранилища данных, голосовой анализ
Технологический стек:
Apache Spark, Apache Kafka, Greenplum, Hadoop, ClickHouse, Apache Airflow, Spark Streaming, Data Lake

Сценарий 1. Кабинет офицера ПД

Решаемая задача:
- Автоматизировать процесс приема, автоматизированной и ручной проверки поступающего потока документов содержащих персональные данные (анкет)
Цель:
- Снизить вероятность попадания не корректных данных в чувствительные системы и контуры хранения
Примененный стек:
- Личный кабинет (визуализация) на Jango
- Забор данных, автоматическая обработка (нормализация, валидация, статусная модель)выгрузка данных: ETL (Apache Kafka, Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
Достигнутые результаты:
1. Обеспечена автоматизация поступления и обработки документов содержащих персональные данные (анкет)
2. Реализованы механизмы позволяющие автоматической проверки данных (выявление некорректных данных, при возможности их исправление)
3. Реализованы механизмы ручной проверки и обязательного автоматического соблюдения статусной модели

Сценарий 2. Корпоративная шина данных

Решаемая задача:
- Построить корпоративную шину данных (КШД) для автоматизации перемещения данных между системами
- Основной акцент реализации: обеспечить строгое следования бизнес модели (исключить возможность обхода)
Цель:
- Сделать прозрачным и контролируемым процесс обмена данными. Повысить надежность. Сконцентрировать решение задачи в одном месте
- Обеспечить соблюдение последовательности обработки документов, принятия решений. Снизить расходы сопровождения и доработки информационного обмена
Примененный стек:
- Брокер сообщений - Apache Kafka.
- Работа с данными (загрузка, обработка, выгрузка) + обеспечение последовательности статусной модели: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
Достигнутые результаты:
- Реализованы механизмы централизованного обмена сообщениями
- Разработан и реализованы механизмы контроля последовательности обработки документов, представления данных, принятия решений
- Сокращены сроки реализации изменения состава данных информационного обмена
- Повышена общая надежность, ускорен процесс выявления и устранения проблем

Сценарий 3. Межсистемная интеграция

Решаемая задача:
- Выполнить оптимальную интеграцию между системами.
Цель:
- Сделать быструю реализацию, выбрать надежное и масштабируемое решение с низкой стоимостью сопровождения (без необходимости создания рабочих мест у Заказчика)
Примененный стек:
- Хранение и представление данных - PostgreSQL
- Загрузка и чтение данных: гибрид (на стороне систем и как часть механизма ETL)
- Работа с данными (загрузка, обработка, выгрузка) : скрипты Python, PostgreSQL
Достигнутые результаты:
1. Обеспечена быстрая и надежная реализация
2. Примененный стек понятен админам Заказчика
3. Простой и понятный механизм масштабирования + доработки

Сценарий 4. KPI

Решаемая задача:
- Автоматизировать процесс сбора и расчет ключевых показателей эффективности (далее - KPI)
Цель:
- Повысить скорость сбора и формирования отчетности
- Убрать человеческий фактор
- Высвободить человеческие ресурсы компании
Примененный стек:
- Визуализация и представление данных - BI (Tableau, DataLens, Power BI)
- Сбор данных + подготовка + расчеты: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
- Real-time сбор и подготовка метрик: Zabbix + скрипты Python
Достигнутые результаты:
1. Отчет KPI теперь доступен всегда
2. Снижено влияние человеческого фактора, формирование и представление автоматизированы
3. Отчет используется сотрудниками для собственного контроля и улучшения показателей
4. Часть отчетов готовятся в режиме реально времени

Сценарий 5. Формирование отчетности

Решаемая задача:
- Автоматизировать процесс сбора и формирования юридически значимых отчетов с утвержденной методологией и формой
Цель:
- Обеспечить непрерывный процесс сбора, накопления данных и формирования отчета на их основе
Примененный стек:
- Визуализация для контроля промежуточных результатов - BI (Tableau, DataLens, Power BI)
- Сбор данных + контроль + подготовка: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
- Формирование отчета соответствующий форме: 1С
Достигнутые результаты:
1. Обеспечен непрерывный процесс формирования отчетов
2. Реализованы механизмы раннего выявления отклонений их фиксации и информирования
3. Существенно снижена вероятность появления ошибок в отчетах

Сценарий 6. Формирование отчетности

Решаемая задача:
- Визуализация информации о проходимых процессах внутри компании и за ее пределами
Цель:
- Ускорение процесса поступления информации.
- Упрощение восприятия. Выявление и визуализация ключевых показателей
Примененный стек:
- Визуализация и представление данных - BI (Tableau, DataLens, Power BI)
- Сбор данных + подготовка + расчеты: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
- Real-time сбор и подготовка метрик: Zabbix + скрипты Python
Достигнутые результаты:
1. Ключевые показатели теперь собираются в 12 раз быстрее.
2. Данные сразу доступны для анализа и процесса принятия решений.
3. Снижены риски связанные с человеческим фактором.
4. Визуализация данных подстраивается под человека (Разные отчеты для разных людей с одним смыслом).

Сценарий 7. DWH

Решаемая задача:
- Необходимо накапливать, систематизировать и хранить данные в удобной форме
Цель:
- Накапливать данные в виде представляющем ценность для компании
- Обеспечить надежность хранения данных.
- Систематизировать и структурировать данные. Обеспечить их полноту и соответствие форме хранения
Примененный стек:
Сбор данных + подготовка + наполнение: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
Хранение данных: Greenplum, PostgreSQL
Аналитическая СУБД: CklickHouse

Достигнутые результаты:
1. Обеспечена отказоустойчивость хранения и представления данных.
2. Накопление данных осуществляется с учетом требований полноты, формата и целостности данных. Данные проверяются на этапе поступления и на этапе хранения
3. Данные предоставлены для анализа и проверки гипотез в удобной форме, в изолированном контуре

Контакты

start@malcador.ru

Телефон
+7 928-751-6859

Malcador CMDB-ITAM-Monitoring