Работа с данными
  • Разработка с использованием Open Source технологий для создания аналитических бизнес-приложений и высоконагруженных платформ по обработке данных
    Например, таких как бизнес аналитика, работа с множественными источниками данных, корпоративные хранилища данных, голосовой анализ
  • Технологический стек:
    Apache Spark, Apache Kafka, Greenplum, Hadoop, ClickHouse, Apache Airflow, Spark Streaming, Data Lake
Сценарий 1. Кабинет офицера ПД
  • Решаемая задача:
    • Автоматизировать процесс приема, автоматизированной и ручной проверки поступающего потока документов содержащих персональные данные (анкет)

    Цель:
    • Снизить вероятность попадания не корректных данных в чувствительные системы и контуры хранения

    Примененный стек:
    • Личный кабинет (визуализация) на Jango
    • Забор данных, автоматическая обработка (нормализация, валидация, статусная модель)выгрузка данных: ETL (Apache Kafka, Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)

    Достигнутые результаты:
    1. Обеспечена автоматизация поступления и обработки документов содержащих персональные данные (анкет)
    2. Реализованы механизмы позволяющие автоматической проверки данных (выявление некорректных данных, при возможности их исправление)
    3. Реализованы механизмы ручной проверки и обязательного автоматического соблюдения статусной модели
Сценарий 2. Корпоративная шина данных
  • Решаемая задача:

    • Построить корпоративную шину данных (КШД) для автоматизации перемещения данных между системами
    • Основной акцент реализации: обеспечить строгое следования бизнес модели (исключить возможность обхода)

    Цель:
    • Сделать прозрачным и контролируемым процесс обмена данными. Повысить надежность. Сконцентрировать решение задачи в одном месте
    • Обеспечить соблюдение последовательности обработки документов, принятия решений. Снизить расходы сопровождения и доработки информационного обмена

    Примененный стек:
    • Брокер сообщений - Apache Kafka.
    • Работа с данными (загрузка, обработка, выгрузка) + обеспечение последовательности статусной модели: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)

    Достигнутые результаты:
    • Реализованы механизмы централизованного обмена сообщениями
    • Разработан и реализованы механизмы контроля последовательности обработки документов, представления данных, принятия решений
    • Сокращены сроки реализации изменения состава данных информационного обмена
    • Повышена общая надежность, ускорен процесс выявления и устранения проблем
Сценарий 3. Межсистемная интеграция
  • Решаемая задача:
    • Выполнить оптимальную интеграцию между системами.

    Цель:
    • Сделать быструю реализацию, выбрать надежное и масштабируемое решение с низкой стоимостью сопровождения (без необходимости создания рабочих мест у Заказчика)

    Примененный стек:
    • Хранение и представление данных - PostgreSQL
    • Загрузка и чтение данных: гибрид (на стороне систем и как часть механизма ETL)
    • Работа с данными (загрузка, обработка, выгрузка) : скрипты Python, PostgreSQL

    Достигнутые результаты:
    1. Обеспечена быстрая и надежная реализация
    2. Примененный стек понятен админам Заказчика
    3. Простой и понятный механизм масштабирования + доработки


Сценарий 4. KPI
  • Решаемая задача:
    • Автоматизировать процесс сбора и расчет ключевых показателей эффективности (далее - KPI)

    Цель:
    • Повысить скорость сбора и формирования отчетности
    • Убрать человеческий фактор
    • Высвободить человеческие ресурсы компании

    Примененный стек:
    • Визуализация и представление данных - BI (Tableau, DataLens, Power BI)
    • Сбор данных + подготовка + расчеты: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
    • Real-time сбор и подготовка метрик: Zabbix + скрипты Python

    Достигнутые результаты:
    1. Отчет KPI теперь доступен всегда
    2. Снижено влияние человеческого фактора, формирование и представление автоматизированы
    3. Отчет используется сотрудниками для собственного контроля и улучшения показателей
    4. Часть отчетов готовятся в режиме реально времени
Сценарий 5. Формирование отчетности
  • Решаемая задача:
    • Автоматизировать процесс сбора и формирования юридически значимых отчетов с утвержденной методологией и формой

    Цель:
    • Обеспечить непрерывный процесс сбора, накопления данных и формирования отчета на их основе

    Примененный стек:
    • Визуализация для контроля промежуточных результатов - BI (Tableau, DataLens, Power BI)
    • Сбор данных + контроль + подготовка: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
    • Формирование отчета соответствующий форме: 1С

    Достигнутые результаты:
    1. Обеспечен непрерывный процесс формирования отчетов
    2. Реализованы механизмы раннего выявления отклонений их фиксации и информирования
    3. Существенно снижена вероятность появления ошибок в отчетах
Сценарий 6. Формирование отчетности
  • Решаемая задача:
    • Визуализация информации о проходимых процессах внутри компании и за ее пределами

    Цель:
    • Ускорение процесса поступления информации.
    • Упрощение восприятия. Выявление и визуализация ключевых показателей

    Примененный стек:
    • Визуализация и представление данных - BI (Tableau, DataLens, Power BI)
    • Сбор данных + подготовка + расчеты: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
    • Real-time сбор и подготовка метрик: Zabbix + скрипты Python

    Достигнутые результаты:
    1. Ключевые показатели теперь собираются в 12 раз быстрее.
    2. Данные сразу доступны для анализа и процесса принятия решений.
    3. Снижены риски связанные с человеческим фактором.
    4. Визуализация данных подстраивается под человека (Разные отчеты для разных людей с одним смыслом).
Сценарий 7. DWH
  • Решаемая задача:
    • Необходимо накапливать, систематизировать и хранить данные в удобной форме

    Цель:
    • Накапливать данные в виде представляющем ценность для компании
    • Обеспечить надежность хранения данных.
    • Систематизировать и структурировать данные. Обеспечить их полноту и соответствие форме хранения

    Примененный стек:
    Сбор данных + подготовка + наполнение: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
    Хранение данных: Greenplum, PostgreSQL
    Аналитическая СУБД: CklickHouse

    Достигнутые результаты:
    1. Обеспечена отказоустойчивость хранения и представления данных.
    2. Накопление данных осуществляется с учетом требований полноты, формата и целостности данных. Данные проверяются на этапе поступления и на этапе хранения
    3. Данные предоставлены для анализа и проверки гипотез в удобной форме, в изолированном контуре
Контакты
start@malcador.ru
Телефон
+7 928-751-6859