Разработка с использованием Open Source технологий для создания аналитических бизнес-приложений и высоконагруженных платформ по обработке данных Например, таких как бизнес аналитика, работа с множественными источниками данных, корпоративные хранилища данных, голосовой анализ
Технологический стек: Apache Spark, Apache Kafka, Greenplum, Hadoop, ClickHouse, Apache Airflow, Spark Streaming, Data Lake
Сценарий 1. Кабинет офицера ПД
Решаемая задача:
Автоматизировать процесс приема, автоматизированной и ручной проверки поступающего потока документов содержащих персональные данные (анкет)
Цель:
Снизить вероятность попадания не корректных данных в чувствительные системы и контуры хранения
Обеспечена автоматизация поступления и обработки документов содержащих персональные данные (анкет)
Реализованы механизмы позволяющие автоматической проверки данных (выявление некорректных данных, при возможности их исправление)
Реализованы механизмы ручной проверки и обязательного автоматического соблюдения статусной модели
Сценарий 2. Корпоративная шина данных
Решаемая задача:
Построить корпоративную шину данных (КШД) для автоматизации перемещения данных между системами
Основной акцент реализации: обеспечить строгое следования бизнес модели (исключить возможность обхода)
Цель:
Сделать прозрачным и контролируемым процесс обмена данными. Повысить надежность. Сконцентрировать решение задачи в одном месте
Обеспечить соблюдение последовательности обработки документов, принятия решений. Снизить расходы сопровождения и доработки информационного обмена
Примененный стек:
Брокер сообщений - Apache Kafka.
Работа с данными (загрузка, обработка, выгрузка) + обеспечение последовательности статусной модели: ETL (Apache Spark, Apache Hadoop, Apache Livy, Apache Airflow, Apache Yarn)
Достигнутые результаты:
Реализованы механизмы централизованного обмена сообщениями
Разработан и реализованы механизмы контроля последовательности обработки документов, представления данных, принятия решений
Сокращены сроки реализации изменения состава данных информационного обмена
Повышена общая надежность, ускорен процесс выявления и устранения проблем
Сценарий 3. Межсистемная интеграция
Решаемая задача:
Выполнить оптимальную интеграцию между системами.
Цель:
Сделать быструю реализацию, выбрать надежное и масштабируемое решение с низкой стоимостью сопровождения (без необходимости создания рабочих мест у Заказчика)
Примененный стек:
Хранение и представление данных - PostgreSQL
Загрузка и чтение данных: гибрид (на стороне систем и как часть механизма ETL)
Работа с данными (загрузка, обработка, выгрузка) : скрипты Python, PostgreSQL
Достигнутые результаты:
Обеспечена быстрая и надежная реализация
Примененный стек понятен админам Заказчика
Простой и понятный механизм масштабирования + доработки
Сценарий 4. KPI
Решаемая задача:
Автоматизировать процесс сбора и расчет ключевых показателей эффективности (далее - KPI)
Цель:
Повысить скорость сбора и формирования отчетности
Убрать человеческий фактор
Высвободить человеческие ресурсы компании
Примененный стек:
Визуализация и представление данных - BI (Tableau, DataLens, Power BI)
Обеспечена отказоустойчивость хранения и представления данных.
Накопление данных осуществляется с учетом требований полноты, формата и целостности данных. Данные проверяются на этапе поступления и на этапе хранения
Данные предоставлены для анализа и проверки гипотез в удобной форме, в изолированном контуре