Мы используем файлы cookie для быстрой и удобной работы сайта. Выберите, какие файлы cookie вы разрешаете нам использовать. Подробнее в Политике конфиденциальности.
Send a request and our specialists will contact you within 1 hour.
By clicking the "Send" button, you give your unambiguous consent to the processing of your personal data to the extent and for the purposes defined in the Personal Data Processing Policy.
Get development
Submit a request and gain access to a training manual from a leading company expert!
By clicking the "Send" button, you give your unambiguous consent to the processing of your personal data to the extent and for the purposes defined in the Personal Data Processing Policy.
Построение хранилища данных и отчетности «с нуля»
2-4
30
сократилось время интеграции одного источника
с 3 дней до
источников данных интегрировано
РАЗРАБОТКА КОРПОРАТИВНЫХ ХРАНИЛИЩ И ОЗЕР ДАННЫХ
туризм
ч
Построение хранилища данных и отчетности «с нуля»
Заказчик
Крупнейшая туристическая организация в РФ – более 3 млн клиентов/пользователей
ВЫЗОВЫ/ОСОБЕННОСТИ
суммарная длительность проекта – более 2х лет
усилена команда разработки в 1.5 раза за 3 недели с 8 до 12 разработчиков
Разработать систему регламентной отчетности для поддержки принятия управленческих решений по туризму для различных Data-продуктов
Задача
решение
Техническое решение
1. Провели анализ бизнес-процессов и потребностей заказчика по отчетности и аналитике
2. Разработали архитектуру хранилища данных, определили структуру хранения и интеграции данных:
3. Разработали интеграционные решения между разрозненными информационными системами заказчика:
использовали технологии на базе Open-Source, обеспечили возможность для гибкого масштабирования и интеграции
развернули хранилище данных, которое стало основой для хранения гетерогенных источников данных
механизмы извлечения данных по HTTP и JDBC протоколам
модули проверки качества данных
модули проверки схемы входящих данных и валидацию интеграционного контракта
унифицировали процессы извлечения данных на базе Airflow + Python
4. Разработали набор функций на базе PostgreSQL для формирования витрин данных по показателям в различных разрезах
5. Разработали модуль предоставления данных на базе Python FastAPI, который по запросу предоставляет данные во внешние системы: CRM (витрины по карте коммуникаций и рекомендации) и CDP (сегменты)
6. Разработали подсистему по управлению качеством данных, которая включает инструменты визуализации метрик качества регламентных процессов, ошибок данных и проч. на базе Grafana, компоненту хранения метрик качества на базе PostgreSQL и компоненту формирования метрик на базе Python-модуля
7. На базе BI-решений создали набор дашбордов, которые позволяют быстро и прозрачно принимать управленческие решения на базе Data-продуктов
Результат
Бизнес-ценности
Широкие возможности масштабирования и развития Data-практик
Использование технологий на базе Open-Source позволило создать гибкую масштабируемую платформу данных
спроектирована архитектура хранилища данных «с нуля»
Собственная платформа извлечения и обработки данных из источников как набор типовых функций в python
создана собственная платформа для автоматизации интеграции различных источников данных, которая сократила время интеграции одного источника с 3 дней до 2-4 часов
развернуты подсистемы хранения и обработки данных, интеграции, оркестрации, предоставления, качества и визуализации данных интеграция большого числа источников, модули качества и предоставления данных формируют основу для лучших практик и подходов по управлению данными
интегрировано 30 источников данных и более 100 сущностей
разработано 35 витрин данных
создано 5 веб-сервисов предоставления данных из КХД во внешние системы