Иван Канашов, Тинькофф. Удобное тестирование ETL процессов Apache Airflow

Данные - это актив, они имеют реальную ценность, необходимо уметь ими управлять и защищать их.
Мы в Тинькофф строим свою систему типа Data Catalog.
Эта система собирает в себе все метаданные о таблицах, отчетах и бог знает чём еще в рамках предприятия и предоставляет инструменты для простого управления метаданными и самостоятельного поиска по ним.
Я расскажу о том, как мы наполняем наш Data Catalog метаданными из более чем 25 источников, используя Apache Airflow.
Как мы придумали подход, а затем и создали небольшой фреймворк, позволяющий нам:
обеспечить 100-процентное покрытие интеграционными end-to-end тестами все наши ETL процессы (70 ETL процессов, более 940 самых разнообразных шагов);
обеспечить автоматическое создание тестовых данных для каждого шага, каждого нашего процесса;
обеспечить удобный процесс ревью, а также сильно облегчить жизнь разработчикам при создании или модификации ETL процессов.
Дополнительно расскажу о том, как наш тестовый Pipeline в Gitlab CI сначала увеличился до 40 минут, а потом нам удалось его сократить до 10 минут, и мы знаем, как сделать его еще быстрее.
Доклад рассчитан на разработчиков, дата инженеров и любых специалистов, связанных с разработкой и тестированием ETL процессов.
Слушатели смогут понять, как можно организовать удобный и понятный процесс тестирования, разработки и ревью ETL процессов, обеспечить 100-процентное покрытие таких процессов тестами, а также автоматически генерировать тестовые данные для каждого шага ETL процесса.

Пікірлер: 1

  • @GrabsOrion
    @GrabsOrion Жыл бұрын

    Крутой доклад

Келесі