Владимир Верстов: DSL для ETL в DMP или чего нам не хватило в Airflow или другом готовом решении?

Ғылым және технология

Data Fest Online 2020
SysML track ods.ai/tracks/sysml-df2020
В open source мире существует множество инструментов для запуска, шедулинга и управления ETL процессами: Airflow, Luigi, Metaflow, ... Все они сосредоточены на описании зависимостей между тасками и графами, но не на том, что непосредственно происходит с данными внутри этих тасков и графов. Мы пошли от обратного и прежде всего выделили основные сущности любого ETL процесса: это таблицы и таски, которые читают данные, их преобразуют и прогружают в таблицы. Мы разработали свой DSL на python для единообразного описания таблиц в YT (in-house аналог Hadoop, Greenplum и ClickHouse) и тасков для MapReduce, Spark, разных SQL-диалектов (3 штуки) и голого python.
В докладе я расскажу:
- почему мы решили писать свой "велосипед"
- что находится "под капотом" нашего ETL фреймворка
- некоторые особенности ETL процессов в DMP Такси, Еды и Лавки, которые ежеминутно, ежечасно и ежедневно трудятся во благо аналитики и управленческой отчетности
Посмотреть эфир и список треков и организаторов: datafest.ru/2020/
Зарегистрироваться на фест и получить доступ к трекам: ods.ai/events/datafest2020
Вступить в сообщество: ods.ai/
Соцсети Data Fest:
t.me/datafest
datafest

Пікірлер: 3

  • @nikolaysokolov9027
    @nikolaysokolov90273 жыл бұрын

    Спасибо. Познавательно. Особенно интересно было узнать про выбранные подходы. Например, чтобы отвязаться от структур источника, сохранять данные в json'e и тд.

  • @user-sv5wf9rs4d
    @user-sv5wf9rs4d3 жыл бұрын

    Почему scala в яндекс запрещена?

  • @VladimirVerstov

    @VladimirVerstov

    3 жыл бұрын

    каждый дополнительный язык программирования требует дополнительных расходов на его поддержку со стороны внутренней инфраструктуры

Келесі