filmov
tv
Владимир Верстов: DSL для ETL в DMP или чего нам не хватило в Airflow или другом готовом решении?
Показать описание
Data Fest Online 2020
В open source мире существует множество инструментов для запуска, шедулинга и управления ETL процессами: Airflow, Luigi, Metaflow, ... Все они сосредоточены на описании зависимостей между тасками и графами, но не на том, что непосредственно происходит с данными внутри этих тасков и графов. Мы пошли от обратного и прежде всего выделили основные сущности любого ETL процесса: это таблицы и таски, которые читают данные, их преобразуют и прогружают в таблицы. Мы разработали свой DSL на python для единообразного описания таблиц в YT (in-house аналог Hadoop, Greenplum и ClickHouse) и тасков для MapReduce, Spark, разных SQL-диалектов (3 штуки) и голого python.
В докладе я расскажу:
- почему мы решили писать свой "велосипед"
- что находится "под капотом" нашего ETL фреймворка
- некоторые особенности ETL процессов в DMP Такси, Еды и Лавки, которые ежеминутно, ежечасно и ежедневно трудятся во благо аналитики и управленческой отчетности
Соцсети Data Fest:
В open source мире существует множество инструментов для запуска, шедулинга и управления ETL процессами: Airflow, Luigi, Metaflow, ... Все они сосредоточены на описании зависимостей между тасками и графами, но не на том, что непосредственно происходит с данными внутри этих тасков и графов. Мы пошли от обратного и прежде всего выделили основные сущности любого ETL процесса: это таблицы и таски, которые читают данные, их преобразуют и прогружают в таблицы. Мы разработали свой DSL на python для единообразного описания таблиц в YT (in-house аналог Hadoop, Greenplum и ClickHouse) и тасков для MapReduce, Spark, разных SQL-диалектов (3 штуки) и голого python.
В докладе я расскажу:
- почему мы решили писать свой "велосипед"
- что находится "под капотом" нашего ETL фреймворка
- некоторые особенности ETL процессов в DMP Такси, Еды и Лавки, которые ежеминутно, ежечасно и ежедневно трудятся во благо аналитики и управленческой отчетности
Соцсети Data Fest:
Владимир Верстов: DSL для ETL в DMP или чего нам не хватило в Airflow или другом готовом решении?...
ETL-сервисы и таски для Такси, Еды и Лавки / Владимир Верстов...
Владимир Верстов — Как мы разрабатываем DMP для Такси, Еды и Лавки...
Свой DSL на проекте: когда и как
Евгений Никифоров - Современный Cloud ETL
Простой визуальный ETL для BI. Интеграция Loginom и Visiology
ETL: Введение
Что такое Qlik Compose решение для автоматизации построения хранилищ данных DWH...
Разработка производительного пользовательского DSL для анализа временных рядов...
Презентация ViXtract – нового ETL-инструмента с открытым кодом...
Евгений Ермаков: Есть 2 стула - Data Vault и Anchor Modeling, на какой сядешь, на какой DWH посадишь...
Централизованный self-service ETL / Андрей Гончаров (Garage Eight)
Как сделать единую платформу для сбора событий / Адам Елдаров [ETL-meetup #1]...
DATALEARN | DE - 101 | МОДУЛЬ 4 | ПАВЕЛ НОВИЧКОВ | ETL НА PENTAHO DI | ЧАСТЬ 1 - УСТАНОВКА...
Евгений Ермаков: Meta DWH о DWH для DWH
Проектирование Big Data решений на базе Microsoft Azure. Андрей Антиликаторов .NET Fest 2019...
ETL на airflow - Курсы 'Школы Больших Данных' г. Москва
Современная интеграционная платформа на примере Mulesoft Anypoint Platform...
Зачем нужны даталейки (Data Lake)
Видео № 1048. Консилиум решит: онколог решил переложить ответственность за мое лечение на консилиум....
Дмитрий Дремов, DataFest-2021: Полностью offline предсказания для синхронной системы на основе ML...
Data Fest 2023, день 15: офлайн в Новосибирске 3 июня
Loginom: low-code инструмент для реализации сложных проектов
Как мы создавали Data Management Platform в OZON / Евгений Чмель (OZON)
Комментарии