DATALEARN | DE - 101 | МОДУЛЬ 4-5 ETL Подсистемы

preview_player
Показать описание
Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории:
📌 Data Extracting (получить данные из систем - E в ETL)
📌 Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL)
📌 Delivering Data for Presentation (обработка данных в DW - L в ETL)
📌 Managing the ETL environment (yправление и мониторинг компонентов ETL)

Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27).

Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие.

В 4-ом модуле нашего курса вы узнаете про интеграцию и трансформацию данных - ETL и ELT. Это ключевой элемент в аналитическом решении, с помощью которого мы наполняем данными хранилище данных и автоматизируем загрузку и трансформацию данных. Мы рассмотрим примеры популярных on-premise batch решений. Узнаете в чем отличие ETL от ELT, для чего нужны такие решения, что значит batch и on-premise, как с помощью ETL/ELT можно создавать модели данных, на примере dimensional modeling, рассмотрим рынок ETL/ELT. Потренируюмся на классическом open-source ETL решении Pentaho DI и рассмотрим настольный инструмент от Tableau - Tableau Prep.

В этом модуле, мы не будем затрагивать облачные ETL/ELT инструменты и решения Big Data, для этого у нас будут отдельные модули.

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.

Рекомендации по теме
Комментарии
Автор

Тоже считал, что сначала практика, а уж потом теория. Например, возможный вопрос на собеседовании по SQL:
Что такое DML и чем оно отличается от DDL?
И как такое знание может мне помочь?

А теперь возьмём пример на практике:
Подходит директор магазина и говорит: "Так, начинаем акцию, скидка 15% на всю посуду".
Вот тут всё ясно:
UPDATE TABLE products
SET price = price * 0, 85
WHERE category = 'crockery'.
И где здесь упоминание о DML и DDL?

paleface_brother
Автор

На превью написано ETL постистемы)
Опечаточка

liha