DATALEARN | DE - 101 | МОДУЛЬ 6-6 ЗНАКОМСТВО С СОВРЕМЕННЫМИ РЕШЕНИЯМИ ETL/ELT

preview_player
Показать описание
ETL(ELT) инструменты нам нужны, чтобы наполнять наше хранилище данных, ну или платформу данных. Для современных аналитических инструментов лучше использовать современные инструменты интеграции. Прежде чем выбирать инструмент, нужно понимать фундаментальные основы построения аналитического решения, его слои и компоненты, разницу между ETL и ELT, между Batch и Stream, между on-premise и cloud и многое другое. Задача инженера данных выбрать правильное решение для обработки и хранения данных.

В этом видео:
📌 Рассмотрим простой пример интернет-магазина и необходимости интеграции данных и аналитического решения
📌 Что такое Data Pipeline?
📌 ETL App или Coding? (Python, Scala и тп)
📌 ETL on-premise и Cloud (AWS, Azure, GCP)
📌 ETL разработчик или Data Engineer
📌 Open Source or Not Open Source
📌 Архитектура современного решения с использованием On-premise tools
📌 Архитектура современного решения с использованием коммерческих продуктов
📌 Обзор решений западного рынка
📌 Пример ETL vs ELT с использованием Pentaho DI и Redshift
📌 ETL Job = DAG (Direct Acyclic Graph)
📌 Обзор решений: MatillionETL, Fivetran, Apache Airflow, Azure Data Factory, AWS Glue

На лабораторной работе я покажу как запустить Matillion ETL, DBT cloud, Talend, Informatica, ETL Leap, Qlikview через Snowflake Partner Connect. Особенно детально я покажу как выглядит Matillion ETL и как вы можете выполнить задание 4го модуля по Superstore Star Schema (dimensional modelling) в Matillion ETL.

=========================================

В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.

Из модуля вы узнаете:
📌 Основы аналитических хранилищ данных
📌 MPP vs SMP
📌 Практика с Redshift, Snowflake и Azure Synapse
📌 Облачные ETL инструменты
📌 Обзор вакансий мирового рынка
📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

Рекомендации по теме
Комментарии
Автор

Ну 7 строк в секунду вообще медленно что-то. Можно попробовать использовать Copy from Stdin и заливать удаленно. Я так делал из с#, go. Мне надо было существенно поднять скорость загрузки. Работает в разы быстрее чем стандартный insert. Это удобно если надо делать постоянно и не хочется выполнять много действий с разными сервисами. Плюс еще, что весь код в одном месте.

bossikom