DataOps TUTORIAL: Data engineering / Ejemplo DAGSTER end-to-end con BigQuery, dbt, spark, jupyter

Показать описание

#dataOps #dataengineering #dagster #dbt #bigQuery #SPARK
* BigQuery como DWH
* dbt como herramienta de transformación de datos SQL
* dataproc/pySpark para procesar datos a escala con SPARK
* Jupyter notebook, para explorar y visualizar el resultado
Sígueme en:
👉twitter: @luisvelasco

full scan

Рекомендации по теме

Комментарии

Muchas gracias, buen video, Saludos!

kikecastor

Uy si totalmente de acuerdo! Ahora todas las transformaciones ahora son en codigo! En su momento, tambien estaba pasando pero a mi lo que me paso es que todas las transformaciones las comenzamos a hacer en Stored Procedures para explotar el poder de los motores de DB

jocalvo

Gracias por compartir. En el minuto 32 del video, decidiste comentar el codigo del pipeline, unicamente para reducir el scope del pipeline al solid de dbt. Quizas solo como referencia, puedo agregar que la seccion de playground de Dagit te permite hacer un filtro de los solids que quieres ejecutar en el pipeline, de manera que te ofrece la habilidad de limitar los solids filtrados con una sintaxis peculiar que incluye el nombre del solid y el signo de + o * posicionado como prefijo o sufijo del nombre, como mecanismo de filtro. Asi, no hay necesidad modificar el pipeline, solo el filtro de ejecucion. Saludos!

canimus

muy buen video, la verdad me gusto mucho !, el data stack para en engineering, cambio mucho?

juanpablosampayo

Hola Luis! Una pregunta, veo que trabajas para Google en Barcelona, te quería preguntar si lo haces en remoto y si es cliente final, ya que no veo que tengan oficinas en la ciudad.

Buen video como siempre
Un saludo!

carlesgn

Hola gracias por su explicación, hay versión de dagster para empresas como servicio en GCP?

jcmleon

Hi, is it possible to do an English version of this tutorial?

erwinhuang

Escuchar decir que se debe usar todo código para construir procesos ETL o ELT suena un poco del pasado

Cuando hoy en día existen herramientas como Informatica, Alteryx, Azure Data Factory, Google Data Fusion entre muchas otras que son cada vez más usadas por las grandes empresas, creo que existe un consenso en que en el futuro pocas de estas cosas se harán escribiendo código puro ya que es más difícil de mantener y escalar

Al principio del video mencionas algunas debilidades de usar estas herramientas gráficas y coincido totalmente en el punto del control de versiones pero es que con el resto de puntos escribiendo todo en código presentas los mismos problemas y cualquier ingeniero de datos moderno podrá mencionar 20 desventajas adicionales de hacerlo todo en código

sabinoflores

DataOps TUTORIAL: Data engineering / Ejemplo DAGSTER end-to-end con BigQuery, dbt, spark, jupyter

What is DataOps?

What is DataOps?

DataOps TUTORIAL: Data engineering / Ejemplo DAGSTER end-to-end con BigQuery, dbt, spark, jupyter

3 Must-Know Trends for Data Engineers | DataOps

What is Data Pipeline | How to design Data Pipeline ? - ETL vs Data pipeline (2024)

DataKitchen DataOps Demo

Automating Data Management with DataOps

What is DataOps? | The Data Pinch Ep. 31

Data Quality: Understanding Garbage In, Garbage Out

DataOps 101 - Why, What, How?

What is DataOps | DataOps in Practice | DataOps Implementation | DevOps Training | Edureka

How to Build a Modern DataOps Team

TUTORIAL Data Engineering: Calidad de datos desde la perspectiva DataOps con 'Great Expectation...

Fundamentals Of Data Engineering Masterclass

What is DataOps ?

Data Engineer's Lunch #20: DataOps vs. DevOps

DataOps – The Foundation for Your Agile Data Architecture

How to use RDD API in Databricks

Learn Apache Airflow in 10 Minutes | High-Paying Skills for Data Engineers

Cloud Next – DataOps and Data Engineering Best Practices

How to monitor Spark and Python data pipelines with DataOps

Dataops for the Modern Data Stack and how to get started

What is a Data Pipeline Engineer?

DataOps –The Foundation for Your Agile Data Architecture