DataOps TUTORIAL: Data engineering / Ejemplo DAGSTER end-to-end con BigQuery, dbt, spark, jupyter

preview_player
Показать описание
#dataOps #dataengineering #dagster #dbt #bigQuery #SPARK
* BigQuery como DWH
* dbt como herramienta de transformación de datos SQL
* dataproc/pySpark para procesar datos a escala con SPARK
* Jupyter notebook, para explorar y visualizar el resultado
Sígueme en:
👉twitter: @luisvelasco
Рекомендации по теме
Комментарии
Автор

Muchas gracias, buen video, Saludos!

kikecastor
Автор

Uy si totalmente de acuerdo! Ahora todas las transformaciones ahora son en codigo! En su momento, tambien estaba pasando pero a mi lo que me paso es que todas las transformaciones las comenzamos a hacer en Stored Procedures para explotar el poder de los motores de DB

jocalvo
Автор

Gracias por compartir. En el minuto 32 del video, decidiste comentar el codigo del pipeline, unicamente para reducir el scope del pipeline al solid de dbt. Quizas solo como referencia, puedo agregar que la seccion de playground de Dagit te permite hacer un filtro de los solids que quieres ejecutar en el pipeline, de manera que te ofrece la habilidad de limitar los solids filtrados con una sintaxis peculiar que incluye el nombre del solid y el signo de + o * posicionado como prefijo o sufijo del nombre, como mecanismo de filtro. Asi, no hay necesidad modificar el pipeline, solo el filtro de ejecucion. Saludos!

canimus
Автор

muy buen video, la verdad me gusto mucho !, el data stack para en engineering, cambio mucho?

juanpablosampayo
Автор

Hola Luis! Una pregunta, veo que trabajas para Google en Barcelona, te quería preguntar si lo haces en remoto y si es cliente final, ya que no veo que tengan oficinas en la ciudad.

Buen video como siempre
Un saludo!

carlesgn
Автор

Hola gracias por su explicación, hay versión de dagster para empresas como servicio en GCP?

jcmleon
Автор

Hi, is it possible to do an English version of this tutorial?

erwinhuang
Автор

Escuchar decir que se debe usar todo código para construir procesos ETL o ELT suena un poco del pasado

Cuando hoy en día existen herramientas como Informatica, Alteryx, Azure Data Factory, Google Data Fusion entre muchas otras que son cada vez más usadas por las grandes empresas, creo que existe un consenso en que en el futuro pocas de estas cosas se harán escribiendo código puro ya que es más difícil de mantener y escalar

Al principio del video mencionas algunas debilidades de usar estas herramientas gráficas y coincido totalmente en el punto del control de versiones pero es que con el resto de puntos escribiendo todo en código presentas los mismos problemas y cualquier ingeniero de datos moderno podrá mencionar 20 desventajas adicionales de hacerlo todo en código

sabinoflores