Comment design une architecture Data avec Snowflake/DBT ? (Data Engineer System design interview)

preview_player
Показать описание
Dans cette nouvelle vidéo, je te prépare pour les entretiens de type System design, pour Data Engineer

🔥 QUI SUIS-JE ? 🔥
Je m’appelle Willis, Sr Data Engineer et Coach en Data Engineering, habitant au Canada 🇨🇦 (Montréal).

Bienvenue sur ma chaine ! Je parle de Data Engineering, de carrière en Tech et de voyage ! 🖥️✈️

🧪 Travaillant dans le monde de la data depuis plus de 10 ans, je t'aide à booster ta carrière en Data en partageant mon expertise ! 🔥

Music from Uppbeat (free for Creators!):
License code: AWYRBAO3W2C2GGO0
Рекомендации по теме
Комментарии
Автор

Hello Willis je ne peux pas te répondre pour DBT de mon côté je gère la partie transformation avec Semarchy xdi et quant à ta question concernant sa capacités à gérer de fortes volumétrie cela dépend totalement de la capacités mémoires du runtime et de la performance du SGBD. Donc par exemple si tu es sur un linux on premises bases Postgres tu vas avoir de gros soucis par rapport à un runtime déployé sur GCP qui attaque une base bigquery, mais la contrepartie sera alors le coup de requetage sur bigquery.

DominiqueLenglet-bd
Автор

C'est un banger cette vidéo, MERCI !

soul
Автор

Bonjour Will, merci pour ta video, elle est vraiment concise neanmois j'ai quelques questions.
1-- Puisque tu utilises S3 comme source de stockage, n'est-il pas adequat de construire un data lake avec pour stockage S3 ?? je pense à un combo AWS Lake Formation + S3 ou alors AWS EMR + (Spark + Flink + Trino) + iceberg. Qu'en penses-tu ??
2-- Comment transmets tu les données de S3 vers Snowflake ? (à l'aide de kafka) ?
3-- N'est-il pas interessant de diposé d'une BD analytics et orienté colonne telle que Druid ??
4-- Data quality -- as-tu eu à tester great expectations ??
5 -- N'aurait-il pas de place pour du sematic layer dans cette architecture ??

Donnes moi ton avis sur ces diffents points stp

filmsreview
Автор

Bonne vidéo. De mon côté, j'aurais plutôt utilisé Scala et le framework Spark pour la partie transformation "technique" réalisée par des Data Engineers, et dbt pour les transformations impliquant une logique métier par les Analytics Engineers/Data Analysts. Cela rajoute une couche, mais permet de mieux répartir la charge et scinder les périmètres.

Et pour la partie liée à la qualité de données, tu peux effectivement utiliser Great Expectations et/ou la librarie dbt-expectations qui évite de rédiger des macros custom 😉 Il faudrait aussi que je creuse les outils OS de dashboarding (evidence, Rill...) car Tableau coûte une blinde 😂

BigQueyrie
Автор

Merci beaucoup! J’adore vraiment le format. Juste curieux, pour la partir data Storage, pourquoi stores-tu les données en tant que flat files, au lieu de choisir une base de donnée e.g. sql server ?

YannManUtd
Автор

Super vidéo Willis est ce que tu aurais des ressources pour les entretiens de System Design mais pour ML Engineer

MaxTheKing
Автор

Super intéressant, merci pour cet exercice

kojotv
Автор

super intéressant mais comment avoir cette culture business ?

SM-vzek
Автор

niveau data transformation on peut utiliser databricks aussi pour les gros volumes de donnée c'est nickel

didjo
Автор

Par contre je rajouterai trino en dessus de dbt pour interagir avec s3 ^^ à moins que dans ton airflow tu fais un COPY STAGE de s3 vers snowflake

stefen_taime
Автор

Toujours concis et précis dans tes explications, un grand big up à toi 😉😉.Une question pourrais-tu nous faire une prez sur les BD Vectorielles et les cas d'usages? merci d'avance

azobensadio
Автор

Merci bcp Willis, je comprends mieux l'architecture data.
Quel est l'intérêt de faire une présentation à partir des données récupérées dans snowflake, vu que la transformation se fait avec dbt?
Merci.

akotchayebatcho
Автор

Mais si tu utilises Kafka pour l’ingestion, tu risques de stocker des données sales dans Snowflake, non ?

kidam
Автор

Du coup les données dans S3 vont être importées dans snowflake et c’est la qu’on utilisera dbt non?

ruddynzita
welcome to shbcf.ru