📓 Notebook 002 — Camada Bronze¶
Arquivo: notebooks/002_bronze.py
Objetivo¶
Ler os CSVs do volume landing.dados e persistir como tabelas Delta Lake no schema bronze, adicionando metadados de auditoria.
Fluxo¶
/Volumes/workspace/landing/dados/*.csv
↓ spark.read.csv()
DataFrame Spark
↓ withColumn(metadados)
DataFrame + data_hora_bronze + nome_arquivo
↓ write.format("delta").saveAsTable()
bronze.{tabela} (Delta MANAGED)
Tabelas geradas¶
| Tabela Bronze | Registros |
|---|---|
bronze.apolice |
40 |
bronze.carro |
40 |
bronze.cliente |
20 |
bronze.endereco |
20 |
bronze.estado |
15 |
bronze.marca |
8 |
bronze.modelo |
16 |
bronze.municipio |
20 |
bronze.regiao |
5 |
bronze.sinistro |
80 |
bronze.telefone |
20 |
Por que Delta Lake?¶
- ACID transactions — garante consistência mesmo em falhas
- Time Travel — permite consultar versões anteriores dos dados
- Schema Evolution — suporte a mudanças de schema
- Compaction & Optimization — melhor performance de leitura