Ir para o conteúdo

📓 Notebook 002 — Camada Bronze

Arquivo: notebooks/002_bronze.py

Objetivo

Ler os CSVs do volume landing.dados e persistir como tabelas Delta Lake no schema bronze, adicionando metadados de auditoria.

Fluxo

/Volumes/workspace/landing/dados/*.csv
          ↓  spark.read.csv()
     DataFrame Spark
          ↓  withColumn(metadados)
     DataFrame + data_hora_bronze + nome_arquivo
          ↓  write.format("delta").saveAsTable()
     bronze.{tabela} (Delta MANAGED)

Tabelas geradas

Tabela Bronze Registros
bronze.apolice 40
bronze.carro 40
bronze.cliente 20
bronze.endereco 20
bronze.estado 15
bronze.marca 8
bronze.modelo 16
bronze.municipio 20
bronze.regiao 5
bronze.sinistro 80
bronze.telefone 20

Por que Delta Lake?

  • ACID transactions — garante consistência mesmo em falhas
  • Time Travel — permite consultar versões anteriores dos dados
  • Schema Evolution — suporte a mudanças de schema
  • Compaction & Optimization — melhor performance de leitura