Ir para o conteúdo

📓 Notebook 003 — Camada Silver (Data Quality)

Arquivo: notebooks/003_silver.py

Objetivo

Aplicar regras de Data Quality nos dados Bronze e persistir na camada Silver com nomenclatura padronizada.

Regras aplicadas

# Regra Implementação
1 Remover duplicatas df.dropDuplicates()
2 Filtrar PKs nulas df.filter(col(pk).isNotNull())
3 Padronizar nomes de colunas Expansão de prefixos abreviados
4 Maiúsculo em todos os nomes colname.upper()
5 Remover colunas Bronze Drop de data_hora_bronze, nome_arquivo
6 Adicionar metadados Silver NOME_TABELA_BRONZE, DATA_HORA_SILVER

Exemplo de transformação de colunas

Antes (Bronze) Depois (Silver)
cd_cliente CODIGO_CLIENTE
nm_cliente NOME_CLIENTE
dt_nascimento DATA_NASCIMENTO
vl_premio VALOR_PREMIO
uf SIGLA_ESTADO