Hoje finalizei o curso da Engenharia de Dados Academy apresentado pelo Luan Moreno sobre Data Vault, recomendado pelo Felipe Siqueira. O tema é incrível e especialmente útil em aplicações de integração, onde os sistemas podem mudar regularmente. No meu caso, com um sistema de fornecedores que possui tabelas em ambientes distintos para clientes, fábricas e pedidos, os métodos tradicionais frequentemente resultavam em retrabalho. Por exemplo, se um vendedor inserisse nova informação no sistema de CRM que precisasse estar em relatórios, isso exigia ajustes complicados e demorados, sujeitos a erros.
Com o conceito de Data Vault de Dan Linstedt, podemos criar um ambiente menos rígido. Os principais componentes são Hubs, Satellites e Links. Hubs armazenam chaves de negócio, como o CNPJ para cada fábrica, garantindo uma única versão da verdade. Satellites mantêm atributos como nome, telefone e e-mail, permitindo múltiplas fontes de dados (por exemplo, mongodb_fabric e sqlserver_fabric) sob a mesma chave de negócio mas em tabelas diferentes independentes. Links conectam diferentes Hubs, como no caso de pedidos, usando uma hash concatenando chaves de clientes e produtos/fábricas, facilitando a integração entre Hubs e a busca de informações nas Satellites.
Este é apenas o começo do que o Data Vault oferece. Além do Row Vault, onde são definidos Hubs, Satellites e Links, há o Business Vault, que inclui tabelas com point-in-time, bridge e agregações.
Recomendo começar com o workshop do Luan Moreno para um ponto de partida, seguido de aprofundamento. Na Programmers - Beyond IT (Brasil), já estamos discutindo e implementando o Data Vault em nossos projetos internos.
#datavault #lakehouse
Técnico de Seguros III Equipe de Processos e Inteligência de Dados - SICOOB - CCS
3 mParabéns, Cassio