Exemplo de arquitetura lakehouse! Esse é uma maneira de explicar bem como engenharia de plataforma de dados funciona na pratica. Suponha que você esteja construindo uns dashboards para departamento de contabilidade de uma empresa de comércio eletrônico. Esse departamento gostaria de visualizar e entender o total de vendas(transação) e receita(faturamento) de um determinado produto em diferentes períodos de tempo. Empresa ingere 1 GB de dados de transação a cada minuto. Esse volume de dados de transação varia ao longo do dia, dimensionar o cluster e armazenar os dados em arquivos de "tamanho certo" é desafiador porque o volume de ingestão de dados é bastante diferente. Sendo que a equipe apenas gostaria que os dashboards renderizassem rapidamente, deve ser atualizado com dados a cada hora, mas cálculos não precisam ser exatos (pequena margem de erro é OK no painel para diminuir o tempo necessário para renderização). Essa é uma ideia de como pipelines de ingestão podem ser estruturados: - Kafka para ingerir dados de transação em tabelas Bronze-Delta em maneira brutas. - Apache Spark para conectar conjuntos de dados, limpar dados e criar tabelas Silver-Delta. Nessa camada, transações são deduplicadas e são conectadas também com tabelas de cadastro de clientes e catalogo de produtos. - Conecte ferramenta de BI como Tableau para consultar tabelas Gold-Delta para criar dashboards e análises. Isso trazer para empresa informações atualizadas sobre o volume de vendas, total de receita e total único de clientes e permitirá que consulte facilmente diferentes períodos de tempo. Essa vai ser a explicação mais CLARA que você vai encontrar sobre lakehouse! Curta, comente e compartilhe para chegar ao maximo de pessoas.
Eu não faria nada disso. Apache flink pode gerir uma camada delta. O tamanho das operações para implementar isso, vai jogar pela janela o orçamento da empresa. Google Bigquery ou Snowflake acho bem melhor.
Master Data Specialist - Data Architect | Data Engineer @ CI&T
1 mFelipe Bleson