Parquet - Internals: Um Estudo Detalhado.
LINK.
Olá pessoal!
Mais uma edição da minha newsletter e com ela, mais um blog post trazendo conteúdo técnico.
Na minha caminhada para Engenharia de Dados, percebi, não de hoje, que Parquet é o formato de arquivos para armazenar dados mais utilizado e que, sendo assim, precisava me debruçar para compreender.
Parquet é utilizado para persistir dados do dataframe (geralmente). Não confundir com Storage Layer.
Há um ano e um pouco mais, eu escrevi um artigo sobre o Spark e comecei a arranhar essa ideia (aqui).
Como ficou incompleto e bem superficial, decidi voltar nesse assunto para estudar com mais seriedade.
UMA SEMANA DEPOIS
Com mais de uma semana estudando e lendo artigos e a documentação, consegui desenvolvi meu próprio entendimento que se tornou esse artigo no meu blog.
Devo dizer que foi um estudo denso e bem complexo, principalmente pela forma como ele está estruturado.
SOBRE O PARQUET
Parquet é um formato colunar, rápido, organizado em diversos metadados e grupos de linhas que organizam as colunas para escrever os dados.
Por conversar muito bem com Apache Spark e Databricks, e ambos são amplamente utilizados pela indústria, ele acabou se tornando o formato de arquivo mais popular para esse tipo de carga de trabalho e armazenamento.
Entender Parquet é a base para conhecimentos mais profundos como Iceberg - que pretendo trazer em breve.
Assim sendo, abaixo está o link para acessar o blog e ler como o artigo funciona.
Espero que gostem, Deus vos abençoe!
Machine Learning Engineer | MLOps
3 semExcellent!