O que é qualidade de dados e porque eu preciso dela?
A esta altura, você já deve ter ouvido inúmeras vezes sobre a importância de considerar os dados como ativos organizacionais, e ainda sobre a necessidade de implementação de uma cultura cada vez mais orientada a dados. O famoso e cobiçado termo “data driven” nunca esteve tão em alta. Mas o que não podemos esquecer, é que para que seja possível atingir a maturidade na cultura de dados, a implementação de ações voltadas para a governança e garantia da qualidade dos dados se faz extremamente necessária ao longo de todo o processo.
Pra você ter uma ideia, de acordo com estudos da Gartner (2021), todos os anos a má qualidade dos dados custa às organizações em média 12,9 milhões de dólares. Isso significa (além do impacto imediato na receita) um aumento bem relevante na complexidade dos ecossistemas de dados, além de inúmeros retrabalhos e tomadas de decisão cada vez piores. No fim das contas, são realizados investimentos altíssimos em tecnologias robustas, mas que na maioria dos casos estão descasadas da real necessidade do negócio e acabam recheadas de dados incorretos.
Nesse contexto, vale ter em mente que os dados (diferentemente de outros ativos organizacionais) tem a característica da intangibilidade. Ou seja, você não consegue copiar um veículo ou imóvel da sua lista de ativos, mas pode copiar e replicar tranquilamente os dados entre camadas informacionais e transacionais em velocidade surpreendentemente alta, e inclusive disponibilizá-los instantaneamente aos interessados. E é aí que surgem grande parte dos desafios de governança e qualidade, para garantir que todos esses dados estejam íntegros, válidos e confiáveis ao longo dos seus ciclos de vida.
O Conceito
Antes de mais nada precisamos ressaltar que o Data Quality é um programa e não um projeto, e o seu sucesso é medido a longo prazo. Ele depende da implementação de mudanças culturais e da promoção de uma mentalidade coletiva extremamente voltada à dados. Portanto, saiba que o assunto não é de responsabilidade de uma pessoa ou área em específico, e sim de todos os colaboradores que utilizam dados para desempenhar suas atividades... São eles, os verdadeiros impulsionadores das ações.
A qualidade de dados nada mais é do que o conjunto de características determinantes para que um dado desempenhe as finalidades a que se propõe, considerando também o conjunto de processos existentes para monitorar, medir e melhorar essas características. Logo, são considerados de alta qualidade os dados que atendem às expectativas e as necessidades dos seus consumidores, e que se mantém vivos, disponíveis e atuais ao longo do tempo.
As Dimensões da Qualidade de Dados
Um outro aspecto importante, é que o conceito de qualidade de dados não fica restrito somente à estrutura e forma, mas abrange também diversas dimensões existentes ao seu entorno. Veja a relação disponível abaixo, que exemplifica bem essas dimensões e pode te ajudar a tangibilizar melhor o que estamos falando:
· Completude: garantir que todos os atributos de dados de um determinado registro estejam presentes. Exemplo de falta de completude: cep, rua, número, cidade e estado de um endereço estão preenchidos, porém a informação do bairro está em branco.
· Unicidade: garantir registros identificados corretamente e sem duplicidades. Exemplo de falta de unicidade: dois clientes diferentes estão com um mesmo número de identificação (seja CPF, matrícula, ID Único de Cliente, etc.)
· Razoabilidade: garantir coerência entre os registros. Exemplo de falta de razoabilidade: data da emissão de uma nota fiscal é anterior à data de compra do produto pelo cliente.
· Integridade: garantir que não existam conflitos entre valores/conjuntos de dados entre sistemas ou aplicações. Exemplo de falta de integridade: mesmo cliente possui datas de nascimento diferentes entre bases de dados.
· Temporalidade: garantir que o dado esteja disponível no tempo e forma esperados pelo negócio. Exemplo de falta de temporalidade: assento em um estádio de futebol está sendo exibido como disponível para compra em sistema, mas já foi vendido a outro cliente.
· Validade: garantir que a forma estrutural do dado está sendo seguida conforme definição. Exemplo de falta de validade: CPF do cliente apresenta 10 dígitos; CPF do cliente apresenta 11 dígitos zerados.
· Cobertura: garantir a existência de dados de determinada região ou posição geográfica. Exemplo de falta de cobertura: estudo para oferta de um determinado produto no Estado de São Paulo, não contempla o comportamento de clientes da cidade de Santo André.
· Precisão: garantir que os dados sejam fiéis à realidade. Exemplo de falta de precisão: todos os dados do endereço do cliente são da Av Paulista mas o CEP informado (apesar de válido) corresponde a um endereço da Av Berrini.
A execução
Esclarecidos os devidos conceitos, você deve estar se perguntando: “Certo! E como fazer tudo isso acontecer?”. Bom, como já falamos, o programa de qualidade de dados é de responsabilidade de todos e a execução do trabalho vai se apoiar na combinação de drivers de negócio e drivers técnicos para que seja possível chegar ao resultado.
Recomendados pelo LinkedIn
· Drivers técnicos: são todos os aspectos técnicos necessários para viabilização do programa, podendo se dividir da seguinte maneira:
- Ferramentas: repositórios de metadados e linhagem, ferramentas de integração de dados, aplicações de Analytics;
- Métricas: métricas de acompanhamento, índice de satisfação dos consumidores de dados, tempos de resposta às métricas de acompanhamento, percentual de cobertura de um determinado dado;
- Técnicas: frameworks viabilizadores dos requisitos de qualidade, formas seguras de democratização de acesso aos dados, compartilhamento das análises e informações sobre auditoria na qualidade dos dados;
· Drivers de negócio: são todos os direcionadores e impulsionadores de negócio que justificam a adoção do programa, englobando inclusive os responsáveis por cada etapa. Entram aqui, todos os requerimentos de negócio e o mapeamento de toda a estrutura existente para suportá-los, operacionalizá-los e proporcionar escalabilidade. Considera-se ainda, toda a estratégia do negócio, levando em conta a combinação entre as políticas, padrões e processos existentes.
E por onde começar?
Um bom ponto de partida para iniciar qualquer programa voltado a qualidade ou governança de dados, é a realização de um Assessment (no modelo de entrevista, de questionário estruturado, ou qualquer outro mais adequado ao seu cenário) para que você tenha uma ideia mais direcionada de onde estão alocados os principais pontos de dor do seu público. Tenha certeza de que essa etapa (muitas vezes negligenciada), vai te dar um bom ponto de partida e um direcionador mais claro para as ações.
Feito isso, mão na massa! Vale analisar os resultados do Assessment e priorizar os pontos que sejam escaláveis, mensuráveis e que estejam alocados em áreas/estruturas que estão verdadeiramente “compradas” com o tema. Considerando esses três requisitos, você automaticamente trabalhará nos dados mais críticos para o público em questão e já parte para a estruturação de entregas que apresentem mais geração de valor.
A partir daí você consegue seguir de forma mais estruturada para a descoberta, o entendimento e a documentação de todos os dados, a definição das métricas de acompanhamento, a identificação de papéis e responsabilidades, a institucionalização de políticas e padrões e a definição dos processos de sustentação necessários para acompanhamento de toda essa cadeia de ações.
Algumas entregas de valor que deverão surgir naturalmente deste trabalho, estão descritas abaixo. Lembrando que aqui o rol é exemplificativo, ok? (com certeza haverão muitas outras dentro do seu contexto).
· Catálogo de Dados: o significado dos dados, regras de criação/atualização envolvidas em cada cenário, os owners/stewards relacionados, são alguns exemplos de informações que estarão estruturadas e disponíveis de maneira mais clara e padronizada. Isso viabiliza uma maior democratização dos dados e consequentemente mais autonomia e agilidade na realização de análises.
· Glossário de Termos: padronização nos entendimentos, evitando reports de informações divergentes para cenários que são idênticos. Um exemplo básico é o do termo “cliente ativo”. Será que todos os consumidores de dados sabem quais são os critérios necessários para se classificar um cliente como ativo?
· Linhagem de Dados: a origem e destino dos dados fica clara e os possíveis impactos em uma mudança nos dados se tornam mais fáceis de prever. Além disso, os relacionamentos entre os dados ficam evidentes, o que permite a inclusão de pontos de controle que evitem quebras ou perdas de informações.
· Definição de processos, procedimentos e políticas: quem faz o quê, de que forma e em quanto tempo. Isso permite a identificação das etapas percorridas por cada ator ao longo da cadeia, quais os prazos envolvidos e as regras a serem seguidas. No fim das contas, são essas definições que vão garantir que todas as ações implementadas não se percam ao longo do tempo.
· Métricas de Acompanhamento: aqui, você vai implementar e acompanhar todas as métricas necessárias para viabilizar um monitoramento eficaz de todos os mapeamentos, desenvolvimentos e processos implementados. É esta entrega que vai te permitir corrigir a rota quando necessário e endereçar melhorias de forma contínua.
Fica evidente portanto, que a implementação de ações de qualidade de dados é peça fundamental para que se atinja um novo patamar na estratégia de geração de novos negócios. Dados corretos e disponíveis permitem geração de novos insights, tomadas de decisão seguras e assertivas, mais agilidade e efetividade operacional, e um posicionamento bem mais competitivo frente às imprevisibilidades do mercado.
Referências:
Business Analytics & SAP BPC/Group Reporting - Consultant Consolidation
2 aParabéns pelo conteúdo
SAP Material Master Data - Analista em Cadastro / Gestão de Materiais e Serviços / PDM / Script SAP VBA
2 aMuito bom Vivian, parabéns pelo artigo! Bem completo e de fácil entendimento.. Parabéns....
Data Governance Manager at Neoway & Neurotech - B3 Group | Data Quality | Data Privacy | Data Driven Culture
2 aExcelente artigo, parabéns! 👏👏
Engenheiro de Dados | Estratégia de Dados | LGPD | SQL | Oracle | Google Big Query | Qualidade de Dados | MDM | Integração de Dados | Compra de Dados | Modelagem de Dados | Governança de Dados | Otimização de Dados
2 aMuito bom <3
Analista de Governança e Qualidade de Dados - Banco Bradesco | Membro ANPPD® | Indicadores | Processos | Green Belt
2 aMuito bom 👏👏👏… Forma simples, direta e assertiva no tema tão importante!!!