Os GRANDES desafios de escalabilidade dos dados nas empresas
Como enfrentar muitas demandas com times enxutos, identificar as principais dores e escalar as soluções de dados
Big Data, data science, inteligência artificial, Business Intelligence, Data-driven, transformação digital e dashboards. Estas são palavras que lemos frequentemente no LinkedIn hoje em dia. O que todas elas têm em comum é a inserção de tecnologia e dados na rotina da companhia.
De acordo com a PwC, uma 4 das maiores multinacionais de consultoria e auditoria do mundo que se baseou em um estudo da Harvard Business Review, temos a seguinte conclusão:
“As empresas que investem em big data e analytics em suas operações podem superar seus pares em 5% em produtividade e 6% em lucratividade.”
Ao ver toda essa vantagem competitiva, nenhuma empresa quer ficar de fora. E assim, com o sonho de utilizar inteligência artificial, rodar modelos estatísticos e até mesmo relatórios gerenciais automatizados, um funcionário toma para si a responsabilidade, ou uma pessoa é contratada para essa missão.
A partir daí, ela começa a desenvolver e entregar muitos projetos, até que, em algum momento, enfrenta jobs longos demais, pipelines de dados que quebram no meio do caminho e a falta de entrega de novos projetos. Pronto! Nos deparamos com o grande desafio de escalar produtos de dados nas empresas.
Neste artigo, vamos nos aprofundar nesse ponto tendo como roadmap:
Fonte: Unsplash
O cenário caótico de dados
Se você se deparou com os problemas levantados na seção anterior, você não está sozinho nessa.
Provavelmente, você é a primeira pessoa da área de Dados (quando ainda se tem área), a pessoa do “BI” ou, então, uma das primeiras pessoas contratadas como cientista de dados/analista de dados na empresa.
O cenário cada vez mais caótico e você perdendo o controle é muito comum, uma vez que a área de Dados serve como suporte ao negócio (apesar de gerar muito valor), além de ser também um fenômeno muito recente (vide o gráfico abaixo que representa o aumento da quantidade de dados transacionados).
Fonte: Statista (Global №1 Business Data Platform)
Desse modo, em uma grande parte das empresas, a “área de dados” se desenvolve de forma paralela e sem muitos recursos. E se pensarmos no cenário das Startups, como a Conta Simples, fintech onde trabalho, os dados aumentam em uma velocidade muito grande: o que antes era feito em uma planilha em Excel já não suporta mais a base de dados, que precisa de um banco SQL.
Com isso, o panorama muitas vezes é:
No final, devido às muitas demandas somadas às características citadas anteriormente, a sustentação começa a ser muito demorada e difícil.
Até chegar ao momento em que não é possível mais crescer o produto, apenas manter ele rodando, e ainda assim, quando é possível com os recursos disponíveis.
Vale lembrar que, se a sua empresa ainda não tem uma massa tão grande de dados, é possível que o cenário caótico descrito acima ainda não tenha chegado. No entanto, com o aumento do volume de dados disponíveis maior a cada ano (em 2025, será quase o triplo de 2020) e com os benefícios de ter os dados para tomada de decisão e agregar valor ao negócio, é interessante investir ou desenvolver em mais pessoas que trabalhem com dados.
Entendendo os problemas a serem resolvidos
Agora que já vimos que não conseguimos mais manter os modelos de machine learning, o pipeline de dados sem quebrar por uma semana e os dashboards gerenciais automatizados, é sinal de que precisamos olhar para as bases.
Fonte: Post “The AI Hierarchy of Needs”, de Monica Rogati Think of Artificial Intelligence as the top of a pyramid of needs. Yes, self-actualization (AI) is great, but you first need food, water, and shelter (data literacy, collection, and infrastructure).
Para sintetizar esse processo, retirei tanto o texto quanto a imagem de um mesmo post da Monica Rogati, ex-Cientista de Dados Sênior do LinkedIn, que resume bem o que estamos falando sobre entregar muitos produtos sem antes ter a coleta, armazenamento exploração e categorização dos dados, o que é a base da ciência de dados bem feita.
É óbvio, e todos sabemos: não se começa a construir a pirâmide pelo topo. Assim, não adianta construirmos muitos modelos de machine learning e diversos dashboards/análise de dados em produção utilizando uma máquina ligada 24 horas, sem utilizar as melhores práticas. É preciso olhar para as bases da pirâmide e repensar tudo o que envolve dados na companhia.
Construindo as bases da pirâmide (coleta, armazenamento, transformação e categorização)
Trabalhar a base da pirâmide significa fazer atividades de engenharia de dados. Uma tarefa nada fácil, mas extremamente necessária, como citado neste post do Sionek que aborda a falta de conteúdo sobre produtização de modelos e scripts na área.
Para exemplificar as tarefas acima, neste post, Robert Chang, contratado como cientista de dados do Airbnb e reconhecido na área de data science, contou sua história sobre os primeiros trabalhos que desenvolveu que não tinham nada de tarefas de cientista, e sim de engenheiro. Isso devido à necessidade de criar as estruturas antes de treinar um modelo de IA.
Recomendados pelo LinkedIn
Nesse sentido, desde o data warehouse, passando pelo data lake e agora com o conceito do data lake house, temos uma plataforma de dados, onde são realizadas as etapas de coleta, armazenamento, transformação e categorização do dado.
Com o intuito de construir essa plataforma, é preciso ter uma equipe engajada e disposta a estudar bastantes as novas ferramentas de mercado. Além disso, ela também deve ter o perfil “hands-on” de colocar a mão na massa e testar novas soluções que diminuam a quantidade de erros, sejam mais resilientes e mais rápidas.
Vale lembrar que, antes de começar o desenvolvimento, temos a etapa de definição da arquitetura da plataforma, sendo essa uma das principais funções do arquiteto de dados ou engenheiro de dados sênior/especialista. Ele é o encarregado de definir a arquitetura de cloud (quais serviços utilizar), escolher a ferramenta correta, definir se é vantagem utilizar ou não o serviço gerenciado de uma ferramenta open source oferecida pela cloud.
Para chegar nesse produto com boas práticas, é necessário conhecimento em muitas tecnologias, como python, Docker, Airflow, spark, git, CI/CD, cloud (AWS, Azure e GCP são as mais comuns), arquitetura como código, entre outras.
Todas essas linguagens, tecnologias e ferramentas são responsáveis por fazer o processo de ETL ou ELT dos dados. Sendo: E = Extract, T = Transform e L = Load.
Fonte: Post “Why Robinhood uses Airflow?”, de Vineet Goel’s, no Medium
Sendo qualquer uma dessas três variáveis DW, Data Lake ou Data Lake House, conseguimos enfrentar melhor os desafios de escalabilidade. Pois, com os dados estruturados e em uma única plataforma, o trabalho deixa de ser repetitivo. Ou seja, o que cada cientista ou analista fazia na sua máquina, agora, pode ser automatizado e disponibilizado em um único repositório.
Democratização do acesso aos dados e cultura em toda a empresa
Tendo em mente que a nova plataforma de dados facilita o acesso à informação e que antes o dado vinha desestruturado (formato .json, por exemplo), com linhas duplicadas e sem métricas de negócios, agora, ele vem tratado e com a segurança de que passou por toda a cadeia de processamento.
Assim, essa acessibilidade permite aos usuários de áreas como marketing, financeiro e jurídico - que antes não conseguiam a informação ou conseguiam a um custo alto de tempo - acessá-la de forma mais rápida e fácil.
Como podemos enxergar agora, não é só ter uma plataforma de dados, é também sobre engajar e treinar os times a utilizá-la. Com o engajamento e a plataforma temos a democratização do acesso aos dados. Ou seja, com isso, diversos times têm a liberdade de acessar o dado, tema que é abordado de forma brilhante no artigo do Medium do Airbnb “At Airbnb, Data Science Belongs Everywhere”.
Em suma, essa democratização permite que mais times acessem os dados, de modo a retirar os trabalhos mais básicos de tratamento, manutenção/desenvolvimento de dashboards simples da área de dados. Isso tudo faz com que a área trabalhe de forma mais proativa na geração de novos insights e manutenção da plataforma do que de maneira reativa aos problemas.
Lembra do estudo de por que as empresas investem em dados? Para gerarem maiores lucros e produtividade.
Então, no final, temos uma empresa que não depende exclusivamente de tudo que trate de dados de forma centralizada. Dessa maneira, mais pessoas podem gerar seus próprios insights e, assim, ainda mais valor para a companhia.
Conclusão
Neste artigo, trouxemos a problemática de como escalar produtos de dados nas empresas.
Assim, passamos pela motivação da implementação de data analytics por parte das empresas: as que investem em big data e analytics em suas operações podem superar seus pares em 5% em produtividade e 6% em lucratividade.
Nessa linha, levantamos o quanto o fluxo de dados aumentou e com perspectiva de aumento ainda maior para os próximos anos, já que as atividades de engenheiro de dados e cientista, por exemplo, se popularizaram há pouco tempo. Assim, esse é um dos fatores que levam a área a se desenvolver de forma marginal no primeiro momento.
Também falamos que esse desenvolvimento marginal tem um preço no futuro, como estagnar o desenvolvimento de novos projetos, gerar jobs muito longos e levar à dificuldade de manutenção do código. Após se deparar com esse cenário caótico, passamos pela pirâmide de hierarquia de necessidades de data science, que tem na base etapas de tratamento de dados antes de rodar modelos de machine learning, por exemplo.
Com isso, vimos a necessidade de criação de um DW, Data Lake ou Data Lake House utilizando ELT ou ETL no processamento dos dados.
Após esse processamento, vimos que, com esse repositório único de dados, conseguimos escalar as soluções de modo a padronizar a consulta em um só lugar, ganhando ainda em produtividade do time.
Por fim, falamos sobre a plataforma de dados em conjunto com o engajamento das demais áreas: temos a democratização de acesso aos dados, o que proporciona maior lucro e produtividade para a companhia. É evidente que implementar uma cultura de dados não é fácil, nem acontece do dia para a noite. É um processo longo, mas com grandes ganhos, o que não falta é exemplo no mercado.
Referências:
{We are hiring} HRBP | Talent Acquisition | DHO
2 aBruna Conegero
Analista de Dados | Engenheiro de Dados | Python | SQL
3 aExcelente artigo, Matheus Vasconcellos! Tem empresa comprando ferrari, mas nem tem gasolina pra colocar no tanque; ou então ela é tão ruim e suja que a bixinha dá partida e anda engasgando... Rsrs
Engineer | Tech lead | Data Scientist at Conta Simples
3 aFantástico!
Head de Marketing e Comunicação | Branding | Conteúdo | RP | Redes Sociais | Influencers
3 aArrasou! Artigo muito esclarecedor! 👏🏻👏🏻👏🏻
Data Engineer | Data Architect & Platform | Big Data Engineer | Data Analytics | Graph Engineer
3 aOrgulhoso de vc meu irmão, conteúdo sensacional, pra cima nos desafios de dados, tamo juntos!