8 conceitos de Big Data para impressionar o crush
Crush é aquela pessoa pela qual você está apaixonado. É aquela moça ou rapaz que você não tira mais os olhos e sente um frio na barriga só de estar perto.
Se você não conhecia essa gíria, assim como eu até poucos dias atrás, não fique desanimado (e nem pare de ler!). Aprender novos termos e novas formas de se comunicar também faz parte da nossa formação profissional.
Assim como os jovens e adolescentes, a Computação está constantemente trazendo novos dialetos e causando confusão na mente de profissionais experientes.
Um exemplo claro e atual é o novíssimo dialeto de Big Data. Já faz um bom tempo que ele tem chamado a atenção e confundido a cabeça de muita gente.
Se você está apaixonado por alguém e quer conquistar essa pessoa, a melhor simpatia que posso te recomendar é mostrar a ela os 8 conceitos seguintes de Big Data. Tenho certeza de que ela ficará encantada em descobrir que você conhece esse assunto tão profundamente.
#1 Big Data
Vamos começar pelo básico. O que é Big Data?
Sempre que eu dou uma aula ou faço uma palestra sobre o assunto, eu nunca apresento uma definição precisa sobre Big Data. Até mesmo porque esse conceito tem sido tão mal definido nos últimos anos que todas as definições que você encontrar por aí continuarão não expressando o real ganho que esse novo conjunto de tecnologias pode trazer.
Como fazer então? A melhor forma de entender o conceito de Big Data é observando e comparando as metodologias de aplicação sob a ótica de 3 pontos de vista já muito bem discutidos pela comunidade técnica: volume, velocidade e variedade.
#2 Volume
Quando falamos de volume em Big Data, estamos pensando também em recursos de infraestrutura: memória principal (RAM), memória secundária (HD, SSD), CPU, etc.
Se o volume de dados que você tem disponível “cabe” na memória principal, você não está “fazendo” Big Data. Mesmo que o seu computador tenha 2 TB de memória RAM e você tenha 2 TB de dados, você não fará Big Data se utilizar todos esses dados em um único espaço de armazenamento.
#3 Variedade
Se na era do Small Data nós trabalhávamos com apenas um formato de dado, na nova era do Big Data é possível trabalhar com qualquer tipo de informação.
O antigo formato tabelado presente em todo sistema gerenciador de dados (Excel, MySQL, Oracle, etc.) não somente não é o tipo de dado mais utilizado no mundo como passou a ser o formato que ninguém mais quer armazenar.
A transformação da informação presente em áudio, texto e imagem (não-estruturados) para as enormes tabelas de números sem significado (estruturado) também não faz mais parte do cenário do cientista de dados.
#4 Velocidade
A grande parte dos sistemas de BI apresenta informações com até 1 dia de atraso. Esse prazo se tornou tolerável porque sempre foi custoso manter sistemas online, ou seja, sistemas que podem apresentar informações em tempo real.
Quando discutimos Big Data nas empresas, a disponibilidade da informação em 1 segundo começa a se tornar um desejo e, em pouco tempo, uma realidade.
Dos 3 pilares de Big Data, este certamente é o meu favorito. Certamente você me conquistaria falando desse conceito que revoluciona as abordagens de armazenamento, processamento e análise de dados.
#5 MapReduce
Exemplo de contagem de palavras em um texto utilizando o Hadoop MapReduce.
MapReduce é uma tecnologia que emprega dois conceitos similares (mas bem distintos!) da Computação: paralelismo e distribuição.
Enquanto que na computação paralela nós queremos realizar várias tarefas ao mesmo tempo, na computação distribuída nós repartimos uma única tarefa para ser realizada por vários recursos.
Quando a Google inventou o MapReduce, a ideia era processar grandes volumes de dados em pouco tempo, utilizando recursos computacionais de baixo valor (como algo um pouco melhor que o seu notebook) e sem falhas.
Imagine autorizar a compra de produtos em 52 milhões de cartões de crédito no Brasil em tempo hábil e sem nenhuma falha!
#6 NoSQL
O termo NoSQL surgiu como um movimento para a criação de sistemas de banco de dados que não suportem apenas o formato estruturado e nem se limitem a apenas um recurso computacional.
Mesmo quebrando muitos conceitos dos anos 1970 e 1980, plataformas de dados como MongoDB, Cassandra e Neo4J conquistaram as empresas (e o coração de muitos profissionais) graças à flexibilidade e escalabilidade em armazenar e processar dados.
#7 Ingestão de Dados
Ingestão de dados é um processo que obtém, transforma e armazena dados em um sistema gestor de dados. Considerando o contexto de Big Data, esses dados coletados podem apresentar um formato não-estruturado (por exemplo, uma coleção de músicas MP3) ou estarem sendo constantemente apresentados para coleta (como a temperatura em ºC de uma lavoura que utiliza sensores térmicos).
Compreender e conectar a heterogeneidade desses dados é o grande desafio da ingestão. Ao contrário do processo de ETL, que lida com dados com maior significância, a ingestão preocupa-se em disponibilizar a informação em um repositório de dados menos formal e com uma menor padronização. A coleção de músicas e a temperatura do campo estarão no mesmo ambiente, chamado Data Lake.
#8 Data Lake
Se o Data Warehouse é um depósito de dados que serve para armazenar a informação que você irá utilizar naquele instante, o Data Lake pode ser entendido como um repositório de dados "nus e crus" que não têm uma finalidade ainda definida.
No Data Lake armazenamos dados estruturados e não-estruturados sem nenhum propósito. Eles estão lá até o dia em que decidirmos utilizá-los. E quando esse dia chegar, utilizaremos um Data Warehouse para transformar os dados em informação útil e legível.
E aí, de todos esses conceitos, qual é aquele que conquistou o seu coração? Deixe que o seu crush fique sabendo nos comentários.
***
Leia também
- Por que as pesquisas eleitorais falham?
- 5 passos para se tornar cientista de dados
- A melhor definição de Machine Learning ainda é esta
***
Orlando Silva Junior é um militante apaixonado por soluções computacionais mais inteligentes. Trabalha como professor de graduação em uma das faculdades mais tradicionais de SP e professor de pós-graduação em um curso de especialização em Ciência de Dados. Trabalhou como cientista de dados no maior banco privado da América Latina e se especializou no mercado financeiro.
Publico diariamente sobre mercado e carreira em Inteligência Artificial. Mantenho contato com uma rede de profissionais interessados em Data Science:
- Se estiver interessado em fazer parte dessa rede, me adicione;
- Se estiver procurando profissionais para a sua empresa, me envie uma mensagem inbox.
Servidora pública | Secretaria de Estado de Saúde de Minas Gerais
6yAfonso Vieira Davi
Coordenador de Banco de Dados @ Itaú
6y#MapReduce 😍