A definição acadêmica diz que dados são fatos isolados coletados, geralmente, da observação (OECD). Eles são brutos no sentido em que, isolados, não conseguem transmitir uma mensagem clara. É preciso que algum processo de inteligência gere informação - que tem significado prático para suportar a tomada de decisão. Categorizamos os dados em: Estruturados - são organizados seguindo parâmetros específicos. O principal formato são tabelas e cada linha representa uma entidade do mundo real. Tipicamente, esse tipo de dado é consultado pelo #SQL, o que facilita para usuários de negócio gerarem valor. Semiestruturados - possuem algum tipo de organização, mas não chegam a ser completamente estruturados. São formatos facilmente processados pelas máquinas e manipulados por humanos, por isso são comuns em algoritmos - como o #JSON e o HTML. Não estruturados - não possuem hierarquia e coesão clara. É um tipo amplo e abrangente e costuma vir na forma de #bigdata: vídeo, imagens, áudio, #IoT, documentos de texto. Devido a natureza complexa, são mais usados por engenheiros e cientistas de dados, com ferramentas especializadas como os bancos de dados #nosql - MongoDB, #hadoop, Spark, entre outros. Os cases típicos são #datascience, data mining, #machinelearning, analytics preditivo.