ENTENDENDO A TRANSFORMAÇÃO DIGITAL: a complexidade da Mineração de Dados.
O processo de extração de conhecimento de banco de dados é conhecido como KDD (Knowledge Discovery in Database). Este proesso essencialmente garante que conhecimento útil seja extraído de dados. No centro deste processo está a Mineração de Dados.
O que é Mineração de Dados? A Mineração de Dados trata da busca de padrões coerentes em grandes volumes de dados mediante a aplicação de diferentes tipos de algoritmos computacionais.
A complexidade do processo de Mineração de Dados reside na execução concorrente de vários procedimentos e no alto número de variáveis envolvidas. A necessidade da contínua interação com o Negócio e a constante necessidade de validação dos resultados parciais tornam o processo ainda mais complexo.
A Mineração de dados começa no Negócio. O Negócio define os objetivos que direcionam todo o processo de Mineração. A forma como estes objetivos são definidos gera um amplo espectro de possíveis resultados. No nível mais simples do espectro, os objetivos do Negócio são delineados por hipóteses pré-definidas que serão posteriormente comprovadas (Business Intelligence) No outro extremo do espectro, os objetivos do Negócio são definidos por questionamentos que os dados precisam responder (Knowledge Discovery in Database), fornecendo ao Negócio insights para a formação de novo conhecimento.
Uma vez definidos os objetivos do Negócio identificam-se seus requisitos. A definição dos requisitos do Negócio deve ser clara e consistente, já que os requisitos estabelecem premissas para o seguinte passo do processo e ainda determinam o os critérios de validação dos resultados obtidos na execução do processo de Mineração.
Os requisitos para o Modelo de Dados são definidos a partir dos requisitos do Negócio e estabelecem a diretrizes para a construção do Modelo de Dados. Um Modelo de Dados é um conjunto definido de dados e um algoritmo que será aplicado a eles para a obtenção dos padrões de dados que se caracterizam o produto da Mineração de Dados.
A construção do Modelo de Dados acontece mediante a ação de três procedimentos que são executados concorrentemente, onde cada um deles gera impactos nos outros dois. Estes procedimentos são: conhecimento e tratamento dos dados, definição dos algoritmos a aplicar nos dados e definição da ferramenta para construir o Modelo de Dados.
Conhecimento e tratamento dos dados. Conhecer os dados (tipo, conteúdo, relacionamentos, etc.) é fundamental para escolher os componentes usados para integrar o Modelo de Dados. Os dados precisam ser validados, tratados e integrados para poder atender os requisitos definidos para o Modelo. A intervenção do Negócio em este procedimento é fundamental.
Definição dos algoritmos. Neste procedimento escolhe-se o algoritmo que será aplicado nos dados para construir o Modelo. O conjunto de opções é muito amplo! Existe uma longa lista de questões que devem ser respondidas até se encontrar o algoritmo mais adequado. Deseja-se gerar um modelo de predição, de classificação, estimar, segmentar ...? Serão usados arvores de decisão, k-Means, análise de texto...? Quais tipos de dados comporão o Modelo? ...
Definição da Ferramenta. A ferramenta deve estar de acordo com os dados e com o algoritmo escolhido. Cada ferramenta suporta diferentes tipos e volumes de dados e diferentes tipos de algoritmos. Também cada ferramenta demanda diferentes recursos de Hardware. Algumas ferramentas apresentam recursos de visualização. A visualização é uma ótima opção para facilitar o processo de mineração. Algumas ferramentas apresentam a possibilidade de diferentes configurações para cada algoritmo que permitem aplicar. As diferentes configurações oferecem opções para explorar mais amplamente o algoritmo escolhido permitindo gerar diferentes Modelos da Dados.
Os três procedimentos convergem para a construção do Modelo de Dados. O Modelo e Dados é aplicado aos dados selecionados gerando padrões que voltam volta ao Negócio para ser validados.
Complexo? Sem dúvida!!!!
Quer saber mais?
Vamos conversar! Entre em contato pelo Linkedin ou pelo meu e-mail: beatriz@dehtearKM.com
Leia também:
ENTENDENDO A TRANSFORMAÇÃO DIGITAL : Organizações Orientadas a Dados
ENTENDENDO A TRSNAFORMAÇÂO DIGITAL: o novo caminho para a Inovação.
Programador Sênior, expertise em PHP, Angular, WebRtc, UI. Senior Programmer, expertise in PHP, Angular, WebRtc, UI.
4 aParabéns pelo conteúdo, grato pelo conhecimento oferecido,