Como detectar fraude usando Inteligência Artificial (Desafio: sem usar o computador)
Bom dia estimado leitor,
Agradeço por sua leitura. Hoje é dia de desafio! Vamos juntos me desafiar?
Eu espero apresentar um forma simples para que “VOCÊ” construa um modelo de “inteligência artificial” sem computador (trazendo “insights de um “case” real)! Uma outra parte desafiadora deste processo será, com SEUS DADOS, que sequer conheço, encontrar o padrão comum em todas as respostas para todos aqueles que toparem o desafio! E não é mágica! Aplicaremos "MATEMÁTICA"! Ou poderíamos dizer que faremos uso de conceitos da “inteligência artificial” com “machine learning”.
Talvez se começássemos por apresentar algumas equações:
E se dissesse a você que tais equações, aplicadas a DADOS, podem ser indicadores para estes padrões que buscaremos, fornecendo “insights” para: fraudes fiscais; evidências de análises de dados eleitorais; fraudes em dados macroeconômicos; análise, investigação e pesquisa de preços; investigação da relação entre genomas e deteção de fraude em dados científicos (papers)?
A contar pelos DADOS quando o assunto são equações, diria que este artigo seria um fracasso! Adesão paupérrima! Mas o objetivo é demonstrar que podemos nos interessar pelo uso e aplicações de inteligência artificial, começando e “entendendo” a partir de já!
Mas calma, não desanime! Faremos toda análise esquecendo todas as fórmulas acima….
Vamos ao tal desafio: dada uma sequência aleatória de números, seria possível verificar se há alterações (ou fraudes)? Podemos encontrar padrões? Poderíamos realizar esta análise de maneira simples com resultados confiáveis? Frank Benford, em 1937, descobriu ser possível, para algumas sequências númericas, ao "OBSERVAR" em seu trabalho o nível de desgaste de páginas do livro de logarítmos que era utilizado em seus cálculos.
Aqui vale lembrar que estamos falando em uma cultura de Big Data. Não dá para obtermos resultados confiáveis com alguns poucos DADOS, porém podemos afirmar que o uso de tecnologia tornou possível processar estas quantidades gigantescas de DADOS, por vezes, com quantidades gigantescas de iterações.
Para nosso desafio, faremos uso da Lei Newcomb-Benford (1937 - "The Law of Anomalous Numbers") que deve revelar desvios aos padrões que poderiam se mostrar passíveis de auditoria. Este modelo é supervisionado, pois conhecemos, com base nesta lei, qual é o padrão desejado - "ideal". Veremos a aplicação para o primeiro dígito (número da esquerda), variando de 1 a 9.
Agora poderíamos chamar as crianças pois a "inteligência artificial" vai começar:
Exemplo para sequência de números (que poderiam ser notas fiscais) / DADOS:
54, 380, 760, 3, 211, 89, 43, 97, 21, 14, 62, 100 = Total 12 números
1a. parte da diversão (separar, para os números acima, 1o. dígito de 1 a 9):
5, 3, 7, 3, 2, 8, 4, 9, 2, 1, 6, 1 = Total 12 números
2a. parte da diversão (contar, dos números acima, a quantidade dos 1os. dígitos de 1 a 9)
Dígito1 = 2; Dígito2=2; Dígito3=2; Dígito4=1;
Dígito5=1; Dígito6=1; Dígito7=1; Dígito8=1; Dígito9=1
Total 12 dígitos (1 a 9)
3a. parte da diversão (transformar os dados acima em porcentagens)
Exemplo: Dígito1 = 2/12*100 (Dois dividido por 12 vezes 100) = 16,67%
Dígito1 = 16,67%; Dígito2=16,67%; Dígito3=16,67%; Dígito4=8,3%;
Dígito5=8,3%; Dígito6=8,3%; Dígito7=8,3%; Dígito8=8,3%; Dígito9=8,3%
Total 12 dígitos 100%
PRONTO! O trabalho foi realizado! Só falta conclusão…!
Mas antes…
Pegue um papel, caneta e escreva dígitos de 1 a 9 (como fizemos acima). Agora pense que, durante todo o ano de 2019, você recebeu inúmeras notas fiscais com os mais diversos valores. Moleza! Processou?
Devemos ter inúmeras notas (DADOS) aí hein! Agora imagine qual seria a distribuição de percentagens, do primeiro dígitos, de 1 a 9 (3a. parte acima). Apenas sua opinião sobre como seria esta distribuição. Escreveu? Registre por favor! É parte importante para a sua conclusão e "insights"!
Saiba que este “exercício” possibilitará uma série bastante grande de análises de DADOS, como a que foi realizada para um pesquisador do Departamento de Pesquisas de uma instituição de saúde em São Paulo). O material que foi-lhe entregue no dia 31/01, precisamente às 17:40 da tarde, será visto a pouco. Foi solicitada a análise dos DADOS de uma pesquisa global que fora submetida a um comitê durante a abertura de um congresso de especialistas no assunto saúde, especificamente para casos de cancêr. Nesta conclusão poderemos checar o padrão, fruto de nossa análise.
Sugiro que "VOCÊ" tenha, ao menos, 1.000 (mil) Notas Fiscais de um período sequencial (não poderemos “pular” datas e, quanto mais DADOS melhor). Como sugestão, talvez você tenha acesso aos seus registros de Nota Fiscal (como a Paulista), ou conhece alguém que os tenha. Assim que tenha estes DADOS em mãos, vamos repetir os passos (1, 2 e 3). Para se ter idéia, no "case" analisado junto ao congressista, havia mais de 4 milhões de DADOS (incidência de câncer mundo afora). Confesso que ainda fico muito impressionado com alguns resultados. Dá para imaginar o que seria sensibilizar e engajar pessoas para a coleta, registro e processamento de informações em mais de 50 países?
Pasmo ao final da análise, pois eram DADOS perfeitos! Foi de arrepiar (veja abaixo)!
Padrão (VERMELHO):
Dígito1= 30,1%; Dígito2=17,6%; Dígito3=12,5%; Dígito4=9,7%;
Dígito5=7,9%; Dígito6=6,7%; Dígito7=5,8%; Dígito8=5,1%; Dígito9=4,6%
De posse de seus DADOS vamos para análise:
Primeiro comparamos os resultados encontrados com a "SUA" sugestão:
Provavelmente deve ter escrito uma distribuição uniforme, ou seja, 11,1% para todos os dígitos. Não se assuste! Até hoje não conheço ninguém que tenha feito diferente, exceto pelo conhecimento da Lei Newcomb-Benford. Isso deve-se ao fato de nossos sistemas neurais (1 e 2 - como menciona Daniel Kahneman - prêmio Nobel 2002, sobre economia comportamental), não serem tão bons assim quando o assunto é "estatística" (assunto para longas conversas).
Agora comparamos os resultados encontrados com o "Padrão":
A análise, com o uso de inteligência artificial está pronta. Veja que interessante ao comparar com nossa "intuição/sugestão". Muito provavelmente, não fosse o uso de uma outra inteligência (a artificial), teríamos resultados completamente discrepantes.
Seria de extrema importância sua análise cuidadosa sobre todos os DADOS. Não deve existir erros! E antes de qualquer conclusão, pense sobre todas as especificidades de “SEU case"). Isso poderia revelar variações passíveis de alterações aos resultados entre os índices de 1 a 9.
O resultado do desafio poderia trazer boas reflexões sobre a aplicação de inteligência artificial a problemas de tamanha importância. O objetivo é “tentar”, em poucas linhas, exercitar o uso de inteligência artificial de maneira simplista para aplicações “REAIS” que possam revelar “insights” de extrema relevância. Como para os exemplos abaixo (DADOS públicos do IBGE: https://sidra.ibge.gov.br/tabela/1612:)
Informações importantes? São dados de aproximadamente 500 municípios com informações de 1990 a 2018. Seria interessante ao Governo saber se tais informações são corretas? Sendo o Brasil um importante "player global" no "AgroBusiness"; ao pedir empréstimos, solicitar investimentos externos, seria importante que estes dados fossem confiáveis? "Os 2 casos apresentados acima possuem "p-value"<0.05 e sua análise realizada através de códigos desenvolvidos em Python"!
Para finalizar ressalto que o trabalho exige seriedade, estudo, dedicação, engajamento e bastante análise. Todo processo e resultados devem ser checados a exaustão. Não basta só “rodar” este ou aquele algoritmo. Não bastam DADOS coletados sem nenhuma responsabilidade com seu objetivo, muito menos dizer que “ISTO” tem correlação com “AQUILO”!
Para próximos artigos, vamos explorar mais sobre o tema “correlação” x “causalidade” mostrando os resultados de uma consultoria realizada para uma grande multinacional automotiva que resultou em economia de alguns milhões.
Um grande abraço…"Hasta la vista, baby"!
Sugestões: para quem deseja mergulhar mais sobre a Lei Newcomb-Benford, sugiro ampliar os estudos para 2o, 3o., 1o.e 2o. dígitos, Teste Qui-Quadrado, Discriminante de Fisher e alguns “cases”, como Enron (2001).
E para os que curtem filme, “O Contador” (The Accountant - 2016). Autista, tornando-se contador utiliza a Lei de Benford para detectar fraudes fiscais. “Spoiler Alert” - 40 minutos: descrevendo os DADOS contábeis para análise conformei a lei Newcomb-Benford / 1 hora: 3 minutos: padrões (outra técnica de análise de DADOS) / 1 hora: 34 minutos: técnicas utilizadas pelo contador.
Coordenador de Engenharia Projetos na Nemak alumino do Brasil
4 aRicardo, muito interessante mesmo, com muita clareza de informação, parabéns pelo trabalho divulgado, aguardo a correlação x casualidade
Gerente da Qualidade | Gestor Industrial e Automotivo
4 aRicardo, o assunto é realmente interessante e confesso que estou bem curioso para ver o próximo artigo mencionado que tratará sobre o tema “correlação” x “causalidade” e os resultados para indústria automotiva. Grande abraço.