Roteiro da apresentação • • • • Apresentação Metodologia utilizada Motivação para a pesquisa (contexto) Resultados alcançados Título da pesquisa: Descoberta de Conhecimento em Bases de Dados, com base em técnicas de Análise Preditiva, visando ao auxílio e ao aprimoramento da atividade de controle externo desempenhada pelo TCE-RJ Questão de pesquisa: É possível a implementação de técnicas de detecção de fraudes com a utilização de mineração de dados nas auditorias realizadas pelo TCE-RJ? Objetivo Geral: Demonstrar a possibilidade da implementação de técnicas de mineração de dados para detecção de fraudes no âmbito de auditorias governamentais. Áreas de conhecimento envolvidas na pesquisa: • Auditoria Governamental • Detecção de Fraudes • Mineração de Dados (análise de dados/analytics) Como a pesquisa foi desenvolvida • Revisão da literatura; • Estudos de casos (aplicações a bases de dados reais); Auditoria orientada a dados Abordagem de auditoria pró-ativa centrada na análise de dados. Implementação fundada no trio: negócio, técnica e tecnologia. • Negócio: técnicos com conhecimento da área de aplicação: auditoria, licitações, folha de pagamentos, etc. • Técnica: técnicos com conhecimento das técnicas de mineração de dados • Tecnologia: técnicos com conhecimento de softwares para implementação de algoritmos de mineração de dados e de bancos de dados Detecção de Fraudes? "Detecção de fraude é o processo automatizado de identificação de casos de alto risco" ( Veronique Van Vlasselaer et all: GOTCHA! Network-based Fraud Detection for Social Security Fraud ) Não é novidade. Enorme quantidade de artigos e livros. Área de conhecimento já bem estabelecida. Em auditoria: Auditoria Forense, Contabilidade Forense Livros nacionais já publicados fazem muito pouco (ou nenhum) uso de análise de dados… Detecção de Fraudes? (cont.) Taxonomia das Técnicas de Detecção Eletrônica de Fraudes, adaptado de (TRAVAILLE et al., 2011). Softwares utilizados • R (open source) • SQLServer (disponível no TCE-RJ) Pacotes do R: • arules, arulesViz (regras de associação) • igraph, visNetwork (redes sociais) • foreach, parallel , snow (processamento em paralelo) • Quanteda, tm (mineração de texto) • dplyr, openxlsx, RODBC, sqldf, plyr, stringr, data.table (importação e pré-processamento de dados) Softwares utilizados (cont.) Não dá pra alegar falta de software para implementar análise de dados Dados utilizados Nesta pesquisa foram utilizados os seguintes conjuntos de dados: • dados de licitações realizadas (jan/11 a ago/15) • dados de contratos celebrados • dados de itens licitados • dados dos participantes • dados sobre empresas do ERJ (composição acionária) Regras de Associação Técnica de mineração de dados que consiste na detecção de associações que ocorrem com frequência entre itens. Exemplo: (4 primeiras regras) Análise de Redes Sociais As Redes Sociais consistem em estruturas que representam entidades e relacionamentos entre estas. Exemplo: Análise de Redes Sociais (Participação societária em comum) Universo de Empresas com participação societária em comum Applet com demonstração de resultados Análise de Redes Sociais (Indícios de formação de cartéis) Utilizamos grafos direcionados para representar a relação entre as empresas participantes das licitações, da seguinte forma: 1. cada empresa é representada por um nó; 2. as empresas que participaram de um mesmo certame estarão associadas por relações do tipo “perdedor-vencedor”. Tal relação é representada por uma aresta que se inicia no nó representativo da empresa participante perdedora para o nó representativo da licitante vencedora Análise de Redes Sociais (Indícios de formação de cartéis) Clusterização por meio da técnica de Detecção de Comunidades Análise de Redes Sociais (Indícios de formação de cartéis) Ranqueamento por meio de PageRank 1. É alcançada por uma grande quantidade de links; 2. É alcançada por páginas relevantes; e 3. Aponta para páginas relevantes. Análise de Redes Sociais (Indícios de formação de cartéis) Ranqueamento por meio de PageRank 1. É alcançada por uma grande quantidade de links; 2. É alcançada por páginas relevantes; e 3. Aponta para páginas relevantes. 1. Sagram-se vencedoras com uma frequência acima da média, configurando uma grande concentração ou monopólio de mercado; Análise de Redes Sociais (Indícios de formação de cartéis) Ranqueamento por meio de PageRank 1. É alcançada por uma grande quantidade de links; 2. É alcançada por páginas relevantes; e 3. Aponta para páginas relevantes. 2. Vencem licitações das quais também participaram outras empresas relevantes (casos de rodízio de empresas que detém forte fatia de um determinado mercado e atuam de forma coordenada, alternando-se como vencedoras em licitações, são casos típicos em que esta situação acontece); e Análise de Redes Sociais (Indícios de formação de cartéis) Ranqueamento por meio de PageRank 1. É alcançada por uma grande quantidade de links; 2. É alcançada por páginas relevantes; e 3. Aponta para páginas relevantes. 3. Costumam participar de certames em que licitantes relevantes sagram-se vencedoras. Isto ocorre em situações em que o papel preponderante desempenhado por determinada empresa é o de figurante ou de “coelho” (uma empresa atua de forma a elevar os preços do item licitado, sem ter a real intenção vencer a licitação). Análise de Redes Sociais (Indícios de formação de cartéis) PageRank Dashboard com demonstração de resultados Dashboard com demonstração de resultados Dashboard com demonstração de resultados Dashboard com demonstração de resultados Dashboard com demonstração de resultados Dashboard com demonstração de resultados Conclusão A pesquisa evidenciou ser possível a incorporação de técnicas de mineração de dados nas auditorias realizadas pelo TCE-RJ. Conclusão (cont.) Situação atual: • Técnicos com bom conhecimento do negócio • Carência de conhecimentos em análise de dados • Cultura de controle fortemente baseada em análise documental Conclusão (cont.) Sugestões de melhoria: • Considerar a capacitação em análise de dados como elemento estratégico; • Investir em treinamento em métodos quantitativos e software adequados Conclusão (cont.) Sugestões de melhoria: • Treinamento em auditoria forense • Aumento da maturidade analítica do TCE-RJ • Criação de uma comunidade de prática Conclusão (cont.) Pesquisas futuras: • Utilização de técnicas supervisionadas • Auditorias preditivas