Mineração de dados para detecção de fraudes em ligações de água 229 Mineração de Dados para Detecção de Fraudes em Ligações de Água Sílvia Regina Reginato Passini (Sanasa) sist.té[email protected] Carlos Miguel Tobar Toledo (PUC–Campinas) [email protected] Resumo. A tecnologia de mineração de dados (Data Mining) pode ser aplicada em diversas áreas, inclusive na de saneamento básico. Um projeto piloto desenvolvido na Sanasa, em Campinas, é apresentado, a fim de se detectar fraudes em ligações de água, tendo como principal motivação a questão do combate às perdas físicas e o enfoque ao crescente número de ligações irregulares, um dos fatores responsáveis pelo fenômeno das perdas. Modelos foram elaborados, visando traçar o perfil do consumidor que faz ligações clandestinas, para que medidas corretivas e preventivas pudessem ser tomadas, objetivando a redução dessa não conformidade. Problemas foram encontrados durante o desenvolvimento deste trabalho, tanto a nível de configuração de equipamentos como a nível de participação efetiva do usuário na elaboração dos modelos. Isso tudo confirma que mineração de dados não é mágica e que, para sua realização eficaz, é necessário ter muita persistência, além de se ter dados confiáveis, pois muitas vezes, ao final de um processo, chega-se à conclusão que deve-se retornar a um determinado ponto prévio e começar novamente. Palavras-chave: Mineração de Dados, Modelo Descritivo, Modelo Preditivo, Intelligent Miner, Ligação Clandestina, Fraude, Controle de Perdas. 1 Introdução Detectar fraudes tem sido de grande interesse para empresas de telecomunicações, agências governamentais, companhias de cartões de crédito e de seguros, uma vez que as perdas geradas representam um fator negativo. Uma forma para se evitar fraudes é através da descoberta das mesmas, antes que ocorram. Mas, mesmo que a informação necessária para essa detecção não esteja disponível a tempo, ainda assim é muito útil que essa detecção ocorra, para que se possa tentar prevenir futuros atos fraudulentos ou mesmo tentar obter restituição dos prejuízos. Weatherford (2002) cita que várias empresas utilizam técnicas de redes neurais e associações para detectar fraudes em cartões de crédito, além de outras aplicações, como aquela que o FBI anunciou que pretende utilizar para descobrir padrões de comportamento de terroristas, com técnicas de sistemas inteligentes. Acredita-se que seja possível detectar fraudes através da análise do comportamento do consumidor e que a tecnologia de mineração de dados é adequada para o que se deseja alcançar, mas a falta de experiência com esse processo, com estatística e com a ferramenta escolhida pode ser o motivo de insucesso. O objetivo da mineração de dados é gerar novos conhecimentos, através de 230 XI SEMINCO - Seminário de computação - 2002 um modelo do mundo real. O resultado do uso do modelo pode ser uma descrição de padrões e relacionamentos nos dados que podem ser usados para predições. Mineração de dados, segundo Chen et al. (1996) e Frawley et al. (1992), é uma atividade não trivial de extração de informação a partir de bancos de dados, potencialmente útil, implícita e não conhecida previamente. Enquanto Fayyad et al. (1996, p.41) definem que na mineração de dados aplicam-se uma análise sobre os dados e algoritmos que, sob limitações de eficiência computacional aceitáveis, produzem uma certa quantidade de padrões a partir dos dados analisados. Esta atividade, onde modelos são desenvolvidos e testados, é apenas uma fase do processo de Extração de Conhecimento de Banco de Dados (ECBD) que é um processo que raramente pode ser totalmente automatizado porque requer participação humana. Tem por finalidade auxiliar o usuário na tomada de decisões, conduzindo-o a novas ações inteligentes (Martins, 1998). ECBD é um processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e de fácil entendimento, a partir de grandes volumes de dados históricos armazenados. Fayyad (1997, p.5) vê o crescimento de uma montanha de dados como resultado de um grande sucesso da engenharia, que permitiu que se construíssem equipamentos para gerar, coletar e armazenar dados digitais. Com avanços cada vez maiores na tecnologia de banco de dados, veio a criação de mecanismos eficientes para o armazenamento deste grande volume de dados. É um processo interativo que envolve um conjunto de atividades composto pelas etapas: identificação do objetivo; seleção de dados; pré-processamento e limpeza; transformação (redução e projeção de novos dados necessários, dependendo do objetivo estabelecido); mineração de dados (faz parte desta etapa: identificar o método de mineração que mais se adapta ao objetivo identificado, análise exploratória dos dados, escolha dos algoritmos necessários e mineração propriamente dita); interpretação e ação baseada nos resultados analisados (Fayyad, 1996). Esse processo objetiva criar automaticamente uma descrição sintética de um sistema estratégico e sua saída final é o conhecimento (Lehn et al., 1997). Para Roiger et al. (1997, p.100), este processo pode ser visto como uma metodologia a ser utilizada no desenvolvimento de modelos. Na tentativa de reduzir perdas, empresas concessionárias têm investido em automação, na implantação de sistemas informatizados integrados, na instalação de válvulas redutoras de pressão nas redes de distribuição e no combate às fraudes. Na Sanasa, em Campinas, as fraudes contribuíram em 5% dos 26,6% (no ano de 2000) de perdas na distribuição. O uso da mineração de dados para identificar fraudes surgiu por existirem dados históricos armazenados há mais de dez anos, que podem ser investigados a fim de se descobrir informação válida e desconhecida, e porque se acredita que fraudadores podem ter um perfil de comportamento típico. A criação de um projeto piloto objetivou encontrar uma resposta para: quem são os consumidores que apresentam irregularidades nas suas ligações e a empresa desconhece? É claro, que a simples aplicação de um modelo não iria responder a esta questão de forma explícita, mas poderia apresentar quem eram os consumidores em potencial, que apresentaram algumas ou todas as características Mineração de dados para detecção de fraudes em ligações de água 231 daqueles que já cometeram algum tipo de fraude na sua ligação, e que valeria a pena investigar em campo, através de uma visita de vistoria técnica na ligação. A seguir, apresentam-se as principais funções de modelagem do software utilizado, DB2 Intelligent Miner (IM) da IBM, as etapas iniciais realizadas na elaboração do projeto, como cada um de três modelos de mineração propostos foi construído, uma análise dos resultados dos modelos e conclusões. 2 ECBD no Intelligent Miner Todas as etapas do ECBD podem ser realizadas diretamente sobre o banco de dados (BD) corporativo através do IM, mas isso não é recomendável, pois vai concorrer com os demais sistemas e isso pode afetar a performance de execução de todos os processos. O mais indicado é gerar um BD específico para se trabalhar com os dados extraídos. Se esse BD for gerado com todas as transformações necessárias, pode-se partir direto para a mineração, mas geralmente isso não ocorre porque as transformações, muitas vezes, são decorrentes das análises realizadas nos dados extraídos através da própria ferramenta. Deve-se fazer a especificação dos dados de entrada (seleção dos dados) que se deseja minerar e analisar, que podem estar em um ou mais bancos, tabelas, visões, etc. Após esse passo, os dados de entrada podem ser transformados utilizando as funções de processamento do IM, tais como: cálculo, filtragem ou compartilhamento, que permitem que os dados sejam organizados de forma que possam ser minerados efetivamente. Pode-se também utilizar a função de remover campos com valores nulos, para não afetar os resultados da mineração, eliminar registros duplicados ou convertê-los de um formato para outro (IBM, 1999). No IM, pode-se a qualquer momento do processo, utilizar funções estatísticas (bivariada, análise fatorial, etc.) para investigar e analisar os dados, a fim de se criar os campos de entrada para mineração, e também utilizá-las para a transformação e criação de novos dados de entrada. Com isso, pode-se avaliar a quantidade de campos encontrados com valores nulos, zeros, brancos ou com valores muito altos, que podem distorcer a amostra e decidir o que fazer com eles: transformá-los, eliminá-los do modelo ou mantê-los na forma como estão. Além disso, funções estatísticas podem ser úteis para avaliação e trabalho com os dados de saída, gerados após a execução das funções de mineração (IBM, 1999). Os dados transformados podem ser minerados em seguida, utilizando as funções de mineração. Freqüentemente, a informação obtida da primeira mineração ainda é obscura devido ao ruído nos dados. Para se obter resultados claros e significativos, deve-se transformar os dados repetidas vezes, ajustando as funções antes de minerá-los novamente. Deve-se especificar previamente os parâmetros da função ou técnica adotada para a mineração. O IM tem as seguintes funções de mineração: associação, classificação por árvore de decisão, classificação neural, agrupamento demográfico, agrupamento neural, predição RBF (Radial-BasisFunction), predição neural, padrões seqüenciais e seqüências similares. 232 XI SEMINCO - Seminário de computação - 2002 Associações acontecem quando ocorrências estão ligadas a um único evento. O objetivo de se descobrir associações é de encontrar itens em uma transação que impliquem na presença de outros itens na mesma transação, contidos num determinado conjunto de dados (IBM, 1999). Utiliza-se classificação na predição para criar um modelo baseado em dados já conhecidos, para analisar o porquê de uma certa classificação ter sido feita ou para realizar a classificação de novos dados. A análise de dados, que já foram classificados previamente, pode revelar as características que induziram à classificação anterior (IBM, 1999). No IM, a construção de um modelo baseado em classificação passa por três fases: treinamento, teste e aplicação. Na fase de treinamento, uma mineração no BD permite a descoberta dos atributos de cada cliente definido nas classes de risco. Nesta fase, definem-se os parâmetros para se treinar o modelo: número de vezes que vai repassar em cada nó, número mínimo e máximo de ramificações de uma árvore (no caso de se optar pela técnica de árvore de decisão), etc. No modo de teste, pode-se testar a acuracidade do modelo criado, aplicando dados diferentes dos do treinamento, para verificar se o modelo classifica corretamente aqueles dados que reconhecidamente pertencem à classe de risco. Na fase de aplicação, pode-se usar o modelo criado para predições. Thearling (1999, p.9) define agrupamento como o processo de se dividir o BD em vários grupos diferentes, de tal forma que os membros no mesmo grupo ou segmento estejam o mais perto possível e os diferentes grupos, o mais longe possível uns dos outros. O objetivo é achar segmentos que são muito diferentes uns dos outros e cujos membros sejam muito similares. Diferente de classificação, não se sabe quais grupos serão formados quando se inicia o processo ou quais atributos agruparão os dados, dessa forma, alguém terá que analisar os grupos formados. Como na classificação, o objetivo da função de predição é construir um modelo utilizando dados existentes. Entretanto, a diferença é que o objetivo não é uma classificação e sim a descoberta de um novo valor, predizendo como outros fatores se comportarão (Reinschmidt et al., 1999). Esta função é subdividida em outras duas funções de predição que utilizam diferentes algoritmos: RBF e backpropagation. Para Orr (1996), funções radiais constituem uma simples classe de funções que podem ser empregadas a princípio, em qualquer modelo (linear ou não linear) e em qualquer tipo de rede neural (camadas simples ou múltiplas), mas têm sido utilizadas associadas com funções radiais em redes de camadas simples. O IM apresenta também a função de seqüências similares, com o propósito de se encontrar todas as ocorrências similares subseqüentes em um BD de seqüências. Essa técnica pode ser utilizada para detectar ondas sísmicas não similares e identificar irregularidades geológicas (IBM, 1999). 3 ECBD no projeto piloto proposto A primeira coisa a ser feita quando se deseja trabalhar com mineração de dados é a definição do objetivo estratégico do trabalho, ou seja, a questão para a qual se busca uma resposta. A escolha da ferramenta mais adequada vem a seguir. Mineração de dados para detecção de fraudes em ligações de água 233 Existem algumas metodologias que, se aplicadas com critério, podem auxiliar na escolha da ferramenta mais indicada. A definição dos recursos humanos e computacionais disponíveis para a mineração também é um fator importante, pois muitas vezes este item é deixado de lado e descobre-se tardiamente que a equipe não está suficientemente treinada com o software, nem tem preocupação voltada para o problema que se deseja solucionar, não tem consciência do fato de existirem dados históricos armazenados há anos, não conhece a empresa a fundo ou mesmo o problema que se está estudando. Deve-se dar especial atenção à configuração do equipamento, que não estando dimensionado adequadamente, faz com que os processos demorem mais para serem executados. Outro fator importante é a escolha de uma metodologia de trabalho. Isso facilita o trabalho do grupo, pois se trabalha de uma forma organizada. No projeto piloto proposto, adotou-se a metodologia de documentação proposta por Edelstein (1999). Para este trabalho, os dados foram extraídos através de programas escritos na linguagem Cobol, a partir de 10 arquivos com dados históricos. Esses dados tiveram que ser analisados e transformados. Redundâncias tiveram que ser eliminadas. Erros e valores nulos foram descartados ou transformados. Estas ações foram repetidas até que se chegasse a um consenso de que os dados já estavam bons para serem minerados. Essa etapa tomou mais de 80% do tempo, porque, para cada arquivo, fez-se uma descrição e seleção dos dados, levando-se em conta se os mesmos eram considerados relevantes para o objetivo em questão: fraudes. Na prática, observou-se que, mesmo com todos esses cuidados, ao longo do processo houve necessidade se voltar a esta etapa e fazer novas extrações, análises e transformações. Após esta etapa, os metadados foram especificados em DB2 e foi feita a carga no BD de mineração. O equipamento destinado para este trabalho não foi dimensionado inicialmente para se trabalhar com 100% dos dados e, por isso, trabalhou-se com uma amostra de 15%. O processo de extração da amostra foi baseado em critérios estatísticos de proporcionalidade, que garantiram que a amostra representasse a realidade de todos os dados do BD. Após a carga ter sido feita, foram realizadas análises descritivas, nas quais observou-se que alguns dados importantes não haviam sido extraídos e foi necessária uma nova extração. Estas análises são importantes porque nesta etapa já é possível detectar informações importantes e tomar alguma decisão. Por exemplo, no projeto piloto proposto, detectaram-se nesta fase algumas falhas nos serviços de campo que foram corrigidas através de treinamento da equipe responsável. Duas análises foram feitas na seleção das variáveis. Na primeira, os campos das tabelas foram classificados em três categorias: informações cadastrais ou domiciliares, que são estáticas ou variam muito pouco, mas que são específicas do cliente (do tipo endereço e bairro); informações sobre o relacionamento do cliente com a empresa (do tipo idade da ligação, idade do hidrômetro, padrão da ligação e vazão do hidrômetro instalado); e finalmente as informações sobre o comportamento do cliente ao longo do tempo (do tipo consumo mensal, percentual de variação de consumo a maior e a menor, e multas aplicadas). Para o modelo, selecionaram-se as variáveis de comportamento, pois o que se pretendia era achar 234 XI SEMINCO - Seminário de computação - 2002 um padrão de comportamento que identificasse fraudes. As demais classificações serviram para ajudar na interpretação dos resultados. Na segunda análise foi feita a correlação linear das variáveis classificadas como comportamentais, realizada através da função estatística análise fatorial, a fim de se validar se haviam campos que estavam redundantes e que poderiam ser descartados na hora de se preparar o vetor de entrada do modelo. O resultado da função análise fatorial, usada na seleção de variáveis, apresenta uma tabela com a correlação linear das variáveis selecionadas, cujos valores variam entre um e menos um. Os valores mais altos e mais baixos foram analisados, observando-se que valores mais próximos de um indicam uma forte relação entre as variáveis, isto é, elas podem estar explicando a mesma coisa, sendo diretamente proporcionais. Considerou-se relevante para esta análise os valores superiores ou iguais a 0,5. Cada caso foi analisado para se verificar se uma delas poderia ser descartada e, se fosse o caso, qual delas. Os valores mais distantes de um e mais próximos de menos um indicam uma relação inversamente proporcional entre as variáveis. Foram mantidas todas as variáveis com valores inferiores a 0,5. 4 Construção dos modelos de mineração Foram desenvolvidos ao todo três modelos, sendo dois deles baseados em agrupamento neural e um em classificação por árvore de decisão. Desejava-se verificar, com os agrupamentos, se existia um perfil de fraudes bem definido, que pudesse ser qualificado pelo tipo de consumo, categoria, etc. e, desta forma, identificar quais consumidores considerados não fraudadores pertenciam a este grupo e fazer as vistorias em campo. Com o modelo baseado em classificação, desejava-se predizer em qual tipo de fraude os consumidores fraudadores se enquadrariam. Pensou-se inicialmente em elaborar um modelo simples que classificasse fraudadores e não fraudadores, mas desistiu-se da idéia, por não se saber com certeza quais consumidores realmente não eram fraudadores, uma vez que todos eram candidatos a fraudador em potencial. Havia o risco de estar treinando o modelo com um suposto não fraudador, quando o mesmo poderia estar cometendo alguma fraude que a empresa desconhecesse. Para a construção dos modelos, os consumidores que já tinham alguma fraude identificada foram separados dos que nunca tinham tido fraudes identificadas. Foram geradas duas tabelas contendo 100% dos fraudadores e 100% dos não fraudadores. Além desses, foram separados 4.000 fraudadores e a mesma quantidade de consumidores não fraudadores. Foram feitos diversos testes nos modelos alterando-se as variáveis selecionadas, o número de passos de treinamento, a quantidade de grupos a serem gerados, etc. Cada um dos testes foi documentado em uma tabela que continha também o erro calculado pelo modelo1. 1 Este material encontra-se disponível em: PASSINI, Sílvia R.R. Mineração de dados para detecção e fraudes em ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002. Mineração de dados para detecção de fraudes em ligações de água 235 4.1 Modelo baseado em agrupamento - estudos com 100% dos fraudadores O processamento do modelo baseado em agrupamento com 100% dos fraudadores gerou um resultado com nove grupos, com erro de 15%. A tabela 1 apresenta os resultados da maioria significativa de cada grupo. Grupo 1 % da Tipo de Parceamostra fraude lamento 15,44% HV NÃO Status ligação Corte Categoria Ativa SIM Resid Média Contas consumo retificadas 40 m3 SIM Idade ligação > 12 ANOS 2 3 11,93% 11,40% HV, LC,LS NÃO HV,LC NÃO Ativa SIM Resid 20 m3 NÃO >5 ANOS Ativa SIM Resid 25 m3 NÃO >5 ANOS 4 10,79% HV SIM Ativa SIM Resid 80 m3 SIM >5 ANOS 5 10,53% HV NÃO Ativa NÃO Resid 40 m3 NÃO >= 5 ANOS 6 10,51% HV SIM Ativa SIM Resid 40 m3 SIM >= 22 ANOS 7 10,09% LC SIM Ativa SIM Resid 60 m3 SIM >= 6 ANOS 8 9,91% HV,LC SIM Ativa SIM Resid 40 m3 SIM >= 21 ANOS 9 9,40% HV, LC,LS NÃO Ativa Extinta SIM Resid 40 m3 NÃO >= 6 ANOS Tabela 1 – Resultado do modelo de agrupamento com 100% dos fraudadores O primeiro grupo contemplou consumidores identificados como fraudadores de um dos tipos HV (Hidrômetro Violado), HC (Hidrômetro instalado ao Contrário), LC (Ligação Clandestina de água), ou LS (Ligação Sem hidrômetro). A predominância foram fraudes relativas à HV. A maioria dos consumidores deste grupo nunca parcelou dívidas, não estava com a ligação cortada, mas já tinha passado pelo corte e eram predominantemente consumidores residenciais. Os demais grupos também contemplaram consumidores fraudadores, tendo o segundo predominância de fraudes de todos os tipos e a maioria com a ligação cortada; o terceiro, predominância do tipo HV e LC, sendo que nenhum consumidor estava com a ligação cortada, embora a grande maioria já tinha entrado para o processo de corte pelo menos uma vez; o quarto, predominância do tipo HV, sendo que 100% estavam com a ligação cortada, quase 30% estavam com a ligação inativa no cadastro, pois tinham sido extintas em campo, e a média do volume de consumo em m3 foi mais elevada do que nos demais grupos; o quinto, 236 XI SEMINCO - Seminário de computação - 2002 predominância do tipo HV, cuja maioria nunca passou pelo corte. Constituiu um grupo tipicamente residencial; o sexto, predominância do tipo HV e 100% já tinham passado pelo corte; o sétimo, predominância do tipo LC, sendo que 91% estavam com a ligação cortada e mais de 50% tinham tido retificações nas contas; o oitavo, predominância dos tipos HV e LC, sendo que a maioria já tinha passado pelo corte, mas regularizou a situação até a data da extração dos dados; e o nono, predominância de consumidores extintos (quase a metade) e fraudes do tipo LS, o que pode justificar tantas extinções. Após a aplicação do modelo aos não fraudadores, com índice de erro igual a 11%, todos os grupos foram analisados, em especial o quarto grupo, que era caracterizado por ter um consumo mais alto, e o sétimo, que teve 42% de ligações clandestinas como característica. Além disso, analisou-se o grau de confiança de se ter um consumidor num determinado grupo em relação aos demais, grau este calculado pelo IM. O único grupo que apresentou um grau de confiança diferenciado dos demais e acima de 0,85 foi o segundo. Nos demais grupos, o grau de confiança ficou entre 0,5 e 0,6. Portanto, considerou-se que o grupo que melhor caracterizava fraudes era o segundo. Essa foi uma conclusão precipitada, pois deveria ter sido analisado primeiramente o grau do score. Este deve ter sido um dos fatores possíveis que levou a um resultado negativo na primeira tentativa, falha esta devida à inexperiência do grupo com relação ao IM, ao desconhecimento de como interpretar resultados e devido a estas informações não estarem claras nos manuais. Neste caso, foi necessário recorrer ao suporte do laboratório do fornecedor para que essas dúvidas fossem esclarecidas e isso tomou algum tempo. O score indica o quão bem um registro se enquadra no grupo em que foi melhor classificado. Registros com baixo grau de score não se enquadram bem em nenhum grupo (no caso de agrupamento neural do IM). Após análise dos registros com o maior score, deve-se olhar para o grau de confiança, para verificar se este registro se enquadra bem apenas em um grupo (grau de confiança maior) ou se ele se enquadra em mais de um grupo (grau de confiança menor). Análises posteriores mostraram que, dos consumidores selecionados para ir a campo verificar fraudes apontadas pelo modelo, 60% apresentaram um grau de score acima de 0,6. Para os demais os score foi baixo. Foi executada a função estatística bivariada a fim de se selecionar apenas consumidores cujo grau de confiança ficasse acima de 0,9 e, como resultado, apresentaram-se 632 candidatos. Desejou-se um número menor de candidatos para ir a campo e selecionaram-se consumidores com grau de confiança maior que 0,94. Como resultado, apresentaram-se 12 candidatos. Uma tabela com estes candidatos foi utilizada no modelo baseado em classificação, para predizer que tipo de fraude seria encontrada em campo (PASSINI, 2002). Os resultados são apresentados na seqüência, após o modelo baseado em classificação por árvore de decisão. Mineração de dados para detecção de fraudes em ligações de água 237 4.2 Modelo baseado em agrupamento - Estudo com 50% de fraudadores e não fraudadores O modelo baseado em agrupamento com 50% de fraudadores e 50% de não fraudadores gerou nove grupos, com índice de erro de 20%. A tabela 2 apresenta os resultados da maioria significativa de cada grupo. Do primeiro ao quarto grupo não foi encontrada nenhuma característica que indicasse fraude de forma predominante. Enquanto, o quinto, sexto, oitavo e nono grupos foram considerados diferenciados por caracterizarem fraudes. Grupo 1 % da Tipo de Parceamostra fraude lamento 19% NÃO NÃO Status ligação Corte Categoria Ativa NÃO Resid Média Contas consumo retificadas 40 m3 NÃO Idade ligação > 22 ANOS 2 18,5% NÃO NÃO Ativa NÃO Resid 50 m3 NÃO > 17 ANOS 3 14% NÃO NÃO Ativa SIM Resid Com 20 m3 NÃO 4 8,77% NÃO NÃO Ativa SIM Resid 40 m3 NÃO NULA <5 ANOS 5 8,63% LC SIM Ativa SIM Resid 60 m3 SIM >4 ANOS 6 8,5% LC SIM Ativa SIM Resid 30 m3 SIM >5 ANOS 7 8,2% HV NÃO Ativa NÃO Resid 25 m3 NÃO <8 ANOS 8 8% LC SIM Ativa SIM Resid 20 m3 SIM <7 ANOS 9 6,4% HV SIM Ativa SIM Resid 50 m3 SIM > 19 ANOS Tabela 2 – Resultado do modelo de agrupamento com 50% de fraudadores e não fraudadores No primeiro grupo predominaram consumidores sem parcelamento, ligações antigas, sendo que a maioria não tinha tido retificação nas contas. No segundo grupo predominaram consumidores residenciais, sem parcelamentos, consumo de até 50m3, a maioria ativa no cadastro. No terceiro grupo predominaram consumidores que não estavam em processo de corte, mas já tinham sido cortados alguma vez, a maioria nas categorias residencial e comercial, com consumo baixo (até 20 m3). No quarto grupo predominaram ligações mais recentes, categoria residencial, sendo que 53% já tinham passado pelo processo de corte. No quinto grupo predominaram fraudes, em especial ligações clandestinas; consumidores com muitas ocorrências de leitura e retificações nas contas, a maioria já tinha passado pelo processo de corte e tinha tido pelo menos um 238 XI SEMINCO - Seminário de computação - 2002 parcelamento. No sexto grupo predominaram fraudes do tipo LC, todas com parcelamentos de contas, muitas ocorrências de leitura e a maioria com retificações na conta. No sétimo grupo predominaram muitas ocorrências de leitura e nenhum parcelamento. Pouco mais da metade do grupo era fraudador. No oitavo grupo predominaram fraudes do tipo LC, todos com parcelamentos de contas e muitas ocorrências de leitura. No nono grupo predominou uma grande quantidade de ocorrências de leitura e de retificações, a maioria já tinha passado por alguma fase de corte, tinha tido um parcelamento e era fraudadora. Após a aplicação do modelo aos não fraudadores, os grupos 5o, 6o, 8o e 9o foram selecionados para serem analisados separadamente, por caracterizarem mais fraudes do que os demais. Esses grupos tinham em comum um número de fraudadores superior a 60%, muitas ocorrências de leitura, retificações nas contas, parcelamentos, cortes e mais de 50% de variações de consumo. Destes quatro grupos, foram selecionados os consumidores com grau de confiança maior ou igual a 0,64 e foram encontrados 30 candidatos. Foi gerada uma tabela contendo este resultado, que foi utilizada no modelo baseado em classificação para predizer que tipo de fraude seria encontrada em campo (PASSINI, 2002). Os resultados são apresentados na seqüência, após a apresentação do modelo baseado em classificação por árvore de decisão. 4.3 Modelo baseado em classificação por árvore de decisão Para o treinamento do modelo baseado em classificação, foram selecionados 80% dos consumidores fraudadores já conhecidos, sendo que as fraudes diferentes de LC e HV foram identificadas com o algarismo zero; do tipo HV, com o algarismo um; do tipo tanto HV e LC simultaneamente, com o algarismo dois; e somente do tipo LC, com o algarismo três. É possível que uma fraude possa estar em duas categorias, isto é, o consumidor além de violar o próprio hidrômetro, mantém uma ligação com derivação clandestina, difícil de ocorrer, mas possível. Existe também a possibilidade de um consumidor ter os dois tipos de fraudes cometidas em tempos diferentes, o que é mais comum acontecer. Foram realizados vários testes, alterando-se os parâmetros de entrada do modelo selecionado e número de passos de treinamento. Não foram atribuídos pesos diferenciados para as variáveis, permanecendo o valor default associado pelo IM. Para cada teste, verificava-se o percentual de erros e acertos. Foi escolhido o modelo que apresentou o menor erro na matriz de confusão. A matriz de confusão, ferramenta para análise de modelos resultantes de classificação, apresentada na Tabela 3 é um exemplo onde aparece o real versus o estimado com o modelo. As colunas mostram os valores reais, já conhecidos previamente, e as linhas, os valores estimados. As células cujos números estão na diagonal principal apresentam o resultado onde o real é igual ao estimado. Quanto maior o valor dessas células e próximo do total, maior o grau de acerto do modelo. Dos consumidores selecionados e treinados, o modelo acertou a classificação de 69,18% e o erro global foi de 30,82%. Mineração de dados para detecção de fraudes em ligações de água 239 A Tabela 3 apresenta o resultado da árvore de decisão após os testes com 80% dos fraudadores. Tabela 3 – Matriz de confusão – resultado do treinamento com 80% dos fraudadores A árvore resultante apresentou muitas ramificações (sem podas) e continha todas as regras que o modelo gerou. Neste contexto, é uma árvore muito difícil de ser interpretada e, por isso, alguns ramos foram cortados. A partir do treinamento realizado, fez-se o teste aplicando-se os 20% de fraudadores restantes. Desses consumidores, o modelo acertou 58% e errou 42%, conforme é apresentado na Tabela 4. Das fraudes do tipo 0 (diferentes de LC e HV), o modelo acertou apenas 4,8%; das fraudes do tipo HV (1), acertou 85%; das fraudes do tipo LC e HV (2), não acertou nenhuma, classificando os consumidores nas demais categorias; das fraudes do tipo LC (3), acertou 51%. Tabela 4 – Matriz de confusão – resultado do teste com 20% dos fraudadores O erro de 42% foi considerado ruim, porém de todos os testes realizados anteriormente, foi considerado o melhor, pois a quantidade de acertos para as colunas 1 e 3 foi maior. O modelo não estava bom e novas transformações, e até mesmo extrações, seriam necessárias, mas, como o índice de acertos chegou 240 XI SEMINCO - Seminário de computação - 2002 próximo ao desejado (60%), decidiu-se fazer a aplicação aos não fraudadores e observar os resultados. Após os estudos citados anteriormente, aplicou-se o modelo aos consumidores não fraudadores de três maneiras: 1) Candidatos do primeiro modelo baseado em agrupamento, que foram classificados 50% em fraudes do tipo LC e 50% do tipo HV. Os 12 consumidores escolhidos foram investigados em campo e o resultado foi o seguinte: um estava com HI, sendo notificado a liberar o acesso para futuras leituras (o que pode indicar que existe uma fraude, pois não permite vistoria, mas isso tem que ser verificado). Este mesmo consumidor teve predição de HV no modelo baseado em classificação, o que pode significar que existe a possibilidade do hidrômetro estar violado e isto justificar o impedimento do acesso ao mesmo. Dois foram identificados em campo como HC, mas não eram fraudes, foram instalações erradas executadas pela própria empresa. Nos demais casos, não foram constatadas irregularidades. Esse resultado foi considerado insatisfatório e o modelo deve ser melhorado antes que novas investigações em campo sejam feitas. 3) Candidatos do segundo modelo baseado em agrupamento, que após a aplicação foram classificados com 73% como fraude do tipo HV, 23% do tipo LC e 4% como outros tipos de fraudes. Foram selecionados dez consumidores para investigação em campo, com o seguinte critério: 7 consumidores classificados como LC e 3, escolhidos aleatoriamente, dos classificados como HV. Após as vistorias técnicas em campo, nenhuma fraude foi identificada (PASSINI, 2002). 4) Aplicação do modelo baseado em classificação por árvore de decisão a 100% dos não fraudadores. Aproximadamente 66% da população foi classificada com tendência a fraude do tipo HV, 29% com tendência a fraudes do tipo LC e 5% com tendência a fraudes diferentes de LC e HV. Em cada uma destas classes foi analisado o grau de confiança para a seleção de consumidores com o grau de confiança maior que 0,95. O sistema selecionou consumidores classificados com outros tipos de fraudes (49 consumidores), LC (41 consumidores) e HV (15 consumidores), todos com grau de confiança igual a 1, ou seja 100% enquadrado no perfil. Dos 105 candidatos foram selecionados 25 aleatoriamente para se fazerem vistorias em campo: 100% retornaram com denúncia não confirmada. 5 Conclusões É necessário deixar claro que este primeiro projeto foi elaborado por profissionais da empresa que não tinham experiência na área de estatística, nem com a tecnologia de mineração de dados, e nem com o IM, ferramenta utilizada no projeto, e que já se encontrava disponível, o que ocasionou muitas falhas. Além disso, para se fazer mineração de dados não se aperta um botão e fica-se na expectativa que resultados irão aparecer. É imprescindível o envolvimento e a dedicação de todos os integrantes da equipe. A utilização da tecnologia de mineração de dados em um projeto piloto, tendo como motivação a questão do combate às perdas físicas de água, enfocadas nas crescentes irregularidades nas ligações de água, visava a redução inicialmente de Mineração de dados para detecção de fraudes em ligações de água 241 51% para 41% das visitas infrutíferas para detecção de fraudes. Este objetivo do trabalho não foi atingido. Porém, houve um ganho em relação ao conhecimento adquirido da tecnologia, à experiência na utilização de uma ferramenta de mineração (IM) e ao processo ECBD. Além disso, houve também um ganho relativo ao maior conhecimento tanto da organização como dos seus clientes. Em mineração de dados não há garantia de que os resultados serão satisfatórios. Verificou-se que os resultados não tinham sido os esperados, mas sabia-se que o modelo ainda precisava ser melhorado e que 42% de erro ainda era um índice alto. Esperava-se, no entanto, que uma quantia significativa de irregularidades fosse encontrada em campo, o que não ocorreu. Não se esperava que os resultados atingissem 100% do objetivo proposto, mas também não se esperava um resultado tão longe do esperado. Neste sentido, entende-se porque alguns autores citam que, para se fazer mineração de dados, além dos pré-requisitos já mencionados durante o trabalho, é necessário persistência, para que não se desista do projeto nas primeiras tentativas frustrantes. Muitas vezes é necessário voltar atrás, começar de um determinado ponto novamente e priorizar novos passos para melhoria dos resultados, acrescentando novos dados aos modelos. Ocorreram falhas no processo de escolha das variáveis do modelo, por exemplo, foi analisada a variação de consumo a maior e a menor, o que pode ter representado um erro quando se analisa sob o ponto de vista que quem frauda, o faz para consumir menos. Desta forma, num próximo estudo, deve-se analisar o modelo sob o ponto de vista de variação de consumo a menor. Outros modelos podem ser testados, como o modelo de padrões seqüenciais ou associação, observando-se em que situações históricas a fraude ocorreu e verificar se entre todos os fraudadores estas situações são semelhantes. Outro estudo que pode ser elaborado é o de um modelo baseado em classificação por árvore de decisão onde se considera o histórico de visitas em campo para classificar entre fraudadores e não fraudadores. Desta forma, decidiu-se que o projeto deve ser revisto, as falhas apontadas devem ser corrigidas e os ajustes necessários para melhorar o modelo devem ser realizados. Referências bibliográficas CHEN, M.; HAN, J.; YU, P. Data mining: an overview from a database perspective. IEEE Transactions on knowledge and data engineering, v. 8, n. 6, p. 866-883, Dec. 1996. EDELSTEIN, H. Introduction to data mining and knowlodge discovery. Two Crows Corporation. 3. ed. 1999. p. 1-36. - Disponível em: <http://www.twocrows.com>. Acesso em: 27 dez. 2001. FAYYAD, U.M. ;PIATESTSKY-SHAPIRO, G. ; SMYTH, P. From data mining to knowledge discovery in data bases. AI Magazine. v. 17, n. 3, p. 37-54, Fall 1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview1996-Fayyad.pdf>. Acesso em: 27 dez. 2001. 242 XI SEMINCO - Seminário de computação - 2002 FAYYAD, U.M. Data mining and knowledge discovery. Boston: Kluwer. 1997. <http://www.research.microsoft.com/research/datamine/vol1-1/editorial3.htm>. Acesso em: 02 jan. 2002. FRAWLEY, W.J., PIATESTSKY-SHAPIRO, G.; MATHEUS, C. Knowledge discovery in data bases: an overview. AI Magazine. Fall 1992, p. 57- 70. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview1992.pdf>. Acesso em: 27 dez. 2001. IBM. Manual do Intelligent Miner: versão 6.1. 1999. p. – 65-247. LEHN, R.; LAMBERT, V.; NACHOUKI, M. Data warehousing tool’s architecture: from muldimensional analysis to data mining. In: Proceedings of the 8th International Workshop on Database and Expert Systems - Applications (DEXA’97) S.l.: IEEE. 1997. p. 1-8. MARTINS, C. Utilização da extração do conhecimento de bases de dados para identificar padrões de evasão de alunos de graduação da Unicamp. Dissertação (Mestrado em Informática) - PUC-Campinas. 1998. p. 16-17. ORR, M. Introduction to radial basis function networks. Centre for Cognitive Science. University of Edinburgh, April 1996. Disponível em: <http://www.anc.ed.ac.uk/~mjo/intro/intro.html>. Acesso em: 27 dez. 2001. PASSINI, Sílvia R.R. Mineração de dados para detecção de fraudes em ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002. REINSCHMIDT, J.; GOTTSCHALK, H.; KIM, H.; ZWIETERING, D. – “Intelligent Miner for Data: Enhance your business Intelligence”. IBM International Technical Support Organization. IBM REDBOOKS. June 1999. Disponível em <http://publib-b.boulder.ibm.com/Redbooks.nsf/ 9445fa5b416f6e32852569ae006bb65f/a0ffbc3431e43465852566db0078558b?Ope nDocument>. Acesso em fev. 2002. ROIGER, R.; AZARBOD, C.; SANT, R. A majority rule approach to data mining. In: Proceedings of the 1997 IASTED International Conference on Intelligent Information - Systems (IIS’97) S.l.: IEEE. 1997. p. 100-107. THEARLING, K. Data mining and CRM. Dec. 1999. p. 1-6. Disponível em: <http://www3.primushost.com/~kht/index.htm>. Acesso em: 27 dez. 2001. WEATHERFORD, M. Mining for fraud. IEEE Distributed Systems OnLine. Intelligent Systems. July-August 2002. Disponível em: <http://dsonline.computer.org/0207/departments/news_IS.htm>. Acesso em: 28 ago. 2002.