Mineração de Dados para Detecção de Fraudes em Ligações de

Propaganda
Mineração de dados para detecção de fraudes em ligações de água
229
Mineração de Dados para Detecção de Fraudes
em Ligações de Água
Sílvia Regina Reginato Passini (Sanasa)
sist.té[email protected]
Carlos Miguel Tobar Toledo (PUC–Campinas)
[email protected]
Resumo. A tecnologia de mineração de dados (Data Mining) pode ser aplicada
em diversas áreas, inclusive na de saneamento básico. Um projeto piloto
desenvolvido na Sanasa, em Campinas, é apresentado, a fim de se detectar
fraudes em ligações de água, tendo como principal motivação a questão do
combate às perdas físicas e o enfoque ao crescente número de ligações
irregulares, um dos fatores responsáveis pelo fenômeno das perdas. Modelos
foram elaborados, visando traçar o perfil do consumidor que faz ligações
clandestinas, para que medidas corretivas e preventivas pudessem ser tomadas,
objetivando a redução dessa não conformidade. Problemas foram encontrados
durante o desenvolvimento deste trabalho, tanto a nível de configuração de
equipamentos como a nível de participação efetiva do usuário na elaboração dos
modelos. Isso tudo confirma que mineração de dados não é mágica e que, para
sua realização eficaz, é necessário ter muita persistência, além de se ter dados
confiáveis, pois muitas vezes, ao final de um processo, chega-se à conclusão
que deve-se retornar a um determinado ponto prévio e começar novamente.
Palavras-chave: Mineração de Dados, Modelo Descritivo, Modelo Preditivo,
Intelligent Miner, Ligação Clandestina, Fraude, Controle de Perdas.
1
Introdução
Detectar fraudes tem sido de grande interesse para empresas de
telecomunicações, agências governamentais, companhias de cartões de crédito e de
seguros, uma vez que as perdas geradas representam um fator negativo. Uma forma
para se evitar fraudes é através da descoberta das mesmas, antes que ocorram. Mas,
mesmo que a informação necessária para essa detecção não esteja disponível a
tempo, ainda assim é muito útil que essa detecção ocorra, para que se possa tentar
prevenir futuros atos fraudulentos ou mesmo tentar obter restituição dos prejuízos.
Weatherford (2002) cita que várias empresas utilizam técnicas de redes
neurais e associações para detectar fraudes em cartões de crédito, além de outras
aplicações, como aquela que o FBI anunciou que pretende utilizar para descobrir
padrões de comportamento de terroristas, com técnicas de sistemas inteligentes.
Acredita-se que seja possível detectar fraudes através da análise do comportamento
do consumidor e que a tecnologia de mineração de dados é adequada para o que se
deseja alcançar, mas a falta de experiência com esse processo, com estatística e
com a ferramenta escolhida pode ser o motivo de insucesso.
O objetivo da mineração de dados é gerar novos conhecimentos, através de
230
XI SEMINCO - Seminário de computação - 2002
um modelo do mundo real. O resultado do uso do modelo pode ser uma descrição
de padrões e relacionamentos nos dados que podem ser usados para predições.
Mineração de dados, segundo Chen et al. (1996) e Frawley et al. (1992), é
uma atividade não trivial de extração de informação a partir de bancos de dados,
potencialmente útil, implícita e não conhecida previamente. Enquanto Fayyad et al.
(1996, p.41) definem que na mineração de dados aplicam-se uma análise sobre os
dados e algoritmos que, sob limitações de eficiência computacional aceitáveis,
produzem uma certa quantidade de padrões a partir dos dados analisados. Esta
atividade, onde modelos são desenvolvidos e testados, é apenas uma fase do
processo de Extração de Conhecimento de Banco de Dados (ECBD) que é um
processo que raramente pode ser totalmente automatizado porque requer
participação humana. Tem por finalidade auxiliar o usuário na tomada de decisões,
conduzindo-o a novas ações inteligentes (Martins, 1998).
ECBD é um processo não trivial de identificação de padrões válidos, novos,
potencialmente úteis e de fácil entendimento, a partir de grandes volumes de dados
históricos armazenados. Fayyad (1997, p.5) vê o crescimento de uma montanha de
dados como resultado de um grande sucesso da engenharia, que permitiu que se
construíssem equipamentos para gerar, coletar e armazenar dados digitais. Com
avanços cada vez maiores na tecnologia de banco de dados, veio a criação de
mecanismos eficientes para o armazenamento deste grande volume de dados. É um
processo interativo que envolve um conjunto de atividades composto pelas etapas:
identificação do objetivo; seleção de dados; pré-processamento e limpeza;
transformação (redução e projeção de novos dados necessários, dependendo do
objetivo estabelecido); mineração de dados (faz parte desta etapa: identificar o
método de mineração que mais se adapta ao objetivo identificado, análise
exploratória dos dados, escolha dos algoritmos necessários e mineração
propriamente dita); interpretação e ação baseada nos resultados analisados
(Fayyad, 1996). Esse processo objetiva criar automaticamente uma descrição
sintética de um sistema estratégico e sua saída final é o conhecimento (Lehn et al.,
1997). Para Roiger et al. (1997, p.100), este processo pode ser visto como uma
metodologia a ser utilizada no desenvolvimento de modelos.
Na tentativa de reduzir perdas, empresas concessionárias têm investido em
automação, na implantação de sistemas informatizados integrados, na instalação de
válvulas redutoras de pressão nas redes de distribuição e no combate às fraudes. Na
Sanasa, em Campinas, as fraudes contribuíram em 5% dos 26,6% (no ano de 2000)
de perdas na distribuição. O uso da mineração de dados para identificar fraudes
surgiu por existirem dados históricos armazenados há mais de dez anos, que podem
ser investigados a fim de se descobrir informação válida e desconhecida, e porque
se acredita que fraudadores podem ter um perfil de comportamento típico.
A criação de um projeto piloto objetivou encontrar uma resposta para: quem
são os consumidores que apresentam irregularidades nas suas ligações e a
empresa desconhece? É claro, que a simples aplicação de um modelo não iria
responder a esta questão de forma explícita, mas poderia apresentar quem eram os
consumidores em potencial, que apresentaram algumas ou todas as características
Mineração de dados para detecção de fraudes em ligações de água
231
daqueles que já cometeram algum tipo de fraude na sua ligação, e que valeria a
pena investigar em campo, através de uma visita de vistoria técnica na ligação.
A seguir, apresentam-se as principais funções de modelagem do software
utilizado, DB2 Intelligent Miner (IM) da IBM, as etapas iniciais realizadas na
elaboração do projeto, como cada um de três modelos de mineração propostos foi
construído, uma análise dos resultados dos modelos e conclusões.
2
ECBD no Intelligent Miner
Todas as etapas do ECBD podem ser realizadas diretamente sobre o banco de
dados (BD) corporativo através do IM, mas isso não é recomendável, pois vai
concorrer com os demais sistemas e isso pode afetar a performance de execução de
todos os processos. O mais indicado é gerar um BD específico para se trabalhar
com os dados extraídos. Se esse BD for gerado com todas as transformações
necessárias, pode-se partir direto para a mineração, mas geralmente isso não ocorre
porque as transformações, muitas vezes, são decorrentes das análises realizadas nos
dados extraídos através da própria ferramenta.
Deve-se fazer a especificação dos dados de entrada (seleção dos dados) que se
deseja minerar e analisar, que podem estar em um ou mais bancos, tabelas, visões,
etc. Após esse passo, os dados de entrada podem ser transformados utilizando as
funções de processamento do IM, tais como: cálculo, filtragem ou
compartilhamento, que permitem que os dados sejam organizados de forma que
possam ser minerados efetivamente. Pode-se também utilizar a função de remover
campos com valores nulos, para não afetar os resultados da mineração, eliminar
registros duplicados ou convertê-los de um formato para outro (IBM, 1999).
No IM, pode-se a qualquer momento do processo, utilizar funções estatísticas
(bivariada, análise fatorial, etc.) para investigar e analisar os dados, a fim de se
criar os campos de entrada para mineração, e também utilizá-las para a
transformação e criação de novos dados de entrada. Com isso, pode-se avaliar a
quantidade de campos encontrados com valores nulos, zeros, brancos ou com
valores muito altos, que podem distorcer a amostra e decidir o que fazer com eles:
transformá-los, eliminá-los do modelo ou mantê-los na forma como estão. Além
disso, funções estatísticas podem ser úteis para avaliação e trabalho com os dados
de saída, gerados após a execução das funções de mineração (IBM, 1999).
Os dados transformados podem ser minerados em seguida, utilizando as
funções de mineração. Freqüentemente, a informação obtida da primeira mineração
ainda é obscura devido ao ruído nos dados. Para se obter resultados claros e
significativos, deve-se transformar os dados repetidas vezes, ajustando as funções
antes de minerá-los novamente. Deve-se especificar previamente os parâmetros da
função ou técnica adotada para a mineração. O IM tem as seguintes funções de
mineração: associação, classificação por árvore de decisão, classificação neural,
agrupamento demográfico, agrupamento neural, predição RBF (Radial-BasisFunction), predição neural, padrões seqüenciais e seqüências similares.
232
XI SEMINCO - Seminário de computação - 2002
Associações acontecem quando ocorrências estão ligadas a um único evento.
O objetivo de se descobrir associações é de encontrar itens em uma transação que
impliquem na presença de outros itens na mesma transação, contidos num
determinado conjunto de dados (IBM, 1999).
Utiliza-se classificação na predição para criar um modelo baseado em dados já
conhecidos, para analisar o porquê de uma certa classificação ter sido feita ou para
realizar a classificação de novos dados. A análise de dados, que já foram
classificados previamente, pode revelar as características que induziram à
classificação anterior (IBM, 1999). No IM, a construção de um modelo baseado em
classificação passa por três fases: treinamento, teste e aplicação. Na fase de
treinamento, uma mineração no BD permite a descoberta dos atributos de cada
cliente definido nas classes de risco. Nesta fase, definem-se os parâmetros para se
treinar o modelo: número de vezes que vai repassar em cada nó, número mínimo e
máximo de ramificações de uma árvore (no caso de se optar pela técnica de árvore
de decisão), etc. No modo de teste, pode-se testar a acuracidade do modelo criado,
aplicando dados diferentes dos do treinamento, para verificar se o modelo
classifica corretamente aqueles dados que reconhecidamente pertencem à classe de
risco. Na fase de aplicação, pode-se usar o modelo criado para predições.
Thearling (1999, p.9) define agrupamento como o processo de se dividir o BD
em vários grupos diferentes, de tal forma que os membros no mesmo grupo ou
segmento estejam o mais perto possível e os diferentes grupos, o mais longe
possível uns dos outros. O objetivo é achar segmentos que são muito diferentes uns
dos outros e cujos membros sejam muito similares. Diferente de classificação, não
se sabe quais grupos serão formados quando se inicia o processo ou quais atributos
agruparão os dados, dessa forma, alguém terá que analisar os grupos formados.
Como na classificação, o objetivo da função de predição é construir um
modelo utilizando dados existentes. Entretanto, a diferença é que o objetivo não é
uma classificação e sim a descoberta de um novo valor, predizendo como outros
fatores se comportarão (Reinschmidt et al., 1999). Esta função é subdividida em
outras duas funções de predição que utilizam diferentes algoritmos: RBF e
backpropagation. Para Orr (1996), funções radiais constituem uma simples classe
de funções que podem ser empregadas a princípio, em qualquer modelo (linear ou
não linear) e em qualquer tipo de rede neural (camadas simples ou múltiplas), mas
têm sido utilizadas associadas com funções radiais em redes de camadas simples.
O IM apresenta também a função de seqüências similares, com o propósito de
se encontrar todas as ocorrências similares subseqüentes em um BD de seqüências.
Essa técnica pode ser utilizada para detectar ondas sísmicas não similares e
identificar irregularidades geológicas (IBM, 1999).
3
ECBD no projeto piloto proposto
A primeira coisa a ser feita quando se deseja trabalhar com mineração de
dados é a definição do objetivo estratégico do trabalho, ou seja, a questão para a
qual se busca uma resposta. A escolha da ferramenta mais adequada vem a seguir.
Mineração de dados para detecção de fraudes em ligações de água
233
Existem algumas metodologias que, se aplicadas com critério, podem auxiliar
na escolha da ferramenta mais indicada. A definição dos recursos humanos e
computacionais disponíveis para a mineração também é um fator importante, pois
muitas vezes este item é deixado de lado e descobre-se tardiamente que a equipe
não está suficientemente treinada com o software, nem tem preocupação voltada
para o problema que se deseja solucionar, não tem consciência do fato de existirem
dados históricos armazenados há anos, não conhece a empresa a fundo ou mesmo o
problema que se está estudando. Deve-se dar especial atenção à configuração do
equipamento, que não estando dimensionado adequadamente, faz com que os
processos demorem mais para serem executados. Outro fator importante é a
escolha de uma metodologia de trabalho. Isso facilita o trabalho do grupo, pois se
trabalha de uma forma organizada. No projeto piloto proposto, adotou-se a
metodologia de documentação proposta por Edelstein (1999).
Para este trabalho, os dados foram extraídos através de programas escritos na
linguagem Cobol, a partir de 10 arquivos com dados históricos. Esses dados
tiveram que ser analisados e transformados. Redundâncias tiveram que ser
eliminadas. Erros e valores nulos foram descartados ou transformados. Estas ações
foram repetidas até que se chegasse a um consenso de que os dados já estavam
bons para serem minerados. Essa etapa tomou mais de 80% do tempo, porque, para
cada arquivo, fez-se uma descrição e seleção dos dados, levando-se em conta se os
mesmos eram considerados relevantes para o objetivo em questão: fraudes. Na
prática, observou-se que, mesmo com todos esses cuidados, ao longo do processo
houve necessidade se voltar a esta etapa e fazer novas extrações, análises e
transformações. Após esta etapa, os metadados foram especificados em DB2 e foi
feita a carga no BD de mineração. O equipamento destinado para este trabalho não
foi dimensionado inicialmente para se trabalhar com 100% dos dados e, por isso,
trabalhou-se com uma amostra de 15%. O processo de extração da amostra foi
baseado em critérios estatísticos de proporcionalidade, que garantiram que a
amostra representasse a realidade de todos os dados do BD.
Após a carga ter sido feita, foram realizadas análises descritivas, nas quais
observou-se que alguns dados importantes não haviam sido extraídos e foi
necessária uma nova extração. Estas análises são importantes porque nesta etapa já
é possível detectar informações importantes e tomar alguma decisão. Por exemplo,
no projeto piloto proposto, detectaram-se nesta fase algumas falhas nos serviços de
campo que foram corrigidas através de treinamento da equipe responsável.
Duas análises foram feitas na seleção das variáveis. Na primeira, os campos
das tabelas foram classificados em três categorias: informações cadastrais ou
domiciliares, que são estáticas ou variam muito pouco, mas que são específicas do
cliente (do tipo endereço e bairro); informações sobre o relacionamento do cliente
com a empresa (do tipo idade da ligação, idade do hidrômetro, padrão da ligação e
vazão do hidrômetro instalado); e finalmente as informações sobre o
comportamento do cliente ao longo do tempo (do tipo consumo mensal, percentual
de variação de consumo a maior e a menor, e multas aplicadas). Para o modelo,
selecionaram-se as variáveis de comportamento, pois o que se pretendia era achar
234
XI SEMINCO - Seminário de computação - 2002
um padrão de comportamento que identificasse fraudes. As demais classificações
serviram para ajudar na interpretação dos resultados.
Na segunda análise foi feita a correlação linear das variáveis classificadas
como comportamentais, realizada através da função estatística análise fatorial, a
fim de se validar se haviam campos que estavam redundantes e que poderiam ser
descartados na hora de se preparar o vetor de entrada do modelo.
O resultado da função análise fatorial, usada na seleção de variáveis, apresenta
uma tabela com a correlação linear das variáveis selecionadas, cujos valores
variam entre um e menos um. Os valores mais altos e mais baixos foram
analisados, observando-se que valores mais próximos de um indicam uma forte
relação entre as variáveis, isto é, elas podem estar explicando a mesma coisa, sendo
diretamente proporcionais. Considerou-se relevante para esta análise os valores
superiores ou iguais a 0,5. Cada caso foi analisado para se verificar se uma delas
poderia ser descartada e, se fosse o caso, qual delas. Os valores mais distantes de
um e mais próximos de menos um indicam uma relação inversamente proporcional
entre as variáveis. Foram mantidas todas as variáveis com valores inferiores a 0,5.
4
Construção dos modelos de mineração
Foram desenvolvidos ao todo três modelos, sendo dois deles baseados em
agrupamento neural e um em classificação por árvore de decisão. Desejava-se
verificar, com os agrupamentos, se existia um perfil de fraudes bem definido, que
pudesse ser qualificado pelo tipo de consumo, categoria, etc. e, desta forma,
identificar quais consumidores considerados não fraudadores pertenciam a este
grupo e fazer as vistorias em campo. Com o modelo baseado em classificação,
desejava-se predizer em qual tipo de fraude os consumidores fraudadores se
enquadrariam. Pensou-se inicialmente em elaborar um modelo simples que
classificasse fraudadores e não fraudadores, mas desistiu-se da idéia, por não se
saber com certeza quais consumidores realmente não eram fraudadores, uma vez
que todos eram candidatos a fraudador em potencial. Havia o risco de estar
treinando o modelo com um suposto não fraudador, quando o mesmo poderia estar
cometendo alguma fraude que a empresa desconhecesse.
Para a construção dos modelos, os consumidores que já tinham alguma fraude
identificada foram separados dos que nunca tinham tido fraudes identificadas.
Foram geradas duas tabelas contendo 100% dos fraudadores e 100% dos não
fraudadores. Além desses, foram separados 4.000 fraudadores e a mesma
quantidade de consumidores não fraudadores. Foram feitos diversos testes nos
modelos alterando-se as variáveis selecionadas, o número de passos de
treinamento, a quantidade de grupos a serem gerados, etc. Cada um dos testes foi
documentado em uma tabela que continha também o erro calculado pelo modelo1.
1
Este material encontra-se disponível em: PASSINI, Sílvia R.R. Mineração de dados para detecção e
fraudes em ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002.
Mineração de dados para detecção de fraudes em ligações de água
235
4.1 Modelo baseado em agrupamento - estudos com 100% dos
fraudadores
O processamento do modelo baseado em agrupamento com 100% dos
fraudadores gerou um resultado com nove grupos, com erro de 15%. A tabela 1
apresenta os resultados da maioria significativa de cada grupo.
Grupo
1
%
da Tipo de Parceamostra fraude
lamento
15,44%
HV
NÃO
Status
ligação
Corte
Categoria
Ativa
SIM
Resid
Média
Contas
consumo retificadas
40 m3
SIM
Idade
ligação
> 12
ANOS
2
3
11,93%
11,40%
HV,
LC,LS
NÃO
HV,LC
NÃO
Ativa
SIM
Resid
20 m3
NÃO
>5
ANOS
Ativa
SIM
Resid
25 m3
NÃO
>5
ANOS
4
10,79%
HV
SIM
Ativa
SIM
Resid
80 m3
SIM
>5
ANOS
5
10,53%
HV
NÃO
Ativa
NÃO
Resid
40 m3
NÃO
>= 5
ANOS
6
10,51%
HV
SIM
Ativa
SIM
Resid
40 m3
SIM
>= 22
ANOS
7
10,09%
LC
SIM
Ativa
SIM
Resid
60 m3
SIM
>= 6
ANOS
8
9,91%
HV,LC
SIM
Ativa
SIM
Resid
40 m3
SIM
>= 21
ANOS
9
9,40%
HV,
LC,LS
NÃO
Ativa
Extinta
SIM
Resid
40 m3
NÃO
>= 6
ANOS
Tabela 1 – Resultado do modelo de agrupamento com 100% dos fraudadores
O primeiro grupo contemplou consumidores identificados como fraudadores
de um dos tipos HV (Hidrômetro Violado), HC (Hidrômetro instalado ao
Contrário), LC (Ligação Clandestina de água), ou LS (Ligação Sem hidrômetro). A
predominância foram fraudes relativas à HV. A maioria dos consumidores deste
grupo nunca parcelou dívidas, não estava com a ligação cortada, mas já tinha
passado pelo corte e eram predominantemente consumidores residenciais.
Os demais grupos também contemplaram consumidores fraudadores, tendo o
segundo predominância de fraudes de todos os tipos e a maioria com a ligação
cortada; o terceiro, predominância do tipo HV e LC, sendo que nenhum
consumidor estava com a ligação cortada, embora a grande maioria já tinha entrado
para o processo de corte pelo menos uma vez; o quarto, predominância do tipo HV,
sendo que 100% estavam com a ligação cortada, quase 30% estavam com a ligação
inativa no cadastro, pois tinham sido extintas em campo, e a média do volume de
consumo em m3 foi mais elevada do que nos demais grupos; o quinto,
236
XI SEMINCO - Seminário de computação - 2002
predominância do tipo HV, cuja maioria nunca passou pelo corte. Constituiu um
grupo tipicamente residencial; o sexto, predominância do tipo HV e 100% já
tinham passado pelo corte; o sétimo, predominância do tipo LC, sendo que 91%
estavam com a ligação cortada e mais de 50% tinham tido retificações nas contas;
o oitavo, predominância dos tipos HV e LC, sendo que a maioria já tinha passado
pelo corte, mas regularizou a situação até a data da extração dos dados; e o nono,
predominância de consumidores extintos (quase a metade) e fraudes do tipo LS, o
que pode justificar tantas extinções.
Após a aplicação do modelo aos não fraudadores, com índice de erro igual a
11%, todos os grupos foram analisados, em especial o quarto grupo, que era
caracterizado por ter um consumo mais alto, e o sétimo, que teve 42% de ligações
clandestinas como característica. Além disso, analisou-se o grau de confiança de se
ter um consumidor num determinado grupo em relação aos demais, grau este
calculado pelo IM. O único grupo que apresentou um grau de confiança
diferenciado dos demais e acima de 0,85 foi o segundo. Nos demais grupos, o grau
de confiança ficou entre 0,5 e 0,6. Portanto, considerou-se que o grupo que melhor
caracterizava fraudes era o segundo.
Essa foi uma conclusão precipitada, pois deveria ter sido analisado
primeiramente o grau do score. Este deve ter sido um dos fatores possíveis que
levou a um resultado negativo na primeira tentativa, falha esta devida à
inexperiência do grupo com relação ao IM, ao desconhecimento de como
interpretar resultados e devido a estas informações não estarem claras nos manuais.
Neste caso, foi necessário recorrer ao suporte do laboratório do fornecedor para
que essas dúvidas fossem esclarecidas e isso tomou algum tempo.
O score indica o quão bem um registro se enquadra no grupo em que foi
melhor classificado. Registros com baixo grau de score não se enquadram bem em
nenhum grupo (no caso de agrupamento neural do IM). Após análise dos registros
com o maior score, deve-se olhar para o grau de confiança, para verificar se este
registro se enquadra bem apenas em um grupo (grau de confiança maior) ou se ele
se enquadra em mais de um grupo (grau de confiança menor).
Análises posteriores mostraram que, dos consumidores selecionados para ir a
campo verificar fraudes apontadas pelo modelo, 60% apresentaram um grau de
score acima de 0,6. Para os demais os score foi baixo.
Foi executada a função estatística bivariada a fim de se selecionar apenas
consumidores cujo grau de confiança ficasse acima de 0,9 e, como resultado,
apresentaram-se 632 candidatos. Desejou-se um número menor de candidatos para
ir a campo e selecionaram-se consumidores com grau de confiança maior que 0,94.
Como resultado, apresentaram-se 12 candidatos.
Uma tabela com estes candidatos foi utilizada no modelo baseado em
classificação, para predizer que tipo de fraude seria encontrada em campo
(PASSINI, 2002). Os resultados são apresentados na seqüência, após o modelo
baseado em classificação por árvore de decisão.
Mineração de dados para detecção de fraudes em ligações de água
237
4.2 Modelo baseado em agrupamento - Estudo com 50% de
fraudadores e não fraudadores
O modelo baseado em agrupamento com 50% de fraudadores e 50% de não
fraudadores gerou nove grupos, com índice de erro de 20%. A tabela 2 apresenta os
resultados da maioria significativa de cada grupo.
Do primeiro ao quarto grupo não foi encontrada nenhuma característica que
indicasse fraude de forma predominante. Enquanto, o quinto, sexto, oitavo e nono
grupos foram considerados diferenciados por caracterizarem fraudes.
Grupo
1
%
da Tipo de Parceamostra fraude
lamento
19%
NÃO
NÃO
Status
ligação
Corte
Categoria
Ativa
NÃO
Resid
Média
Contas
consumo retificadas
40 m3
NÃO
Idade
ligação
> 22
ANOS
2
18,5%
NÃO
NÃO
Ativa
NÃO
Resid
50 m3
NÃO
> 17
ANOS
3
14%
NÃO
NÃO
Ativa
SIM
Resid
Com
20 m3
NÃO
4
8,77%
NÃO
NÃO
Ativa
SIM
Resid
40 m3
NÃO
NULA
<5
ANOS
5
8,63%
LC
SIM
Ativa
SIM
Resid
60 m3
SIM
>4
ANOS
6
8,5%
LC
SIM
Ativa
SIM
Resid
30 m3
SIM
>5
ANOS
7
8,2%
HV
NÃO
Ativa
NÃO
Resid
25 m3
NÃO
<8
ANOS
8
8%
LC
SIM
Ativa
SIM
Resid
20 m3
SIM
<7
ANOS
9
6,4%
HV
SIM
Ativa
SIM
Resid
50 m3
SIM
> 19
ANOS
Tabela 2 – Resultado do modelo de agrupamento com 50% de fraudadores e não
fraudadores
No primeiro grupo predominaram consumidores sem parcelamento, ligações
antigas, sendo que a maioria não tinha tido retificação nas contas. No segundo
grupo predominaram consumidores residenciais, sem parcelamentos, consumo de
até 50m3, a maioria ativa no cadastro. No terceiro grupo predominaram
consumidores que não estavam em processo de corte, mas já tinham sido cortados
alguma vez, a maioria nas categorias residencial e comercial, com consumo baixo
(até 20 m3). No quarto grupo predominaram ligações mais recentes, categoria
residencial, sendo que 53% já tinham passado pelo processo de corte.
No quinto grupo predominaram fraudes, em especial ligações clandestinas;
consumidores com muitas ocorrências de leitura e retificações nas contas, a
maioria já tinha passado pelo processo de corte e tinha tido pelo menos um
238
XI SEMINCO - Seminário de computação - 2002
parcelamento. No sexto grupo predominaram fraudes do tipo LC, todas com
parcelamentos de contas, muitas ocorrências de leitura e a maioria com retificações
na conta. No sétimo grupo predominaram muitas ocorrências de leitura e nenhum
parcelamento. Pouco mais da metade do grupo era fraudador. No oitavo grupo
predominaram fraudes do tipo LC, todos com parcelamentos de contas e muitas
ocorrências de leitura. No nono grupo predominou uma grande quantidade de
ocorrências de leitura e de retificações, a maioria já tinha passado por alguma fase
de corte, tinha tido um parcelamento e era fraudadora.
Após a aplicação do modelo aos não fraudadores, os grupos 5o, 6o, 8o e 9o
foram selecionados para serem analisados separadamente, por caracterizarem mais
fraudes do que os demais. Esses grupos tinham em comum um número de
fraudadores superior a 60%, muitas ocorrências de leitura, retificações nas contas,
parcelamentos, cortes e mais de 50% de variações de consumo.
Destes quatro grupos, foram selecionados os consumidores com grau de
confiança maior ou igual a 0,64 e foram encontrados 30 candidatos. Foi gerada
uma tabela contendo este resultado, que foi utilizada no modelo baseado em
classificação para predizer que tipo de fraude seria encontrada em campo
(PASSINI, 2002). Os resultados são apresentados na seqüência, após a
apresentação do modelo baseado em classificação por árvore de decisão.
4.3 Modelo baseado em classificação por árvore de decisão
Para o treinamento do modelo baseado em classificação, foram selecionados
80% dos consumidores fraudadores já conhecidos, sendo que as fraudes diferentes
de LC e HV foram identificadas com o algarismo zero; do tipo HV, com o
algarismo um; do tipo tanto HV e LC simultaneamente, com o algarismo dois; e
somente do tipo LC, com o algarismo três. É possível que uma fraude possa estar
em duas categorias, isto é, o consumidor além de violar o próprio hidrômetro,
mantém uma ligação com derivação clandestina, difícil de ocorrer, mas possível.
Existe também a possibilidade de um consumidor ter os dois tipos de fraudes
cometidas em tempos diferentes, o que é mais comum acontecer.
Foram realizados vários testes, alterando-se os parâmetros de entrada do
modelo selecionado e número de passos de treinamento. Não foram atribuídos
pesos diferenciados para as variáveis, permanecendo o valor default associado pelo
IM. Para cada teste, verificava-se o percentual de erros e acertos. Foi escolhido o
modelo que apresentou o menor erro na matriz de confusão.
A matriz de confusão, ferramenta para análise de modelos resultantes de
classificação, apresentada na Tabela 3 é um exemplo onde aparece o real versus o
estimado com o modelo. As colunas mostram os valores reais, já conhecidos
previamente, e as linhas, os valores estimados. As células cujos números estão na
diagonal principal apresentam o resultado onde o real é igual ao estimado. Quanto
maior o valor dessas células e próximo do total, maior o grau de acerto do modelo.
Dos consumidores selecionados e treinados, o modelo acertou a classificação
de 69,18% e o erro global foi de 30,82%.
Mineração de dados para detecção de fraudes em ligações de água
239
A Tabela 3 apresenta o resultado da árvore de decisão após os testes com 80%
dos fraudadores.
Tabela 3 – Matriz de confusão – resultado do treinamento com 80% dos fraudadores
A árvore resultante apresentou muitas ramificações (sem podas) e continha
todas as regras que o modelo gerou. Neste contexto, é uma árvore muito difícil de
ser interpretada e, por isso, alguns ramos foram cortados.
A partir do treinamento realizado, fez-se o teste aplicando-se os 20% de
fraudadores restantes. Desses consumidores, o modelo acertou 58% e errou 42%,
conforme é apresentado na Tabela 4. Das fraudes do tipo 0 (diferentes de LC e
HV), o modelo acertou apenas 4,8%; das fraudes do tipo HV (1), acertou 85%; das
fraudes do tipo LC e HV (2), não acertou nenhuma, classificando os consumidores
nas demais categorias; das fraudes do tipo LC (3), acertou 51%.
Tabela 4 – Matriz de confusão – resultado do teste com 20% dos fraudadores
O erro de 42% foi considerado ruim, porém de todos os testes realizados
anteriormente, foi considerado o melhor, pois a quantidade de acertos para as
colunas 1 e 3 foi maior. O modelo não estava bom e novas transformações, e até
mesmo extrações, seriam necessárias, mas, como o índice de acertos chegou
240
XI SEMINCO - Seminário de computação - 2002
próximo ao desejado (60%), decidiu-se fazer a aplicação aos não fraudadores e
observar os resultados. Após os estudos citados anteriormente, aplicou-se o modelo
aos consumidores não fraudadores de três maneiras:
1) Candidatos do primeiro modelo baseado em agrupamento, que foram
classificados 50% em fraudes do tipo LC e 50% do tipo HV. Os 12 consumidores
escolhidos foram investigados em campo e o resultado foi o seguinte: um estava
com HI, sendo notificado a liberar o acesso para futuras leituras (o que pode
indicar que existe uma fraude, pois não permite vistoria, mas isso tem que ser
verificado). Este mesmo consumidor teve predição de HV no modelo baseado em
classificação, o que pode significar que existe a possibilidade do hidrômetro estar
violado e isto justificar o impedimento do acesso ao mesmo. Dois foram
identificados em campo como HC, mas não eram fraudes, foram instalações
erradas executadas pela própria empresa. Nos demais casos, não foram constatadas
irregularidades. Esse resultado foi considerado insatisfatório e o modelo deve ser
melhorado antes que novas investigações em campo sejam feitas.
3) Candidatos do segundo modelo baseado em agrupamento, que após a
aplicação foram classificados com 73% como fraude do tipo HV, 23% do tipo LC
e 4% como outros tipos de fraudes. Foram selecionados dez consumidores para
investigação em campo, com o seguinte critério: 7 consumidores classificados
como LC e 3, escolhidos aleatoriamente, dos classificados como HV. Após as
vistorias técnicas em campo, nenhuma fraude foi identificada (PASSINI, 2002).
4) Aplicação do modelo baseado em classificação por árvore de decisão a
100% dos não fraudadores. Aproximadamente 66% da população foi classificada
com tendência a fraude do tipo HV, 29% com tendência a fraudes do tipo LC e 5%
com tendência a fraudes diferentes de LC e HV. Em cada uma destas classes foi
analisado o grau de confiança para a seleção de consumidores com o grau de
confiança maior que 0,95. O sistema selecionou consumidores classificados com
outros tipos de fraudes (49 consumidores), LC (41 consumidores) e HV (15
consumidores), todos com grau de confiança igual a 1, ou seja 100% enquadrado
no perfil. Dos 105 candidatos foram selecionados 25 aleatoriamente para se
fazerem vistorias em campo: 100% retornaram com denúncia não confirmada.
5
Conclusões
É necessário deixar claro que este primeiro projeto foi elaborado por
profissionais da empresa que não tinham experiência na área de estatística, nem
com a tecnologia de mineração de dados, e nem com o IM, ferramenta utilizada no
projeto, e que já se encontrava disponível, o que ocasionou muitas falhas. Além
disso, para se fazer mineração de dados não se aperta um botão e fica-se na
expectativa que resultados irão aparecer. É imprescindível o envolvimento e a
dedicação de todos os integrantes da equipe.
A utilização da tecnologia de mineração de dados em um projeto piloto, tendo
como motivação a questão do combate às perdas físicas de água, enfocadas nas
crescentes irregularidades nas ligações de água, visava a redução inicialmente de
Mineração de dados para detecção de fraudes em ligações de água
241
51% para 41% das visitas infrutíferas para detecção de fraudes. Este objetivo do
trabalho não foi atingido. Porém, houve um ganho em relação ao conhecimento
adquirido da tecnologia, à experiência na utilização de uma ferramenta de
mineração (IM) e ao processo ECBD. Além disso, houve também um ganho
relativo ao maior conhecimento tanto da organização como dos seus clientes. Em
mineração de dados não há garantia de que os resultados serão satisfatórios.
Verificou-se que os resultados não tinham sido os esperados, mas sabia-se que
o modelo ainda precisava ser melhorado e que 42% de erro ainda era um índice
alto. Esperava-se, no entanto, que uma quantia significativa de irregularidades
fosse encontrada em campo, o que não ocorreu. Não se esperava que os resultados
atingissem 100% do objetivo proposto, mas também não se esperava um resultado
tão longe do esperado. Neste sentido, entende-se porque alguns autores citam que,
para se fazer mineração de dados, além dos pré-requisitos já mencionados durante
o trabalho, é necessário persistência, para que não se desista do projeto nas
primeiras tentativas frustrantes. Muitas vezes é necessário voltar atrás, começar de
um determinado ponto novamente e priorizar novos passos para melhoria dos
resultados, acrescentando novos dados aos modelos.
Ocorreram falhas no processo de escolha das variáveis do modelo, por
exemplo, foi analisada a variação de consumo a maior e a menor, o que pode ter
representado um erro quando se analisa sob o ponto de vista que quem frauda, o
faz para consumir menos. Desta forma, num próximo estudo, deve-se analisar o
modelo sob o ponto de vista de variação de consumo a menor. Outros modelos
podem ser testados, como o modelo de padrões seqüenciais ou associação,
observando-se em que situações históricas a fraude ocorreu e verificar se entre
todos os fraudadores estas situações são semelhantes. Outro estudo que pode ser
elaborado é o de um modelo baseado em classificação por árvore de decisão onde
se considera o histórico de visitas em campo para classificar entre fraudadores e
não fraudadores. Desta forma, decidiu-se que o projeto deve ser revisto, as falhas
apontadas devem ser corrigidas e os ajustes necessários para melhorar o modelo
devem ser realizados.
Referências bibliográficas
CHEN, M.; HAN, J.; YU, P. Data mining: an overview from a database
perspective. IEEE Transactions on knowledge and data engineering, v. 8, n. 6,
p. 866-883, Dec. 1996.
EDELSTEIN, H. Introduction to data mining and knowlodge discovery. Two
Crows Corporation. 3. ed. 1999. p. 1-36. - Disponível em:
<http://www.twocrows.com>. Acesso em: 27 dez. 2001.
FAYYAD, U.M. ;PIATESTSKY-SHAPIRO, G. ; SMYTH, P. From data mining
to knowledge discovery in data bases. AI Magazine. v. 17, n. 3, p. 37-54, Fall
1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview1996-Fayyad.pdf>. Acesso em: 27 dez. 2001.
242
XI SEMINCO - Seminário de computação - 2002
FAYYAD, U.M. Data mining and knowledge discovery. Boston: Kluwer. 1997.
<http://www.research.microsoft.com/research/datamine/vol1-1/editorial3.htm>.
Acesso em: 02 jan. 2002.
FRAWLEY, W.J., PIATESTSKY-SHAPIRO, G.; MATHEUS, C. Knowledge
discovery in data bases: an overview. AI Magazine. Fall 1992, p. 57- 70.
Disponível
em:
<http://www.kdnuggets.com/gpspubs/aimag-kdd-overview1992.pdf>. Acesso em: 27 dez. 2001.
IBM. Manual do Intelligent Miner: versão 6.1. 1999. p. – 65-247.
LEHN, R.; LAMBERT, V.; NACHOUKI, M. Data warehousing tool’s
architecture: from muldimensional analysis to data mining. In: Proceedings of the
8th International Workshop on Database and Expert Systems - Applications
(DEXA’97) S.l.: IEEE. 1997. p. 1-8.
MARTINS, C. Utilização da extração do conhecimento de bases de dados para
identificar padrões de evasão de alunos de graduação da Unicamp. Dissertação
(Mestrado em Informática) - PUC-Campinas. 1998. p. 16-17.
ORR, M. Introduction to radial basis function networks. Centre for Cognitive
Science. University of Edinburgh,
April 1996. Disponível em:
<http://www.anc.ed.ac.uk/~mjo/intro/intro.html>. Acesso em: 27 dez. 2001.
PASSINI, Sílvia R.R. Mineração de dados para detecção de fraudes em
ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002.
REINSCHMIDT, J.; GOTTSCHALK, H.; KIM, H.; ZWIETERING, D. –
“Intelligent Miner for Data: Enhance your business Intelligence”. IBM
International Technical Support Organization. IBM REDBOOKS. June 1999.
Disponível
em
<http://publib-b.boulder.ibm.com/Redbooks.nsf/
9445fa5b416f6e32852569ae006bb65f/a0ffbc3431e43465852566db0078558b?Ope
nDocument>. Acesso em fev. 2002.
ROIGER, R.; AZARBOD, C.; SANT, R. A majority rule approach to data mining.
In: Proceedings of the 1997 IASTED International Conference on Intelligent
Information - Systems (IIS’97) S.l.: IEEE. 1997. p. 100-107.
THEARLING, K. Data mining and CRM. Dec. 1999. p. 1-6. Disponível em:
<http://www3.primushost.com/~kht/index.htm>. Acesso em: 27 dez. 2001.
WEATHERFORD, M. Mining for fraud. IEEE Distributed Systems OnLine.
Intelligent
Systems.
July-August
2002.
Disponível
em:
<http://dsonline.computer.org/0207/departments/news_IS.htm>. Acesso em: 28
ago. 2002.
Download