Projeto 2 - Mineração de Daods

Propaganda
Universidade Federal de Campina Grande
Centro de Engenharia Eletrica e Informática
Departamento de Sistemas e Computação
Graduação em Ciência da Computação
Professor: Dr. Marcus Costa Sampaio
Análise de Risco de Crédito
Edmilson de Almeida Júnior
28 de Março de 2008
1. Problema apresentado:
Uma empresa financeira precisa de um sistema robusto de apoio à decisão
de conceder crédito. Por robustez, devemos entender que os riscos de crédito
devem ser minimizados, isto é, o número de inadimplentes deve se situar abaixo
de um certo limiar -- taxa tolerável de inadimplência.
Felizmente, a empresa dispõe de um rico acervo de informação: o histórico
de seus clientes. Entretanto, a empresa não sabe como sintetizar esses dados: em
suma, qual são os perfis confiáveis dos bons pagadores? E os dos maus pagadores?
2. Proposta de solução do problema:
Nesse projeto propomos como solução do problema, o uso de técnicas de
mineração de dados, para a definição dos perfis desejados. Será feito uma análise
dos dados fornecidos, se necessário uma adaptação desses dados e
posteriormente a aplicação dos algoritmos mais adequados, para que possamos
apresentar uma boa acurácia e com testes confiáveis.
O objetivo final é a indução automática de modelos de adimplência. Fica
claro que é pior classificar um cliente como bom, ele sendo um ruim pagador, do
que classificar um bom pagador como ruim.
Será também escrito um programa em Java, que fará a função de um
Preditor, que dado as características de um cliente, ele fará sua classificação.
3. Processo de mineração
3.1 – Preparação de dados:
Os dados fornecidos, já se apresentam de maneira correta, assim, o arquivo
créditos.arff, será executado na biblioteca weka.
3.2 – Transformação de Dados:
Como não foi usados algoritmos como ID3 e Pris, os dados não foram
alterados, haveria a necessidade de discretização desses dados, se alguns desses
algoritmos acima tivesse sido usados.
3.3 – Análise e Assimilação:
Ao analisar características como Precissão, Recall, F-Mesuare e Acurárcia dos
algoritmos escolhidos, cheguei a conclusão que o mais indicado para o caso em
questão, seria o algoritmo NaiveBayes.
O algoritmo NaiveBayes se mostrou superior ao oneR(1r) na métrica Recall,
na classe “Mau pagador”. Com relação ao algoritmo J48, o Bayes se mostrou
superior ao J48 na métrica F-Measure, e também na Métrica Recall.
Logo, conclui, como dito acima, que o melhor algoritmo é o NaiveBayes.
4. Conclusão:
Ao termino do projeto, percebe-se uma vasta gama de possibilidades para se
analisar um banco de dados, são vários os algoritmos e várias interpretações
possíveis, tornando assim, uma difícil tarefa, escolher um procedimento adequado.
Foi visto também, a necessidade da atenção em análise desses dados, e que
uma certe experiência, e prática com esses algoritmos, fazem a diferença na
escolha da Mineração de Dados, e conseqüentemente no sucesso do sistema de
apoio a decisão que será adotado.
Apendice:
 Os dados apresentados e transformados encontra-se na pasta Dados, com os
arquivos creditos.htm e creditos.arff .
 Os logs das execuções encontra-se na pasta Logs.
Download