Universidade Federal de Campina Grande Centro de Engenharia Eletrica e Informática Departamento de Sistemas e Computação Graduação em Ciência da Computação Professor: Dr. Marcus Costa Sampaio Análise de Risco de Crédito Edmilson de Almeida Júnior 28 de Março de 2008 1. Problema apresentado: Uma empresa financeira precisa de um sistema robusto de apoio à decisão de conceder crédito. Por robustez, devemos entender que os riscos de crédito devem ser minimizados, isto é, o número de inadimplentes deve se situar abaixo de um certo limiar -- taxa tolerável de inadimplência. Felizmente, a empresa dispõe de um rico acervo de informação: o histórico de seus clientes. Entretanto, a empresa não sabe como sintetizar esses dados: em suma, qual são os perfis confiáveis dos bons pagadores? E os dos maus pagadores? 2. Proposta de solução do problema: Nesse projeto propomos como solução do problema, o uso de técnicas de mineração de dados, para a definição dos perfis desejados. Será feito uma análise dos dados fornecidos, se necessário uma adaptação desses dados e posteriormente a aplicação dos algoritmos mais adequados, para que possamos apresentar uma boa acurácia e com testes confiáveis. O objetivo final é a indução automática de modelos de adimplência. Fica claro que é pior classificar um cliente como bom, ele sendo um ruim pagador, do que classificar um bom pagador como ruim. Será também escrito um programa em Java, que fará a função de um Preditor, que dado as características de um cliente, ele fará sua classificação. 3. Processo de mineração 3.1 – Preparação de dados: Os dados fornecidos, já se apresentam de maneira correta, assim, o arquivo créditos.arff, será executado na biblioteca weka. 3.2 – Transformação de Dados: Como não foi usados algoritmos como ID3 e Pris, os dados não foram alterados, haveria a necessidade de discretização desses dados, se alguns desses algoritmos acima tivesse sido usados. 3.3 – Análise e Assimilação: Ao analisar características como Precissão, Recall, F-Mesuare e Acurárcia dos algoritmos escolhidos, cheguei a conclusão que o mais indicado para o caso em questão, seria o algoritmo NaiveBayes. O algoritmo NaiveBayes se mostrou superior ao oneR(1r) na métrica Recall, na classe “Mau pagador”. Com relação ao algoritmo J48, o Bayes se mostrou superior ao J48 na métrica F-Measure, e também na Métrica Recall. Logo, conclui, como dito acima, que o melhor algoritmo é o NaiveBayes. 4. Conclusão: Ao termino do projeto, percebe-se uma vasta gama de possibilidades para se analisar um banco de dados, são vários os algoritmos e várias interpretações possíveis, tornando assim, uma difícil tarefa, escolher um procedimento adequado. Foi visto também, a necessidade da atenção em análise desses dados, e que uma certe experiência, e prática com esses algoritmos, fazem a diferença na escolha da Mineração de Dados, e conseqüentemente no sucesso do sistema de apoio a decisão que será adotado. Apendice: Os dados apresentados e transformados encontra-se na pasta Dados, com os arquivos creditos.htm e creditos.arff . Os logs das execuções encontra-se na pasta Logs.