Process of Knowledge Discovery in Databases to Decision-Making System Sonia Kaoru Shiba (Escola Politécnica, Universidade de São Paulo, São Paulo, Brasil) – [email protected] Francisco Javier Ramirez Fernandez (Escola Politécnica,Universidade de São Paulo, São Paulo, Brasil) – [email protected] This paper presents the result obtained with a process of knowledge discovery as an auxiliary base to a Decision-Making System. The work approaches the viability of helping process of knowledge discovery in companies where the strategy of extraction is not automated. Additionally, the knowledge discovery process is discussed from a perspective of data mining technologies of information and pattern evaluation, in order to facilitate the application of knowledge for specialist systems. The process of extraction applied is divided in three main stages including the pre-processing, the data mining of information and the posprocessing. A set of essential activities are applied, inside a flow of interactive and iterative work in each of these stages. Information data mining justifies itself by the relevance of choosing the technologies more suitable and adherent to the problem domain of the importance of methodologies, the organization of tasks in the data mining and the disponibilization of the results for a final user. The experiments for the extracion of the knowledge were applied to optimize processes in which the manegement activities choose for the storage of a large amount of information, and where the technologies of information analysis are still focused on the profile of some specialists with restrictions of time and cost. A case was analyzed by a bayesian classifier as a tool for the risk analysis, by means of the total number of contracted insurances and the declared disasters. Keywords: Knowledge Discovery in Databases, data mining, classification, predictive model, probabilistic reasoning, Naïve Bayes 3882 Extração de Conhecimento para Sistemas de Apoio à Decisão Este trabalho apresenta os resultados obtidos com a elaboração de um Processo de Extração de Conhecimento a partir de Bancos de Dados, para formar uma base auxiliar a Sistemas Especialistas de Apoio à Decisão. O trabalho aborda a viabilidade da implementação de processos de extração de conhecimento em empresas cujas estratégias de extração não estão automatizadas. Além disso, discute-se o direcionamento do processo de extração do conhecimento para técnicas de mineração de dados e avaliação de padrões, com o objetivo de facilitar o emprego das bases de conhecimento por sistemas especialistas. O processo de extração aplicado é divido em três etapas principais: o préprocessamento, a mineração de dados e o pós-processamento, sendo que em cada uma dessas etapas, um conjunto de atividades essencias é aplicado, dentro de um fluxo de trabalho interativo e iterativo. Na etapa de mineração de dados, discute-se a importância de se avaliar as técnicas mais adequadas e aderentes ao domínio do problema, a importância das metodologias, a organização de tarefas de mineração e a disponibilização dos resultados para o usuário final. Os experimentos para a extração de conhecimento foram aplicados para otimizar processos onde as atividades organizacionais optam pelo armazenamento de uma grande quantidade de dados, e onde as técnicas de análise de dados ainda estão concentradas no perfil de alguns especialistas do domínio, com restrições de prazo e custo. Como estudo de caso se adotou um classificador bayesiano como uma ferramenta para a análise de risco, utilizando como fontes de dados os registros de apólices de seguros emitidas e os respectivos registros de sinistros. 1- Introdução Uma mudança cultural na composição dos elementos essenciais para o processo de decisão têm orientado a busca e a utilização de ferramentas de apoio. Os processos decisórios oriundos de práticas com pouco embasamento vem sendo sistematicamente abandonados pelas corporações. Além disso, a automatização de muitas atividades organizacionais, através de softwares, e a diminuição dos custos de armazenamento de dados facilitaram o acesso à informação confiável de forma consideravelmente rápida (Berry & Linoff, 2004). No início da década de 80, o desenvolvimento dos primeiros sistemas de gerencimento de banco de dados relacionais permitiu gerar modelos de dados e implementá-los em uma estrutura organizada de informações, garantindo um melhor desempenho nas operações relacionadas ao manuseio dos dados (Fayyad, Piatetsky-Shapiro & Smyth, 1996). Nesse cenário recente, onde as limitações físicas no armazenamento de dados foram consideravelmente minimizadas, houve um grande impulso no desenvolvimento de softwares de suporte às atividades corporativas em diversas áreas, desde instituições de pesquisa até entidades governamentais e privadas. Conseqüentemente, a aquisição dos dados característicos de um evento e seu mapemento para entidades físicas inter-relacionadas em uma estrutura de banco 3883 de dados tornou-se bastante simples. Embora a aquisição dos dados e a sua manutenção sejam de extrema importância para os usuários, este não é o objetivo final para os investimentos realizados em torno da informação (Dunkel et al., 1997). Além da aquisição da informação, deseja-se atingir a plena utilização dos dados armazenados para responder a questionamentos simples, tais como: identificação rápida e precisa de novos comportamentos nos negócios; composição e evolução de novos produtos; construção de modelos para a predição de eventos, dentre outros (Kurgan & Musilek, 2006). Desta forma, a quantidade de informação necessária para uma tomada de decisão vem aumentando sistematicamente, fazendo com que os processos de análise de dados se tornassem caros e demorados, e as ferramentas utilizadas, tais como planilhas eletrônicas e relatórios, pouco elucidativas para visualizar um comportamento novo ou tendência nos dados. Na atualidade, verifica-se em muitas empresas que o processo de transformação dos dados pertencentes a uma determinada base, em conhecimento útil, é resultado de uma análise tradicional, por meio de relatórios ou de ferramentas específicas. Esses recursos permitem a visibilidade de um conjunto de informações cuja avaliação é executada por analistas com grande conhecimento nas respectivas áreas de atuação. Em termos práticos, isso significa delegar a tarefa de elucidar os comportamentos e tendências refletidas nos dados a um grupo restrito de indivíduos especialistas, os analistas de negócio, que avaliam as informações obtidas a partir de alguma ferramenta ou software com o intuito de identificar elementos significativos para uma futura tomada de decisão (Fayyad, Piatetsky-Shapiro & Smyth, 1996). Por muitos anos, essa prática tradicional de análise de dados foi o único procedimento utilizado para a extração de conhecimento, empregado e aceito para as tomadas de decisões estratégicas dentro de uma empresa. Entretanto, esses procedimentos vem se revelando cada vez mais onerosos e demorados, além de gerar resultados extremamente subjetivos e imprecisos, considerando o volume de dados a serem manipulados (Yoon & Kerschberg,1993; Fayyad & Stolorz, 1997). A identificação de um padrão, ou seja, de uma informação útil, tornou-se uma tarefa exaustiva e difícil de ser executada por um especialista, devido à necessidade de se analisar um conjunto cada vez maior de dados dentro de prazos cada vez mais restritos. Além disso, mesmo que as corporações ainda se utilizem desse método para a extração de conhecimento, esta estratégia não garante que o comportamento dinâmico do negócio estaria sendo considerado nos processos de seleção de dados. Com a grande oferta de recursos para a captação e armazenamento de dados, tornou-se comum encontrar sistemas de bancos de dados capazes de gerenciar mais de 20 milhões de transações diárias, como ocorre, por exemplo com o banco de dados criado para a empresa Wal-Mart (Babcock, 1994). A empresa Mobil Oil Corporation desenvolveu um data warehouse capaz de armazenar mais de 10 terabytes de dados relacionados à exploração de petróleo. Num contexto acadêmico, a base de dados para o projeto do Genoma Humano foi preparada para coletar vários gigabytes de informações sobre o código genético humano (Fasman, Cuticchia & Kingsbury, 1994). Diante desse cenário, a necessidade de se desenvolver técnicas e ferramentas com a capacidade de extração de conhecimento de forma inteligente e automatizada levou ao surgimento de um campo de pesquisa conhecido por Knowledge Discovery in Databases – ou KDD (Fayyad, Piatetsky-Shapiro & Smyth, 1996). 3884 Este trabalho apresenta uma proposta para formalizar o processo de extração de conhecimento em corporações, onde a complexidade dos processos de negócio e a grande massa de dados armazenados tornou crítica a tarefa de aquisição de conhecimento. O processo de extração de conhecimento aqui proposto tem como propósito a apresentação de um modelo aplicável a qualquer domínio de conhecimento . Metodologia: A partir de modelos de processos amplamente divulgados na literatura da área, três modelos se destacam: Fayad, Piatetsky-Shapiro e Smyth (Fayyad, Piatetsky-Shapiro, Smyth, 1996), Williams e Huang (Williams & Huang, 1996) e o modelo CRISP – Hipp (Chapman et al., 2000; Wirth & Hipp, 2000), cujas etapas foram agrupadas de acordo com seus objetivos em torno da mineração de dados, conforme destacado na tabela 1. Tabela 1. Modelos de processos KDD. Macro-etapas Préprocessamento Modelo de Fayyad, Piatetsky-Shapiro e Smyth Compreensão da área de domínio Modelo Hipp CRISP- Modelo de Williams e Huang Compreensão do Seleção e Préprocessamento Negócio Compreensão do modelo de dados Preparação dos Pré- Dados Seleção Limpeza e processamento Redução e Projeção Mineração de Escolha da tarefa de Modelagem mineração de dados Dados Escolha do algoritmo de mineração de dados Mineração de dados Interpretação dos Avaliação Pósprocessamento padrões Consolidação Implantação 3885 Mineração Avaliação - Pré-processamento: de um modo geral, a fase de pré-processamento envolve as atividades de compreensão da área de domínio do problema e a seleção de registros que serão utlizados na etapa de mineração de dados. O objetivo desta etapa é simplesmente preparar um ambiente propício para a aplicação das técnicas de mineração (Tan, Steinbach & Kumar, 2006). Podem ser consideradas como parte da etapa de pré-processamento as atividades executadas para a compreensão da área de domínio, o estudo do modelo de dados, a seleção de dados e o tratamento dos registros selecionados. Os projetos de extração de conhecimento devem prever algumas atividades adicionais para esta etapa, de acordo com a organização da base de dados e dos processos que alimentam essa base, dentre as quais destacam-se a concorrência e a convergência de dados. Para evitar problemas de desempenho e uma possível indisponibilidade de sistemas que processam informações e armazenam os dados, a atividade de seleção de amostras deve ser realizada com algumas restrições, de acordo com seu porte – avaliada pela quantidade de registros esperada em cada acesso, e tipo de acesso, principalmente as que envolvem tabelas de diferentes fontes. Quanto à convergência, há um fator crítico na atividade de seleção de dados que se altera à medida que utilizamos, no mesmo processo de seleção de dados, o tratamento de registros com a padronização de tipos de atributos, categorização de valores, agrupamento em faixas de valores e limpeza de registros. Por esta razão, a etapa de pré-processamento acaba sendo a mais demorada, se comparada às demais etapas do processo KDD. O modelo CRISP-Hipp propõe que o processo KDD seja cíclico e dividido em iterações menores (Hipp, Güntzer & Nakhaeizadeh, 2002), que essencialmente minimiza os impactos de prazo caso seja necessário retomar alguma atividade do pré-processamento. Como forma de atender às necessidades do pré-processamento, alguns recursos são indicados, tais como data-warehouse (Fayyad & Stolorz, 1996) e seleção automática de atributos a partir dos métodos “filtro” e “wrapper” (Witten & Frank, 2000). - Mineração de dados: na etapa de mineração de dados ocorre a definição da tarefa de mineração de dados que será aplicada ao conjunto de dados selecionados e uma técnica de suporte para a mineração. A mineração de dados contempla um conjunto de tarefas, apoiadas por técnicas e algoritmos, para a extração automática de padrões em dados (Tan, Steinbach & Kumar, 2006). Historicamente, a mineração de dados teve como um dos pontos de partida as pesquisas realizadas em diversas disciplinas para o desenvolvimento de ferramentas eficientes no gerenciamento de diversos tipos de dados, sendo atualmente considerada uma confluência das disciplinas de estatística, inteligência artificial, reconhecimento de padrões, aprendizagem de máquina, com suporte tecnológico dos sistemas de gerenciamento de banco de dados, data warehouse, computação paralela e distribuída (Fayyad, Piatetsky-Shapiro & Smyth, 1996; Tan, Steinbach & Kumar, 2006). Os modelos gerados pelas tarefas de mineração de dados podem ser divididos em duas categorias relevantes: os modelos preditivos e os modelos descritivos. Na modelagem preditiva, o objetivo é identificar o valor de um atributo – variável dependente, com base nos valores de outros atributos, as variáveis independentes. A modelagem descritiva objetiva a derivação de padrões que 3886 expliquem um relacionamento verificado em um conjunto de registros. As tarefas descritivas exigem técnicas de pós-processamento que avaliem os resultados obtidos. A partir dos objetivos a serem alcançados com a aplicação da mineração de dados, Tan, Steinbach e Kumar, definem como principais tarefas a modelagem preditiva, a análise de agrupamentos, a análise de associações e a detecção de anomalias. A tabela 2 apresenta um resumo dos tipos de tarefas mais comuns na mineração de dados e suas aplicações. Tabela 2: Tarefas de mineração de dados e aplicações. Categoria Preditiva Descritiva Tarefa Exemplos de Aplicações Classificação de novas espécies de plantas e animais. Avaliação de risco em contratos de seguros, transporte de cargas Acessos às páginas web que ocorrem aos pares. Organização de produtos em supermercados que são adquiridos aos pares. Filtro de perfil de clientes para campanhas direcionadas. Detecção de fraudes em transações de cartão de crédito. Sinais de intrusão em sistemas de monitoramento de patrimônio. Classificação Regressão Análise de Associação Análise de Agrupamentos Detecção de Anomalias A obtenção dos modelos preditivos ocorre com a aplicação de dois tipos de tarefas de mineração de dados: a classificação e a regressão. Um modelo preditivo permite verificar a classe a que uma variável pode ser atribuída em função de outras variáveis. Na classificação, a variával dependente ou a classe é discreta, enquanto que na regressão, a variável dependente é contínua. As técnicas de mineração de dados são recursos que dão suporte às tarefas de mineração. No caso da tarefa de classificação, foco desta investigação, dentre as técnicas mais comuns, podemos destacar a indução por árvores de decisão, o classificador baseado em regras, o classificador Nearest-Neighbor, o classificador Bayesiano e as redes neurais artificais. - Pós-processamento: na etapa de pós-processamento, ocorre a finalização de uma iteração do processo de extração de conhecimento, com a avaliação dos padrões descobertos e sua disponibilização ao usuário final. Esta implantação pode ser através da alimentação de uma base de conhecimento que será utilizada por uma máquina de inferência ou por uma ferramenta que permite a visualização de resultados para o auxílio a um especialista humano no suporte às decisões. Em relação à representação do conhecimento, há varios formatos que permitem a visualização das saídas de um processo de mineração, tais como a árvore de decisão, as regras de associação e classificação, a visualização de agrupamentos são estilos de representação básicos do processo KDD. Para os modelos de classificação, cujo desempenho pode ser avaliado pela taxa de erro, cada 3887 classificação correta e incorreta de reigstros é registrada e ao final do processamento, é feita a avaliação do desempenho do modelo. O modelo de classificação A classificação é uma das tarefas de mineração de dados em que um registro composto por um conjunto de de atributos de entrada x, é mapeado a uma classe y, quando submetido a um modelo de classificação. A técnica de classificação permite construir modelos de classificação a partir de dados obtidos a partir extrações realizadas na etapa de pré-processamento, conforme representado na figura 1. Técnicas como áreas de decisão, redes neurais e inferência probabilística bayesiana permitem a construção dos modelos de aprendizagem. O modelo gerado permite a classificação de novos registros, sem que nada se saiba previamente sobre os novos dados. Conjunto de Atributos (X) Classe (Y) Modelo de Classificação Input Output Figura 1: Esquema básico para classificação de eventos. Classificação para modelagem descritiva: um modelo de classificação pode ser utilizado como ferramenta para distinguir objetos de diferentes classes, por exemplo, quando os atributos de um conjunto de apólices são utilizados para classificar diferentes categorias de perdas, por exemplo, os atributos categoria_veículo e local_circulação, são atributos comuns às apólices de automóveis e que podem ser utilizadas como atributos de um modelo que represente dois tipos diferentes de perdas: por roubo e colisão. Classificação para modelagem preditiva: consite na utilização dos modelos de classificação para predizer a classe de um novo registro. O registro novo é submetido ao modelo de forma a obter a classe mais provável a que pertence. Inferência Probabilística para o Tratamento de Incertezas em Modelos de Classificação A inferência probabilística é uma das ferramentas mais utilizadas para minimizar a incerteza presente nas bases de conhecimento. Nos projetos de sistemas de apoio à decisão, um fator importante que não deve ser desconsiderado é o porte da base de conhecimento, pois a inferência probabilística – utilizando como base o Teorema de Bayes, pode apresentar problemas de desempenho, considerando a grande matriz de probabilidades gerada pela quantidade de evidências presentes nos cenários. Por outro lado, deve se considerar que um sistema de apoio à decisão, implementado para 3888 realizar classificações ou predições, terá maior desempenho se possuir um registro que mapeie a maior quantidade possível de experiências – as lições aprendidas. Com isso, as questões de “banco de dados vazio” ou uma condição oposta, pode afetar a precisão de suas saídas, ou uma queda de desempenho. Em algumas situações, onde a modelagem da base de conhecimento expõe uma grande quantidade de atributos, opta-se por descartar os menos relevantes, avaliando-se que a ausência desses atributos não torna o modelo menos confiável. Como forma de contornar os problemas citados acima, os primeiros sistemas de apoio à decisão, desenvolvidos nos anos 60, tratavam a incerteza de forma restritiva. Dessa forma, os sistemas de diagnóstico médico, por exemplo, assumiam um conjunto de possíveis doenças a serem diagnosticadas e que estas eram mutuamente exclusivas, sendo que a evidência fosse condicionalmente independente dada qualquer hipótese. Assim, somente uma doença era assumida para ser diagnosticada para cada paciente. O resultado é que os sistemas implementados nessa abordagem inferiam sobre um conjunto com pequeno número de hipóteses e evidência limitada. Por essa razão, o interesse na época, de utilizar a inferência probabilística diminuiu pela crença de ser inadequada para expressar a estrutura do conhecimento humano e devido ao fato de que, se aplicado a domínios maiores, as simplificações adotadas produziam resultados incorretos e as conclusões a que esses sistemas chegavam não eram vistas como confiáveis para os especialistas do domínio. Novamente, na década de 80, ocorreu uma motivação para a utilização dessa abordagem, desta vez, com a consideração do relacionamento causal e a independência condicional entre variáveis do domínio. Neste caso, seria necessário representar probabilidades condicionais somente entre variáveis diretamente dependentes, e com isso tornar viável a implementação de aplicações utilizando a inferência probabilística. Essa retomada se deveu às pesquisas direcionadas em modelos baseados em representações gráficas denominadas redes probabilísticas, e através das quais, permitem representar e manipular a incerteza com base em princípios matemáticos fundamentados e modelar o conhecimento do especialista do domínio de forma intuitiva. A utilização da representação gráfica das redes probabilísticas permite explicitar as relações de dependências, tornando-se uma ferramenta poderosa na aquisição de conhecimento e no processo de validação do modelo gerado, uma vez que, existindo uma representação do domínio sob forma de rede causal, se houver uma evidência, é possível determinar quais variáveis devem ter a crença atualizada (Jensen, 1990). Estudo de Caso: Aplicação do Classificador Bayesiano para Análise de Risco em Contratos de seguro O classificador Naive Bayes é considerado um dos classificadores Bayesianos mais elementares, sendo naturalmente incremental devido à sua simplicidade (Yang, 2003; Roure, 2002; Keogh & Pazzani, 1999). Dessa forma, é facilmente aplicado a uma grande quantidade de problemas e em diversas áreas do conhecimento (Duda & Hart, 2001; Langrey, 1992). Avaliar o desempenho de um tipo de seguro depende de uma análise detalhada de seu histórico no mercado e de peculiaridades do produto que podem 3889 afetar o retorno desejado. A informação mais atualizada sobre o desempenho de uma determinada carteira é particularmente importante para uma companhia manter sua competitividade e rentabilidade no mercado. Por outro lado, sem conhecer as áreas de risco significativas para sua carteira, uma companhia seguradora não pode sustentar suas operações, mesmo que essa carteira mostre um bom desempenho dentro de um período em que foi monitorada. A carteira deve ter sua exposição ao risco de forma balanceada (Williams & Huang (2), 1996). A análise geral de uma carteira de seguros pode ser feita através da utilização de técnicas estatísticas diretas, baseadas nos prêmios totais ganhos e no total das solicitações de resgates pagas aos clientes. Uma abordagem mais sofisticada, no entanto, seria necessária para analisar os elementos da carteira de seguros, que normalmente levam a dividir o risco da carteira em pequenas áreas de risco, cada qual representada por um conjunto de fatores de risco. Quando uma carteira é particionada, um modelo pode ser concebido para identificar um grupo, relacionando os fatores de risco à taxa de requisição de indenização por perdas e os valores requisitados. Dados históricos podem ser utilizados para identificar os parâmetros desse modelo e o modelo pode ser utilizado para predizer a frequência de solicitação de indenizações e o custo das indenizações para diferentes níveis de risco. Uma forma alternativa às técnicas estatísticas para a análise de risco de seguros trata o problema da análise de risco no contexto da mineração de dados, utilizando a teoria das probabilidades (Siebes, 1994). Para as companhias de seguro, um boa alternativa para avaliar sua exposição a um determinado risco é o constante monitoramento de sua carteira, de modo a identificar de forma ágil as variações dos fatores de risco em grupos específicos que compõem a base de clientes e bens segurados. Desta forma, pode-se balancear os prêmios competitivos a uma menor exposição ao risco. Contextualização: Em muitos produtos de seguro a exposição ao risco consiste na análise do segurado e do objeto do seguro. O perfil do segurado e do bem informado numa proposta contratual é então submetida a um critério de pontuação, que verifica a exposição ao risco da empresa seguradora na aceitação do contrato. Essa análise permite ajustar os prêmios conforme o perfil apresentado pelo cliente. O objetivo da análise de risco é classificar os contratos de seguros quanto aos seu grau de sinistralidade e com isso, ofecerer um produto com preço justo ao consumidor que estiver fora da faixa considerada como risco para a empresa. Dentre as tarefas de Mineração de Dados disponíveis, adotamos a Classificação como uma ferramenta para Análise de Risco, utilizando como fontes de dados os registros de apólices e sinistros. Na etapa de pré-processamento, identificamos o processo de emissão de contratos, especificamente o critério utilizado para avaliação de perfil na figura 1, demonstramos parte desse processo através de uma representação gráfica de processo organizacional, cuja notação é conhecida como IDEF0 (De Marco, 1979). Dessa forma, foi possível identificar os primeiros conceitos candidatos para uma investigação do modelo de dados. 3890 Regras Pontuação Formulário Avaliação de Risco Analisar Perfil de Risco A0 Pontos de Agravo / Desconto Notificação de Aceitação Aplicação Tabela de Calculo Ponto Pontuação Figura 2: Atividade de Análise de Perfil de Risco. Numa atividade posterior, identificamos nos repositórios de dados as tabelas e atributos de interesse para a seleção de registros, com a formatação dos valores, através de implementação de programa para essa finalidade. Na tabela 3, representamos parte do resultado da atividade de seleção de dados. Tabela 3: Exemplo de conjunto de treinamento para classificação. Faixa Localização Etária Oeste Centro Leste Sul oeste centro oeste centro leste sul oeste centro leste Estado civil 1c 1c 1c 1c 1c 1c 2s 2s 2s 2c 2c 2s 2s SexoGrau de Uso m Desloc Trabalho m Desloc Trabalho m Desloc Trabalho m Desloc Trabalho m Desloc Trabalho m Desloc Trabalho f Desloc Trabalho f Desloc Trabalho f Desloc Trabalho f Profissional f Profissional m Desloc Trabalho m Desloc Trabalho 3891 Sinistro? Sim Sim Sim Não Não não não sim sim sim não sim não norte oeste oeste centro leste leste norte sul leste norte norte sul norte sul sul 2s 1c 1s 1s 1s 1c 1c 1c 2s 2s 2s 2s 2c 2c 2c m f m m m m f f m m m m m m m Profissional Desloc Trabalho Desloc Trabalho Desloc Trabalho Desloc Trabalho Profissional Lazer Lazer Lazer Desloc Trabalho Profissional Profissional Desloc Trabalho Desloc Trabalho Desloc Trabalho sim sim sim sim não sim não não não sim sim sim sim não não - Aplicação do Teorema de Bayes na classificação de contratos Para utilizar o Teorema de Bayes, formaliza-se X como um conjunto de atributos e Y como uma variável de classe. Se a variável classe Y, tem um relacionamento com os atributos, então pode-se tratar X e Y, capturando seu relacionamento probabilístico usando a função P(Y|X), ou seja, a probabilidade a posteriori de Y. Para ilustrar essa abordagem, suponha a tarefa de classificar que um contrato de seguro, pertencente a um grupo de risco, com base nas respostas obtidas do questionário de avaliação de perfil. O exemplo contido na tabela 2, que utilzaremos como conjunto de treinamento que representa essa situação, com os seguintes atributos: localização, faixa etária, estado civil, sexo e grau de uso. A classe é a ocorrência do sinistro, classificado com “sim” ou “não”. O classificador Naïve-Bayes estima a probabilidade condicional da classe, assumindo que os atributos são condicionalmente independentes. A independência condicional é formalmente expressa pela equação: P( Xi | Y d P(X | Y=y) = y) i 1 (1.3) onde cada X ={X1,X2,..., Xn} consiste de d atributos e Y é a classe atribuída a X. Dessa forma, a probabilidade a posteriori para cada classe Y é: P( Xi | Y) . P( Y ) / P( X ) d P(Y | X) = i 1 (1.4) Para um conjunto fixo de atributos em X e para fins comparativos dentro de um processo de classificação, pode-se desconsiderar o cálculo da 3892 probabilidade a posteriori envolvendo o P(X) que aparece no denominador do Teorema de Bayes. Como se trata do mesmo contrato, os atributos utilizados são os mesmos, e a saída é a probabilidade da hipótese de ocorrência de sinistro dadas as evidências de localização, idade, sexo e estado civil do condutor, e o grau de utilização do veículo. Basicamente, passando essas informações para a fórmula do Teorema de Bayes: P(H | X) = P( X | H) . P(H) P( X ) X é fixo Į = 1 / P(X) E sendo assim, P(H | X) = P ( X | H) . P(H) . Į Resultados Para o exemplo do contrato de seguro, pode-se escrever: P(sinistro = sim |localização=norte, faixa_etaria =1, estado_civil =c, sexo=M, grau_uso =Desloc trabalho) = P(localização=norte |sinistro =sim) . P(faixa_etaria =1|sinistro =sim).P(estado_civil = c|sinistro = sim).P(sexo =M|sinistro = sim) . P(grau_uso=Desloc_trabalho|sinistro = sim) .P(sinistro = sim). Į P(sinistro = não|localização=norte, faixa_etaria =1, estado_civil =c, sexo=M, grau_uso =Desloc trabalho)=P(localização=norte|sinistro= não) . P(faixa_etaria =1|sinistro =não).P(estado_civil=c|sinistro = não).P(sexo =M|sinistro = não) . P(grau_uso=Desloc_trabalho|sinistro = não).P(sinistro = não). ǹ Utilizando o cenário de classificação de um contrato de seguro como sendo ou não um contrato de alto risco, dadas as caracterísitcas contratuais, aplica-se o Teorema de Bayes com as seguintes evidências: Localização do veículo: Zona Sul Faixa etária do condutor: entre 18 a 25 anos – faixa 1 Estado Civil: solteiro 3893 Sexo: Masculino Grau de utilização: Deslocamento para Trabalho Para esses atributos de entrada, a classificação é realizada com a hipótese de ocorrer ou não um sinistro, com base das probablidades de ocorrência ou não de sinistro de cada atributo. Separam-se os registros para cada atributo, calculando a probabilidade condicional conforme ilustrado nas Tabela 3 a 9. Tab. 4: Probabilidade a priori de sinistro Sinistro sim não Total QTD P(sinistro) 32000 0,40 48000 0,60 80000 1,0 Tab. 5: Probabilidades de sinistro por localização Localização Sinistro=sim Sinistro= Não Norte 8332 9042 Sul 12012 15545 Oeste 6033 12407 Leste 4038 7856 Centro 1585 3150 Total 32000 48000 Total 17374 27557 18440 11894 4735 80000 As demais tabelas, exibem as quantidades de sinistros registradas para cada atributo de uma Avaliação de Perfil do Segurado. Tab.6: Probabilidades de sinistro por faixa etária do Tab.7: Probabilidades de sinistro por estado civil do condutor Faixa Etária 18 < X <25 X > 25 Total condutor Sinistro=sim Sinistro =não Total 17334 17042 34376 14666 30958 45624 32000 48000 80000 Estado Civil Sinistro= sim Sinistro =não Total Casado 10000 24332 34332 Solteiro 22000 23668 45668 Total 32000 48000 80000 Tab. 8: Probabilidades de sinistro por sexo do Tab. 9: Probalidade de sinistro por grau de utilização condutor do veículo Sexo Sinistro=sim Sinistro=não Total Masculino 18344 28000 46344 Feminino 13656 20000 33656 Total 32000 48000 80000 Grau de Uso Sinistro=sim Sinistro=não Total Lazer 4533 8641 13174 Desloc Traba 15002 19932 34934 Profissional 12465 19427 31892 Total 32000 48000 80000 Tabela10: Cálculo das probabilidades de sinistro para os valores dos atributos localização, faixa etária, estado civil e sexo do condutor e grau de utilização do veículo. X => "Sinistro=sim" X => "Sinistro=não" P(localização =norte| X) 0,26 P(localização =norte| X) 0,2 P(localização = sul| X) 0,37 P(localização = sul| X) 0,32 P(localização =oeste| X) 0,19 P(localização =oeste| X) 0,25 P(localização =leste| X) 0,13 P(localização =leste| X) 0,16 P(localização =centro| X) 0,05 P(localização =centro| X) 0,06 3894 P(faixa_etaria=1| X) 0,54 P(faixa_etaria=2| X) 0,46 P(estado_civil=casado| X) 0,31 P(estado_civil=solteiro| X) 0,68 P(sexo=masculino| X) 0,57 P(sexo=feminino| X) 0,42 P(grau_uso= lazer| X) 0,14 P(grau_uso=deslocamento trab| X) 0,47 P(grau_uso=profissional| X) 0,38 P(faixa_etaria=1| X) P(faixa_etaria=2| X) P(estado_civil=casado| X) P(estado_civil=solteiro| X) P(sexo=masculino| X) P(sexo=feminino| X) P(grau_uso= lazer| X) P(grau_uso=deslocamento trab| X) P(grau_uso=profissional| X) 0,35 0,64 0,51 0,49 0,58 0,42 0,14 0,42 0,4 Como exemplo, podemos classificar um contrato na hipótese de haver ou não risco de sinistro a partir dos valores informados, atribuindo em X = (localização = Sul,faixa_etaria =1, estado_civil=s, sexo = M, grau_uso=Desloc Trabalho). P(sinistro=sim| X) = 0,40 X 0,37 X 0,54 X 0,68 X 0,57 X 0,47 = 0,14 P(sinistro=não|X) = 0,60 X 0,32 X 0,35 X 0,49 X 0,58 X 0,42 = 0,008 Nesse exemplo, conforme a equação (1.1), o contrato representado por X, pertence ao um grupo de risco de sinistro, pois P(sinistro=sim| X) > P(sinistro=não|X) O Naive Bayes é uma abordagem simples de representação, utilização e aprendizagem baseada na inferência probabilística e embora a sua utilização tenha sido constantemente reavaliada com a proposta de esquemas de aprendizagens mais sofisticadas, em muitos casos, podemos verificar que a utilização de um método mais simples traz resultados igualmente satisfatórios. Mesmo quando o Naive Bayes não traz bons resultados, não é difícil verificar o motivo. Como é assumida a independência entre os atributos, a adição de atributos redundantes podem distorcer o modelo de aprendizagem. Um exemplo do cenário abordado, a adição de um atributo com os mesmos valores da faixa etária do condutor, faria com que o atributo faixa etária fosse considerado duas vezes no cálculo das probabilidades, influenciando na decisão. Novamente, citamos a importância a avaliação do modelo de dados na etapa de préprocessamento, como forma de identificar nas tabelas, os atributos cujos valores são resultados de cálculos ou combinações de outros atributos, para evitar que as dependências entre atributos inevitavelmente presentes nos bancos de dados, afetem o modelo de classificação. Conclusões Neste trabalho apresentamos uma proposta de Processo de Extração de Conhecimento a partir de Bancos de Dados, para formação de bases de conhecimento para Sistemas Especialistas de Apoio à Decisão, utilizando como base os modelos idealizados por Fayad, Piatetsky-Shapiro & Smyth (1996), Williams & Huang (1996) e o modelo de Hipp, Güntzer & Nakhaeizadeh (2002). O processo de extração de conhecimento utilizou o estudo de caso associado à extração de conhecimento para análise de risco em contratos de seguros. 3895 Utilizou–se a Classificação como tarefa de Mineração de Dados, com inferência probabilística baseada no Teorema de Bayes. Embora tenhamos utilizado uma quantidade limitada de atributos no estudo de caso de avaliação de perfil de segurados, o processo se mostra bastante útil, por utilizar uma ferramenta que explora as informações históricas, e através das experiências registradas em bancos de dados, permite extrair padrões que comumente passam despercebidos ao usuário devido ao grande volume de informações armazenadas. Nesse processo, é recomendável o suporte de um especialista da área de domínio, para que sejam tratados os atributos relevantes ao problema que está sendo modelado. A etapa inicial de pré-processamento mostrou-se mais complexa pela necessidade de tratamento dos dados brutos para que possam ser utilizados por uma ferramenta de data mining. Na etapa de pós-processamento, indica-se o uso de ferramentas de visualização dos dados minerados, para avaliação do modelo gerado. Para essa etapa, de acordo com a tarefa de data mining selecionada para o problema, é feita uma avaliação do modelo gerado, através de testes que definirão uma métrica para avaliar a eficiência do modelo perante novas situações. O problema de desempenho do modelo gerado na inferência probabilística com o uso do Teorema de Bayes pode ser contornado com o uso das redes probabilísticas. A utilização das redes Bayesianas será foco de estudos futuros. Necessita-se, ainda, tratar o processo de aquisição do conhecimento como um processo incremental, para garantir que o conhecimento armazenado nas bases permaneça sempre atualizado. Referências Apte, C.; Hong, S. J. Predicting Equity Returns from Securities Data. In Advances in Knowledge Discovery and Data Mining, 541-560, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. California: AAAI Press, 1996. Babcock, C. Parallel Processing Mines Retail Data. Computer World 6, September 26, 1994. Baranauskas, J. A. Extração Automática de Conhecimento por Múltiplos Indutores, São Carlos:ICMC-USP, 2001. Berry, M. J. A; Linoff, G. S. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Managenent, 2a edição. Indianapolis: Wiley, 2004. Brachman, R., Anand, T. The Process of Knowledge Discovery in Databases: A Human-Centered Approach. In Advances in Knowledge Discovery and Data Mining, editado por U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. California: AAAI Press, 1996. Chen, M., Han, J., Yu, P. Data Mining: An Overview from a Database Perspective. IEEE Transactions on Knowledge and Data Engineering. 8(6), 866-883, 1996 Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Shearer, C.; Wirth, R. CRISP_DM 1.0. Disponível em www.crisp-dm.org. 2000. De Marco, T., Strutured Analysis and System Specification. Prentice Hall, 1979. Duda, R.; Hart, P. ; Stork, D. Pattern Classification, 2nd edtion. New York: John Wiley and Sons: 2001. 3896 Dunkel, Brian; Sotopar, Nandit; Szaro, John, Uthurasamy, Ramasamy. Systems for KDD: From concepts to pratice. Future Generation Computer Systems, 13, 231-242, 1997. Fasman, K.; Cuticchia, A.; Kingsbury, D. The GDB Human Genome Database Anno 1994. Nucl. Acid. R., 22(17): 3462-3469,1994. Fayyad, U.; Stolorz, P. Data mining and KDD: Promise and challenges. Future Generation Computer Systems, 13, 99-115, 1997. Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. From Data Mining to Knowledge Discovery: An Overview. California: AAAI Press, 37-54, 1996. Fayyad, U.; Djorgovski, G.; Weir, N.:. Automating the Analysis and Cataloging of Sky Surveys. . In Advances in Knowledge Discovery and Data Mining, 471494, editado por U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. California: AAAI Press,1996. Frawley, U.; Piatetsky-Shapiro, G.; Matheus, C. Knowledge Discovery in Databases: An Overview. In Knowledge Discovery n Databases, ed. G. Piatetsky-Shapiro and B. Frawley. Cambridge: AAAI/MIT Press, 1991. Jensen, F.; Olsen, K.; Andersen, S. An Algebra Bayesian Belief Universes for Knowledge-based Systems., New York: Networks, v.20, p.637-659,1990. Han, J.; Kamber, M. Data Mining – Concepts and Techniques, 1a edição. New York: Morgan Kaufmann, 2000. Hand, D. Discrimination and Classification. Chichester: John Wiley and Sons, 1981. Hipp, J.; Güntzer,U.; Nakhaeizadeh, G. Data Mining of Association Rules and the Process of Knowledge Discovery in Databases. In Advances in Data Mining, editado por Petra Perner. Leipzig: Springer, 2002,15-36. Holsheimer, M., Kersten, M., Mannila, H.;Toivonen, H. A perspective on databases and data mining, Proc. Of the First International Conference on Knowledge Discovery and Data Mining. California: AAAI Press,1995, 150-155. Keogh, E.; Pazzani, M. Learning augmented bayesian classifiers: A comparison of distribution-based and classification-based approaches. 1999. Kurgan, Lukasz A.; Musilek, Petr. A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review, Cambridge, vol. 21:1, 1-24, 2006. Langrey, P.; Iba, W.; Thompson, K. An analysis os bayesian classifiers. In Tenth National Conference on Artificial Intelligence, 223-228, 1992. Luger, G. Inteligência Artificial: estruturas e estratégias para a solução de problemas complexos; trad. Paulo Engel, 4ª edição. Porto Alegre: Bookmann, 2004. McLachlan, G. Discriminant Analysis and Statistical Pattern Recognition. New York: Wiley, 1992. Matheus,C.; Chan, P.; Piatetsky-Shapiro,G. Systems for Knowledge Discovery in Databases. IEEE Transaction on Knowledge and Data Engineering 5(6), 903-912, 1993 Monard, M.; Caulkins, C.; Baranauskas, J.; Oliveira, R.; Rezende, S. Data preparation, reduction and prediction in the context of data mining: A case study with insurance policies. Technical Report 81, ICMC-USP,1999. Roure, J. An incremental algorithm for tree-shaped Bayesian network learning. In F. Van Harmelen editor, Proceedings of the 10th European Conference of Artificial Intelligence (ECAI 2002), 350,IOS Press,2002. 3897 Siebes, A. Homogeneous discoveries contain no surprises: Infering risk-profiles from large databases. Techinical Report CS-R9430, CWI, 1994. Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin. Introduction to Data Mining. Boston: Addison-Wesley, 2006. Ullman, J. Principles of Database and Knowledge-Base Systems, Vol. I, .Maryland: Computer Science Press,1988. Yang, Y. Discretization for Naïve Bayes Learning. PhD thesis, School of Computer Science and Software Engineering of Monash University, 2003. Yoon, J.; Kerschberg, L. A framework for knowledge discovery and evolution databases. IEEE Transaction on Knowledge and Data Engineering, vol. 5, nº 6, 973-979,1993. Weiss, S.; Kulikowski, C. Computer Systems that Learn: Classification and Predictions Methods from Statistics, Neural Networks, Machine Learning, and Expert Systems. California:Morgan Kaufmann,1991. Williams, G.; Huang, Z. Modeling the KDD process: A four stage process and four element model, Technical Report TR-DM-96013, CSIRO Division of Information Technology, Camberra, 1-8,1996. Williams, G.; Huang, Z. A case study in knowledge acquisition for insurance risk assessment using a KDD methodology. PKAW96, the Pacific Rim Knowledge Acquisition Workshop, 1-11, Sydney, 1996. Wirth, R.; Hipp, J. When Distribution is part of the semantics: A new problem class for distributed knowledge discovery. In Proceedings of the PKDD 2001 Workshop on Ubiquitous Data Mining for Mobile and Distributed Environments, 56-64, Germany, 2001. Wirth, R.; Hipp, J. CRISP-DM: Towards a standard process model for data mining. Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining, 29-39, Manchester, 2000. Witten, I.; Frank, E. Data Mining: Pratical machine learning tools and techniques with Java implementations. San Diego: Academic Press, 2000. 3898