UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPTO DE INFORMÁTICA E ESTATÍSTICA Disciplina: Projetos I Aluno: Rodrigo Benincá Machado Resumo da Dissertação de Mestrado “Data Mining Aplicado Ao Serviço Público, Extração De Conhecimento Das Ações Do Ministério Público Brasileiro” de William Sérgio Azevedo Guimarães Essa dissertação apresenta a aplicação de técnicas de mineração de dados nos sistemas do ministério público brasileiro com o objetivo de extração de conhecimento. Para realizar essa atividade é feito inicialmente um estudo apresentando as principais informações necessárias para essa atividade. Os assuntos mais relevantes apresentados pelo autor, William Sérgio Azevedo Guimarães, são a introdução aos tópicos de data mining, suas tecnologias e processos, apresentado também conceitos de análise exploratória e data mining. Dentre as possíveis tecnologias de data mining a serem utilizadas, o autor focalizou em árvores de decisão e indução de regras. São justamente essas técnicas que são utilizadas pelas ferramentas escolhidas pelo autor para buscar os resultados da mineração de dados nos sistemas do ministério público. Os objetivos da dissertação apresentados pelo autor foram o estudo e revisão dos conceitos básicos envolvidos; estudo do processo de data mining com implementação de algoritmos para árvore de decisão e indução de regras; avaliação de ferramentas de data mining que utilizam indução de regras e árvores de decisão e demonstrar a viabilidade do uso de data mining em instituições públicas. São nesses objetivos da dissertação de William Sérgio Azevedo Guimarães – Data Mining Aplicado Ao Serviço Público, Extração De Conhecimento Das Ações Do Ministério Público Brasileiro – que apresentarei nesse resumo. Os processos de análise de dados utilizados em data mining são a análise exploratória e a análise confirmatória. Na análise confirmatória o objetivo é confirmar ou não as hipóteses já existentes, e na análise exploratória a intenção é gerar novas hipóteses para serem testadas. As atividades em data mining são a descoberta, a modelagem preditiva e a análise forense. Na atividade de descoberta encontram-se os padrões que são habituais, comuns. Nessa atividade é interessante não haver suposições ou idéia pré-determinada de como os padrões seriam. Porém como as bases de dados geralmente são muito grandes, torna-se humanamente impossível encontrar os padrões com qualidade e quantidade suficiente. Logo, são usados sistemas que tomam as iniciativas encontrando padrões interessantes sem a intervenção do usuário. “O poder de um sistema de descoberta é medido pelos tipos e generalidade dos padrões que pode encontrar e expressar em um idioma satisfatório”. Na modelagem preditiva os padrões encontrados na atividade de descoberta são utilizados para predizer o futuro ou são aplicados para induzir valores em novos itens de dados. Na análise forense o objetivo é aplicar os padrões para localizar os elementos incomuns ou específicos (definindo os limites). Como na atividade de descoberta foi encontrado o que seria o comum fica a cargo dessa análise encontrar os elementos menos comuns. As atividades envolvidas num processo de data mining em ambiente corporativo são o data mining Episódico, o Estratégico e o Contínuo. O data mining episódico é normalmente utilizado por analistas observando os dados apenas para um episódio específico. O objetivo do data mining episódico é entender os dados ou usá-los para predição em futuras ocorrências de um episódio. Esse episódio pode ser, por exemplo uma determinada campanha de marketing. O data mining estratégico usa conjuntos de dados maiores que o episódico para obter compreensão de medidas específicas. Essa atividade procura responder às questões como “de onde vêm nossos lucros?”. O data mining contínuo procura entender como o mundo mudou em determinado período de tempo para ganhar-se uma compreensão dos fatores que influenciaram as mudanças. Procura responder questões como “Como os padrões de venda mudaram nesse mês?”, ou “Quais foram os atritos com os nossos clientes no último trimestre?”. Para cada um desses tipos de atividades existe uma tecnologia de data mining. Tecnologia de árvore de decisão: Árvores de decisão expressam uma forma simples de lógicas condicional, simplesmente dividindo a tabela foco da mineração em tabelas menores, selecionando esses subconjuntos baseados em valores para um determinado atributo. Essas tabelas e condicionais, como o próprio nome diz é apresentado em forma de árvore, sendo que em seus ramos são apresentadas as perguntas de classificação e em suas folhas estão apresentadas as partições da tabela original. Para fazer essa divisão das tabelas podem ser utilizados diferentes algoritmos de árvore de decisão, como o CART, CHAID e C4.5. Tecnologia de indução de regras: O autor se refere a indução de regras como uma das melhores formas de Data Mining e a talvez a forma mais comum de descoberta de conhecimento em sistemas de aprendizagem não supervisionada. Caracterizado por uma tarefa massiva na qual todos os padrões possíveis são puxados dos dados e então calculados com significância e precisão, informando aos usuários quão fortes o padrão é, e quão provável ele pode ocorre novamente. Essas regras são apresentadas ao usuário de acordo com o número de vezes que estão corretas e pela freqüência que são aplicadas. Os resultados encontrados pelo sistema de indução de regras são apresentados na forma de condicionais (por exemplo, SE profissão = atleta ENTÃO idade < 30 anos). KDD e Data Mining: o termo KDD, sigla em inglês para Descoberta de Conhecimento em Base de Dados foi convencionado no ano de 1989, e é um processo multidisciplinar envolvendo áreas de estatística, inteligência artificial, reconhecimento de padrões e visualização dos dados. Já o termo data mining é parte do processo de descoberta de conhecimento e compreende os métodos referentes à aplicação dos algoritmos para extração de padrões a partir dos dados. Inicialmente, data mining era visto como um subconjunto do data warehouse. Atualmente data mining está influenciando o desenho e implementação dos grandes data warehouses. A razão dessa influência é que o data mining requer estruturas de dados diferentes e satisfaz a processos e usuários alvo diferentes que o data warehouse convencional. As etapas do KDD: o KDD é um processo repetitivo e iterativo. Suas etapas são a Seleção de Dados, o Pré-processamento dos dados, a transformação dos dados, o Data Mining, e a Interpretação e Avaliação. Na seleção dos dados define-se qual o domínio que se pretende explorar e consequentemente selecionam-se os conjuntos de dados necessários para utilizar nas aplicações de data mining. O pré-processamento consiste na migração dos dados dos sistemas operacionais para um repositório próprio para a análise. Além da migração em si, é também realizada a limpeza dos dados, que podem estar inconsistentes ou incompletos. Essa limpeza melhora a qualidade dos dados e consequentemente os resultados obtidos. A transformação dos dados geralmente torna-se necessária quando os dados de origem estão apresentados em um nível de detalhes não adequado para a mineração. Para a adequação desses dados são aplicados sumarizações/categorizações, seleção de tuplas que satisfaçam ao domínio do estudo, desnormalização de dados para torná-los mais legíveis ao usuário. A etapa de data mining se preocupa com a extração de padrões dos dados. Os modelos para data mining levam em consideração as funções de classificação, regressão, particionamento e sumarização. A interpretação e avaliação visam analisar qualidade dos padrões encontrados e sua relevância. Dependendo da avaliação do modelo pode ser necessário voltar alguns passos na mineração e retirar modelos redundantes e sem significado para o usuário. O autor relata em seu último capítulo sua experiência durante as etapas do processo de KDD. Foram colocadas em prática as etapas acima citadas, onde diversas dificuldades foram relatadas. São problemas normalmente encontrados nessas etapas, principalmente na etapa de extração de dados de sistemas baseados em arquivos de dados, onde inúmeras inconsistências são encontradas, como duplicação de chaves, quebra de integridade relacional, valores incorretos etc. Com a apresentação dos resultados obtidos com a mineração de dados e as inconsistências encontradas nas bases originais, os diretores do Ministério Público de Rondônia decidiram tomar diversas medidas. Entre elas a realização de auditorias na base de dados original, autorização de desenvolvimento de novo aplicativo capaz de integrar todas as ações do Ministério Público, a normatizar uso de ferramentas baseadas em conhecimento aos órgãos da alta administração.