Resumo da Dissertação de Mestrado “Data Mining Aplicado Ao

Propaganda
UNIVERSIDADE FEDERAL DE SANTA CATARINA
DEPTO DE INFORMÁTICA E ESTATÍSTICA
Disciplina: Projetos I
Aluno: Rodrigo Benincá Machado
Resumo da Dissertação de Mestrado “Data Mining Aplicado Ao Serviço
Público, Extração De Conhecimento Das Ações Do Ministério Público
Brasileiro” de William Sérgio Azevedo Guimarães
Essa dissertação apresenta a aplicação de técnicas de mineração de dados nos sistemas
do ministério público brasileiro com o objetivo de extração de conhecimento. Para realizar
essa atividade é feito inicialmente um estudo apresentando as principais informações
necessárias para essa atividade. Os assuntos mais relevantes apresentados pelo autor, William
Sérgio Azevedo Guimarães, são a introdução aos tópicos de data mining, suas tecnologias e
processos, apresentado também conceitos de análise exploratória e data mining. Dentre as
possíveis tecnologias de data mining a serem utilizadas, o autor focalizou em árvores de
decisão e indução de regras. São justamente essas técnicas que são utilizadas pelas
ferramentas escolhidas pelo autor para buscar os resultados da mineração de dados nos
sistemas do ministério público.
Os objetivos da dissertação apresentados pelo autor foram o estudo e revisão dos
conceitos básicos envolvidos; estudo do processo de data mining com implementação de
algoritmos para árvore de decisão e indução de regras; avaliação de ferramentas de data
mining que utilizam indução de regras e árvores de decisão e demonstrar a viabilidade do uso
de data mining em instituições públicas.
São nesses objetivos da dissertação de William Sérgio Azevedo Guimarães – Data
Mining Aplicado Ao Serviço Público, Extração De Conhecimento Das Ações Do Ministério
Público Brasileiro – que apresentarei nesse resumo.
Os processos de análise de dados utilizados em data mining são a análise exploratória
e a análise confirmatória. Na análise confirmatória o objetivo é confirmar ou não as hipóteses
já existentes, e na análise exploratória a intenção é gerar novas hipóteses para serem testadas.
As atividades em data mining são a descoberta, a modelagem preditiva e a análise
forense.
Na atividade de descoberta encontram-se os padrões que são habituais, comuns. Nessa
atividade é interessante não haver suposições ou idéia pré-determinada de como os padrões
seriam. Porém como as bases de dados geralmente são muito grandes, torna-se humanamente
impossível encontrar os padrões com qualidade e quantidade suficiente. Logo, são usados
sistemas que tomam as iniciativas encontrando padrões interessantes sem a intervenção do
usuário. “O poder de um sistema de descoberta é medido pelos tipos e generalidade dos
padrões que pode encontrar e expressar em um idioma satisfatório”.
Na modelagem preditiva os padrões encontrados na atividade de descoberta são
utilizados para predizer o futuro ou são aplicados para induzir valores em novos itens de
dados.
Na análise forense o objetivo é aplicar os padrões para localizar os elementos
incomuns ou específicos (definindo os limites). Como na atividade de descoberta foi
encontrado o que seria o comum fica a cargo dessa análise encontrar os elementos menos
comuns.
As atividades envolvidas num processo de data mining em ambiente corporativo são o
data mining Episódico, o Estratégico e o Contínuo.
O data mining episódico é normalmente utilizado por analistas observando os dados
apenas para um episódio específico. O objetivo do data mining episódico é entender os dados
ou usá-los para predição em futuras ocorrências de um episódio. Esse episódio pode ser, por
exemplo uma determinada campanha de marketing.
O data mining estratégico usa conjuntos de dados maiores que o episódico para obter
compreensão de medidas específicas. Essa atividade procura responder às questões como “de
onde vêm nossos lucros?”.
O data mining contínuo procura entender como o mundo mudou em determinado
período de tempo para ganhar-se uma compreensão dos fatores que influenciaram as
mudanças. Procura responder questões como “Como os padrões de venda mudaram nesse
mês?”, ou “Quais foram os atritos com os nossos clientes no último trimestre?”.
Para cada um desses tipos de atividades existe uma tecnologia de data mining.
Tecnologia de árvore de decisão: Árvores de decisão expressam uma forma simples de
lógicas condicional, simplesmente dividindo a tabela foco da mineração em tabelas menores,
selecionando esses subconjuntos baseados em valores para um determinado atributo. Essas
tabelas e condicionais, como o próprio nome diz é apresentado em forma de árvore, sendo que
em seus ramos são apresentadas as perguntas de classificação e em suas folhas estão
apresentadas as partições da tabela original. Para fazer essa divisão das tabelas podem ser
utilizados diferentes algoritmos de árvore de decisão, como o CART, CHAID e C4.5.
Tecnologia de indução de regras: O autor se refere a indução de regras como uma das
melhores formas de Data Mining e a talvez a forma mais comum de descoberta de
conhecimento em sistemas de aprendizagem não supervisionada. Caracterizado por uma
tarefa massiva na qual todos os padrões possíveis são puxados dos dados e então calculados
com significância e precisão, informando aos usuários quão fortes o padrão é, e quão provável
ele pode ocorre novamente. Essas regras são apresentadas ao usuário de acordo com o número
de vezes que estão corretas e pela freqüência que são aplicadas. Os resultados encontrados
pelo sistema de indução de regras são apresentados na forma de condicionais (por exemplo,
SE profissão = atleta ENTÃO idade < 30 anos).
KDD e Data Mining: o termo KDD, sigla em inglês para Descoberta de Conhecimento
em Base de Dados foi convencionado no ano de 1989, e é um processo multidisciplinar
envolvendo áreas de estatística, inteligência artificial, reconhecimento de padrões e
visualização dos dados. Já o termo data mining é parte do processo de descoberta de
conhecimento e compreende os métodos referentes à aplicação dos algoritmos para extração
de padrões a partir dos dados.
Inicialmente, data mining era visto como um subconjunto do data warehouse.
Atualmente data mining está influenciando o desenho e implementação dos grandes data
warehouses. A razão dessa influência é que o data mining requer estruturas de dados
diferentes e satisfaz a processos e usuários alvo diferentes que o data warehouse
convencional.
As etapas do KDD: o KDD é um processo repetitivo e iterativo. Suas etapas são a
Seleção de Dados, o Pré-processamento dos dados, a transformação dos dados, o Data
Mining, e a Interpretação e Avaliação.
Na seleção dos dados define-se qual o domínio que se pretende explorar e
consequentemente selecionam-se os conjuntos de dados necessários para utilizar nas
aplicações de data mining.
O pré-processamento consiste na migração dos dados dos sistemas operacionais para
um repositório próprio para a análise. Além da migração em si, é também realizada a limpeza
dos dados, que podem estar inconsistentes ou incompletos. Essa limpeza melhora a qualidade
dos dados e consequentemente os resultados obtidos.
A transformação dos dados geralmente torna-se necessária quando os dados de origem
estão apresentados em um nível de detalhes não adequado para a mineração. Para a adequação
desses dados são aplicados sumarizações/categorizações, seleção de tuplas que satisfaçam ao
domínio do estudo, desnormalização de dados para torná-los mais legíveis ao usuário.
A etapa de data mining se preocupa com a extração de padrões dos dados. Os modelos
para data mining levam em consideração as funções de classificação, regressão,
particionamento e sumarização.
A interpretação e avaliação visam analisar qualidade dos padrões encontrados e sua
relevância. Dependendo da avaliação do modelo pode ser necessário voltar alguns passos na
mineração e retirar modelos redundantes e sem significado para o usuário.
O autor relata em seu último capítulo sua experiência durante as etapas do processo de
KDD. Foram colocadas em prática as etapas acima citadas, onde diversas dificuldades foram
relatadas. São problemas normalmente encontrados nessas etapas, principalmente na etapa de
extração de dados de sistemas baseados em arquivos de dados, onde inúmeras inconsistências
são encontradas, como duplicação de chaves, quebra de integridade relacional, valores
incorretos etc.
Com a apresentação dos resultados obtidos com a mineração de dados e as
inconsistências encontradas nas bases originais, os diretores do Ministério Público de
Rondônia decidiram tomar diversas medidas. Entre elas a realização de auditorias na base de
dados original, autorização de desenvolvimento de novo aplicativo capaz de integrar todas as
ações do Ministério Público, a normatizar uso de ferramentas baseadas em conhecimento aos
órgãos da alta administração.
Download