Estudo de Técnicas e Utilização de Mineração de - Projetos

Propaganda
Estudo de Técnicas e Utilização de Mineração de Dados em uma
Base de Dados da Saúde Pública
Autor: Gercely da Silva e Silva1
1
Universidade Luterana do Brasil – ULBRA – Canoas, RS – Brasil
Resumo do Trabalho de Conclusão de Curso
Acadêmico: Jackson Luiz Silva2 Orientador: José Francisco Fletes2
Banca avaliadora: Luiz Carlos Zancanella2, José Eduardo De Lucca2
2
Departamento de Informática e Estatística – Universidade Federal de Santa Catarina
(UFSC) – Florianópolis, SC – Brasil
{jluiz, fletes, zancanella}@inf.ufsc.br
Resumo
Este trabalho apresenta um estudo das principais técnicas de Data Mining, e
aplicação de uma das técnicas em uma base de dados da área da saúde.
Abstract
This work presents a study of the main techniques of Data Mining, and application of
one of the techniques on a database of the health area.
1. Introdução
A cada ano que passa, as empresas acumulam muitas informações em seus bancos de
dados, contendo verdadeiros tesouros de informações, sendo que, podem ser usada para
melhorar o processo da empresa, detectar tendências e características que estão disfarçadas.
Mineração de Dados é uma técnica que permite explorar uma grande base de dados e
descobrir relações, padrões e tendências, nestas informações que estão aparentemente
escondidas.
“Mineração de Dados é a procura por relações e padrões globais que existem” em grandes
bancos de dados, mas estão escondidos na vasta quantia de dados, como uma relação entre
os dados de um paciente e seu diagnóstico médico.
Análises estatísticas, visualizações, árvores de decisões, redes neurais para explorar grandes
bases de dados, além de métodos matemáticos, algoritmos e heurísticas, são técnicas
utilizadas em Mineração de Dados.
1.1 Motivação
Atualmente as empresas têm mostrado-se eficientes em capturar, organizar e armazenar
grande quantidade de dados, estão informatizando cada vez mais seus dados, e essas
informações estão ficando armazenadas em bases de dados com um aumento gigantesco.
Devido à rápida taxa de inovação nas tecnologias, o mercado está exigindo que os
profissionais estejam preparados e atualizados para enfrentar desafios, por esse motivo,
Mineração de Dados está sendo cada vez mais usado como ferramenta de gerenciamento de
informação, para revelar estrutura de conhecimento e apoio as decisões. Mineração de
Dados irá possibilitar a descoberta de informações em bases de dados que aparentemente
não existem ou estão ocultas.
Uma aplicação de Mineração de Dados se tornará visível às informações e ajudará o
profissional da área nas tomadas de decisões, e análise de prováveis irregularidades nas
internações.
1.2. Objetivos
Realizar um estudo das técnicas de Mineração de Dados para obter o conhecimento da área
e aplicar a técnica de construção de árvore de decisão implementada na ferramenta SIPINA
em dados da saúde. Para isso, será necessário fazer um pré-processamento dos dados para
adaptá-los a ferramenta, visto que existe muita impureza nos dados. Após a aplicação da
ferramenta já existente, serão avaliados os resultados com o objetivo de encontrar fraudes
em internações realizadas pelo Sistema Único de Saúde no Estado do Rio Grande do Sul.
2. Descoberta de Conhecimento em Banco de Dados
O termo, Descoberta de Conhecimento em Base de Dados (DCBD), ou Knowledge
Discovery in Databases (KDD), foi desenvolvido com a finalidade de encontrar
informações úteis em grandes bases de dados, as quais não estão visíveis ao ser humano.
2.1 Processo de DCBD
O processo de DCBD foi proposto em 1989 para referir-se às etapas que produzem
conhecimentos a partir dos dados e, principalmente, à etapa de mineração de dados, que é a
fase que transforma dados em informações [FAY96].
Todas descritas a seguir, segundo Han [HAN01] e Cabena [CAB97]:
2.1.1 Definição e Entendimento do Problema
O início do Processo de Descoberta de Conhecimento em Base de Dados (DCBD), é feito
pela definição e domínio do problema que se deseja resolver. Nesta fase é feita uma análise
das atividades, com a finalidade de atingir os objetivos propostos. Assim garante-se que os
resultados obtidos no processo não serão inúteis. O problema deve ser definido pelo
analista de mineração, juntamente com o especialista da área, tendo como finalidade
especificar o problema de melhor forma possível, para chegar-se a resultados positivos e
úteis.
2.1.2 Pré-processamento
No pré-processamento são realizadas as seguintes etapas:
a) Limpeza dos dados: é realizada remoção de ruídos e inconsistências dos dados.
b) Integração dos dados: podem ser combinadas fontes de dados múltiplas.
c) Seleção de dados: nesta etapa os dados relevantes para a aplicação de Mineração de
Dados são identificados e reunidos, formando um subconjunto do banco de dados.
d) Transformação de dados: refere-se a transformação ou consolidação dos dados em forma
apropriadas para mineração.
2.1.3 Mineração de dados
e) Mineração de dados: a principal etapa do processo DCDB, sua finalidade é extrair
padrões dos dados.
2.1.4 Pós-processamento
f) Avaliação dos padrões: nesta etapa são identificados os padrões realmente interessantes,
que representem conhecimento baseado em algumas medidas de interesses.
g) Apresentação do conhecimento: as técnicas de visualização e representação de
conhecimento são usadas com a finalidade de apresentar o conhecimento minerado ao
usuário.
2.2 Mineração de Dados
Nos dias de hoje, Mineração de Dados não se refere apenas como uma etapa do processo de
DCBD, o qual envolve a aplicação de métodos para a extração de padrões dos dados.
Devido ao interesse da área comercial de tecnologia da informação Mineração de Dados,
está sendo visto como uma forma mais abrangente, um sinônimo de DCBD.
2.2.1 Tipos de padrões que podem ser minerados
A Mineração de Dados dispõe de tarefas básicas, classificadas em duas categorias:
descritivas e preditivas. As descritivas se concentram em encontrar padrões que descrevam
os dados de forma interpretável pelos seres humanos. As preditivas realizam interferência
nos dados para construir modelos que serão usados para predições do comportamento de
novos dados [FAY96, HAN01].
A seguir, são descritas as funcionalidades de Mineração de Dados, bem como
os tipos padrões que essas funcionalidades podem descobrir, as quais serão
descritas conforme Han [HAN01]:
a) Descrição de Classe/Conceito: Caracterização e Discriminação: em um Banco de
Dados, os dados podem estar associados a classes ou conceitos. Sendo que as descrições de
classes/conceitos são úteis para a sumarização, concisão e precisão de termos e podem ser
obtidas por meio de:
· Caracterização de dados, que é dada pela sumarização das características gerais ou
atributos de uma classe alvo de dados.
· Discriminação de dados, que é realizada pela comparação dos atributos gerais dos objetos
da classe alvo com os atributos gerais de objetos de uma ou de um conjunto de classes
comparativas.
· Ou ambas as opções, citadas acima.
b) Análise Associativa: é a descoberta de regras associativas que mostram condições de
atributo-valor que ocorrem freqüentemente juntas em um determinado conjunto de dados.
c) Classificação e Predição: a classificação é o processo de encontrar um conjunto de
modelos que descrevem e distinguem classes de dados ou conceitos. Esses modelos são
usados para predição de objetos cujas classes são desconhecidas, baseadas na análise de um
conjunto de dados de treinamento. O modelo gerado pode ser representado sob forma de
regras de classificação (se-então), árvore de decisão, fórmulas matemáticas ou redes
neurais.
d) Análise de Agrupamento: agrupamento ou clustering analisa objetos cujos rótulos de
classes são desconhecidos. Os agrupamentos de objetos são formados de maneira que
dentro de um agrupamento possuem alta similaridade entre si, sendo que dentro de
agrupamentos diferentes apresentam alta dissimilaridade.
e) Análise de Outlier: outliers são objetos de um banco de dados que não acompanham o
comportamento ou modelo de dados. Existem muitos métodos de Mineração de Dados que
descartam os outliers como ruídos ou exceções, mas em aplicação de detecção de fraudes,
podem ser bastante interessantes.
f) Análise de Evolução de Dados: este descreve e modela regularidades ou tendências para
objetos cujo comportamento se modifica com o passar do tempo.
2.2.2. Mineração de Dados e Estatística
Conforme Cabena [CAB97], dentre as muitas técnicas usadas na análise tradicional de
dados, a estatística é a que mais se aproxima de mineração de dados.
A estatística é vista como base da maioria das tecnologias de Mineração de Dados e
envolve conceitos como distribuição normal, variância, análise de regressão, desvio
simples, análise de conjuntos, análises discriminantes e intervalos de confiança, usados para
estudar os dados e relacionamentos entre eles.
A maioria das técnicas estatísticas requer o desenvolvimento de uma hipótese prévia. Os
estatísticos, têm que desenvolver manualmente equações que casam com as hipóteses
[CAB97, PYL99].
3. Mineração de Dados
Mineração de Dados é a etapa do Processo de Descoberta de Conhecimento em Banco de
Dados (DCBD), responsável pela mineração dos dados e a extração de padrões
interessantes.
Mineração de Dados é uma metodologia que está sendo usada com objetivo de melhorar a
qualidade e eficiência nas tomadas de decisões, pois com esta metodologia é possível
complementar ou substituir outras ferramentas de apoio a decisões como, por exemplo:
análises estatísticas e relatórios.
Existem dois objetivos fundamentais na Mineração de Dados que são: a predição e
descrição. A primeira utiliza algumas variáveis que encontram-se no banco de dados, com a
finalidade de prever valores desconhecidos ou futuros de outras variáveis que sejam de
interesse. A descrição, busca por padrões que descrevem os dados, de forma que possam
ser interpretáveis pelos usuários.
3.1 Tarefas Primárias de Mineração de Dados
A seguir serão apresentadas as principais tarefas de Mineração de Dados que
são: clusterização, classificação, associação e padrões seqüenciais.
3.1.1 Clusterização
Clusterização é a tarefa comum da descrição onde existe um número finito de categorias ou
agrupamentos (clusters) para descrever os dados.
Esta técnica pode ser aplicada em atividades de marketing com a finalidade de identificar
segmentos de mercado, para encontrar estrutura significantes nos dados e na descoberta de
fraudes ou dados incorretos.
3.1.2 Classificação
A classificação tem como função examinar um conjunto de registros rotulados
e elaborar descrições das características dos registros em cada uma das classes. As
descrições podem ser usadas para rotular novos registros determinando em que
classe de encontram-se.
A classificação é também denominada de aprendizado supervisionado, pois
a entrada e a saída desejadas são fornecidas previamente por um supervisor
externo [FAU94].
3.1.3 Associação
Uma associação pode ser analisada da seguinte maneira: dado um conjunto
de registros e uma coleção de itens, cada um deles identificados com alguns
números de itens e de uma coleção, a função de associação é retornar afinidades
que existem na coleção de itens deste conjunto de registros. As afinidades podem
ser expressas através de regras, como por exemplo, 80% dos registros que contém
os itens A e B, também contém os C e D. Em um banco de dados podem ser
encontradas várias regras de associação.
3.1.4 Padrões Seqüenciais
Os padrões seqüenciais são obtidos através de análise, contidos em um
determinado conjunto de dados. Podem ser aplicados em um conjunto de dados
onde constam informações de compras dos consumidores para verificar os
conjuntos de produtos comprados pelos mesmos, bem como analisar o perfil dos
consumidores.
3.2 Principais Técnicas de Mineração de Dados
Entre as várias técnicas de Mineração de Dados, podemos destacar: Árvore de Decisão,
Redes Neurais, Indução de Regra, Visualização, Regressão, Análises de Séries Temporais e
Algoritmo Genético. A seguir, serão descritas às três principais: Árvore de Decisão, Redes
Neurais e Algoritmo Genético.
3.2.1 Árvore de Decisão
As árvores de decisões utilizam um tipo de algoritmo de aprendizado de máquina baseado
na abordagem de dividir para conquistar. Uma árvore de decisão é um modelo de função
discreta no qual é determinado o valor de uma variável, com base neste valor é executada
alguma ação.
3.2.2 Redes Neurais
As redes neurais foram criadas com base no estudo do cérebro humano. Assim sendo, sua
principal característica é dada pela capacidade de aprender com base na exposição de
exemplos. Sendo que a construção de uma rede neural se constitui na configuração de sua
arquitetura interna, ou seja, uma rede interligada de neurônios, e no treinamento desta rede
com base em exemplos, até que a rede consiga aprender como resolver o problema,
melhorando desta forma seu desempenho.
3.2.3 Algoritmos Genéticos
Algoritmos genéticos são aqueles que simulam o processo de seleção natural proposto por
Charles Darwin em 1859. De acordo com a teoria de Darwin, pode-se dizer que os
organismos são equivalentes às estruturas de dados, enquanto os cromossomos são
equivalentes às cadeias de bits, surgindo mais de um conjunto de considerações
inteiramente diferentes que podem ser usados numa mesma solução do problema. É muito
difícil existir uma solução matematicamente ótima para um problema, porem existem
soluções muito próximas da ótima, ou aceitáveis. Algoritmos genéticos são mais facilmente
aplicados em problemas com muitas variáveis e restrições.
4. Estudo de Caso
Neste capítulo foi apresentado o domínio da aplicação, bem como funcionamento,
problemas enfrentados e importância da utilização da Mineração de Dados.
5. Conclusão
Após concluir este trabalho, foi possível constatar as possibilidades de ganhos que a
Mineração de Dados pode proporcionar em decisões que são consideradas estratégicas. Mas
para a utilização de Mineração de Dados é necessário ter o entendimento completo do
domínio da aplicação, caso contrário o processo torna-se difícil.
A Mineração de Dados está sendo utilizada pelas organizações de uma forma crescente,
devido ao acúmulo de informações armazenadas nas bases de dados, pois com a utilização
de Mineração de Dados tem-se a possibilidade de obter conhecimento útil e interessante, o
qual poderá ser utilizado como base concreta, auxiliando na tomada de decisão.
Ao utilizar esta técnica, as empresas, podem descrever características do passado, como
também predizer tendências do futuro, garantindo desta forma uma vantagem competitiva
diferenciada.
A Mineração de Dados apresenta-se como uma técnica eficiente, ágil, confiável e capaz de
capturar informações, as quais são consideradas importantes, pois encontram-se escondidas
em grandes volumes de dados.
As descobertas obtidas com o uso da ferramenta de Mineração de Dados foram
consideradas positivas pelos analistas do domínio da aplicação, e estas serão utilizadas
pelos mesmos com a finalidade de melhorar o processo de análise e liberação das AIHs
pela Secretaria Estadual de Saúde do Estado do Rio Grande do Sul, visando constatar as
possíveis irregularidades. Assim sendo, o processo ficará mais confiável e
conseqüentemente ganhará mais agilidade, baseando-se em conhecimentos concretos e não
em hipóteses.
Para o futuro, pretende-se testar outras bases de dados, como por exemplo: a realização de
estudos referentes à mortalidade infantil, buscando conhecer as principais causas e idades
em que ocorrem, tornando possível encontrar novos meios de prevenção.
Referências
[BIG00] N. M. Bigolin. Data Mining: Conceitos e Técnicas. Escola de Informática da
SBC Sul. Maio, 2000. P. 233-249.
[BUN96] W. Buntine. Graphical Models For Discovering Knowledge. In Advances
In Knowledge Discovery And Data Mining, eds. U.M. Fayyad, G.
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT
Press, Menlo Park, CA., 1996, pp. 59-82.
[ENG01] Engel, Paulo M. Sistemas de Informações Inteligentes: Notas de aula.
Porto Alegre-RS: CPGCC da UFRGS, 2001.
[EST97] M. Ester, H.-P. Kriegel, and J. Sander. Spatial data mining: A database
approach. Proc. 5th Symp. on Spatial Databases, Berlin, Germany,
1997.
[GAN87] J. G. Ganascia, J.-G CHARADE: A rule learning system In Proc. 10th
International Joint Conference in Artificial Intelligence, Milan, pg. 345347, 1987.
[INT00] Introdução Data Mining - Centro de Estudos e Sistemas Avançados do
Recife Ano II – Número 32 - Maio/Junho de 2000. Disponível em
http://www.cesar.org.br/analise/n_32/n_32.html acessado em abril/2003.
[JOH97] G. H. John Enhancements to the Data Mining Process. Stanford, EUA:
Stanford University, 1997.
[LUC02] A. M. Lucas. Utilização de Técnicas de Mineração de Dados
considerando os Aspectos Temporais. Porto Alegre: PPGC da
UFRGS, 2002. 132p. ( Mestrado em Informática)
[MAN97] J. R. Manzini. O Segredo da Produtividade está no uso da informação.
Computerword, 20 a 30 Abr., p. 10-11, 1997.
[WIT99] Witten, Ian H.; Frank, Elibe. Data mining: pratical machine learning tools
and techniques with Java implementations. San Francisco: Morgan
Kaufmann Publishers, 1999.
Download