SBBD - SBES 2007

Propaganda
WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
Identificação de Grupos de Estados Brasileiros Similares em
Relação à Índices de Mortalidade
Sandro Jerônimo de Almeida, Luis Enrique Zárate
1
Instituto de Informática – Pontifı́cia Universidade Católica de Minas Gerais (PUC Minas)
[email protected], [email protected]
Abstract. The choice of suitable public politics to combat and treatment of diseases in Brazilian regions allow the better efficiency of the adopted politics and
public expenses reduction. This article describes application of a knowledge
discovery in database KDD process in Brazilian public health databases. The
objective is to identify similar Brazilian state groups considering mortality index. The Data Mining is emphasized transmitting the solutions adopted to reach
the main objective. Results show similar Brazilian states relative to the mortality
index for general disease and the mortality index for cancer.
Resumo. A escolha de polı́ticas públicas adequadas para combate e tratamento
de doenças comuns em determinadas regiões permite a maior eficiência das
polı́ticas adotadas e dos gastos públicos. Este artigo descreve a aplicação de
processo de descoberta de conhecimento em base de dados KDD em bases de
dados de saúde pública do Brasil, com o objetivo de identificar grupos de estados brasileiros similares em relação à ı́ndices de mortalidade. A etapa de
mineração de dados é enfatizada, transmitindo as soluções adotadas para se
atingir o objetivo principal. Os resultados obtidos indicam os estados brasileiros semelhantes em relação à ı́ndices de mortalidade por doenças gerais e a
ı́ndices de mortalidade por neoplasia.
1. Introdução
O Ministério da Saúde do Brasil disponibiliza informações de saúde pública através do
portal [DATASUS 2007]. Estas informações são fornecidas por pesquisas realizadas pelo
Sistema Único de Saúde - SUS. A partir deste portal foram obtidas bases de dados contendo informações sobre ı́ndices de mortalidade entre os anos 2003 e 2004 dos 26 estados
do Brasil mais o Distrito Federal.
Adotou-se o processo de descoberta de conhecimento em base de dados KDD
(do inglês Knowledge Discovery in Database), proposta por Fayyad et al. em
[Fayyad et al. 1996], para explorar o conhecimento ocultos nestas bases de dados de
saúde pública. No processo KDD existem algumas etapas, como a etapa de mineração
de dados, que reúne diversas técnicas com propósitos especı́ficos [Fayyad 1996]. Uma
destas técnicas é a análise de cluster ou clustering, cujo objetivo é agrupar dados com
caracterı́sticas semelhante em conjuntos - clusters [Everitt 1974].
A partir da aplicação do processo KDD e de técnicas de mineração de dados nos
dados de ı́ndices de mortalidade do governo permitiu-se agrupar os estados brasileiros
por similaridade de ı́ndices de mortalidade. Interpretando estas informações o agente
público pode escolher polı́ticas de gestão de saúde mais adequadas para grupos de estados
brasileiros.
109
WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
2. Metodologia
O processo KDD engloba um conjunto de atividades contı́nuas para a descoberta de
conhecimento a partir de bases de dados. Esse conjunto é composto das etapas:
definição do problema, seleção de dados, pré-processamento e limpeza, transformação,
mineração de dados e interpretação, conforme modelo proposto por Fayyad et al. em
[Fayyad et al. 1996]. A seguir são apresentadas estas etapas aplicadas na descoberta de
conhecimento nas bases de dados de saúde.
2.1. Definição do problema
O processo KDD começa com o entendimento do domı́nio da aplicação e dos objetivos
finais a serem atingidos [Han and Kamber 2000]. Neste trabalho procura-se encontrar
conhecimentos ocultos em bases de dados de saúde pública disponibilizadas através do
portal [DATASUS 2007]. Procurou-se determinar grupos de estados do Brasil que sejam
similares em relação à seus ı́ndices de mortalidade.
2.2. Seleção de dados
Uma vez definido o domı́nio sobre o qual se pretende executar o processo de descoberta, o próximo passo é selecionar e coletar o conjunto de dados ou variáveis necessárias
[Pyle 1999]. No trabalho realizado, alguns ı́ndices de mortalidade foram desconsiderados
por não estarem relacionados com doenças. Este dados são indicadores de mortalidade por
“Acidentes de transporte”, “Homicı́dios” e “Suicı́dios”. Dados classificados por “sexo”
foram desconsiderados pois não é objetivo deste trabalho distinguir as mortalidades entre
os sexos masculino e feminino.
2.3. Pré-processamento - Limpeza e enriquecimento
Esta etapa tem como objetivo adequar os dados aos algoritmos de mineração. Isso se faz
através da integração de dados heterogêneos, remoção de dados incompletos, eliminação
da repetição dos dados e dos problemas de tipagem [Pyle 1999].
Nas bases de dados obtidas foram eliminados alguns dados totalizadores. Os dados especı́ficos que compõem estes totalizadores são mais importantes, assim tornando
redundante esta totalização. Pode-se citar como exemplo, o dado “Total de mortes por neoplasias” - popularmente conhecida como câncer. Os dados especı́ficos que compõe este
total, como neoplasia de pulmão e estômago, são tão importantes na análise quanto outra
doença grave e por isto não devem ser analisados de forma totalizada. Os dados “Demais causas definidas”, “Demais causas externas” e “Doenças do aparelho respiratório”
foram eliminados pois não inferiram nenhuma informação. Não houve enriquecimento
nos dados por considerar as bases de dados estudadas suficientes para a análise.
2.4. Transformação
Os dados pré-processados devem passar por uma transformação visando facilitar o uso
das técnicas de mineração de dados [Han and Kamber 2000]. Alguns ı́ndices originais
da base de dados de ı́ndices de mortalidade divididos em sexo “masculino” e “feminino”
foram totalizados e adicionados na base de dados. A base de dados obtida no portal
[DATASUS 2007] possui 55 entradas de dados - ı́ndices de mortalidade - para cada um dos
26 estados brasileiro e o distrito federal. Após as etapas de seleção, pré-processamento e
transformação, estas entradas se resumiram em 19. Isto demonstra a importância destas
etapas.
110
WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
2.5. Normalização dos dados
Antes de inicializar a etapa de mineração de dados é necessário que os dados sejam normalizados. Utilizou-se a técnica de normalização conhecida por Min-Max para padronizar os valores a serem agrupados posteriormente. Esta técnica consiste em avaliar o quão
um determinado valor em uma matriz é realmente representativo em relação aos demais
[Han and Kamber 2000].
2.6. Extração de dados
Esta fase começa com a escolha dos algoritmos a serem aplicados. A escolha depende
fundamentalmente do objetivo do processo de KDD: classificação, clustering, regras associativas, etc. Após isto, aplica-se os algoritmos escolhidos nos dados a serem explorados. Optou-se pela utilização do algoritmo de clustering k-means [MacQueen 1967]
para agrupar os estados brasileiros em relação aos ı́ndices de mortalidade. Esta escolha
está relacionada com o objetivo dos algoritmos de clustering e o objetivo principal deste
trabalho.
Diferentemente de outros algoritmos de clustering, o algoritmo k-means necessita
de um parâmetro k que determina o número de grupos que deverão ser formados. Optouse em fazer análises considerando os valores 4 e 5 para o parâmetro k. Estas análises
foram ainda subdivididas em duas partes: i) classificação dos estados brasileiros em
relação a todos os ı́ndices de mortalidade - considerados após a etapa de transformação;
ii) classificação dos estados em relação aos ı́ndices de mortalidades ligados a neoplasia.
Nesta etapa foi utilizada a ferramenta computacional Genesis proposta por Sturn
el al. em [Alexander Sturn and Trajanoski 2002]. Embora as principais funcionalidades
desta ferramenta estejam voltadas para análises de dados genéticos, o software oferece
estrutura para execução de diferentes algoritmos de clustering e possibilidade de variação
de parâmetros e algoritmos internos, como distância Euclidiana e outros.
2.7. Interpretação dos dados
A figura 1 é composta por 4 mapas (a,b,c e d ). Os mapas a e b se referem aos estados brasileiro agrupados em relação à todos os ı́ndices de mortalidade avaliados. Os mapas c e d
se referem ao agrupamentos dos estados brasileiros por ı́ndices de mortalidade relacionados à neoplasia. Os mapas a e c foram obtidos a partir da execução do algoritmo k-means
com o parâmetro k igual a 4 e os mapas b e d foram obtidos adotando o parâmetro k
igual a 5.
Figura 1. Estados brasileiros agrupados
Na primeira análise realizada, onde o agrupamento foi realizado em relação à
todos os ı́ndices de mortalidade armazenados nas bases de dados, pode-se verificar que os
111
WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
estados brasileiros se agruparam de forma simular às regiões brasileiras (Norte, Nordeste,
Centro-oeste, Sudeste, Sul). Na segunda análise, onde o agrupamento foi realizado em
relação aos ı́ndices de mortalidade relacionados à neoplasia, a regionalização influenciou
menos no agrupamento dos estados. Observa-se ainda que os estados do Rio Grande do
Sul e Rio de Janeiro, em pelo menos três análise (a, b e c) se assemelham em relação aos
ı́ndices de mortalidade. Os estados do Pernambuco e Ceará tendem a se manter fora do
grupo dos demais estados nordestinos.
3. Comentários e conclusões
Este artigo apresentou a aplicação do processo KDD na descoberta de conhecimento em
bases de dados de saúde pública. As etapas do KDD foram discutidas frente ao problema
proposto. Esta discurssão, embasada em aspectos teóricos, teve como objetivo relatar e
compartilhar uma experiência prática indicando as soluções encontradas na aplicação de
técnicas de mineração de dados.
As análises realizadas sob as informações obtidas na exploração das bases de dados permitem algumas sugestões: polı́ticas públicas diferenciadas poderiam ser direcionadas para os estados do Rio de Janeiro e Rio Grande do Sul, uma vez que estes estados se
assemelham em relação aos ı́ndices de mortalidade. Ao escolher as polı́ticas públicas diferenciadas para este estados é importante considerar a acentuada similaridade dos ı́ndices
de mortalidade por câncer de mama e pulmão. A aplicação desta sugestão pode levar a
uma melhor aplicação de recursos públicos.
Com a atualização do senso de mortalidades do Brasil e inclusão de novos dados
nas bases de dados investigadas mais análises poderão ser feitas. O estudo futuro da
aplicação de outras técnicas de clustering é considerável.
4. Agradecimentos
Ao Prof. Dr. Ricardo Poley Martins Ferreira pela revisão crı́tica deste texto.
Referências
Alexander Sturn, J. Q. and Trajanoski, Z. (2002). Genesis: cluster analysis of microarray
data. Bioinformatics, 18(1):207–208.
DATASUS (2007). Datasus. www.datasus.gov.br . Acesso em: 27 jul. 2007.
Everitt, B. (1974). Cluster Analysis. Halsted Press, New York.
Fayyad, U. M. (1996). Data mining and knowledge discovery: Making sense out of data.
IEEE Expert: Intelligent Systems and Their Applications, 11(5):20–25.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R. (1996). Advances
in Knowledge Discovery and Data Mining. AAAI Press, Menlo Park, CA.
Han, J. and Kamber, M. (2000). Data mining: concepts and techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematics, Statistics and
Probability, 1:281–296.
Pyle, D. (1999). Data Preparation for Data Mining. Morgan Kaufmann Publishers, Inc.,
California.
112
Download