SBBD - SBES 2007

WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
Identificação de Grupos de Estados Brasileiros Similares em
Relação à Índices de Mortalidade
Sandro Jerônimo de Almeida, Luis Enrique Zárate
1
Instituto de Informática – Pontifı́cia Universidade Católica de Minas Gerais (PUC Minas)
[email protected], [email protected]
Abstract. The choice of suitable public politics to combat and treatment of diseases in Brazilian regions allow the better efficiency of the adopted politics and
public expenses reduction. This article describes application of a knowledge
discovery in database KDD process in Brazilian public health databases. The
objective is to identify similar Brazilian state groups considering mortality index. The Data Mining is emphasized transmitting the solutions adopted to reach
the main objective. Results show similar Brazilian states relative to the mortality
index for general disease and the mortality index for cancer.
Resumo. A escolha de polı́ticas públicas adequadas para combate e tratamento
de doenças comuns em determinadas regiões permite a maior eficiência das
polı́ticas adotadas e dos gastos públicos. Este artigo descreve a aplicação de
processo de descoberta de conhecimento em base de dados KDD em bases de
dados de saúde pública do Brasil, com o objetivo de identificar grupos de estados brasileiros similares em relação à ı́ndices de mortalidade. A etapa de
mineração de dados é enfatizada, transmitindo as soluções adotadas para se
atingir o objetivo principal. Os resultados obtidos indicam os estados brasileiros semelhantes em relação à ı́ndices de mortalidade por doenças gerais e a
ı́ndices de mortalidade por neoplasia.
1. Introdução
O Ministério da Saúde do Brasil disponibiliza informações de saúde pública através do
portal [DATASUS 2007]. Estas informações são fornecidas por pesquisas realizadas pelo
Sistema Único de Saúde - SUS. A partir deste portal foram obtidas bases de dados contendo informações sobre ı́ndices de mortalidade entre os anos 2003 e 2004 dos 26 estados
do Brasil mais o Distrito Federal.
Adotou-se o processo de descoberta de conhecimento em base de dados KDD
(do inglês Knowledge Discovery in Database), proposta por Fayyad et al. em
[Fayyad et al. 1996], para explorar o conhecimento ocultos nestas bases de dados de
saúde pública. No processo KDD existem algumas etapas, como a etapa de mineração
de dados, que reúne diversas técnicas com propósitos especı́ficos [Fayyad 1996]. Uma
destas técnicas é a análise de cluster ou clustering, cujo objetivo é agrupar dados com
caracterı́sticas semelhante em conjuntos - clusters [Everitt 1974].
A partir da aplicação do processo KDD e de técnicas de mineração de dados nos
dados de ı́ndices de mortalidade do governo permitiu-se agrupar os estados brasileiros
por similaridade de ı́ndices de mortalidade. Interpretando estas informações o agente
público pode escolher polı́ticas de gestão de saúde mais adequadas para grupos de estados
brasileiros.
109
WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
2. Metodologia
O processo KDD engloba um conjunto de atividades contı́nuas para a descoberta de
conhecimento a partir de bases de dados. Esse conjunto é composto das etapas:
definição do problema, seleção de dados, pré-processamento e limpeza, transformação,
mineração de dados e interpretação, conforme modelo proposto por Fayyad et al. em
[Fayyad et al. 1996]. A seguir são apresentadas estas etapas aplicadas na descoberta de
conhecimento nas bases de dados de saúde.
2.1. Definição do problema
O processo KDD começa com o entendimento do domı́nio da aplicação e dos objetivos
finais a serem atingidos [Han and Kamber 2000]. Neste trabalho procura-se encontrar
conhecimentos ocultos em bases de dados de saúde pública disponibilizadas através do
portal [DATASUS 2007]. Procurou-se determinar grupos de estados do Brasil que sejam
similares em relação à seus ı́ndices de mortalidade.
2.2. Seleção de dados
Uma vez definido o domı́nio sobre o qual se pretende executar o processo de descoberta, o próximo passo é selecionar e coletar o conjunto de dados ou variáveis necessárias
[Pyle 1999]. No trabalho realizado, alguns ı́ndices de mortalidade foram desconsiderados
por não estarem relacionados com doenças. Este dados são indicadores de mortalidade por
“Acidentes de transporte”, “Homicı́dios” e “Suicı́dios”. Dados classificados por “sexo”
foram desconsiderados pois não é objetivo deste trabalho distinguir as mortalidades entre
os sexos masculino e feminino.
2.3. Pré-processamento - Limpeza e enriquecimento
Esta etapa tem como objetivo adequar os dados aos algoritmos de mineração. Isso se faz
através da integração de dados heterogêneos, remoção de dados incompletos, eliminação
da repetição dos dados e dos problemas de tipagem [Pyle 1999].
Nas bases de dados obtidas foram eliminados alguns dados totalizadores. Os dados especı́ficos que compõem estes totalizadores são mais importantes, assim tornando
redundante esta totalização. Pode-se citar como exemplo, o dado “Total de mortes por neoplasias” - popularmente conhecida como câncer. Os dados especı́ficos que compõe este
total, como neoplasia de pulmão e estômago, são tão importantes na análise quanto outra
doença grave e por isto não devem ser analisados de forma totalizada. Os dados “Demais causas definidas”, “Demais causas externas” e “Doenças do aparelho respiratório”
foram eliminados pois não inferiram nenhuma informação. Não houve enriquecimento
nos dados por considerar as bases de dados estudadas suficientes para a análise.
2.4. Transformação
Os dados pré-processados devem passar por uma transformação visando facilitar o uso
das técnicas de mineração de dados [Han and Kamber 2000]. Alguns ı́ndices originais
da base de dados de ı́ndices de mortalidade divididos em sexo “masculino” e “feminino”
foram totalizados e adicionados na base de dados. A base de dados obtida no portal
[DATASUS 2007] possui 55 entradas de dados - ı́ndices de mortalidade - para cada um dos
26 estados brasileiro e o distrito federal. Após as etapas de seleção, pré-processamento e
transformação, estas entradas se resumiram em 19. Isto demonstra a importância destas
etapas.
110
WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
2.5. Normalização dos dados
Antes de inicializar a etapa de mineração de dados é necessário que os dados sejam normalizados. Utilizou-se a técnica de normalização conhecida por Min-Max para padronizar os valores a serem agrupados posteriormente. Esta técnica consiste em avaliar o quão
um determinado valor em uma matriz é realmente representativo em relação aos demais
[Han and Kamber 2000].
2.6. Extração de dados
Esta fase começa com a escolha dos algoritmos a serem aplicados. A escolha depende
fundamentalmente do objetivo do processo de KDD: classificação, clustering, regras associativas, etc. Após isto, aplica-se os algoritmos escolhidos nos dados a serem explorados. Optou-se pela utilização do algoritmo de clustering k-means [MacQueen 1967]
para agrupar os estados brasileiros em relação aos ı́ndices de mortalidade. Esta escolha
está relacionada com o objetivo dos algoritmos de clustering e o objetivo principal deste
trabalho.
Diferentemente de outros algoritmos de clustering, o algoritmo k-means necessita
de um parâmetro k que determina o número de grupos que deverão ser formados. Optouse em fazer análises considerando os valores 4 e 5 para o parâmetro k. Estas análises
foram ainda subdivididas em duas partes: i) classificação dos estados brasileiros em
relação a todos os ı́ndices de mortalidade - considerados após a etapa de transformação;
ii) classificação dos estados em relação aos ı́ndices de mortalidades ligados a neoplasia.
Nesta etapa foi utilizada a ferramenta computacional Genesis proposta por Sturn
el al. em [Alexander Sturn and Trajanoski 2002]. Embora as principais funcionalidades
desta ferramenta estejam voltadas para análises de dados genéticos, o software oferece
estrutura para execução de diferentes algoritmos de clustering e possibilidade de variação
de parâmetros e algoritmos internos, como distância Euclidiana e outros.
2.7. Interpretação dos dados
A figura 1 é composta por 4 mapas (a,b,c e d ). Os mapas a e b se referem aos estados brasileiro agrupados em relação à todos os ı́ndices de mortalidade avaliados. Os mapas c e d
se referem ao agrupamentos dos estados brasileiros por ı́ndices de mortalidade relacionados à neoplasia. Os mapas a e c foram obtidos a partir da execução do algoritmo k-means
com o parâmetro k igual a 4 e os mapas b e d foram obtidos adotando o parâmetro k
igual a 5.
Figura 1. Estados brasileiros agrupados
Na primeira análise realizada, onde o agrupamento foi realizado em relação à
todos os ı́ndices de mortalidade armazenados nas bases de dados, pode-se verificar que os
111
WAAMD 2007
III Workshop em Algoritmos e Aplicações de Mineração de Dados
estados brasileiros se agruparam de forma simular às regiões brasileiras (Norte, Nordeste,
Centro-oeste, Sudeste, Sul). Na segunda análise, onde o agrupamento foi realizado em
relação aos ı́ndices de mortalidade relacionados à neoplasia, a regionalização influenciou
menos no agrupamento dos estados. Observa-se ainda que os estados do Rio Grande do
Sul e Rio de Janeiro, em pelo menos três análise (a, b e c) se assemelham em relação aos
ı́ndices de mortalidade. Os estados do Pernambuco e Ceará tendem a se manter fora do
grupo dos demais estados nordestinos.
3. Comentários e conclusões
Este artigo apresentou a aplicação do processo KDD na descoberta de conhecimento em
bases de dados de saúde pública. As etapas do KDD foram discutidas frente ao problema
proposto. Esta discurssão, embasada em aspectos teóricos, teve como objetivo relatar e
compartilhar uma experiência prática indicando as soluções encontradas na aplicação de
técnicas de mineração de dados.
As análises realizadas sob as informações obtidas na exploração das bases de dados permitem algumas sugestões: polı́ticas públicas diferenciadas poderiam ser direcionadas para os estados do Rio de Janeiro e Rio Grande do Sul, uma vez que estes estados se
assemelham em relação aos ı́ndices de mortalidade. Ao escolher as polı́ticas públicas diferenciadas para este estados é importante considerar a acentuada similaridade dos ı́ndices
de mortalidade por câncer de mama e pulmão. A aplicação desta sugestão pode levar a
uma melhor aplicação de recursos públicos.
Com a atualização do senso de mortalidades do Brasil e inclusão de novos dados
nas bases de dados investigadas mais análises poderão ser feitas. O estudo futuro da
aplicação de outras técnicas de clustering é considerável.
4. Agradecimentos
Ao Prof. Dr. Ricardo Poley Martins Ferreira pela revisão crı́tica deste texto.
Referências
Alexander Sturn, J. Q. and Trajanoski, Z. (2002). Genesis: cluster analysis of microarray
data. Bioinformatics, 18(1):207–208.
DATASUS (2007). Datasus. www.datasus.gov.br . Acesso em: 27 jul. 2007.
Everitt, B. (1974). Cluster Analysis. Halsted Press, New York.
Fayyad, U. M. (1996). Data mining and knowledge discovery: Making sense out of data.
IEEE Expert: Intelligent Systems and Their Applications, 11(5):20–25.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R. (1996). Advances
in Knowledge Discovery and Data Mining. AAAI Press, Menlo Park, CA.
Han, J. and Kamber, M. (2000). Data mining: concepts and techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematics, Statistics and
Probability, 1:281–296.
Pyle, D. (1999). Data Preparation for Data Mining. Morgan Kaufmann Publishers, Inc.,
California.
112