WAAMD 2007 III Workshop em Algoritmos e Aplicações de Mineração de Dados Identificação de Grupos de Estados Brasileiros Similares em Relação à Índices de Mortalidade Sandro Jerônimo de Almeida, Luis Enrique Zárate 1 Instituto de Informática – Pontifı́cia Universidade Católica de Minas Gerais (PUC Minas) [email protected], [email protected] Abstract. The choice of suitable public politics to combat and treatment of diseases in Brazilian regions allow the better efficiency of the adopted politics and public expenses reduction. This article describes application of a knowledge discovery in database KDD process in Brazilian public health databases. The objective is to identify similar Brazilian state groups considering mortality index. The Data Mining is emphasized transmitting the solutions adopted to reach the main objective. Results show similar Brazilian states relative to the mortality index for general disease and the mortality index for cancer. Resumo. A escolha de polı́ticas públicas adequadas para combate e tratamento de doenças comuns em determinadas regiões permite a maior eficiência das polı́ticas adotadas e dos gastos públicos. Este artigo descreve a aplicação de processo de descoberta de conhecimento em base de dados KDD em bases de dados de saúde pública do Brasil, com o objetivo de identificar grupos de estados brasileiros similares em relação à ı́ndices de mortalidade. A etapa de mineração de dados é enfatizada, transmitindo as soluções adotadas para se atingir o objetivo principal. Os resultados obtidos indicam os estados brasileiros semelhantes em relação à ı́ndices de mortalidade por doenças gerais e a ı́ndices de mortalidade por neoplasia. 1. Introdução O Ministério da Saúde do Brasil disponibiliza informações de saúde pública através do portal [DATASUS 2007]. Estas informações são fornecidas por pesquisas realizadas pelo Sistema Único de Saúde - SUS. A partir deste portal foram obtidas bases de dados contendo informações sobre ı́ndices de mortalidade entre os anos 2003 e 2004 dos 26 estados do Brasil mais o Distrito Federal. Adotou-se o processo de descoberta de conhecimento em base de dados KDD (do inglês Knowledge Discovery in Database), proposta por Fayyad et al. em [Fayyad et al. 1996], para explorar o conhecimento ocultos nestas bases de dados de saúde pública. No processo KDD existem algumas etapas, como a etapa de mineração de dados, que reúne diversas técnicas com propósitos especı́ficos [Fayyad 1996]. Uma destas técnicas é a análise de cluster ou clustering, cujo objetivo é agrupar dados com caracterı́sticas semelhante em conjuntos - clusters [Everitt 1974]. A partir da aplicação do processo KDD e de técnicas de mineração de dados nos dados de ı́ndices de mortalidade do governo permitiu-se agrupar os estados brasileiros por similaridade de ı́ndices de mortalidade. Interpretando estas informações o agente público pode escolher polı́ticas de gestão de saúde mais adequadas para grupos de estados brasileiros. 109 WAAMD 2007 III Workshop em Algoritmos e Aplicações de Mineração de Dados 2. Metodologia O processo KDD engloba um conjunto de atividades contı́nuas para a descoberta de conhecimento a partir de bases de dados. Esse conjunto é composto das etapas: definição do problema, seleção de dados, pré-processamento e limpeza, transformação, mineração de dados e interpretação, conforme modelo proposto por Fayyad et al. em [Fayyad et al. 1996]. A seguir são apresentadas estas etapas aplicadas na descoberta de conhecimento nas bases de dados de saúde. 2.1. Definição do problema O processo KDD começa com o entendimento do domı́nio da aplicação e dos objetivos finais a serem atingidos [Han and Kamber 2000]. Neste trabalho procura-se encontrar conhecimentos ocultos em bases de dados de saúde pública disponibilizadas através do portal [DATASUS 2007]. Procurou-se determinar grupos de estados do Brasil que sejam similares em relação à seus ı́ndices de mortalidade. 2.2. Seleção de dados Uma vez definido o domı́nio sobre o qual se pretende executar o processo de descoberta, o próximo passo é selecionar e coletar o conjunto de dados ou variáveis necessárias [Pyle 1999]. No trabalho realizado, alguns ı́ndices de mortalidade foram desconsiderados por não estarem relacionados com doenças. Este dados são indicadores de mortalidade por “Acidentes de transporte”, “Homicı́dios” e “Suicı́dios”. Dados classificados por “sexo” foram desconsiderados pois não é objetivo deste trabalho distinguir as mortalidades entre os sexos masculino e feminino. 2.3. Pré-processamento - Limpeza e enriquecimento Esta etapa tem como objetivo adequar os dados aos algoritmos de mineração. Isso se faz através da integração de dados heterogêneos, remoção de dados incompletos, eliminação da repetição dos dados e dos problemas de tipagem [Pyle 1999]. Nas bases de dados obtidas foram eliminados alguns dados totalizadores. Os dados especı́ficos que compõem estes totalizadores são mais importantes, assim tornando redundante esta totalização. Pode-se citar como exemplo, o dado “Total de mortes por neoplasias” - popularmente conhecida como câncer. Os dados especı́ficos que compõe este total, como neoplasia de pulmão e estômago, são tão importantes na análise quanto outra doença grave e por isto não devem ser analisados de forma totalizada. Os dados “Demais causas definidas”, “Demais causas externas” e “Doenças do aparelho respiratório” foram eliminados pois não inferiram nenhuma informação. Não houve enriquecimento nos dados por considerar as bases de dados estudadas suficientes para a análise. 2.4. Transformação Os dados pré-processados devem passar por uma transformação visando facilitar o uso das técnicas de mineração de dados [Han and Kamber 2000]. Alguns ı́ndices originais da base de dados de ı́ndices de mortalidade divididos em sexo “masculino” e “feminino” foram totalizados e adicionados na base de dados. A base de dados obtida no portal [DATASUS 2007] possui 55 entradas de dados - ı́ndices de mortalidade - para cada um dos 26 estados brasileiro e o distrito federal. Após as etapas de seleção, pré-processamento e transformação, estas entradas se resumiram em 19. Isto demonstra a importância destas etapas. 110 WAAMD 2007 III Workshop em Algoritmos e Aplicações de Mineração de Dados 2.5. Normalização dos dados Antes de inicializar a etapa de mineração de dados é necessário que os dados sejam normalizados. Utilizou-se a técnica de normalização conhecida por Min-Max para padronizar os valores a serem agrupados posteriormente. Esta técnica consiste em avaliar o quão um determinado valor em uma matriz é realmente representativo em relação aos demais [Han and Kamber 2000]. 2.6. Extração de dados Esta fase começa com a escolha dos algoritmos a serem aplicados. A escolha depende fundamentalmente do objetivo do processo de KDD: classificação, clustering, regras associativas, etc. Após isto, aplica-se os algoritmos escolhidos nos dados a serem explorados. Optou-se pela utilização do algoritmo de clustering k-means [MacQueen 1967] para agrupar os estados brasileiros em relação aos ı́ndices de mortalidade. Esta escolha está relacionada com o objetivo dos algoritmos de clustering e o objetivo principal deste trabalho. Diferentemente de outros algoritmos de clustering, o algoritmo k-means necessita de um parâmetro k que determina o número de grupos que deverão ser formados. Optouse em fazer análises considerando os valores 4 e 5 para o parâmetro k. Estas análises foram ainda subdivididas em duas partes: i) classificação dos estados brasileiros em relação a todos os ı́ndices de mortalidade - considerados após a etapa de transformação; ii) classificação dos estados em relação aos ı́ndices de mortalidades ligados a neoplasia. Nesta etapa foi utilizada a ferramenta computacional Genesis proposta por Sturn el al. em [Alexander Sturn and Trajanoski 2002]. Embora as principais funcionalidades desta ferramenta estejam voltadas para análises de dados genéticos, o software oferece estrutura para execução de diferentes algoritmos de clustering e possibilidade de variação de parâmetros e algoritmos internos, como distância Euclidiana e outros. 2.7. Interpretação dos dados A figura 1 é composta por 4 mapas (a,b,c e d ). Os mapas a e b se referem aos estados brasileiro agrupados em relação à todos os ı́ndices de mortalidade avaliados. Os mapas c e d se referem ao agrupamentos dos estados brasileiros por ı́ndices de mortalidade relacionados à neoplasia. Os mapas a e c foram obtidos a partir da execução do algoritmo k-means com o parâmetro k igual a 4 e os mapas b e d foram obtidos adotando o parâmetro k igual a 5. Figura 1. Estados brasileiros agrupados Na primeira análise realizada, onde o agrupamento foi realizado em relação à todos os ı́ndices de mortalidade armazenados nas bases de dados, pode-se verificar que os 111 WAAMD 2007 III Workshop em Algoritmos e Aplicações de Mineração de Dados estados brasileiros se agruparam de forma simular às regiões brasileiras (Norte, Nordeste, Centro-oeste, Sudeste, Sul). Na segunda análise, onde o agrupamento foi realizado em relação aos ı́ndices de mortalidade relacionados à neoplasia, a regionalização influenciou menos no agrupamento dos estados. Observa-se ainda que os estados do Rio Grande do Sul e Rio de Janeiro, em pelo menos três análise (a, b e c) se assemelham em relação aos ı́ndices de mortalidade. Os estados do Pernambuco e Ceará tendem a se manter fora do grupo dos demais estados nordestinos. 3. Comentários e conclusões Este artigo apresentou a aplicação do processo KDD na descoberta de conhecimento em bases de dados de saúde pública. As etapas do KDD foram discutidas frente ao problema proposto. Esta discurssão, embasada em aspectos teóricos, teve como objetivo relatar e compartilhar uma experiência prática indicando as soluções encontradas na aplicação de técnicas de mineração de dados. As análises realizadas sob as informações obtidas na exploração das bases de dados permitem algumas sugestões: polı́ticas públicas diferenciadas poderiam ser direcionadas para os estados do Rio de Janeiro e Rio Grande do Sul, uma vez que estes estados se assemelham em relação aos ı́ndices de mortalidade. Ao escolher as polı́ticas públicas diferenciadas para este estados é importante considerar a acentuada similaridade dos ı́ndices de mortalidade por câncer de mama e pulmão. A aplicação desta sugestão pode levar a uma melhor aplicação de recursos públicos. Com a atualização do senso de mortalidades do Brasil e inclusão de novos dados nas bases de dados investigadas mais análises poderão ser feitas. O estudo futuro da aplicação de outras técnicas de clustering é considerável. 4. Agradecimentos Ao Prof. Dr. Ricardo Poley Martins Ferreira pela revisão crı́tica deste texto. Referências Alexander Sturn, J. Q. and Trajanoski, Z. (2002). Genesis: cluster analysis of microarray data. Bioinformatics, 18(1):207–208. DATASUS (2007). Datasus. www.datasus.gov.br . Acesso em: 27 jul. 2007. Everitt, B. (1974). Cluster Analysis. Halsted Press, New York. Fayyad, U. M. (1996). Data mining and knowledge discovery: Making sense out of data. IEEE Expert: Intelligent Systems and Their Applications, 11(5):20–25. Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R. (1996). Advances in Knowledge Discovery and Data Mining. AAAI Press, Menlo Park, CA. Han, J. and Kamber, M. (2000). Data mining: concepts and techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematics, Statistics and Probability, 1:281–296. Pyle, D. (1999). Data Preparation for Data Mining. Morgan Kaufmann Publishers, Inc., California. 112