Programa de Mineração de Dados para Análise de Diabetes & Hipertensão Rodrigo Gomes Prieto1, Kathya Collazos Linares2, Luiz Gustavo Pinto3, Jorge Roel Ortiz4 1,2,4 Ciência da Computação, Centro Tecnológico da Terra e do Mar (CTTMar), 3 Medicina, Centro de Ciências da Saúde (CCS) Universidade do Vale do Itajaí (UNIVALI), Brasil Resumo - Este trabalho apresenta um programa para análise de dados aplicada ao estudo de pacientes com Diabetes e/ou Hipertensão Arterial. O programa utiliza a metodologia de Mineração de Dados, técnica da Inteligência Artificial. Foi desenvolvido utilizando o banco de dados Oracle e suas ferramentas de desenvolvimento para a construção da base de dados, a criação da interface com os usuários e a geração dos relatórios de saída dos resultados. Apresenta-se também uma aplicação utilizando uma base de dados de 186 pacientes consultados no ambulatório da UNIVALI. Os resultados mostraram que o índice de prevalência de sobrepeso encontrado nos pacientes diabéticos e/ou hipertensos atendidos no ambulatório é similar aos índices encontrados em outras pesquisas no Brasil. Palavras-chave: Análise de dados, mineração de dados, diabetes & hipertensão. Abstract – This work present a program for data analysis applied to the study of patients with diabetes and/or arterial hypertension. This program uses a datamining methodology, which is an artificial intelligence technique. It was developed using the Oracle database and its tools of development for constructing the database, users interface and results report generation. It also shows an application using a 186 patient database consulted in the UNIVALI’s ambulatory. Results shown that overweight rate found in diabetes and/or hypertense patients attended in this ambulatory it is similar to the one determined in other researches in Brazil. Key-words: Data analysis, data mining, diabetes & hypertension. Introdução O artigo apresenta um programa para análise de dados para pacientes com diabetes e/ou hipertensão utilizando mineração de dados. O programa utilizou um formulário desenvolvido para esta finalidade [1], o formulário foi informatizado para facilitar a criação do banco de dados. Assim, o programa também inclui uma interface para a coleta de dados de pacientes com Diabetes e/ou Hipertensão Arterial. A Medicina produz uma grande quantidade de informação a qual é armazenada em uma base de dados. Mas, apenas disponibilizar esses dados não é suficiente para um melhor aproveitamento das informações. É necessário ter ferramentas para facilitar a analise desses dados. Auxiliando no desenvolvimento de estratégias de ação, isto é, a tomada de decisão sobre quadros clínicos de pacientes e/ou grupo de pacientes favorecendo o tratamento e/ou a prevenção de doenças. A interpretação de dados tem sido feita desde seus primórdios por meios estatísticos e é a estatística um método matemático bem estabelecido com suporte teórico que permite tais análises. Entretanto, há uma nova linha de pesquisa que também permite dita análise, e ela é chamada de mineração de dados. Esta metodologia busca através de métodos estatísticos ou não, a busca de modelos e/ou padrões dentro de uma base de dados que não seja possível de ser extraída em uma simples inspeção dos dados. Knowledge discovery in database (KDD) Historicamente, a noção de descobrir padrões úteis (ou parte de informação valiosa do conhecimento) em dados não processados recebeu diversos nomes, entre os quais descoberta de conhecimento em bases de dados, mineração de dados, extração de conhecimento, descoberta de informação, coleta de informação, arqueologia de dados, processamento de padrões de dados. O termo KDD, foi criado em 1989 e refere-se ao amplo processo de descoberta de informação em dados, na qual enfatiza-se a aplicação de “alto nível” do método particular “Mineração de Dados” (MD). O KDD mostra-se como uma ferramenta semi-automática que possibilita a análise de grandes conjuntos de dados, propõe-se como o descobridor de informação útil a partir de grandes bases de dados. A informação descoberta pode ser representada por regras, descrevendo propriedades dos dados, padrões que ocorrem freqüentemente, agrupamento de objetos na base de dados, etc. [2, 3]. O objetivo da descoberta de informação é obter conhecimento útil a partir de grandes coleções de dados. Tais tarefas são inerentemente interativas e iterativas, de tal forma que não se pode esperar obter informação útil pelo simples fato de introduzir uma grande quantidade de dados em uma caixa preta. Por tanto, os sistemas KDD devem ser vistos como uma ferramenta interativa, não como um sistema de análise automático. A Figura 1 mostra o processo KDD [4], esse processo caracteriza-se pelos seguintes passos: 1. Compreensão do domínio; 2. Organização do conjunto de dados; 3. Descoberta dos padrões; 4. Pós-processo dos padrões descobertos; 5. Disponibilização dos resultados. Figura 1 - O processo KDD. A Compreensão do domínio dos dados é, naturalmente, um pré-requisito para se extrair qualquer conhecimento útil, ou seja, o usuário de um sistema KDD deve ter uma certa compreensão sobre a área de aplicação antes que qualquer informação de valor possa ser obtida. De outro lado, se o especialista humano é muito qualificado, pode ser árduo para a ferramenta semi-automática obter qualquer informação nova. É o caso, por exemplo, de domínios mediamente estáveis, nos quais o especialista humano teve um bom desempenho, com o que desenvolveu a habilidade de perceber detalhes dos dados [5]. Já, a organização do conjunto de dados envolve a seleção da fonte de dados, a integração dos dados heterogêneos, a limpeza dos erros nos dados, a avaliação do ruído, o tratamento dos valores perdidos, etc. Este passo pode tomar mais do 80% do tempo despendido em todo o processo. Quanto à descoberta do padrão em KDD, é o passo em que os padrões freqüentes e de interesse são levantados a partir dos dados. MD refere-se à descoberta do padrão como uma parte da descoberta do conhecimento, sendo, com freqüência usada como sinônimo de KDD. A fase de MD pode usar várias técnicas como estatística e aprendizado pela máquina, tais como regras de aprendizado, indução de árvores de decisão, agrupamento, programação lógica indutiva, etc. A ênfase em pesquisa em MD se deve justamente por possibilitar a descoberta eficiente de padrões medianamente simples. O processo KDD não pára quando os padrões são descobertos, ou seja, o usuário tem de ser capaz de compreender o que foi descoberto, visualizando os dados e padrões de modo simultâneo, contrastando os padrões descobertos com o conhecimento de base, etc. Nesse passo a complexidade não está no número de objetos na base de dados, mas, sim, no número de atributos, visto que o número de possíveis padrões típicos crescerá ao menos exponencialmente com o número de atributos, o que constitui a fonte real de dificuldade. O pós-processo da informação descoberta envolve passos, tais como seleções adicionais ou ordenamento de padrões, visualização, etc. Algumas abordagens de metodologias de KDD põem uma forte ênfase no pós-processamento. O processo KDD é necessariamente iterativo, isto é, o resultado de um passo de MD pode mostrar que alguma mudança deve ser feita no passo da formação do conjunto de dados. Assim, o pósprocessamento de padrões deve possibilitar ao usuário a visão de uma leve modificação nos tipos de padrões, etc. O suporte para tais iterações é um importante tópico no desenvolvimento de KDD. Aplicações proeminentes de KDD incluem dados em saúde, aplicações financeiras e dados científicos [6, 7]. Diabetes e/ou Hipertensão Segundo Oliveira [8], a Diabetes Mellitus é uma anormalidade caracterizada por uma quantidade de açúcar em excesso no sangue e na urina. O pâncreas é um órgão na região do abdome e uma de suas principais funções é a produção de insulina. Existem, disseminados por todo o órgão, pequenos agrupamentos celulares denominados ilhotas de Langerhans, onde é produzida a insulina, hormônio responsável por regular o nível de açúcar no sangue e transformálo em energia. Se o pâncreas for afetado por uma infecção, por exemplo, esta prejudicará a produção de insulina e o nível de açúcar no sangue aumentará, provocando os sintomas da diabete açucarada. Uma outra doença, bastante diferente da diabete açucarada é a diabete insípida, caracterizada pelo excesso de excreção urinária, devido a um distúrbio dos rins Nobre & Lima [9] definem a hipertensão arterial não somente como uma condição clínica de cifras tensionais elevadas, mas como quadro sindrômico, incluindo alterações hemodinâmicas, tróficas e metabólicas, ou seja, deixou de ser vista como uma doença ligada somente a tensão, para ser vista como um dos graves fatores para doenças cardiovasculares. E essas alterações podem ter base genética, influência ambiental ou do estilo de vida. O algoritmo de mineração utiliza técnicas estatísticas para o Agrupamento (Clustering) dos dados segundo parâmetros de mineração esatabelecidos, a geração dos agrupamentos permite também estabelecer regras de associação. A tela de entrada de parâmetros mineração é a tela onde o especialista selecionar os campos que serão minerados base e em quais intervalos, como mostrado Figura 4. de irá na na Metodologia O sistema foi desenvolvido no Oracle Forms (telas) e Reports Builder (relatórios), utilizou-se a linguagem PL/SQL. A Figura 2 mostra a tela inicial, da qual pode-se acessar a todas as demais telas do sistema, seja através da escolha do módulo, ou através do menu. Figura 4 - Tela de parâmetros de pesquisa A visualização dos resultados pode ser vista de diversas formas, uma delas é através da tela de consulta, que pode ser vista na Figura 5. Esta tela mostra os registros da tabela de Dados Minerados que é a entidade que recebe os resultados finais da mineração. Figura 2 - Tela de abertura do sistema A base de dados implementada segue o formulário para pacientes com Diabetes Mellitus e/ou Hipertensão Arterial [1], a interface para a coleta de dados é mostrada na Figura 3. Figura 5 - Tela de visualização de resultados Aplicação Numa etapa inicial, foram selecionados doze parâmetros de interesse dos pacientes, eles estão mostrados na Tabela 1. Foram ingressados ao banco de dados 186 pacientes atendidos nos três primeiros meses do ano. Figura 3 - Tela de entrada de dados Tabela 1 - Parâmetros selecionados CAMPO DESCRIÇÃO TABELA QT_IDADE Paciente VL_FC Idade do Paciente Sexo do Paciente Cor do Paciente Profissão do Paciente Índice de Massa Corporal Valor de FC VL_LDL Valor de LDL VL_HDL Valor de HDL ID_SEXO ID_ETNIA DS_PROFISSAO VL_IMC VL_GLICOSE Valor de Glicose VL_COLESTEROL Valor de Colesterol VL_TRIGLICERIDIOS Valor de Triglicerídios Valor da VL_PRES_BRACO_DS Pressão Arterial Paciente Paciente Paciente Guia Exame Guia Exame Guia Exame Guia Exame Guia Exame Guia Exame Guia Exame Guia Exame Foram realizadas consultas para diversas combinações dos parâmetros, tais como: Indice de Massa Corpórea, Idade, Trigliceridios, LDL e Sexo. Após o processo de mineração, o especialista verificou os resultados através de telas de consulta edos relatórios. Os resultados mostraram a prevalência de sobrepeso e obesidade nos pacientes consultados e o valor é próximo dos percentuais obtidos em outras pesquisas de nível nacional. Outra observação feita pelo especialista diz respeito ao preenchimento dos prontuários no ambulatório, ficou constatado que no caso dos pacientes idosos, muitos prontuários não possuíam informações de peso e altura. Baseado nos resultados obtidos estão sendo previstas duas ações a serem tomadas: • Início de atividades para melhorar o parâmetro IMC. • Monitoramento para o correto preenchimento dos prontuários dos pacientes. A base de dados criada é o datawarehouse do sistema porque ela é específica para a pesquisa de diabetes e/ou hipertensão. O sistema irá a migrar para uma estrutura web para facilitar o acceso ao sistema fora do ambulatório. Será acrescido ao sistema um formulário que permita realizar um acompanhamento do paciente para permitir análises sobre a evolução do estado do paciente no tempo. Referências [1] Pinto, L.G. (2004), Formulário para coleta de dados de pacientes diabéticos e/ou Hipertensos, Technical report Ambulatório da Univali, Itajaí Brasil. [2] Mannila, H. (1996), “Data Mining: machine learning, statistics, and databases”, Eight International Conference on Scientific and Statistical Database Management, Stockholm-Sweden. p. 1-8. [3] Mannila, H. (1997), “Methods and problems in data mining (a tutorial)”, Proceedings of International Conference on Database Theory ICDT'97, Eds.: F. Afrati, P. Kolaitis, SpringerVerlag, Delphi-Greece, p. 41-55, Janeiro. [4] Silver, D.L. (1996), “Knowledge Discovery and Data Mining”. Technical Report MBA6522 CogNova Technologies London Health Science Center. [5] Barreto, J.M. Inteligência Artificial no Limiar do Século XXI, 3a Edição. Florianópolis- SC, ρρρ Edições, 2001. [6] Pacheco, M.A., Vellasco, M., Lopes, C.H. (1999), Descoberta de Conhecimento e Mineração de Dados, Notas de Aula em Inteligência Artificial. Rio de Janeiro, ICA – Laboratório de Inteligência Computacional Aplicada, Engenharia Elétrica PUC-RIO. URL:http://www.ica.ele.puc-rio.br. [7] Collazos, K., Barreto, J.M. (2003), “KDD Ferramenta Para Análise de Dados Epidemiológicos”, Anais do III Congresso Brasileiro de Computação - III Workshop de Informática aplicada à Saúde CBCOMP'2003, Itajaí, p. 2226-2236. Discussão e Conclusões O algoritmo de agrupamento consiguiu trazar o perfil dos pacientes consultados no ambulatório. [8] De Oliveira, J.E.P. (2003), Informações para Pacientes Diabéticos. URL: http:// www.diabetes.org.br/Diabetes/info_pacientes/ infopac_set.html. Sistema Brasileiro de Diabetes (SBD). Acessado em 11-2003. [9] Nobre, F., Lima, N.K.C. (2000), “Hipertensão Arterial: Conceito, Classificação e Critérios Diagnósticos”, Sociedade de Cardiologia do Estado de São Paulo (SOCESP) : Ari Timerman, Luiz Antonio Machado César. São Paulo: Editora Atheneu. Contato Kathya Collazos Linares Ciência da Computação – CTTMar Universidade do Vale do Itajaí. Rua Uruguai 458 - Centro CEP 88302-202 Itajaí, SC – Brasil Caixa Postal: 360 Telefone:(47) 341-7544 Fax: (47) 341-7544 e-mail [email protected]