Programa de Mineração de Dados para Análise de Diabetes

Propaganda
Programa de Mineração de Dados para Análise de
Diabetes & Hipertensão
Rodrigo Gomes Prieto1, Kathya Collazos Linares2, Luiz Gustavo Pinto3, Jorge Roel Ortiz4
1,2,4
Ciência da Computação, Centro Tecnológico da Terra e do Mar (CTTMar),
3
Medicina, Centro de Ciências da Saúde (CCS)
Universidade do Vale do Itajaí (UNIVALI), Brasil
Resumo - Este trabalho apresenta um programa para análise de dados aplicada ao estudo de pacientes
com Diabetes e/ou Hipertensão Arterial. O programa utiliza a metodologia de Mineração de Dados, técnica
da Inteligência Artificial. Foi desenvolvido utilizando o banco de dados Oracle e suas ferramentas de
desenvolvimento para a construção da base de dados, a criação da interface com os usuários e a geração
dos relatórios de saída dos resultados. Apresenta-se também uma aplicação utilizando uma base de dados
de 186 pacientes consultados no ambulatório da UNIVALI. Os resultados mostraram que o índice de
prevalência de sobrepeso encontrado nos pacientes diabéticos e/ou hipertensos atendidos no ambulatório é
similar aos índices encontrados em outras pesquisas no Brasil.
Palavras-chave: Análise de dados, mineração de dados, diabetes & hipertensão.
Abstract – This work present a program for data analysis applied to the study of patients with diabetes
and/or arterial hypertension. This program uses a datamining methodology, which is an artificial intelligence
technique. It was developed using the Oracle database and its tools of development for constructing the
database, users interface and results report generation. It also shows an application using a 186 patient
database consulted in the UNIVALI’s ambulatory. Results shown that overweight rate found in diabetes
and/or hypertense patients attended in this ambulatory it is similar to the one determined in other researches
in Brazil.
Key-words: Data analysis, data mining, diabetes & hypertension.
Introdução
O artigo apresenta um programa para
análise de dados para pacientes com diabetes
e/ou hipertensão utilizando mineração de dados.
O programa utilizou um formulário desenvolvido
para esta finalidade [1], o formulário foi
informatizado para facilitar a criação do banco de
dados. Assim, o programa também inclui uma
interface para a coleta de dados de pacientes
com Diabetes e/ou Hipertensão Arterial.
A Medicina produz uma grande quantidade
de informação a qual é armazenada em uma
base de dados. Mas, apenas disponibilizar esses
dados não é suficiente para um melhor
aproveitamento das informações. É necessário ter
ferramentas para facilitar a analise desses dados.
Auxiliando no desenvolvimento de estratégias de
ação, isto é, a tomada de decisão sobre quadros
clínicos de pacientes e/ou grupo de pacientes
favorecendo o tratamento e/ou a prevenção de
doenças.
A interpretação de dados tem sido feita
desde seus primórdios por meios estatísticos e é
a estatística um método matemático bem
estabelecido com suporte teórico que permite tais
análises. Entretanto, há uma nova linha de
pesquisa que também permite dita análise, e ela
é chamada de mineração de dados. Esta
metodologia busca através de métodos
estatísticos ou não, a busca de modelos e/ou
padrões dentro de uma base de dados que não
seja possível de ser extraída em uma simples
inspeção dos dados.
Knowledge discovery in database (KDD)
Historicamente, a noção de descobrir
padrões úteis (ou parte de informação valiosa do
conhecimento) em dados não processados
recebeu diversos nomes, entre os quais
descoberta de conhecimento em bases de dados,
mineração de dados, extração de conhecimento,
descoberta de informação, coleta de informação,
arqueologia de dados, processamento de padrões
de dados. O termo KDD, foi criado em 1989 e
refere-se ao amplo processo de descoberta de
informação em dados, na qual enfatiza-se a
aplicação de “alto nível” do método particular
“Mineração de Dados” (MD). O KDD mostra-se
como uma ferramenta semi-automática que
possibilita a análise de grandes conjuntos de
dados, propõe-se como o descobridor de
informação útil a partir de grandes bases de
dados. A informação descoberta pode ser
representada
por
regras,
descrevendo
propriedades dos dados, padrões que ocorrem
freqüentemente, agrupamento de objetos na base
de dados, etc. [2, 3].
O objetivo da descoberta de informação é
obter conhecimento útil a partir de grandes
coleções
de
dados.
Tais
tarefas
são
inerentemente interativas e iterativas, de tal forma
que não se pode esperar obter informação útil
pelo simples fato de introduzir uma grande
quantidade de dados em uma caixa preta. Por
tanto, os sistemas KDD devem ser vistos como
uma ferramenta interativa, não como um sistema
de análise automático.
A Figura 1 mostra o processo KDD [4],
esse processo caracteriza-se pelos seguintes
passos:
1. Compreensão do domínio;
2. Organização do conjunto de dados;
3. Descoberta dos padrões;
4. Pós-processo dos padrões descobertos;
5. Disponibilização dos resultados.
Figura 1 - O processo KDD.
A Compreensão do domínio dos dados é,
naturalmente, um pré-requisito para se extrair
qualquer conhecimento útil, ou seja, o usuário de
um sistema KDD deve ter uma certa
compreensão sobre a área de aplicação antes
que qualquer informação de valor possa ser
obtida. De outro lado, se o especialista humano é
muito qualificado, pode ser árduo para a
ferramenta semi-automática obter qualquer
informação nova. É o caso, por exemplo, de
domínios mediamente estáveis, nos quais o
especialista humano teve um bom desempenho,
com o que desenvolveu a habilidade de perceber
detalhes dos dados [5].
Já, a organização do conjunto de dados
envolve a seleção da fonte de dados, a
integração dos dados heterogêneos, a limpeza
dos erros nos dados, a avaliação do ruído, o
tratamento dos valores perdidos, etc. Este passo
pode tomar mais do 80% do tempo despendido
em todo o processo.
Quanto à descoberta do padrão em KDD, é
o passo em que os padrões freqüentes e de
interesse são levantados a partir dos dados. MD
refere-se à descoberta do padrão como uma
parte da descoberta do conhecimento, sendo,
com freqüência usada como sinônimo de KDD. A
fase de MD pode usar várias técnicas como
estatística e aprendizado pela máquina, tais como
regras de aprendizado, indução de árvores de
decisão, agrupamento, programação lógica
indutiva, etc. A ênfase em pesquisa em MD se
deve justamente por possibilitar a descoberta
eficiente de padrões medianamente simples.
O processo KDD não pára quando os
padrões são descobertos, ou seja, o usuário tem
de ser capaz de compreender o que foi
descoberto, visualizando os dados e padrões de
modo simultâneo, contrastando os padrões
descobertos com o conhecimento de base, etc.
Nesse passo a complexidade não está no número
de objetos na base de dados, mas, sim, no
número de atributos, visto que o número de
possíveis padrões típicos crescerá ao menos
exponencialmente com o número de atributos, o
que constitui a fonte real de dificuldade.
O pós-processo da informação descoberta
envolve passos, tais como seleções adicionais ou
ordenamento de padrões, visualização, etc.
Algumas abordagens de metodologias de KDD
põem uma forte ênfase no pós-processamento. O
processo KDD é necessariamente iterativo, isto é,
o resultado de um passo de MD pode mostrar que
alguma mudança deve ser feita no passo da
formação do conjunto de dados. Assim, o pósprocessamento de padrões deve possibilitar ao
usuário a visão de uma leve modificação nos
tipos de padrões, etc. O suporte para tais
iterações
é
um
importante
tópico
no
desenvolvimento
de
KDD.
Aplicações
proeminentes de KDD incluem dados em saúde,
aplicações financeiras e dados científicos [6, 7].
Diabetes e/ou Hipertensão
Segundo Oliveira [8], a Diabetes Mellitus é
uma anormalidade caracterizada por uma
quantidade de açúcar em excesso no sangue e
na urina. O pâncreas é um órgão na região do
abdome e uma de suas principais funções é a
produção de insulina. Existem, disseminados por
todo o órgão, pequenos agrupamentos celulares
denominados ilhotas de Langerhans, onde é
produzida a insulina, hormônio responsável por
regular o nível de açúcar no sangue e transformálo em energia. Se o pâncreas for afetado por uma
infecção, por exemplo, esta prejudicará a
produção de insulina e o nível de açúcar no
sangue aumentará, provocando os sintomas da
diabete açucarada. Uma outra doença, bastante
diferente da diabete açucarada é a diabete
insípida, caracterizada pelo excesso de excreção
urinária, devido a um distúrbio dos rins
Nobre & Lima [9] definem a hipertensão
arterial não somente como uma condição clínica
de cifras tensionais elevadas, mas como quadro
sindrômico, incluindo alterações hemodinâmicas,
tróficas e metabólicas, ou seja, deixou de ser
vista como uma doença ligada somente a tensão,
para ser vista como um dos graves fatores para
doenças cardiovasculares. E essas alterações
podem ter base genética, influência ambiental ou
do estilo de vida.
O algoritmo de mineração utiliza técnicas
estatísticas para o Agrupamento (Clustering) dos
dados segundo parâmetros de mineração
esatabelecidos, a geração dos agrupamentos
permite
também
estabelecer
regras
de
associação.
A tela de entrada de parâmetros
mineração é a tela onde o especialista
selecionar os campos que serão minerados
base e em quais intervalos, como mostrado
Figura 4.
de
irá
na
na
Metodologia
O sistema foi desenvolvido no Oracle
Forms (telas) e Reports Builder (relatórios),
utilizou-se a linguagem PL/SQL. A Figura 2
mostra a tela inicial, da qual pode-se acessar a
todas as demais telas do sistema, seja através da
escolha do módulo, ou através do menu.
Figura 4 - Tela de parâmetros de pesquisa
A visualização dos resultados pode ser
vista de diversas formas, uma delas é através da
tela de consulta, que pode ser vista na Figura 5.
Esta tela mostra os registros da tabela de Dados
Minerados que é a entidade que recebe os
resultados finais da mineração.
Figura 2 - Tela de abertura do sistema
A base de dados implementada segue o
formulário para pacientes com Diabetes Mellitus
e/ou Hipertensão Arterial [1], a interface para a
coleta de dados é mostrada na Figura 3.
Figura 5 - Tela de visualização de resultados
Aplicação
Numa etapa inicial, foram selecionados
doze parâmetros de interesse dos pacientes, eles
estão mostrados na Tabela 1. Foram ingressados
ao banco de dados 186 pacientes atendidos nos
três primeiros meses do ano.
Figura 3 - Tela de entrada de dados
Tabela 1 - Parâmetros selecionados
CAMPO
DESCRIÇÃO
TABELA
QT_IDADE
Paciente
VL_FC
Idade do
Paciente
Sexo do
Paciente
Cor do
Paciente
Profissão do
Paciente
Índice de
Massa Corporal
Valor de FC
VL_LDL
Valor de LDL
VL_HDL
Valor de HDL
ID_SEXO
ID_ETNIA
DS_PROFISSAO
VL_IMC
VL_GLICOSE
Valor de
Glicose
VL_COLESTEROL
Valor de
Colesterol
VL_TRIGLICERIDIOS
Valor de
Triglicerídios
Valor da
VL_PRES_BRACO_DS Pressão
Arterial
Paciente
Paciente
Paciente
Guia
Exame
Guia
Exame
Guia
Exame
Guia
Exame
Guia
Exame
Guia
Exame
Guia
Exame
Guia
Exame
Foram realizadas consultas para diversas
combinações dos parâmetros, tais como: Indice
de Massa Corpórea, Idade, Trigliceridios, LDL e
Sexo. Após o processo de mineração, o
especialista verificou os resultados através de
telas de consulta edos relatórios.
Os resultados mostraram a prevalência de
sobrepeso
e
obesidade
nos
pacientes
consultados e o valor é próximo dos percentuais
obtidos em outras pesquisas de nível nacional.
Outra observação feita pelo especialista diz
respeito ao preenchimento dos prontuários no
ambulatório, ficou constatado que no caso dos
pacientes idosos, muitos prontuários não
possuíam informações de peso e altura.
Baseado nos resultados obtidos estão
sendo previstas duas ações a serem tomadas:
• Início de atividades para melhorar o
parâmetro IMC.
• Monitoramento para o correto preenchimento
dos prontuários dos pacientes.
A base de dados criada é o datawarehouse
do sistema porque ela é específica para a
pesquisa de diabetes e/ou hipertensão.
O sistema irá a migrar para uma estrutura
web para facilitar o acceso ao sistema fora do
ambulatório.
Será acrescido ao sistema um formulário
que permita realizar um acompanhamento do
paciente para permitir análises sobre a evolução
do estado do paciente no tempo.
Referências
[1] Pinto, L.G. (2004), Formulário para coleta de
dados de pacientes diabéticos e/ou
Hipertensos, Technical report Ambulatório da
Univali, Itajaí Brasil.
[2] Mannila, H. (1996), “Data Mining: machine
learning, statistics, and databases”, Eight
International Conference on Scientific and
Statistical
Database
Management,
Stockholm-Sweden. p. 1-8.
[3] Mannila, H. (1997), “Methods and problems
in data mining (a tutorial)”, Proceedings of
International Conference on Database Theory
ICDT'97, Eds.: F. Afrati, P. Kolaitis, SpringerVerlag, Delphi-Greece, p. 41-55, Janeiro.
[4] Silver, D.L. (1996), “Knowledge Discovery
and Data Mining”. Technical Report
MBA6522 CogNova Technologies London
Health Science Center.
[5] Barreto, J.M. Inteligência Artificial no Limiar
do Século XXI, 3a Edição. Florianópolis- SC,
ρρρ Edições, 2001.
[6] Pacheco, M.A., Vellasco, M., Lopes, C.H.
(1999), Descoberta de Conhecimento e
Mineração de Dados, Notas de Aula em
Inteligência Artificial. Rio de Janeiro, ICA –
Laboratório de Inteligência Computacional
Aplicada, Engenharia Elétrica PUC-RIO.
URL:http://www.ica.ele.puc-rio.br.
[7] Collazos, K., Barreto, J.M. (2003), “KDD
Ferramenta Para Análise de Dados
Epidemiológicos”, Anais do III Congresso
Brasileiro de Computação - III Workshop de
Informática
aplicada
à
Saúde
CBCOMP'2003, Itajaí, p. 2226-2236.
Discussão e Conclusões
O algoritmo de agrupamento consiguiu
trazar o perfil dos pacientes consultados no
ambulatório.
[8] De Oliveira, J.E.P. (2003), Informações para
Pacientes
Diabéticos.
URL:
http://
www.diabetes.org.br/Diabetes/info_pacientes/
infopac_set.html. Sistema Brasileiro de
Diabetes (SBD). Acessado em 11-2003.
[9] Nobre, F., Lima, N.K.C. (2000), “Hipertensão
Arterial: Conceito, Classificação e Critérios
Diagnósticos”, Sociedade de Cardiologia do
Estado de São Paulo (SOCESP) : Ari
Timerman, Luiz Antonio Machado César. São
Paulo: Editora Atheneu.
Contato
Kathya Collazos Linares
Ciência da Computação – CTTMar
Universidade do Vale do Itajaí.
Rua Uruguai 458 - Centro
CEP 88302-202 Itajaí, SC – Brasil
Caixa Postal: 360
Telefone:(47) 341-7544
Fax: (47) 341-7544
e-mail [email protected]
Download