O Uso de Redes Neurais no Diagnóstico de Doenças

Propaganda
UNIVERSIDADE FEDERAL DE SANTA CATARINA
DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA
SISTEMAS DE INFORMAÇÃO
O Uso de Redes Neurais no Diagnóstico de Doenças
Reumatológicas
Cristiano Gonçalves e Souza
Lelia de Mello Tostes
Orientador – Prof Dr. Jovelino Falqueto
Co-orientador – Prof Msc Vidal de Souza
Florianópolis, Junho de 2004
Visto de Aceitação do Documento
_______________________________________
Orientador – Prof. Dr. Jovelino Falqueto
________________________________________
Co-orientador – Prof. Msc. Vidal de Souza
_________________________________________
Membro da Banca - Profa. Dra. Silvia Nassar
2
SUMÁRIO
O Uso de Redes Neurais no Diagnóstico de Doenças Reumatológicas ........................... 4
1.
Tema ......................................................................................................................... 4
2.
Delimitação Do Tema / Limitações ...................................................................... 4
3.
Objetivo Geral ......................................................................................................... 4
4.
Objetivos Específicos .............................................................................................. 4
5.
Motivação / Justificativa ( s ) ................................................................................... 5
6.
Ferramentas .............................................................................................................. 5
7.
Metodologia de Trabalho........................................................................................ 6
7.1.
Coleta de Dados ................................................................................................ 6
7.2.
Pré-Processamento, Limpeza e Tratamento de Dados ..................................... 7
7.3.
Coleta de Dados Complementares .................................................................. 12
7.4.
Treinamento e Testes ...................................................................................... 12
7.5.
Comparações .................................................................................................. 13
8.
Conclusão ............................................................................................................... 13
9.
Referências Bibliográficas ...................................................................................... 14
10.
Anexos ................................................................................................................ 15
3
O Uso de Redes Neurais no Diagnóstico de Doenças Reumatológicas
1. Tema
O uso de redes neurais como ferramenta para o diagnóstico de doenças
reumáticas.
2. Delimitação Do Tema / Limitações
Serão avaliados aspectos relacionados a coleta e pré-processamento dos dados
para o treinamento, teste e validação de redes neurais, objetivando diagnosticar um
conjunto de doenças reumáticas; bem como a qualidade destas redes (dado o porcentual
de acertos ao serem aplicados novos dados a redes treinadas).
Os dados a usados serão coletados a partir de questionários com médicos
reumatologistas. A coleta e tratamento dos dados serão realizados entre abril e julho de
2004. O treinamento, teste, análise e comparações entre redes neurais serão realizados
entre agosto e novembro de 2004.
3. Objetivo Geral
Avaliar aspectos relacionados ao uso de redes neurais como ferramenta para o
diagnóstico de doenças reumáticas.
4. Objetivos Específicos
Planejar e realizar a coleta de dados de consultas para avaliar os padrões que
levam a determinação de um diagnóstico médico
Fazer o pré-processamento e limpeza dos dados coletados.
Utilizar e avaliar o uso de redes neurais como ferramenta para o diagnóstico
médico para um conjunto de doenças reumáticas.
4
5. Motivação / Justificativa ( s )
Vam Bemmel e cols (MASSAD) classifica o conhecimento médico em duas
categorias básicas.
O primeiro tipo de conhecimento médico baseia-se na literatura médica. O
segundo tipo, o experiencial deriva de informações constantes de bases de dados dos
pacientes, tais como o prontuário médico, ou em protocolos clínicos de procedimentos.
A partir destes surge um terceiro tipo de conhecimento que deriva dos dois
primeiros, ou seja, o conhecimento baseado em evidências disponíveis nas bases de
conhecimento médico universal. Difere do primeiro nas evidências acumuladas ao
longo do tempo e sumarizadas pelos processos adequados.
Contudo difere do segundo tipo ao passo que o peso da experiência do
especialista individualmente é minimizado e a decisão se baseia na associação entre as
observações primárias e os resultados de certas decisões.
Tendo em vista os pontos propostos anteriormente viemos propor o estudo do
processo de descoberta do conhecimento, contudo o objetivo deste não se reduz ao
conhecimento médico em si.
Este estudo trata da aplicação de recursos tecnológicos de inteligência artificial,
em específico redes neurais, aplicado à ciência médica no diagnóstico médico baseado
no conhecimento experiencial de um conjunto de reumatologistas os quais colaboraram
com o presente estudo.
6. Ferramentas
O Levantamento de dados se dará em dois estágios. Num estágio Inicial será
feito um questionário aberto baseado no prontuário médico, o qual será distribuído entre
alguns médicos reumatologistas. Com base nestes dados iniciais serão escolhidos alguns
diagnósticos os quais serão objetos de estudo.
Após esta seleção será feito um segundo questionário, com questões fechadas também
baseadas no prontuário médico, no intuito de enriquecer os dados iniciais.
O armazenamento de dados será feito numa base dados FireBird 1.5 e ao
cadastramentos, manipulação, pré processamento, limpeza e transformações necessárias
5
destes dados serão feitos com as ferramenta IBExpert v.2003.11.06, MiniTab 13.0 e
Statistica 6.0 a medida do necessário.
Usaremos a ferramenta de desenvolvimento Delphi 7.0 para a criação de uma
RNA com retropropagação e possivelmente serão utilizados outros aplicativos
existentes tais como o MatLab ou o SAS como ferramenta para a aplicação dos dados a
diversas RNAs.
7. Metodologia de Trabalho
Através de algoritmos de aprendizagem o computador pode apresentar um
comportamento inteligente no reconhecimento de padrões.
O uso destes algoritmos na área da saúde não é uma exceção; usado desde a
locação de recursos hospitalares até a classificação de crises convulsivas ou ainda no
diagnóstico médico de doenças.
Este trabalho tem por objetivo estudar o uso de redes neurais artificiais (RNAs)
no diagnóstico de doenças; desde a coleta de dados até a apresentação de um novo
padrão de teste a uma RNA treinada. Neste caso, estes padrões serão compostos de um
quadro sintomático, resultados de exames e dados de pacientes para o diagnóstico de
doenças reumáticas.
O projeto foi divido em várias etapas, como segue, visando dividir o problema
em partes distintas, cada qual com sua devida importância e necessidade.
7.1. Coleta de Dados
Os dados foram coletados através da aplicação de um questionário com questões
abertas sobre dados do prontuário médico referentes a consultas de pacientes onde se
chegou a um diagnóstico conclusivo. O Modelo do questionário se encontra em anexo
(Anexo 1).
A base de dados adotada para a coleta de dados se encontrava na forma de
modelo relacional normalizado como apresentado na figura abaixo:
6
A partir do modelo relacional dado, foi montada uma tabela não normalizada,
com granularidade referente a uma consulta com apenas um diagnóstico por consulta,
com a coleção de sintomas e exames referentes a estes diagnósticos e dados gerais dos
pacientes.
7.2. Pré-Processamento, Limpeza e Tratamento de Dados
Após ter sido gerada a tabela resumindo os dados que serão utilizados neste
estudo, é necessária que seja feito uma limpeza e um pré-processamento destes dados.
Neste momento, temos um total de 40 casos para o estudo, o que em si é uma
quantidade muito reduzida de dados, portanto uma base de dados muito pobre para
qualquer análise. Deve ser levado em consideração na análise do modelo de que os
dados estão sujeitos a esta limitação.
7
Ainda assim, para este estudo vale a pena categorizar ou agrupar os dados de
diagnósticos para, existindo agrupamentos, nos concentramos nestes dados. Assim
sendo, foi feita uma contagem de dados por diagnósticos conforme a tabela abaixo:
DIAGNOSTICO
QUANTIDADE
ARTRITE REUMATÓIDE
6
OSTEOARTROSE (ARTROSE, OSTEOARTRITE) PRIMÁRIA
5
GOTA
3
FIBROMIALGIA
3
TENOSSINOVITE DUPUITREN (DEDO EM GATILHO)
2
SÍNDROME DO TÚNEL DO CARPO
2
LUPUS ERITEMATOSO SISTÊMICO
2
ESPONDILITE ANQUILOSANTE
2
EPICONDILITE LATERAL
2
TENOSSINOVITE DE QUERVEIN
1
TENDINITE DE OMBRO
1
SÍNDROME FÊMUROPATELAR
1
SÍNDORME DO IMPACTO EM OMBRO
1
POLIARTALGIA
1
OSTEOPOROSE
1
LOMBOCIATALGIA
1
FASCIITE PLANTAR
1
ERITEMA NODOSO
1
CAPSULITE ADESIVA DE OMBRO (OMBRO CONGELADO)
1
CÂNCER DE PULMÃO
1
BURSITE TROCANTÉRICA
1
BURSITE ANSERINA
1
Como podemos observar os dados apresentam-se muito dispersos, sendo que
apenas quatro diagnósticos possuem mais de dois registros em nossa base de dados.
Uma outra abordagem seria a de verificar a distribuição por Classe de
Diagnóstico (fornecidas por um médico reumatologista), como observado abaixo:
8
CLASSE DO DIAGNÓSTICO
QUANTIDADE
PARTES MOLES
18
COLAGENOSA
8
DEGENERATIVA
5
MICROCRISTALINAS
3
INESPECIFICA
3
ESPONDILOARTROPATIAS SERO-NEGATIVA
2
OSTEOPOROSE
1
Neste caso, a divisão se dá por uma classificação médica, não necessariamente
as várias doenças sigam um padrão semelhante distinguível como padrão de entrada de
dados, portanto o uso destas categorias é questionável, porém merecedor de observação,
pois a quantidade de dados por categoria é maior. Além disso, para este caso, a variável
alvo passaria a ser Classe do Diagnóstico ao invés de Diagnóstico da Doença.
A princípio nos ateremos ao objetivo principal, com a proposta de serem
coletados mais dados concentrados em um subconjunto de diagnósticos a fim de
enriquecer os dados para estes diagnósticos e apenas fazer um modelo preditivo para
este subconjunto de dados, no intuito de observar o comportamento do modelo para este
ambiente.
Outros dados que valem a pena serem observados são a idade, o sexo do
paciente e sua ocupação profissional, para verificar se estes dados devem ou não entrar
no modelo de predição.
Iniciaremos pela idade, observando sua distribuição nos diversos diagnósticos. A
média calculada para a distribuição da idade é de 46 anos, com desvio padrão 16 em 40
casos registrados. Sua distribuição é próxima da Normal, com um pequeno desvio à
direita. Podemos observar esta distribuição com a figura a seguir:
Para verificar a influência que as idades podem ter sobre os variados
diagnósticos, observamos a média de idade dos pacientes para cada diagnóstico:
DIAGNÓSTICO
CÂNCER DE PULMÃO
MÉDIA DE IDADE
82,05479
9
TENDINITE DE OMBRO
74,04932
OSTEOPOROSE
74,04932
TENOSSINOVITE DUPUITREN (DEDO EM GATILHO)
62,0411
BURSITE TROCANTÉRICA
61,0411
OSTEOARTROSE (ARTROSE, OSTEOARTRITE) PRIMÁRIA
58,2389
BURSITE ANSERINA
54,03562
SÍNDROME DO TÚNEL DO CARPO
47,53151
SÍNDORME DO IMPACTO EM OMBRO
46,03014
POLIARTALGIA
45,03014
CAPSULITE ADESIVA DE OMBRO (OMBRO CONGELADO)
45,03014
FIBROMIALGIA
43,69589
ARTRITE REUMATÓIDE
43,52831
GOTA
42,69589
FASCIITE PLANTAR
41,0274
EPICONDILITE LATERAL
40,52603
LOMBOCIATALGIA
38,02466
TENOSSINOVITE DE QUERVEIN
34,02192
ERITEMA NODOSO
32,02192
ESPONDILITE ANQUILOSANTE
22,5137
SÍNDROME FÊMUROPATELAR
22,0137
LUPUS ERITEMATOSO SISTÊMICO
20,01233
Ainda que tenhamos poucos dados para uma melhor verificação da relação entre
as médias de idade com o diagnóstico, a variabilidade do valor das médias é muito
grande para desconsiderarmos a idade como fator importante no nosso modelo
preditivo.
Antes de analisarmos a relação da ocupação do diagnóstico do paciente com sua
ocupação, devemos levar em consideração a relação da sua ocupação com sua idade,
caso usemos a idade como uma das variáveis em nosso modelo de predição.
Especialmente se levarmos em consideração a existência da ocupação
aposentado, que tem uma relação grande com a idade do paciente e não necessariamente
com sua atividade profissional até o momento de sua aposentadoria. A média de idade
10
dos aposentados no conjunto proposto é de 69 anos com desvio padrão de 9,12 com um
total de cinco amostras.
Além disso, a classificação aposentado é a segunda mais freqüente na base e irá
afetar uma grande quantidade de dados.
Temos na tabela abaixo a distribuição de registros por profissão:
PROFISSÃO
QUANTIDADE
DO LAR
12
APOSENTADO
5
FUNC PÚBLICO
3
ESTUDANTE
3
COMERCIANTE
3
SERVENTE
2
MOTORISTA
2
BANCARIO
1
COSTUREIRO
1
FOTÓGRAFO
1
PESCADOR
1
FAXINEIRO
1
GARÇOM
1
ADVOGADO
1
OPERARIO
1
DIGITADOR
1
AUX ADMINISTRATIVO
1
Outro fator a observar a respeito da profissão é a relação de cada profissão com
um determinado diagnóstico.
Analisando a relação que a profissão ‘DO LAR’ tem com os vários diagnósticos,
observamos que esta categoria responde por 4 dos 6 casos de artrite reumatóide,
enquanto os outros 8 profissionais desta categoria estão espalhados em outros 7 outros
diagnósticos diferentes. Isso poderia sugerir que a profissão ‘DO LAR’ tem alguma
11
relação com o diagnóstico, contudo temos poucos dados para verificar isto. Porém para
todos os casos, o paciente era mulher e como veremos em seguida este diagnóstico
indica estar mais ligado ao sexo do que à ocupação profissional.
Dados os problemas citados, desconsideraremos a profissão em nosso modelo
preditivo.
Para o sexo, observamos que 5 dos 6 casos de ‘atrite reumatóide’ ocorreram em
mulher, levando-nos a constatar uma forte ligação entre o sexo e este relatório em
específico. Outro caso foi o de ‘fibromialgia’, onde todos os 3 casos diagnosticados
foram com mulheres. Isso, somado ao fato 37,5% dos pacientes serem homens indica
que existe uma relação do sexo na predição do diagnóstico, portanto aceitamos usar esta
variável em nosso modelo de predição.
Alguns sintomas e exames da base de dados original não apareceram em
nenhum diagnóstico e foram excluídos dos dados que serão usados na modelagem.
Outros campos foram excluídos por não contribuírem com a solução do problema:
PROFISSAO, MEDICO, RESIDENCIA, LOCALCONS.
Finalmente, os campos NASC_APARENTE e DATA_CONSULTA foram
transformados em IDADE_APARENTE este é um campo discreto resultante das
diferenças de datas DATA_CONSULTA e NASC_APARENTE.
7.3. Coleta de Dados Complementares
A partir dos dados resultantes do tratamento anterior, serão selecionados os
dados para a montagem de um novo questionário. Serão selecionados diagnósticos
específicos e seus respectivos padrões e a partir daí coletados dados destes para o
enriquecimento dos dados de treinamento e testes.
7.4. Treinamento e Testes
Serão selecionadas as redes neurais a serem estudadas, aplicados os padrões de
treinamento, testes e avaliados os resultados.
12
7.5. Comparações
Serão comparados os resultados dos testes bem como a qualidade dos mesmos
8. Conclusão
Será feita uma análise crítica do estudo realizado.
13
9. Referências Bibliográficas
AZEVEDO, Fernando M. et al. Redes neurais com aplicações em controle e sistemas
especialistas. Visual Books, Ago/2000.
BARBETTA, Pedro A. Estatística aplicada às ciências sociais. 5ª edição revisada,
Editora da UFSC, 2002
CARVALHO, Lucimar F. et al. Redes neurais artificiais auto-organizáveis utilizadas na
classificação de crises convulsivas.
MASSAD, Marin. O prontuário eletrônico do paciente na assistência, informação e
conhecimento médico.Azevedo Neto editores OPAS/OMS 2003
14
10.Anexos
15
FICHA DO PACIENTE
I - IDENTIFICAÇÃO
NOME (as letras iniciais):
SEXO: M( ) F( )
PROFISSÃO:
IDADE ou DATA NASC:
CIDADE ONDE RESIDE:
Para os quesitos II a V, favor preceder o dado com as seguintes informações: data do
evento e se o evento é uma consulta ou retorno; por exemplo:
consulta(01/01/2001), retorno(14/01/2001)
II – SINTOMAS CLÍNICOS (Descrever sucintamente apenas dados clínicos
retirados da anamnese, tais como: dores articulares, dores musculares,
inflamação articular, rigidez articular, etc.)
______________________________________________________________________
_______________________________________________________
III – SINAIS CLÍNICOS (Descrever os achados do exame físico que sejam
importantes para o diagnóstico, tais como: artrite de punho, dor e diminuição da
amplitude da art. do ombro do exame, cianose de mãos e dedos, etc.)
______________________________________________________________________
_____________________________________________________
IV – RESULTADOS DE EXAMES COMPLEMENTARES (Oferecer resultados
de exames complementares, tais como: Látex = 80, FAN = 1/180, VHS = 35,
Teste patergia +, Estenose de volva mitral ao ecocardiograma, Presença de
cristais de monurato de sódio no líquido sinovial, etc.)
______________________________________________________________________
____________________________________
V – DIAGNÓSTICO (Oferecer um ou mais conforme o caso e esclarecer de
conclusivo ou provável. Os casos em que não haja um diagnóstico conclusivo
ou provável, declarar como inconclusível)
______________________________________________________________________
______________________________________
Obs: Se possível oferecer um telefone para contato (do médico) para o caso de
necessitar esclarecer algum dado não compreendido pelo analista:
Contato: Nome:______________, Fone: ________________.
16
Download