UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA SISTEMAS DE INFORMAÇÃO O Uso de Redes Neurais no Diagnóstico de Doenças Reumatológicas Cristiano Gonçalves e Souza Lelia de Mello Tostes Orientador – Prof Dr. Jovelino Falqueto Co-orientador – Prof Msc Vidal de Souza Florianópolis, Junho de 2004 Visto de Aceitação do Documento _______________________________________ Orientador – Prof. Dr. Jovelino Falqueto ________________________________________ Co-orientador – Prof. Msc. Vidal de Souza _________________________________________ Membro da Banca - Profa. Dra. Silvia Nassar 2 SUMÁRIO O Uso de Redes Neurais no Diagnóstico de Doenças Reumatológicas ........................... 4 1. Tema ......................................................................................................................... 4 2. Delimitação Do Tema / Limitações ...................................................................... 4 3. Objetivo Geral ......................................................................................................... 4 4. Objetivos Específicos .............................................................................................. 4 5. Motivação / Justificativa ( s ) ................................................................................... 5 6. Ferramentas .............................................................................................................. 5 7. Metodologia de Trabalho........................................................................................ 6 7.1. Coleta de Dados ................................................................................................ 6 7.2. Pré-Processamento, Limpeza e Tratamento de Dados ..................................... 7 7.3. Coleta de Dados Complementares .................................................................. 12 7.4. Treinamento e Testes ...................................................................................... 12 7.5. Comparações .................................................................................................. 13 8. Conclusão ............................................................................................................... 13 9. Referências Bibliográficas ...................................................................................... 14 10. Anexos ................................................................................................................ 15 3 O Uso de Redes Neurais no Diagnóstico de Doenças Reumatológicas 1. Tema O uso de redes neurais como ferramenta para o diagnóstico de doenças reumáticas. 2. Delimitação Do Tema / Limitações Serão avaliados aspectos relacionados a coleta e pré-processamento dos dados para o treinamento, teste e validação de redes neurais, objetivando diagnosticar um conjunto de doenças reumáticas; bem como a qualidade destas redes (dado o porcentual de acertos ao serem aplicados novos dados a redes treinadas). Os dados a usados serão coletados a partir de questionários com médicos reumatologistas. A coleta e tratamento dos dados serão realizados entre abril e julho de 2004. O treinamento, teste, análise e comparações entre redes neurais serão realizados entre agosto e novembro de 2004. 3. Objetivo Geral Avaliar aspectos relacionados ao uso de redes neurais como ferramenta para o diagnóstico de doenças reumáticas. 4. Objetivos Específicos Planejar e realizar a coleta de dados de consultas para avaliar os padrões que levam a determinação de um diagnóstico médico Fazer o pré-processamento e limpeza dos dados coletados. Utilizar e avaliar o uso de redes neurais como ferramenta para o diagnóstico médico para um conjunto de doenças reumáticas. 4 5. Motivação / Justificativa ( s ) Vam Bemmel e cols (MASSAD) classifica o conhecimento médico em duas categorias básicas. O primeiro tipo de conhecimento médico baseia-se na literatura médica. O segundo tipo, o experiencial deriva de informações constantes de bases de dados dos pacientes, tais como o prontuário médico, ou em protocolos clínicos de procedimentos. A partir destes surge um terceiro tipo de conhecimento que deriva dos dois primeiros, ou seja, o conhecimento baseado em evidências disponíveis nas bases de conhecimento médico universal. Difere do primeiro nas evidências acumuladas ao longo do tempo e sumarizadas pelos processos adequados. Contudo difere do segundo tipo ao passo que o peso da experiência do especialista individualmente é minimizado e a decisão se baseia na associação entre as observações primárias e os resultados de certas decisões. Tendo em vista os pontos propostos anteriormente viemos propor o estudo do processo de descoberta do conhecimento, contudo o objetivo deste não se reduz ao conhecimento médico em si. Este estudo trata da aplicação de recursos tecnológicos de inteligência artificial, em específico redes neurais, aplicado à ciência médica no diagnóstico médico baseado no conhecimento experiencial de um conjunto de reumatologistas os quais colaboraram com o presente estudo. 6. Ferramentas O Levantamento de dados se dará em dois estágios. Num estágio Inicial será feito um questionário aberto baseado no prontuário médico, o qual será distribuído entre alguns médicos reumatologistas. Com base nestes dados iniciais serão escolhidos alguns diagnósticos os quais serão objetos de estudo. Após esta seleção será feito um segundo questionário, com questões fechadas também baseadas no prontuário médico, no intuito de enriquecer os dados iniciais. O armazenamento de dados será feito numa base dados FireBird 1.5 e ao cadastramentos, manipulação, pré processamento, limpeza e transformações necessárias 5 destes dados serão feitos com as ferramenta IBExpert v.2003.11.06, MiniTab 13.0 e Statistica 6.0 a medida do necessário. Usaremos a ferramenta de desenvolvimento Delphi 7.0 para a criação de uma RNA com retropropagação e possivelmente serão utilizados outros aplicativos existentes tais como o MatLab ou o SAS como ferramenta para a aplicação dos dados a diversas RNAs. 7. Metodologia de Trabalho Através de algoritmos de aprendizagem o computador pode apresentar um comportamento inteligente no reconhecimento de padrões. O uso destes algoritmos na área da saúde não é uma exceção; usado desde a locação de recursos hospitalares até a classificação de crises convulsivas ou ainda no diagnóstico médico de doenças. Este trabalho tem por objetivo estudar o uso de redes neurais artificiais (RNAs) no diagnóstico de doenças; desde a coleta de dados até a apresentação de um novo padrão de teste a uma RNA treinada. Neste caso, estes padrões serão compostos de um quadro sintomático, resultados de exames e dados de pacientes para o diagnóstico de doenças reumáticas. O projeto foi divido em várias etapas, como segue, visando dividir o problema em partes distintas, cada qual com sua devida importância e necessidade. 7.1. Coleta de Dados Os dados foram coletados através da aplicação de um questionário com questões abertas sobre dados do prontuário médico referentes a consultas de pacientes onde se chegou a um diagnóstico conclusivo. O Modelo do questionário se encontra em anexo (Anexo 1). A base de dados adotada para a coleta de dados se encontrava na forma de modelo relacional normalizado como apresentado na figura abaixo: 6 A partir do modelo relacional dado, foi montada uma tabela não normalizada, com granularidade referente a uma consulta com apenas um diagnóstico por consulta, com a coleção de sintomas e exames referentes a estes diagnósticos e dados gerais dos pacientes. 7.2. Pré-Processamento, Limpeza e Tratamento de Dados Após ter sido gerada a tabela resumindo os dados que serão utilizados neste estudo, é necessária que seja feito uma limpeza e um pré-processamento destes dados. Neste momento, temos um total de 40 casos para o estudo, o que em si é uma quantidade muito reduzida de dados, portanto uma base de dados muito pobre para qualquer análise. Deve ser levado em consideração na análise do modelo de que os dados estão sujeitos a esta limitação. 7 Ainda assim, para este estudo vale a pena categorizar ou agrupar os dados de diagnósticos para, existindo agrupamentos, nos concentramos nestes dados. Assim sendo, foi feita uma contagem de dados por diagnósticos conforme a tabela abaixo: DIAGNOSTICO QUANTIDADE ARTRITE REUMATÓIDE 6 OSTEOARTROSE (ARTROSE, OSTEOARTRITE) PRIMÁRIA 5 GOTA 3 FIBROMIALGIA 3 TENOSSINOVITE DUPUITREN (DEDO EM GATILHO) 2 SÍNDROME DO TÚNEL DO CARPO 2 LUPUS ERITEMATOSO SISTÊMICO 2 ESPONDILITE ANQUILOSANTE 2 EPICONDILITE LATERAL 2 TENOSSINOVITE DE QUERVEIN 1 TENDINITE DE OMBRO 1 SÍNDROME FÊMUROPATELAR 1 SÍNDORME DO IMPACTO EM OMBRO 1 POLIARTALGIA 1 OSTEOPOROSE 1 LOMBOCIATALGIA 1 FASCIITE PLANTAR 1 ERITEMA NODOSO 1 CAPSULITE ADESIVA DE OMBRO (OMBRO CONGELADO) 1 CÂNCER DE PULMÃO 1 BURSITE TROCANTÉRICA 1 BURSITE ANSERINA 1 Como podemos observar os dados apresentam-se muito dispersos, sendo que apenas quatro diagnósticos possuem mais de dois registros em nossa base de dados. Uma outra abordagem seria a de verificar a distribuição por Classe de Diagnóstico (fornecidas por um médico reumatologista), como observado abaixo: 8 CLASSE DO DIAGNÓSTICO QUANTIDADE PARTES MOLES 18 COLAGENOSA 8 DEGENERATIVA 5 MICROCRISTALINAS 3 INESPECIFICA 3 ESPONDILOARTROPATIAS SERO-NEGATIVA 2 OSTEOPOROSE 1 Neste caso, a divisão se dá por uma classificação médica, não necessariamente as várias doenças sigam um padrão semelhante distinguível como padrão de entrada de dados, portanto o uso destas categorias é questionável, porém merecedor de observação, pois a quantidade de dados por categoria é maior. Além disso, para este caso, a variável alvo passaria a ser Classe do Diagnóstico ao invés de Diagnóstico da Doença. A princípio nos ateremos ao objetivo principal, com a proposta de serem coletados mais dados concentrados em um subconjunto de diagnósticos a fim de enriquecer os dados para estes diagnósticos e apenas fazer um modelo preditivo para este subconjunto de dados, no intuito de observar o comportamento do modelo para este ambiente. Outros dados que valem a pena serem observados são a idade, o sexo do paciente e sua ocupação profissional, para verificar se estes dados devem ou não entrar no modelo de predição. Iniciaremos pela idade, observando sua distribuição nos diversos diagnósticos. A média calculada para a distribuição da idade é de 46 anos, com desvio padrão 16 em 40 casos registrados. Sua distribuição é próxima da Normal, com um pequeno desvio à direita. Podemos observar esta distribuição com a figura a seguir: Para verificar a influência que as idades podem ter sobre os variados diagnósticos, observamos a média de idade dos pacientes para cada diagnóstico: DIAGNÓSTICO CÂNCER DE PULMÃO MÉDIA DE IDADE 82,05479 9 TENDINITE DE OMBRO 74,04932 OSTEOPOROSE 74,04932 TENOSSINOVITE DUPUITREN (DEDO EM GATILHO) 62,0411 BURSITE TROCANTÉRICA 61,0411 OSTEOARTROSE (ARTROSE, OSTEOARTRITE) PRIMÁRIA 58,2389 BURSITE ANSERINA 54,03562 SÍNDROME DO TÚNEL DO CARPO 47,53151 SÍNDORME DO IMPACTO EM OMBRO 46,03014 POLIARTALGIA 45,03014 CAPSULITE ADESIVA DE OMBRO (OMBRO CONGELADO) 45,03014 FIBROMIALGIA 43,69589 ARTRITE REUMATÓIDE 43,52831 GOTA 42,69589 FASCIITE PLANTAR 41,0274 EPICONDILITE LATERAL 40,52603 LOMBOCIATALGIA 38,02466 TENOSSINOVITE DE QUERVEIN 34,02192 ERITEMA NODOSO 32,02192 ESPONDILITE ANQUILOSANTE 22,5137 SÍNDROME FÊMUROPATELAR 22,0137 LUPUS ERITEMATOSO SISTÊMICO 20,01233 Ainda que tenhamos poucos dados para uma melhor verificação da relação entre as médias de idade com o diagnóstico, a variabilidade do valor das médias é muito grande para desconsiderarmos a idade como fator importante no nosso modelo preditivo. Antes de analisarmos a relação da ocupação do diagnóstico do paciente com sua ocupação, devemos levar em consideração a relação da sua ocupação com sua idade, caso usemos a idade como uma das variáveis em nosso modelo de predição. Especialmente se levarmos em consideração a existência da ocupação aposentado, que tem uma relação grande com a idade do paciente e não necessariamente com sua atividade profissional até o momento de sua aposentadoria. A média de idade 10 dos aposentados no conjunto proposto é de 69 anos com desvio padrão de 9,12 com um total de cinco amostras. Além disso, a classificação aposentado é a segunda mais freqüente na base e irá afetar uma grande quantidade de dados. Temos na tabela abaixo a distribuição de registros por profissão: PROFISSÃO QUANTIDADE DO LAR 12 APOSENTADO 5 FUNC PÚBLICO 3 ESTUDANTE 3 COMERCIANTE 3 SERVENTE 2 MOTORISTA 2 BANCARIO 1 COSTUREIRO 1 FOTÓGRAFO 1 PESCADOR 1 FAXINEIRO 1 GARÇOM 1 ADVOGADO 1 OPERARIO 1 DIGITADOR 1 AUX ADMINISTRATIVO 1 Outro fator a observar a respeito da profissão é a relação de cada profissão com um determinado diagnóstico. Analisando a relação que a profissão ‘DO LAR’ tem com os vários diagnósticos, observamos que esta categoria responde por 4 dos 6 casos de artrite reumatóide, enquanto os outros 8 profissionais desta categoria estão espalhados em outros 7 outros diagnósticos diferentes. Isso poderia sugerir que a profissão ‘DO LAR’ tem alguma 11 relação com o diagnóstico, contudo temos poucos dados para verificar isto. Porém para todos os casos, o paciente era mulher e como veremos em seguida este diagnóstico indica estar mais ligado ao sexo do que à ocupação profissional. Dados os problemas citados, desconsideraremos a profissão em nosso modelo preditivo. Para o sexo, observamos que 5 dos 6 casos de ‘atrite reumatóide’ ocorreram em mulher, levando-nos a constatar uma forte ligação entre o sexo e este relatório em específico. Outro caso foi o de ‘fibromialgia’, onde todos os 3 casos diagnosticados foram com mulheres. Isso, somado ao fato 37,5% dos pacientes serem homens indica que existe uma relação do sexo na predição do diagnóstico, portanto aceitamos usar esta variável em nosso modelo de predição. Alguns sintomas e exames da base de dados original não apareceram em nenhum diagnóstico e foram excluídos dos dados que serão usados na modelagem. Outros campos foram excluídos por não contribuírem com a solução do problema: PROFISSAO, MEDICO, RESIDENCIA, LOCALCONS. Finalmente, os campos NASC_APARENTE e DATA_CONSULTA foram transformados em IDADE_APARENTE este é um campo discreto resultante das diferenças de datas DATA_CONSULTA e NASC_APARENTE. 7.3. Coleta de Dados Complementares A partir dos dados resultantes do tratamento anterior, serão selecionados os dados para a montagem de um novo questionário. Serão selecionados diagnósticos específicos e seus respectivos padrões e a partir daí coletados dados destes para o enriquecimento dos dados de treinamento e testes. 7.4. Treinamento e Testes Serão selecionadas as redes neurais a serem estudadas, aplicados os padrões de treinamento, testes e avaliados os resultados. 12 7.5. Comparações Serão comparados os resultados dos testes bem como a qualidade dos mesmos 8. Conclusão Será feita uma análise crítica do estudo realizado. 13 9. Referências Bibliográficas AZEVEDO, Fernando M. et al. Redes neurais com aplicações em controle e sistemas especialistas. Visual Books, Ago/2000. BARBETTA, Pedro A. Estatística aplicada às ciências sociais. 5ª edição revisada, Editora da UFSC, 2002 CARVALHO, Lucimar F. et al. Redes neurais artificiais auto-organizáveis utilizadas na classificação de crises convulsivas. MASSAD, Marin. O prontuário eletrônico do paciente na assistência, informação e conhecimento médico.Azevedo Neto editores OPAS/OMS 2003 14 10.Anexos 15 FICHA DO PACIENTE I - IDENTIFICAÇÃO NOME (as letras iniciais): SEXO: M( ) F( ) PROFISSÃO: IDADE ou DATA NASC: CIDADE ONDE RESIDE: Para os quesitos II a V, favor preceder o dado com as seguintes informações: data do evento e se o evento é uma consulta ou retorno; por exemplo: consulta(01/01/2001), retorno(14/01/2001) II – SINTOMAS CLÍNICOS (Descrever sucintamente apenas dados clínicos retirados da anamnese, tais como: dores articulares, dores musculares, inflamação articular, rigidez articular, etc.) ______________________________________________________________________ _______________________________________________________ III – SINAIS CLÍNICOS (Descrever os achados do exame físico que sejam importantes para o diagnóstico, tais como: artrite de punho, dor e diminuição da amplitude da art. do ombro do exame, cianose de mãos e dedos, etc.) ______________________________________________________________________ _____________________________________________________ IV – RESULTADOS DE EXAMES COMPLEMENTARES (Oferecer resultados de exames complementares, tais como: Látex = 80, FAN = 1/180, VHS = 35, Teste patergia +, Estenose de volva mitral ao ecocardiograma, Presença de cristais de monurato de sódio no líquido sinovial, etc.) ______________________________________________________________________ ____________________________________ V – DIAGNÓSTICO (Oferecer um ou mais conforme o caso e esclarecer de conclusivo ou provável. Os casos em que não haja um diagnóstico conclusivo ou provável, declarar como inconclusível) ______________________________________________________________________ ______________________________________ Obs: Se possível oferecer um telefone para contato (do médico) para o caso de necessitar esclarecer algum dado não compreendido pelo analista: Contato: Nome:______________, Fone: ________________. 16