Data mining na descoberta de padrões de sintomas com

Propaganda
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
Data mining na descoberta de padrões de sintomas com foco
no auxílio ao diagnóstico médico
Alexander Rivas de Melo Junior1, Márcio Palheta Piedade1
1
Ciência da Computação – Centro de Ensino Superior FUCAPI – CESF Manaus – AM
{alexanderrivasdemelo, marcio.palheta}@gmail.com
Abstract. Data mining is an area of computing where we seek to discover
useful knowledge from large masses of data. This article presents a model that
aims at extracting knowledge from a hospital database and use this knowledge
to support medical diagnosis. The model is based on the discovery of
association rules of symptoms, where groups of symptoms mined can
determine the possible diagnoses for patients in medical care. As a result of
the model, we noted the close relationship between symptoms and diagnoses,
which indicates that the proposed model can be used to assist in the diagnosis
of entry-level professionals, improving the quality of medical care.
Resumo. Mineração de dados é uma área da computação onde buscamos
descobrir conhecimentos úteis a partir de grandes massas de dados. Neste
artigo apresentamos um modelo que tem como objetivo a extração de
conhecimento de uma base de dados hospitalar e utilização desse
conhecimento para apoio ao diagnóstico médico. O modelo se baseia na
descoberta de regras de associação de sintomas, onde, grupos de sintomas
minerados podem determinar os possíveis diagnósticos para o paciente em
atendimento médico. Como resultado do modelo, evidenciamos a estreita
relação entre sintomas e diagnósticos, o que nos indica que o modelo
proposto pode ser utilizado para auxiliar no processo de diagnósticos de
profissionais iniciantes, melhorando a qualidade dos atendimentos.
1. Introdução
Hoje em dia é comum o uso de computadores para apoio às mais diversas atividades do
cotidiano. A esse fato, associamos a criação de grandes volumes de dados que precisam
ser analisados a fim de gerar conhecimento. No entanto, os tamanhos das massas de
dados ultrapassam os limites dos métodos tradicionais de análise, fazendo com que
informações preciosas sejam perdidas. Para solução deste problema são utilizadas
técnicas que auxiliam na análise e extração de conhecimento dos bancos de dados.
O processo de descoberta de conhecimento em banco de dados é chamado de
Knowledge Discovery in Databases – KDD, que foi proposto em 1989, cujo objetivo é
analisar os dados de uma base para que de alguma forma possa ser extraído
conhecimento útil (Fayyad, 1996).
Para a transformação dos dados em informações que possam ser úteis e
utilizadas para determinado fim ou tomada de decisão, é necessário que seja feita uma
análise dos dados por especialistas, que, se realizada utilizando técnicas tradicionais
demandariam muito tempo, seriam caras e subjetivas, tornando, assim, inviável a
utilização desse tipo de técnica, evidenciando a necessidade de automação do processo
Manaus, 25 a 27 de abril de 2013
1
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
ou de parte dele, já que é praticamente impossível uma análise de dados por seres
humanos, quando consideramos uma grande quantidade de informação (Fayyad, 1996).
O uso de suporte computacional no atendimento médico é comum nos dias de
hoje e gera grandes massas de dados com informações digitalizadas dos pacientes. Estas
massas de dados podem representar boas fontes de conhecimento, que pode ser utilizado
no ensino da medicina ou até mesmo no apoio ao diagnóstico médico (Costa, 2012). A
forma como os dados são utilizados também afeta diretamente o objetivo de cuidados
com a saúde do paciente. Se utilizados adequadamente, podem gerar informações que
ajudem na prevenção e combate às doenças (Lavrac, 2000).
Na busca constante pela melhoria do atendimento médico hospitalar, as técnicas
de mineração de dados estão sendo aplicadas nas bases de dados dos pacientes para
descoberta de padrões, seja como ferramenta para auxílio ao diagnóstico ou descobertas
que ajudem a alta direção hospitalar a tomar atitudes com relação aos resultados obtidos
(Robertson, 2012).
Os trabalhos de pesquisa aplicando o KDD na medicina ainda se apresentam em
estágio inicial, mas tem uma expectativa bastante grande, já que é esperado o
entendimento entre geração de dados e compreensão dos dados. Este entendimento é
primordial para que determinada tomada de decisão esteja apoiada aos conhecimentos
básicos da medicina (Collazos, 2000).
Este artigo consiste em descobrir a relação entre os padrões de sintomas de
pacientes, encontrados em uma base de dados médica, e os respectivos diagnósticos,
aplicando técnicas de mineração de dados.
Este processo foi dividido em quatro fases: 1) seleção dos dados da base de
acordo com o objetivo da pesquisa; 2) limpeza e eliminação de dados que não se
aplicavam ao estudo; 3) conversão dos dados obtidos para que fosse gerado um arquivo
base, que é necessário para o programa de mineração de dados e 4) utilização de
algoritmos de mineração aplicados à base de dados com a obtenção dos resultados.
Este trabalho está dividido em oito capítulos, onde: os capítulos 2 e 3 mostram
conceitos necessários ao entendimento do projeto, o capítulo 4 descreve os trabalhos
relacionados ao nosso, encontrados na literatura, o capítulo 5 apresenta a metodologia
utilizada, os capítulos 6 e 7 detalham o desenvolvimento do projeto, o capítulo 8
apresenta os resultados obtidos e no capítulo 9 realizamos a conclusão do trabalho e
descrevemos os trabalhos futuros.
A seguir, apresentamos definições importantes ao entendimento do trabalho.
2. KDD - Knowledge Discovery in Databases
Segundo Fayyad (1996), é um processo não trivial de identificações de novos padrões,
válidos e potencialmente úteis. Segundo Thomé (2002) é a busca de extração de
conhecimento de bases de dados utilizando-se de técnicas e algoritmos que realizam a
mineração dos dados para trabalhar e descobrir relações.
O processo de descoberta de conhecimento ocorre quando temos um conjunto de
padrões que são semelhantes, e que podem levar a construção de um modelo. Este
processo é formado por 5 etapas: seleção, pré-processamento, transformação, a
mineração de dados e a interpretação dos dados (Fayyad, 1996). Além do processo, o
Manaus, 25 a 27 de abril de 2013
2
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
conhecimento que se deseja buscar deve estar de acordo com três características: deve
ser correto, deve ser compreensível para o usuário e deve ter de alguma forma utilidade
para o usuário (Freitas, 2000).
Figura 1. Etapas do processo de KDD (Fayyad, 1996)
Inicialmente, precisamos definir que tipo de conhecimento se deseja extrair da
base de dados, pois a técnica que será utilizada para a mineração de dados depende do
objetivo a que se quer chegar (Damasceno de melo, 2010).
A seguir serão detalhadas as etapas do processo de KDD de acordo com o
apresentado na figura 1.
A etapa de seleção dos dados inicia com a definição do objetivo e mapeamento
dos grupos ou conjuntos de informações que serão utilizados.
O pré-processamento é responsável pelo tratamento de ruídos e dados
incompletos.
A transformação tem como objetivo selecionar as principais características que
serão utilizadas para representar os dados, ou seja, os dados devem ser selecionados de
modo que sejam os mais úteis para o modelo proposto.
A etapa de mineração de dados é o momento em que serão escolhidos os
algoritmos que mais se ajustam ao objetivo que se quer extrair da base de dados. Além
disso, nesta fase são escolhidos os melhores parâmetros para que, no momento do
processamento, os resultados sejam os mais rápidos e precisos possíveis.
Ao final do processo teremos a etapa de interpretação e avaliação dos resultados,
onde o conhecimento extraído da base de dados é representado por padrões.
3. Regras de associação e o algoritmo Apriori
Relacionada à necessidade de se obter informações úteis a partir de uma base de dados,
surge à técnica de regras de associação, que foi iniciada por Agrawal (1993) com
objetivo de encontrar padrões ou relacionamentos que são frequentes no conjunto de
dados que está sendo estudado, onde dado um item presente em uma transação implique
na presença de outro item na mesma transação.
Com isso, Agrawal (1993) propôs um modelo matemático, onde as regras de
associação devem atender a um suporte e confiança mínima especificada.
Em algoritmos de mineração de dados, suporte corresponde à frequência com
que os padrões ocorrem na base de dados, podendo ser descrito também como a
Manaus, 25 a 27 de abril de 2013
3
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
porcentagem de transações da base que contém os elementos A e B. A confiança é uma
medida da força das regras, podendo ser representada por: dentre as transações que
contém A, a porcentagem de transações que também contém B.
O suporte e a confiança aplicados às regras descobertas são de grande
importância para o processo, pois somente as regras de associação com alto grau de
confiança e suporte são consideradas regras de associação forte.
O algoritmo Apriori é um dos mais conhecidos para mineração por regras de
associação (Engel, 2002), foi desenvolvido pela equipe de pesquisa do Projeto QUEST
da IBM originando o Software Intelligent Miner, é um algoritmo que resolve o
problema da mineração de conjuntos de itens frequentes, realizando recursivas buscas
no banco de dados (Amo, 2010).
O Apriori é dividido em três fases: (1) geração dos itens candidatos; (2) poda
dos candidatos; (3) fase de cálculo do suporte. Possui propriedades que otimizam seu
desempenho, como por exemplo, a antimonotonia que afirma que para um determinado
item ser frequente, todos os seus subconjuntos também devem ser. Esta propriedade
implica diretamente na diminuição do tempo de execução, pois se determinado item não
é frequente, não será necessário que seja calculado o suporte do conjunto a que o item
pertence. (Amo, 2010)
Como resultado o algoritmo obtêm regras de associações do tipo: se A então B,
representado por A → B, onde A e B, no caso da pesquisa, são os sintomas dos
pacientes. Esta relação forma uma regra, em que dado um sintoma A o paciente também
apresenta o sintoma B (Amo, 2010).
4. Trabalhos relacionados
Collazos (2000) apresentou em seu trabalho “Análise do Prontuário médico para a
utilização com KDD”, uma avaliação de que tipos de dados médicos podem ser
utilizados para a aplicação do KDD. Durante o estudo, foram selecionados vários tipos
de prontuários médicos com o intuito de verificar se os dados presentes nestes
formulários poderiam ser utilizados para realizar uma avaliação clínica do paciente.
Todos os formulários selecionados dependem do tipo de diagnóstico que se pretende
avaliar. Foi verificado que em um dos formulários os casos associados são
extremamente raros e que é extremamente difícil obter informações nestas situações por
terem informações faltantes. Como resultado, foi verificado que quanto mais detalhadas
e específicas as informações relacionadas ao diagnóstico, fica mais fácil a utilização
dessas informações em um processo de KDD.
Costa (2012) apresentou em seu trabalho “Mineração de Imagens Médica
Utilizando Características de Forma *”, uma forma de utilizar técnicas de mineração de
dados no apoio ao diagnóstico médico com auxilio computacional. No estudo, a
mineração de dados é aplicada em imagens médicas para extração do conhecimento
com o foco no apoio ao diagnóstico médico. As características das imagens são
extraídas e organizadas em vetores que representam cada imagem no processo de
classificação de dados.
Durante o desenvolvimento do trabalho de Costa (2012) foram feitas duas
contribuições: (1) a criação de uma técnica de extração de características chamada FFS
(Fast Fractal Stack), que emprega uma análise fractal, indicando o nível de
Manaus, 25 a 27 de abril de 2013
4
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
complexidade de contornos e objetos de uma imagem, tendo como resultado um vetor
de características da imagem com alta capacidade de descrição; (2) um classificador
associativo denominado de Concept, que utiliza o algoritmo apriori para mineração de
regras de associação das características das imagens, retornando uma sugestão de classe
que a imagem se enquadra.
Steiner (2004) apresentou em seu trabalho “Data mining como suporte à tomada
de decisões – Uma aplicação no diagnóstico médico” a utilização de técnicas de
classificação, com o objetivo de diferenciar casos de pacientes com obstrução biliar por
cálculo e obstrução biliar por câncer. Para a realização do estudo foi utilizada uma base
de dados com informações de pacientes com os diagnósticos do estudo e mais 14
resultados de exames clínicos sugeridos pelos especialistas da área para a mineração dos
dados. O autor utilizou seis técnicas de mineração de dados, sendo três delas utilizando
árvores de decisão e as outras três utilizando regras de classificação em dois conjuntos
de dados, sendo o primeiro utilizado para treinamento e o segundo para testes. Como
resultado obtido, todas as técnicas apresentaram resultados positivos e satisfatórios
podendo ser utilizados em sistemas computacionais, como ferramenta de apoio ao
diagnóstico realizado pelo especialista.
Até onde pudemos observar, nenhum trabalho anterior estudou métodos de
suporte ao diagnostico médico a partir de informações referentes aos sintomas dos
pacientes. Neste sentido, nosso trabalho é distinto de todos os que observamos na
literatura.
5. Metodologia
A realização desta pesquisa envolveu as seguintes etapas:
A primeira etapa do trabalho foi baseada na revisão bibliográfica da literatura,
para determinar outras pesquisas similares a esta, onde são aplicadas as técnicas de
mineração de dados em bases de dados médicas para descoberta de conhecimento, que
de alguma forma possam auxiliar em diagnósticos do médico especialista.
Na segunda etapa, ocorreu a obtenção da base de dados médica contendo
registros de atendimentos médicos com, exclusivamente, informações de atendimento e
sintomas do paciente. Nenhum dado que pudesse identificar o paciente sobre qualquer
circunstância foi utilizado durante a pesquisa. A pesquisa utilizou atendimentos de
pacientes armazenados em um banco de dados, de onde extraímos as associações entre
sintomas de pacientes e seus diagnósticos.
Na terceira etapa ocorreu a extração, manutenção e pré-processamento dos
dados, onde foi realizada análise da base de dados e extraídas informações de
atendimentos de pacientes necessárias à pesquisa. Todos os dados passaram por um
processo de normalização, onde os sintomas relacionados foram dispostos em uma
única linha e os dados ausentes tiveram seu preenchimento realizado de forma padrão
utilizando o símbolo “?”.
Na quarta etapa, ocorreu a execução do algoritmo Apriori, pois apresenta
resultados que mais se aproximam do desejado e a extração da informação propriamente
dita. Esta etapa do processo teve como objetivo encontrar padrões na base de dados que
foi pré-processada, utilizando a ferramenta de mineração de dados chamada WEKA, um
Manaus, 25 a 27 de abril de 2013
5
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
software open-source largamente utilizada por implementar diversos algoritmos de
mineração de dados (Hall, 2009).
A quinta e última etapa do processo foi a análise dos resultados obtidos com a
aplicação do algoritmo de mineração de dados. O objetivo principal foi encontrar regras
de associação que nos mostrassem as relações entre os sintomas de pacientes,
qualificando o quanto um sintoma implica na presença de outro sintoma, formando
assim grupos de sintomas que podem representar um diagnóstico especifico, por
exemplo, casos em que apresentam o sintoma Cefaleia também apresentam o sintoma
Febre e podem estar relacionados ao diagnóstico de virose, pois, existe uma quantidade
significativa de atendimentos de pacientes diagnosticados com virose, apresentando os
sintomas de Febre e Cefaleia simultaneamente.
Assim como Costa (2012), este trabalho também fez a utilização do algoritmo
Apriori, mas de forma diferenciada, aplicado aos sintomas dos pacientes com o objetivo
de gerar regras de associação de sintomas e posteriormente relacioná-los aos
diagnósticos dos atendimentos.
6. Base de dados
A base de dados utilizada no desenvolvimento do estudo é uma base de dados
hospitalar, privada, com ocorrências de atendimentos médicos registrados na cidade de
Manaus - AM, contendo apenas informações referentes a diagnósticos e sintomas. Para
tornar a base de dados consistente e ter um melhor aproveitamento das informações,
foram aplicados filtros para que não houvesse informações duplicadas ou que de alguma
forma possam impactar diretamente nos resultados. Dentre todos os registros da base de
dados, foram utilizados somente os dados de atendimento com as seguintes
características somadas: os que não foram cancelados ou invalidados, os que têm
informações de sintomas associados e os que tenham pelo menos um diagnóstico
definido, resultando em um total de 1600 ocorrências de atendimentos para o estudo.
7. Processamento dos dados e montagem do arquivo ARFF
Uma das principais fases do processo de mineração de dados está relacionada ao
processamento dos dados, esta seção descreve o modo como os dados foram levantados
e como foram organizados para serem aceitos pela aplicação mineradora.
Na extração dos dados foi desenvolvido um script em Python utilizando a
ferramenta Aptana, uma ferramenta de código aberto que suporta a linguagem. Os dados
foram extraídos através do script que realizava consultas SQL na base de dados e os
manipulava para que o arquivo resultante seja exatamente no formato ARFF, que é o
aceito pela ferramenta WEKA, utilizada para realizar a mineração de dados.
O algoritmo monta inicialmente uma tupla contendo todos os sintomas possíveis
de serem utilizados em um atendimento, em outra tupla são atribuídos os registros de
atendimentos que seguiam as características definidas no tópico anterior. Para cada
atendimento realizado eram dispostos na mesma linha todos os possíveis sintomas, mas
somente os que estavam relacionados com o atendimento eram marcados com um
identificador “S”, para todos os outros sintomas que não faziam parte da lista de
sintomas do atendimento foi atribuído o símbolo”?”, representando que o mesmo não
faz parte da lista de sintomas definido para aquele atendimento especifico. O modelo do
arquivo gerado pode ser visualizado na figura 2.
Manaus, 25 a 27 de abril de 2013
6
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
Figura 2. Exemplo da estrutura gerada pelo script no formato ARFF
Após a criação do arquivo ARFF, executamos o WEKA (Hall 2009) para
executar o algoritmo Apriori em nossa base de dados, a fim de identificar que regras de
associação que poderiam ser extraídas, conforme a figura 3.
Figura 3. Resultados da ferramenta WEKA obtidos após o processamento
8. Resultados obtidos
Nesta seção descrevemos os resultados obtidos pela execução do modelo proposto.
A tabela 1 mostra o resultado do processamento do algoritmo Apriori, no
processo foi considerado grau mínimo de suporte a 10% e confiança a 90% aplicado a
nossa base de dados hospitalar, definido como significativo, fazendo uso da ferramenta
de mineração de dados WEKA.
Tabela 1. Regras de associação obtidas após mineração dos dados
Regra
Grupo 1
Qtde
Grupo 2
1 Calafrios;Mialgia
193 → Febre
2 Calafrios;Mialgia;Cefaléia 177 → Febre
3 Calafrios;Cefaléia
235 → Febre
4 Calafrios
274 → Febre
5 Artralgia
178 → Febre
6 Cefaléia;Mialgia
240 → Febre
Manaus, 25 a 27 de abril de 2013
7
Qtde Suporte(%) Confiança(%)
191
11,94
99
175
10,94
99
231
14,45
98
267
16,70
97
173
10,82
97
233
14,57
97
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
7
8
9
10
Mialgia
Calafrios;Mialgia
Febre;Calafrios;Mialgia
Calafrios;Mialgia
270
193
191
193
→ Febre
→ Cefaléia
→ Cefaléia
→ Febre;Cefaléia
258
177
175
175
16,14
11,07
10,94
10,94
96
92
92
91
A seguir o detalhamento dos resultados a partir da execução do algoritmo
Apriori conforme a Tabela 1:
1. De todos os atendimentos realizados, em 11,94% o sintoma Febre está
relacionado aos sintomas Calafrio e Mialgia. Sendo que, para todos os
atendimentos que apresentavam Calafrios e Mialgia, 99% também apresentavam
o sintoma Febre.
2. De todos os atendimentos realizados, em 10,94% o sintoma Febre está
relacionado aos sintomas Calafrio, Mialgia e Cefaleia. Sendo que, para todos os
atendimentos que apresentavam Calafrio, Mialgia e Cefaleia, 99% também
apresentavam o sintoma Febre.
3. De todos os atendimentos realizados, em 14,45% o sintoma Febre está
relacionado aos sintomas Calafrio e Cefaleia. Sendo que, para todos os
atendimentos que apresentavam Calafrio e Cefaleia, em 98% também
apresentavam o sintoma Febre.
4. De todos os atendimentos realizados, em 16,70% o sintoma Febre está
relacionado ao sintoma Calafrio. Sendo que, para todos os atendimentos que
apresentavam Calafrio, em 97% também apresentavam o sintoma Febre.
5. De todos os atendimentos realizados, em 10,82% o sintoma Febre está
relacionado ao sintoma Artralgia. Sendo que, para todos os atendimentos que
apresentavam Artralgia, em 97% também apresentavam o sintoma Febre.
6. De todos os atendimentos realizados, em 14,57% o sintoma Febre está
relacionado aos sintomas Cefaleia e Mialgia. Sendo que, para todos os
atendimentos que apresentavam Cefaleia e Mialgia, em 97% também
apresentavam o sintoma Febre.
7. De todos os atendimentos realizados, em 16,14% o sintoma Febre está
relacionado ao sintoma Mialgia. Sendo que, para todos os atendimentos que
apresentavam Mialgia, em 96% também apresentavam o sintoma Febre.
8. De todos os atendimentos realizados, em 11,07% o sintoma Cefaleia está
relacionado aos sintomas Calafrio e Mialgia. Sendo que, para todos os
atendimentos que apresentavam Calafrio e Mialgia, em 92% também
apresentava o sintoma Cefaleia.
9. De todos os atendimentos realizados, em 10,94% o sintoma Cefaleia está
relacionado com os sintomas Febre, Calafrio e Mialgia. Sendo que, para todos os
atendimentos que apresentavam Febre, Calafrios e Mialgia, em 92% também
apresentava o sintoma Cefaleia.
10. De todos os atendimentos realizados, em 10,94% os sintomas Febre e Cefaleia
estão relacionados aos sintomas Calafrio e Mialgia. Sendo que, para todos os
atendimentos que apresentavam Calafrio e Mialgia, em 91% também
apresentavam os sintomas Febre e Cefaleia.
Manaus, 25 a 27 de abril de 2013
8
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
Com base nos resultados obtidos, verificamos que vários sintomas se repetem
nas regras encontradas, pode ser observado que existe uma regra mais completa no
estudo, a de número 10, selecionada para ser cruzada com as informações de
atendimentos e diagnósticos contidos na base. Este relacionamento de informações foi
realizado com uma consulta na base de dados selecionando todos os atendimentos que
apresentavam os sintomas: Calafrios, Mialgia, Febre e Cefaleia.
Do cruzamento entre os sintomas da regra selecionada e os diagnósticos dos
atendimentos, foram encontrados os seguintes resultados:
1. 46,25% dos atendimentos estão associados a casos de doenças relacionadas a
Protozoários, como por exemplo, algum tipo de diagnóstico de malária.
2. 22,25% dos atendimentos estão associados a casos de doenças relacionadas ao
Vírus da dengue.
3. 31,5% dos atendimentos estão relacionados a outros diagnósticos.
Ao analisar os resultados obtidos pode ser observado que, os diagnósticos
encontrados apresentam valores significativos com suporte mínimo de 10% e confiança
mínima de 90%. No estudo de caso temos o grupo de sintomas Calafrios, Mialgia, Febre
e Cefaleia com as maiores porcentagens de atendimentos para diagnósticos de Malaria e
Dengue, que se somados equivalem a 68,5% de todos os atendimentos analisados, ou
seja, estes diagnósticos podem ser sugeridos ao especialista como possíveis diagnósticos
do paciente baseado nos casos anteriores verificados na base de dados.
Com base no estudo realizado por Engel (2002) um dos pontos críticos do
algoritmo Apriori é a geração de conjunto de itens candidatos para a passagem sobre o
banco de dados, que é executada no início de cada passagem, seu desempenho melhora
apenas quando grande parte dos conjuntos de itens candidatos torna-se frequente, ou
seja, é necessário que a média de itens por transação seja alta.
A geração dos conjuntos de dados se torna mais crítica onde à razão entre itens
frequentes e itens candidatos é menor. No nosso estudo, os pacientes apresentam uma
quantidade limitada de sintomas em cada atendimento, uma média de quatro, por este
motivo o custo de execução do algoritmo para a base de dados no estudo cresce à
medida que a quantidade de atendimentos dos pacientes a serem analisados aumenta
considerando que média de sintomas permaneça baixa. Caso a quantidade média de
sintomas mude e cresça, o custo será compensado, permitindo a aplicação do algoritmo
para grandes bases de dados com transação similar.
9. Conclusão e trabalhos futuros
Na primeira parte do trabalho foi possível identificar, utilizando técnicas de mineração
de dados, quais combinações de sintomas são mais comuns em pacientes da base de
dados. A partir dos grupos de sintomas, realizamos um estudo para identificar quais
diagnósticos estão mais relacionados aos grupos de sintomas. Este modelo pode servir
de suporte ao diagnostico médico, onde, para determinado grupo de sintomas
apresentados pelo paciente no momento de sua consulta pode ser sugerido os
diagnósticos de mais relevância, tornando assim o atendimento do paciente mais rápido
e de melhor qualidade, auxiliando principalmente os médicos especialistas que tiveram
seu ingresso recente aos atendimentos de pacientes.
Manaus, 25 a 27 de abril de 2013
9
ISSN 2238-5096 (CDR)
Anais do Encontro Regional de Computaۥo e Sistemas de Informaۥo
Para trabalhos futuros pretendemos explorar algoritmos de agrupamento para
identificar os grupos de sintomas existentes e comparar os resultados com o modelo
atual, verificando se ao utilizar técnicas de agrupamento de sintomas teremos resultados
mais precisos com relação ao diagnóstico.
10. Bibliografia
Agrawal, R. & Imielinski, T. & Swami, A. (1993). “Mining Association between Sets
of Items in Massive Databases.” In ACM SIGMOD Record (Vol. 22, No. 2, pp. 207216). ACM.
Amo, Sandra (2010) Curso de Data Mining – Aula 2 – Mineração de Regras de
Associação – O algoritmo APRIORI.
Collazos, K., Barreto, J. M., & Pellegrini, G. F. (2000). "Análise do Prontuário médico
para a utilização com KDD". CONGRESSO BRASILEIRO DE INFORMÁTICA EM
SAÚDE–CBIS.
Costa, A. F., & Traina, A. J. M. (2012). "Mineração de Imagens Médicas Utilizando
Características de Forma".
Damasceno de Melo, M. (2010). "Introdução à Mineração de Dados usando o Weka". V
CONNEPI-2010.
Engel, P. M., & Camargo, S. D. S. (2002). “MiRABIT: um novo algoritmo para
mineração de regras de associação”. In VIII Congreso Argentino de Ciencias de la
Computación.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). "From data mining to
knowledge discovery in databases". AI magazine, 17(3), 37.
Freitas, A. A. (2000) "Uma Introdução a Data Mining.Informática Brasileira em
Análise". CESAR - Centro de Estudos e Sistemas Avançados do Recife. Ano II, n.
32, mai./jun. 2000.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009).
The WEKA data mining software: an update. ACM SIGKDD Explorations
Newsletter, 11(1), 10-18
Lavrac, N., Keravnou, E., & Zupan, B. (2000). "Intelligent data analysis in
medicine". Encyclopedia of computer science and technology, 42(9), 113-157.
Robertson, J. (2012). "Data-Mining in Doctor's Office Helps Solve Medical Mysteries",
http://www.businessweek.com/news/2012-05-15/data-mining-in-doctors-officehelps-solve-medical-mysteries, Março de 2013.
Steiner, M. T. A., Soma, N. Y., Shimizu, T., Nievola, J. C., LOPES, F., & Smiderle, A.
(2004). "Data-Mining como Suporte à Tomada de Decisões-uma Aplicação no
Diagnóstico Médico". XXXVI SIMPÓSIO BRASILEIRO DE PESQUISA
OPERACIONAL," O IMPACTO DA PESQUISA OPERACIONAL NAS NOVAS
TENDÊNCIAS MULTIDISCIPLINARES, 23, 96-107.
Thomé, Antônio Carlos G. (2002) "Redes neurais: uma ferramenta para KDD e data
mining". Rio de Janeiro: Universidade Federal do Rio de Janeiro.
Manaus, 25 a 27 de abril de 2013
10
ISSN 2238-5096 (CDR)
Download