UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA Luiz Carlos Ferreira Rodrigues DETECÇÃO E CLASSIFICAÇÃO DE ARRITMIAS EM ELETROCARDIOGRAMAS USANDO TRANSFORMADAS WAVELETS, MÁQUINAS DE VETORES DE SUPORTE E REDE BAYESIANA São Paulo 2012 UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA Luiz Carlos Ferreira Rodrigues DETECÇÃO E CLASSIFICAÇÃO DE ARRITMIAS EM ELETROCARDIOGRAMAS USANDO TRANSFORMADAS WAVELETS, MÁQUINAS DE VETORES DE SUPORTE E REDE BAYESIANA Dissertação apresentada ao Programa de PósGraduação em Engenharia Elétrica da Universidade Presbiteriana Mackenzie, como requisito parcial à obtenção do tı́tulo de Mestre em Engenharia Elétrica na Área de Concentração em Engenharia de Computação. Orientador: Prof. Dr. Maurı́cio Marengoni São Paulo 2012 R696d Rodrigues, Luiz Carlos Ferreira. Detecção e classificação de arritmias em eletrocardiogramas usando transformadas wavelets,máquinas de vetores de suporte e rede Bayesiana./ Luiz Carlos Ferreira Rodrigues. - 2012 89 f. : il.; 30 cm. Dissertação (Mestrado em Engenharia Elétrica)Universidade Presbiteriana Mackenzie, São Paulo, 2012. Bibliografia: f. 76-81. 1. ECG. 2. Complexo QRS. 3. Wavelets. 4. SVM. 5. Rede Bayesiana. I. Tı́tulo. CDD 621.3 LUIZ CARLOS FERREIRA RODRIGUES DETECÇÃO E CLASSIFICAÇÃO DE ARRITMIAS EM ELETROCARDIOGRAMAS USANDO TRANSFORMADA WAVELET, MÁQUINA DE VETORES DE SUPORTE E REDE BAYESIANA Dissertação apresentada ao Programa de PósGraduação em Engenharia Elétrica da Universidade Presbiteriana Mackenzie, como requisito parcial à obtenção do tı́tulo de Mestre em Engenharia Elétrica, na Área de Concentração em Engenharia de Computação. Aprovado em 02 de Março de 2012 BANCA EXAMINADORA Prof. Dr. Maurı́cio Marengoni - Orientador Universidade Presbiteriana Mackenzie Prof. Dr. Paulo Batista Lopes - Membro interno Universidade Presbiteriana Mackenzie Prof. Dr. Carlos Eduardo Thomaz - Membro externo Faculdade de Engenharia Industrial Às irmãs, Altamira (in memorian) e Maria Ferreira. À minha esposa Eunice, pelo carinho e paciência . em todos esses anos. AGRADECIMENTOS Ao Dr. Maurı́cio Marengoni, minha profunda gratidão pela condução segura do desenvolvimento deste trabalho e pelas suas idéias, sugestões e correções no decorrer do trabalho. Ao Dr.Carlos Eduardo Thomaz pelos valiosos comentários, sugestões, correções e desafios feitos no decorrer da banca de qualificação. Seu desafio na detecção de complexos QRS deu origem a minha primeira publicação cientı́fica. Aos professores do curso de Mestrado em Engenharia Elétrica do Instituto Presbiteriano Mackenzie: Dr. Luiz Monteiro, Dr. Leandro Castro Silva, Dr. Pedro Paulo B. Oliveira, Dr. Paulo Batista Lopes além das professoras Dra . Sandra Stump, Dra Pollyana e do professor Dr. Nizam Omar, meus sinceros agradecimentos. É um grande privilégio tê-los como mestres. Á Professora Maria Ferreira, minha tia, formadora de gerações e grande incentivadora do saber. Aos meus queridos irmãos, Zeca, Fátima, Carlito e Mário pelo carinho e amizade por toda uma vida. A todos aqueles que, mesmo não citados aqui, contribuı́ram de forma direta ou indireta na elaboração deste estudo. RESUMO As cardiopatias são atualmente, segundo o Ministério da Saúde, a segunda maior causa de mortalidade entre brasileiros, ficando atrás apenas das doenças cerebrovasculares. A motivação do trabalho aqui apresentado é a identificação e classificação de cardiopatias registradas em exames de Eletrocardiograma, o ECG, tais como contrações prematuras, bloqueio de ramos, taquicardias e outros distúrbios de ritmo. Devido a sua fácil aplicação e baixo custo, o ECG é um dos recursos mais largamente utilizados por pesquisadores e profissionais da saúde na avaliação da saúde do coração. A aplicação computacional desenvolvida neste estudo concentra-se no uso de Transformadas Wavelets para o processamento digital dos sinais de ECG, na extração das caracterı́sticas morfológicas, dinâmicas e espectrais de ciclos do sinal e na submissão dessas caracterı́sticas a duas Máquinas de Vetores de Suporte (SVM). Os resultados das SVM’s são combinadas em uma Rede Bayesiana para a identificação e classificação das cardiopatias. As caracterı́sticas morfológicas de cada ciclo do sinal são extraı́das através de Análise de Componentes Principais (PCA), as caracterı́sticas espectrais são extraı́das através da decomposição do sinal em coeficientes de Transformadas Wavelets enquanto as caracterı́sticas dinâmicas são definidas pelos intervalos entre o máximo global de cada ciclo. Para desenvolvimento, testes e validação da aplicação foi utilizado o Banco de Arritmias MIT-BIH, disponibilizado pelo Massachusetts Institute of Technology (MIT). Neste trabalho demonstramos que a aplicação desenvolvida é capaz de reconhecer e classificar 8 tipos de batimentos cardı́acos em registros de ECG, com uma acurácia média total de classificação superior a 95,0% Palavras-chave: ECG, Complexo QRS, Wavelets, SVM, Rede Bayesiana. ABSTRACT The cardiopathies are currently, according the Ministério da Saúde, the second biggest cause of mortality among the Brazilians, behind only the brain vascular diseases. The motivation for the work here presented is the identification and classification of cardiopathies registered in Electrocardiogram exams, ECG, such as premature contractions, branches blocks, tachycardia and other rhythms disturbance. Due its easy application and low cost, the ECG is one of the resources more commonly used by researchers and health professionals in the assessment of cardiac conditions. The computational application developed in this study relies in the application of Wavelets Transforms for the digital signal processing of ECG, in extracting the morphologic characteristics, dynamics and spectral of the cycles of the signal and in the submission of these characteristics to two Support Vector Machines (SVM). The output of these two SVM’s are combined as input to a Bayesian Network for the identification and classification of the cardiopathies. The characteristic of each cycle, morphologic and spectral, has it dimensionality reduced by Principal Component Analysis (PCA). The spectral characteristics are extracted by the extractions of the Wavelets Transforms coefficients of the signal, whilst the dynamics characteristics are defined by the interval between the global maxima of each cycle. For development, testings and validations of the application we utilize the MIT-BIH Arrhythmia database, made available by Massachusetts Institute of Technology (MIT). At the end of this work we demonstrate that the application is able to recognize and classify 8 types of heart beats in ECG records, with an medium accuracy above 95,0% Keywords: ECG; QRS Complex; Wavelets, SVM, Bayesian Networks. LISTA DE FIGURAS 1 Representação da anatomia básica de um coração humano, onde se vê os átrios, ventrı́culos e principais artérias e veias por onde flui o sangue recebido e enviado para o sistema circulatório. Adaptado de (PENG, 2011). . . 19 2 Representação do sistema de condução elétrica do coração, formado pelo Nó Sinoatrial(SA), Nó Átrio Ventricular (AV), Feixe de His e as Fibras de Purkinje. Adaptado de (MEDLINEPLUS, 2011) . . . . . . . . . . . . . . . . 21 3 Representação esquemática da forma de onda considerada normal em um ECG. Adaptado de (CORP, 2011) . . . . . . . . . . . . . . . . . . . . . . . 22 4 Exemplo de ECG com batimento considerado normal. Adaptado de (GOLDBERGER et al., 5 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Sinal de ECG de portador de Bloqueio de Ramo Esquerdo, apresentando um chanfro no complexo QRS. Adaptado de (KHAN, 2008). . . . . . . . . . 26 6 Sinal de ECG de portador de Bloqueio de Ramo Direito. Adaptado de (KHAN, 2008). 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Sinal de ECG de portador de Contração Atrial Prematura. Note o ritmo irregular onde o CAP ocorre. Adaptado de (JONES, 2005). . . . . . . . . . 27 8 Sinal de ECG de portador de Contração Ventricular Prematura. Note-se a alteração do ritmo normal, no quarto batimento, com a ausência de onda P e do intervalo PR, assim como o complexo QRS disforme. Adaptado de (GOLDBERGER et al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . 28 9 Ilustração de marcapasso eletrônico implantado em paciente. Adaptado de (HCBR, 2011). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 10 Sinal de ECG de portador marcapasso eletrônico. Adaptado de (GOLDBERGER et al., 11 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Sinal de ECG de portador de Onda Flutter Ventricular. Adaptado de (GOLDBERGER et al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . 30 12 Sinal de ECG de portador de Batimento de Escape Ventricular. Adaptado de (GOLDBERGER et al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . 31 13 Funcão Wavelet de Morlet. . . . . . . . . . . . . . . . . . . . . . . . . . . 34 14 Exemplos de padrões linearmente separáveis e não-linearmente separáveis. 15 Hiperplano de separação para conjunto de dados bidimensionais . . . . . . 38 37 16 Nesta figura (w,-b) definem o hiperplano de separação e γ indica o tamanho da margem. Adaptado de (FRADKIN, 2006). 17 . . . . . . . . . . . . . . . . 38 O mapeamento de caracterı́sticas simplifica o processo de classificação por converter dados linearmente não separáveis em caracterı́sticas linearmente separáveis pela aplicação da função kernel Φ. O mapeamento inverso,Φ−1 , no sentido do Espaço de Caracterı́sticas para o Espaço de Entradas pode existir ou não. Adaptado de (RAGHAVA, 2011) . . . . . . . . . . . . . . . 39 18 Representação dos componentes de um modelo probabilı́stico. Adaptado de (BERTSEKAS; TSITSIKLIS, 2000). . . . . . . . . . . . . . . . . . . . . . . 42 19 Em (a) o diagrama representa a probabilidade incondicional P(A). Em (b) o diagrama representa a probabilidade condicional de A dado que B ocorra, P(A|B). Adaptado de (NAVIDI, 2006). 20 . . . . . . . . . . . . . . . 43 Exemplo de uma Rede Bayesiana simples, composta por três nós pais e um nó filho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 21 Série temporal normalizada de um sinal de ECG, contaminado com ruı́dos de alta e baixa frequência. A componente de baixa frequência, causadora das variações sobre a linha de base, foi isolada e está destacada na cor verde. Sinal adaptado de (PERCIVAL; T.WALDEN, 2006). . . . . . . . . . . . 54 22 Espectro de frequência dos coeficientes wavelet do sexto nı́vel de decomposição, usando wavelet Daub 4, correspondente a componente de baixa frequência causadora das variações da linha de base . . . . . . . . . . . . . 55 23 Mesmo sinal de ECG da figura 21, reconstituı́do, agora sem a componente causadora das variações de linha de base . . . . . . . . . . . . . . . . . . . 55 24 Remoção de ruı́dos em ECG. Na figura de cima o sinal contaminado com ruı́dos de alta frequência e na figura de baixo o mesmo sinal, após a aplicação de hard thresholding . . . . . . . . . . . . . . . . . . . . . . . . . 57 25 Representação da função wavelet Daubechies 4, também conhecida como Db4 ou Daub4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 26 Esquema de MRA de 2048 amostras de ECG com a interpolação e soma dos nı́veis 1, 2 e 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 27 Linhas verticais verdes indicam a detecção do Complexo QRS em ECG . . 60 28 Representação esquemática do processo de classificação de arritmias cardı́acas. 60 29 Representação dos Autovalores, ou Componentes Principais, calculados a partir da matriz de covariancia dos vetores padrões. . . . . . . . . . . . . . 62 30 Comparativo gráfico do desempenho dos três classificadores. . . . . . . . . 70 31 Comparativo gráfico do desempenho dos três classificadores, testando apenas registros não usados no treinamento. . . . . . . . . . . . . . . . . . . . 71 32 Distribuição de Probabilidades de arritmias tipo NORM, BRE e BRD. . . 87 33 Distribuição de Probabilidades de arritmias tipo CAP, CVP e BM. 34 Distribuição de Probabilidades de arritmias tipo OFV e BEF. . . . . . . . 88 . . . . 88 LISTA DE TABELAS 1 Resultados obtidos por (YEH; WANG; CHIOU, 2009) . . . . . . . . . . . . . 49 2 Resultados obtidos por (KIRANYAZ TURKER INCE; GABBOUJ, 2009) 3 Resultados obtidos por (GHORBANIAN et al., 2010) . . . . . . . . . . . . . 51 4 Classes de arritmias cardı́acas estudadas neste trabalho . . . . . . . . . . . 61 5 Amostras de registros para criação de vetores de treinamento e testes . . . 63 6 Resumo da Validação Cruzada 7 Resultados dos Testes do Classificador Bayesiano . . . . . . . . . . . . . . 69 8 Resultados obtidos por este estudo . . . . . . . . . . . . . . . . . . . . . . 70 9 Resultados dos Testes do Classificador Bayesiano(Registros Sem Treino) . . 71 10 Comparação entre resultados obtidos por três estudos e os resultados obtidos neste trabalho . . . 50 . . . . . . . . . . . . . . . . . . . . . . . . 68 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 11 Resultados dos Testes do Algoritmo de Detecção de QRS . . . . . . . . . . 81 12 Validação Cruzada do Classificador SVM1 - Parte 1/2 . . . . . . . . . . . . 83 13 Validação Cruzada do Classificador SVM1 - Parte 2/2 . . . . . . . . . . . 84 14 Validação Cruzada do Classificador SVM2 - Parte 1/2 . . . . . . . . . . . 85 15 Validação Cruzada do Classificador SVM2 - Parte 2/2/ . . . . . . . . . . . 86 LISTA DE SIGLAS AV Átrio Ventricular BEV Batimento de Escape Ventricular BM Batimento de Marcapasso BRD Bloqueio de Ramo Direito BRE Bloqueio de Ramo Esquerdo CAP Contração Atrial Prematura CVP Contração Ventricular Prematura ECG Eletrocardiograma FN False Negative FP False Positive MIT Massachusetts Institute of Technology OFV Onda Flutter Ventricular PCA Principal Component Analysis SVM Support Vector Machine TCA Total Classification Accuracy TN True Negative TP True Positive VEB Ventricular Escape Beat Sumário 1 INTRODUÇÃO 14 1.1 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2 HIPÓTESES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 ORGANIZAÇÃO DO TEXTO . . . . . . . . . . . . . . . . . . . . . . . . 16 2 REFERENCIAL TEÓRICO 18 2.1 Fisiologia do Coração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 Sistema Elétrico Cardı́aco . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 Eletrocardiografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 Arritmias Cardı́acas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4.1 Batimento Cardı́aco Normal . . . . . . . . . . . . . . . . . . . . . . 24 2.4.2 Bloqueio de Ramo Esquerdo - BRE . . . . . . . . . . . . . . . . . . 25 2.4.3 Bloqueio de Ramo Direito - BRD . . . . . . . . . . . . . . . . . . . 26 2.4.4 Contração Atrial Prematura - CAP . . . . . . . . . . . . . . . . . . 26 2.4.5 Contração Ventricular Prematura - CVP . . . . . . . . . . . . . . . 27 2.4.6 Batimento de Marcapasso - BM . . . . . . . . . . . . . . . . . . . . 28 2.4.7 Onda Flutter Ventricular - OFV . . . . . . . . . . . . . . . . . . . . 29 2.4.8 Batimento de Escape Ventricular - BEV . . . . . . . . . . . . . . . 30 3 MÉTODOS MATEMÁTICOS 32 3.1 Transformadas Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2 Máquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3 3.2.1 O Problema da Classificação . . . . . . . . . . . . . . . . . . . . . . 36 3.2.2 Classificadores Lineares . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2.3 Classificadores Não Lineares . . . . . . . . . . . . . . . . . . . . . . 38 3.2.4 Classificação Multiclasse . . . . . . . . . . . . . . . . . . . . . . . . 40 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3.1 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3.2 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3.3 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4 TRABALHOS RELACIONADOS 4.1 Estudos sobre Classificação de Batimentos Cardı́acos . . . . . . . . . . . . 47 5 DESENVOLVIMENTO DO PROJETO 5.1 47 52 PRÉ-PROCESSAMENTO DO SINAL DE ECG . . . . . . . . . . . . . . . 52 5.1.1 Remoção de Variação de Linha de Base . . . . . . . . . . . . . . . . 53 5.1.2 Remoção de Ruı́dos em ECG . . . . . . . . . . . . . . . . . . . . . 55 5.2 DETECÇÃO DE COMPLEXO QRS . . . . . . . . . . . . . . . . . . . . . 57 5.3 CLASSIFICAÇÃO DE ARRITMIAS . . . . . . . . . . . . . . . . . . . . . 59 6 TESTES E RESULTADOS 65 6.1 Método de Avaliação de Desempenho dos Classificadores. . . . . . . . . . . 65 6.2 Validação Cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 6.3 Resultados de classificação da Rede Bayesiana. . . . . . . . . . . . . . . . . 69 6.4 Resultados Finais Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 7 CONSIDERAÇÕES FINAIS 7.1 73 Perspectivas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 REFERÊNCIAS BIBLIOGRÁFICAS 80 APÊNDICE A - Desempenho do algoritmo de detecção de QRS 81 APÊNDICE B. Avaliação Cruzada dos Classificadores 82 APÊNDICE C - Tabelas de Distribuição de Probabilidades 87 1 INTRODUÇÃO O Eletrocardiograma (ECG), desde sua criação, em 1903, por Willem Einthoven, pre- mio Nobel de Medicina em 1924 (HEALTHMAD, 2010), tem sido considerado um instrumento de excelente relação custo-benefı́cio na prevenção, no diagnóstico e tratamento de doenças cardı́acas. Devido ao fato de ser não-invasivo, ter baixo custo e ser de fácil aplicação, o ECG se coloca entre os recursos mais utilizados pela medicina na análise das condições de saúde do coração (DUPRE; VIEAU; IAIZZO, 2009). O ECG consiste no registro gráfico produzido por um galvanômetro, que mede os sinais elétricos gerados durante a atividade do músculo cardı́aco e os representa como uma função de tempo e amplitude (GOLDWASSER, 2009). Uma vez medidos, esses sinais elétricos são armazenados em arquivos digitais, favorecendo seu posterior estudo, de uma forma que vai além da simples análise visual da sua representação gráfica. No estudo aqui apresentado são aplicadas ferramentas matemáticas no processamento digital desses sinais, removendo ruı́dos e identificando os pontos que caracterizam o ciclo cardı́aco. Esses pontos caracterı́sticos são usados como pontos fiduciais e tem papel fundamental na identificação de eventuais anormalidades como, por exemplo, os distúrbios de ritmo, de condução elétrica e de isquemias. Neste contexto, o presente trabalho utiliza como objeto de estudo e testes, o Banco de Arritmias BIH-MIT, disponibilizado gratuitamente, desde 1980, para a comunidade cientı́fica e acadêmica, pelo Massachusetts Institute of Technology em (SCIENCES; TECHNOLOGY, 2008) e mundialmente utilizado na avaliação de classificadores de arritmia bem como na pesquisa da dinâmica cardı́aca. O banco consiste de 48 registros, com cada registro contendo 30 minutos de gravação de eletrocardiograma, digitalizados a uma frequencia de 360 amostras por segundo em cada um dos seus dois canais, MLII e V2, que são posições de eletrodos afixados ao torso do paciente e muito utilizados em monitoramento de longo prazo, e possui uma resolução de 11 bits sobre uma faixa de 10 milivolts. Aos registros do BIH-MIT se aplicam as Transformadas Wavelets(WT) como método de processamento digital de sinais para remoção de ruı́dos, das variações da linha de base e a localização de pontos fiduciais do ECG. Uma vez depurados, o sinal é segmentado em intervalos que tem como ponto central a máxima amplitude de cada ciclo cardı́aco. Sobre esses intervalos são aplicados a técnica matemática da Análise de Componentes Principais (PCA), para a extração de suas caracterı́sticas morfológicas. Além dessas caracterı́sticas morfológicas, caracterı́sticas dinâmicas, como a frequência 14 desses pontos centrais também são calculadas. As informações sobre essas caracterı́sticas são submetidos a duas Máquinas de Vetores de Suporte(SVM) baseadas em diferentes vetores caracterı́sticos, com a finalidade de identificar e classificar padrões normais e patológicos e, finalmente, uma rede probabilı́stica, a Rede Bayesiana, que terá a função de resolver eventuais divergências entre os dois classificadores anteriores. 1.1 JUSTIFICATIVA A Organização Mundial da Saúde, em seu relatório World Health Statistics 2008, projeta que no ano de 2030 as quatro principais causas de morte no mundo serão, pela ordem, doenças cardı́acas isquêmicas, doenças cérebro-vasculares, doenças pulmonares crônicas obstrutivas e doenças de natureza respiratória, principalmente a pneumonia. (ORGANIZATION, 2008). Neste relatório é demonstrado o percentual de óbitos causados pelas doenças cardı́acas de origem isquêmica que cresce ano a ano, em detrimento das doenças que tem como origem, por exemplo, a falta de infra-estrutura e saneamento básico. É neste cenário, em que se considera que as duas primeiras, e preponderantes, causas de óbito no mundo terão origem cardiovascular, que este trabalho encontra sua principal motivação. Torna-se evidente a importancia de recursos que auxiliem os profissionais de saúde na identificação e tratamento dessas patologias e que esses recursos sejam de baixo custo e de utilização universal, de modo que a sua aplicação possa ser acessı́vel a tantos quanto possı́vel. A proposta do estudo aqui apresentado é desenvolver uma ferramenta confiável que desempenhe um papel importante no auxı́lio a detecção e diagnóstico das doenças do coração, mais especificamente nos casos de distúrbios de ritmo e isquemias. 1.2 HIPÓTESES 1o É possı́vel construir uma aplicação computacional que identifique e classifique arritmias em eletrocardiogramas, utilizando técnicas matemáticas de Transformações Lineares e de Máquinas de Vetores de Suporte. 2o É possı́vel aumentar a robustez desta aplicação, construindo-se dois módulos de classificação compostos por Máquinas de Vetores de Suporte(SVM), baseadas em diferentes vetores caracterı́sticos, e uma Rede Bayesiana decidindo em caso de divergências entre os dois módulos formados pelas SVM. 15 1.3 ORGANIZAÇÃO DO TEXTO O Capı́tulo 1 inclui a justificativa para este trabalho, objetivos e organização do texto. O Capı́tulo 2 apresenta de forma sucinta a fisiologia do coração humano, tema fundamental em que este estudo se baseia. Neste capı́tulo descreve-se a estrutura fı́sica do coração e sua funcionalidade. Descreve-se também o sistema elétrico cardı́aco que permite que o coração cumpra seu papel central no sistema circulatório. Finalmente são apresentados os fundamentos da Eletrocardiografia, importante instrumento de análise da condição cardı́aca e de detecção das Arritmias cardı́acas, as quais tem suas descrições e caracterı́sticas no encerramento deste capı́tulo. O Capı́tulo 3 apresenta os métodos matemáticos utilizados no desenvolvimento deste trabalho. Nele estão descritos os fundamentos matemáticos das transformadas Wavelets, máquinas de vetores de suporte e as redes Bayesianas. Essas técnicas matemáticas são utilizadas ao longo das diversas etapas do trabalho. O Capı́tulo 4 apresenta um panorama do estágio atual de pesquisa na área de classificação de arritmias cardı́acas. Neste capı́tulo apresentamos três estudos publicados na área de classificação dos batimentos cardı́acos, suas metodologias e resultados obtidos nesses estudos. Resultados esses que servem de referencia aos objetivos do estudo aqui apresentado. O Capı́tulo 5 , dividido em 3 Seções, descreve em detalhes as atividades do desenvolvimento do projeto, discorrendo sobre a etapa de pré-processamento de sinal de ECG, a detecção de batimentos cardı́acos e a sua posterior classificação. O Capı́tulo 6 explica a métrica utilizada na avaliação dos resultados e os resultados obtidos nos diversos testes efetuados com a aplicação construı́da no desenvolvimento deste trabalho. O Capı́tulo 7 apresenta os comentários conclusivos e as perspectivas futuras. As Referências Bibliográficas contém a listagem da bibliografia utilizada. O Apêndice A contém os resultados obtidos pelo algoritmo de detecção do complexo QRS. O Apêndice B contém os resultados dos testes de Avaliação Cruzada dos dois classificadores. Este teste é necessário para demonstrar a estabilidade e convergência dos classificadores. O Apêndice C Mostra a Tabela de distribuição de probabilidades, criada pelo treina16 mento da rede bayesiana, que considera as probabilidades de diagnostico em função dos resultados de duas máquinas de vetores de suporte. 17 2 REFERENCIAL TEÓRICO O desenvolvimento de técnicas e metodologias para o estudo e análise do eletrocar- diograma tem sido fonte constante de pesquisa desde sua criação pelo médico holandês Willem Einthovem em 1906 (TOMPKINS, 1993). O uso do eletrocardiograma tornou-se um padrão no exercı́cio da Cardiologia e novos avanços na sua aplicação tem sido feitos continuamente (DUPRE; VIEAU; IAIZZO, 2009). O desenvolvimento, pela comunidade acadêmica, de diferentes técnicas matemáticas, na área de processamento digital de sinais, Transformadas Wavelet e Maquinas de Vetores de Suporte, tem permitido aos pesquisadores uma incursão exploratória aos sinais cardı́acos, a nı́veis até então restritos pela escassez de ferramentas adequadas (REISNER, 2006). Neste contexto, este capı́tulo é dedicado à descrição dos fundamentos dos objetos de estudo desta pesquisa à luz da literatura atualmente disponı́vel. Primeiramente, descreve-se a causa primitiva do estudo da eletrocardiografia, ou seja, os impulsos elétricos de origem biológica, os chamados biopotenciais. Que interessam não só aos pesquisadores de eletrocardiograma, como também àqueles que atuam na pesquisa de eletroencefalograma(EEG), eletroneurograma (ENG), eletromiograma (EMG) e eletroretinograma(ERG). Descreve-se então as bases do funcionamento elétrico do coração humano e seus reflexos no sistema vascular e circulatório. Um importante foco de estudo, também aqui descrito, é a Eletrocardiografia que, se por um lado muito tem evoluı́do em termos de tecnologia, por outro lado tem se mantido fiel aos fundamentos idealizados por seu criador, há mais de um século atrás (TOMPKINS, 1993). 2.1 Fisiologia do Coração Todas as células do corpo humano necessitam de oxigênio para sobreviver e, ao mesmo tempo, eliminar os resı́duos resultantes do seu metabolismo. Cabe ao sistema circulatório o importante papel de levar até elas o oxigênio necessário, suprindo as necessidades metabólicas das células em todo o corpo e , ao mesmo tempo, remover os resı́duos indesejados, resultantes do metabolismo celular (KLABUNDE, 2005). Situado na cavidade torácica, entre os pulmões, num espaço denominado mediastino, o coração, principal órgão do sistema circulatório, tem como função primária impulsionar para o restante do corpo o sangue que foi enriquecido de oxigênio pelos pulmões e que irá 18 alimentar cada célula do corpo humano e, simultaneamente, impulsionar para os pulmões o sangue que retorna do restante do corpo, saturado de gás carbônico, ou dióxido de carbono, para que seja enriquecido com oxigênio. Portanto, a função primária do coração é mecânica. Esta atividade de bomba cardı́aca é exercida pela contração isolada de cada célula do músculo cardı́aco, ativadas por um estı́mulo elétrico (GOLDWASSER, 2009). A figura 1 ilustra a anatomia básica do coração e mostra que ele é constituı́do por quatro cavidades: duas superiores, os átrios esquerdo e direito, e duas inferiores, os ventrı́culos direito e esquerdo. Note-se, também, a Aorta, a maior artéria do corpo humano que leva sangue do coração para o resto do corpo através do sistema circulatório, e a Artéria Pulmonar que transporta o sangue vindo do sistema circulatório, pobre em oxigênio, para os pulmões (KLABUNDE, 2005). Figura 1: Representação da anatomia básica de um coração humano, onde se vê os átrios, ventrı́culos e principais artérias e veias por onde flui o sangue recebido e enviado para o sistema circulatório. Adaptado de (PENG, 2011). A principal função de bombeamento é desempenhada pelos ventrı́culos, cabendo aos átrios o papel de antecâmaras que armazenam sangue enquanto os ventrı́culos estão bombeando, aumentando assim a eficiência do sistema. O perı́odo de repouso, no qual os ventrı́culos se enchem de sangue, é conhecido como diástole. A fase seguinte, de contração, quando o sangue é bombeado e expelido dos ventrı́culos, é chamada sı́stole (WEBSTER, 2009). 19 2.2 Sistema Elétrico Cardı́aco Para que seja possı́vel o coração desempenhar a sua função rı́tmica de contração dos átrios e dos ventrı́culos existe um subjacente precursor elétrico, na forma de bem coordenadas séries de eventos que acontecem no interior do coração. Este conjunto de eventos elétricos é intrı́nseco ao próprio coração e isso pode ser demonstrado quando ele é removido do corpo, particularmente dos vertebrados de sangue frio como as tartarugas ou os sapos, e imerso em um meio com nutrientes, como a solução de glicose de Ringer. Uma vez removido, ele continuará a bater rı́tmicamente por muitas horas (WEBSTER, 2009). A contração coordenada de átrios e ventrı́culos é definida por um padrão especı́fico de ativação elétrica nas células da musculatura que compõe a estrutura cardı́aca. Esta ativação elétrica é iniciada por sistema especializado de condução elétrica que percorre os átrios e ventrı́culos. A figura 2 ilustra este sistema de condução elétrica no interior do coração (GOLDWASSER, 2009). Para executar a contração, faz-se necessário uma fonte de energia e sabe-se que essa força motriz é uma energia elétrica. Cada célula cardı́aca comporta-se como um gerador elétrico, transformando a energia quı́mica gerada pela troca de ı́ons de Potássio (K + ), Sódio (N a+ ), Cloro(Cl− ) e Cálcio(Ca2+ ), em energia elétrica, a qual, por sua vez, é transformada em energia mecânica, utilizada na contração celular (GOLDWASSER, 2009). Células cardı́acas em repouso são consideradas polarizadas. Isto significa que elas estão em estado de equilı́brio e nenhuma atividade elétrica acontece naquele momento. Uma vez que esta célula receba um impulso elétrico, este estı́mulo rompe o equilı́brio e faz com que os ı́ons cruzem a membrana da célula, causando a ação potencial, também chamada de despolarização, que corresponderá a contração do tecido muscular do coração. A repolarização é o retorno dos ı́ons ao seu estado de repouso e tem como consequencia o relaxamento dos músculos cardı́acos (LUNA, 2007). O disparo do impulso elétrico cardı́aco origina-se nas células de tipo marca-passo que constituem o nó sino-Atrial (SA), localizado na junção da veia cava superior e do átrio direito. Entre o nó sino-atrial e o nó átrio-ventricular (AV) existem três vias especializadas para condução elétrica, os tratos anterior, médio e posterior do feixe de His (KLABUNDE, 2005). O Ramo de Bachmann conduz o impulso até o átrio esquerdo e faz com que o 20 Figura 2: Representação do sistema de condução elétrica do coração, formado pelo Nó Sinoatrial(SA), Nó Átrio Ventricular (AV), Feixe de His e as Fibras de Purkinje. Adaptado de (MEDLINEPLUS, 2011) estı́mulo se dissipe nesta região. O impulso parte do nó SA de uma maneira organizada através de um trato de condução especializados nos átrios, ativando primeiro o átrio direito e depois o esquerdo. O impulso sofre então um atraso no nó AV, antes que ele chegue ao feixe de His e de lá prossiga para os ramos do lado direito e do lado esquerdo, onde ativarão os músculos dos respectivos ventrı́culos (LUNA, 2007). 2.3 Eletrocardiografia As seções anteriores foram dedicadas a mostrar os detalhes da sequência de eventos que culminam com ativação elétrica dos átrios e ventrı́culos. A sequência de despolarização e repolarização das células excitáveis do coração produz uma corrente iônica que flui no volume condutor do tórax, considerado eletricamente passivo e sem fontes ou drenos de energia. O registro dos potenciais medidos na superfı́cie externa do tórax é conhecida como eletrocardiograma, ou ECG. O ECG é a medida da atividade elétrica do coração e geralmente é obtida através da leitura de transdutores na superfı́cie do tronco e nas extremidades do paciente, por um 21 eletrocardiógrafo (GOLDWASSER, 2009). A forma de onda esperada na leitura de um ECG geralmente considerado normal de um ser humano está esquematizada na figura 3 Figura 3: Representação esquemática da forma de onda considerada normal em um ECG. Adaptado de (CORP, 2011) Para efeito de estudos, o ciclo cardı́aco é representado através de ondas, intervalos e segmentos. As ondas são surtos de atividade elétrica, captadas pelos eletrodos colocados sobre a superfı́cie do corpo, e refletem tanto a despolarização das células do miocárdio, que tem como consequência a contração do músculo cardı́aco, como a sua repolarização, que ocorre quando a eletronegatividade do interior das células é restaurada para que possam ser estimuladas no próximo ciclo. Dependendo da região onde ocorre a despolarização e a repolarização, essas ondas recebem denominações diferentes. As diferentes linhas retas, chamadas linhas isoelétricas, que conectam as ondas são chamados de intervalos e segmentos, e também recebem nomes especı́ficos. Um segmento é uma linha isoelétrica que conecta duas ondas, enquanto um intervalo engloba pelo menos uma onda, mais a linha isoelétrica de conexão (THALER, 2008). A seguir estão descritas os componentes de um ciclo cardı́aco em um ECG padrão e as suas correspondentes causas conforme (KLABUNDE, 2005) e (THALER, 2008): • Onda P : A onda P representa a despolarização e consequente contração atrial. Esta onda é considerada a parte inicial do ciclo cardı́aco. Sua primeira metade representa a despolarização do átrio direito, e a segunda metade a despolarização do átrio esquerdo. Duração média: 110 milisegundos. 22 • Complexo QRS : O complexo QRS, formado pela sequência das ondas Q, R e S, representa a despolarização do miocárdio ventricular e a consequente contração ventricular. A onda Q é a deflexão inicial para baixo, a onda R é a deflexão seguinte para cima. A deflexão seguinte para baixo é chamada de onda S. A amplitude do complexo QRS é muito maior que a da onda P, porque os ventrı́culos possuem muito mais massa muscular que os átrios. Duração média: 100 milisegundos. • Onda T : A onda T reflete a repolarização ventricular. As células dos ventrı́culos voltam à sua eletronegatividade normal, preparando-se para a próxima despolarização. Duração média : 160 milisegundos. • Intervalo PR : O intervalo PR é o tempo entre o inı́cio da despolarização atrial e o inı́cio da despolarização ventricular. Engloba a onda P e a linha isoelétrica que a conecta ao complexo QRS. Duração média : 120 até 200 milisegundos • Segmento ST : O Segmento ST representa o perı́odo entre o fim da despolarização ventricular e o inı́cio da repolarização. É a linha isoelétrica que se estende do final da onda P até o inicio do complexo QRS. Duração média : 320 milisegundos. • Intervalo RR : É o intervalo entre duas ondas R. Corresponde a frequência de despolarização ventricular, também chamada de frequência ventricular. A taxa considerada normal de batimentos situa-se entre 60 e 100 batimentos por segundo. Duração média : 0.6 até 1.2 milisegundos 2.4 Arritmias Cardı́acas Segundo a Sociedade Brasileira de Cardiologia, arritmia é a alteração de frequência, formação ou condução do impulso elétrico através do miocárdio (A. et al., 2009). Em estado de repouso, ou no ritmo do cotidiano, o coração humano executa seus ciclos de contração e relaxamento em um ritmo regular, que varia entre 60 e 100 vezes por minuto. Pelo fato desses ciclos terem sua origem na despolarização do nó sinusal este ritmo cardı́aco é conhecido como ritmo sinusal. Qualquer alteração deste quadro é definida como arritmia, também chamada de disritmia. Assim, qualquer distúrbio na frequência, na regularidade, na origem, ou na condução do impulso elétrico cardı́aco é classificado como arritmia (GOLDWASSER, 2009). Essa alteração no ritmo normal do 23 coração prejudica, ou anula, a eficiência dos músculos cardı́acos no bombeamento de sangue para demais órgãos do corpo, privando-os de oxigênio e eventualmente levando o indivı́duo a morte (GOLDWASSER, 2009). A arritmia pode se apresentar tanto na forma de um único batimento aberrante, ou com pausa prolongada entre eles, como na forma de um distúrbio de ritmo sustentado que se estende por toda a vida do paciente (THALER, 2008). Algumas arritmias podem não apresentar riscos ao seu portador. Por exemplo, em atletas de alto rendimento, batimentos cardı́acos situados na faixa entre 35 a 40 batimentos por minuto podem ser considerados normais. Entretanto, outras arritmias podem ser perigosas e exigem acurado diagnóstico, pois podem ter como sua primeira manifestação clı́nica a morte súbita. Por esse motivo, o diagnóstico de arritmias é um dos papeis mais importantes do ECG, e nenhum outro método pode faze-lo melhor, segundo (THALER, 2008). 2.4.1 Batimento Cardı́aco Normal No ritmo cardı́aco considerado normal, o nó sino atrial (SA) gera o impulso elétrico que percorre os músculos atriais direito e esquerdo, produzindo a atividade elétrica que é representada pela onda P. O impulso elétrico continua seu trajeto através até o nó atrio ventricular, que reduz a velocidade do fluxo elétrico. Isto cria uma pausa (representada pelo intervalo PR) antes que os ventrı́culos sejam despolarizados. A despolarização dos ventrı́culos é representada no ECG pelo complexo QRS. A seguir os ventrı́culos se despolarizam, o que é representado no ECG pela onda T. Após uma curta pausa, este processo se repete(THALER, 2008). Este ciclo está demonstrado na figura 4. Figura 4: Exemplo de ECG com batimento considerado normal. Adaptado de (GOLDBERGER et al., 2000). Segundo (THALER, 2008) e (GOLDWASSER, 2009), pode-se adotar os seguintes critérios 24 para caracterizar o batimento normal em um ECG: • Onda P com eixo normal : Se existe uma onda P de morfologia arredondada, simétrica, isto significa que o sinal tem sua origem dentro dos átrios. • Complexo QRS estreito : Um complexo QRS estreito, com menos de 0,12 segundos de duração, indica que a origem do sinal deve ser o nó AV, ou acima dele, e que despolarização ventricular está percorrendo as vias normais de condução: nódulo AV, feixe de His, ramos esquerdo e direito e fibras de Purkinje. • Existe uma onda P para cada complexo QRS : O fato de haver uma onda P precedendo cada complexo QRS indica, quase certamente, que o ritmo tem origem atrial. A falta desta correlação indicaria uma falta de coordenação entre a despolarização e a contração de átrios e ventrı́culos • Ritmo essencialmente regular : O ECG normal apresenta uma frequência cardı́aca variável entre 60 e 100 batimentos por minuto. Frequências entre 40 e 60 batimentos por minuto indicam a instalação de uma bradicardia sinual, enquanto valores entre 160 e 200 batimentos por minuto são classificados como taquicardia sinusal. Nesses casos o sinal apresenta uma morfologia normal, mas uma frequência anormal (GOLDWASSER, 2009). Ressalte-se que o registro de um ECG normal não exclui a existência de doença cardı́aca. (JONES, 2005). 2.4.2 Bloqueio de Ramo Esquerdo - BRE O Bloqueio de Ramo Esquerdo é uma arritmia caracterizada por um distúrbio na condução do estı́mulo elétrico em sua passagem pelo ramo esquerdo do Feixe de His, ou quando essa passagem acontece com extrema dificuldade e lentidão. A ativação do ventrı́culo esquerdo ocorre de modo anômalo, havendo portanto alteração no eletrocardiograma (GOLDWASSER, 2009). Este tipo de arritmia é causado por doenças coronarianas, doenças hipertensivas de longa duração ou cardiomiopatia dilatada, e sua ocorrência é incomum na ausência de doenças orgânicas (EDHOUSE, 2008). O BRE é representado no ECG, de forma tı́pica, como mostrado na figura 5, onde se pode ver um chanfro no complexo QRS(KHAN, 2008). 25 Figura 5: Sinal de ECG de portador de Bloqueio de Ramo Esquerdo, apresentando um chanfro no complexo QRS. Adaptado de (KHAN, 2008). 2.4.3 Bloqueio de Ramo Direito - BRD O Bloqueio do Ramo Direito consiste numa modalidade de arritmia causada por uma alteração na condução do impulso elétrico em sua passagem, partindo do nó SA, através do ramo direito do feixe de His. Durante o BRD, o ventrı́culo direito deixa de ser completamente ativado pelos impulsos que trafegam pelo ramo direito do feixe de condução elétrica. Essa dificuldade de condução se reflete no ECG através do complexo QRS, que apresenta uma deflexão extra em consequência da rápida despolarização do ventrı́culo esquerdo seguida por uma despolarização mais lenta do ventrı́culo direito. Em função do menor ou maior grau de dificuldade na condução do impulso elétrico esses bloqueios são classificados quanto ao seu grau de gravidade. Os bloqueios de 1o e 2o graus, chamados de bloqueios parciais ou incompletos, quando considerados isoladamente, não são considerados uma cardiopatia e podem se manifestar em pessoas saudáveis sem apresentar ameaça maior à saúde (GOLDWASSER, 2009). O BRD é representado no ECG, de forma tı́pica, como mostrado na figura 6, onde pode-se notar uma deflexão extra no complexo QRS, o que reflete a rápida despolarização do ventrı́culo esquerdo, seguido por uma mais lenta despolarização do ventrı́culo direito que apresenta disfunção de condução elétrica. Neste caso o complexo QRS é mais largo, com duração maior que 0.12 segundos. Notar, também na figura a deflexão adicional, para baixo do complexo QRS (KHAN, 2008). 2.4.4 Contração Atrial Prematura - CAP A contração atrial prematura, também conhecida como batimento ectópico atrial ou batimento atrial prematuro, é um batimento cardı́aco extra, causado pela ativação elétrica, em um lugar anormal do átrio, antes que o batimento normal possa ocorrer (JONES, 26 Figura 6: Sinal de ECG de portador de Bloqueio de Ramo Direito. Adaptado de (KHAN, 2008). 2005). Este tipo de arritmia pode se manifestar em muitas pessoas saudáveis e raramente apresenta sintomas. Ela é comum em pessoas com problemas pulmonares e tem incidência maior em pessoas mais idosas do que em jovens. Pode ainda ser causada ou agravada pelo consumo de café, chá, ou alguns medicamentos contra febre e asma (CORP, 2011). Entretanto, em pacientes portadores de doença cardı́aca a ocorrência frequente de CAP pode preceder outros eventos graves, como taquicardia supraventricular ou fibrilação atrial (JONES, 2005). O CAP se reflete no ECG tipicamente como mostrado na figura 7, onde pode-se notar a alteração do ritmo cardı́aco no segundo e no quarto batimentos, causado pela ativação elétrica atrial antes que o batimento de ritmo normal aconteça. Figura 7: Sinal de ECG de portador de Contração Atrial Prematura. Note o ritmo irregular onde o CAP ocorre. Adaptado de (JONES, 2005). 2.4.5 Contração Ventricular Prematura - CVP A contração ventricular prematura, também conhecida como batimento ectópico ventricular ou batimento ventricular prematuro, é um batimento cardı́aco extra, resultado da ativação anormal originária dos ventrı́culos, antes que um batimento normal possa ocorrer (JONES, 2005). Este tipo de arritmia é particularmente comum em pessoas mais idosas e pode ser 27 causada por esforço fı́sico ou tensão emocional, ingestão de cafeı́na, álcool ou alguns tipos de medicamentos para febre ou gripe. Considerando isoladamente, a CVP tem pouco efeito sobre a ação de bombeamento do coração e normalmente é assintomático a menos que aconteça com extrema frequência (CORP, 2011) . A PVC se reflete no ECG tipicamente como mostrada na figura 8, onde pode-se notar a alteração do ritmo normal no quarto batimento, onde acontece a PVC, apresentando um ritmo irregular, a ausência de onda P, ausência de intervalo PR e um complexo QRS bizarro e largo(maior que 0.10 segundos) (JONES, 2005). Figura 8: Sinal de ECG de portador de Contração Ventricular Prematura. Note-se a alteração do ritmo normal, no quarto batimento, com a ausência de onda P e do intervalo PR, assim como o complexo QRS disforme. Adaptado de (GOLDBERGER et al., 2000). 2.4.6 Batimento de Marcapasso - BM O marcapasso artificial é um aparelho de estimulação cardı́aca, composto por um gerador de estı́mulos elétricos e um ou mais eletrodos. O gerador de estı́mulos elétricos é um circuito eletrônico miniaturizado que possui uma bateria compacta.Os marcapassos tem um diâmetro próximo de cinco centı́metros e podem ser programados para, na ausência do ritmo cardı́aco natural, enviar o estı́mulo elétrico aos átrios e ventrı́culos, de modo a fazer com que o coração se contraia e cumpra a sua função de bombeamento de sangue. O marcapasso é ligado ao coração através de um ou dois eletrodos. O eletrodo é um fio condutor, de pequeno diâmetro, eletricamente isolado, que é colocado diretamente no lado direito do coração. Uma ilustração de um marcapasso instalado no tórax de um paciente está mostrada na figura 9. O disparo do estı́mulo elétrico gerado pelo marcapasso se reflete no eletrocardiograma como um pico de tensão, seguido pelas ondas de despolarização das células cardı́acas. Um exemplo de registro de ECG de um paciente portador de um marcapasso eletrônico está 28 Figura 9: Ilustração de marcapasso eletrônico implantado em paciente. Adaptado de (HCBR, 2011). mostrado na figura 10. Figura 10: Sinal de ECG de portador marcapasso eletrônico. Adaptado de (GOLDBERGER et al., 2.4.7 2000). Onda Flutter Ventricular - OFV Onda flutter ventricular é uma arritmia, mais especificamente uma taquicardia, que submete os ventrı́culos a ritmo acima de 200 batimentos por minuto, muito acima do normal que é de 60 a 100 batimentos por minuto. Este tipo de arritmia é caracterizado no ECG por uma forma de onda quase senoidal, sem uma clara distinção do complexo QRS e da onda T, que se fundem em uma única onda. Ela tem sido considerada como um possı́vel estágio de transição entre a taquicardia ventricular e a fibrilação. É uma arritmia criticamente instável que pode levar a morte súbita. No flutter ventricular ainda se observam 29 contrações eficazes das fibras ventriculares e um débito cardı́aco que permite a sobrevida, ainda que por tempo limitado. Entretanto o mais comum é evolução para a fibrilação ventricular em um curto espaço de tempo. A ocorrência de flutter ventricular está associada a cardiopatias com grave degeneração do miocárdio, tais como infarto do miocárdio, miocardiopatia dilatada com insuficiência cardı́aca, miocardite aguda, distúrbios eletrolı́ticos graves, entre outros. Pode ocorrer em crianças, jovens e adultos. (GOLDWASSER, 2009). Um exemplo de ECG mostrando a instalação do Flutter Ventricular em um paciente é mostrada na figura 11. Figura 11: Sinal de ECG de portador de Onda Flutter Ventricular. Adaptado de (GOLDBERGER et al., 2.4.8 2000). Batimento de Escape Ventricular - BEV Conforme foi exposto na Seção 2.2, em condições normais de trabalho o ciclo cardı́aco inicia-se pelo disparo de um estı́mulo elétrico iniciado no nó sinoatrial(SA), ou no nó atrio-ventricular (AV), de onde se propaga para os ventrı́culos. O Batimento de Escape Ventricular é um termo usado em cardiologia para descrever uma descarga elétrica automática originada no próprio ventrı́culo. Esse e outros batimentos, originados fora da região normal, são chamados batimentos ectópicos. O BEV ocorre quando a taxa de estı́mulo elétrico, tanto no nó SA quanto no nó AV, caem abaixo do nı́vel basal determinado pelas células marcapasso dos ventrı́culos. Normalmente de 2 a 3 segundos, após o atraso dos nós SA e AV em iniciar o disparo do batimento, inicia-se o batimento de escape ventricular. Pode ocorrer, ainda, quando a condutividade do nó SA é afetada. Assim o BEV é um mecanismo compensatório que indica anomalias na condução sistema de condução elétrica do coração que podem ser indicativos de ataque cardı́aco ou efeito colateral de medicamentos. A figura 12 ilustra um ECG de paciente portador de BEV. Nela pode-se ver que após um atraso no segundo batimento normal foi disparado um batimento de escape. 30 Figura 12: Sinal de ECG de portador de Batimento de Escape Ventricular. Adaptado de (GOLDBERGER et al., 2000). 31 3 MÉTODOS MATEMÁTICOS Discute-se neste capı́tulo as teorias matemáticas que fundamentam o estudo desen- volvido neste trabalho. Aqui serão expostos os fundamentos de Transformadas Wavelets, Máquinas de Vetores de Suporte e Redes Bayesianas. 3.1 Transformadas Wavelets A Transformada Wavelet é uma transformação matemática desenvolvida nos últimos 30 anos e cuja aplicação tem atraı́do crescente interesse em diversas áreas, tais como na matemática para aplicações estatı́sticas, na fı́sica para estudos de sismologia e magnetismo, e na engenharia elétrica para processamento digital de sinais, apenas para citar alguns(PERCIVAL; T.WALDEN, 2006). Os primeiros estudos foram desenvolvidos por volta da década de 1980, mas foi uma publicação de Ingrid Daubechies em 1988, (DAUBECHIES, 1988), que chamou a atenção da comunidade cientı́fica para o potencial desta técnica matemática. No século XIX, o matemático francês Joseph Fourier descobriu que qualquer função periódica pode ser expressa como uma série trigonométrica infinita formada por funções senos e cossenos. Esta técnica matemática ficou conhecida como transformada de Fourier e, até os dias atuais, tem larga aplicação em processamento digital de sinais, pois ela permite identificar as frequências que constituem o sinal estudado e edita-lo, construindo filtros digitais para eliminar, ou adicionar, determinadas frequências(HAYKIN; VEEN, 2002). Entretanto, a técnica desenvolvida por Fourier torna-se limitada quando se tenta identificar em que ponto, ou instante, cada frequência acontece em um dado sinal. Assim, a transformada de Fourier oferece boa resolução em frequência porém nenhuma resolução no tempo (SALOMON, 2007). A transformada wavelet é uma abordagem bem sucedida ao problema de analisar o sinal tanto no tempo quanto na frequência. Enquanto a transformada de Fourier mapeia uma função unidimensional de uma variável contı́nua em uma sequência unidimensional de coeficientes, a transformada wavelet faz o mapeamento em uma sequência bidimensional de coeficientes. É esta representação bidimensional que permite a localização do sinal tanto no tempo quanto na frequência (BURRUS; GOPINATH; GUO, 1998). Dado um sinal variante no tempo, é possı́vel selecionar um intervalo de tempo e usar a transformada 32 wavelet para identificar e isolar as frequências que constituem o sinal neste intervalo. O intervalo pode ser largo e, neste caso, o sinal é estudado em uma larga escala. A medida que os intervalos de tempo diminuem, as escalas tornam-se cada vez menores. Uma escala mais larga representa o comportamento global do sinal, enquanto uma escala menor representa o comportamento do sinal em um menor intervalo de tempo. Deste modo a idéia fundamental por trás das wavelets é a análise de uma função, ou de um série temporal, de acordo com uma escala, em nı́veis de detalhes (SALOMON, 2007). Em termos matemáticos, wavelets são funções e como tais precisam satisfazer certas condições (PERCIVAL; T.WALDEN, 2006). A primeira condição é que a sua integral seja igual a zero. Isto significa que para cada área da função wavelet acima do eixo dos x, deve haver uma área equivalente abaixo deste eixo. Assim a função wavelet tem que ter ondas acima e abaixo do eixo dos x, daı́ a origem do seu nome, ”wave”, onda em inglês. Este requisito a uma função wavelet ψ é expresso matemáticamente na Equação 3.1 abaixo:. Z +∞ ψ (t) dt = 0. (3.1) −∞ O segundo requisito é que uma função wavelet ψ seja localizada no espaço, ou seja, possua suporte compacto, provindo daı́ seu nome ”wavelet”, pequena onda em inglês. Esta condição estabelece que a integral do quadrado da wavelet tem que existir, ou seja sua energia seja finita, de modo que ela seja localizada em um intervalo finito e sua energia seja zero, ou quase zero, fora desse intervalo, como definido na Equação 3.2: Z +∞ | ψ (t) |2 dt < ∞. (3.2) −∞ Infinitas funções satisfazem esses dois requisitos acima descritos e algumas delas tem sido pesquisadas e são mais comunmente usadas em transformadas wavelets . A equação 3.3 mostra a função wavelet de Morlet: −t2 ψ(t) = e r cos πt 2 ln2 ! . (3.3) A função wavelet Morlet é uma curva coseno que tem suas oscilações amortecidas por um fator exponencial e possui suporte compacto, pois 99% da sua energia está concentrada no intervalo −2, 5 ≤ t ≤ 2, 5. Sua forma gráfica está mostrada na figura 13 33 Figura 13: Funcão Wavelet de Morlet. Uma vez selecionada uma wavelet ψ (t), a Transformada Wavelet Contı́nua (CWT) de uma função quadrática integrável f (t) é definida, conforme (SALOMON, 2007), como: Z +∞ W (a, b) = −∞ 1 f (t) p ψ ∗ |a| t−b a dt. (3.4) A transformada W é uma função de dois parâmetros reais a e b, e ∗ denota o complexo conjugado de ψ. O valor de √1 a é um fator de normalização que garante que a energia de ψa,b permaneça independente de a e de b. Se definirmos a função 1 ψa,b (t) = p ψ |a| t−b a . (3.5) pode-se re-escrever a Equação 3.4 na seguinte forma Z +∞ W (a, b) = f (t)ψa,b (t)dt. (3.6) −∞ Em termos matemáticos, a transformada wavelet é formada pelo produto interno das duas funções: f (t) e ψa,b (t). Para qualquer a, ψa,b (t) é uma cópia de ψa,0 (t) deslocada b unidades ao longo do eixo dos x. Assim, b é um parâmetro de translação da função. Se assumirmos b = 0 na Equação 3.5, teremos como resultado: 1 ψa,b (t) = p ψ |a| t . a (3.7) O que demonstra que a é um parâmetro de escalonamento, ou dilatação, da função. Para valores de a maiores que 1, a wavelet será expandida, enquanto para valores de a 34 entre 0 e 1, ela será comprimida (SALOMON, 2007). 3.2 Máquinas de Vetores de Suporte O propósito de desenvolver sistemas que possam se adaptar aos seus ambientes e aprendam com sua experiência têm atraı́do muito investimento em pesquisas de muitas áreas da ciência como ciências da computação, engenharia, matemática, fı́sica, neurociência e ciências da cognição, entre outras (CRAMMER; SINGER, 2001). O resultado dessas pesquisas foi a criação de uma variedade de técnicas de aprendizado de máquina com um enorme potencial de aplicações. Com o avanço das pesquisas, algumas dessas tecnologias têm se destacado pela sua robustez e flexibilidade. É deste grupo que se sobressaem as Máquinas de Vetores de Suporte, do inglês Support Vector Machines(SVM), teoria criada em 1995 por Vladmir Vapnik(VAPNIK, 1995). Neste estudo, como em muitas outras aplicações da vida real, deseja-se classificar objetos, neste caso batimentos cardı́acos, em uma de várias categorias possı́veis, as Arritmias, baseado em algumas das caracterı́sticas dos batimentos cardı́acos. As SVM se tornaram um dos mais populares métodos de classificação, seja ela binária, quando a classificação apenas entre duas classes é possı́vel, ou multi classe(WESTON; WATKINS, 1999). Como acontece neste estudo, quando vários tipos de arritmias são possı́veis para classificação de cada batimento cardı́aco. SVM são máquinas de aprendizado supervisionado baseadas na teoria de aprendizado estatı́stico não paramétrico, que podem ser usadas para classificação de padrões e regressão linear. As SVM’s foram primeiramente apresentadas por (VAPNIK, 1995) e foram criadas com o explı́cito objetivo de resolver problemas de classificação binária de padrões. Elas têm capacidade de lidar tanto com problemas de classificação linearmente separáveis quanto aqueles não linearmente separáveis(ALPAYDIN, 2010). No caso de problemas linearmente separáveis, ela busca a construção de um hiperplano ótimo, de modo que a separação entre os exemplos seja máxima. Caso os problemas sejam não-linearmente separáveis, o objetivo passa a ser a obtenção de uma função de mapeamento Φ adequada para converter o conjunto mapeado, tornando-o linearmente separável(WESTON; WATKINS, 1999). 35 3.2.1 O Problema da Classificação Pesquisas na área da estatı́stica tradicional e das redes neurais artificiais tem desenvolvido muitos métodos com o objetivo de efetuar a distinção entre duas classes usando funções lineares, bem como métodos para interpolação usando funções lineares. São essas técnicas que fornecem o suporte teórico para a construção de sistemas mais complexos das máquinas de aprendizagem, como as SVM (ALPAYDIN, 2010). A uma máquina de aprendizagem supervisionada, é dado um conjunto de dados de treinamento, ou espaço de entradas, normalmente em forma de vetores de atributos, de modo que este conjunto de entradas, X , é um sub conjunto de R, ou seja: X = {x1 , ..., xm } ⊆ RN . (3.8) onde N corresponde à dimensão das amostras e m ∈ N, com seus correspondentes rótulos, ou valores de saı́da, Y : Y = {y1 , ..., ym } ⊆ {−1, 1}. (3.9) O objetivo do sistema é determinar uma, ou um conjunto de funções de decisão, também chamadas de funções de custo ou funções alvo g : RN → {−1, 1} que possa acuradamente predizer os rótulos y para valores de entradas x, ainda não conhecidos. Essas funções particulares são conhecidas como hipóteses e o conjunto é chamado espaço de hipóteses (ALPAYDIN, 2010). Ou seja, busca-se uma função g que minimize o erro de classificação, o qual é dado pela probabilidade que g(x), a saı́da da função de custo, seja 6= y, o rótulo esperado. Um método comum de representar essas funções de decisão é usar uma função de predição de valor real f : RN → R cuja saı́da é submetida a um limiar de sinal para finalmente obter a classificação g(x) = sgn(f (x)). Dependendo da distribuição das caracterı́sticas das amostras, o conjunto de dados pode ser classificado como linearmente separável ou não-linearmente separável. Exemplo dos dois tipos de distribuição é mostrado na figura 14: O número de predições incorretas define o desempenho do classificador. A esta métrica dá-se o nome de risco empı́rico ou risco de teste, definida pela seguinte equação (3.10), conforme (SCHöLKOPF; SMOLA, 2002). m Remp [f ] = 1 X1 |f (xi ) − yi | m i=1 2 36 (3.10) Figura 14: Exemplos de padrões linearmente separáveis e não-linearmente separáveis. . 3.2.2 Classificadores Lineares Um classificador linear pode ser representado como uma função f : X ⊆ RN → RN da seguinte maneira: o exemplo de entrada x = (x1 , ..., xn ) é designada como uma classe positiva (+1) se f (x) ≥ 0, caso contrário é assinalado como uma classe negativa (-1) . Considerando que f (x) seja um função linear de x ∈ X, ela pode ser reescrita da seguinte forma conforme em (CRISTIANI, 2000): f (x) = hw, xi + b = n X w i xi + b (3.11) (3.12) i=1 Sendo (w , b) ∈ RN × RN , os parâmetros peso e bias que controlam a função e a regra de decisão, a função linear f (x) tem como objetivo criar um hiperplano, um sub espaço afim de dimensão n − 1, que divide o espaço em duas partes que correspondem a entrada de duas classes diferentes (CRISTIANI, 2000). O exemplo dado na figura 15 mostra a interpretação geométrica, onde o espaço de entradas X é dividido em duas partes pelo hiperplano definido pela equação hw · xi + b = 0. Denomina-se margem a menor distancia entre os exemplos do conjunto de dados de treinamento e o hiperplano utilizado na separação dessas classes. A figura 16 demonstra o hiperplano e a margem separando linearmente as amostras. A margem γ é determinada pela distancia entre o hiperplano e os vetores mais próximos a ele, os vetores de suporte. Esses vetores de suporte são os padrões crı́ticos que determinam o hiperplano ótimo, tornando os outros padrões não-crı́ticos dispensáveis, isto é, que podem ser removidos sem afetar os resultados da classificação. (BARTLETT et al., 2000). 37 Figura 15: Hiperplano de separação para conjunto de dados bidimensionais . Figura 16: Nesta figura (w,-b) definem o hiperplano de separação e γ indica o tamanho da margem. Adaptado de (FRADKIN, 2006). 3.2.3 Classificadores Não Lineares Um conjunto de dados é chamado não linearmente separável quando não existe a possibilidade de efetuar a separação desses dados através de um hiperplano no espaço original dos dados, no espaço original dos dados como aquele mostrado na figura 14. As limitações computacionais dos classificadores lineares foram ressaltadas na década de 60 por Minsk e Papert (HAYKIN, 1994). De maneira geral, os problemas do mundo real normalmente são não lineares. As funções Kernel foram propostas como uma alternativa 38 de solução à limitação dos classificadores lineares, por projetar os dados de entrada em um espaço de caracterı́stica de dimensionalidade mais alta, aumentando assim a aplicabilidade das máquinas de aprendizagem (SCHöLKOPF; SMOLA, 2002). O uso de máquinas lineares com representação dual, onde se calcula a maior margem possı́vel através do produto interno entre pares de exemplos, torna possı́vel essa projeção pela substituição da função produto interno por uma função kernel Φ levando a uma mudança na representação dos dados (CRISTIANI, 2000): x = (x1 , ..., xn ) 7→ Φ(x) = (Φ1 (x), ..., Φn (x)) (3.13) O processo descrito pela equação (3.13) corresponde ao mapeamento do espaço de entradas X em um novo espaço F = Φ(x) | x ∈ X} Nesta configuração, os valores originais apresentados para compor os dados de entrada (x), são chamados atributos, enquanto os valores que descrevem esses dados (Φ) são chamados caracterı́sticas. Este processo de mudança de representação de dados pode ser esquematizado como na figura 17, onde se mostra o mapeamento de um espaço de entradas bidimensional, não linearmente separável, para um espaço de caracterı́sticas, multidimensional e linearmente separável o que torna mais eficiente a tarefa de classificação(CRISTIANI, 2000). Figura 17: O mapeamento de caracterı́sticas simplifica o processo de classificação por converter dados linearmente não separáveis em caracterı́sticas linearmente separáveis pela aplicação da função kernel Φ. O mapeamento inverso,Φ−1 , no sentido do Espaço de Caracterı́sticas para o Espaço de Entradas pode existir ou não. Adaptado de (RAGHAVA, 2011) 39 3.2.4 Classificação Multiclasse Em sua concepção inicial, as SVM foram desenhadas para efetuar apenas classificação binária. Entretanto os problemas do mundo real poucas vezes apresentam essa caracterı́stica e são, em sua grande maioria, não lineares. A maior parte dos fenômenos da natureza são não lineares. Um exemplo tı́pico é o problema abordado por este estudo, a classificação de arritmias, onde o batimento cardı́aco precisa ser classificado entre mais que duas possı́veis classes. Conforme demonstrado em (VAPNIK, 1995) e (CORTES; VAPNIK, 1995) a solução para o problema de classificação binária tem sido bem resolvida, entretanto os problemas de classificação multiclasse tem sido resolvidos pela combinação de classificadores binários independentes (WESTON; WATKINS, 1999). A abordagem utilizada neste caso é considerar o problema como um conjunto de problemas de classificação binária. No método um-contra-todos, apresentado por Vladimir Vapnik in 1995 (VAPNIK, 1995), constroem-se k classificadores, designando um classificador para cada classe, separando cada classe de todas as outras. O enésimo classificador constrói um hiperplano entre a classe n e as outras k − 1 classes e é treinado com todas as entradas de treinamento com rótulo positivo, enquanto todas as outras classes recebem rótulos negativos (WESTON; WATKINS, 1999). Esta estratégia tem sido aplicada na solução de reconhecimento de padrões multiclasse e é demonstrado em trabalhos como (SCHÖLKOPF; BURGES; VAPNIK, 1995) e em (BLANZ et al., 1996). Uma estratégia alternativa à solução um-contra- todos, é o método um-contra-um, que consiste em criar { k(k−1) } hiperplanos separando 2 cada classe da outra e criando uma função de decisão usando algum sistema especı́fico de votação (WESTON; WATKINS, 1999). 3.3 3.3.1 Redes Bayesianas Probabilidade A Teoria da Decisão, relacionada à Teoria dos Jogos, consiste em uma metodologia, com aplicações em economia, psicologia, filosofia, matemática, e estatı́stica, por exemplo, para descrever com clareza e raciocinar sobre uma decisão. Esta teoria divide uma decisão qualquer em três componentes fundamentais, segundo (HECKERMAN, 1995): • O que se sabe : Diz respeito às informações que o tomador da decisão acredita possuir, suas convicções. 40 • O que se deseja : Corresponde às preferências do tomador da decisão. • O que se pode fazer: Diz respeito às alternativas de ação dadas ao tomador da decisão. Dentro desta teoria, usa-se o termo probabilidade para descrever as convicções de uma pessoa se vários eventos irão acontecer, ou não, e o termo utilidade para descrever as preferências dessa pessoa por cada possı́vel consequência dos eventos(HECKERMAN, 1995). O desenvolvimento dos primeiros estudos de probabilidades, no século 17, foram financiados por apostadores de jogos de azar, que contrataram eminentes matemáticos da época para calcular as probabilidades para certos jogos, cujos resultados dependem do acaso. Posteriormente, observou-se que processos cientı́ficos também podem depender do acaso e desde então os métodos de probabilidades têm sido utilizados no estudo do mundo fı́sico, e o estudo das probabilidades tornou-se um extenso ramo da matemática. O estudo sistemático da probabilidade requer alguns pre-requisitos, tais como o conhecimento sobre a terminologia dos processos que a compõe e que são descritos a seguir (NAVIDI, 2006): • Experimento (ε) : Um experimento é um processo que produz um resultado, entre vários possı́veis, que não pode ser predito com certeza. No caso deste estudo, a classificação de um batimento cardı́aco é um exemplo de um experimento. Como também o são os lançamentos de moedas e lançamentos de dados. • Espaço Amostral (S): O conjunto de todos os possı́veis resultados de um experimento ε é chamado de espaço amostral S. No exemplo deste estudo, o espaço amostral consiste no conjunto de todas as classes de batimentos cardı́acos, identificáveis ou não. No exemplo das moedas, o espaço amostral resume-se a S = {Cara,Coroa} e para os dados, S = {1,2,3,4,5,6} • Evento : Um evento A, relativo a um particular espaço amostral S, associado a um experimento ε, é um conjunto de resultados possı́veis. Ou seja, um subconjunto de S. Qualquer resultado individual, mesmo um resultado nulo, também pode ser considerado um evento (MAYER, 1983). Por exemplo, se o resultado de um lançamento de dado é o numero 2, então os eventos {2,4,6} e {1,2,3} ocorreram, assim como qualquer outro evento que contenha o número 2 (HECKERMAN, 1995). 41 Os eventos podem ser classificados como dependentes ou independentes, entre si. A independência entre eventos significa, intuitivamente, que a ocorrência de um evento não torna mais ou menos provável que o segundo evento ocorra. Por exemplo, os eventos de obter como resultado um 6 no primeiro lançamento de um dado e de obter novamente 6 em um segundo lançamento são eventos independentes(MAYER, 1983). Existem diversas interpretações para probabilidade. Uma delas, chamada frequentista, define como probabilidade P, a proporção de vezes que um evento A ocorre em uma longa série, possivelmente infinita, de experimentos ε, identicamente repetidos. A expressão P(A) denota a probabilidade que o evento A ocorra(NAVIDI, 2006). Portanto, em uma interpretação frequentista, dizer que o evento A tem probabilidade de 0.5 significa que o limite da razão entre número de eventos de A e o número de experimentos é 0.5, quando o numero de experimentos tende ao infinito (SPIEGELHALTER; ABRAMS; MILES, 2004). Uma outra perspectiva, chamada subjetiva, na qual se baseia a probabilidade Bayesiana, será discutida mais adiante, no estudo dos métodos Bayesianos. Uma completa representação dos componentes de um modelo probabilı́stico é mostrado na figura 18. Figura 18: Representação dos componentes de um modelo probabilı́stico. Adaptado de (BERTSEKAS; TSITSIKLIS, 2000). As perspectivas frequentistas e bayesianas, entretanto, convergem quando se trata das regras de senso comum em que se baseiam a probabilidade. Elas são definidas em três axiomas e estão assim enumeradas e comentadas (NAVIDI, 2006): 1. Seja S o espaço amostral. Então P(S) = 1. 2. Para qualquer evento A, 0 ≤ P(A) ≤ 1 3. Se A e B são eventos mutuamente exclusivos e, portanto, independentes, então P(A ∪ B) = P(A) + P(B) 42 O primeiro axioma diz que o resultado de um experimento está sempre contido no espaço amostral. O que é evidente, uma vez que o espaço amostral contém todos os resultados do experimento. O segundo axioma indica que uma infinita frequência de um evento está sempre entre 0 (evento impossı́vel de acontecer) e 100% ( total certeza de ocorrência do evento). O terceiro axioma pode ser ilustrado com um exemplo. Seja a probabilidade de dois eventos quaisquer P(A) = 0.02 e P(B) = 0.03, então a probabilidade que o resultado deste experimento seja A ou B é 0.03 + 0.02 = 0.05(NAVIDI, 2006). Uma vez definidos os conceitos de probabilidades, pode-se, a seguir, discutir algumas de suas caracterı́sticas. Como foi mostrado, um espaço amostral contém todos os possı́veis resultados de um experimento. Entretanto, pode ser necessário obter mais informações de um experimento cujo resultado vem de apenas uma parte do espaço amostral. A probabilidade que é baseada em apenas uma parte do espaço amostral é chamada probabilidade condicional (NAVIDI, 2006). Este conceito pode ser representado graficamente, usando diagramas de Venn, como na figura 19. Figura 19: Em (a) o diagrama representa a probabilidade incondicional P(A). Em (b) o diagrama representa a probabilidade condicional de A dado que B ocorra, P(A|B). Adaptado de (NAVIDI, 2006). Na figura (a), P(A) é representada considerando o evento A em proporção ao completo espaço amostral, delimitado pelo retângulo. Em (b) o diagrama representa a probabilidade condicional P(A|B). Uma vez que é certeza que o evento B ocorreu, ele então se torna o espaço amostral disponı́vel para A. Para que A ocorra o resultado deve, necessariamente, estar na intersecção A ∩ B. Portanto sejam os eventos A e B, sendo P(B) 6= 0. A probabilidade condicional de que o evento A ocorra, dado que B já ocorreu, expresso por 43 P(A|B), conforme em (MAYER, 1983), é dado ela equação (3.14): P(A|B) = 3.3.2 P(A ∩ B) P(B) (3.14) Teorema de Bayes Sejam A e B dois eventos, o Teorema de Bayes, desenvolvido por Thomas Bayes, no século 18, consiste em uma fórmula que permite determinar a probabilidade de um evento, se a probabilidade do segundo evento é conhecida. Para demonstrar este teorema, pode-se supor que P(B|A) é conhecido e deseja-se determinar P(A|B) (NAVIDI, 2006). Partindo da definição de probabilidade condicional dada na equação (3.14): P(A|B) = P(A ∩ B) P(B) e sabendo-se que pela Regra da Multiplicação, em (NAVIDI, 2006), P(A ∩ B) pode ser expressa como: P(A ∩ B) = P(A)P(B|A) (3.15) Então substituindo-se P(A ∩ B) por P(A)P(B|A) , obtem-se a fórmula de Bayes (MAYER, 1983): P(A|B) = P(B|A)P(A) P(B) (3.16) Apesar de relativamente simples, o Teorema de Bayes serve de suporte para todos os sistemas modernos de Inteligência Artificial que tem como princı́pio as técnicas de inferência probabilı́stica (RUSSEL; NORVIG, 2003). 3.3.3 Redes Bayesianas Conforme demonstrado anteriormente, na seção 3.3.1, pela interpretação clássica, chamada de frequentista, probabilidade deriva da longa repetição de experimentos. Em contraste com esta perspectiva, a abordagem Bayesiana permite uma interpretação subjetiva de probabilidade, permitindo expressar uma incerteza genérica, ou grau de convicção, sobre qualquer quantidade observável, contanto que esta quantidade possa ser potencialmente medida . Seja esta quantidade originada por um numero de experimentos, ou não (SPIEGELHALTER; ABRAMS; MILES, 2004). 44 Uma Rede Bayesiana corresponde ao modelo gráfico de um sistema, que tem como finalidade representar de forma simples as relações de causalidade das variáveis aleatórias desse sistema. Este modelo é um grafo direcionado e acı́clico, em que cada nó é atribuı́do uma informação quantitativa de probabilidade. A especificação completa dos componentes de uma Rede Bayesiana é mostrada e analisada a seguir (RUSSEL; NORVIG, 2003): 1. Um conjunto de variáveis aleatórias compõe os nós da rede. Essas variáveis podem ser discretas ou contı́nuas. 2. Um conjunto de arcos, ou retas, direcionados, conectam os pares de nós. Se há um arco direcionado do nó X para o nó Y, então diz-se que X é pai de Y 3. Cada nó Xi possui uma distribuição de probabilidade condicional P(Xi |Pai(Xi )), que quantifica os efeitos dos nós ascendentes sobre aquele nó. 4. O grafos não possuem ciclos direcionados, e por isso são chamado grafos acı́clicos. As Redes Bayesianas são um conjunto de métodos para representação gráfica e cálculos probabilı́sticos para a maioria dos problemas caracterizados pela incerteza. Elas são compostas por um conjunto de variáveis e por conexões direcionadas entre essas variáveis, que as torna muito eficazes na representação de possı́veis relacionamentos ”causa x efeito”. São chamadas variáveis ”pai”as variáveis que afetam o estado de outras variáveis, estas chamadas de variáveis ”filhos”. As variáveis que não tem pai são chamadas variáveis raiz. De forma geral, as variáveis componentes das Redes Bayesianas podem ser discretas ou contı́nuas. No caso em que as variáveis sejam discretas, cada variável tem um conjunto finito de estados mutuamente exclusivos. Os estados da variável filho Xi , com pais B1 , B2 , ..., Bn (n > 1), são então descritas por uma Tabela de Probabilidade Condicional P(Xi |B1 , B2 , ..., Bn . Para as variáveis X1 , X2 , ..., Xn a probabilidade do evento conjunto X1 ∧ X2 ∧ ... ∧ Xn é dado por (I.MAGLOCIANNIS et al., 2006): P(X1 , X2 , ..., Xn ) = n Y P [Xi |P ai(Xi )], (3.17) i=0 onde P ai(Xi ) é o conjunto de nós das variáveis pais da variável Xi . Uma rede simples, com variáveis aleatórias discretas, compostas por três nós pais e um nó filho está mostrada na figura 20. A construção e montagem de uma Rede Bayesiana geralmente é composta por um processo de três estágios: 45 C2 Cl I3 CB Figura 20: Exemplo de uma Rede Bayesiana simples, composta por três nós pais e um nó filho. 1. Determinação das variáveis dos seus relacionamentos causa-efeito entre nós pais e nós filhos. 2. Especificar a probabilidade condicional de cada variável, considerando o estado dos seus nós ascendentes. 3. Este ultimo estágio é o estágio da inferência, onde os dados são inseridos no modelo da Rede Bayesiana e as probabilidades para a rede, como um todo, são calculadas de acordo com os relacionamentos causa-efeito entre os nós pais e seus nós filhos (I.MAGLOCIANNIS et al., 2006). 46 4 TRABALHOS RELACIONADOS A análise do sinal de ECG possibilita a utilização de uma técnica barata e não invasiva para analisar as funções do coração sob diferentes condições cardı́acas. O estado cardı́aco geralmente se reflete nas formas de onda do ECG e na taxa de batimentos cardı́acos, que podem conter importantes indicadores da natureza da cardiopatia. Entretanto, pelo fato de sinais biológicos serem não estacionários, os reflexos da cardiopatia podem se manifestar aleatoriamente e em intervalos irregulares durante o dia. Por esta razão o estudo dos padrões de ECG e da variabilidade da taxa de batimentos cardı́acos pode exigir a gravação da atividade cardı́aca por muitas horas, ou dias. Assim, o volume de dados gerados pode ser enorme e redundante, e sua análise visual tediosa e demorada, o que pode levar o analista do ECG a deixar passar informações importantes, num trabalho que pode levar horas. Nas últimas décadas a análise automatizada do ECG tornou-se uma prática bem estabelecida e muitos aperfeiçoamentos foram alcançados visando ajudar os cardiologistas na tarefa de estudar os registros de ECG de longa duração. Vários algoritmos, como aqueles mostrados na seção 4.1, tem sido publicados na literatura cientı́fica visando a detecção e classificação de batimentos cardı́acos. A maioria deles usa a representação do sinal no domı́nio do tempo ou da frequência para extrair caracterı́sticas especı́ficas das formas de onda do ECG e assim possibilitar o reconhecimento das diferentes formas de ondas pertencente às diferentes classes de cardiopatias. A maior dificuldade encontrada por uma analisador automático é a grande variação na morfologia das formas de ondas do ECG que pode variar não só de paciente, ou grupo de pacientes, como pode variar para o mesmo paciente (ELGENDI et al., 2008). 4.1 Estudos sobre Classificação de Batimentos Cardı́acos Em 2009, Yun-Chi et al desenvolveram um algoritmo que aplica Análise de Discriminante Linear (LDA) em sinais de ECG para o diagnóstico de arritmias cardı́acas (YEH; WANG; CHIOU, 2009). O método estudado por esses autores se propõe a distinguir bati- mentos cardı́acos normais e anormais. Entre os batimentos anormais, abrangendo quatro classes de arritmias, estão: Bloqueio de Ramo Direito, Bloqueio de Ramo Esquerdo, Contrações Ventriculares Prematuras e Contrações Atriais Prematuras. O sistema é composto 47 por três principais módulos, cujas funções são descritas a seguir: • Módulo de extração de QRS, para detectar o complexo QRS usando o Método de Operação de Diferença descrito em (YEH; WANG, 2008). • Seleção de caracterı́sticas qualitativas, onde o sistema seleciona as caracterı́sticas de diagnóstico definidas em detalhes em (ZIGEL; COHEN; KATZ, 2000) – Amplitude entre as ondas Q e R em um complexo QRS. – Amplitude entre as ondas R e S em um complexo QRS. – Tempo de duração entre as ondas Q e S em um complexo QRS. – Tempo de duração entre as ondas Q e T em um complexo QRS – Razão entre RRa e RRs . Onde RRs corresponde ao tamanho de um único intervalo RR enquanto RRs corresponde a média de todos os intervalos RR. – Inclinação entre a onda Q e a onda R em um complexo QRS – Inclinação entre a onda R e a onda S em um complexo QRS – Área do complexo QRS – Área de R’(uma deflexão positiva seguinte a onda S), S T’ (um ponto de referencia no inı́cio da onda T) em um complexo QRS. • Classificação dos batimentos cardı́acos aplicando Análise de Discriminante Linear sobre as caracterı́sticas determinadas no módulo anterior. Os registros disponı́veis no banco de arritmias MIT-BIH foram utilizados para demonstrar eficácia do algoritmo proposto, através de seus resultados experimentais, é apresentada na tabela 1. Os detalhes sobre os métodos de cálculo dos percentuais de Sensitividade (Se), Especificidade (Sp), Acuracidade Preditiva Positiva (PPA, do inglês Positive Predictive Value) e Acuracidade Preditiva Negativa (NPV, do inglês Negative Predictive Value) estão descritos no Capı́tulo 6 Também em 2009, Kiranyaz et al apresentaram um método de classificação de eletrocardiogramas de longo-termo, conhecidos como Holters, que podem apresentar em um só registro mais de 100.000 batimentos cardı́acos, o que torna sua análise manual sujeita a erros. Este método se propõe a identificar os seguintes cinco tipos de batimentos cardı́acos: 48 Tabela 1: Resultados obtidos por (YEH; WANG; CHIOU, 2009) NORM BRE BRD CVP CAP Média(%) Se(%) 98,97 91,07 95,09 92,63 84,68 92,49 Sp(%) 95,25 99,05 99,29 99,31 99,67 98,51 PPA(%) 97,26 96,50 94,23 91,49 94,01 97,70 NPV(%) 98,20 98,66 99,40 99,40 99,08 98,95 Geral 96,91 Normais (N), Batimentos Ectópicos Supra Ventriculares (S), Batimentos Ectópicos Ventriculares (V), Batimentos Fundidos (F) (fusão entre batimentos átrio-ventricular e ventricular (EDHOUSE, 2008)) e batimentos não-classificáveis (Q) (KIRANYAZ TURKER INCE; GABBOUJ, 2009). O sistema inicia com o pré-processamento dos dados para efetuar uma segmentação temporal, seguido pela extração dos batimentos-chave através da clusterização através de K-means. K-means, ou K-média, é um método de clusterização que primeiro assinala a cada ponto dos dados um dos centróides de cluster K e então atualiza-os com a média (means) dos seus pontos associados. Segundo os autores, este método sofre das seguintes desvantagens: • O número de clusters, K, precisa ser conhecido com antecedência. • A desempenho do método depende das posições iniciais aleatórias dos centróides enquanto o método converge para o ponto ótimo local mais próximo. • O método é dependente da distribuição dos dados. O sistema foi testado contra banco de arritmias MIT-BIH e obteve um bom desempenho apenas na classificação dos grupos de batimentos normais e ventriculares, e baixos percentuais de correção nas demais. Com os resultados mostrados na tabela 2, os autores concluem que uma separação mais acurada de batimentos ectópicos supra ventriculares e batimentos fundidos requer uma técnica de extração de caracterı́stica superior àquela apresentada neste estudo. Em 2010, Ghorbanian et al publicaram um estudo para o desenvolvimento de um algoritmo para detectar e classificar seis tipos de batimentos cardı́acos em ECG, incluindo 49 Tabela 2: Resultados obtidos por (KIRANYAZ TURKER INCE; GABBOUJ, 2009) NORM S V F Q Média(%) Se(%) 99,47 40,15 96,89 85,52 - 80,50 Sp(%) 96,49 99,78 99,38 99,49 - 98,78 PPA(%) 99,60 16,61 99,49 - 71,84 Geral 71,84 83,71 batimentos Normais(NORM),Contrações Atriais Prematuras(CAP), Bloqueio de Ramo Direito(BRD), Bloqueio de Ramo Esquerdo(BRE), Paced Beats (BM) (batimentos iniciados por um marcapasso eletrônico ventricular (EDHOUSE, 2008)) e Contrações Ventriculares Prematuras(CVP), usando uma rede neural (GHORBANIAN et al., 2010). Antes de submeter o vetor de entrada ao classificador neural o sinal é submetido a um préprocessamento que aplica as Transformadas Contı́nuas de Wavelet (CWT) para extrair as caracterı́sticas do sinal, e na sequência, aplica-se a técnica de Análise de Componentes Principais (PCA) para a redução da dimensionalidade da representação do sinal. Neste estudo foram usadas as funções wavelets de Haar e foram consideradas os coeficientes das escalas de 5 a 20. Segundo os autores, há duas vantagens nesta estratégia. A primeira vantagem é que computar as CWT nas escalas de 2 a 6 permite que o sinal seja analisado em detalhes. A segunda vantagem é que utilizando-se a faixa de escalas de 10 a 15 a morfologia geral do sinal e as suas diferenças com outros tipos de sinais podem ser ressaltadas. Como resultado da computação dos coeficientes de wavelet, foi gerada para cada classe, uma matriz 10 x 150, composta pelos coeficientes wavelets de cada batimento cardı́aco. Ao final do módulo de pré-processamento, e obtidas as matrizes de coeficientes de wavelets, os autores aplicam sobre elas a técnica de Análise de Componente Principal (PCA), que resultam em vetores com 10 componentes principais (PC). Selecionando apenas três componentes principais (PC), os autores acreditam que obtiveram significante redução de dimensionalidade sem uma significante perda de informações, melhorando assim o desempenho de sua rede neural. Os vetores com componentes principais serão submetidos como vetor de entrada no classificador neural. A rede neural escolhida pelos autores foi a clássica perceptron multi-camadas (Multi-layer perceptron neural network, ou MLPNN), que tem 2 camadas escondidas, com 60 nós na primeira camada e 15 nós na segunda 50 camada para 160 iterações e é treinada com o método de retropropagação de erro. Para todos os tipos de batimentos sob estudo, dois vetores caracterı́sticos de 150 posições, chamados segmentos, foram selecionados e submetidos para o treinamento da rede neural. O classificador foi testado com 100 segmentos para cada grupo de sinais de ECG, em idênticas condições aos segmentos de treinamento. O banco de dados de arritmias do MIT-BIH foi utilizado na avaliação do algoritmo proposto e, segundo os autores, alcança uma sensitividade de 99,5%, acurácia de preditividade positiva de 99,66% e uma acurácia total de 99,17%, conforme mostrado na tabela 3. Tabela 3: Resultados obtidos por (GHORBANIAN et al., 2010) NORM CAP BRD BRE BM CVP Média(%) Se(%) 100 100 100 98 100 99 99,50 PPA(%) 100 99 99 100 100 100 99,66 Geral(%) 99,17 51 5 DESENVOLVIMENTO DO PROJETO 5.1 PRÉ-PROCESSAMENTO DO SINAL DE ECG Nos anos recentes, devido ao desenvolvimento de novas técnicas matemáticas e novas plataformas computacionais, a tendência de automação da análise de arritmias ganhou grande incentivo. Muitos sistemas tem sido implementados para executar esta análise em eletrocardiogramas, Holters e monitores cardı́acos de pacientes em tempo-real. Os dispositivos de marca-passo mais modernos já incorporam esta capacidade de análise. Para que essas aplicações apresentem um nı́vel de confiabilidade aceitável é necessário que apresentem, na presença de ruı́dos, uma acurada detecção dos pontos fiduciais do sinal de ECG, como o complexo QRS, por exemplo (ALFAOURI; DAQROUQ, 2008). Os sinais eletrocardiográficos podem ser corrompidos por vários tipos de ruı́dos, originários de várias fontes. Alguns exemplos tı́picos, conforme (FRIESEN et al., 1990), são: • Interferência de rede elétrica. No Brasil, uma frequência fundamental de 60 Hz, com harmônicas. • Ruı́do transiente gerado pela perda de contato do eletrodo com o corpo do paciente. Pode ser permanente ou intermitente. • Ruı́dos gerados pela movimentação do paciente. A contração muscular causa artefatos com milivolts de amplitude. • Variação da linha de base e modulação da amplitude do ECG causado pela respiração do paciente. A amplitude do ECG pode variar em até 15% com a respiração e acrescenta uma onda senoidal de baixa frequência ao sinal • Ruı́dos de instrumentação gerados pela dispositivo eletrônico usado no processamento do sinal. • Ruı́dos eletrocirúrgicos. A grande maioria das aplicações de análise automática de ECG, incluindo a aplicação proposta neste estudo, baseiam-se fortemente na morfologia do sinal de ECG para reconhecer a variabilidade da atividade cardı́aca. Portanto, é de grande importancia que a mesma receba as informações do sinal tão livre de ruı́dos quanto possı́vel. Para que possa 52 dar suporte a decisões clı́nicas, o sinal deve ser filtrado para que dele sejam removidos todos os ruı́dos, sejam contı́nuos ou intermitentes (FRIESEN et al., 1990). Como parte deste estudo, essas tarefas de filtragem do sinal foram desenvolvidas e apresentaram resultados satisfatórios, o que é demonstrado a seguir. 5.1.1 Remoção de Variação de Linha de Base Entre os artefatos que prejudicam a correta leitura e análise de um sinal, de forma geral, e do ECG em particular, encontra-se aqueles de baixa frequência, que causam oscilação do sinal acima e abaixo da sua linha de base. Esta variação é uma forma de ruı́do, que pode ocasionar a diminuição do desempenho de sistemas de detecção do complexo QRS e de classificação de batimentos cardı́acos. Por exemplo, o Segmento ST, um importante ponto fiducial no ECG para a identificação de isquemias, é uma onda de baixa frequência que pode ser completamente distorcida por essa oscilação (JANE et al., 1992). Esse tipo de interferência pode possuir diversas origens: transpiração, movimento ou respiração do indivı́duo e pode ter papel relevante em registros de ECG medidos durante exercı́cio fı́sico. Para reduzir a distorção do segmento ST, em 1990 a Associação Americana do Coração (AHA, do inglês American Heart Association) recomendou que, para efeito de filtragem do sinal de ECG, a frequência de corte de baixa frequência fosse no máximo 0.05 Hz, ou até 0.067 Hz, para filtros digitais lineares com zero distorção de fase (KLIGFIELD et al., 2007). A figura 21 apresenta uma série temporal normalizada de um sinal de ECG, medido durante um ritmo normal de paciente que ocasionalmente apresenta episódios de arritmia. Há 2048 observações medidas em unidades de milivolts e coletados a uma taxa de 180 amostras por segundo. As flutuações de baixa frequência, destacadas na figura pela linha verde, são conhecidas como variações da linha de base e, neste caso, devidas a respiração do paciente. Enquanto as flutuações intermitentes em alta frequência entre os segundos 3 e 4 são devidos ao movimento do paciente (PERCIVAL; T.WALDEN, 2006). O método aqui adotado para a execução desta tarefa, descrito em (JANSEN; COURHARBO, 2001), consiste na decomposição completa do sinal em escalas de coeficientes Wavelets e então a eliminação, através de substituição por zeros, dos valores de todos os coeficientes do sexto nı́vel de decomposição da função de wavelet Daubechie 4 (Daub4). A frequência central (Fc ) para wavelets Daubechies 4 é 0.7143 Hz e o perı́odo de 53 Figura 21: Série temporal normalizada de um sinal de ECG, contaminado com ruı́dos de alta e baixa frequência. A componente de baixa frequência, causadora das variações sobre a linha de base, foi isolada e está destacada na cor verde. Sinal adaptado de (PERCIVAL; T.WALDEN, 2006). amostragem ∆ dos registros do banco MIT-BIH é de 1/360 segundos. Baseados no relacionamento entre escala e frequência, dada por (5.1), podemos selecionar a escala mais conveniente para remover as variações da linha de base (MATHWORKS, 2011). Fa = O resultado da equação Fc a×∆ (5.1) (5.1) indica que se escolhemos a sexta escala para ser pre- enchida com zeros, estaremos eliminando do sinal a baixa frequência correspondente a variação da linha de base, dentro das especificações da AHA, como mostrado abaixo: Fa = 0, 7143 ∼ = 0.023Hz 6 × 1/360 (5.2) A transformada de Fourier da componente de baixa frequência eliminada neste processo está demonstrada na figura 22 Após a substituição por zeros dos coeficientes do sexto nı́vel, a transformada inversa da wavelet Daub4 é calculada e o sinal é reconstituı́do, sem as variações de linha de base. O produto da reconstituição do sinal,sem a componente de baixa frequência, é mostrado na figura 23 . 54 Figura 22: Espectro de frequência dos coeficientes wavelet do sexto nı́vel de decomposição, usando wavelet Daub 4, correspondente a componente de baixa frequência causadora das variações da linha de base Figura 23: Mesmo sinal de ECG da figura 21, reconstituı́do, agora sem a componente causadora das variações de linha de base 5.1.2 Remoção de Ruı́dos em ECG Os sinais de eletrocardiograma são muito fácil e frequentemente contaminados por diferentes fontes de ruı́dos de alta frequência, durante a sua coleta e gravação. Entre estes sinais indesejados, os mais recorrentes são: • Os sinais de Eletromiograma(EMG), uma componente de alta frequência gerada pela contração muscular, os efeitos da instabilidade dos eletrodos devido ao movimento do corpo. • A interferência da fonte de linhas de força de 50 ou 60 Hz. 55 O isolamento e eliminação desses sinais espúrios torna-se uma tarefa mais complexa quando se sabe, conforme demonstrado em (PAN; TOMPKINS, 1985), que o espectro do Complexo QRS (5 a 15 Hz) tem intersecção com o ruı́do gerado pelos músculos. Neste projeto adotou-se o método de remoção de ruı́dos proposto por (DONOHO, 2002). Este método baseia-se em transformadas Wavelets, aplicando-se um limiar aos coeficientes obtidos pela sua decomposição. Através deste método o sinal é decomposto em nı́veis de coeficientes wavelets em suas respectivas escalas e submete-se apenas os coeficientes do nı́vel desejado ao limiar, deixando intactos todos os outros coeficientes dos demais nı́veis. O algorı́tmo de Donoho é resumido em (PERCIVAL; T.WALDEN, 2006) da seguinte forma: 1o Sejam os vetores W1 ,.....WJ 0 ,contendo os coeficientes wavelets, resultantes da decomposição do sinal, com N amostras, por Transformada Wavelets até o nı́vel J0 desejado, nı́vel este que depende da frequência a ser filtrada. 2o Calcula-se uma estimativa do desvio padrão, no original median absolute deviation ou (MAD), sobre os valores do nı́vel desejado. Neste estudo foi selecionado o nı́vel 1, por ser onde se encontram as mais altas frequências componentes do sinal. O MAD é calculado dividindo-se a mediana do nı́vel por 0,6754, uma constante utilizada para estimativa de desvio padrão de ruı́do branco Gaussiano (PERCIVAL; T.WALDEN, 2006). ρ̂(mad) ≡ mediana{|W1 ,0 |, |W1 ,1 |, ...|W1 , N −1 |} 2 0, 6745 (5.3) 3o Aplica-se o resultado de MAD, equação (5.3), no cálculo do limiar, δ̂ (u) , a ser aplicado ao nı́vel J0 , conforme a equação (5.4): δ̂ (u) 4o Para cada valor de Wj ,t , q ≡ 2ρ̂(mad) log (N ) j = 1, ...., J0 (5.4) e t = 0, ...., Nj − 1 aplicar a regra denominada hard thresholding, calculando os novos valores dos coeficientes conforme a regra (5.5): W j ,t = 0.0 W, j t se Wj ,t ≤ δ̂ (u) caso contrário 56 (5.5) A figura 24 mostra o sinal de ECG antes e após ser submetido ao processo de remoção de ruı́dos. Figura 24: Remoção de ruı́dos em ECG. Na figura de cima o sinal contaminado com ruı́dos de alta frequência e na figura de baixo o mesmo sinal, após a aplicação de hard thresholding 5.2 DETECÇÃO DE COMPLEXO QRS A caracterı́stica dominante em um Eletrocardiograma (ECG) é um pulso cı́clico em uma forma de onda chamado Complexo QRS, que corresponde ao instante em que as células cardı́acas ventriculares, após serem percorridas por uma corrente iônica, perdem a sua condição de equilibrio elétrico . O Complexo QRS é um dos mais importantes pontos fiduciais para os sistemas de monitoramento e classificação de ECG. Vários estudos tem sido feitos no sentido de criar uma solução universal para o problema de detecção do QRS. Entretanto devido a grande diversidade de forma de onda, anormalidades e interferências antes descritos a tarefa de detecção de QRS ainda é um desafio cientı́fico (ELGENDI et al., 2008). Neste trabalho, desenvolvemos uma adaptação dos algoritmos descritos em (PAN; TOMPKINS, 1985) e em (RUDNICKI; STRUMILLO, 2007). O primeiro passo no desenvolvimento de nosso trabalho foi a seleção da técnica de análise de sinal do ECG. Em vez de escolher uma técnica tradicional no processamento digital de sinais, que exigiria filtros especı́ficos para a frequência de cada registros (HAYKIN; VEEN, 2002), selecionamos a técnica de transformadas Wavelets devido a sua capacidade de separar o Complexo QRS 57 de outros componentes, e de ruı́dos, em um plano tempo-escala. Existe uma variedade de familias wavelets disponı́veis para esta finalidade, como Haar,Daubechies, Biorthogonal, Coiflets, Symlets, Morlet, e muitos outro grupos de wavelets Reais or Complexas (BURRUS; GOPINATH; GUO, 1998) (DAUBECHIES, 1988). Desses métodos citados, selecionamos a wavelet Daubechie 4, representada na figura. 25, devido ao seu suporte compacto e a similaridade de forma com um Complexo QRS. Figura 25: Representação da função wavelet Daubechies 4, também conhecida como Db4 ou Daub4. A computação inicia com a Análise de Multi Resolução (MRA, do inglês Multi Resolution Analysis) do sinal, decompondo 2N amostras. Neste trabalho adotamos N = 11, ou seja, um vetor de MRA de 2048 posições. Uma vez que a MRA produz N/2J coeficientes para cada nı́vel J(0 ≤ J ≤ N ), após três decomposições obtém-se três vetores, cada um contendo 1024, 512 e 256 coeficientes wavelet. Cada vetor é então interpolado usando-se o método cubic spline para reconstituir vetores de 1024 posições, que são somados em um vetor resultante. As etapas deste processo estão ilustradas na figura 26. MRA initialize 2048 Db4 model Interpolar Somar nı́veis nı́veis 1,2 e 3 1,2 e 3 2048 Figura 26: Esquema de MRA de 2048 amostras de ECG com a interpolação e soma dos nı́veis 1, 2 e 3. O vetor resultante da soma dos vetores interpolados é submetido a um filtro média móvel para eliminação dos picos duplos (5.6). O valor da média móvel depende do tamanho do vetor. Após alguns experimentos, o melhor desempenho do programa foi obtido 58 com o valor de n = 0, 03 segundos. n X y(n) = (5.6) k=n−M +1 A seguir estão listadas as regras implementadas na detecção do Complexo QRS 1. Ignore todos os picos que precedem ou seguem grandes picos por menos de 200 milisegundos 2. Se o pico ocorreu a menos de 360 milisegundos após uma detecção anterior, verificar se a derivada do sinal original é pelo menos a metade da derivada da detecção anterior. Se não for, o pico é considerado uma onda T. 3. Se o pico é maior que o limiar de detecção classifique como um Complexo QRS, caso contrário ignore-o. O limiar de detecção é obtido pelo cálculo da média dos último oito Complexo QRS anteriores. Cada vez que um pico é classificado como QRS, ele é adicionado a uma lista contendo os oito últimos QRS. O limiar é a média desses oito picos. 4. Se nenhum QRS foi detectado dentro do intervalo de uma vez e meia a média dos intervalos R-R, houve um pico que foi maior que a metade do limiar de detecção, e o pico está a mais de 360 milisegundos do pico anterior, classifique este pico como Complexo QRS. O detector de batimentos necessita dos limiares para trabalhar, então é necessário informar algumas estimativas iniciais para o limiar. Para obter esta estimativa inicial, calculamos a média dos oito maiores picos no intervalos dos 5 segundos inicias. A figura 27 mostra o mesmo sinal de ECG mostrado na figura 24 após ser submetido ao módulo de detecção do complexo QRS. As linhas verdes verticais são marcadores meramente ilustrativos, gerados pela aplicação para demonstrar visualmente a precisão na detecção deste ponto de referencia do sinal. Pode-se notar que as linhas verdes coincidem exatamente com o complexo QRS em todo o segmento do sinal 5.3 CLASSIFICAÇÃO DE ARRITMIAS O presente método de classificação de arritmias foi desenvolvido e avaliado utilizando o banco de dados de arritmias do MIT-BIH e programas da biblioteca WFDB, ambos 59 Figura 27: Linhas verticais verdes indicam a detecção do Complexo QRS em ECG disponibilizados em (GOLDBERGER et al., 2000). Para classificação de oito tipos de arritmias cardı́acas, foram selecionados, para treinamento e testes, dezenove entre os quarenta e oito registros disponı́veis no banco de arritmias. Os dezenove registros, selecionados por englobarem as arritmias selecionadas para este estudo, foram pré-processados e submetidos a duas Máquinas de Vetores de Suporte, referidas aqui como SVM1 e SVM2, na forma de diferentes vetores caracterı́sticos, baseados na forma temporal e espectral. Os resultados da classificação de SVM1 e SVM2 são, então, submetidos a um terceiro classificador que, baseado em uma Tabela de Distribuição de Probabilidades, criada por uma Rede Bayesiana, decidirá qual das oito possı́veis classes de arritmias, é a mais provável de ser verdadeira. O processo de classificação está representado esquematicamente pela figura 28 e explicado passo a passo, em detalhes, nesta seção. Figura 28: Representação esquemática do processo de classificação de arritmias cardı́acas. 1. Para treinamento e testes de classificação foram selecionados dezenove entre os quarenta e oito registros disponı́veis no banco de arritmias do MIT. Esses dezenove 60 registros foram selecionados por conterem, em seu conjunto, apenas os oito classes de arritmias aqui estudadas e estão listadas na tabela 4. A natureza e caracterı́sticas de cada classe de arritmia estão demonstradas em detalhes na seção 2.4. Tabela 4: Classes de arritmias cardı́acas estudadas neste trabalho Classes de Arritmias Seq. Descrição Abbrev. Código MIT-BIH 1 Normal NORM N 2 Bloqueio de Ramo Esquerdo BRE L 3 Bloqueio de Ramo Direito BRD R 4 Contração Atrial Prematura CAP A 5 Contração Ventricular Prematura CVP V 6 Batimento de Marcapasso BM / 7 Onda Flutter Ventricular OFV ! 8 Batimento de Escape Ventricular BEV E 2. Cada registro de ECG foi lido e submetido a um pré-processamento para remoção de ruı́dos de alta frequência e variações em torna da linha de base. 3. Uma acurada detecção do complexo QRS é um passo essencial para a classificação de arritmias em ECG (ELGENDI et al., 2008). Por este motivo, a primeira tarefa foi garantir um desempenho aceitável do detector de QRS sobre todos os 48 registros do banco de arritmias MIT-BIH, coletando os resultados da detecção, mostrados na tabela apresentada no Apêndice A - Desempenho do algoritmo de detecção de QRS. Neste estudo procurou-se ajustar o algoritmo de detecção de QRS, visando obter uma sensitividade comparável àquelas obtidas nos estudos desenvolvidos por (ZHENG; WU, 2008), (ELGENDI et al., 2008) e (RUDNICKI; STRUMILLO, 2007). 4. Identificados o máximo local de cada complexo QRS, fizemos a segmentação do registro para a criação de vetores padrões. Cada segmento corresponde a um vetor padrão, que possui o tamanho de 128 posições e tem o ponto máximo do complexo QRS centrado na posição central do vetor, a posição 64. 61 5. Cada vetor padrão, contendo a forma de onda, foi submetido a transformada Wavelet DB4 para a obtenção de vetores padrões contendo a caracterı́stica espectral do registro. Procedendo assim, dispusemos de dois tipos de vetores padrões: o primeiro baseado na morfologia do sinal e o segundo baseado no espectro de frequencia do sinal. 6. A redução da dimensionalidade do vetor caracterı́stico influencia positivamente tanto a eficiência computacional quanto a capacidade de generalização das máquinas de vetores de suporte (CRISTIANI, 2000). Para obtermos a redução de dimensionalidade dos vetores caracterı́sticos, aplicamos sobre os vetores padrões a técnica de Análise de Componente Principal (PCA, do inglês Principal Component Analysis), calculada por matriz de covariância, obtendo-se os autovalores, que formarão os vetores caracterı́sticos. O gráfico dos Componentes Principais está mostrado na figura 29. A análise do gráfico indicou que os 10 primeiros Componentes são suficientes para a boa representação dos padrões. O mesmo processo de redução foi aplicado tanto ao sinal morfológico quando ao espectral. Figura 29: Representação dos Autovalores, ou Componentes Principais, calculados a partir da matriz de covariancia dos vetores padrões. 7. Para efeito de treinamento das máquinas de vetores de suporte foi desenvolvido um programa que seleciona aleatoriamente dentro de cada registro o número de amostras desejadas. Assim a cada ensaio de treinamento e testes obteve-se resultados ligeiramente diferentes mas que comprovam a estabilidade e convergência dos classificadores. Para cada classificador, SVM1 e SVM2, o processo Treinamento-Teste foi executado seis vezes e seus resultados são mostrados na seção TESTES E RESULTADOS. A tabela 5 mostra como serão selecionados os registros para extração 62 dos vetores caracterı́sticos das classes para treinamento dos classificadores. Tabela 5: Amostras de registros para criação de vetores de treinamento e testes Registros e numero de amostras usados para treinamento Seq. Classes Registros MIT-BIH NORM 100, 112, 121, 219, 2 BRE 109, 111, 207, 214 100 3 BRD 118, 124, 212, 231 100 CAP 209, 222, 232 220 223 100 47 35 CVP 106, 119, 200, 203, 208 213, 221, 228, 233 116 201 210 215 100 100 54 98 96 82 6 PB 102, 104, 107, 217 100 7 OFV 207 236 8 BEV 207 52 1 4 5 101, 113, 122, 230, 103, 105, 108 114, 115, 117 123, 202, 205 234 Totais Vetores para Treinamento 100 100 100 100 4900 8. Para este estudo, selecionamos a biblioteca de programas LIBSVM, disponı́vel em (CHANG, 2011). As máquinas de vetores de suporte foram configuradas para utilizar o kernel RBF (do inglês Radial Basis Function), pois este é o kernel padrão desta biblioteca e requer apenas dois parâmetros de configuração: C , chamado de coeficiente de penalidade, uma relação entre margem do hiperplano e erro, e Gama (γ), que define o tamanho da RBF (BURGES, 1998). Para a criação do modelo, os valores ótimos fornecidos pela biblioteca LIBSVM para os dados de treinamento foram C = 32.0 e γ = 0.5 9. Finalmente, o resultado dos dois classificadores são submetidos a um classificador probabilı́stico que, baseado em uma Tabela de Distribuição de Probabilidades criada por uma Rede Bayesiana, atribuirá uma classificação final. Esta tabela foi criada com a submissão ao aplicativo BayesLab dos resultados de treinamento de classi63 ficação das SVM e o resultado anotado do banco de dados do MIT. Mais detalhes desta tabela podem ser encontradas no Apêndice C - Tabelas de Distribuição de Probabilidades. 64 6 TESTES E RESULTADOS 6.1 Método de Avaliação de Desempenho dos Classificadores. A métrica adotada para a avaliação testes de diagnósticos, em geral, e do desempenho dos classificadores de ECG, em particular, utiliza cinco ı́ndices estatı́sticos, abaixo descritos (AKOBENG, 2007) e (YEH; WANG; CHIOU, 2009): Dadas as seguintes convenções: • TP (True Positive) : Resultado verdadeiramente positivo de um teste. Por exemplo, quando esta aplicação indica uma amostra do ECG como sendo um QRS e esta amostra realmente corresponde a um QRS, este resultado é considerado um TP, um verdadeiro positivo. • FP (False Positive) : Resultado falsamente positivo de um teste. Por exemplo, quando esta aplicação indica uma amostra do ECG como sendo um QRS e esta amostra não corresponde a um QRS, este resultado é considerado um FP, um falso positivo. • TN (True Negative) : Resultado verdadeiramente negativo de um teste. Por exemplo, quando esta aplicação indica uma amostra do ECG como não sendo um QRS e esta amostra realmente não corresponde a um QRS, este resultado é considerado um TN, um verdadeiro negativo. • FN (False Negative) : Resultado falsamente negativo de um teste. Por exemplo, quando esta aplicação indica uma amostra do ECG como não sendo um QRS e esta amostra na verdade corresponde a um QRS, este resultado é considerado um FN, um falso negativo. Os exemplos dados acima foram baseados em detecção de QRS, porém as métricas descritas aplicam-se tanto a detecção de QRS quanto a classificação de arritmias. Os ı́ndices estatı́sticos são definidos e calculados da seguinte forma: 1. Sensitividade (Se): É definida pela relação entre os resultados verdadeiramente positivos (TP) e a soma dos resultados verdadeiramente positivos (TP) mais os falsamente negativos (FN). Em termos diagnósticos, é a proporção de eventos reais de arritmia que receberão um correto diagnóstico positivo. 65 É expresso pela seguinte equação: Se = TP (%) TP + FN (6.1) 2. Especificidade (Sp): É definida pela relação entre os resultados verdadeiramente negativos (TN) e a soma dos resultados verdadeiramente negativos (TN) mais os falsamente positivos (FP). Em termos diagnósticos, é a proporção de eventos com ausência de arritmia que receberão um correto diagnóstico negativo. Sp = TN (%) TN + FP (6.2) 3. Acuracidade Preditiva Positiva (PPA): (ou PPV, do inglês Positive Predictive Value) É definida como a proporção dos diagnósticos com um resultado positivo que realmente apresentam arritmia. A PPA é, algumas vezes também denominada de ”probabilidade pós-teste da doença, dado um teste positivo”. Pode ser obtido pela seguinte equação: PPA = TP (%) TP + FP (6.3) 4. Acuracidade Preditiva Negativa (NPV): NPV, do inglês Negative Predictive Value , é definida como a proporção dos diagnósticos com um resultado negativo que realmente não apresentam arritmia. A NPV também pode ser definida como a probabilidade de não ter a doença, dado um teste negativo Pode ser obtido pela seguinte equação: NP V = TN (%) TN + FN (6.4) 5. Acurácia Total da Classificação(TCA): TCA, do inglês Total Classification Accuracy, é a relação entre o numero total de resultados corretos e o numero total de testes. Pode ser obtido pela seguinte equação: T CA = Número de batimentos corretamente diagnosticados (%) Número total de batimentos (6.5) O desempenho dos classificadores de batimentos cardı́acos citados a seguir, neste estudo, é avaliada utilizando-se os ı́ndices estatı́sticos acima descritos. 66 6.2 Validação Cruzada. Validação cruzada é uma técnica de avaliação da capacidade de generalização, em uma análise estatı́stica, sobre um conjunto independente de dados. Esta técnica é utilizada, principalmente, em aplicações que tem como objetivo a predição, e deseja-se estimar o desempenho do modelo preditivo sob avaliação. Entre os tipos mais comuns de validação cruzada, selecionamos para este estudo a validação por amostragem randômica repetida. Este método consiste em executar o ciclo de treinamento e testes repetidas vezes, sabendose que a cada execução os registros para treinamento são selecionados randômicamente, conforme descrito em (KOHAVY, 1995). Essa seleção aleatória de registros de treinamento vai se refletir em diferentes resultados de testes apresentados pelo classificador, do qual, no entanto, espera-se que apresente os mesmos nı́veis de desempenho a cada ciclo de execução. Neste estudo foram testados dois classificadores, ambos baseados em Máquina de Vetores de Suporte e são aqui denominados SVM1 , classificador que tem como vetor caracterı́stico of formato temporal do sinal de ECG e SVM2, classificador que tem como vetor caracterı́sticos os coeficientes da transformada wavelet do sinal de ECG. Para cada classificador, SVM1 e SVM2, o processo Treinamento-Teste foi executado seis vezes e seus resultados foram tabulados nas folhas anexas no Apêndice B. Avaliação Cruzada dos Classificadores. 67 Tabela 6: Resumo da Validação Cruzada TCA(%) Obtida na Validação Cruzada Execuções SVM 1 SVM 2 Primeira execução 98.5438 98.4006 Segunda execução 98.7139 98.5780 Terceira execução 98.5616 98.6293 Quarta execução 98.7014 98.6547 Quinta execução 98.6028 98.2566 Sexta execução 98.6495 98.5616 TCA Média (%) 98.6288 98.5134 Dos resultados mostrados na tabela 6 pode-se observar que os classificadores aqui desenvolvidos apresentam estabilidade de resultados independentemente do número de execuções. 68 6.3 Resultados de classificação da Rede Bayesiana. A seguir são mostrados os resultados numéricos e gráfico classificação feito pelo classificador bayesiano baseado na Tabela de Distribuição de Probabilidades. Foram testados dezenove dos quarenta e oito registros do banco de arritmias. Para cada registro foram calculados a Acurácia Total de Classificação, ou TCA(%), conforme descrita na Seção 6. Ao final dos resultados mostrados na tabela 7 são calculados o Totais, a Média Geral e o Desvio Padrão da série de resultados. Tabela 7: Resultados dos Testes do Classificador Bayesiano Registro Bati- ECG mentos Corretas SVM 1 Err TCA(%) Corretas SVM 2 Err TCA(%) Corretas Rede Bayesiana Err TCA(%) 100 2273 2267 6 99.7360 2268 5 99.7800 2268 5 99.7800 103 2084 2082 2 99.9040 2079 5 99.7601 2080 4 99.8080 106 2027 1966 61 96.9906 1986 41 97.9773 2013 14 99.3093 107 2137 2122 15 99.2981 2132 5 99.7660 2130 7 99.6724 111 2124 2057 67 96.8456 2045 79 96.2806 2048 76 96.4218 112 2539 2538 1 99.9606 2538 1 99.9606 2538 1 99.9606 115 1953 1945 8 99.5904 1952 1 99.9488 1952 1 99.9487 116 2412 2407 5 99.7927 2402 10 99.5854 2409 3 99.8756 117 1535 1532 3 99.8046 1534 1 99.9349 1528 7 99.5439 119 1987 1987 0 100.000 1987 0 100.000 1987 0 100.000 121 1863 1861 2 99.8926 1858 5 99.7316 1860 3 99.8389 122 2476 2476 0 100.000 2476 0 100.000 2469 7 99.7172 123 1518 1518 0 100.000 1517 1 99.9341 1518 0 100.000 200 2601 2474 127 95.1173 2469 132 94.9250 2480 121 95.3479 207 2331 2280 51 97.8121 2278 53 97.7263 2269 62 97.3401 209 3005 2791 214 92.8785 2815 190 93.6772 2877 128 95.7404 212 2748 2688 60 97.8166 2731 17 99.3814 2729 19 99.3085 220 2047 2038 9 99.5603 2035 12 99.4138 2035 12 99.4137 221 2427 2411 16 99.3407 2400 27 98.8875 2409 18 99.2583 Totais 42087 41440 647 98.4627 41502 585 98.6100 41599 488 98.8405 Média 98.6495 98.5616 98.9624 D. Padrão 1.9709 2.0621 1.5199 A figura 30 demonstra graficamente o desempenho da classificação da Rede Bayesiana em relação aos dois outros classificadores. Esta figura representa o desempenho dos três classificadores e nela podemos notar que a classificação pela Rede Bayesiana pouco contribuiu para o desempenho do conjunto. Isso se deve a alta similaridade de desempenho 69 entre os dois primeiros classificadores, o que deixa pouca margem para decisão do classificador bayesiano, uma vez que eles produzem resultados bem próximos para os mesmos casos de arritmias. Figura 30: Comparativo gráfico do desempenho dos três classificadores. A tabela 8 demonstra o resultado obtido por este estudo considerando as classes de arritmias individualmente, Tabela 8: Resultados obtidos por este estudo NORM CAP BRD BRE BM CVP OFV BEV Se(%) 99,84 65,67 99.12 97.32 98.90 85,36 97.67 99.05 Sp(%) 97,74 96,40 98.40 97.11 98.33 99,58 98.07 99.87 TCA(%) 98.79 81,03 98.76 97.21 98.60 92,47 97,87 99.46 Dando sequência à avaliação dos classificadores, selecionamos aleatoriamente cinco registros de ECG que não tiveram nenhuma participação no treinamentos das Máquinas de Vetores de Suporte ou da Rede Bayesiana. Esses registros possuem classes de arritmias que não foram eleitas para este estudo, tais como, por exemplo, Batimento Atrial Prematuro Aberrante e Fusão de Batimento Normal e Ventricular, encontradas nos registros 202 e 203. Os resultados numéricos desse experimento estão mostrados na tabela 9. Nesta tabela podemos notar uma grande variação nos resultados com alguns registros obtendo mais de 80% de acuracidade, como os registros 215 e 233, bem como outros com resultados em torno de 11%, caso do registro 232 que possui 77% dos seus batimentos cardı́acos na 70 classe de Batimento Atrial Prematuro. Além dos resultados numéricos, mostramos na figura 31 o desempenho dos classificadores quando a eles são submetidos os registros que não passaram por nenhuma fase de treinamento. O gráfico apenas enfatiza a grande variação dos resultados, bem como a baixa contribuição da Rede Bayesiana para a acurácia total, uma vez que os classificadores baseados em Máquinas de Vetores de Suporte também neste caso apresentam desempenho semelhante. Tabela 9: Resultados dos Testes do Classificador Bayesiano(Registros Sem Treino) Registro Bati- ECG mentos Corretas SVM 1 202 2117 203 2976 215 3363 232 233 Totais SVM 2 Err TCA(%) Corretas 1546 590 73.0278 1004 1972 33.7365 2751 612 81.8019 1779 212 1567 3078 2789 290 13313 8301 5031 Rede Bayesiana Err TCA(%) Corretas Err TCA(%) 1578 539 74.5394 729 2247 24.4959 1581 536 74.6811 726 2250 24.3951 2752 611 81.8316 2883 480 67.8858 11.9168 267 1512 90.5782 2505 573 15.0084 211 1568 11.8605 81.3840 2524 554 82.0001 62.3525 7831 5482 58.8222 7925 5088 59.5282 Média 58.9022 56.0135 53.3918 D. Padrão 30.2659 29.4486 28.5834 Figura 31: Comparativo gráfico do desempenho dos três classificadores, testando apenas registros não usados no treinamento. 71 6.4 Resultados Finais Obtidos A tabela 10 mostra um comparativo entre os resultados obtidos por estudos desenvolvidos por (GHORBANIAN et al., 2010), (KIRANYAZ TURKER INCE; GABBOUJ, 2009), (YEH; WANG; CHIOU, 2009) sobre a classificação de batimentos cardı́acos, utilizando o banco de arritmias do MIT-BIH. Nesta tabela é mostrada, para cada estudo, o número de classes de batimentos cardı́acos estudados, a Sensitividade(Se) média obtida, e a Acurácia Total da Classificação (TCA) média obtida. A última linha da tabela apresenta os resultados finais obtidos por este trabalho ao classificar oito tipos de batimentos cardı́acos, número superior àqueles estudados nos demais trabalhos, e obteve resultados compatı́veis com o estado da arte na classificação de arritmias baseadas em eletrocardiograma. Tabela 10: Comparação entre resultados obtidos por três estudos e os resultados obtidos neste trabalho Comparativo de Performance de Classificadores usando banco de arritmias MIT-BIH Estudo Classes Se Média TCA média (GHORBANIAN et al., 2010) 6 99,50 99,17 (KIRANYAZ TURKER INCE; GABBOUJ, 2009) 4 98,78 99,04 (YEH; WANG; CHIOU, 2009) 5 92,48 96,23 Este Estudo (Resultados Obtidos) 8 98,58 98,96 72 7 CONSIDERAÇÕES FINAIS Sistemas de aprendizado de máquina ocupam atualmente uma vasta área de pesquisa onde a comunidade cientı́fica e acadêmica tentam descobrir novas aplicações e novos algoritmos em busca de melhor desempenho desses sistemas. Essas pesquisas têm demonstrado que as máquinas podem atingir um significante nı́vel de aprendizagem e capacidade de inferência. O desenvolvimento de sistemas de aprendizado confiáveis é de extrema importancia, uma vez que muitos problemas não podem ser solucionados pelas técnicas clássicas de programação, uma vez que não exista um modelo matemático do problema. Foi com esta motivação que procuramos aplicar essa técnica a um problema de grande importância para a sociedade: a detecção de arritmias em eletrocardiogramas. Neste trabalho demonstramos a aplicação de Máquinas de Vetores de Suporte combinadas a uma Rede Bayesiana para classificar oito tipos de arritmias registradas em eletrocardiogramas do banco de arritmias do Massachusetts Institute of Technology. As contribuições deste trabalhos estão basicamente concentradas nos capı́tulos 5 e 6, enquanto os capı́tulos anteriores fornecem os fundamentos necessários à compreensão e fornecem as razões para as alternativas adotadas no desenvolver da pesquisa. As contribuições do Capı́tulo 5 consistem na demonstração das três etapas da construção da aplicação que é formada por um módulo de pré-processamento do sinal, a detecção do Complexo QRS, ponto fiducial do ECG e indispensável a qualquer classificador e, finalmente a criação de uma combinação de classificadores visando obter melhor desempenho da aplicação. Os resultados dos testes a que foram submetidos esses classificadores foram demonstrados no Capı́tulo 6. No Capı́tulo 4 relacionamos três estudos recentes na área da classificação de arritmias que utilizam técnicas diversas e quando comparamos esses resultados àqueles obtidos neste estudo, mostrados na seção 6.4, podemos afirmar que os objetivos do presente estudo foram atingidos a contento. Ao analisarmos os resultados do estudo, podemos concluir que, dada a similaridade de desempenho dos dois classificadores baseados em máquina de vetores de suporte, a Rede Bayesiana deu pouca, ou nenhuma, contribuição para o aumento da acuracidade da classificação. Somos levados a crer que caso os classificadores apresentassem diferentes desempenhos, em diferentes classes de arritmia, o classificador bayesiano teria um papel mais relevante no sistema aqui desenvolvido. Isso pode ser levado em consideração em futuros estudos, onde pode-se 73 criar um comitê de especialistas na classificação em tipos especı́ficos de arritmias e então concatena-los em uma Rede Bayesiana, espera-se, aumentará a acuracidade do sistema como um todo. Apesar da baixa contribuição da Rede Bayesiana, os resultados aqui obtidos, são tão bons quanto e talvez possam ser considerados ainda melhores que aqueles demonstrados no Capı́tulo 4, se levarmos em conta que mais classes de arritmias foram estudadas neste trabalho obtendo resultados numéricos aproximados àqueles publicados. 7.1 Perspectivas Futuras As perspectivas futuras incluem tópicos e funcionalidades que não foram detalhadamente estudadas pela pesquisa pelos mais variados motivos, bem como funcionalidades que ganham importancia devido aos próprios resultados obtidos pela pesquisa. Como perspectivas, podemos citar : • Implementação de Detecção de QRS em tempo real. O presente trabalho foi pensado em termos de registros pré-gravados de ECG. A detecção de QRS em tempo real possibilitaria a adaptação do programa a monitores cardı́acos. • Testes das máquinas de vetores de suporte com diferentes kernel, o que poderia, em tese, melhorar o desempenho da classificação. • Acrescentar mais dados aos vetores caracterı́sticos das máquinas de vetores de suporte, tais como, por exemplo, distancia média das 10 últimas ondas R, amplitude da onda R e a energia do complexo QRS. Mais descrições de vetores caracterı́sticos estão disponı́veis em(YEH; WANG; CHIOU, 2009). • Implementação desta aplicação em aparelhos móveis como celulares ou tablets. Esses equipamentos podem oferecer recursos de comunicação e solicitação de auxilio em caso de emergência. 74 REFERÊNCIAS BIBLIOGRÁFICAS A., P. C. et al. Diretrizes da sociedade brasileira de cardiologia sobre análise e emissão de laudos eletrocardiográficos (2009). Arquivos Brasileiro de Cardiologia, v. 93(3 supl.2), p. 1–19, 2009. Disponı́vel em: <http://publicacoes.cardiol.br/consenso/>. AKOBENG, A. K. Understanding diagnostic tests 1: sensitivity, specificity and predictive values. Acta Pædiatrica, Blackwell Publishing Ltd, v. 96, n. 3, p. 338–341, 2007. ALFAOURI, M.; DAQROUQ, K. Ecg signal denoising by wavelet transform thresholding. American Journal of Applied Sciences, v. 5, p. 276–281, 2008. ALPAYDIN, E. Introduction to Machine Learning. 2nd. ed. [S.l.]: The MIT Press, 2010. Hardcover. (Adaptive Computation and Machine Learning). BARTLETT, P. J. et al. (Ed.). Advances in Large-Margin Classifiers. Cambridge, MA: MIT Press, 2000. BERTSEKAS, D. P.; TSITSIKLIS, J. N. Introduction to Probability. Cambridge,MA: Massachusetts Institute of Technology - Lecture Notes - Course 6.041-6.431, 2000. BLANZ, V. et al. Comparison of view-based object recognition algorithms using realistic 3d models. In: MALSBURG, C. von der et al. (Ed.). Artificial Neural Networks ICANN 96. [S.l.]: Springer Berlin, 1996. v. 1112, p. 251–256. BURGES, C. J. C. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discorvery, v. 2, p. 161–167, 1998. BURRUS, C. S.; GOPINATH, R. A.; GUO, H. Introduction to Wavelets and Wavelets Tranforms - A Primer. New Jersey: Prentice Hall, Inc, 1998. CHANG, C.-J. L. C.-C. LIBSVM – A Library for Support Vector Machines. 2011. Disponı́vel em: <http://www.csie.ntu.edu.tw/˜cjlin/libsvm/>. Acesso em: 10 fevereiro 2011. CORP, M. S. . D. The merck manual for healthcare professionals. The Merck Manuals Online Medical Library, 2011. Disponı́vel em: <http://www.merckmanuals.com/professional/sec07/ch070/ch070e.html>. Acesso em: 1 fevereiro 2011. 75 CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, Springer Netherlands, v. 20, p. 273–297, 1995. ISSN 0885-6125. Disponı́vel em: <http://dx.doi.org/10.1023/A:1022627411411>. CRAMMER, K.; SINGER, Y. On the algorithm implementation of multiclass kernel-based vector machines. Journal of Machine Learning Research, v. 2, p. 265–292, 2001. CRISTIANI, J. S.-T. N. Support Vector Machines and other kernel based learning methods. Cambridge,UK: Cambridge University Press, 2000. DAUBECHIES, I. Orthonormal bases of compactly supported wavelets. Communications on Pure and Applied Mathematics, v. 41, p. 909–996, 1988. DONOHO, D. L. De-noising by soft-thresholding. IEEE Transactions on Information Theory, v. 41, n. 3, p. 613–627, August 2002. Disponı́vel em: <http://dx.doi.org/10.1109/18.382009>. DUPRE, A.; VIEAU, S.; IAIZZO, P. A. Handbook of Cardiac Anatomy, Pshysiology, and Devices. 2nd. ed. [S.l.]: Springer, 2009. EDHOUSE, F. M. J. ABC of Clinical Electrocardiography. [S.l.]: Blackwell Publishing, 2008. ELGENDI, M. et al. A robust qrs complex detection algorithm using dynamic thresholds. In: Proceedings of the International Symposium on Computer Science and its Applications. Washington, DC, USA: IEEE Computer Society, 2008. p. 153–158. ISBN 978-0-7695-3428-2. FRADKIN, I. M. D. Support vector machines for classification. DIMACS Series in Discrete Mathematics and Theoretical Computer Science, v. 70, p. 13–20, 2006. FRIESEN, G. M. et al. A comparison of the noise sensitivity of nine qrs detection algorithms. IEEE Transactions on Biomedical Engineering, v. 37, p. 85 – 98, 1990. GHORBANIAN, P. et al. Heart arrhythmia detection using continous wavelet transform and principal component analisys with neural network classifiers. Computers in Cardiology 2010, v. 37, p. 669–672, 2010. 76 GOLDBERGER, A. L. et al. Physiobank, physiotoolkit, and physionet: Components of a new research resource for complex physiologic signals. Circulation, v. 101, n. 23, p. e215–e220, 2000. Circulation Electronic Pages: http://circ.ahajournals.org/cgi/content/full/101/23/e215. Disponı́vel em: <http://www.physionet.org/physiobank/database/mitdb/>. GOLDWASSER, G. P. Eletrocardiograma Orientado para o Clı́nico. 3. ed. Rio de Janeiro: Editora Rubio, 2009. HAYKIN, S. Neural Network A Comprehensive Foundation. Englewoods Cliffs,NJ: Macmillan College Publishing Company. Inc., 1994. HAYKIN, S.; VEEN, B. V. Signals and Systems. 2nd. ed. New York, NY, USA: John Wiley & Sons, Inc., 2002. ISBN 0471164747. HCBR. Implante de Marcapasso. Brası́lia, DF, 2011. Disponı́vel em: <http://www.hcbr.com.br/hemodinamica-marcapasso.php>. Acesso em: 20 novembro 2011. HEALTHMAD. The Nobel Prize in Physiology or Medicine 1924. 2010. Disponı́vel em: <http://nobelprize.org/nobel prizes/medicine/laureates/1924/>. Acesso em: 20 novembro 2010. HECKERMAN, D. Probabilistics Networks Similarities. Redmond, Washington, 1995. Disponı́vel em: <http://research.microsoft.com/en-us/um/people/heckerman/H91book.pdf>. Acesso em: 20 abril 2011. I.MAGLOCIANNIS et al. Risk analisys of a patient monitoring system using bayesian network modeling. Journal of Biomedical Informatics, v. 39, p. 637–647, 2006. JANE, R. et al. Adaptive baseline wander removal in the ecg: Comparative analysis with cubic spline technique. Computers in Cardiology 1992. Proceedings., p. 143–146, 1992. JANSEN, A.; COUR-HARBO, A. Ripples in Mathematics The Discrete Wavelet Transform. New York,USA: Springer, 2001. JONES, S. A. ECG Notes Interpretation and Management Guide. Phiadelphia: F. A. Davis Company, 2005. KHAN, M. G. Rapid ECG Interpretation. 3rd. ed. Totowa, NJ: Humana Press Inc., 2008. 77 KIRANYAZ TURKER INCE, J. P. S.; GABBOUJ, M. A personalized classification for holter register. 31st Annual International Conference of the IEEE Engineering in Medicine and Biology Society, v. 1, p. 2–6, 2009. KLABUNDE, R. E. Cardiovascular Physiology Concepts. [S.l.]: Lippincott Williams & Wilkins, 2005. KLIGFIELD, P. et al. Recommendations for the standardization and interpretation of the electrocardiogram: Part i: The electrocardiogram and its technology: A scientific statement from the american heart association electrocardiography and arrhythmias committee, council on clinical cardiology; the american college of cardiology foundation; and the heart rhythm society endorsed by the international society for computerized electrocardiology. Circulation, v. 115, n. 10, p. 1306–1324, 2007. Disponı́vel em: <http://circ.ahajournals.org/cgi/content/abstract/115/10/1306>. KOHAVY, R. A study of cross-validation and bootstrap for accuracy estimation and model selection. International Joint Conference on Artificial Intelligence (IJCAI), v. 42, p. 1137 – 1143, 1995. LUNA, A. B. de. Basic Electrocardiography: Normal and Abnormal ECG Patterns. [S.l.]: Blackwell Publishing, 2007. MATHWORKS. Matlab R2007a - Product Documentation. Natick, USA, 2011. Disponı́vel em: <http://www.mathworks.com/help/toolbox/wavelet/ref/scal2frq.html>. Acesso em: 20 novembro 2011. MAYER, P. L. Probabilidade Aplicações à Estatı́stica. 2nd. ed. Rio de Janeiro, RJ: LTC - Livros Técnicos e Cientificos S/A, 1983. MEDLINEPLUS. Heart chambers. 2011. Disponı́vel em: <http://www.nlm.nih.gov/medlineplus/ency/imagepages/19612.htm>. Acesso em: 10 janeiro 2011. NAVIDI, W. Statistics for Engineers and Scientists. 1st. ed. New York, NY: McGraw Hill Higher Education, 2006. ORGANIZATION, W. H. World Health Statistics 2008. 2008. 20 p. Disponı́vel em: <http://www.who.int/whosis/whostat/2008/en/index.html>. Acesso em: 20 novembro 2010. 78 PAN, J.; TOMPKINS, W. J. A real-time qrs detection algorithm. IEEE Transactions on Biomedical Engineering, BME-32, p. 230 – 235, 1985. PENG, C. L. Protect Your Heart Before It Gets Blocked and Clogged. 2011. Disponı́vel em: <http://healthmad.com/conditions-and-diseases/protect-your-heart-before-it-getsblocked-and-clogged/>. Acesso em: 20 novembro 2010. PERCIVAL, D. B.; T.WALDEN, A. Wavelets Methods for Time Series Analysis. New Jersey: Cambridge University Press, 2006. RAGHAVA, G. Bioinformatics Centre Institute of Microbial Technology. 2011. Disponı́vel em: <http://www.imtech.res.in/raghava/rbpred/svm.jpg>. Acesso em: 29 abril 2011. REISNER, A. T. Advanced Method and Tools for ECG Data Analisys. [S.l.]: Artech House, INC, 2006. RUDNICKI, M.; STRUMILLO, P. A real-time adaptive wavelet transform-based qrs complex detector. In: ICANNGA (2). [S.l.: s.n.], 2007. p. 281–289. RUSSEL, S.; NORVIG, P. (Ed.). Artificial Intelligence A Modern Approaches. 2nd. ed. New Jersey: Prentice Hall, 2003. SALOMON, D. Data Compression: The Complete Reference. 4th. ed. Berlin, Germany: Springer, 2007. SAS, B. BayesiaLab 5.0 DE. 2011. Disponı́vel em: <http://www.bayesia.com>. Acesso em: 10 novembro 2011. SCHöLKOPF, B.; SMOLA, A. J. Learning with Kernels Support Vector Machines, Regularization, Optimization and Beyond. [S.l.]: Massachusetts Institute of Technology, 2002. SCHÖLKOPF, B.; BURGES, C.; VAPNIK, V. Extracting support data for a given task. In: FAYYAD, U. M.; UTHURUSAMY, R. (Ed.). Proceedings of the First International Conference on Knowledge Discovery and Data Mining. Menlo Park: AAAI Press, 1995. SCIENCES, H.-M. D. of H.; TECHNOLOGY. MIT-BIH Database Distribution. 2008. Disponı́vel em: <http://ecg.mit.edu/>. Acesso em: 29 março 2011. 79 SPIEGELHALTER, D. J.; ABRAMS, K. R.; MILES, J. P. Bayesian Approaches to Clinical Trials and Health-Care Evaluation. West Sussex,England: John Wiley & Sons, Inc., 2004. THALER, M. S. ECG Essencial : Eletrocardiograma na Prática Diária. 5. ed. Porto Alegre: Artmed, 2008. TOMPKINS, W. J. Biomedical Digital Signal Processing. 1. ed. New Jersey,USA: Prentice Hall, 1993. VAPNIK, V. N. The nature of statistical learning theory. New York, NY, USA: Springer-Verlag New York, Inc., 1995. ISBN 0-387-94559-8. Disponı́vel em: <http://portal.acm.org/citation.cfm?id=211359>. WEBSTER, J. Medical Instrumentation: Application And Design. 3. ed. [S.l.]: Wiley India Pvt. Ltd., 2009. WESTON, J.; WATKINS, C. Support vector machines for multi-class pattern recognition. In: ESANN. [S.l.: s.n.], 1999. p. 219–224. YEH, Y.-C.; WANG, W.-J. QRS complexes detection for ECG signal: The Difference Operation Method. Comput. Methods Prog. Biomed., v. 91, n. 3, p. 245–254, 2008. YEH, Y.-C.; WANG, W.-J.; CHIOU, C. W. Cardiac arrhythmia diagnosis method using linear discriminant analysis on ecg signals. Measurement, v. 42, n. 5, p. 778 – 789, 2009. ISSN 0263-2241. Disponı́vel em: <http://www.sciencedirect.com/science/article/B6V424VC7DVW-1/2/8c87b05440463ea5749a60873c914d57>. ZHENG, H.; WU, J. A real-time qrs detector based on discrete wavelet transform and cubic spline interpolation. TELEMEDICE and e-HEALTH, v. 14, p. 809 – 815, 2008. ZIGEL, Y.; COHEN, A.; KATZ, A. The weighted diagnostic distortion (wdd) measure for ecg signal compression. IEEE TRANSACTIONS ON BIOMEDICAL ENGINEERING, v. 47, p. 1422–1430, 2000. 80 Apêndice A - Desempenho do algoritmo de detecção de QRS Tabela 11: Resultados dos Testes do Algoritmo de Detecção de QRS ECG Record 100 101 102 103 104 105 106 107 108 109 111 112 113 114 115 116 117 118 119 121 122 123 124 200 201 202 203 205 207 208 209 210 212 213 214 215 217 219 220 221 222 223 228 230 231 232 233 234 Média Beats 1902 1523 1821 1729 1857 2155 1692 1784 1489 2099 1776 2111 1506 1604 1637 2016 1284 1916 1661 1560 2054 1669 1367 2168 1558 1871 2481 2201 1932 2435 2519 2204 2285 2700 1877 2795 1845 1906 1694 2020 2116 2199 1703 1859 1278 1485 2561 2291 FP 0 8 0 5 4 33 60 96 142 0 27 1 21 81 8 6 78 7 21 47 0 12 13 33 28 16 62 16 28 19 1 11 0 2 83 4 56 16 2 42 35 2 56 2 2 27 96 0 FN 0 0 0 0 0 74 190 61 124 0 20 2 13 59 8 70 26 7 26 50 0 6 9 136 145 298 651 39 60 385 222 129 0 84 156 560 57 14 31 202 456 236 186 2 0 16 385 17 81 Se(%) 100.00 99.54 100.00 99.71 99.78 96.57 88.80 96.58 91.62 100.00 98.87 99.91 99.14 96.32 99.51 96.53 97.98 99.32 98.43 96.79 100.00 99.53 99.34 93.73 90.47 84.07 73.76 98.23 96.23 84.20 91.19 94.10 100.00 96.89 91.70 79.96 96.91 99.21 98.17 90.00 78.45 89.27 89.08 99.89 100.00 98.92 84.97 99.26 94.85 Sp(%) 100.00 99.48 100.00 99.71 99.78 98.44 96.17 94.72 90.52 100.00 98.49 99.95 98.61 95.02 99.51 99.69 94.16 99.63 98.73 96.98 100.00 99.06 99.05 98.40 98.01 98.99 96.72 99.27 98.21 99.08 99.96 99.47 100.00 99.92 95.40 99.82 96.96 99.10 99.88 97.74 97.94 99.90 96.44 99.89 99.84 98.20 95.77 100.00 98.39 Apêndice B. Avaliação Cruzada dos Classificadores Nas folhas seguinte deste Apêndice encontram-se os resultados dos testes de Avaliação Cruzada dos classificadores SVM1 e SVM2. Cada classificador foi testado seis vezes. Estes resultados são apresentados em quatro tabelas, na seguinte forma : •Tabela 12 : Contém os resultados das três primeiras execuções do classificador SVM1. •Tabela 13 : Contém os resultados das três últimas execuções do classificador SVM1. •Tabela 14 : Contém os resultados das três primeiras execuções do classificador SVM2. •Tabela 15 : Contém os resultados das três últimas execuções do classificador SVM2. 82 Registro ECG 100 103 106 107 111 112 115 116 117 119 121 122 123 200 207 209 212 220 221 Totais Média D. Padrão Batimentos 2273 2084 2027 2137 2124 2539 1953 2412 1535 1987 1863 2476 1518 2601 2331 3005 2748 2047 2427 42087 Primeiro Teste Corretas Erradas TCA (%) 2267 6 99.7360 2078 6 99.7121 2006 21 98.9640 2129 8 99.6256 2029 95 95.5273 2538 1 99.9606 1948 5 99.7440 2407 5 99.7927 1532 3 99.8046 1987 0 100.000 1861 2 99.8926 2476 0 100.000 1518 0 100.000 2424 177 93.1949 2238 93 96.0103 2833 172 94.2762 2681 67 97.5619 2038 9 99.5603 2402 25 98.9699 41932 695 98.3486 98.5438 2.1529 Corretas 2265 2077 1986 2135 2047 2538 1944 2393 1531 1986 1855 2476 1518 2449 2286 2868 2683 2036 2409 41482 Segundo Teste Erradas TCA (%) 8 99.6480 7 99.6641 41 97.9773 2 99.9064 77 96.3748 1 99.9606 9 99.5392 19 99.2123 4 99.7394 1 99.9497 8 99.5706 0 100.000 0 100.000 152 94.1561 45 98.0695 137 95.4409 65 97.6346 11 99.4626 18 99.2583 605 98.5625 98.7139 2.1529 Terceiro Teste Corretas Erradas TCA(%) 2264 9 99.604 2078 6 99.7121 2012 15 99.2600 2131 6 99.7192 2029 95 95.5273 2538 1 99.9606 1952 1 99.9488 2408 4 99.8342 1526 9 99.4137 1987 0 100.000 1859 4 99.7853 2469 7 99.7173 1518 0 100.000 2434 167 93.5794 2256 75 96.7825 2836 169 94.3760 2660 88 96.7977 2038 9 99.5603 2405 22 99.0935 41400 687 98.3676 98.5616 2.06211 Tabela 12: Validação Cruzada do Classificador SVM1 - Parte 1/2 Apêndice B. Avaliação Cruzada dos Classificadores 83 Registro ECG 100 103 106 107 111 112 115 116 117 119 121 122 123 200 207 209 212 220 221 Totais Média D. Padrão Batimentos 2273 2084 2027 2137 2124 2539 1953 2412 1535 1987 1863 2476 1518 2601 2331 3005 2748 2047 2427 42087 Corretas 2265 2077 1996 2131 2041 2539 1951 2398 1534 1987 1862 2476 1517 2453 2274 2827 2707 2037 2394 41466 Quarto Teste Erradas TCA (%) 8 99.6480 7 99.6641 31 98.4706 6 99.7192 83 96.0923 0 100.0000 2 99.8976 14 99.4196 1 99.9349 0 100.000 1 99.9463 0 100.0000 1 99.9341 148 94.3099 57 97.5547 178 94.0765 41 98.5080 10 99.5115 33 98.6403 621 98.5244 98.7014 1.8856 Corretas 2267 2079 2001 2125 2057 2538 1951 2398 1534 1987 1856 2476 1516 2446 2293 2779 2660 2037 2404 41404 Quinto Teste Erradas TCA (%) 6 99.7360 5 99.7601 26 98.7173 12 99.4385 67 96.8456 1 99.9606 2 99.8976 14 99.4196 1 99.9349 0 100.000 7 99.6243 0 100.000 2 99.8682 155 94.0408 38 98.3698 226 92.4792 88 96.7977 10 99.5115 23 99.0523 683 98.3771 98.6028 2.1289 Corretas 2267 2082 1966 2122 2057 2538 1945 2407 1532 1987 1861 2476 1518 2474 2280 2791 2688 2038 2411 41440 Tabela 13: Validação Cruzada do Classificador SVM1 - Parte 2/2 Sexto Teste Erradas TCA (%) 6 99.7360 2 99.9040 61 96.9906 15 99.2981 67 96.8456 1 99.9606 8 99.5904 5 99.7927 3 99.8046 0 100.000 2 99.8926 0 100.000 0 100.000 127 95.1173 51 97.8121 214 92.8785 60 97.8166 9 99.5603 16 99.3407 647 98.4627 98.6495 1.9709 Apêndice B. Avaliação Cruzada dos Classificadores 84 Registro ECG 100 103 106 107 111 112 115 116 117 119 121 122 123 200 207 209 212 220 221 Totais Média D. Padrão Batimentos 2273 2084 2027 2137 2124 2539 1953 2412 1535 1987 1863 2476 1518 2601 2331 3005 2748 2047 2427 42087 Primeiro Teste Corretas Erradas TCA (%) 2263 10 99.5601 2078 6 99.7121 1963 64 96.8426 2132 5 99.766 2040 84 96.0452 2537 2 99.9212 1949 4 99.7952 2396 16 99.3367 1532 3 99.8046 1987 0 100 1854 9 99.5169 2476 0 100 1517 1 99.9341 2473 128 95.0788 2269 62 97.3402 2781 224 92.5458 2657 91 96.6885 2035 12 99.4138 2386 41 98.3107 41325 762 98.18946 98.40066 2.0966 Corretas 2261 2078 1973 2125 2043 2538 1953 2402 1533 1987 1860 2476 1518 2414 2272 2834 2716 2038 2393 41414 Segundo Teste Erradas TCA (%) 12 99.4721 6 99.7121 54 97.336 12 99.4385 81 96.1864 1 99.9606 0 100.000 10 99.5854 2 99.8697 0 100.000 3 99.8390 0 100.000 0 100.000 187 92.8105 59 97.4689 171 94.3095 32 98.8355 9 99.5603 34 98.5991 673 98.4009 98.5780 2.0831 Corretas 2266 2079 1961 2136 2059 2538 1948 2408 1533 1986 1861 2476 1518 2459 2261 2802 2696 2037 2408 41432 Tabela 14: Validação Cruzada do Classificador SVM2 - Parte 1/2 Terceiro Teste Erradas TCA (%) 7 99.692 5 99.7601 66 96.744 1 99.9532 65 96.9397 1 99.9606 5 99.744 4 99.8342 2 99.8697 1 99.9497 2 99.8926 0 100.000 0 100.000 142 94.5406 70 96.997 203 93.2446 52 98.1077 10 99.5115 19 99.2171 665 98.4437 98.62938 2.0199 Apêndice B. Avaliação Cruzada dos Classificadores 85 Registro ECG 100 103 106 107 111 112 115 116 117 119 121 122 123 200 207 209 212 220 221 Totais Média D. Padrão Batimentos 2273 2084 2027 2137 2124 2539 1953 2412 1535 1987 1863 2476 1518 2601 2331 3005 2748 2047 2427 42087 Corretas 2260 2077 1986 2126 2047 2537 1950 2406 1533 1986 1861 2476 1518 2474 2274 2856 2637 2037 2405 41446 Quarto Teste Erradas TCA (%) 13 99.4281 7 99.6641 41 97.9773 11 99.4853 77 96.3748 2 99.9212 3 99.8464 6 99.7512 2 99.8697 1 99.9497 2 99.8926 0 100.000 0 100.000 127 95.1173 57 97.5547 149 95.0416 111 95.9607 10 99.5115 22 99.0935 641 98.4769 98.6547 1.7552 Corretas 2267 2080 1954 2137 2046 2538 1942 2396 1533 1987 1859 2476 1515 2402 2255 2763 2682 2037 2385 41254 Quinto Teste Erradas TCA (%) 6 99.736 4 99.8081 73 96.3986 0 100.000 78 96.3277 1 99.9606 11 99.4368 16 99.3367 2 99.8697 0 100.000 4 99.7853 0 100.000 3 99.8024 199 92.3491 76 96.7396 242 91.9468 66 97.5983 10 99.5115 42 98.2695 833 98.0207 98.2566 2.5022 Corretas 2268 2079 1986 2132 2045 2538 1952 2402 1534 1987 1858 2476 1517 2469 2278 2815 2731 2035 2400 41502 Tabela 15: Validação Cruzada do Classificador SVM2 - Parte 2/2/ Sexto Teste Erradas TCA (%) 5 99.7800 5 99.7601 41 97.9773 5 99.7660 79 96.2806 1 99.9606 1 99.9488 10 99.5854 1 99.9349 0 100.000 5 99.7316 0 100.000 1 99.9341 132 94.9250 53 97.7263 190 93.6772 17 99.3814 12 99.4138 27 98.8875 585 98.6100 98.5616 2.0621 Apêndice B. Avaliação Cruzada dos Classificadores 86 Apêndice C. Tabelas de Distribuição de Probabilidades 87 Apêndice C - Tabelas de Distribuição de Probabilidades Neste apêndice são mostrados os resultados do cálculo da Tabela de Distribuição de probabilidades, fornecidos pelo programa BayesiaLab 5.0 DE, disponı́vel em (SAS, 2011). Figura 32: Distribuição de Probabilidades de arritmias tipo NORM, BRE e BRD. Apêndice C. Tabelas de Distribuição de Probabilidades Figura 33: Distribuição de Probabilidades de arritmias tipo CAP, CVP e BM. Figura 34: Distribuição de Probabilidades de arritmias tipo OFV e BEF. 88