Luiz Carlos Ferreira Rodrigues

Propaganda
UNIVERSIDADE PRESBITERIANA MACKENZIE
PROGRAMA DE PÓS-GRADUAÇÃO
EM ENGENHARIA ELÉTRICA
Luiz Carlos Ferreira Rodrigues
DETECÇÃO E CLASSIFICAÇÃO DE ARRITMIAS EM
ELETROCARDIOGRAMAS USANDO TRANSFORMADAS
WAVELETS, MÁQUINAS DE VETORES DE SUPORTE E
REDE BAYESIANA
São Paulo
2012
UNIVERSIDADE PRESBITERIANA MACKENZIE
PROGRAMA DE PÓS-GRADUAÇÃO
EM ENGENHARIA ELÉTRICA
Luiz Carlos Ferreira Rodrigues
DETECÇÃO E CLASSIFICAÇÃO DE ARRITMIAS EM
ELETROCARDIOGRAMAS USANDO TRANSFORMADAS
WAVELETS, MÁQUINAS DE VETORES DE SUPORTE E
REDE BAYESIANA
Dissertação apresentada ao Programa de PósGraduação em Engenharia Elétrica da Universidade Presbiteriana Mackenzie, como requisito
parcial à obtenção do tı́tulo de Mestre em Engenharia Elétrica na Área de Concentração em
Engenharia de Computação.
Orientador: Prof. Dr. Maurı́cio Marengoni
São Paulo
2012
R696d Rodrigues, Luiz Carlos Ferreira.
Detecção e classificação de arritmias em eletrocardiogramas usando transformadas wavelets,máquinas de vetores de
suporte e rede Bayesiana./ Luiz Carlos Ferreira Rodrigues.
- 2012
89 f. : il.; 30 cm.
Dissertação (Mestrado em Engenharia Elétrica)Universidade Presbiteriana Mackenzie, São Paulo, 2012.
Bibliografia: f. 76-81.
1. ECG. 2. Complexo QRS. 3. Wavelets. 4. SVM. 5.
Rede Bayesiana. I. Tı́tulo.
CDD 621.3
LUIZ CARLOS FERREIRA RODRIGUES
DETECÇÃO E CLASSIFICAÇÃO DE ARRITMIAS EM
ELETROCARDIOGRAMAS USANDO TRANSFORMADA
WAVELET, MÁQUINA DE VETORES DE SUPORTE E
REDE BAYESIANA
Dissertação apresentada ao Programa de PósGraduação em Engenharia Elétrica da Universidade Presbiteriana Mackenzie, como requisito
parcial à obtenção do tı́tulo de Mestre em Engenharia Elétrica, na Área de Concentração em
Engenharia de Computação.
Aprovado em 02 de Março de 2012
BANCA EXAMINADORA
Prof. Dr. Maurı́cio Marengoni - Orientador
Universidade Presbiteriana Mackenzie
Prof. Dr. Paulo Batista Lopes - Membro interno
Universidade Presbiteriana Mackenzie
Prof. Dr. Carlos Eduardo Thomaz - Membro externo
Faculdade de Engenharia Industrial
Às irmãs, Altamira (in memorian) e Maria Ferreira.
À minha esposa Eunice, pelo
carinho e paciência .
em todos esses anos.
AGRADECIMENTOS
Ao Dr. Maurı́cio Marengoni, minha profunda gratidão pela condução segura do desenvolvimento deste trabalho e pelas suas idéias, sugestões e correções no decorrer do
trabalho.
Ao Dr.Carlos Eduardo Thomaz pelos valiosos comentários, sugestões, correções e desafios feitos no decorrer da banca de qualificação. Seu desafio na detecção de complexos
QRS deu origem a minha primeira publicação cientı́fica.
Aos professores do curso de Mestrado em Engenharia Elétrica do Instituto Presbiteriano Mackenzie: Dr. Luiz Monteiro, Dr. Leandro Castro Silva, Dr. Pedro Paulo B.
Oliveira, Dr. Paulo Batista Lopes além das professoras Dra . Sandra Stump, Dra Pollyana
e do professor Dr. Nizam Omar, meus sinceros agradecimentos. É um grande privilégio
tê-los como mestres.
Á Professora Maria Ferreira, minha tia, formadora de gerações e grande incentivadora
do saber.
Aos meus queridos irmãos, Zeca, Fátima, Carlito e Mário pelo carinho e amizade por
toda uma vida.
A todos aqueles que, mesmo não citados aqui, contribuı́ram de forma direta ou indireta
na elaboração deste estudo.
RESUMO
As cardiopatias são atualmente, segundo o Ministério da Saúde, a segunda maior causa
de mortalidade entre brasileiros, ficando atrás apenas das doenças cerebrovasculares. A
motivação do trabalho aqui apresentado é a identificação e classificação de cardiopatias
registradas em exames de Eletrocardiograma, o ECG, tais como contrações prematuras,
bloqueio de ramos, taquicardias e outros distúrbios de ritmo. Devido a sua fácil aplicação
e baixo custo, o ECG é um dos recursos mais largamente utilizados por pesquisadores
e profissionais da saúde na avaliação da saúde do coração. A aplicação computacional
desenvolvida neste estudo concentra-se no uso de Transformadas Wavelets para o processamento digital dos sinais de ECG, na extração das caracterı́sticas morfológicas, dinâmicas
e espectrais de ciclos do sinal e na submissão dessas caracterı́sticas a duas Máquinas de
Vetores de Suporte (SVM). Os resultados das SVM’s são combinadas em uma Rede Bayesiana para a identificação e classificação das cardiopatias. As caracterı́sticas morfológicas
de cada ciclo do sinal são extraı́das através de Análise de Componentes Principais (PCA),
as caracterı́sticas espectrais são extraı́das através da decomposição do sinal em coeficientes
de Transformadas Wavelets enquanto as caracterı́sticas dinâmicas são definidas pelos intervalos entre o máximo global de cada ciclo. Para desenvolvimento, testes e validação da
aplicação foi utilizado o Banco de Arritmias MIT-BIH, disponibilizado pelo Massachusetts
Institute of Technology (MIT). Neste trabalho demonstramos que a aplicação desenvolvida é capaz de reconhecer e classificar 8 tipos de batimentos cardı́acos em registros de
ECG, com uma acurácia média total de classificação superior a 95,0%
Palavras-chave: ECG, Complexo QRS, Wavelets, SVM, Rede Bayesiana.
ABSTRACT
The cardiopathies are currently, according the Ministério da Saúde, the second biggest
cause of mortality among the Brazilians, behind only the brain vascular diseases. The
motivation for the work here presented is the identification and classification of cardiopathies registered in Electrocardiogram exams, ECG, such as premature contractions,
branches blocks, tachycardia and other rhythms disturbance. Due its easy application
and low cost, the ECG is one of the resources more commonly used by researchers and
health professionals in the assessment of cardiac conditions. The computational application developed in this study relies in the application of Wavelets Transforms for the
digital signal processing of ECG, in extracting the morphologic characteristics, dynamics
and spectral of the cycles of the signal and in the submission of these characteristics to
two Support Vector Machines (SVM). The output of these two SVM’s are combined as
input to a Bayesian Network for the identification and classification of the cardiopathies.
The characteristic of each cycle, morphologic and spectral, has it dimensionality reduced
by Principal Component Analysis (PCA). The spectral characteristics are extracted by
the extractions of the Wavelets Transforms coefficients of the signal, whilst the dynamics
characteristics are defined by the interval between the global maxima of each cycle. For
development, testings and validations of the application we utilize the MIT-BIH Arrhythmia database, made available by Massachusetts Institute of Technology (MIT). At the
end of this work we demonstrate that the application is able to recognize and classify 8
types of heart beats in ECG records, with an medium accuracy above 95,0%
Keywords: ECG; QRS Complex; Wavelets, SVM, Bayesian Networks.
LISTA DE FIGURAS
1
Representação da anatomia básica de um coração humano, onde se vê os
átrios, ventrı́culos e principais artérias e veias por onde flui o sangue recebido e enviado para o sistema circulatório. Adaptado de (PENG, 2011). . . 19
2
Representação do sistema de condução elétrica do coração, formado pelo
Nó Sinoatrial(SA), Nó Átrio Ventricular (AV), Feixe de His e as Fibras de
Purkinje. Adaptado de (MEDLINEPLUS, 2011) . . . . . . . . . . . . . . . . 21
3
Representação esquemática da forma de onda considerada normal em um
ECG. Adaptado de (CORP, 2011) . . . . . . . . . . . . . . . . . . . . . . . 22
4
Exemplo de ECG com batimento considerado normal. Adaptado de (GOLDBERGER et al.,
5
2000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Sinal de ECG de portador de Bloqueio de Ramo Esquerdo, apresentando
um chanfro no complexo QRS. Adaptado de (KHAN, 2008). . . . . . . . . . 26
6
Sinal de ECG de portador de Bloqueio de Ramo Direito. Adaptado de
(KHAN, 2008).
7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Sinal de ECG de portador de Contração Atrial Prematura. Note o ritmo
irregular onde o CAP ocorre. Adaptado de (JONES, 2005). . . . . . . . . . 27
8
Sinal de ECG de portador de Contração Ventricular Prematura. Note-se a
alteração do ritmo normal, no quarto batimento, com a ausência de onda
P e do intervalo PR, assim como o complexo QRS disforme. Adaptado de
(GOLDBERGER et al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9
Ilustração de marcapasso eletrônico implantado em paciente. Adaptado de
(HCBR, 2011). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
10
Sinal de ECG de portador marcapasso eletrônico. Adaptado de (GOLDBERGER et al.,
11
2000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Sinal de ECG de portador de Onda Flutter Ventricular. Adaptado de
(GOLDBERGER et al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . 30
12
Sinal de ECG de portador de Batimento de Escape Ventricular. Adaptado
de (GOLDBERGER et al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . 31
13
Funcão Wavelet de Morlet.
. . . . . . . . . . . . . . . . . . . . . . . . . . 34
14
Exemplos de padrões linearmente separáveis e não-linearmente separáveis.
15
Hiperplano de separação para conjunto de dados bidimensionais . . . . . . 38
37
16
Nesta figura (w,-b) definem o hiperplano de separação e γ indica o tamanho
da margem. Adaptado de (FRADKIN, 2006).
17
. . . . . . . . . . . . . . . . 38
O mapeamento de caracterı́sticas simplifica o processo de classificação por
converter dados linearmente não separáveis em caracterı́sticas linearmente
separáveis pela aplicação da função kernel Φ. O mapeamento inverso,Φ−1
, no sentido do Espaço de Caracterı́sticas para o Espaço de Entradas pode
existir ou não. Adaptado de (RAGHAVA, 2011) . . . . . . . . . . . . . . . 39
18
Representação dos componentes de um modelo probabilı́stico. Adaptado
de (BERTSEKAS; TSITSIKLIS, 2000). . . . . . . . . . . . . . . . . . . . . . . 42
19
Em (a) o diagrama representa a probabilidade incondicional P(A). Em
(b) o diagrama representa a probabilidade condicional de A dado que B
ocorra, P(A|B). Adaptado de (NAVIDI, 2006).
20
. . . . . . . . . . . . . . . 43
Exemplo de uma Rede Bayesiana simples, composta por três nós pais e um
nó filho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
21
Série temporal normalizada de um sinal de ECG, contaminado com ruı́dos
de alta e baixa frequência. A componente de baixa frequência, causadora
das variações sobre a linha de base, foi isolada e está destacada na cor
verde. Sinal adaptado de (PERCIVAL; T.WALDEN, 2006). . . . . . . . . . . . 54
22
Espectro de frequência dos coeficientes wavelet do sexto nı́vel de decomposição, usando wavelet Daub 4, correspondente a componente de baixa
frequência causadora das variações da linha de base . . . . . . . . . . . . . 55
23
Mesmo sinal de ECG da figura 21, reconstituı́do, agora sem a componente
causadora das variações de linha de base . . . . . . . . . . . . . . . . . . . 55
24
Remoção de ruı́dos em ECG. Na figura de cima o sinal contaminado com
ruı́dos de alta frequência e na figura de baixo o mesmo sinal, após a
aplicação de hard thresholding . . . . . . . . . . . . . . . . . . . . . . . . . 57
25
Representação da função wavelet Daubechies 4, também conhecida como
Db4 ou Daub4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
26
Esquema de MRA de 2048 amostras de ECG com a interpolação e soma
dos nı́veis 1, 2 e 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
27
Linhas verticais verdes indicam a detecção do Complexo QRS em ECG . . 60
28
Representação esquemática do processo de classificação de arritmias cardı́acas. 60
29
Representação dos Autovalores, ou Componentes Principais, calculados a
partir da matriz de covariancia dos vetores padrões. . . . . . . . . . . . . . 62
30
Comparativo gráfico do desempenho dos três classificadores. . . . . . . . . 70
31
Comparativo gráfico do desempenho dos três classificadores, testando apenas registros não usados no treinamento. . . . . . . . . . . . . . . . . . . . 71
32
Distribuição de Probabilidades de arritmias tipo NORM, BRE e BRD. . . 87
33
Distribuição de Probabilidades de arritmias tipo CAP, CVP e BM.
34
Distribuição de Probabilidades de arritmias tipo OFV e BEF. . . . . . . . 88
. . . . 88
LISTA DE TABELAS
1
Resultados obtidos por (YEH; WANG; CHIOU, 2009) . . . . . . . . . . . . . 49
2
Resultados obtidos por (KIRANYAZ TURKER INCE; GABBOUJ, 2009)
3
Resultados obtidos por (GHORBANIAN et al., 2010) . . . . . . . . . . . . . 51
4
Classes de arritmias cardı́acas estudadas neste trabalho . . . . . . . . . . . 61
5
Amostras de registros para criação de vetores de treinamento e testes . . . 63
6
Resumo da Validação Cruzada
7
Resultados dos Testes do Classificador Bayesiano . . . . . . . . . . . . . . 69
8
Resultados obtidos por este estudo . . . . . . . . . . . . . . . . . . . . . . 70
9
Resultados dos Testes do Classificador Bayesiano(Registros Sem Treino) . . 71
10
Comparação entre resultados obtidos por três estudos e os resultados obtidos neste trabalho
. . . 50
. . . . . . . . . . . . . . . . . . . . . . . . 68
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
11
Resultados dos Testes do Algoritmo de Detecção de QRS . . . . . . . . . . 81
12
Validação Cruzada do Classificador SVM1 - Parte 1/2 . . . . . . . . . . . . 83
13
Validação Cruzada do Classificador SVM1 - Parte 2/2
. . . . . . . . . . . 84
14
Validação Cruzada do Classificador SVM2 - Parte 1/2
. . . . . . . . . . . 85
15
Validação Cruzada do Classificador SVM2 - Parte 2/2/ . . . . . . . . . . . 86
LISTA DE SIGLAS
AV
Átrio Ventricular
BEV
Batimento de Escape Ventricular
BM
Batimento de Marcapasso
BRD
Bloqueio de Ramo Direito
BRE
Bloqueio de Ramo Esquerdo
CAP
Contração Atrial Prematura
CVP
Contração Ventricular Prematura
ECG
Eletrocardiograma
FN
False Negative
FP
False Positive
MIT
Massachusetts Institute of Technology
OFV
Onda Flutter Ventricular
PCA
Principal Component Analysis
SVM
Support Vector Machine
TCA
Total Classification Accuracy
TN
True Negative
TP
True Positive
VEB
Ventricular Escape Beat
Sumário
1 INTRODUÇÃO
14
1.1
JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2
HIPÓTESES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3
ORGANIZAÇÃO DO TEXTO . . . . . . . . . . . . . . . . . . . . . . . . 16
2 REFERENCIAL TEÓRICO
18
2.1
Fisiologia do Coração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2
Sistema Elétrico Cardı́aco . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3
Eletrocardiografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4
Arritmias Cardı́acas
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1
Batimento Cardı́aco Normal . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2
Bloqueio de Ramo Esquerdo - BRE . . . . . . . . . . . . . . . . . . 25
2.4.3
Bloqueio de Ramo Direito - BRD . . . . . . . . . . . . . . . . . . . 26
2.4.4
Contração Atrial Prematura - CAP . . . . . . . . . . . . . . . . . . 26
2.4.5
Contração Ventricular Prematura - CVP . . . . . . . . . . . . . . . 27
2.4.6
Batimento de Marcapasso - BM . . . . . . . . . . . . . . . . . . . . 28
2.4.7
Onda Flutter Ventricular - OFV . . . . . . . . . . . . . . . . . . . . 29
2.4.8
Batimento de Escape Ventricular - BEV . . . . . . . . . . . . . . . 30
3 MÉTODOS MATEMÁTICOS
32
3.1
Transformadas Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2
Máquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3
3.2.1
O Problema da Classificação . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2
Classificadores Lineares . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.3
Classificadores Não Lineares . . . . . . . . . . . . . . . . . . . . . . 38
3.2.4
Classificação Multiclasse . . . . . . . . . . . . . . . . . . . . . . . . 40
Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1
Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.2
Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.3
Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4 TRABALHOS RELACIONADOS
4.1
Estudos sobre Classificação de Batimentos Cardı́acos . . . . . . . . . . . . 47
5 DESENVOLVIMENTO DO PROJETO
5.1
47
52
PRÉ-PROCESSAMENTO DO SINAL DE ECG . . . . . . . . . . . . . . . 52
5.1.1
Remoção de Variação de Linha de Base . . . . . . . . . . . . . . . . 53
5.1.2
Remoção de Ruı́dos em ECG . . . . . . . . . . . . . . . . . . . . . 55
5.2
DETECÇÃO DE COMPLEXO QRS . . . . . . . . . . . . . . . . . . . . . 57
5.3
CLASSIFICAÇÃO DE ARRITMIAS . . . . . . . . . . . . . . . . . . . . . 59
6 TESTES E RESULTADOS
65
6.1
Método de Avaliação de Desempenho dos Classificadores. . . . . . . . . . . 65
6.2
Validação Cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.3
Resultados de classificação da Rede Bayesiana. . . . . . . . . . . . . . . . . 69
6.4
Resultados Finais Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7 CONSIDERAÇÕES FINAIS
7.1
73
Perspectivas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
REFERÊNCIAS BIBLIOGRÁFICAS
80
APÊNDICE A - Desempenho do algoritmo de detecção de QRS
81
APÊNDICE B. Avaliação Cruzada dos Classificadores
82
APÊNDICE C - Tabelas de Distribuição de Probabilidades
87
1
INTRODUÇÃO
O Eletrocardiograma (ECG), desde sua criação, em 1903, por Willem Einthoven, pre-
mio Nobel de Medicina em 1924 (HEALTHMAD, 2010), tem sido considerado um instrumento de excelente relação custo-benefı́cio na prevenção, no diagnóstico e tratamento
de doenças cardı́acas. Devido ao fato de ser não-invasivo, ter baixo custo e ser de fácil
aplicação, o ECG se coloca entre os recursos mais utilizados pela medicina na análise das
condições de saúde do coração (DUPRE; VIEAU; IAIZZO, 2009).
O ECG consiste no registro gráfico produzido por um galvanômetro, que mede os
sinais elétricos gerados durante a atividade do músculo cardı́aco e os representa como
uma função de tempo e amplitude (GOLDWASSER, 2009). Uma vez medidos, esses sinais
elétricos são armazenados em arquivos digitais, favorecendo seu posterior estudo, de uma
forma que vai além da simples análise visual da sua representação gráfica. No estudo
aqui apresentado são aplicadas ferramentas matemáticas no processamento digital desses sinais, removendo ruı́dos e identificando os pontos que caracterizam o ciclo cardı́aco.
Esses pontos caracterı́sticos são usados como pontos fiduciais e tem papel fundamental
na identificação de eventuais anormalidades como, por exemplo, os distúrbios de ritmo,
de condução elétrica e de isquemias. Neste contexto, o presente trabalho utiliza como
objeto de estudo e testes, o Banco de Arritmias BIH-MIT, disponibilizado gratuitamente,
desde 1980, para a comunidade cientı́fica e acadêmica, pelo Massachusetts Institute of Technology em (SCIENCES; TECHNOLOGY, 2008) e mundialmente utilizado na avaliação de
classificadores de arritmia bem como na pesquisa da dinâmica cardı́aca. O banco consiste
de 48 registros, com cada registro contendo 30 minutos de gravação de eletrocardiograma,
digitalizados a uma frequencia de 360 amostras por segundo em cada um dos seus dois
canais, MLII e V2, que são posições de eletrodos afixados ao torso do paciente e muito
utilizados em monitoramento de longo prazo, e possui uma resolução de 11 bits sobre
uma faixa de 10 milivolts. Aos registros do BIH-MIT se aplicam as Transformadas Wavelets(WT) como método de processamento digital de sinais para remoção de ruı́dos, das
variações da linha de base e a localização de pontos fiduciais do ECG. Uma vez depurados,
o sinal é segmentado em intervalos que tem como ponto central a máxima amplitude de
cada ciclo cardı́aco. Sobre esses intervalos são aplicados a técnica matemática da Análise
de Componentes Principais (PCA), para a extração de suas caracterı́sticas morfológicas.
Além dessas caracterı́sticas morfológicas, caracterı́sticas dinâmicas, como a frequência
14
desses pontos centrais também são calculadas. As informações sobre essas caracterı́sticas
são submetidos a duas Máquinas de Vetores de Suporte(SVM) baseadas em diferentes
vetores caracterı́sticos, com a finalidade de identificar e classificar padrões normais e patológicos e, finalmente, uma rede probabilı́stica, a Rede Bayesiana, que terá a função de
resolver eventuais divergências entre os dois classificadores anteriores.
1.1
JUSTIFICATIVA
A Organização Mundial da Saúde, em seu relatório World Health Statistics 2008,
projeta que no ano de 2030 as quatro principais causas de morte no mundo serão, pela
ordem, doenças cardı́acas isquêmicas, doenças cérebro-vasculares, doenças pulmonares
crônicas obstrutivas e doenças de natureza respiratória, principalmente a pneumonia.
(ORGANIZATION, 2008).
Neste relatório é demonstrado o percentual de óbitos causados pelas doenças cardı́acas
de origem isquêmica que cresce ano a ano, em detrimento das doenças que tem como origem, por exemplo, a falta de infra-estrutura e saneamento básico. É neste cenário, em
que se considera que as duas primeiras, e preponderantes, causas de óbito no mundo terão
origem cardiovascular, que este trabalho encontra sua principal motivação. Torna-se evidente a importancia de recursos que auxiliem os profissionais de saúde na identificação
e tratamento dessas patologias e que esses recursos sejam de baixo custo e de utilização
universal, de modo que a sua aplicação possa ser acessı́vel a tantos quanto possı́vel. A
proposta do estudo aqui apresentado é desenvolver uma ferramenta confiável que desempenhe um papel importante no auxı́lio a detecção e diagnóstico das doenças do coração,
mais especificamente nos casos de distúrbios de ritmo e isquemias.
1.2
HIPÓTESES
1o É possı́vel construir uma aplicação computacional que identifique e classifique arritmias em eletrocardiogramas, utilizando técnicas matemáticas de Transformações Lineares
e de Máquinas de Vetores de Suporte.
2o É possı́vel aumentar a robustez desta aplicação, construindo-se dois módulos de
classificação compostos por Máquinas de Vetores de Suporte(SVM), baseadas em diferentes vetores caracterı́sticos, e uma Rede Bayesiana decidindo em caso de divergências entre
os dois módulos formados pelas SVM.
15
1.3
ORGANIZAÇÃO DO TEXTO
O Capı́tulo 1 inclui a justificativa para este trabalho, objetivos e organização do texto.
O Capı́tulo 2 apresenta de forma sucinta a fisiologia do coração humano, tema fundamental em que este estudo se baseia. Neste capı́tulo descreve-se a estrutura fı́sica do
coração e sua funcionalidade. Descreve-se também o sistema elétrico cardı́aco que permite que o coração cumpra seu papel central no sistema circulatório. Finalmente são
apresentados os fundamentos da Eletrocardiografia, importante instrumento de análise
da condição cardı́aca e de detecção das Arritmias cardı́acas, as quais tem suas descrições
e caracterı́sticas no encerramento deste capı́tulo.
O Capı́tulo 3 apresenta os métodos matemáticos utilizados no desenvolvimento deste
trabalho. Nele estão descritos os fundamentos matemáticos das transformadas Wavelets,
máquinas de vetores de suporte e as redes Bayesianas. Essas técnicas matemáticas são
utilizadas ao longo das diversas etapas do trabalho.
O Capı́tulo 4 apresenta um panorama do estágio atual de pesquisa na área de classificação de arritmias cardı́acas. Neste capı́tulo apresentamos três estudos publicados na
área de classificação dos batimentos cardı́acos, suas metodologias e resultados obtidos
nesses estudos. Resultados esses que servem de referencia aos objetivos do estudo aqui
apresentado.
O Capı́tulo 5 , dividido em 3 Seções, descreve em detalhes as atividades do desenvolvimento do projeto, discorrendo sobre a etapa de pré-processamento de sinal de ECG, a
detecção de batimentos cardı́acos e a sua posterior classificação.
O Capı́tulo 6 explica a métrica utilizada na avaliação dos resultados e os resultados
obtidos nos diversos testes efetuados com a aplicação construı́da no desenvolvimento deste
trabalho.
O Capı́tulo 7 apresenta os comentários conclusivos e as perspectivas futuras.
As Referências Bibliográficas contém a listagem da bibliografia utilizada.
O Apêndice A contém os resultados obtidos pelo algoritmo de detecção do complexo
QRS.
O Apêndice B contém os resultados dos testes de Avaliação Cruzada dos dois classificadores. Este teste é necessário para demonstrar a estabilidade e convergência dos
classificadores.
O Apêndice C Mostra a Tabela de distribuição de probabilidades, criada pelo treina16
mento da rede bayesiana, que considera as probabilidades de diagnostico em função dos
resultados de duas máquinas de vetores de suporte.
17
2
REFERENCIAL TEÓRICO
O desenvolvimento de técnicas e metodologias para o estudo e análise do eletrocar-
diograma tem sido fonte constante de pesquisa desde sua criação pelo médico holandês
Willem Einthovem em 1906 (TOMPKINS, 1993). O uso do eletrocardiograma tornou-se
um padrão no exercı́cio da Cardiologia e novos avanços na sua aplicação tem sido feitos continuamente (DUPRE; VIEAU; IAIZZO, 2009). O desenvolvimento, pela comunidade
acadêmica, de diferentes técnicas matemáticas, na área de processamento digital de sinais,
Transformadas Wavelet e Maquinas de Vetores de Suporte, tem permitido aos pesquisadores uma incursão exploratória aos sinais cardı́acos, a nı́veis até então restritos pela
escassez de ferramentas adequadas (REISNER, 2006). Neste contexto, este capı́tulo é
dedicado à descrição dos fundamentos dos objetos de estudo desta pesquisa à luz da literatura atualmente disponı́vel. Primeiramente, descreve-se a causa primitiva do estudo da
eletrocardiografia, ou seja, os impulsos elétricos de origem biológica, os chamados biopotenciais. Que interessam não só aos pesquisadores de eletrocardiograma, como também
àqueles que atuam na pesquisa de eletroencefalograma(EEG), eletroneurograma (ENG),
eletromiograma (EMG) e eletroretinograma(ERG). Descreve-se então as bases do funcionamento elétrico do coração humano e seus reflexos no sistema vascular e circulatório.
Um importante foco de estudo, também aqui descrito, é a Eletrocardiografia que, se por
um lado muito tem evoluı́do em termos de tecnologia, por outro lado tem se mantido fiel
aos fundamentos idealizados por seu criador, há mais de um século atrás (TOMPKINS,
1993).
2.1
Fisiologia do Coração
Todas as células do corpo humano necessitam de oxigênio para sobreviver e, ao mesmo
tempo, eliminar os resı́duos resultantes do seu metabolismo. Cabe ao sistema circulatório
o importante papel de levar até elas o oxigênio necessário, suprindo as necessidades metabólicas das células em todo o corpo e , ao mesmo tempo, remover os resı́duos indesejados,
resultantes do metabolismo celular (KLABUNDE, 2005).
Situado na cavidade torácica, entre os pulmões, num espaço denominado mediastino,
o coração, principal órgão do sistema circulatório, tem como função primária impulsionar
para o restante do corpo o sangue que foi enriquecido de oxigênio pelos pulmões e que irá
18
alimentar cada célula do corpo humano e, simultaneamente, impulsionar para os pulmões
o sangue que retorna do restante do corpo, saturado de gás carbônico, ou dióxido de
carbono, para que seja enriquecido com oxigênio. Portanto, a função primária do coração
é mecânica. Esta atividade de bomba cardı́aca é exercida pela contração isolada de cada
célula do músculo cardı́aco, ativadas por um estı́mulo elétrico (GOLDWASSER, 2009).
A figura 1 ilustra a anatomia básica do coração e mostra que ele é constituı́do por quatro cavidades: duas superiores, os átrios esquerdo e direito, e duas inferiores, os ventrı́culos
direito e esquerdo. Note-se, também, a Aorta, a maior artéria do corpo humano que leva
sangue do coração para o resto do corpo através do sistema circulatório, e a Artéria Pulmonar que transporta o sangue vindo do sistema circulatório, pobre em oxigênio, para os
pulmões (KLABUNDE, 2005).
Figura 1: Representação da anatomia básica de um coração humano, onde se vê os átrios,
ventrı́culos e principais artérias e veias por onde flui o sangue recebido e enviado para o
sistema circulatório. Adaptado de (PENG, 2011).
A principal função de bombeamento é desempenhada pelos ventrı́culos, cabendo aos
átrios o papel de antecâmaras que armazenam sangue enquanto os ventrı́culos estão bombeando, aumentando assim a eficiência do sistema. O perı́odo de repouso, no qual os
ventrı́culos se enchem de sangue, é conhecido como diástole. A fase seguinte, de contração,
quando o sangue é bombeado e expelido dos ventrı́culos, é chamada sı́stole (WEBSTER,
2009).
19
2.2
Sistema Elétrico Cardı́aco
Para que seja possı́vel o coração desempenhar a sua função rı́tmica de contração dos
átrios e dos ventrı́culos existe um subjacente precursor elétrico, na forma de bem coordenadas séries de eventos que acontecem no interior do coração. Este conjunto de eventos
elétricos é intrı́nseco ao próprio coração e isso pode ser demonstrado quando ele é removido do corpo, particularmente dos vertebrados de sangue frio como as tartarugas ou os
sapos, e imerso em um meio com nutrientes, como a solução de glicose de Ringer. Uma
vez removido, ele continuará a bater rı́tmicamente por muitas horas (WEBSTER, 2009).
A contração coordenada de átrios e ventrı́culos é definida por um padrão especı́fico
de ativação elétrica nas células da musculatura que compõe a estrutura cardı́aca. Esta
ativação elétrica é iniciada por sistema especializado de condução elétrica que percorre os
átrios e ventrı́culos. A figura 2 ilustra este sistema de condução elétrica no interior do
coração (GOLDWASSER, 2009).
Para executar a contração, faz-se necessário uma fonte de energia e sabe-se que essa
força motriz é uma energia elétrica. Cada célula cardı́aca comporta-se como um gerador
elétrico, transformando a energia quı́mica gerada pela troca de ı́ons de Potássio (K + ),
Sódio (N a+ ), Cloro(Cl− ) e Cálcio(Ca2+ ), em energia elétrica, a qual, por sua vez, é
transformada em energia mecânica, utilizada na contração celular (GOLDWASSER, 2009).
Células cardı́acas em repouso são consideradas polarizadas. Isto significa que elas estão
em estado de equilı́brio e nenhuma atividade elétrica acontece naquele momento. Uma
vez que esta célula receba um impulso elétrico, este estı́mulo rompe o equilı́brio e faz com
que os ı́ons cruzem a membrana da célula, causando a ação potencial, também chamada
de despolarização, que corresponderá a contração do tecido muscular do coração. A
repolarização é o retorno dos ı́ons ao seu estado de repouso e tem como consequencia o
relaxamento dos músculos cardı́acos (LUNA, 2007).
O disparo do impulso elétrico cardı́aco origina-se nas células de tipo marca-passo que
constituem o nó sino-Atrial (SA), localizado na junção da veia cava superior e do átrio
direito. Entre o nó sino-atrial e o nó átrio-ventricular (AV) existem três vias especializadas
para condução elétrica, os tratos anterior, médio e posterior do feixe de His (KLABUNDE,
2005). O Ramo de Bachmann conduz o impulso até o átrio esquerdo e faz com que o
20
Figura 2: Representação do sistema de condução elétrica do coração, formado pelo Nó
Sinoatrial(SA), Nó Átrio Ventricular (AV), Feixe de His e as Fibras de Purkinje. Adaptado
de (MEDLINEPLUS, 2011)
estı́mulo se dissipe nesta região. O impulso parte do nó SA de uma maneira organizada
através de um trato de condução especializados nos átrios, ativando primeiro o átrio
direito e depois o esquerdo. O impulso sofre então um atraso no nó AV, antes que ele
chegue ao feixe de His e de lá prossiga para os ramos do lado direito e do lado esquerdo,
onde ativarão os músculos dos respectivos ventrı́culos (LUNA, 2007).
2.3
Eletrocardiografia
As seções anteriores foram dedicadas a mostrar os detalhes da sequência de eventos que
culminam com ativação elétrica dos átrios e ventrı́culos. A sequência de despolarização
e repolarização das células excitáveis do coração produz uma corrente iônica que flui no
volume condutor do tórax, considerado eletricamente passivo e sem fontes ou drenos de
energia. O registro dos potenciais medidos na superfı́cie externa do tórax é conhecida
como eletrocardiograma, ou ECG.
O ECG é a medida da atividade elétrica do coração e geralmente é obtida através da
leitura de transdutores na superfı́cie do tronco e nas extremidades do paciente, por um
21
eletrocardiógrafo (GOLDWASSER, 2009). A forma de onda esperada na leitura de um ECG
geralmente considerado normal de um ser humano está esquematizada na figura 3
Figura 3: Representação esquemática da forma de onda considerada normal em um ECG.
Adaptado de (CORP, 2011)
Para efeito de estudos, o ciclo cardı́aco é representado através de ondas, intervalos e
segmentos. As ondas são surtos de atividade elétrica, captadas pelos eletrodos colocados
sobre a superfı́cie do corpo, e refletem tanto a despolarização das células do miocárdio, que
tem como consequência a contração do músculo cardı́aco, como a sua repolarização, que
ocorre quando a eletronegatividade do interior das células é restaurada para que possam
ser estimuladas no próximo ciclo. Dependendo da região onde ocorre a despolarização
e a repolarização, essas ondas recebem denominações diferentes. As diferentes linhas
retas, chamadas linhas isoelétricas, que conectam as ondas são chamados de intervalos e
segmentos, e também recebem nomes especı́ficos. Um segmento é uma linha isoelétrica
que conecta duas ondas, enquanto um intervalo engloba pelo menos uma onda, mais a
linha isoelétrica de conexão (THALER, 2008).
A seguir estão descritas os componentes de um ciclo cardı́aco em um ECG padrão e
as suas correspondentes causas conforme (KLABUNDE, 2005) e (THALER, 2008):
• Onda P : A onda P representa a despolarização e consequente contração atrial.
Esta onda é considerada a parte inicial do ciclo cardı́aco. Sua primeira metade
representa a despolarização do átrio direito, e a segunda metade a despolarização
do átrio esquerdo. Duração média: 110 milisegundos.
22
• Complexo QRS : O complexo QRS, formado pela sequência das ondas Q, R e
S, representa a despolarização do miocárdio ventricular e a consequente contração
ventricular. A onda Q é a deflexão inicial para baixo, a onda R é a deflexão seguinte
para cima. A deflexão seguinte para baixo é chamada de onda S. A amplitude do
complexo QRS é muito maior que a da onda P, porque os ventrı́culos possuem muito
mais massa muscular que os átrios. Duração média: 100 milisegundos.
• Onda T : A onda T reflete a repolarização ventricular. As células dos ventrı́culos
voltam à sua eletronegatividade normal, preparando-se para a próxima despolarização. Duração média : 160 milisegundos.
• Intervalo PR : O intervalo PR é o tempo entre o inı́cio da despolarização atrial e
o inı́cio da despolarização ventricular. Engloba a onda P e a linha isoelétrica que a
conecta ao complexo QRS. Duração média : 120 até 200 milisegundos
• Segmento ST : O Segmento ST representa o perı́odo entre o fim da despolarização
ventricular e o inı́cio da repolarização. É a linha isoelétrica que se estende do final
da onda P até o inicio do complexo QRS. Duração média : 320 milisegundos.
• Intervalo RR : É o intervalo entre duas ondas R. Corresponde a frequência de
despolarização ventricular, também chamada de frequência ventricular. A taxa
considerada normal de batimentos situa-se entre 60 e 100 batimentos por segundo.
Duração média : 0.6 até 1.2 milisegundos
2.4
Arritmias Cardı́acas
Segundo a Sociedade Brasileira de Cardiologia, arritmia é a alteração de frequência,
formação ou condução do impulso elétrico através do miocárdio (A. et al., 2009).
Em estado de repouso, ou no ritmo do cotidiano, o coração humano executa seus
ciclos de contração e relaxamento em um ritmo regular, que varia entre 60 e 100 vezes
por minuto. Pelo fato desses ciclos terem sua origem na despolarização do nó sinusal
este ritmo cardı́aco é conhecido como ritmo sinusal. Qualquer alteração deste quadro
é definida como arritmia, também chamada de disritmia. Assim, qualquer distúrbio na
frequência, na regularidade, na origem, ou na condução do impulso elétrico cardı́aco é
classificado como arritmia (GOLDWASSER, 2009). Essa alteração no ritmo normal do
23
coração prejudica, ou anula, a eficiência dos músculos cardı́acos no bombeamento de
sangue para demais órgãos do corpo, privando-os de oxigênio e eventualmente levando o
indivı́duo a morte (GOLDWASSER, 2009). A arritmia pode se apresentar tanto na forma de
um único batimento aberrante, ou com pausa prolongada entre eles, como na forma de um
distúrbio de ritmo sustentado que se estende por toda a vida do paciente (THALER, 2008).
Algumas arritmias podem não apresentar riscos ao seu portador. Por exemplo, em atletas
de alto rendimento, batimentos cardı́acos situados na faixa entre 35 a 40 batimentos
por minuto podem ser considerados normais. Entretanto, outras arritmias podem ser
perigosas e exigem acurado diagnóstico, pois podem ter como sua primeira manifestação
clı́nica a morte súbita. Por esse motivo, o diagnóstico de arritmias é um dos papeis mais
importantes do ECG, e nenhum outro método pode faze-lo melhor, segundo (THALER,
2008).
2.4.1
Batimento Cardı́aco Normal
No ritmo cardı́aco considerado normal, o nó sino atrial (SA) gera o impulso elétrico
que percorre os músculos atriais direito e esquerdo, produzindo a atividade elétrica que é
representada pela onda P. O impulso elétrico continua seu trajeto através até o nó atrio
ventricular, que reduz a velocidade do fluxo elétrico. Isto cria uma pausa (representada
pelo intervalo PR) antes que os ventrı́culos sejam despolarizados. A despolarização dos
ventrı́culos é representada no ECG pelo complexo QRS. A seguir os ventrı́culos se despolarizam, o que é representado no ECG pela onda T. Após uma curta pausa, este processo
se repete(THALER, 2008). Este ciclo está demonstrado na figura 4.
Figura 4: Exemplo de ECG com batimento considerado normal. Adaptado de (GOLDBERGER et al.,
2000).
Segundo (THALER, 2008) e (GOLDWASSER, 2009), pode-se adotar os seguintes critérios
24
para caracterizar o batimento normal em um ECG:
• Onda P com eixo normal : Se existe uma onda P de morfologia arredondada,
simétrica, isto significa que o sinal tem sua origem dentro dos átrios.
• Complexo QRS estreito : Um complexo QRS estreito, com menos de 0,12 segundos de duração, indica que a origem do sinal deve ser o nó AV, ou acima dele, e que
despolarização ventricular está percorrendo as vias normais de condução: nódulo
AV, feixe de His, ramos esquerdo e direito e fibras de Purkinje.
• Existe uma onda P para cada complexo QRS : O fato de haver uma onda
P precedendo cada complexo QRS indica, quase certamente, que o ritmo tem origem atrial. A falta desta correlação indicaria uma falta de coordenação entre a
despolarização e a contração de átrios e ventrı́culos
• Ritmo essencialmente regular : O ECG normal apresenta uma frequência cardı́aca
variável entre 60 e 100 batimentos por minuto. Frequências entre 40 e 60 batimentos por minuto indicam a instalação de uma bradicardia sinual, enquanto valores
entre 160 e 200 batimentos por minuto são classificados como taquicardia sinusal.
Nesses casos o sinal apresenta uma morfologia normal, mas uma frequência anormal (GOLDWASSER, 2009).
Ressalte-se que o registro de um ECG normal não exclui a existência de doença
cardı́aca. (JONES, 2005).
2.4.2
Bloqueio de Ramo Esquerdo - BRE
O Bloqueio de Ramo Esquerdo é uma arritmia caracterizada por um distúrbio na
condução do estı́mulo elétrico em sua passagem pelo ramo esquerdo do Feixe de His,
ou quando essa passagem acontece com extrema dificuldade e lentidão. A ativação do
ventrı́culo esquerdo ocorre de modo anômalo, havendo portanto alteração no eletrocardiograma (GOLDWASSER, 2009). Este tipo de arritmia é causado por doenças coronarianas,
doenças hipertensivas de longa duração ou cardiomiopatia dilatada, e sua ocorrência é
incomum na ausência de doenças orgânicas (EDHOUSE, 2008). O BRE é representado
no ECG, de forma tı́pica, como mostrado na figura 5, onde se pode ver um chanfro no
complexo QRS(KHAN, 2008).
25
Figura 5: Sinal de ECG de portador de Bloqueio de Ramo Esquerdo, apresentando um
chanfro no complexo QRS. Adaptado de (KHAN, 2008).
2.4.3
Bloqueio de Ramo Direito - BRD
O Bloqueio do Ramo Direito consiste numa modalidade de arritmia causada por uma
alteração na condução do impulso elétrico em sua passagem, partindo do nó SA, através
do ramo direito do feixe de His. Durante o BRD, o ventrı́culo direito deixa de ser completamente ativado pelos impulsos que trafegam pelo ramo direito do feixe de condução
elétrica. Essa dificuldade de condução se reflete no ECG através do complexo QRS, que
apresenta uma deflexão extra em consequência da rápida despolarização do ventrı́culo
esquerdo seguida por uma despolarização mais lenta do ventrı́culo direito. Em função do
menor ou maior grau de dificuldade na condução do impulso elétrico esses bloqueios são
classificados quanto ao seu grau de gravidade.
Os bloqueios de 1o e 2o graus, chamados de bloqueios parciais ou incompletos, quando
considerados isoladamente, não são considerados uma cardiopatia e podem se manifestar
em pessoas saudáveis sem apresentar ameaça maior à saúde (GOLDWASSER, 2009). O
BRD é representado no ECG, de forma tı́pica, como mostrado na figura 6, onde pode-se
notar uma deflexão extra no complexo QRS, o que reflete a rápida despolarização do
ventrı́culo esquerdo, seguido por uma mais lenta despolarização do ventrı́culo direito que
apresenta disfunção de condução elétrica. Neste caso o complexo QRS é mais largo, com
duração maior que 0.12 segundos. Notar, também na figura a deflexão adicional, para
baixo do complexo QRS (KHAN, 2008).
2.4.4
Contração Atrial Prematura - CAP
A contração atrial prematura, também conhecida como batimento ectópico atrial ou
batimento atrial prematuro, é um batimento cardı́aco extra, causado pela ativação elétrica,
em um lugar anormal do átrio, antes que o batimento normal possa ocorrer (JONES,
26
Figura 6: Sinal de ECG de portador de Bloqueio de Ramo Direito. Adaptado de (KHAN,
2008).
2005). Este tipo de arritmia pode se manifestar em muitas pessoas saudáveis e raramente
apresenta sintomas. Ela é comum em pessoas com problemas pulmonares e tem incidência
maior em pessoas mais idosas do que em jovens. Pode ainda ser causada ou agravada
pelo consumo de café, chá, ou alguns medicamentos contra febre e asma (CORP, 2011).
Entretanto, em pacientes portadores de doença cardı́aca a ocorrência frequente de CAP
pode preceder outros eventos graves, como taquicardia supraventricular ou fibrilação atrial
(JONES, 2005).
O CAP se reflete no ECG tipicamente como mostrado na figura 7, onde pode-se notar
a alteração do ritmo cardı́aco no segundo e no quarto batimentos, causado pela ativação
elétrica atrial antes que o batimento de ritmo normal aconteça.
Figura 7: Sinal de ECG de portador de Contração Atrial Prematura. Note o ritmo
irregular onde o CAP ocorre. Adaptado de (JONES, 2005).
2.4.5
Contração Ventricular Prematura - CVP
A contração ventricular prematura, também conhecida como batimento ectópico ventricular ou batimento ventricular prematuro, é um batimento cardı́aco extra, resultado da
ativação anormal originária dos ventrı́culos, antes que um batimento normal possa ocorrer
(JONES, 2005).
Este tipo de arritmia é particularmente comum em pessoas mais idosas e pode ser
27
causada por esforço fı́sico ou tensão emocional, ingestão de cafeı́na, álcool ou alguns
tipos de medicamentos para febre ou gripe. Considerando isoladamente, a CVP tem
pouco efeito sobre a ação de bombeamento do coração e normalmente é assintomático a
menos que aconteça com extrema frequência (CORP, 2011) . A PVC se reflete no ECG
tipicamente como mostrada na figura 8, onde pode-se notar a alteração do ritmo normal
no quarto batimento, onde acontece a PVC, apresentando um ritmo irregular, a ausência
de onda P, ausência de intervalo PR e um complexo QRS bizarro e largo(maior que 0.10
segundos) (JONES, 2005).
Figura 8: Sinal de ECG de portador de Contração Ventricular Prematura. Note-se a
alteração do ritmo normal, no quarto batimento, com a ausência de onda P e do intervalo
PR, assim como o complexo QRS disforme. Adaptado de (GOLDBERGER et al., 2000).
2.4.6
Batimento de Marcapasso - BM
O marcapasso artificial é um aparelho de estimulação cardı́aca, composto por um gerador de estı́mulos elétricos e um ou mais eletrodos. O gerador de estı́mulos elétricos é um
circuito eletrônico miniaturizado que possui uma bateria compacta.Os marcapassos tem
um diâmetro próximo de cinco centı́metros e podem ser programados para, na ausência
do ritmo cardı́aco natural, enviar o estı́mulo elétrico aos átrios e ventrı́culos, de modo a
fazer com que o coração se contraia e cumpra a sua função de bombeamento de sangue.
O marcapasso é ligado ao coração através de um ou dois eletrodos. O eletrodo é um fio
condutor, de pequeno diâmetro, eletricamente isolado, que é colocado diretamente no lado
direito do coração. Uma ilustração de um marcapasso instalado no tórax de um paciente
está mostrada na figura 9.
O disparo do estı́mulo elétrico gerado pelo marcapasso se reflete no eletrocardiograma
como um pico de tensão, seguido pelas ondas de despolarização das células cardı́acas. Um
exemplo de registro de ECG de um paciente portador de um marcapasso eletrônico está
28
Figura 9: Ilustração de marcapasso eletrônico implantado em paciente. Adaptado de
(HCBR, 2011).
mostrado na figura 10.
Figura 10: Sinal de ECG de portador marcapasso eletrônico. Adaptado de (GOLDBERGER
et al.,
2.4.7
2000).
Onda Flutter Ventricular - OFV
Onda flutter ventricular é uma arritmia, mais especificamente uma taquicardia, que
submete os ventrı́culos a ritmo acima de 200 batimentos por minuto, muito acima do normal que é de 60 a 100 batimentos por minuto. Este tipo de arritmia é caracterizado no
ECG por uma forma de onda quase senoidal, sem uma clara distinção do complexo QRS e
da onda T, que se fundem em uma única onda. Ela tem sido considerada como um possı́vel
estágio de transição entre a taquicardia ventricular e a fibrilação. É uma arritmia criticamente instável que pode levar a morte súbita. No flutter ventricular ainda se observam
29
contrações eficazes das fibras ventriculares e um débito cardı́aco que permite a sobrevida,
ainda que por tempo limitado. Entretanto o mais comum é evolução para a fibrilação ventricular em um curto espaço de tempo. A ocorrência de flutter ventricular está associada
a cardiopatias com grave degeneração do miocárdio, tais como infarto do miocárdio, miocardiopatia dilatada com insuficiência cardı́aca, miocardite aguda, distúrbios eletrolı́ticos
graves, entre outros. Pode ocorrer em crianças, jovens e adultos. (GOLDWASSER, 2009).
Um exemplo de ECG mostrando a instalação do Flutter Ventricular em um paciente é
mostrada na figura 11.
Figura 11: Sinal de ECG de portador de Onda Flutter Ventricular. Adaptado de (GOLDBERGER et al.,
2.4.8
2000).
Batimento de Escape Ventricular - BEV
Conforme foi exposto na Seção 2.2, em condições normais de trabalho o ciclo cardı́aco
inicia-se pelo disparo de um estı́mulo elétrico iniciado no nó sinoatrial(SA), ou no nó
atrio-ventricular (AV), de onde se propaga para os ventrı́culos.
O Batimento de Escape Ventricular é um termo usado em cardiologia para descrever
uma descarga elétrica automática originada no próprio ventrı́culo. Esse e outros batimentos, originados fora da região normal, são chamados batimentos ectópicos. O BEV ocorre
quando a taxa de estı́mulo elétrico, tanto no nó SA quanto no nó AV, caem abaixo do
nı́vel basal determinado pelas células marcapasso dos ventrı́culos. Normalmente de 2 a
3 segundos, após o atraso dos nós SA e AV em iniciar o disparo do batimento, inicia-se
o batimento de escape ventricular. Pode ocorrer, ainda, quando a condutividade do nó
SA é afetada. Assim o BEV é um mecanismo compensatório que indica anomalias na
condução sistema de condução elétrica do coração que podem ser indicativos de ataque
cardı́aco ou efeito colateral de medicamentos.
A figura 12 ilustra um ECG de paciente portador de BEV. Nela pode-se ver que após
um atraso no segundo batimento normal foi disparado um batimento de escape.
30
Figura 12: Sinal de ECG de portador de Batimento de Escape Ventricular. Adaptado de
(GOLDBERGER et al., 2000).
31
3
MÉTODOS MATEMÁTICOS
Discute-se neste capı́tulo as teorias matemáticas que fundamentam o estudo desen-
volvido neste trabalho. Aqui serão expostos os fundamentos de Transformadas Wavelets,
Máquinas de Vetores de Suporte e Redes Bayesianas.
3.1
Transformadas Wavelets
A Transformada Wavelet é uma transformação matemática desenvolvida nos últimos
30 anos e cuja aplicação tem atraı́do crescente interesse em diversas áreas, tais como na
matemática para aplicações estatı́sticas, na fı́sica para estudos de sismologia e magnetismo, e na engenharia elétrica para processamento digital de sinais, apenas para citar
alguns(PERCIVAL; T.WALDEN, 2006). Os primeiros estudos foram desenvolvidos por volta
da década de 1980, mas foi uma publicação de Ingrid Daubechies em 1988, (DAUBECHIES,
1988), que chamou a atenção da comunidade cientı́fica para o potencial desta técnica matemática.
No século XIX, o matemático francês Joseph Fourier descobriu que qualquer função
periódica pode ser expressa como uma série trigonométrica infinita formada por funções
senos e cossenos. Esta técnica matemática ficou conhecida como transformada de Fourier e, até os dias atuais, tem larga aplicação em processamento digital de sinais, pois
ela permite identificar as frequências que constituem o sinal estudado e edita-lo, construindo filtros digitais para eliminar, ou adicionar, determinadas frequências(HAYKIN;
VEEN,
2002). Entretanto, a técnica desenvolvida por Fourier torna-se limitada quando se
tenta identificar em que ponto, ou instante, cada frequência acontece em um dado sinal.
Assim, a transformada de Fourier oferece boa resolução em frequência porém nenhuma
resolução no tempo (SALOMON, 2007).
A transformada wavelet é uma abordagem bem sucedida ao problema de analisar o
sinal tanto no tempo quanto na frequência. Enquanto a transformada de Fourier mapeia
uma função unidimensional de uma variável contı́nua em uma sequência unidimensional de
coeficientes, a transformada wavelet faz o mapeamento em uma sequência bidimensional
de coeficientes. É esta representação bidimensional que permite a localização do sinal
tanto no tempo quanto na frequência (BURRUS; GOPINATH; GUO, 1998). Dado um sinal
variante no tempo, é possı́vel selecionar um intervalo de tempo e usar a transformada
32
wavelet para identificar e isolar as frequências que constituem o sinal neste intervalo.
O intervalo pode ser largo e, neste caso, o sinal é estudado em uma larga escala. A
medida que os intervalos de tempo diminuem, as escalas tornam-se cada vez menores.
Uma escala mais larga representa o comportamento global do sinal, enquanto uma escala
menor representa o comportamento do sinal em um menor intervalo de tempo. Deste
modo a idéia fundamental por trás das wavelets é a análise de uma função, ou de um série
temporal, de acordo com uma escala, em nı́veis de detalhes (SALOMON, 2007).
Em termos matemáticos, wavelets são funções e como tais precisam satisfazer certas
condições (PERCIVAL; T.WALDEN, 2006). A primeira condição é que a sua integral seja
igual a zero. Isto significa que para cada área da função wavelet acima do eixo dos x, deve
haver uma área equivalente abaixo deste eixo. Assim a função wavelet tem que ter ondas
acima e abaixo do eixo dos x, daı́ a origem do seu nome, ”wave”, onda em inglês. Este
requisito a uma função wavelet ψ é expresso matemáticamente na Equação 3.1 abaixo:.
Z
+∞
ψ (t) dt = 0.
(3.1)
−∞
O segundo requisito é que uma função wavelet ψ seja localizada no espaço, ou seja,
possua suporte compacto, provindo daı́ seu nome ”wavelet”, pequena onda em inglês.
Esta condição estabelece que a integral do quadrado da wavelet tem que existir, ou seja
sua energia seja finita, de modo que ela seja localizada em um intervalo finito e sua energia
seja zero, ou quase zero, fora desse intervalo, como definido na Equação 3.2:
Z
+∞
| ψ (t) |2 dt < ∞.
(3.2)
−∞
Infinitas funções satisfazem esses dois requisitos acima descritos e algumas delas tem
sido pesquisadas e são mais comunmente usadas em transformadas wavelets . A equação
3.3 mostra a função wavelet de Morlet:
−t2
ψ(t) = e
r
cos πt
2
ln2
!
.
(3.3)
A função wavelet Morlet é uma curva coseno que tem suas oscilações amortecidas por
um fator exponencial e possui suporte compacto, pois 99% da sua energia está concentrada
no intervalo −2, 5 ≤ t ≤ 2, 5. Sua forma gráfica está mostrada na figura 13
33
Figura 13: Funcão Wavelet de Morlet.
Uma vez selecionada uma wavelet ψ (t), a Transformada Wavelet Contı́nua (CWT) de
uma função quadrática integrável f (t) é definida, conforme (SALOMON, 2007), como:
Z
+∞
W (a, b) =
−∞
1
f (t) p ψ ∗
|a|
t−b
a
dt.
(3.4)
A transformada W é uma função de dois parâmetros reais a e b, e ∗ denota o complexo
conjugado de ψ. O valor de
√1
a
é um fator de normalização que garante que a energia de
ψa,b permaneça independente de a e de b.
Se definirmos a função
1
ψa,b (t) = p ψ
|a|
t−b
a
.
(3.5)
pode-se re-escrever a Equação 3.4 na seguinte forma
Z
+∞
W (a, b) =
f (t)ψa,b (t)dt.
(3.6)
−∞
Em termos matemáticos, a transformada wavelet é formada pelo produto interno das
duas funções: f (t) e ψa,b (t). Para qualquer a, ψa,b (t) é uma cópia de ψa,0 (t) deslocada b
unidades ao longo do eixo dos x. Assim, b é um parâmetro de translação da função. Se
assumirmos b = 0 na Equação 3.5, teremos como resultado:
1
ψa,b (t) = p ψ
|a|
t
.
a
(3.7)
O que demonstra que a é um parâmetro de escalonamento, ou dilatação, da função.
Para valores de a maiores que 1, a wavelet será expandida, enquanto para valores de a
34
entre 0 e 1, ela será comprimida (SALOMON, 2007).
3.2
Máquinas de Vetores de Suporte
O propósito de desenvolver sistemas que possam se adaptar aos seus ambientes e aprendam com sua experiência têm atraı́do muito investimento em pesquisas de muitas áreas
da ciência como ciências da computação, engenharia, matemática, fı́sica, neurociência e
ciências da cognição, entre outras (CRAMMER; SINGER, 2001). O resultado dessas pesquisas foi a criação de uma variedade de técnicas de aprendizado de máquina com um
enorme potencial de aplicações. Com o avanço das pesquisas, algumas dessas tecnologias
têm se destacado pela sua robustez e flexibilidade. É deste grupo que se sobressaem as
Máquinas de Vetores de Suporte, do inglês Support Vector Machines(SVM), teoria criada
em 1995 por Vladmir Vapnik(VAPNIK, 1995).
Neste estudo, como em muitas outras aplicações da vida real, deseja-se classificar objetos, neste caso batimentos cardı́acos, em uma de várias categorias possı́veis, as Arritmias,
baseado em algumas das caracterı́sticas dos batimentos cardı́acos. As SVM se tornaram
um dos mais populares métodos de classificação, seja ela binária, quando a classificação
apenas entre duas classes é possı́vel, ou multi classe(WESTON; WATKINS, 1999). Como
acontece neste estudo, quando vários tipos de arritmias são possı́veis para classificação de
cada batimento cardı́aco.
SVM são máquinas de aprendizado supervisionado baseadas na teoria de aprendizado
estatı́stico não paramétrico, que podem ser usadas para classificação de padrões e regressão linear. As SVM’s foram primeiramente apresentadas por (VAPNIK, 1995) e foram
criadas com o explı́cito objetivo de resolver problemas de classificação binária de padrões.
Elas têm capacidade de lidar tanto com problemas de classificação linearmente separáveis
quanto aqueles não linearmente separáveis(ALPAYDIN, 2010). No caso de problemas linearmente separáveis, ela busca a construção de um hiperplano ótimo, de modo que a
separação entre os exemplos seja máxima. Caso os problemas sejam não-linearmente
separáveis, o objetivo passa a ser a obtenção de uma função de mapeamento Φ adequada para converter o conjunto mapeado, tornando-o linearmente separável(WESTON;
WATKINS,
1999).
35
3.2.1
O Problema da Classificação
Pesquisas na área da estatı́stica tradicional e das redes neurais artificiais tem desenvolvido muitos métodos com o objetivo de efetuar a distinção entre duas classes usando
funções lineares, bem como métodos para interpolação usando funções lineares. São essas
técnicas que fornecem o suporte teórico para a construção de sistemas mais complexos
das máquinas de aprendizagem, como as SVM (ALPAYDIN, 2010).
A uma máquina de aprendizagem supervisionada, é dado um conjunto de dados de
treinamento, ou espaço de entradas, normalmente em forma de vetores de atributos, de
modo que este conjunto de entradas, X , é um sub conjunto de R, ou seja:
X = {x1 , ..., xm } ⊆ RN .
(3.8)
onde N corresponde à dimensão das amostras e m ∈ N, com seus correspondentes rótulos,
ou valores de saı́da, Y :
Y = {y1 , ..., ym } ⊆ {−1, 1}.
(3.9)
O objetivo do sistema é determinar uma, ou um conjunto de funções de decisão, também
chamadas de funções de custo ou funções alvo g : RN → {−1, 1} que possa acuradamente predizer os rótulos y para valores de entradas x, ainda não conhecidos. Essas
funções particulares são conhecidas como hipóteses e o conjunto é chamado espaço de
hipóteses (ALPAYDIN, 2010). Ou seja, busca-se uma função g que minimize o erro de
classificação, o qual é dado pela probabilidade que g(x), a saı́da da função de custo, seja
6= y, o rótulo esperado. Um método comum de representar essas funções de decisão é usar
uma função de predição de valor real f : RN → R cuja saı́da é submetida a um limiar de
sinal para finalmente obter a classificação g(x) = sgn(f (x)). Dependendo da distribuição
das caracterı́sticas das amostras, o conjunto de dados pode ser classificado como linearmente separável ou não-linearmente separável. Exemplo dos dois tipos de distribuição é
mostrado na figura 14:
O número de predições incorretas define o desempenho do classificador. A esta métrica
dá-se o nome de risco empı́rico ou risco de teste, definida pela seguinte equação (3.10),
conforme (SCHöLKOPF; SMOLA, 2002).
m
Remp [f ] =
1 X1
|f (xi ) − yi |
m i=1 2
36
(3.10)
Figura 14: Exemplos de padrões linearmente separáveis e não-linearmente separáveis.
.
3.2.2
Classificadores Lineares
Um classificador linear pode ser representado como uma função f : X ⊆ RN → RN
da seguinte maneira: o exemplo de entrada x = (x1 , ..., xn ) é designada como uma classe
positiva (+1) se f (x) ≥ 0, caso contrário é assinalado como uma classe negativa (-1) .
Considerando que f (x) seja um função linear de x ∈ X, ela pode ser reescrita da seguinte
forma conforme em (CRISTIANI, 2000):
f (x) = hw, xi + b
=
n
X
w i xi + b
(3.11)
(3.12)
i=1
Sendo (w , b) ∈ RN × RN , os parâmetros peso e bias que controlam a função e a
regra de decisão, a função linear f (x) tem como objetivo criar um hiperplano, um sub
espaço afim de dimensão n − 1, que divide o espaço em duas partes que correspondem a
entrada de duas classes diferentes (CRISTIANI, 2000). O exemplo dado na figura 15 mostra
a interpretação geométrica, onde o espaço de entradas X é dividido em duas partes pelo
hiperplano definido pela equação hw · xi + b = 0.
Denomina-se margem a menor distancia entre os exemplos do conjunto de dados de
treinamento e o hiperplano utilizado na separação dessas classes. A figura 16 demonstra
o hiperplano e a margem separando linearmente as amostras.
A margem γ é determinada pela distancia entre o hiperplano e os vetores mais próximos
a ele, os vetores de suporte. Esses vetores de suporte são os padrões crı́ticos que determinam o hiperplano ótimo, tornando os outros padrões não-crı́ticos dispensáveis, isto é, que
podem ser removidos sem afetar os resultados da classificação. (BARTLETT et al., 2000).
37
Figura 15: Hiperplano de separação para conjunto de dados bidimensionais
.
Figura 16: Nesta figura (w,-b) definem o hiperplano de separação e γ indica o tamanho
da margem. Adaptado de (FRADKIN, 2006).
3.2.3
Classificadores Não Lineares
Um conjunto de dados é chamado não linearmente separável quando não existe a
possibilidade de efetuar a separação desses dados através de um hiperplano no espaço
original dos dados, no espaço original dos dados como aquele mostrado na figura 14.
As limitações computacionais dos classificadores lineares foram ressaltadas na década
de 60 por Minsk e Papert (HAYKIN, 1994). De maneira geral, os problemas do mundo real
normalmente são não lineares. As funções Kernel foram propostas como uma alternativa
38
de solução à limitação dos classificadores lineares, por projetar os dados de entrada em um
espaço de caracterı́stica de dimensionalidade mais alta, aumentando assim a aplicabilidade
das máquinas de aprendizagem (SCHöLKOPF; SMOLA, 2002). O uso de máquinas lineares
com representação dual, onde se calcula a maior margem possı́vel através do produto
interno entre pares de exemplos, torna possı́vel essa projeção pela substituição da função
produto interno por uma função kernel Φ levando a uma mudança na representação dos
dados (CRISTIANI, 2000):
x = (x1 , ..., xn ) 7→ Φ(x) = (Φ1 (x), ..., Φn (x))
(3.13)
O processo descrito pela equação (3.13) corresponde ao mapeamento do espaço de
entradas X em um novo espaço F = Φ(x) | x ∈ X}
Nesta configuração, os valores originais apresentados para compor os dados de entrada (x), são chamados atributos, enquanto os valores que descrevem esses dados (Φ)
são chamados caracterı́sticas. Este processo de mudança de representação de dados pode
ser esquematizado como na figura 17, onde se mostra o mapeamento de um espaço de
entradas bidimensional, não linearmente separável, para um espaço de caracterı́sticas,
multidimensional e linearmente separável o que torna mais eficiente a tarefa de classificação(CRISTIANI, 2000).
Figura 17: O mapeamento de caracterı́sticas simplifica o processo de classificação por
converter dados linearmente não separáveis em caracterı́sticas linearmente separáveis pela
aplicação da função kernel Φ. O mapeamento inverso,Φ−1 , no sentido do Espaço de
Caracterı́sticas para o Espaço de Entradas pode existir ou não. Adaptado de (RAGHAVA,
2011)
39
3.2.4
Classificação Multiclasse
Em sua concepção inicial, as SVM foram desenhadas para efetuar apenas classificação
binária. Entretanto os problemas do mundo real poucas vezes apresentam essa caracterı́stica e são, em sua grande maioria, não lineares. A maior parte dos fenômenos da
natureza são não lineares. Um exemplo tı́pico é o problema abordado por este estudo, a
classificação de arritmias, onde o batimento cardı́aco precisa ser classificado entre mais
que duas possı́veis classes. Conforme demonstrado em (VAPNIK, 1995) e (CORTES; VAPNIK,
1995) a solução para o problema de classificação binária tem sido bem resolvida,
entretanto os problemas de classificação multiclasse tem sido resolvidos pela combinação
de classificadores binários independentes (WESTON; WATKINS, 1999). A abordagem utilizada neste caso é considerar o problema como um conjunto de problemas de classificação
binária. No método um-contra-todos, apresentado por Vladimir Vapnik in 1995 (VAPNIK,
1995), constroem-se k classificadores, designando um classificador para cada classe,
separando cada classe de todas as outras. O enésimo classificador constrói um hiperplano
entre a classe n e as outras k − 1 classes e é treinado com todas as entradas de treinamento com rótulo positivo, enquanto todas as outras classes recebem rótulos negativos
(WESTON; WATKINS, 1999). Esta estratégia tem sido aplicada na solução de reconhecimento de padrões multiclasse e é demonstrado em trabalhos como (SCHÖLKOPF; BURGES;
VAPNIK, 1995) e em
(BLANZ et al., 1996). Uma estratégia alternativa à solução um-contra-
todos, é o método um-contra-um, que consiste em criar { k(k−1)
} hiperplanos separando
2
cada classe da outra e criando uma função de decisão usando algum sistema especı́fico de
votação (WESTON; WATKINS, 1999).
3.3
3.3.1
Redes Bayesianas
Probabilidade
A Teoria da Decisão, relacionada à Teoria dos Jogos, consiste em uma metodologia,
com aplicações em economia, psicologia, filosofia, matemática, e estatı́stica, por exemplo,
para descrever com clareza e raciocinar sobre uma decisão. Esta teoria divide uma decisão
qualquer em três componentes fundamentais, segundo (HECKERMAN, 1995):
• O que se sabe : Diz respeito às informações que o tomador da decisão acredita
possuir, suas convicções.
40
• O que se deseja : Corresponde às preferências do tomador da decisão.
• O que se pode fazer: Diz respeito às alternativas de ação dadas ao tomador da
decisão.
Dentro desta teoria, usa-se o termo probabilidade para descrever as convicções de
uma pessoa se vários eventos irão acontecer, ou não, e o termo utilidade para descrever
as preferências dessa pessoa por cada possı́vel consequência dos eventos(HECKERMAN,
1995).
O desenvolvimento dos primeiros estudos de probabilidades, no século 17, foram financiados por apostadores de jogos de azar, que contrataram eminentes matemáticos da
época para calcular as probabilidades para certos jogos, cujos resultados dependem do
acaso. Posteriormente, observou-se que processos cientı́ficos também podem depender do
acaso e desde então os métodos de probabilidades têm sido utilizados no estudo do mundo
fı́sico, e o estudo das probabilidades tornou-se um extenso ramo da matemática. O estudo
sistemático da probabilidade requer alguns pre-requisitos, tais como o conhecimento sobre
a terminologia dos processos que a compõe e que são descritos a seguir (NAVIDI, 2006):
• Experimento (ε) : Um experimento é um processo que produz um resultado,
entre vários possı́veis, que não pode ser predito com certeza. No caso deste estudo,
a classificação de um batimento cardı́aco é um exemplo de um experimento. Como
também o são os lançamentos de moedas e lançamentos de dados.
• Espaço Amostral (S): O conjunto de todos os possı́veis resultados de um experimento ε é chamado de espaço amostral S. No exemplo deste estudo, o espaço
amostral consiste no conjunto de todas as classes de batimentos cardı́acos, identificáveis ou não. No exemplo das moedas, o espaço amostral resume-se a S =
{Cara,Coroa} e para os dados, S = {1,2,3,4,5,6}
• Evento : Um evento A, relativo a um particular espaço amostral S, associado a
um experimento ε, é um conjunto de resultados possı́veis. Ou seja, um subconjunto
de S. Qualquer resultado individual, mesmo um resultado nulo, também pode
ser considerado um evento (MAYER, 1983). Por exemplo, se o resultado de um
lançamento de dado é o numero 2, então os eventos {2,4,6} e {1,2,3} ocorreram,
assim como qualquer outro evento que contenha o número 2 (HECKERMAN, 1995).
41
Os eventos podem ser classificados como dependentes ou independentes, entre si. A
independência entre eventos significa, intuitivamente, que a ocorrência de um evento
não torna mais ou menos provável que o segundo evento ocorra. Por exemplo, os
eventos de obter como resultado um 6 no primeiro lançamento de um dado e de
obter novamente 6 em um segundo lançamento são eventos independentes(MAYER,
1983).
Existem diversas interpretações para probabilidade. Uma delas, chamada frequentista,
define como probabilidade P, a proporção de vezes que um evento A ocorre em uma longa
série, possivelmente infinita, de experimentos ε, identicamente repetidos. A expressão
P(A) denota a probabilidade que o evento A ocorra(NAVIDI, 2006). Portanto, em uma
interpretação frequentista, dizer que o evento A tem probabilidade de 0.5 significa que o
limite da razão entre número de eventos de A e o número de experimentos é 0.5, quando o
numero de experimentos tende ao infinito (SPIEGELHALTER; ABRAMS; MILES, 2004). Uma
outra perspectiva, chamada subjetiva, na qual se baseia a probabilidade Bayesiana, será
discutida mais adiante, no estudo dos métodos Bayesianos. Uma completa representação
dos componentes de um modelo probabilı́stico é mostrado na figura 18.
Figura 18: Representação dos componentes de um modelo probabilı́stico. Adaptado de
(BERTSEKAS; TSITSIKLIS, 2000).
As perspectivas frequentistas e bayesianas, entretanto, convergem quando se trata das
regras de senso comum em que se baseiam a probabilidade. Elas são definidas em três
axiomas e estão assim enumeradas e comentadas (NAVIDI, 2006):
1. Seja S o espaço amostral. Então P(S) = 1.
2. Para qualquer evento A, 0 ≤ P(A) ≤ 1
3. Se A e B são eventos mutuamente exclusivos e, portanto, independentes, então
P(A ∪ B) = P(A) + P(B)
42
O primeiro axioma diz que o resultado de um experimento está sempre contido no
espaço amostral. O que é evidente, uma vez que o espaço amostral contém todos os resultados do experimento. O segundo axioma indica que uma infinita frequência de um
evento está sempre entre 0 (evento impossı́vel de acontecer) e 100% ( total certeza de
ocorrência do evento). O terceiro axioma pode ser ilustrado com um exemplo. Seja a probabilidade de dois eventos quaisquer P(A) = 0.02 e P(B) = 0.03, então a probabilidade
que o resultado deste experimento seja A ou B é 0.03 + 0.02 = 0.05(NAVIDI, 2006).
Uma vez definidos os conceitos de probabilidades, pode-se, a seguir, discutir algumas
de suas caracterı́sticas.
Como foi mostrado, um espaço amostral contém todos os possı́veis resultados de um
experimento. Entretanto, pode ser necessário obter mais informações de um experimento
cujo resultado vem de apenas uma parte do espaço amostral. A probabilidade que é
baseada em apenas uma parte do espaço amostral é chamada probabilidade condicional (NAVIDI, 2006). Este conceito pode ser representado graficamente, usando diagramas
de Venn, como na figura 19.
Figura 19: Em (a) o diagrama representa a probabilidade incondicional P(A). Em (b)
o diagrama representa a probabilidade condicional de A dado que B ocorra, P(A|B).
Adaptado de (NAVIDI, 2006).
Na figura (a), P(A) é representada considerando o evento A em proporção ao completo
espaço amostral, delimitado pelo retângulo. Em (b) o diagrama representa a probabilidade
condicional P(A|B). Uma vez que é certeza que o evento B ocorreu, ele então se torna o
espaço amostral disponı́vel para A. Para que A ocorra o resultado deve, necessariamente,
estar na intersecção A ∩ B. Portanto sejam os eventos A e B, sendo P(B) 6= 0. A
probabilidade condicional de que o evento A ocorra, dado que B já ocorreu, expresso por
43
P(A|B), conforme em (MAYER, 1983), é dado ela equação (3.14):
P(A|B) =
3.3.2
P(A ∩ B)
P(B)
(3.14)
Teorema de Bayes
Sejam A e B dois eventos, o Teorema de Bayes, desenvolvido por Thomas Bayes, no
século 18, consiste em uma fórmula que permite determinar a probabilidade de um evento,
se a probabilidade do segundo evento é conhecida. Para demonstrar este teorema, pode-se
supor que P(B|A) é conhecido e deseja-se determinar P(A|B) (NAVIDI, 2006).
Partindo da definição de probabilidade condicional dada na equação (3.14):
P(A|B) =
P(A ∩ B)
P(B)
e sabendo-se que pela Regra da Multiplicação, em (NAVIDI, 2006), P(A ∩ B) pode ser
expressa como:
P(A ∩ B) = P(A)P(B|A)
(3.15)
Então substituindo-se P(A ∩ B) por P(A)P(B|A) , obtem-se a fórmula de Bayes (MAYER,
1983):
P(A|B) =
P(B|A)P(A)
P(B)
(3.16)
Apesar de relativamente simples, o Teorema de Bayes serve de suporte para todos
os sistemas modernos de Inteligência Artificial que tem como princı́pio as técnicas de
inferência probabilı́stica (RUSSEL; NORVIG, 2003).
3.3.3
Redes Bayesianas
Conforme demonstrado anteriormente, na seção 3.3.1, pela interpretação clássica,
chamada de frequentista, probabilidade deriva da longa repetição de experimentos. Em
contraste com esta perspectiva, a abordagem Bayesiana permite uma interpretação subjetiva de probabilidade, permitindo expressar uma incerteza genérica, ou grau de convicção,
sobre qualquer quantidade observável, contanto que esta quantidade possa ser potencialmente medida . Seja esta quantidade originada por um numero de experimentos, ou
não (SPIEGELHALTER; ABRAMS; MILES, 2004).
44
Uma Rede Bayesiana corresponde ao modelo gráfico de um sistema, que tem como
finalidade representar de forma simples as relações de causalidade das variáveis aleatórias
desse sistema. Este modelo é um grafo direcionado e acı́clico, em que cada nó é atribuı́do
uma informação quantitativa de probabilidade. A especificação completa dos componentes
de uma Rede Bayesiana é mostrada e analisada a seguir (RUSSEL; NORVIG, 2003):
1. Um conjunto de variáveis aleatórias compõe os nós da rede. Essas variáveis podem
ser discretas ou contı́nuas.
2. Um conjunto de arcos, ou retas, direcionados, conectam os pares de nós. Se há um
arco direcionado do nó X para o nó Y, então diz-se que X é pai de Y
3. Cada nó Xi possui uma distribuição de probabilidade condicional P(Xi |Pai(Xi )),
que quantifica os efeitos dos nós ascendentes sobre aquele nó.
4. O grafos não possuem ciclos direcionados, e por isso são chamado grafos acı́clicos.
As Redes Bayesianas são um conjunto de métodos para representação gráfica e cálculos
probabilı́sticos para a maioria dos problemas caracterizados pela incerteza. Elas são compostas por um conjunto de variáveis e por conexões direcionadas entre essas variáveis, que
as torna muito eficazes na representação de possı́veis relacionamentos ”causa x efeito”.
São chamadas variáveis ”pai”as variáveis que afetam o estado de outras variáveis, estas
chamadas de variáveis ”filhos”. As variáveis que não tem pai são chamadas variáveis
raiz. De forma geral, as variáveis componentes das Redes Bayesianas podem ser discretas
ou contı́nuas. No caso em que as variáveis sejam discretas, cada variável tem um conjunto finito de estados mutuamente exclusivos. Os estados da variável filho Xi , com pais
B1 , B2 , ..., Bn (n > 1), são então descritas por uma Tabela de Probabilidade Condicional
P(Xi |B1 , B2 , ..., Bn . Para as variáveis X1 , X2 , ..., Xn a probabilidade do evento conjunto
X1 ∧ X2 ∧ ... ∧ Xn é dado por (I.MAGLOCIANNIS et al., 2006):
P(X1 , X2 , ..., Xn ) =
n
Y
P [Xi |P ai(Xi )],
(3.17)
i=0
onde P ai(Xi ) é o conjunto de nós das variáveis pais da variável Xi . Uma rede simples,
com variáveis aleatórias discretas, compostas por três nós pais e um nó filho está mostrada
na figura 20.
A construção e montagem de uma Rede Bayesiana geralmente é composta por um
processo de três estágios:
45
C2
Cl
I3
CB
Figura 20: Exemplo de uma Rede Bayesiana simples, composta por três nós pais e um nó
filho.
1. Determinação das variáveis dos seus relacionamentos causa-efeito entre nós pais e
nós filhos.
2. Especificar a probabilidade condicional de cada variável, considerando o estado dos
seus nós ascendentes.
3. Este ultimo estágio é o estágio da inferência, onde os dados são inseridos no modelo
da Rede Bayesiana e as probabilidades para a rede, como um todo, são calculadas de acordo com os relacionamentos causa-efeito entre os nós pais e seus nós
filhos (I.MAGLOCIANNIS et al., 2006).
46
4
TRABALHOS RELACIONADOS
A análise do sinal de ECG possibilita a utilização de uma técnica barata e não invasiva
para analisar as funções do coração sob diferentes condições cardı́acas. O estado cardı́aco
geralmente se reflete nas formas de onda do ECG e na taxa de batimentos cardı́acos,
que podem conter importantes indicadores da natureza da cardiopatia. Entretanto, pelo
fato de sinais biológicos serem não estacionários, os reflexos da cardiopatia podem se
manifestar aleatoriamente e em intervalos irregulares durante o dia. Por esta razão o
estudo dos padrões de ECG e da variabilidade da taxa de batimentos cardı́acos pode
exigir a gravação da atividade cardı́aca por muitas horas, ou dias. Assim, o volume de
dados gerados pode ser enorme e redundante, e sua análise visual tediosa e demorada, o
que pode levar o analista do ECG a deixar passar informações importantes, num trabalho
que pode levar horas.
Nas últimas décadas a análise automatizada do ECG tornou-se uma prática bem
estabelecida e muitos aperfeiçoamentos foram alcançados visando ajudar os cardiologistas
na tarefa de estudar os registros de ECG de longa duração. Vários algoritmos, como
aqueles mostrados na seção 4.1, tem sido publicados na literatura cientı́fica visando a
detecção e classificação de batimentos cardı́acos.
A maioria deles usa a representação do sinal no domı́nio do tempo ou da frequência
para extrair caracterı́sticas especı́ficas das formas de onda do ECG e assim possibilitar
o reconhecimento das diferentes formas de ondas pertencente às diferentes classes de
cardiopatias. A maior dificuldade encontrada por uma analisador automático é a grande
variação na morfologia das formas de ondas do ECG que pode variar não só de paciente,
ou grupo de pacientes, como pode variar para o mesmo paciente (ELGENDI et al., 2008).
4.1
Estudos sobre Classificação de Batimentos Cardı́acos
Em 2009, Yun-Chi et al desenvolveram um algoritmo que aplica Análise de Discriminante Linear (LDA) em sinais de ECG para o diagnóstico de arritmias cardı́acas (YEH;
WANG; CHIOU,
2009). O método estudado por esses autores se propõe a distinguir bati-
mentos cardı́acos normais e anormais. Entre os batimentos anormais, abrangendo quatro
classes de arritmias, estão: Bloqueio de Ramo Direito, Bloqueio de Ramo Esquerdo, Contrações Ventriculares Prematuras e Contrações Atriais Prematuras. O sistema é composto
47
por três principais módulos, cujas funções são descritas a seguir:
• Módulo de extração de QRS, para detectar o complexo QRS usando o Método de
Operação de Diferença descrito em (YEH; WANG, 2008).
• Seleção de caracterı́sticas qualitativas, onde o sistema seleciona as caracterı́sticas de
diagnóstico definidas em detalhes em (ZIGEL; COHEN; KATZ, 2000)
– Amplitude entre as ondas Q e R em um complexo QRS.
– Amplitude entre as ondas R e S em um complexo QRS.
– Tempo de duração entre as ondas Q e S em um complexo QRS.
– Tempo de duração entre as ondas Q e T em um complexo QRS
– Razão entre RRa e RRs . Onde RRs corresponde ao tamanho de um único
intervalo RR enquanto RRs corresponde a média de todos os intervalos RR.
– Inclinação entre a onda Q e a onda R em um complexo QRS
– Inclinação entre a onda R e a onda S em um complexo QRS
– Área do complexo QRS
– Área de R’(uma deflexão positiva seguinte a onda S), S T’ (um ponto de referencia no inı́cio da onda T) em um complexo QRS.
• Classificação dos batimentos cardı́acos aplicando Análise de Discriminante Linear
sobre as caracterı́sticas determinadas no módulo anterior.
Os registros disponı́veis no banco de arritmias MIT-BIH foram utilizados para demonstrar eficácia do algoritmo proposto, através de seus resultados experimentais, é
apresentada na tabela 1. Os detalhes sobre os métodos de cálculo dos percentuais de
Sensitividade (Se), Especificidade (Sp), Acuracidade Preditiva Positiva (PPA, do inglês
Positive Predictive Value) e Acuracidade Preditiva Negativa (NPV, do inglês Negative
Predictive Value) estão descritos no Capı́tulo 6
Também em 2009, Kiranyaz et al apresentaram um método de classificação de eletrocardiogramas de longo-termo, conhecidos como Holters, que podem apresentar em um só
registro mais de 100.000 batimentos cardı́acos, o que torna sua análise manual sujeita a erros. Este método se propõe a identificar os seguintes cinco tipos de batimentos cardı́acos:
48
Tabela 1: Resultados obtidos por (YEH; WANG; CHIOU, 2009)
NORM
BRE
BRD
CVP
CAP
Média(%)
Se(%)
98,97
91,07
95,09
92,63
84,68
92,49
Sp(%)
95,25
99,05
99,29
99,31
99,67
98,51
PPA(%)
97,26
96,50
94,23
91,49
94,01
97,70
NPV(%)
98,20
98,66
99,40
99,40
99,08
98,95
Geral
96,91
Normais (N), Batimentos Ectópicos Supra Ventriculares (S), Batimentos Ectópicos Ventriculares (V), Batimentos Fundidos (F) (fusão entre batimentos átrio-ventricular e ventricular (EDHOUSE, 2008)) e batimentos não-classificáveis (Q) (KIRANYAZ TURKER INCE;
GABBOUJ,
2009).
O sistema inicia com o pré-processamento dos dados para efetuar uma segmentação
temporal, seguido pela extração dos batimentos-chave através da clusterização através de
K-means. K-means, ou K-média, é um método de clusterização que primeiro assinala a
cada ponto dos dados um dos centróides de cluster K e então atualiza-os com a média
(means) dos seus pontos associados. Segundo os autores, este método sofre das seguintes
desvantagens:
• O número de clusters, K, precisa ser conhecido com antecedência.
• A desempenho do método depende das posições iniciais aleatórias dos centróides
enquanto o método converge para o ponto ótimo local mais próximo.
• O método é dependente da distribuição dos dados.
O sistema foi testado contra banco de arritmias MIT-BIH e obteve um bom desempenho apenas na classificação dos grupos de batimentos normais e ventriculares, e baixos
percentuais de correção nas demais. Com os resultados mostrados na tabela 2, os autores
concluem que uma separação mais acurada de batimentos ectópicos supra ventriculares
e batimentos fundidos requer uma técnica de extração de caracterı́stica superior àquela
apresentada neste estudo.
Em 2010, Ghorbanian et al publicaram um estudo para o desenvolvimento de um algoritmo para detectar e classificar seis tipos de batimentos cardı́acos em ECG, incluindo
49
Tabela 2: Resultados obtidos por (KIRANYAZ TURKER INCE; GABBOUJ, 2009)
NORM
S
V
F
Q
Média(%)
Se(%)
99,47
40,15
96,89
85,52
-
80,50
Sp(%)
96,49
99,78
99,38 99,49
-
98,78
PPA(%)
99,60
16,61
99,49
-
71,84
Geral
71,84
83,71
batimentos Normais(NORM),Contrações Atriais Prematuras(CAP), Bloqueio de Ramo
Direito(BRD), Bloqueio de Ramo Esquerdo(BRE), Paced Beats (BM) (batimentos iniciados por um marcapasso eletrônico ventricular (EDHOUSE, 2008)) e Contrações Ventriculares Prematuras(CVP), usando uma rede neural (GHORBANIAN et al., 2010). Antes
de submeter o vetor de entrada ao classificador neural o sinal é submetido a um préprocessamento que aplica as Transformadas Contı́nuas de Wavelet (CWT) para extrair
as caracterı́sticas do sinal, e na sequência, aplica-se a técnica de Análise de Componentes
Principais (PCA) para a redução da dimensionalidade da representação do sinal. Neste
estudo foram usadas as funções wavelets de Haar e foram consideradas os coeficientes das
escalas de 5 a 20. Segundo os autores, há duas vantagens nesta estratégia. A primeira
vantagem é que computar as CWT nas escalas de 2 a 6 permite que o sinal seja analisado em detalhes. A segunda vantagem é que utilizando-se a faixa de escalas de 10 a
15 a morfologia geral do sinal e as suas diferenças com outros tipos de sinais podem ser
ressaltadas.
Como resultado da computação dos coeficientes de wavelet, foi gerada para cada classe,
uma matriz 10 x 150, composta pelos coeficientes wavelets de cada batimento cardı́aco.
Ao final do módulo de pré-processamento, e obtidas as matrizes de coeficientes de wavelets, os autores aplicam sobre elas a técnica de Análise de Componente Principal (PCA),
que resultam em vetores com 10 componentes principais (PC). Selecionando apenas três
componentes principais (PC), os autores acreditam que obtiveram significante redução
de dimensionalidade sem uma significante perda de informações, melhorando assim o desempenho de sua rede neural. Os vetores com componentes principais serão submetidos
como vetor de entrada no classificador neural. A rede neural escolhida pelos autores foi a
clássica perceptron multi-camadas (Multi-layer perceptron neural network, ou MLPNN),
que tem 2 camadas escondidas, com 60 nós na primeira camada e 15 nós na segunda
50
camada para 160 iterações e é treinada com o método de retropropagação de erro. Para
todos os tipos de batimentos sob estudo, dois vetores caracterı́sticos de 150 posições, chamados segmentos, foram selecionados e submetidos para o treinamento da rede neural.
O classificador foi testado com 100 segmentos para cada grupo de sinais de ECG, em
idênticas condições aos segmentos de treinamento. O banco de dados de arritmias do
MIT-BIH foi utilizado na avaliação do algoritmo proposto e, segundo os autores, alcança
uma sensitividade de 99,5%, acurácia de preditividade positiva de 99,66% e uma acurácia
total de 99,17%, conforme mostrado na tabela 3.
Tabela 3: Resultados obtidos por (GHORBANIAN et al., 2010)
NORM
CAP
BRD
BRE
BM
CVP
Média(%)
Se(%)
100
100
100
98
100
99
99,50
PPA(%)
100
99
99
100
100
100
99,66
Geral(%)
99,17
51
5
DESENVOLVIMENTO DO PROJETO
5.1
PRÉ-PROCESSAMENTO DO SINAL DE ECG
Nos anos recentes, devido ao desenvolvimento de novas técnicas matemáticas e novas
plataformas computacionais, a tendência de automação da análise de arritmias ganhou
grande incentivo. Muitos sistemas tem sido implementados para executar esta análise
em eletrocardiogramas, Holters e monitores cardı́acos de pacientes em tempo-real. Os
dispositivos de marca-passo mais modernos já incorporam esta capacidade de análise.
Para que essas aplicações apresentem um nı́vel de confiabilidade aceitável é necessário
que apresentem, na presença de ruı́dos, uma acurada detecção dos pontos fiduciais do
sinal de ECG, como o complexo QRS, por exemplo (ALFAOURI; DAQROUQ, 2008). Os
sinais eletrocardiográficos podem ser corrompidos por vários tipos de ruı́dos, originários
de várias fontes. Alguns exemplos tı́picos, conforme (FRIESEN et al., 1990), são:
• Interferência de rede elétrica. No Brasil, uma frequência fundamental de 60 Hz, com
harmônicas.
• Ruı́do transiente gerado pela perda de contato do eletrodo com o corpo do paciente.
Pode ser permanente ou intermitente.
• Ruı́dos gerados pela movimentação do paciente. A contração muscular causa artefatos com milivolts de amplitude.
• Variação da linha de base e modulação da amplitude do ECG causado pela respiração do paciente. A amplitude do ECG pode variar em até 15% com a respiração
e acrescenta uma onda senoidal de baixa frequência ao sinal
• Ruı́dos de instrumentação gerados pela dispositivo eletrônico usado no processamento do sinal.
• Ruı́dos eletrocirúrgicos.
A grande maioria das aplicações de análise automática de ECG, incluindo a aplicação
proposta neste estudo, baseiam-se fortemente na morfologia do sinal de ECG para reconhecer a variabilidade da atividade cardı́aca. Portanto, é de grande importancia que a
mesma receba as informações do sinal tão livre de ruı́dos quanto possı́vel. Para que possa
52
dar suporte a decisões clı́nicas, o sinal deve ser filtrado para que dele sejam removidos
todos os ruı́dos, sejam contı́nuos ou intermitentes (FRIESEN et al., 1990).
Como parte deste estudo, essas tarefas de filtragem do sinal foram desenvolvidas e
apresentaram resultados satisfatórios, o que é demonstrado a seguir.
5.1.1
Remoção de Variação de Linha de Base
Entre os artefatos que prejudicam a correta leitura e análise de um sinal, de forma
geral, e do ECG em particular, encontra-se aqueles de baixa frequência, que causam
oscilação do sinal acima e abaixo da sua linha de base. Esta variação é uma forma
de ruı́do, que pode ocasionar a diminuição do desempenho de sistemas de detecção do
complexo QRS e de classificação de batimentos cardı́acos. Por exemplo, o Segmento ST,
um importante ponto fiducial no ECG para a identificação de isquemias, é uma onda de
baixa frequência que pode ser completamente distorcida por essa oscilação (JANE et al.,
1992). Esse tipo de interferência pode possuir diversas origens: transpiração, movimento
ou respiração do indivı́duo e pode ter papel relevante em registros de ECG medidos
durante exercı́cio fı́sico. Para reduzir a distorção do segmento ST, em 1990 a Associação
Americana do Coração (AHA, do inglês American Heart Association) recomendou que,
para efeito de filtragem do sinal de ECG, a frequência de corte de baixa frequência fosse
no máximo 0.05 Hz, ou até 0.067 Hz, para filtros digitais lineares com zero distorção de
fase (KLIGFIELD et al., 2007).
A figura 21 apresenta uma série temporal normalizada de um sinal de ECG, medido
durante um ritmo normal de paciente que ocasionalmente apresenta episódios de arritmia.
Há 2048 observações medidas em unidades de milivolts e coletados a uma taxa de 180
amostras por segundo. As flutuações de baixa frequência, destacadas na figura pela linha
verde, são conhecidas como variações da linha de base e, neste caso, devidas a respiração
do paciente. Enquanto as flutuações intermitentes em alta frequência entre os segundos
3 e 4 são devidos ao movimento do paciente (PERCIVAL; T.WALDEN, 2006).
O método aqui adotado para a execução desta tarefa, descrito em (JANSEN; COURHARBO,
2001), consiste na decomposição completa do sinal em escalas de coeficientes
Wavelets e então a eliminação, através de substituição por zeros, dos valores de todos os
coeficientes do sexto nı́vel de decomposição da função de wavelet Daubechie 4 (Daub4).
A frequência central (Fc ) para wavelets Daubechies 4 é 0.7143 Hz e o perı́odo de
53
Figura 21: Série temporal normalizada de um sinal de ECG, contaminado com ruı́dos de
alta e baixa frequência. A componente de baixa frequência, causadora das variações sobre
a linha de base, foi isolada e está destacada na cor verde. Sinal adaptado de (PERCIVAL;
T.WALDEN,
2006).
amostragem ∆ dos registros do banco MIT-BIH é de 1/360 segundos.
Baseados no relacionamento entre escala e frequência, dada por (5.1), podemos selecionar
a escala mais conveniente para remover as variações da linha de base (MATHWORKS, 2011).
Fa =
O resultado da equação
Fc
a×∆
(5.1)
(5.1) indica que se escolhemos a sexta escala para ser pre-
enchida com zeros, estaremos eliminando do sinal a baixa frequência correspondente a
variação da linha de base, dentro das especificações da AHA, como mostrado abaixo:
Fa =
0, 7143 ∼
= 0.023Hz
6 × 1/360
(5.2)
A transformada de Fourier da componente de baixa frequência eliminada neste processo está demonstrada na figura 22
Após a substituição por zeros dos coeficientes do sexto nı́vel, a transformada inversa
da wavelet Daub4 é calculada e o sinal é reconstituı́do, sem as variações de linha de base.
O produto da reconstituição do sinal,sem a componente de baixa frequência, é mostrado
na figura 23 .
54
Figura 22: Espectro de frequência dos coeficientes wavelet do sexto nı́vel de decomposição,
usando wavelet Daub 4, correspondente a componente de baixa frequência causadora das
variações da linha de base
Figura 23: Mesmo sinal de ECG da figura 21, reconstituı́do, agora sem a componente
causadora das variações de linha de base
5.1.2
Remoção de Ruı́dos em ECG
Os sinais de eletrocardiograma são muito fácil e frequentemente contaminados por
diferentes fontes de ruı́dos de alta frequência, durante a sua coleta e gravação. Entre estes
sinais indesejados, os mais recorrentes são:
• Os sinais de Eletromiograma(EMG), uma componente de alta frequência gerada pela
contração muscular, os efeitos da instabilidade dos eletrodos devido ao movimento
do corpo.
• A interferência da fonte de linhas de força de 50 ou 60 Hz.
55
O isolamento e eliminação desses sinais espúrios torna-se uma tarefa mais complexa
quando se sabe, conforme demonstrado em (PAN; TOMPKINS, 1985), que o espectro do
Complexo QRS (5 a 15 Hz) tem intersecção com o ruı́do gerado pelos músculos. Neste
projeto adotou-se o método de remoção de ruı́dos proposto por (DONOHO, 2002). Este
método baseia-se em transformadas Wavelets, aplicando-se um limiar aos coeficientes
obtidos pela sua decomposição.
Através deste método o sinal é decomposto em nı́veis de coeficientes wavelets em
suas respectivas escalas e submete-se apenas os coeficientes do nı́vel desejado ao limiar,
deixando intactos todos os outros coeficientes dos demais nı́veis. O algorı́tmo de Donoho
é resumido em (PERCIVAL; T.WALDEN, 2006) da seguinte forma:
1o Sejam os vetores W1 ,.....WJ 0 ,contendo os coeficientes wavelets, resultantes da decomposição do sinal, com N amostras, por Transformada Wavelets até o nı́vel J0 desejado,
nı́vel este que depende da frequência a ser filtrada.
2o Calcula-se uma estimativa do desvio padrão, no original median absolute deviation
ou (MAD), sobre os valores do nı́vel desejado. Neste estudo foi selecionado o nı́vel 1, por
ser onde se encontram as mais altas frequências componentes do sinal.
O MAD é calculado dividindo-se a mediana do nı́vel por 0,6754, uma constante utilizada para estimativa de desvio padrão de ruı́do branco Gaussiano (PERCIVAL; T.WALDEN,
2006).
ρ̂(mad) ≡
mediana{|W1 ,0 |, |W1 ,1 |, ...|W1 , N −1 |}
2
0, 6745
(5.3)
3o Aplica-se o resultado de MAD, equação (5.3), no cálculo do limiar, δ̂ (u) , a ser
aplicado ao nı́vel J0 , conforme a equação (5.4):
δ̂
(u)
4o Para cada valor de Wj ,t ,
q
≡ 2ρ̂(mad) log (N )
j = 1, ...., J0
(5.4)
e t = 0, ...., Nj − 1 aplicar a regra
denominada hard thresholding, calculando os novos valores dos coeficientes conforme a
regra (5.5):
W j ,t =


0.0
 W,
j t
se
Wj ,t ≤ δ̂ (u)
caso contrário
56
(5.5)
A figura 24 mostra o sinal de ECG antes e após ser submetido ao processo de remoção
de ruı́dos.
Figura 24: Remoção de ruı́dos em ECG. Na figura de cima o sinal contaminado com
ruı́dos de alta frequência e na figura de baixo o mesmo sinal, após a aplicação de hard
thresholding
5.2
DETECÇÃO DE COMPLEXO QRS
A caracterı́stica dominante em um Eletrocardiograma (ECG) é um pulso cı́clico em
uma forma de onda chamado Complexo QRS, que corresponde ao instante em que as
células cardı́acas ventriculares, após serem percorridas por uma corrente iônica, perdem a
sua condição de equilibrio elétrico . O Complexo QRS é um dos mais importantes pontos
fiduciais para os sistemas de monitoramento e classificação de ECG. Vários estudos tem
sido feitos no sentido de criar uma solução universal para o problema de detecção do QRS.
Entretanto devido a grande diversidade de forma de onda, anormalidades e interferências
antes descritos a tarefa de detecção de QRS ainda é um desafio cientı́fico (ELGENDI
et al.,
2008). Neste trabalho, desenvolvemos uma adaptação dos algoritmos descritos
em (PAN; TOMPKINS, 1985) e em (RUDNICKI; STRUMILLO, 2007). O primeiro passo no
desenvolvimento de nosso trabalho foi a seleção da técnica de análise de sinal do ECG. Em
vez de escolher uma técnica tradicional no processamento digital de sinais, que exigiria
filtros especı́ficos para a frequência de cada registros (HAYKIN; VEEN, 2002), selecionamos
a técnica de transformadas Wavelets devido a sua capacidade de separar o Complexo QRS
57
de outros componentes, e de ruı́dos, em um plano tempo-escala. Existe uma variedade de
familias wavelets disponı́veis para esta finalidade, como Haar,Daubechies, Biorthogonal,
Coiflets, Symlets, Morlet, e muitos outro grupos de wavelets Reais or Complexas (BURRUS;
GOPINATH; GUO,
1998) (DAUBECHIES, 1988). Desses métodos citados, selecionamos a
wavelet Daubechie 4, representada na figura. 25, devido ao seu suporte compacto e a
similaridade de forma com um Complexo QRS.
Figura 25: Representação da função wavelet Daubechies 4, também conhecida como Db4
ou Daub4.
A computação inicia com a Análise de Multi Resolução (MRA, do inglês Multi Resolution Analysis) do sinal, decompondo 2N amostras. Neste trabalho adotamos N = 11,
ou seja, um vetor de MRA de 2048 posições.
Uma vez que a MRA produz N/2J coeficientes para cada nı́vel J(0 ≤ J ≤ N ), após
três decomposições obtém-se três vetores, cada um contendo 1024, 512 e 256 coeficientes
wavelet.
Cada vetor é então interpolado usando-se o método cubic spline para reconstituir
vetores de 1024 posições, que são somados em um vetor resultante. As etapas deste
processo estão ilustradas na figura 26.
MRA
initialize
2048
Db4
model
Interpolar
Somar
nı́veis
nı́veis
1,2 e 3
1,2 e 3
2048
Figura 26: Esquema de MRA de 2048 amostras de ECG com a interpolação e soma dos
nı́veis 1, 2 e 3.
O vetor resultante da soma dos vetores interpolados é submetido a um filtro média
móvel para eliminação dos picos duplos (5.6). O valor da média móvel depende do tamanho do vetor. Após alguns experimentos, o melhor desempenho do programa foi obtido
58
com o valor de n = 0, 03 segundos.
n
X
y(n) =
(5.6)
k=n−M +1
A seguir estão listadas as regras implementadas na detecção do Complexo QRS
1. Ignore todos os picos que precedem ou seguem grandes picos por menos de 200
milisegundos
2. Se o pico ocorreu a menos de 360 milisegundos após uma detecção anterior, verificar
se a derivada do sinal original é pelo menos a metade da derivada da detecção
anterior. Se não for, o pico é considerado uma onda T.
3. Se o pico é maior que o limiar de detecção classifique como um Complexo QRS, caso
contrário ignore-o. O limiar de detecção é obtido pelo cálculo da média dos último
oito Complexo QRS anteriores. Cada vez que um pico é classificado como QRS, ele
é adicionado a uma lista contendo os oito últimos QRS. O limiar é a média desses
oito picos.
4. Se nenhum QRS foi detectado dentro do intervalo de uma vez e meia a média dos
intervalos R-R, houve um pico que foi maior que a metade do limiar de detecção, e
o pico está a mais de 360 milisegundos do pico anterior, classifique este pico como
Complexo QRS.
O detector de batimentos necessita dos limiares para trabalhar, então é necessário
informar algumas estimativas iniciais para o limiar. Para obter esta estimativa inicial,
calculamos a média dos oito maiores picos no intervalos dos 5 segundos inicias.
A figura 27 mostra o mesmo sinal de ECG mostrado na figura 24 após ser submetido
ao módulo de detecção do complexo QRS. As linhas verdes verticais são marcadores
meramente ilustrativos, gerados pela aplicação para demonstrar visualmente a precisão na
detecção deste ponto de referencia do sinal. Pode-se notar que as linhas verdes coincidem
exatamente com o complexo QRS em todo o segmento do sinal
5.3
CLASSIFICAÇÃO DE ARRITMIAS
O presente método de classificação de arritmias foi desenvolvido e avaliado utilizando
o banco de dados de arritmias do MIT-BIH e programas da biblioteca WFDB, ambos
59
Figura 27: Linhas verticais verdes indicam a detecção do Complexo QRS em ECG
disponibilizados em (GOLDBERGER et al., 2000).
Para classificação de oito tipos de arritmias cardı́acas, foram selecionados, para treinamento e testes, dezenove entre os quarenta e oito registros disponı́veis no banco de
arritmias. Os dezenove registros, selecionados por englobarem as arritmias selecionadas
para este estudo, foram pré-processados e submetidos a duas Máquinas de Vetores de Suporte, referidas aqui como SVM1 e SVM2, na forma de diferentes vetores caracterı́sticos,
baseados na forma temporal e espectral. Os resultados da classificação de SVM1 e SVM2
são, então, submetidos a um terceiro classificador que, baseado em uma Tabela de Distribuição de Probabilidades, criada por uma Rede Bayesiana, decidirá qual das oito possı́veis
classes de arritmias, é a mais provável de ser verdadeira. O processo de classificação está
representado esquematicamente pela figura 28 e explicado passo a passo, em detalhes,
nesta seção.
Figura 28: Representação esquemática do processo de classificação de arritmias cardı́acas.
1. Para treinamento e testes de classificação foram selecionados dezenove entre os quarenta e oito registros disponı́veis no banco de arritmias do MIT. Esses dezenove
60
registros foram selecionados por conterem, em seu conjunto, apenas os oito classes
de arritmias aqui estudadas e estão listadas na tabela 4. A natureza e caracterı́sticas
de cada classe de arritmia estão demonstradas em detalhes na seção 2.4.
Tabela 4: Classes de arritmias cardı́acas estudadas neste trabalho
Classes de Arritmias
Seq.
Descrição
Abbrev.
Código MIT-BIH
1
Normal
NORM
N
2
Bloqueio de Ramo Esquerdo
BRE
L
3
Bloqueio de Ramo Direito
BRD
R
4
Contração Atrial Prematura
CAP
A
5
Contração Ventricular Prematura
CVP
V
6
Batimento de Marcapasso
BM
/
7
Onda Flutter Ventricular
OFV
!
8
Batimento de Escape Ventricular
BEV
E
2. Cada registro de ECG foi lido e submetido a um pré-processamento para remoção
de ruı́dos de alta frequência e variações em torna da linha de base.
3. Uma acurada detecção do complexo QRS é um passo essencial para a classificação
de arritmias em ECG (ELGENDI et al., 2008). Por este motivo, a primeira tarefa
foi garantir um desempenho aceitável do detector de QRS sobre todos os 48 registros do banco de arritmias MIT-BIH, coletando os resultados da detecção, mostrados na tabela apresentada no Apêndice A - Desempenho do algoritmo de detecção de QRS. Neste estudo procurou-se ajustar o algoritmo de detecção de QRS,
visando obter uma sensitividade comparável àquelas obtidas nos estudos desenvolvidos por (ZHENG; WU, 2008), (ELGENDI et al., 2008) e (RUDNICKI; STRUMILLO,
2007).
4. Identificados o máximo local de cada complexo QRS, fizemos a segmentação do
registro para a criação de vetores padrões. Cada segmento corresponde a um vetor
padrão, que possui o tamanho de 128 posições e tem o ponto máximo do complexo
QRS centrado na posição central do vetor, a posição 64.
61
5. Cada vetor padrão, contendo a forma de onda, foi submetido a transformada Wavelet
DB4 para a obtenção de vetores padrões contendo a caracterı́stica espectral do
registro. Procedendo assim, dispusemos de dois tipos de vetores padrões: o primeiro
baseado na morfologia do sinal e o segundo baseado no espectro de frequencia do
sinal.
6. A redução da dimensionalidade do vetor caracterı́stico influencia positivamente
tanto a eficiência computacional quanto a capacidade de generalização das máquinas
de vetores de suporte (CRISTIANI, 2000). Para obtermos a redução de dimensionalidade dos vetores caracterı́sticos, aplicamos sobre os vetores padrões a técnica de
Análise de Componente Principal (PCA, do inglês Principal Component Analysis),
calculada por matriz de covariância, obtendo-se os autovalores, que formarão os
vetores caracterı́sticos. O gráfico dos Componentes Principais está mostrado na
figura 29. A análise do gráfico indicou que os 10 primeiros Componentes são suficientes para a boa representação dos padrões. O mesmo processo de redução foi
aplicado tanto ao sinal morfológico quando ao espectral.
Figura 29: Representação dos Autovalores, ou Componentes Principais, calculados a partir da matriz de covariancia dos vetores padrões.
7. Para efeito de treinamento das máquinas de vetores de suporte foi desenvolvido um
programa que seleciona aleatoriamente dentro de cada registro o número de amostras desejadas. Assim a cada ensaio de treinamento e testes obteve-se resultados
ligeiramente diferentes mas que comprovam a estabilidade e convergência dos classificadores. Para cada classificador, SVM1 e SVM2, o processo Treinamento-Teste
foi executado seis vezes e seus resultados são mostrados na seção TESTES E RESULTADOS. A tabela 5 mostra como serão selecionados os registros para extração
62
dos vetores caracterı́sticos das classes para treinamento dos classificadores.
Tabela 5: Amostras de registros para criação de vetores de treinamento e testes
Registros e numero de amostras usados para treinamento
Seq.
Classes
Registros MIT-BIH
NORM
100,
112,
121,
219,
2
BRE
109, 111, 207, 214
100
3
BRD
118, 124, 212, 231
100
CAP
209, 222, 232
220
223
100
47
35
CVP
106, 119, 200, 203, 208
213, 221, 228, 233
116
201
210
215
100
100
54
98
96
82
6
PB
102, 104, 107, 217
100
7
OFV
207
236
8
BEV
207
52
1
4
5
101,
113,
122,
230,
103, 105, 108
114, 115, 117
123, 202, 205
234
Totais
Vetores para Treinamento
100
100
100
100
4900
8. Para este estudo, selecionamos a biblioteca de programas LIBSVM, disponı́vel em (CHANG,
2011). As máquinas de vetores de suporte foram configuradas para utilizar o kernel
RBF (do inglês Radial Basis Function), pois este é o kernel padrão desta biblioteca
e requer apenas dois parâmetros de configuração: C , chamado de coeficiente de
penalidade, uma relação entre margem do hiperplano e erro, e Gama (γ), que define
o tamanho da RBF (BURGES, 1998). Para a criação do modelo, os valores ótimos
fornecidos pela biblioteca LIBSVM para os dados de treinamento foram C = 32.0 e
γ = 0.5
9. Finalmente, o resultado dos dois classificadores são submetidos a um classificador
probabilı́stico que, baseado em uma Tabela de Distribuição de Probabilidades criada
por uma Rede Bayesiana, atribuirá uma classificação final. Esta tabela foi criada
com a submissão ao aplicativo BayesLab dos resultados de treinamento de classi63
ficação das SVM e o resultado anotado do banco de dados do MIT. Mais detalhes
desta tabela podem ser encontradas no Apêndice C - Tabelas de Distribuição de
Probabilidades.
64
6
TESTES E RESULTADOS
6.1
Método de Avaliação de Desempenho dos Classificadores.
A métrica adotada para a avaliação testes de diagnósticos, em geral, e do desempenho dos classificadores de ECG, em particular, utiliza cinco ı́ndices estatı́sticos, abaixo
descritos (AKOBENG, 2007) e (YEH; WANG; CHIOU, 2009):
Dadas as seguintes convenções:
• TP (True Positive) : Resultado verdadeiramente positivo de um teste. Por exemplo,
quando esta aplicação indica uma amostra do ECG como sendo um QRS e esta
amostra realmente corresponde a um QRS, este resultado é considerado um TP, um
verdadeiro positivo.
• FP (False Positive) : Resultado falsamente positivo de um teste. Por exemplo,
quando esta aplicação indica uma amostra do ECG como sendo um QRS e esta
amostra não corresponde a um QRS, este resultado é considerado um FP, um falso
positivo.
• TN (True Negative) : Resultado verdadeiramente negativo de um teste. Por exemplo, quando esta aplicação indica uma amostra do ECG como não sendo um QRS
e esta amostra realmente não corresponde a um QRS, este resultado é considerado
um TN, um verdadeiro negativo.
• FN (False Negative) : Resultado falsamente negativo de um teste. Por exemplo,
quando esta aplicação indica uma amostra do ECG como não sendo um QRS e esta
amostra na verdade corresponde a um QRS, este resultado é considerado um FN,
um falso negativo.
Os exemplos dados acima foram baseados em detecção de QRS, porém as métricas
descritas aplicam-se tanto a detecção de QRS quanto a classificação de arritmias.
Os ı́ndices estatı́sticos são definidos e calculados da seguinte forma:
1. Sensitividade (Se): É definida pela relação entre os resultados verdadeiramente
positivos (TP) e a soma dos resultados verdadeiramente positivos (TP) mais os
falsamente negativos (FN). Em termos diagnósticos, é a proporção de eventos reais
de arritmia que receberão um correto diagnóstico positivo.
65
É expresso pela seguinte equação:
Se =
TP
(%)
TP + FN
(6.1)
2. Especificidade (Sp): É definida pela relação entre os resultados verdadeiramente
negativos (TN) e a soma dos resultados verdadeiramente negativos (TN) mais os
falsamente positivos (FP). Em termos diagnósticos, é a proporção de eventos com
ausência de arritmia que receberão um correto diagnóstico negativo.
Sp =
TN
(%)
TN + FP
(6.2)
3. Acuracidade Preditiva Positiva (PPA): (ou PPV, do inglês Positive Predictive Value) É definida como a proporção dos diagnósticos com um resultado positivo que
realmente apresentam arritmia. A PPA é, algumas vezes também denominada de
”probabilidade pós-teste da doença, dado um teste positivo”. Pode ser obtido pela
seguinte equação:
PPA =
TP
(%)
TP + FP
(6.3)
4. Acuracidade Preditiva Negativa (NPV): NPV, do inglês Negative Predictive Value
, é definida como a proporção dos diagnósticos com um resultado negativo que
realmente não apresentam arritmia. A NPV também pode ser definida como a
probabilidade de não ter a doença, dado um teste negativo Pode ser obtido pela
seguinte equação:
NP V =
TN
(%)
TN + FN
(6.4)
5. Acurácia Total da Classificação(TCA): TCA, do inglês Total Classification Accuracy, é a relação entre o numero total de resultados corretos e o numero total de
testes. Pode ser obtido pela seguinte equação:
T CA =
Número de batimentos corretamente diagnosticados
(%)
Número total de batimentos
(6.5)
O desempenho dos classificadores de batimentos cardı́acos citados a seguir, neste estudo, é avaliada utilizando-se os ı́ndices estatı́sticos acima descritos.
66
6.2
Validação Cruzada.
Validação cruzada é uma técnica de avaliação da capacidade de generalização, em uma
análise estatı́stica, sobre um conjunto independente de dados. Esta técnica é utilizada,
principalmente, em aplicações que tem como objetivo a predição, e deseja-se estimar o
desempenho do modelo preditivo sob avaliação. Entre os tipos mais comuns de validação
cruzada, selecionamos para este estudo a validação por amostragem randômica repetida.
Este método consiste em executar o ciclo de treinamento e testes repetidas vezes, sabendose que a cada execução os registros para treinamento são selecionados randômicamente,
conforme descrito em (KOHAVY, 1995). Essa seleção aleatória de registros de treinamento
vai se refletir em diferentes resultados de testes apresentados pelo classificador, do qual,
no entanto, espera-se que apresente os mesmos nı́veis de desempenho a cada ciclo de
execução. Neste estudo foram testados dois classificadores, ambos baseados em Máquina
de Vetores de Suporte e são aqui denominados SVM1 , classificador que tem como vetor
caracterı́stico of formato temporal do sinal de ECG e SVM2, classificador que tem como
vetor caracterı́sticos os coeficientes da transformada wavelet do sinal de ECG. Para cada
classificador, SVM1 e SVM2, o processo Treinamento-Teste foi executado seis vezes e
seus resultados foram tabulados nas folhas anexas no Apêndice B. Avaliação Cruzada dos
Classificadores.
67
Tabela 6: Resumo da Validação Cruzada
TCA(%) Obtida na Validação Cruzada
Execuções
SVM 1
SVM 2
Primeira execução
98.5438
98.4006
Segunda execução
98.7139
98.5780
Terceira execução
98.5616
98.6293
Quarta execução
98.7014
98.6547
Quinta execução
98.6028
98.2566
Sexta execução
98.6495
98.5616
TCA Média (%)
98.6288
98.5134
Dos resultados mostrados na tabela 6 pode-se observar que os classificadores aqui
desenvolvidos apresentam estabilidade de resultados independentemente do número de
execuções.
68
6.3
Resultados de classificação da Rede Bayesiana.
A seguir são mostrados os resultados numéricos e gráfico classificação feito pelo classificador bayesiano baseado na Tabela de Distribuição de Probabilidades. Foram testados
dezenove dos quarenta e oito registros do banco de arritmias. Para cada registro foram
calculados a Acurácia Total de Classificação, ou TCA(%), conforme descrita na Seção 6.
Ao final dos resultados mostrados na tabela 7 são calculados o Totais, a Média Geral e o
Desvio Padrão da série de resultados.
Tabela 7: Resultados dos Testes do Classificador Bayesiano
Registro
Bati-
ECG
mentos
Corretas
SVM 1
Err
TCA(%)
Corretas
SVM 2
Err
TCA(%)
Corretas
Rede Bayesiana
Err
TCA(%)
100
2273
2267
6
99.7360
2268
5
99.7800
2268
5
99.7800
103
2084
2082
2
99.9040
2079
5
99.7601
2080
4
99.8080
106
2027
1966
61
96.9906
1986
41
97.9773
2013
14
99.3093
107
2137
2122
15
99.2981
2132
5
99.7660
2130
7
99.6724
111
2124
2057
67
96.8456
2045
79
96.2806
2048
76
96.4218
112
2539
2538
1
99.9606
2538
1
99.9606
2538
1
99.9606
115
1953
1945
8
99.5904
1952
1
99.9488
1952
1
99.9487
116
2412
2407
5
99.7927
2402
10
99.5854
2409
3
99.8756
117
1535
1532
3
99.8046
1534
1
99.9349
1528
7
99.5439
119
1987
1987
0
100.000
1987
0
100.000
1987
0
100.000
121
1863
1861
2
99.8926
1858
5
99.7316
1860
3
99.8389
122
2476
2476
0
100.000
2476
0
100.000
2469
7
99.7172
123
1518
1518
0
100.000
1517
1
99.9341
1518
0
100.000
200
2601
2474
127
95.1173
2469
132
94.9250
2480
121
95.3479
207
2331
2280
51
97.8121
2278
53
97.7263
2269
62
97.3401
209
3005
2791
214
92.8785
2815
190
93.6772
2877
128
95.7404
212
2748
2688
60
97.8166
2731
17
99.3814
2729
19
99.3085
220
2047
2038
9
99.5603
2035
12
99.4138
2035
12
99.4137
221
2427
2411
16
99.3407
2400
27
98.8875
2409
18
99.2583
Totais
42087
41440
647
98.4627
41502
585
98.6100
41599
488
98.8405
Média
98.6495
98.5616
98.9624
D. Padrão
1.9709
2.0621
1.5199
A figura 30 demonstra graficamente o desempenho da classificação da Rede Bayesiana
em relação aos dois outros classificadores. Esta figura representa o desempenho dos três
classificadores e nela podemos notar que a classificação pela Rede Bayesiana pouco contribuiu para o desempenho do conjunto. Isso se deve a alta similaridade de desempenho
69
entre os dois primeiros classificadores, o que deixa pouca margem para decisão do classificador bayesiano, uma vez que eles produzem resultados bem próximos para os mesmos
casos de arritmias.
Figura 30: Comparativo gráfico do desempenho dos três classificadores.
A tabela 8 demonstra o resultado obtido por este estudo considerando as classes de
arritmias individualmente,
Tabela 8: Resultados obtidos por este estudo
NORM
CAP
BRD
BRE
BM
CVP
OFV
BEV
Se(%)
99,84
65,67
99.12
97.32
98.90
85,36
97.67
99.05
Sp(%)
97,74
96,40
98.40
97.11
98.33
99,58
98.07
99.87
TCA(%)
98.79
81,03
98.76
97.21
98.60
92,47
97,87
99.46
Dando sequência à avaliação dos classificadores, selecionamos aleatoriamente cinco
registros de ECG que não tiveram nenhuma participação no treinamentos das Máquinas de
Vetores de Suporte ou da Rede Bayesiana. Esses registros possuem classes de arritmias que
não foram eleitas para este estudo, tais como, por exemplo, Batimento Atrial Prematuro
Aberrante e Fusão de Batimento Normal e Ventricular, encontradas nos registros 202 e
203.
Os resultados numéricos desse experimento estão mostrados na tabela 9. Nesta tabela
podemos notar uma grande variação nos resultados com alguns registros obtendo mais
de 80% de acuracidade, como os registros 215 e 233, bem como outros com resultados
em torno de 11%, caso do registro 232 que possui 77% dos seus batimentos cardı́acos na
70
classe de Batimento Atrial Prematuro.
Além dos resultados numéricos, mostramos na figura 31 o desempenho dos classificadores quando a eles são submetidos os registros que não passaram por nenhuma fase
de treinamento. O gráfico apenas enfatiza a grande variação dos resultados, bem como a
baixa contribuição da Rede Bayesiana para a acurácia total, uma vez que os classificadores
baseados em Máquinas de Vetores de Suporte também neste caso apresentam desempenho
semelhante.
Tabela 9: Resultados dos Testes do Classificador Bayesiano(Registros Sem Treino)
Registro
Bati-
ECG
mentos
Corretas
SVM 1
202
2117
203
2976
215
3363
232
233
Totais
SVM 2
Err
TCA(%)
Corretas
1546
590
73.0278
1004
1972
33.7365
2751
612
81.8019
1779
212
1567
3078
2789
290
13313
8301
5031
Rede Bayesiana
Err
TCA(%)
Corretas
Err
TCA(%)
1578
539
74.5394
729
2247
24.4959
1581
536
74.6811
726
2250
24.3951
2752
611
81.8316
2883
480
67.8858
11.9168
267
1512
90.5782
2505
573
15.0084
211
1568
11.8605
81.3840
2524
554
82.0001
62.3525
7831
5482
58.8222
7925
5088
59.5282
Média
58.9022
56.0135
53.3918
D. Padrão
30.2659
29.4486
28.5834
Figura 31: Comparativo gráfico do desempenho dos três classificadores, testando apenas
registros não usados no treinamento.
71
6.4
Resultados Finais Obtidos
A tabela 10 mostra um comparativo entre os resultados obtidos por estudos desenvolvidos por (GHORBANIAN et al., 2010), (KIRANYAZ TURKER INCE; GABBOUJ, 2009), (YEH;
WANG; CHIOU,
2009) sobre a classificação de batimentos cardı́acos, utilizando o banco de
arritmias do MIT-BIH.
Nesta tabela é mostrada, para cada estudo, o número de classes de batimentos cardı́acos
estudados, a Sensitividade(Se) média obtida, e a Acurácia Total da Classificação (TCA)
média obtida. A última linha da tabela apresenta os resultados finais obtidos por este
trabalho ao classificar oito tipos de batimentos cardı́acos, número superior àqueles estudados nos demais trabalhos, e obteve resultados compatı́veis com o estado da arte na
classificação de arritmias baseadas em eletrocardiograma.
Tabela 10: Comparação entre resultados obtidos por três estudos e os resultados obtidos
neste trabalho
Comparativo de Performance de Classificadores usando banco de arritmias MIT-BIH
Estudo
Classes
Se Média
TCA média
(GHORBANIAN et al., 2010)
6
99,50
99,17
(KIRANYAZ TURKER INCE; GABBOUJ, 2009)
4
98,78
99,04
(YEH; WANG; CHIOU, 2009)
5
92,48
96,23
Este Estudo (Resultados Obtidos)
8
98,58
98,96
72
7
CONSIDERAÇÕES FINAIS
Sistemas de aprendizado de máquina ocupam atualmente uma vasta área de pesquisa
onde a comunidade cientı́fica e acadêmica tentam descobrir novas aplicações e novos algoritmos em busca de melhor desempenho desses sistemas. Essas pesquisas têm demonstrado
que as máquinas podem atingir um significante nı́vel de aprendizagem e capacidade de
inferência.
O desenvolvimento de sistemas de aprendizado confiáveis é de extrema importancia,
uma vez que muitos problemas não podem ser solucionados pelas técnicas clássicas de
programação, uma vez que não exista um modelo matemático do problema.
Foi com esta motivação que procuramos aplicar essa técnica a um problema de grande
importância para a sociedade: a detecção de arritmias em eletrocardiogramas. Neste trabalho demonstramos a aplicação de Máquinas de Vetores de Suporte combinadas a uma
Rede Bayesiana para classificar oito tipos de arritmias registradas em eletrocardiogramas
do banco de arritmias do Massachusetts Institute of Technology.
As contribuições deste trabalhos estão basicamente concentradas nos capı́tulos 5 e 6,
enquanto os capı́tulos anteriores fornecem os fundamentos necessários à compreensão e
fornecem as razões para as alternativas adotadas no desenvolver da pesquisa. As contribuições do Capı́tulo 5 consistem na demonstração das três etapas da construção da
aplicação que é formada por um módulo de pré-processamento do sinal, a detecção do
Complexo QRS, ponto fiducial do ECG e indispensável a qualquer classificador e, finalmente a criação de uma combinação de classificadores visando obter melhor desempenho
da aplicação. Os resultados dos testes a que foram submetidos esses classificadores foram
demonstrados no Capı́tulo 6. No Capı́tulo 4 relacionamos três estudos recentes na área
da classificação de arritmias que utilizam técnicas diversas e quando comparamos esses
resultados àqueles obtidos neste estudo, mostrados na seção 6.4, podemos afirmar que os
objetivos do presente estudo foram atingidos a contento. Ao analisarmos os resultados
do estudo, podemos concluir que, dada a similaridade de desempenho dos dois classificadores baseados em máquina de vetores de suporte, a Rede Bayesiana deu pouca, ou
nenhuma, contribuição para o aumento da acuracidade da classificação. Somos levados a
crer que caso os classificadores apresentassem diferentes desempenhos, em diferentes classes de arritmia, o classificador bayesiano teria um papel mais relevante no sistema aqui
desenvolvido. Isso pode ser levado em consideração em futuros estudos, onde pode-se
73
criar um comitê de especialistas na classificação em tipos especı́ficos de arritmias e então
concatena-los em uma Rede Bayesiana, espera-se, aumentará a acuracidade do sistema
como um todo. Apesar da baixa contribuição da Rede Bayesiana, os resultados aqui obtidos, são tão bons quanto e talvez possam ser considerados ainda melhores que aqueles
demonstrados no Capı́tulo 4, se levarmos em conta que mais classes de arritmias foram
estudadas neste trabalho obtendo resultados numéricos aproximados àqueles publicados.
7.1
Perspectivas Futuras
As perspectivas futuras incluem tópicos e funcionalidades que não foram detalhadamente estudadas pela pesquisa pelos mais variados motivos, bem como funcionalidades
que ganham importancia devido aos próprios resultados obtidos pela pesquisa. Como
perspectivas, podemos citar :
• Implementação de Detecção de QRS em tempo real. O presente trabalho foi pensado
em termos de registros pré-gravados de ECG. A detecção de QRS em tempo real
possibilitaria a adaptação do programa a monitores cardı́acos.
• Testes das máquinas de vetores de suporte com diferentes kernel, o que poderia, em
tese, melhorar o desempenho da classificação.
• Acrescentar mais dados aos vetores caracterı́sticos das máquinas de vetores de suporte, tais como, por exemplo, distancia média das 10 últimas ondas R, amplitude
da onda R e a energia do complexo QRS. Mais descrições de vetores caracterı́sticos
estão disponı́veis em(YEH; WANG; CHIOU, 2009).
• Implementação desta aplicação em aparelhos móveis como celulares ou tablets. Esses
equipamentos podem oferecer recursos de comunicação e solicitação de auxilio em
caso de emergência.
74
REFERÊNCIAS BIBLIOGRÁFICAS
A., P. C. et al. Diretrizes da sociedade brasileira de cardiologia sobre análise e emissão
de laudos eletrocardiográficos (2009). Arquivos Brasileiro de Cardiologia, v. 93(3 supl.2),
p. 1–19, 2009. Disponı́vel em: <http://publicacoes.cardiol.br/consenso/>.
AKOBENG, A. K. Understanding diagnostic tests 1: sensitivity, specificity and
predictive values. Acta Pædiatrica, Blackwell Publishing Ltd, v. 96, n. 3, p. 338–341,
2007.
ALFAOURI, M.; DAQROUQ, K. Ecg signal denoising by wavelet transform thresholding.
American Journal of Applied Sciences, v. 5, p. 276–281, 2008.
ALPAYDIN, E. Introduction to Machine Learning. 2nd. ed. [S.l.]: The MIT Press, 2010.
Hardcover. (Adaptive Computation and Machine Learning).
BARTLETT, P. J. et al. (Ed.). Advances in Large-Margin Classifiers. Cambridge, MA:
MIT Press, 2000.
BERTSEKAS, D. P.; TSITSIKLIS, J. N. Introduction to Probability. Cambridge,MA:
Massachusetts Institute of Technology - Lecture Notes - Course 6.041-6.431, 2000.
BLANZ, V. et al. Comparison of view-based object recognition algorithms using realistic
3d models. In: MALSBURG, C. von der et al. (Ed.). Artificial Neural Networks ICANN
96. [S.l.]: Springer Berlin, 1996. v. 1112, p. 251–256.
BURGES, C. J. C. A tutorial on support vector machines for pattern recognition. Data
Mining and Knowledge Discorvery, v. 2, p. 161–167, 1998.
BURRUS, C. S.; GOPINATH, R. A.; GUO, H. Introduction to Wavelets and Wavelets
Tranforms - A Primer. New Jersey: Prentice Hall, Inc, 1998.
CHANG, C.-J. L. C.-C. LIBSVM – A Library for Support Vector Machines. 2011.
Disponı́vel em: <http://www.csie.ntu.edu.tw/˜cjlin/libsvm/>. Acesso em: 10 fevereiro
2011.
CORP, M. S. . D. The merck manual for healthcare professionals. The Merck Manuals
Online Medical Library, 2011. Disponı́vel em: <http://www.merckmanuals.com/professional/sec07/ch070/ch070e.html>. Acesso em: 1 fevereiro 2011.
75
CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, Springer
Netherlands, v. 20, p. 273–297, 1995. ISSN 0885-6125. Disponı́vel em: <http://dx.doi.org/10.1023/A:1022627411411>.
CRAMMER, K.; SINGER, Y. On the algorithm implementation of multiclass
kernel-based vector machines. Journal of Machine Learning Research, v. 2, p. 265–292,
2001.
CRISTIANI, J. S.-T. N. Support Vector Machines and other kernel based learning
methods. Cambridge,UK: Cambridge University Press, 2000.
DAUBECHIES, I. Orthonormal bases of compactly supported wavelets. Communications
on Pure and Applied Mathematics, v. 41, p. 909–996, 1988.
DONOHO, D. L. De-noising by soft-thresholding. IEEE Transactions on Information
Theory, v. 41, n. 3, p. 613–627, August 2002. Disponı́vel em: <http://dx.doi.org/10.1109/18.382009>.
DUPRE, A.; VIEAU, S.; IAIZZO, P. A. Handbook of Cardiac Anatomy, Pshysiology,
and Devices. 2nd. ed. [S.l.]: Springer, 2009.
EDHOUSE, F. M. J. ABC of Clinical Electrocardiography. [S.l.]: Blackwell Publishing,
2008.
ELGENDI, M. et al. A robust qrs complex detection algorithm using dynamic
thresholds. In: Proceedings of the International Symposium on Computer Science and its
Applications. Washington, DC, USA: IEEE Computer Society, 2008. p. 153–158. ISBN
978-0-7695-3428-2.
FRADKIN, I. M. D. Support vector machines for classification. DIMACS Series in
Discrete Mathematics and Theoretical Computer Science, v. 70, p. 13–20, 2006.
FRIESEN, G. M. et al. A comparison of the noise sensitivity of nine qrs detection
algorithms. IEEE Transactions on Biomedical Engineering, v. 37, p. 85 – 98, 1990.
GHORBANIAN, P. et al. Heart arrhythmia detection using continous wavelet transform
and principal component analisys with neural network classifiers. Computers in
Cardiology 2010, v. 37, p. 669–672, 2010.
76
GOLDBERGER, A. L. et al. Physiobank, physiotoolkit, and physionet: Components of a new research resource for complex physiologic signals. Circulation, v. 101, n. 23, p. e215–e220, 2000. Circulation Electronic Pages:
http://circ.ahajournals.org/cgi/content/full/101/23/e215. Disponı́vel em: <http://www.physionet.org/physiobank/database/mitdb/>.
GOLDWASSER, G. P. Eletrocardiograma Orientado para o Clı́nico. 3. ed. Rio de Janeiro:
Editora Rubio, 2009.
HAYKIN, S. Neural Network A Comprehensive Foundation. Englewoods Cliffs,NJ:
Macmillan College Publishing Company. Inc., 1994.
HAYKIN, S.; VEEN, B. V. Signals and Systems. 2nd. ed. New York, NY, USA: John
Wiley & Sons, Inc., 2002. ISBN 0471164747.
HCBR. Implante de Marcapasso. Brası́lia, DF, 2011. Disponı́vel em: <http://www.hcbr.com.br/hemodinamica-marcapasso.php>. Acesso em: 20 novembro 2011.
HEALTHMAD. The Nobel Prize in Physiology or Medicine 1924. 2010. Disponı́vel
em: <http://nobelprize.org/nobel prizes/medicine/laureates/1924/>. Acesso em: 20
novembro 2010.
HECKERMAN, D. Probabilistics Networks Similarities. Redmond, Washington, 1995.
Disponı́vel em: <http://research.microsoft.com/en-us/um/people/heckerman/H91book.pdf>. Acesso em: 20 abril 2011.
I.MAGLOCIANNIS et al. Risk analisys of a patient monitoring system using bayesian
network modeling. Journal of Biomedical Informatics, v. 39, p. 637–647, 2006.
JANE, R. et al. Adaptive baseline wander removal in the ecg: Comparative analysis with
cubic spline technique. Computers in Cardiology 1992. Proceedings., p. 143–146, 1992.
JANSEN, A.; COUR-HARBO, A. Ripples in Mathematics The Discrete Wavelet
Transform. New York,USA: Springer, 2001.
JONES, S. A. ECG Notes Interpretation and Management Guide. Phiadelphia: F. A.
Davis Company, 2005.
KHAN, M. G. Rapid ECG Interpretation. 3rd. ed. Totowa, NJ: Humana Press Inc., 2008.
77
KIRANYAZ TURKER INCE, J. P. S.; GABBOUJ, M. A personalized classification
for holter register. 31st Annual International Conference of the IEEE Engineering in
Medicine and Biology Society, v. 1, p. 2–6, 2009.
KLABUNDE, R. E. Cardiovascular Physiology Concepts. [S.l.]: Lippincott Williams &
Wilkins, 2005.
KLIGFIELD, P. et al. Recommendations for the standardization and interpretation of
the electrocardiogram: Part i: The electrocardiogram and its technology: A scientific
statement from the american heart association electrocardiography and arrhythmias
committee, council on clinical cardiology; the american college of cardiology foundation;
and the heart rhythm society endorsed by the international society for computerized
electrocardiology. Circulation, v. 115, n. 10, p. 1306–1324, 2007. Disponı́vel em:
<http://circ.ahajournals.org/cgi/content/abstract/115/10/1306>.
KOHAVY, R. A study of cross-validation and bootstrap for accuracy estimation and
model selection. International Joint Conference on Artificial Intelligence (IJCAI), v. 42,
p. 1137 – 1143, 1995.
LUNA, A. B. de. Basic Electrocardiography: Normal and Abnormal ECG Patterns. [S.l.]:
Blackwell Publishing, 2007.
MATHWORKS. Matlab R2007a - Product Documentation. Natick, USA, 2011.
Disponı́vel em: <http://www.mathworks.com/help/toolbox/wavelet/ref/scal2frq.html>.
Acesso em: 20 novembro 2011.
MAYER, P. L. Probabilidade Aplicações à Estatı́stica. 2nd. ed. Rio de Janeiro, RJ: LTC
- Livros Técnicos e Cientificos S/A, 1983.
MEDLINEPLUS. Heart chambers. 2011. Disponı́vel em: <http://www.nlm.nih.gov/medlineplus/ency/imagepages/19612.htm>. Acesso em: 10 janeiro 2011.
NAVIDI, W. Statistics for Engineers and Scientists. 1st. ed. New York, NY: McGraw
Hill Higher Education, 2006.
ORGANIZATION, W. H. World Health Statistics 2008. 2008. 20 p. Disponı́vel em:
<http://www.who.int/whosis/whostat/2008/en/index.html>. Acesso em: 20 novembro
2010.
78
PAN, J.; TOMPKINS, W. J. A real-time qrs detection algorithm. IEEE Transactions on
Biomedical Engineering, BME-32, p. 230 – 235, 1985.
PENG, C. L. Protect Your Heart Before It Gets Blocked and Clogged. 2011. Disponı́vel
em: <http://healthmad.com/conditions-and-diseases/protect-your-heart-before-it-getsblocked-and-clogged/>. Acesso em: 20 novembro 2010.
PERCIVAL, D. B.; T.WALDEN, A. Wavelets Methods for Time Series Analysis. New
Jersey: Cambridge University Press, 2006.
RAGHAVA, G. Bioinformatics Centre Institute of Microbial Technology. 2011. Disponı́vel
em: <http://www.imtech.res.in/raghava/rbpred/svm.jpg>. Acesso em: 29 abril 2011.
REISNER, A. T. Advanced Method and Tools for ECG Data Analisys. [S.l.]: Artech
House, INC, 2006.
RUDNICKI, M.; STRUMILLO, P. A real-time adaptive wavelet transform-based qrs
complex detector. In: ICANNGA (2). [S.l.: s.n.], 2007. p. 281–289.
RUSSEL, S.; NORVIG, P. (Ed.). Artificial Intelligence A Modern Approaches. 2nd. ed.
New Jersey: Prentice Hall, 2003.
SALOMON, D. Data Compression: The Complete Reference. 4th. ed. Berlin, Germany:
Springer, 2007.
SAS, B. BayesiaLab 5.0 DE. 2011. Disponı́vel em: <http://www.bayesia.com>. Acesso
em: 10 novembro 2011.
SCHöLKOPF, B.; SMOLA, A. J. Learning with Kernels Support Vector Machines,
Regularization, Optimization and Beyond. [S.l.]: Massachusetts Institute of Technology,
2002.
SCHÖLKOPF, B.; BURGES, C.; VAPNIK, V. Extracting support data for a given task.
In: FAYYAD, U. M.; UTHURUSAMY, R. (Ed.). Proceedings of the First International
Conference on Knowledge Discovery and Data Mining. Menlo Park: AAAI Press, 1995.
SCIENCES, H.-M. D. of H.; TECHNOLOGY. MIT-BIH Database Distribution. 2008.
Disponı́vel em: <http://ecg.mit.edu/>. Acesso em: 29 março 2011.
79
SPIEGELHALTER, D. J.; ABRAMS, K. R.; MILES, J. P. Bayesian Approaches to
Clinical Trials and Health-Care Evaluation. West Sussex,England: John Wiley & Sons,
Inc., 2004.
THALER, M. S. ECG Essencial : Eletrocardiograma na Prática Diária. 5. ed. Porto
Alegre: Artmed, 2008.
TOMPKINS, W. J. Biomedical Digital Signal Processing. 1. ed. New Jersey,USA:
Prentice Hall, 1993.
VAPNIK, V. N. The nature of statistical learning theory. New York, NY, USA:
Springer-Verlag New York, Inc., 1995. ISBN 0-387-94559-8. Disponı́vel em: <http://portal.acm.org/citation.cfm?id=211359>.
WEBSTER, J. Medical Instrumentation: Application And Design. 3. ed. [S.l.]: Wiley
India Pvt. Ltd., 2009.
WESTON, J.; WATKINS, C. Support vector machines for multi-class pattern
recognition. In: ESANN. [S.l.: s.n.], 1999. p. 219–224.
YEH, Y.-C.; WANG, W.-J. QRS complexes detection for ECG signal: The Difference
Operation Method. Comput. Methods Prog. Biomed., v. 91, n. 3, p. 245–254, 2008.
YEH, Y.-C.; WANG, W.-J.; CHIOU, C. W. Cardiac arrhythmia diagnosis method using
linear discriminant analysis on ecg signals. Measurement, v. 42, n. 5, p. 778 – 789, 2009.
ISSN 0263-2241. Disponı́vel em: <http://www.sciencedirect.com/science/article/B6V424VC7DVW-1/2/8c87b05440463ea5749a60873c914d57>.
ZHENG, H.; WU, J. A real-time qrs detector based on discrete wavelet transform and
cubic spline interpolation. TELEMEDICE and e-HEALTH, v. 14, p. 809 – 815, 2008.
ZIGEL, Y.; COHEN, A.; KATZ, A. The weighted diagnostic distortion (wdd) measure for
ecg signal compression. IEEE TRANSACTIONS ON BIOMEDICAL ENGINEERING,
v. 47, p. 1422–1430, 2000.
80
Apêndice A - Desempenho do algoritmo de detecção
de QRS
Tabela 11: Resultados dos Testes do Algoritmo de Detecção de QRS
ECG
Record
100
101
102
103
104
105
106
107
108
109
111
112
113
114
115
116
117
118
119
121
122
123
124
200
201
202
203
205
207
208
209
210
212
213
214
215
217
219
220
221
222
223
228
230
231
232
233
234
Média
Beats
1902
1523
1821
1729
1857
2155
1692
1784
1489
2099
1776
2111
1506
1604
1637
2016
1284
1916
1661
1560
2054
1669
1367
2168
1558
1871
2481
2201
1932
2435
2519
2204
2285
2700
1877
2795
1845
1906
1694
2020
2116
2199
1703
1859
1278
1485
2561
2291
FP
0
8
0
5
4
33
60
96
142
0
27
1
21
81
8
6
78
7
21
47
0
12
13
33
28
16
62
16
28
19
1
11
0
2
83
4
56
16
2
42
35
2
56
2
2
27
96
0
FN
0
0
0
0
0
74
190
61
124
0
20
2
13
59
8
70
26
7
26
50
0
6
9
136
145
298
651
39
60
385
222
129
0
84
156
560
57
14
31
202
456
236
186
2
0
16
385
17
81
Se(%)
100.00
99.54
100.00
99.71
99.78
96.57
88.80
96.58
91.62
100.00
98.87
99.91
99.14
96.32
99.51
96.53
97.98
99.32
98.43
96.79
100.00
99.53
99.34
93.73
90.47
84.07
73.76
98.23
96.23
84.20
91.19
94.10
100.00
96.89
91.70
79.96
96.91
99.21
98.17
90.00
78.45
89.27
89.08
99.89
100.00
98.92
84.97
99.26
94.85
Sp(%)
100.00
99.48
100.00
99.71
99.78
98.44
96.17
94.72
90.52
100.00
98.49
99.95
98.61
95.02
99.51
99.69
94.16
99.63
98.73
96.98
100.00
99.06
99.05
98.40
98.01
98.99
96.72
99.27
98.21
99.08
99.96
99.47
100.00
99.92
95.40
99.82
96.96
99.10
99.88
97.74
97.94
99.90
96.44
99.89
99.84
98.20
95.77
100.00
98.39
Apêndice B. Avaliação Cruzada dos Classificadores
Nas folhas seguinte deste Apêndice encontram-se os resultados dos testes de Avaliação
Cruzada dos classificadores SVM1 e SVM2. Cada classificador foi testado seis vezes. Estes
resultados são apresentados em quatro tabelas, na seguinte forma :
•Tabela 12 : Contém os resultados das três primeiras execuções do classificador
SVM1.
•Tabela 13 : Contém os resultados das três últimas execuções do classificador SVM1.
•Tabela 14 : Contém os resultados das três primeiras execuções do classificador
SVM2.
•Tabela 15 : Contém os resultados das três últimas execuções do classificador SVM2.
82
Registro
ECG
100
103
106
107
111
112
115
116
117
119
121
122
123
200
207
209
212
220
221
Totais
Média
D. Padrão
Batimentos
2273
2084
2027
2137
2124
2539
1953
2412
1535
1987
1863
2476
1518
2601
2331
3005
2748
2047
2427
42087
Primeiro Teste
Corretas Erradas TCA (%)
2267
6
99.7360
2078
6
99.7121
2006
21
98.9640
2129
8
99.6256
2029
95
95.5273
2538
1
99.9606
1948
5
99.7440
2407
5
99.7927
1532
3
99.8046
1987
0
100.000
1861
2
99.8926
2476
0
100.000
1518
0
100.000
2424
177
93.1949
2238
93
96.0103
2833
172
94.2762
2681
67
97.5619
2038
9
99.5603
2402
25
98.9699
41932
695
98.3486
98.5438
2.1529
Corretas
2265
2077
1986
2135
2047
2538
1944
2393
1531
1986
1855
2476
1518
2449
2286
2868
2683
2036
2409
41482
Segundo Teste
Erradas TCA (%)
8
99.6480
7
99.6641
41
97.9773
2
99.9064
77
96.3748
1
99.9606
9
99.5392
19
99.2123
4
99.7394
1
99.9497
8
99.5706
0
100.000
0
100.000
152
94.1561
45
98.0695
137
95.4409
65
97.6346
11
99.4626
18
99.2583
605
98.5625
98.7139
2.1529
Terceiro Teste
Corretas Erradas TCA(%)
2264
9
99.604
2078
6
99.7121
2012
15
99.2600
2131
6
99.7192
2029
95
95.5273
2538
1
99.9606
1952
1
99.9488
2408
4
99.8342
1526
9
99.4137
1987
0
100.000
1859
4
99.7853
2469
7
99.7173
1518
0
100.000
2434
167
93.5794
2256
75
96.7825
2836
169
94.3760
2660
88
96.7977
2038
9
99.5603
2405
22
99.0935
41400
687
98.3676
98.5616
2.06211
Tabela 12: Validação Cruzada do Classificador SVM1 - Parte 1/2
Apêndice B. Avaliação Cruzada dos Classificadores
83
Registro
ECG
100
103
106
107
111
112
115
116
117
119
121
122
123
200
207
209
212
220
221
Totais
Média
D. Padrão
Batimentos
2273
2084
2027
2137
2124
2539
1953
2412
1535
1987
1863
2476
1518
2601
2331
3005
2748
2047
2427
42087
Corretas
2265
2077
1996
2131
2041
2539
1951
2398
1534
1987
1862
2476
1517
2453
2274
2827
2707
2037
2394
41466
Quarto Teste
Erradas TCA (%)
8
99.6480
7
99.6641
31
98.4706
6
99.7192
83
96.0923
0
100.0000
2
99.8976
14
99.4196
1
99.9349
0
100.000
1
99.9463
0
100.0000
1
99.9341
148
94.3099
57
97.5547
178
94.0765
41
98.5080
10
99.5115
33
98.6403
621
98.5244
98.7014
1.8856
Corretas
2267
2079
2001
2125
2057
2538
1951
2398
1534
1987
1856
2476
1516
2446
2293
2779
2660
2037
2404
41404
Quinto Teste
Erradas TCA (%)
6
99.7360
5
99.7601
26
98.7173
12
99.4385
67
96.8456
1
99.9606
2
99.8976
14
99.4196
1
99.9349
0
100.000
7
99.6243
0
100.000
2
99.8682
155
94.0408
38
98.3698
226
92.4792
88
96.7977
10
99.5115
23
99.0523
683
98.3771
98.6028
2.1289
Corretas
2267
2082
1966
2122
2057
2538
1945
2407
1532
1987
1861
2476
1518
2474
2280
2791
2688
2038
2411
41440
Tabela 13: Validação Cruzada do Classificador SVM1 - Parte 2/2
Sexto Teste
Erradas TCA (%)
6
99.7360
2
99.9040
61
96.9906
15
99.2981
67
96.8456
1
99.9606
8
99.5904
5
99.7927
3
99.8046
0
100.000
2
99.8926
0
100.000
0
100.000
127
95.1173
51
97.8121
214
92.8785
60
97.8166
9
99.5603
16
99.3407
647
98.4627
98.6495
1.9709
Apêndice B. Avaliação Cruzada dos Classificadores
84
Registro
ECG
100
103
106
107
111
112
115
116
117
119
121
122
123
200
207
209
212
220
221
Totais
Média
D. Padrão
Batimentos
2273
2084
2027
2137
2124
2539
1953
2412
1535
1987
1863
2476
1518
2601
2331
3005
2748
2047
2427
42087
Primeiro Teste
Corretas Erradas TCA (%)
2263
10
99.5601
2078
6
99.7121
1963
64
96.8426
2132
5
99.766
2040
84
96.0452
2537
2
99.9212
1949
4
99.7952
2396
16
99.3367
1532
3
99.8046
1987
0
100
1854
9
99.5169
2476
0
100
1517
1
99.9341
2473
128
95.0788
2269
62
97.3402
2781
224
92.5458
2657
91
96.6885
2035
12
99.4138
2386
41
98.3107
41325
762
98.18946
98.40066
2.0966
Corretas
2261
2078
1973
2125
2043
2538
1953
2402
1533
1987
1860
2476
1518
2414
2272
2834
2716
2038
2393
41414
Segundo Teste
Erradas TCA (%)
12
99.4721
6
99.7121
54
97.336
12
99.4385
81
96.1864
1
99.9606
0
100.000
10
99.5854
2
99.8697
0
100.000
3
99.8390
0
100.000
0
100.000
187
92.8105
59
97.4689
171
94.3095
32
98.8355
9
99.5603
34
98.5991
673
98.4009
98.5780
2.0831
Corretas
2266
2079
1961
2136
2059
2538
1948
2408
1533
1986
1861
2476
1518
2459
2261
2802
2696
2037
2408
41432
Tabela 14: Validação Cruzada do Classificador SVM2 - Parte 1/2
Terceiro Teste
Erradas TCA (%)
7
99.692
5
99.7601
66
96.744
1
99.9532
65
96.9397
1
99.9606
5
99.744
4
99.8342
2
99.8697
1
99.9497
2
99.8926
0
100.000
0
100.000
142
94.5406
70
96.997
203
93.2446
52
98.1077
10
99.5115
19
99.2171
665
98.4437
98.62938
2.0199
Apêndice B. Avaliação Cruzada dos Classificadores
85
Registro
ECG
100
103
106
107
111
112
115
116
117
119
121
122
123
200
207
209
212
220
221
Totais
Média
D. Padrão
Batimentos
2273
2084
2027
2137
2124
2539
1953
2412
1535
1987
1863
2476
1518
2601
2331
3005
2748
2047
2427
42087
Corretas
2260
2077
1986
2126
2047
2537
1950
2406
1533
1986
1861
2476
1518
2474
2274
2856
2637
2037
2405
41446
Quarto Teste
Erradas TCA (%)
13
99.4281
7
99.6641
41
97.9773
11
99.4853
77
96.3748
2
99.9212
3
99.8464
6
99.7512
2
99.8697
1
99.9497
2
99.8926
0
100.000
0
100.000
127
95.1173
57
97.5547
149
95.0416
111
95.9607
10
99.5115
22
99.0935
641
98.4769
98.6547
1.7552
Corretas
2267
2080
1954
2137
2046
2538
1942
2396
1533
1987
1859
2476
1515
2402
2255
2763
2682
2037
2385
41254
Quinto Teste
Erradas TCA (%)
6
99.736
4
99.8081
73
96.3986
0
100.000
78
96.3277
1
99.9606
11
99.4368
16
99.3367
2
99.8697
0
100.000
4
99.7853
0
100.000
3
99.8024
199
92.3491
76
96.7396
242
91.9468
66
97.5983
10
99.5115
42
98.2695
833
98.0207
98.2566
2.5022
Corretas
2268
2079
1986
2132
2045
2538
1952
2402
1534
1987
1858
2476
1517
2469
2278
2815
2731
2035
2400
41502
Tabela 15: Validação Cruzada do Classificador SVM2 - Parte 2/2/
Sexto Teste
Erradas TCA (%)
5
99.7800
5
99.7601
41
97.9773
5
99.7660
79
96.2806
1
99.9606
1
99.9488
10
99.5854
1
99.9349
0
100.000
5
99.7316
0
100.000
1
99.9341
132
94.9250
53
97.7263
190
93.6772
17
99.3814
12
99.4138
27
98.8875
585
98.6100
98.5616
2.0621
Apêndice B. Avaliação Cruzada dos Classificadores
86
Apêndice C. Tabelas de Distribuição de Probabilidades
87
Apêndice C - Tabelas de Distribuição de Probabilidades
Neste apêndice são mostrados os resultados do cálculo da Tabela de Distribuição de
probabilidades, fornecidos pelo programa BayesiaLab 5.0 DE, disponı́vel em (SAS, 2011).
Figura 32: Distribuição de Probabilidades de arritmias tipo NORM, BRE e BRD.
Apêndice C. Tabelas de Distribuição de Probabilidades
Figura 33: Distribuição de Probabilidades de arritmias tipo CAP, CVP e BM.
Figura 34: Distribuição de Probabilidades de arritmias tipo OFV e BEF.
88
Download