identificação de atributos relevantes em sequências de protease e

UNIVERSIDADE FEDERAL DE OURO PRETO
Samuel Evangelista Lima de Oliveira
IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES
EM SEQUÊNCIAS DE PROTEASE E
TRANSCRIPTASE REVERSA DO VÍRUS HIV
PARA A PREDIÇÃO DA RESPOSTA DE
PACIENTES AO TRATAMENTO COM DROGAS
ANTIRRETROVIRAIS
Ouro Preto
2012
UNIVERSIDADE FEDERAL DE OURO PRETO
Samuel Evangelista Lima de Oliveira
IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES
EM SEQUÊNCIAS DE PROTEASE E
TRANSCRIPTASE REVERSA DO VÍRUS HIV
PARA A PREDIÇÃO DA RESPOSTA DE
PACIENTES AO TRATAMENTO COM DROGAS
ANTIRRETROVIRAIS
Dissertação de Mestrado submetida ao Programa
de
Pós-Graduação
Computação
da
em
Ciência
da
Universidade
Federal
de
Ouro Preto como requisito parcial para a obtenção do título de Mestre. Área de concentração: Recuperação e Tratamento da Informação.
Orientador:
Luiz Henrique de Campos Merschmann
Co-orientador:
Leoneide Érica Maduro Bouillet
Ouro Preto
2012
IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM SEQUÊNCIAS
DE PROTEASE E TRANSCRIPTASE REVERSA DO VÍRUS HIV PARA
A PREDIÇÃO DA RESPOSTA DE PACIENTES AO TRATAMENTO
COM DROGAS ANTIRRETROVIRAIS
Samuel Evangelista Lima de Oliveira
Dissertação de Mestrado submetida ao Programa
de
Pós-Graduação
Computação
da
em
Ciência
da
Universidade
Federal
de
Ouro Preto como requisito parcial para a obtenção do título de Mestre.
Aprovada por:
Luiz Henrique de Campos Merschmann, D.Sc. / DECOM-UFOP
(Presidente)
Leoneide Érica Maduro Bouillet, D.Sc. / CiPharma-UFOP
Alexandre Plastino de Carvalho, D.Sc. / IC-UFF
Gisele Lobo Pappa, Ph.D. / DCC-UFMG
Ouro Preto, 09 de Fevereiro de 2012.
O482i
Oliveira, Samuel Evangelista Lima de.
Identificação de atributos relevantes em sequências de protease e transcriptase
reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas
antirretrovirais [manuscrito] / Samuel Evangelista Lima de Oliveira – 2012.
69 f.: il.; grafs.; tabs.
Orientador: Prof. Dr. Luiz Henrique de Campos Merschmann.
Co-orientadora: Leoneide Érica Maduro Bouillet
Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências
Exatas e Biológicas. Departamento de Computação. Programa de Pós-graduação em
Ciência da Computação.
Área de concentração: Recuperação e Tratamento da Informação.
1. Mineração de dados (Computação) - Teses. 2. Bioinformática - Teses. 3. Seleção
de atributos - Teses. 4. Classificação - Teses. I. Universidade Federal de Ouro Preto.
II. Título.
CDU: 575.112:004
Catalogação: [email protected]
Agradecimentos
Muitas pessoas zeram parte destes dois anos de caminhada e a construção e conclusão deste trabalho se deve também a elas. Nestes poucos parágrafos venho agradecer a
atenção, carinho, repeito, paciência e apoio recebidos de todos aqueles que trilharam este
caminho ao meu lado.
Primeiramente, agradeço a toda a minha família, especialmente a minha mãe e aos
meus irmãos. A minha mãe, por me apoiar sempre, estar ao meu lado e, principalmente,
por ter orgulho do meu trabalho.
E aos meus irmãos pelo carinho que só um irmão é
capaz de compreender.
A minha namorada, Doris, por ter me acompanhado a cada passo me dando forças, me
animando quando era preciso e principalmente me incentivando e ouvindo pacientemente
os mais variados assuntos a respeito de computação de bioinformática.
Ao meu orientador, Luiz Merschmann, por ter me acolhido tão bem como orientando,
por todo o conhecimento cientíco e prossional compartilhado e, acima de tudo, pela
amizade e sinceridade sempre presentes nesses dois anos de convicência.
A minha co-orientadora, Leoneide Boillet, por ser uma verdadeira fonte de conhecimento que contribuiu imensamente para a realização deste trabalho, e pelos ótimos
conselhos, sugestões e conversas.
Agradeço imensamente a todos os amigos que torceram por mim, aos amigos do
CEFET-OP, amigos do PPGCC/UFOP, os demais amigos da UFOP e aqueles que entraram na minha vida por outros meios, todos vocês, direta ou indiretamente, fazem parte
desta conquista.
Por m, agradeço a todos os funcionários e professores do DECOM/UFOP pela atenção, dedicação e por me oferecer uma formação técnina e humana de qualidade da qual
tenho muito orgulho.
Resumo
O vírus da Imunodeciência Humana é um retrovirus que ataca principalmente o sistema
imunológico humano, reduzindo progressivamente a sua ecácia.
Combinações de dro-
gas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altas
taxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a alguns
antirretrovirais e, consequentemente, causar falhas no tratamento.
Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dados
para predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada.
Contudo ainda há poucos estudos que avaliem a inuência que diferentes tipos de atributos
na tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho é
apresentado um estudo comparativo sobre a utilização de diferentes atributos na predição
da resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais.
Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro modelos de classicação. A partir desses conjuntos de atributos foram realizadas três etapas
de testes que envolveram a avaliação do impacto do desbalanceamento das bases no resultado dos modelos de classicação, a análise da importância de cada grupo de atributos
e, por m, uma etapa de seleção de atributos.
A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-se
observar que uma etapa de balanceamento ajudou na obtenção de resultados mais equilibrados entre as duas classes do problema de classicação em questão. Por sua vez a análise
da importância dos diferentes grupos de atributos demonstrou que os melhores resultados
de predição foram obtidos para os atributos que representam os níveis de resistência dos
pacientes às drogas antirretrovirais.
Por m, as bases de dados obtidas após uma fase
de seleção de atributos apresentaram melhores resultados de predição quando compostas
por um conjunto variado de atributos. Nesta etapa dos testes foi possível observar novamente a importância dos atributos de nível de resistência, bem como a importância de
um atributo que representa o tamanho de uma determinada proteína do HIV.
Palavras-chave:
Mineração de dados, Classicação, Bioinformática, HIV.
Abstract
The Human Immunodeciency Virus (HIV) is a retrovirus that attacks the human immune
system, progressively reducing its eectiveness. Combinations of antiretroviral drugs are
used to treat the infection by HIV. However, the high mutation rate in the HIV virus
makes it resistant to some antiretroviral drugs and leads to treatment failure.
Nowadays, there are bioinformatic studies based on data mining techniques, to predict
the patients' response to antirretroviral therapies. However, there are few studies evaluating the contribution of dierent types of features extracted from the HIV genotype
in the prediction of patients' response to antirretroviral therapies. This work presents a
study comparing the inuence of dierent types of attributes in the prediction of patient's
outcome to therapy.
The attributes were grouped in dierent datasets according to its biological meaning.
Experiments were conduced trough four classication methods, using the datasets previously generated. Using these datasets it was possible to perform three experiments sets
wich envolved, the evaluation about the impact of datasets' unbalance in the classication
results, the signicance of each attribute group and, nally, an attribute selection step.
The results shown that, a previous balancing step helped to obtain good results to
booth classes of the prediction problem addressed in this work. The results also shown
that, between the attributes used in this work, the best attribute group for this prediction
task are the attributes that indicate the patients' resistance levels to the antirretroviral
drugs. Complementarly, the datasets obtained after an attribute selection step obtained
better prediction results when they are composed of diverse types of attributes. In these
nal experimentes was possible to notice again the signicance of the attributes that
indicate the patients' resistance levels, as well, the signicance of an attribute wich is the
size of an specic HIV protein.
Keywords:
Data mining, classication, bioinformatics, HIV.
Sumário
Lista de Figuras
viii
Lista de Tabelas
ix
1 Introdução
1
2 Classicação de Dados
4
2.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Tarefa de Classicação
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.3
Medidas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.4
Técnicas de Classicação . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.4.1
Árvores de Decisão Alternadas . . . . . . . . . . . . . . . . . . . . .
8
2.5
Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.6
Classicadores Bayesianos
. . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.6.1
Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.6.2
Classicador Bayesiano Simples
. . . . . . . . . . . . . . . . . . . .
13
2.6.3
Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
Máquinas de Vetor de Suporte . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.7.1
SVMs Lineares
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.7.2
SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.7
3 Vírus da Imunodeciência Humana
3.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
18
Sumário
vii
3.2
HIV-1 e seu Ciclo de Multiplicação
. . . . . . . . . . . . . . . . . . . . . .
3.3
Tratamentos Contra a Infecção por HIV
. . . . . . . . . . . . . . . . . . .
4 Predição da Resposta de Pacientes ao Tratamento com Drogas Antirretrovirais
19
21
25
4.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
4.2
Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.3
Base de Dados Original . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
5 Experimentos Computacionais
5.1
31
Pré-processamento da Base Original . . . . . . . . . . . . . . . . . . . . . .
31
5.1.1
Extração de Atributos
. . . . . . . . . . . . . . . . . . . . . . . . .
31
5.1.2
Valores Ausentes de Atributos . . . . . . . . . . . . . . . . . . . . .
33
5.2
Organização dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.3
Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados
36
5.4
Avaliação Comparativa das Bases
. . . . . . . . . . . . . . . . . . . . . . .
39
5.4.1
Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
5.4.2
F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Análise das Bases Após a Seleção de Atributos . . . . . . . . . . . . . . . .
45
5.5.1
Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
5.5.2
F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
5.5.3
Análise dos Resultados da Base CfsBD . . . . . . . . . . . . . . . .
49
5.5
6 Conclusões
51
Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra
55
Referências Bibliográcas
57
Referências Bibliográcas
57
Lista de Figuras
2.1
Matriz de confusão para um problema de classicação binário.
. . . . . . .
6
2.2
Árvore de decisão clássica
. . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.3
Árvore de decisão alternada
. . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.4
Árvore de decisão alternada genérica
. . . . . . . . . . . . . . . . . . . . .
10
2.5
Representação de um hiperplano ótimo separando duas classes . . . . . . .
16
3.1
Representação do genoma e da partícula viral do HIV-1 . . . . . . . . . . .
19
3.2
Ciclo de multiplicação do HIV-1 . . . . . . . . . . . . . . . . . . . . . . . .
20
4.1
Base de dados original. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
5.1
Base de dados após extração de atributos . . . . . . . . . . . . . . . . . . .
32
5.2
Médias de acurácia para os classicadores . . . . . . . . . . . . . . . . . . .
41
5.3
Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade . . .
42
5.4
Médias de F-Measure para os classicadores
. . . . . . . . . . . . . . . . .
43
5.5
Teste Tukey's HSD para os dados de F-measure a 95% de conabilidade . .
44
5.6
Resultados de acurácia média para os testes com seleção de atributos
47
5.7
Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade,
. . .
testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . .
48
5.8
Resultados de F-measure média para os testes com seleção de atributos . .
48
5.9
Teste Tukey's HSD para os resultados de F-measure a 95% de conabilidade, testes de seleção de atributos
. . . . . . . . . . . . . . . . . . . . . .
49
5.10 ADTree gerada para a base CfsBD
. . . . . . . . . . . . . . . . . . . . . .
50
Lista de Tabelas
3.1
Drogas antirretrovirais aprovadas pelo FDA
. . . . . . . . . . . . . . . . .
23
5.1
Características da base de dados após a extração de atributos.
. . . . . . .
33
5.2
Características das bases de dados geradas. . . . . . . . . . . . . . . . . . .
34
5.3
Comparação das F-measures para o classicador Random Forests
. . . . .
37
5.4
Comparação das F-measures para o classicador ADTree
. . . . . . . . . .
38
5.5
Comparação das F-measures para o classicador SVM
. . . . . . . . . . .
38
5.6
Comparação das F-measures para o classicador Redes Bayesianas
5.7
Testes ANOVA para os resultados de acurácia
5.8
Teste ANOVA os resultados de F-measure
5.9
Características da base CfsBD.
. . . .
39
. . . . . . . . . . . . . . . .
41
. . . . . . . . . . . . . . . . . .
44
. . . . . . . . . . . . . . . . . . . . . . . .
46
5.10 Características da base ConsBD. . . . . . . . . . . . . . . . . . . . . . . . .
46
5.11 ANOVA para o conjunto de resultados de acurácia nos testes de seleção de
atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
5.12 ANOVA para o conjunto de resultados de F-measure nos testes de seleção
de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
Capítulo 1
Introdução
Segundo o Programa da Organização das Nações Unidas para HIV/AIDS (UNAIDS), no
nal de 2009, cerca de 33 milhões de pessoas estavam infectadas pelo vírus HIV. Esse
fato, associado à rápida mutação do vírus e à diculdade de se combater a infecção,
torna a AIDS uma das piores doenças infecciosas presentes no mundo atual.
Muitos
esforços têm sido empreendidos pelos pesquisadores para tentar compreender diversos
aspectos em relação à infecção pelo HIV [49, 29, 33], para desenvolver novas drogas [46, 13]
ou tornar as já existentes mais ecazes.
Desde 1985, quando foi demonstrado que a
droga Azidotimidina era capaz de inibir a replicação do HIV e ajudar no controle da
infecção, foram alcançados diversos progressos no tratamento e controle da infecção pelo
HIV através de drogas antirretrovirais.
Um dos principais avanços no tratamento da infecção foi o surgimento da Terapia
Antiretroviral Altamente Ativa (Highly Active Antiretroviral Therapy - HAART), que
consiste na combinação de diferentes tipos de antirretrovirais em um mesmo tratamento.
Tal terapia se mostrou eciente no controle da infecção pelo HIV a ponto de reduzir
o número de partículas virais em um indivíduo a níveis indetectáveis [41], diminuindo
consideravelmente a morbidade e mortalidade entre os pacientes infectados com HIV.
Apesar dos resultados positivos alcançados pelo HAART, o sucesso do tratamento com
antirretrovirais é frequentemente limitado pelo surgimento de fenótipos virais resistentes
às drogas que estão sendo utilizadas no tratamento.
O surgimento de fenótipos virais
resistentes está relacionado com as altas taxas de mutação do HIV e a pressão evolutiva
exercida pelas drogas utilizadas no tratamento da infecção.
Desse modo, é importante
que a escolha das drogas antirretrovirais que farão parte de uma terapia antirretroviral
seja realizada levando-se em consideração informações sobre as sequências genéticas do
vírus do paciente, dado que essas informações podem ser utilizadas para se inferir a
1 Introdução
2
susceptibilidade do vírus às drogas e o tipo de resposta do paciente à terapia. Estudos
prospectivos têm demonstrado que os pacientes cujos médicos têm acesso aos seus dados
de resistência às drogas respondem melhor à terapia do que pacientes cujos médicos não
tem acesso a esses dados [43].
Como o processo de escolha de terapias antirretrovirais
ecientes é um processo complexo, é desejável que existam ferramentas computacionais
que possam predizer a resposta de um paciente a um determinado tratamento com drogas
antirretrovirais ou que auxiliem no processo de escolha dos tratamentos.
A predição da resposta de pacientes ao tratamento com drogas antirretrovirais pode
ser vista como um problema de classicação onde o objetivo é predizer se um tratamento
antiretroviral administrado a um paciente terá um resultado positivo ou negativo. Essa
predição pode ser feita com base em um conjunto de informações relacionadas com o estado
clínico do paciente, com os tratamentos administrados, com as sequências de proteínas do
vírus HIV presente no organismo do paciente e outros.
Alguns trabalhos apresentados na literatura fazem uso de técnicas de mineração de dados para resolver esse problema de classicação [37, 1]. Nesses trabalhos foram propostas
ferramentas computacionais que resolvem o problema de classicação descrito anteriormente para auxiliar na indicação de terapias antirretrovirais que tenham maior probabilidade de sucesso para um determinado paciente.
Apesar de existirem propostas na literatura para solucionar o problema de predição da
resposta de pacientes ao tratamento com drogas antirretrovirais, há uma lacuna quando
se trata de trabalhos que avaliem qual é a importância de cada tipo de atributo utilizado
no processo de classicação. Esse fato motivou a proposta principal deste trabalho, cujo
objetivo é avaliar a relevância de diferentes tipos de atributos, que são extraídos das
sequências genéticas dos vírus adquiridos pelos pacientes, para o problema de classicação
descrito anteriormente.
Para alcançar esse objetivo, experimentos computacionais foram realizados com bases
de dados contendo diferentes tipos de atributos.
Com essas bases de dados foi possí-
vel avaliar, para diferentes classicadores, qual(is) tipo(s) de atributos proporciona(m) o
melhor desempenho dos mesmos. Neste ponto, vale ressaltar que uma outra importante
contribuição deste trabalho foi a avaliação de alguns tipos de atributos que ainda não
haviam sido utilizados em outros trabalhos propostos na literatura. Parte dos resultados
desta avaliação foram publicados em [31].
Uma característica comumente encontrada nas bases de dados biológicas, que também
aparece nas bases de dados utilizadas neste trabalho, é o desbalanceamento entre as clas-
1 Introdução
3
ses. No caso das bases aqui utilizadas, aproximadamente 33% das instâncias correspondem
a pacientes que responderam positivamente ao tratamento com as drogas antirretrovirais
e os outros 67% estão relacionados com pacientes que responderam negativamente ao
tratamento. Sendo assim, um segundo objetivo deste trabalho é avaliar o impacto desse
desbalanceamento entre as classes das bases de dados no desempenho dos classicadores.
O restante deste trabalho está organizado como especicado a seguir.
O Capítulo
2 apresenta uma revisão bibliográca sobre o processo de classicação e os algoritmos
utilizados neste trabalho. O Capítulo 3 contém conceitos básicos sobre o Vírus da Imunodeciência Humana, assim como alguns aspectos do seu ciclo de replicação e as drogas
disponíveis para o tratamento da infecção. No Capítulo 4 é apresentada a denição do
problema abordado neste trabalho, bem como trabalhos relacionados.
A descrição dos
experimentos realizados, bem como os resultados desses experimentos são apresentados
no Capítulo 5.
Por m, no Capítulo 6 são apresentadas as conclusões do trabalho, e
sugestões para trabalhos futuros.
Capítulo 2
Classicação de Dados
2.1 Introdução
O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in
Databases KDD) tradicionalmente apresentado na literatura é composto por diversas
etapas, que agregadas, podem ser resumidas em pré-processamento, mineração de dados
e visualização dos resultados.
A classicação (ou predição) é uma das tarefas mais importantes da mineração de
dados. A partir de um conjunto de instâncias com características e classes conhecidas, seu
objetivo é construir modelos que sejam capazes de predizer a classe de novas instâncias a
partir das suas características [22]. Diversas técnicas de classicação já foram propostas na
literatura por pesquisadores das áreas de estatística, aprendizado de máquina e mineração
de dados.
Dentre as várias áreas de aplicação das técnicas de classicação, a bioinformática vem
se destacando nos últimos tempos. Essa é uma área de estudo que trata do armazenamento, da análise, da interpretação e da utilização de informações obtidas a partir de
dados biológicos. Exemplos de aplicações incluem o problema de classicação de proteínas, a predição da resposta de pacientes a tratamentos, a classicação de tumores em
pacientes, e outros.
Neste capítulo, uma breve descrição do processo de classicação é apresentada na
Seção 2.2. Em seguida, questões relacionadas com a avaliação de classicadores são discutidas na Seção 2.3. Por m, a Seção 2.4 apresenta uma breve descrição sobre as técnicas
de classicação utilizadas neste trabalho.
2.2 Tarefa de Classicação
5
2.2 Tarefa de Classicação
O processo de classicação pode ser dividido em duas etapas: a etapa de treinamento
e a etapa de teste. O objetivo da etapa de treinamento é construir um modelo de classicação a partir de um conjunto de instâncias contidas em uma base de dados.
Cada
instância dessa base de dados é caracterizada por um conjunto de atributos e pertence
a uma determinada classe, denida por um dos atributos, denominado atributo classe.
As instâncias utilizadas para construção do modelo de classicação formam uma base de
dados conhecida como base de dados de treinamento.
Na etapa de teste avalia-se o modelo gerado na etapa anterior quanto à sua capacidade de predizer corretamente as classes de novas instâncias (instâncias cujas classes são
desconhecidas). A avaliação da capacidade preditiva do modelo é realizada a partir de
um conjunto de instâncias diferente daquele usado na etapa de treinamento do modelo.
Esse conjunto de instâncias constitui a base de dados de teste. Assim como as instâncias
do conjunto de treinamento, as instâncias de teste também possuem o valor do atributo
classe conhecido. Isso permite que o resultado obtido pelo modelo de classicação possa
ser comparado com os verdadeiros valores do atributo classe das instâncias de teste, permitindo, dessa maneira, que a capacidade preditiva do classicador seja calculada.
Um método comumente utilizado na avaliação de classicadores é a k-validação cru-
zada. Neste método uma base de dados original de tamanho
em
k
N
é dividida aleatoriamente
partições, de forma que cada partição tem aproximadamente
de teste é realizada em
k
iterações e, para cada iteração, uma das
como base de dados de teste, e as demais
k−1
N
elementos. A etapa
k
k
partições é utilizada
partições são utilizadas como base de da-
dos de treinamento. Desse modo, os resultados das medidas de desempenho avaliadas são
calculados como a média aritmética dos resultados obtidos em cada uma das
k
iterações.
A avaliação da capacidade preditiva de um modelo de classicação pode ser feita por
meio de diversas medidas de desempenho, dentre elas, a acurácia, precisão, revocação, F-
measure, área sob a curva ROC e outras. Na próxima seção são apresentadas as medidas
de desempenho utilizadas neste trabalho.
2.3 Medidas de Desempenho
A análise da qualidade de um classicador é comumente realizada através de um conjunto
de dados reunidos em uma matriz chamada matriz de confusão. O tamanho de uma matriz
2.3 Medidas de Desempenho
6
de confusão (MC) varia de acordo com o número de classes do problema em questão. Desse
modo, para um problema com
linhas e
m
m
classes a MC gerada corresponde a uma tabela com
colunas, onde cada entrada
M Ci,j
m
indica o número de instâncias da classe
que foram rotuladas pelo classicador como pertencentes à classe
j.
i
Em uma matriz de
confusão de um classicador com 100% de acerto, todas as entradas diferentes de
M Ck,k
(diagonal principal) são preenchidas com o valor 0, ou seja, nenhuma instância de uma
classe
i
é rotulada como pertencendo a uma classe
j.
A Figura 2.1 apresenta a matriz de confusão para um problema de classicação binário.
Os quatro resultados que formam essa matriz de confusão são:
•
Verdadeiros Positivos: a quantidade de instâncias da classe positiva rotuladas corretamente;
•
Verdadeiros Negativos:
a quantidade de instâncias da classe negativa rotuladas
corretamente;
•
Falsos Positivos:
a quantidade de instâncias da classe negativa rotulados com a
classe positiva;
•
Falsos Negativos:
a quantidade de instâncias da classe positiva rotuladas com a
classe negativa.
Classe Predita
Classe real
Positiva
Negativa
Positiva
Verdadeiros Positivos(VP)
Falsos Negativos(FN)
Negativa
Falsos Positivos(FP)
Verdadeiros Negativos(VN)
Figura 2.1: Matriz de confusão para um problema de classicação binário.
Os dados de uma matriz de confusão permitem o cálculo de diversas medidas que
podem ser utilizadas na análise de desempenho de um classicador. Uma das medidas mais
utilizadas na avaliação de classicadores é a acurácia (acc), que representa a porcentagem
de instâncias do conjunto de testes que foram corretamente classicadas. A acurácia é
calculada através da razão entre o número de instâncias de teste corretamente classicadas
(V
P + V N ) e o número total de instâncias no conjunto de teste (V P + F P + V N + F N ).
O cálculo da acurácia é mostrado na Equação 2.1.
acc =
VP +VN
V P + FP + V N + FN
(2.1)
2.3 Medidas de Desempenho
7
Utilizar somente a medida de acurácia para avaliar o desempenho de um classicador
para bases de dados com desbalanceamento entre as classes pode ser insuciente para a
obtenção de conclusões corretas. Isso se deve ao fato de que essa medida tende a privilegiar
a classe majoritária. Por exemplo, um classicador que sempre atribui a classe majoritária
às instâncias de teste pode facilmente alcançar uma acurácia de 95% se a base de dados
possuir 95% das instâncias associadas à classe majoritária. Desse modo, algumas outras
medidas de desempenho são importantes na avaliação dos classicadores que lidam com
bases desbalanceadas por permitirem uma desassociação entre os erros ocorridos em cada
classe. Entre essas medidas estão a precisão, a revocação e a F-measure.
A medida de precisão indica a capacidade do classicador em reconhecer as instâncias
pertencentes a uma classe de interesse enquanto rejeita as demais. Algebricamente, essa
medida é denida para uma classe da seguinte forma:
precisão
=
VP
V P + FP
(2.2)
A medida de revocação indica a habilidade do classicador para identicar as instâncias de uma classe de interesse. Algebricamente, essa medida é denida para uma classe
da seguinte forma:
revocação
=
VP
V P + FN
(2.3)
Apesar de as medidas de precisão e revocação serem sucientes para denir com
exatidão o desempenho dos classicadores, a avaliação dos mesmos torna-se mais simples
quando se utiliza uma única medida de desempenho.
Sendo assim, foi proposta a F-
measure, que corresponde a uma média harmônica ponderada entre os valores de precisão
e revocação. Essa medida é denida da seguinte forma:
F-measure
=
(1 + β) × precisão × revocação
β 2 × precisão + revocação
(0 ≤ β ≤ +∞)
O cálculo dessa medida envolve a denição do coeciente
β,
importância da precisão em relação à revocação. Utilizando-se
(2.4)
utilizado para denir a
β>1
atribui-se um peso
maior para a revocação no cálculo do valor nal da F-measure. Caso contrário, ou seja,
para
β < 1,
atribui-se peso maior para a precisão. Neste trabalho, o valor de F-measure
foi calculado utilizando-se sempre
β = 1.
2.4 Técnicas de Classicação
8
2.4 Técnicas de Classicação
Nesta seção será apresentada uma breve descrição das diferentes técnicas de classicação
utilizadas no decorrer deste trabalho.
2.4.1 Árvores de Decisão Alternadas
As Árvores de Decisão Alternadas (Alternating Decision Trees - ADTree) [17] podem ser
vistas como uma generalização das técnicas de árvores de decisão, e de classicadores
baseados em regras. Ao propor o classicador ADTree o autor tinha como objetivo obter
resultados tão bons quanto aqueles apresentados por classicadores tradicionais como o
C5.0 e CART [5], mas que além disso pudessem gerar regras de classicação de fácil
compreensão e interpretação.
Para explicar o classicador ADTree de forma simples, será utilizado um exemplo que
relacione árvores de decisão convencionais às árvores de decisão alternadas.
Para isto
considere a árvore de decisão da Figura 2.2.
Figura 2.2: Árvore de decisão clássica
Na Figura 2.2 pode-se observar uma árvore de decisão tradicional, que possui 3 nós de
decisão e 4 folhas de predição, Essa árvore mapeia as instâncias em duas classes diferentes,
+1 e -1. A classe de uma instância é atribuída pela folha de predição que está ao nal do
caminho que os atributos
a1
e
a2
da instância em questão irão percorrer pela árvore. Por
exemplo, para um objeto cujos atributos sejam
é
+1,
a1 = 4
e
a2 = 3,
a classe correspondente
que é a classe correspondente à folha que está ao nal do caminho percorrido pelos
atributos
a1 = 4
e
a2 = 3.
2.4 Técnicas de Classicação
9
Generalizando a árvore apresentada na Figura 2.2 para uma ADTree pode-se observar
a nova árvore na Figura 2.3. Para efetuar a generalização da árvore mantêm-se os nós de
decisão, e para cada um dos caminhos que sai de um nó de decisão é associado um nó de
predição contendo um valor real, que representa o peso desse caminho. Em seguida, as
folhas com os valores das classes são excluídas, e por m a raiz da árvore é representada
por um nó de predição, que também contém um peso associado.
Figura 2.3: Árvore de decisão alternada
De maneira semelhante ao que acontece nas árvores de decisão convencionais, a classe
de uma instância é gerada através do caminho percorrido através da árvore.
Contudo,
nas ADTrees, não se associa a classe de uma instância ao valor de uma folha, mas sim ao
sinal obtido pela soma de todos os valores dos nós de predição percorridos da raiz até uma
folha da árvore. Para o mesmo exemplo utilizado anteriormente,
a1 = 4 e a2 = 3,
a classe
associada a essa instância será o valor retornado pela função sinal. A função sinal retorna
o sinal da soma de todos os de valores presentes nos nós de predição percorridos por uma
instância. Logo, para o exemplo citado,
sinal(0, 5 + 0, 3 + 0, 6) = sinal(1, 4) = +1,
e
a classe da instância de exemplo é +1. Ou seja, se a soma dos pesos do caminho denido
pelos atributos de uma instância for positiva a classe associada à instância é a classe +1,
caso contrário, a classe associada é -1.
Note que a ADTree representada na Figura 2.3 produz os mesmos resultados de classicação que a árvore de decisão tradicional representada na Figura 2.2. Isso acontece pois
uma árvore de decisão tradicional pode ser representada por várias ADTrees diferentes
sem alterar as regras de classicação da árvore original.
Pode-se perceber que na árvore de decisão alternada representada na Figura 2.3 cada
nó preditor tem no máximo um nó de decisão associado a ele. Na Figura 2.4 é apresentada
2.4 Técnicas de Classicação
10
uma generalização do conceito de ADTrees apresentada na Figura 2.3. Esta generalização
permite que um nó preditor possa estar associado a vários nós de decisão, o que permite
que, com os valores dos atributos de uma instância, seja possível percorrer múltiplos
caminhos na árvore.
Figura 2.4: Árvore de decisão alternada genérica
Dessa forma, a classicação de uma instância desconhecida é feita da maneira descrita
a seguir: o caminho percorrido pela instância começa pela raiz da árvore. Ao atingir um
nó de decisão o caminho continua de acordo com a resposta obtida no mesmo e, ao atingir
um nó de predição, o caminho continua por todas as alternativas possíveis, subdividindose em múltiplos caminhos. A classe associada a uma instância será fornecida pelo sinal da
soma dos valores de todos os nós de predição do conjunto de caminhos percorridos pela
instância.
Por exemplo, suponha uma instância com os seguintes valores de atributos:
e
a2 = 3 .
a1 = 1, 3
Estes valores de atributos descrevem um conjunto formado por dois caminhos
na ADTree representada na Figura 2.4. A classe correspondente a essa instância será o
valor de
sinal(0, 5 + 0, 3 + 0, 6 − 1, 0) = sinal(0, 4),
ou seja, a classe será +1.
O conjunto de caminhos percorridos pelos atributos de uma instância em uma ADTree
pode ser visto como um conjunto de regras simples.
A soma dos valores dos nós de
predição presentes em cada um desses caminhos é considerado o peso associado a eles
e, dessa forma, o peso associado às regras. Desse modo, uma ADTree também pode ser
vista como um conjunto de regras simples reunidas para formar uma regra complexa com
maior poder de predição. Quanto maior o peso associado a uma regra simples maior será
a inuência que essa regra exercerá na regra complexa e, consequentemente, na árvore de
decisão.
O processo de agrupar regras simples em uma regra complexa, com maior capacidade
2.5 Random Forests
11
preditiva, chamado de boosting, é utilizado pelo classicador ADTree na construção da
árvore de decisão. Para a realização deste processo o ADTree utiliza o algoritmo AdaBoost [40].
A construção de um classicador ADTree é um processo iterativo onde, a cada passo,
uma regra simples é adicionada ao conjunto de regras pré-existentes. Cada regra corresponde a uma sub-árvore cuja raiz é um nó de decisão e as folhas são dois nós de predição.
Essa sub-árvore é adicionada como lha de um nó de predição que pode ou não ser um
nó folha, ou seja, pode-se inserir um nó entre a raiz da árvore e as folhas.
A raiz da
árvore é um nó de predição, cujo valor reete a distribuição de classes no conjunto de
treinamento. Ou seja, se a classe +1 for majoritária no conjunto de treinamento, o valor
da raiz da árvore será maior que zero, caso contrário, será menor que zero. Quanto maior
for o desbalanceamento entre as classes, maior será o valor absoluto do nó de predição
que representa a raiz da árvore.
2.5
Random Forests
O classicador Random Forests [6] consiste em um comitê de árvores de decisão ou árvores
de regressão, em que cada árvore é construída a partir de um conjunto de treinamento
diferente, obtido através de amostragem do conjunto de treinamento original. As predições
realizadas por este classicador são feitas através de uma votação entre as árvores do
comitê.
A geração de cada conjunto de treinamento utilizado na construção de cada uma das
árvores é realizada através de uma amostragem aleatória e com reposição do conjunto de
treinamento original. Além disso, o conjunto de treinamento utilizado na construção de
cada árvore tem tamanho igual ao tamanho do conjunto de treinamento original.
Esse tipo de amostragem é chamada de booststrap. Para cada conjunto de treinamento
formado através do booststrap cerca de
1/3
das instâncias do conjunto de treinamento
original não são utilizadas. Essas instâncias são chamadas de out-of-bag e são utilizadas
para se calcular a qualidade de cada árvore e contribuição de cada uma delas para o
comitê.
O Random Forests, segundo uma denição formal, é um classicador composto por
uma coleção de árvores de decisão
{h(x, θ1 ), h(x, θ2 ), ..., h(x, θk )} onde, cada θi
é um vetor
de números inteiros aleatórios que dene quais instâncias do conjunto de treinamento
original serão utilizadas no treinamento de cada árvore. Cada uma das árvores
h(x, θi )
2.6 Classicadores Bayesianos
12
vota unicamente para denir a classe da instância
x.
A classe atribuída a essa instância
será a classe mais votada pelo comitê de árvores [6].
Outra característica importante do classicador Random Forests é que, para a criação
de cada novo nó de uma árvore um subconjunto de atributos é selecionado aleatoriamente,
de forma que a escolha da melhor partição para o nó em questão é feita utilizando-se
somente este subconjunto de atributos escolhido.
O pseudo-código 1 apresentado a seguir descreve de forma simplicada como o modelo
de classicação é construído pelo Random Forests.
1
2
Entrada: T : Conjunto de treinamento original, N: Número de árvores
para cada arvorei ∈ N faça
Gere um novo conjunto de treinamento
do conjunto de treinamento original
3
Construa a
4
Para cada nó da
arvorei ,
utilizando amostragem por bootstrap
T;
sem poda, utilizando o conjunto de treinamento
arvorei ,
escolha aleatoriamente
melhor divisão do nó utilizando os
m
Algoritmo 1:
ti
F
F
ti ;
atributos e determine a
atributos e o conjunto de treinamento
ti
;
5
Pseudo-código da construção do classicador Random Forests
Para predizer a classe de uma nova instância
x, o classicador Random Forests
realiza
a votação majoritária entre as classes preditas por cada uma das árvores do comitê para
a instância
x.
2.6 Classicadores Bayesianos
Os classicadores estatísticos conhecidos como classicadores Bayesianos utilizam o teorema de Bayes para calcular a probabilidade de uma instância
de um conjunto
C = {C1 , C2 , C3 , ..., Cm }
se a qual classe do conjunto
C
X
pertencer a cada classe
e a partir das probabilidades calculadas deni-
a instância
X
pertence.
Serão abordados dois tipos
de classicadores Bayesianos: os classicadores Bayesianos simples e as redes Bayesianas. Os classicadores Bayesianos simples consideram que dado um conjunto de valores
X = {x1 , x2 , ...xn },
o efeito do valor de um atributo
xi
dependente dos demais valores de atributos do conjunto
em uma determinada classe é in-
X.
Essa consideração, conhecida
como independência condicional, tem como principal objetivo diminuir a quantidade de
processamento necessário para o cálculo das probabilidades utilizadas para a tarefa de
2.6 Classicadores Bayesianos
13
classicação.
Por outro lado, as Redes Bayesianas permitem modelar correlações e dependências
entre os atributos de uma instância para utilizá-las na tarefa de predição. A seguir, antes
da apresentação dos classicadores Bayesianos, uma breve revisão sobre Teorema de Bayes
é realizada.
2.6.1 Teorema de Bayes
Suponha uma instância
X,
representada por uma tupla de valores de atributos, que
representa uma instância qualquer. Em problemas de classicação, deseja-se saber a qual
classe de um conjunto
de que
X
C = {C1 , C2 , C3 , ..., Ck } a instância X
pertence a uma classe
P (H = Ci |X),
Ci
do conjunto
Ci ,
dada a tupla de valores de atributos de
P (H|X),
A probabilidade
a hipótese
X
pertencer a uma
X.
chamada de probabilidade condicional, ou probabilidade à
posteriori, que é a probabilidade da variável
X.
H
Deseja-se saber qual é o valor de
ou seja, qual é a probabilidade de uma instância
determinada classe
da variável
C.
pertence. Seja
Já a probabilidade
a probabilidade de uma hipótese
P (H),
H
H
assumir um determinado valor, dado o valor
conhecida como probabilidade à priori, fornece
acontecer independentemente de outros eventos. O
Teorema de Bayes permite o cálculo da probabilidade condicional
P (H|X)
através da
seguinte equação.
P (H = Ci |X) =
Na Equação 2.5,
lidade da classe
Ci
P (Ci ), P (X),
e
P (X|Ci ) × P (Ci )
P (X)
P (X|Ci )
(2.5)
representam, respectivamente, a probabi-
ocorrer no conjunto de dados, a probabilidade de uma instância X
ocorrer no conjunto de dados e a probabilidade de uma instância X ocorrer no conjunto
de dados condicionada à classe
Ci .
Todas essas probabilidades podem ser estimadas a
partir de um conjunto de dados de treinamento.
2.6.2 Classicador Bayesiano Simples
Suponha um conjunto de treinamento formado por
conhecidos. Cada instância
butos
X
X = (x1 , x2 , x3 , ..., xn ).
Dada uma nova instância
J,
N
instâncias com os rótulos de classe
é formada por um vetor n-dimensional de valores de atri-
O conjunto de classes é composto por
C = {C1 , C2 , ..., Cm }.
cuja classe é desconhecida, a classe predita pelo classica-
2.6 Classicadores Bayesianos
14
dor Bayesiano simples para a instância
condicional
P (Ci |J),
J
será aquela que obtiver a maior probabilidade
essa formulação pode ser expressa pela equação.
P (Ci |J) > P (Ch |J) | ∀h, 1 ≤ h ≤ m, h 6= i
Ou seja, a classe associada à instância
P (Ci |J).
Para calcular
P (Ci |J)
J
será aquela que maximizar a probabilidade
o classicador Bayesiano simples utiliza o teorema de
Bayes, da forma como apresentado na Equação 2.5.
priori
P (X)
(2.6)
Nessa equação a probabilidade à
é constante para todas as classes, uma vez que a probabilidade de uma
instância aparecer no conjunto de treinamento não depende das classes apresentadas no
mesmo. Dessa forma, pode-se desconsiderar
P (X)
e a Equação 2.5 pode ser reescrita da
sequinte maneira:
P (Ci |X) ∝ P (X|Ci ) × P (Ci )
A probabilidade de cada classe
através da fórmula
Ci
|Ci |
, onde
N
P (Ci ) =
no conjunto de treinamento e
N
(2.7)
no conjunto de treinamento pode ser calculada
|Ci |
é o número de vezes que a classe
Ci
aparece
é a quantidade de instâncias presente nesse conjunto.
Uma vez que o classicador Bayesiano simples assume independência condicional entre os
atributos, a parcela
condicional de
Ci
P (X|Ci )
pode ser calculada através do produtório da probabilidade
dado o valor do atributo
xk
da instância. O calculo de
P (X|Ci )
é dado
por:
P (X|Ci ) =
n
Y
P (xk |Ci )
(2.8)
k=1
= P (x1 |Ci ) × P (x2 |Ci ) × P (x3 |Ci ) × ...P (xn |Ci )
Uma vez calculadas as probabilidades condicionais dos valores de atributos da instância
X
para todas as classes
será aquela
Ci
Ci
do problema em questão, a classe atribuída à instância
que obtiver o maior valor de probabilidade
X
P (Ci |X).
2.6.3 Redes Bayesianas
A suposição de independência condicional entre os atributos adotada pelo classicador
Bayesiano simples simplica a construção do modelo de classicação e os cálculos das
2.7 Máquinas de Vetor de Suporte
15
probabilidades condicionais utilizadas. Contudo, nem sempre essa suposição é verdadeira
e, nesses casos ela pode prejudicar os resultados da classicação.
As redes Bayesianas
oferecem uma abordagem que permite agregar ao modelo de classicação informações
sobre dependências entre subconjuntos de atributos.
As Redes Bayesianas oferecem uma representação dos relacionamentos entre um conjunto de variáveis através de dois elementos. O primeiro é um grafo acíclico direcionado,
que representa as relações de dependência entre conjuntos de variáveis. Nesse grafo cada
nó representa uma variável aleatória e cada aresta representa uma relação de dependência
probabilística entre os nós. Se existir uma aresta diretamente de um nó A para um nó
B, então A é pai de B, consequentemente B é lho de A. Se existir um caminho no grafo
de A para C, então A é ancestral de C, e consequentemente, C é descendente de A. Uma
propriedade importante para as Redes Bayesianas é que cada variável é condicionalmente
independente de seus não descendentes, dados os seus nós pais.
O outro elemento é a
tabela de probabilidades condicionais (TPC) associadas a cada variável da rede. A TPC
para uma variável
X
especica a distribuição condicional P(X|Pais(X)), onde Pais(X) são
os pais da variável X. Essas variáveis correspondem aos atributos presentes nos dados.
Para o treinamento de uma Rede Bayesiana a estrutura da rede pode ser fornecida
como entrada ou gerada através dos dados de treinamento. Quando a estrutura da rede
é conhecida, o treinamento do modelo de classicação envolve somente o cálculo das probabilidades condicionais para cada variável. Quando a estrutura da rede é desconhecida é
necessário encontrar o conjunto de arestas que interliguem as variáveis, ou seja, é necessário denir a topologia da rede. Esse é um problema de otimização discreta e os algoritmos
utilizados para a construção da Rede Bayesiana diferem principalmente pela forma como
este problema é resolvido.
2.7 Máquinas de Vetor de Suporte
A técnica de classicação conhecida como Máquinas de Vetor de Suporte [12] (Support
Vector Machines - SVM) surgiu da teoria de aprendizado estatístico. Classicadores que
utilizam esta técnica tentam encontrar um hiperplano que divida o espaço de dados entre as diferentes classes de um problema. Pode-se dividir estes classicadores em SVMs
lineares e SVMs não lineares. O primeiro grupo resolve problemas cujas classes são linearmente separáveis e, o segundo estende os SVMs lineares para resolver problemas cujas
classes não podem ser linearmente separadas.
2.7 Máquinas de Vetor de Suporte
16
2.7.1 SVMs Lineares
Um conjunto de dados é denido como sendo linearmente separável se repeitar as seguintes
características. Seja o conjunto de dados
é associada a uma classe
D
com
ci ∈ {−1, +1}. D
n
instâncias onde, cada instância de
D
é considerado linearmente separável se for
possível separar os dados das classes -1 e +1 através de um hiperplano.
Podem ser construídos diversos hiperplanos que separam as classes. Cada um desses
hiperplanos dene uma margem de separação entre as classes do problema. Hiperplanos
com margens de separação pequenas tendem a super ajustar o modelo aos dados de
treinamento e, com isso, a possibilidade de se classicar erroneamente uma nova instância
aumenta.
O modelo de classicação de uma SVM linear é construído através da busca do hiperplano que separe as duas classes do problema obtendo a maior margem possível entre as
classes, ou seja, que a distância entre as instâncias das classes e o hiperplano seja a maior
possível. A esse hiperplano é dado o nome de hiperplano ótimo e o classicador SVM é
construído a partir da equação do hiperplano ótimo. A Figura 2.5 representa a separação
de duas classes (retângulo e círculo) através de um hiperplano ótimo.
Figura 2.5: Representação de um hiperplano ótimo separando duas classes
Na Figura 2.5 as instâncias das classes retângulo e círculo que estão cortadas pelas
linhas pontilhadas são as instâncias do conjunto de dados de treinamento que possuem
a menor distância até o Hiperplano ótimo.
Essas instâncias, conhecidas como vetores
2.7 Máquinas de Vetor de Suporte
17
de suporte, serão utilizadas para se determinar a equação do hiperplano que separa as
classes.
2.7.2 SVMs Não Lineares
Quando um conjunto de dados de interesse não é linearmente separável as SVMs lineares
não apresentam uma boa solução para o problema, uma vez que não conseguem separar
as classes satisfatoriamente através de um hiperplano.
Para os casos de conjuntos de dados não linearmente separáveis as SVMs não lineares
aplicam um processo de mapeamento não linear aos dados do conjunto de treinamento.
Este processo envolve a aplicação de uma função de transformação que mapeia os dados
do conjunto de treinamento do seu espaço original para um espaço de dimensão maior.
Este espaço de dimensão maior é chamado de espaço de características.
O mapeamento deve satisfazer duas condições: 1) A transformação aplicada deve ser
não linear; 2) A dimensão do espaço de características deve ser sucientemente alta para
que seja seja possível separar as classes do problema através de um hiperplano
Após realizar o mapeamento dos dados de treinamento para o espaço de características
é realizado o mesmo procedimento de busca pelo hiperplano ótimo adotado pelos SVMs
lineares.
Capítulo 3
Vírus da Imunodeciência Humana
3.1 Introdução
O Vírus da Imunodeciência Humana (Human Immunodeciency Vírus - HIV) pertencente à família Retroviridae e sub-família Lentivirinae [27]. Os vírus pertencentes à família
Lentivirinae são caracterizados pela associação com doenças de imunodeciência ou que
envolvem o sistema nervoso central, associadas a um longo período de incubação, antes
das manifestações clínicas tornarem-se aparentes [23].
O HIV pode infectar diversos órgãos do corpo humano, contudo o seu alvo principal é
sistema imunológico, infectando principalmente os linfócitos T CD4+ [24]. A infecção pelo
HIV reduz progressivamente a ecácia do sistema imunológico, levando a um completo
colapso do sistema imune, culminando na Síndrome da Imunodeciência Adquirida (SIDA)
ou Acquired Immunodeciency Syndrome (AIDS)
[49], que é caracterizada por sinais
e sintomas constitucionais, caquexia, demência, uma variedade de infecções oportunistas
e/ou neoplasias [42].
O HIV é classicado em dois tipos: HIV-1 e HIV-2, sendo o HIV-1 o mais frequente
mundialmente. As sequências de HIV-1 têm sido historicamente classicadas, com base
em suas relações logenéticas, em grupos e subtipos [36] e desta forma o HIV-1 apresenta
três grupos distintos: o grupo M, do inglês major , o grupo O de outlier e o grupo N de
new ou non M - non O [45]. A classicação dos subtipos logeneticamente equidistantes é baseada em análises das sequências dos genes env e gag
[47] e são identicados
por letras alfabéticas [36]. Existem 9 subtipos (A1, A2, B, C, D, F1, F2, G, H, J e K) e
51 formas recombinantes circulantes ou CRF, que correspondem a recombinantes virais
que apresentam um genoma mosaico com diferentes subtipos em diferentes regiões genô-
3.2 HIV-1 e seu Ciclo de Multiplicação
micas
1
19
[8, 32, 39]. Os grupos N e O estão restritos ao oeste africano. O HIV-2 é composto
por sete subtipos e, assim como os grupos N e O, é mais comum no oeste africano [18].
Neste estudo trabalharemos apenas com indivíduos infectados pelo HIV-1.
3.2 HIV-1 e seu Ciclo de Multiplicação
O HIV-1 possui um genoma constituído por duas moléculas idênticas de RNA ta simples. Este genoma apresenta nove janelas abertas de leitura correspondentes a três genes
principais comuns a todos os retrovírus: gag, pol, env e a seis genes adicionais com função
regulatória na replicação viral: tat, rev, nef, vif, vpr, vpu [51]. A Figura 3.1 contém uma
representação esquemática do genoma do HIV e da partícula viral.
Figura 3.1: Representação do genoma e da partícula viral do HIV-1
O gene gag codica as proteínas da matrix (MA), proteína do capsídeo (CA), nucleocapsídeo (NC) e a proteína p6. O gene env codica as proteínas gp120 (SU ou superfície)
e gp41 (TM ou transmembrana). Por sua vez, o gene pol codica as proteínas protease
(PR), transcriptase reversa (reverse transcriptase - RT) e integrase (IN). Os produtos dos
genes gag e env são componentes estruturais do núcleo e da membrana externa do vírion
(párticula viral fora da célula hospedeira). Já as proteínas codicadas pelo gene pol são
responsáveis por funções enzimáticas essenciais ao ciclo de replicação do vírus
[15].
O ciclo de multiplicação do HIV-1 é constituído por uma sequência de etapas que
são reguladas vez por proteínas virais e celulares, que se inicia com a fusão da partícula
viral à célula hospedeira até o brotamento e a maturação de uma nova partícula viral. A
1
http://www.hiv.lanl.gov/
3.2 HIV-1 e seu Ciclo de Multiplicação
20
Figura 3.2 representa o ciclo de multiplicação do HIV-1 de forma simplicada e, a seguir,
o ciclo de multiplicação é explicado em detalhes.
Figura 3.2: Ciclo de multiplicação do HIV-1
São demonstradas as etapas de adsorção, penetração, transcrição reversa do RNA, síntese,
montagem e brotamento das partículas virais. Fonte: [34]
O processo de infecção se inicia quando o vírion se liga a uma célula hospedeira através
de interações com a proteína gp120 e o receptor celular CD4, em conjunto com um coreceptor CCR5 ou CXCR4. Uma vez que essa ligação é realizada com sucesso, formando
o complexo CD4/gp120/co-receptor, promove uma alteração conformacional adicional na
gp120 que leva à exposição do domínio de fusão, presente na gp41, e consequentemente à
inserção na membrana da célula alvo, promovendo assim a fusão das membranas celulares
e viral. Posteriormente ocorre à liberação do conteúdo viral no citoplasma [50, 16, 3].
Uma vez no citoplasma, o capsídeo é dissolvido pelas enzimas do hospedeiro, liberando
o RNA viral e as proteínas MA, RT, IN e Vpr. Esse complexo de proteínas é levado para
o núcleo da célula hospedeira e neste momento a proteína RT faz a transcrição do RNA
viral em uma molécula de DNA viral, que será integrada ao genoma do hospedeiro, em
uma reação processada pela integrase. O DNA viral integrado, conhecido como provírus,
serve como molde para a síntese de RNAs virais, que são transportados para o citoplasma.
O provírus é geralmente quiescente e se replica coordenadamente com o DNA da célula
hospedeira.
3.3 Tratamentos Contra a Infecção por HIV
21
Quando a célula infectada com HIV sofre ativação ou estimulação, o provírus é transativado resultando na produção e liberação de vírions infecciosos. Uma vez que o DNA
viral foi integrado ao genoma celular, o vírus pode se manter em estado latente por diversos anos. Contudo, uma vez que o vírus se torna ativo ele utiliza a RNA polimerase para
criar cópias do genoma viral e mRNAs. O RNA e os mRNA são transportados para o citoplasma, onde os mRNAs utilizam o maquinário celular para produzir as proteínas virais.
As proteínas dos genes gag e gag-pol são geradas como poliproteínas e serão processadas
posteriormente.
As proteínas, juntamente com o RNA viral, são transportados para a
membrana celular, onde juntamente com outras proteínas serão montados e brotarão do
hospedeiro como um novo vírion imaturo, que não é capaz de infectar outras células. O
processo de maturação envolve o processamento das poliproteínas Gag e Gag-Pol pela PR,
que realiza a clivagem dessas poliproteínas que então são remontadas para gerar um vírion
estruturado e maduro, capaz de infectar outras células e reiniciar o ciclo de multiplicação
do HIV-1.
3.3 Tratamentos Contra a Infecção por HIV
As drogas desenvolvidas para combater a infecção são chamadas de antirretrovirais e,
geralmente, têm como alvo determinadas fases do ciclo de multiplicação do vírus. Uma
vez que o HIV é um vírus da família Retroviridae, um dos primeiros esforços no desenvolvimento de drogas antirretrovirais teve seu foco na busca de um composto capaz de
interromper o funcionamento da proteína Transcriptase Reversa e consequentemente o
ciclo de multiplicação do HIV-1. Em
[30] foi demonstrado que a droga Azidotimidina
(AZT), também conhecida como Zidovudina, primeiramente utilizada como potencial
droga no combate ao câncer, era capaz de inibir a transcrição reversa e a replicação in
vitro.
Desde 1985, quando foi observado o potencial uso do AZT como antirretroviral, até
hoje, foram desenvolvidos antirretrovirais visando diferentes fases do ciclo de multiplicação
do HIV-1. Atualmente, existem 23 drogas antirretrovirais aprovadas pelo FDA (Food and
Drug Administration ), que é o departamento de Controle de Drogas e Alimentos dos
Estados Unidos. Os antirretrovirais estão divididos em 6 grupos, de acordo com o alvo
molecular da droga e o mecanismo de ação da mesma. Os antirretrovirais atacam 5 alvos
moleculares que dizem respeito a estágios diferentes do ciclo de replicação do HIV-1.
No primeiro grupo encontram-se os agentes antivirais de maior sucesso e mais comu-
3.3 Tratamentos Contra a Infecção por HIV
22
mente utilizados: análogos nucleosídios ou inibidores nucleosídios da transcriptase reversa
(NTRI, do inglês, Nucleoside Reverse Transcriptase Inhibitors ), que são desoxinucleotídeos modicados que se ligam a uma molécula de DNA viral que está sendo sintetizada
causando uma terminação prematura da cadeia de DNA. Uma vez que a função de replicação do ácido nucleico da célula normal pode também ser um alvo, esses fármacos via
de regra exibem algum grau de toxicidade ao hospedeiro.
Com o tempo, muitos deles
perdem sua potência antiviral em virtude do surgimento de vírus resistentes a eles [28].
O segundo grupo, chamado de Inibidores não Nucleosídicos da Transcriptase Reversa
(Non Nucleoside Reverse Transcriptase Inhibitors - NNRTI), inclui drogas que se ligam
à transcriptase reversa e prejudicam a mobilidade de determinados domínios da proteína,
impedindo a síntese do DNA. O terceiro grupo de drogas, Inibidores de Protease (PIs),
impedem a replicação viral pela ligação ao sítio ativo da protease do HIV, inibindo o
processamento de grandes proteínas virais em seus componentes individuais, impedindo a
maturação do vírus. O quarto grupo de drogas, conhecidos como Inibidores de Fusão, se
ligam à proteína gp41 evitando que o vírus se ligue a células hospedeiras. O quinto grupo
de drogas são os Antagonistas CCR5, que se ligam à bolsa hidrofóbica formada pelas
hélices de transmembrana do co-receptor CCR5 bloqueando a superfície celular receptora
e impedindo que o vírus entre na célula [7]. Por m, o sexto grupo são os Inibidores de
Integrase, uma classe de drogas projetada para impedir a ação da proteína integrase. A
Tabela 3.1 apresenta a lista do 23 antirretrovirais aprovados pelo FDA.
Apesar dos esforços no desenvolvimento de drogas antirretrovirais, a ecácia dessas
drogas muitas vezes é comprometida pelo surgimento de fenótipos virais resistentes aos
medicamentos.
O surgimento desses fenótipos é resultante da incapacidade de reparo
de leitura do genoma viral pela Transcriptase Reversa. Desta forma, há um surgimento
espontâneo de mutações que podem conferir ao vírus resistência as drogas antirretrovirais
[29]. A taxa elevada de replicação do HIV e sua inerente variabilidade genética são fatores
que levam à identicação de variantes virais que apresentam susceptibilidade alterada
às drogas.
De acordo com os dados do Los Alamos National Laboratory, 2007, foram
listadas 947 mutações relacionadas à resistência a drogas, dos quais 37 ocorrem no Gag,
321 na protease, 9 na integrase, 374 na RT e 206 no Env. Estas mutações descritas são
predominantemente encontradas no subtipo B e não em outros genótipos do HIV-1 [10].
Estudos demonstram que quando apenas um antirretroviral é utilizado no tratamento
de um paciente podem surgir fenótipos virais resistentes ao antirretroviral utilizado
[2].
Essa resistência implica na replicação eciente do vírus, mesmo na presença do antirre-
3.3 Tratamentos Contra a Infecção por HIV
23
Tabela 3.1: Drogas antirretrovirais aprovadas pelo FDA
Classe de Antirretroviral
Inibidores Nucleosídicos da
Transcriptase Reversa
Inibidores Não Nucleosídicos da
Transcriptase Reversa
inibidores de Protease
Nome Genérico
Data de Aprovação
Delavirdina (DLV)
Abril, 1997
Rilpivirina (RPV)
Maio, 2011
Saquinavir (SQV)
Dezembro, 1995
Efavirenz (EFV)
Setembro, 1998
Etravirinea(ETR)
Janeiro, 2008
Nevirapina(NVP)
Junho, 1996
Abacavir (ABC)
Dezembro, 1998
Didanosina (ddl)
Outubro, 1991
Emtricitabina (FTC)
Julho, 2003
Lamivudina (3TC)
Novembro, 1995
Estavudina (d4T)
Junho, 1994
Tenofovir DF (TDF)
Outubro, 2001
Zidovudina (ZDV, AZT)
Março, 1987
Atazanavir (ATV)
Junho, 2003
Darunavir (DRV)
Junho, 2006
Fosamprenavir (FPV)
Outubro, 2003
Indinavir (IDV)
Março, 1996
Nelnavir (NFV)
Março, 1997
Ritonavir (RTV)
Março, 1996
Saquinavir (SQV)
Dezembro, 1995
Tipranavir (TPV)
Junho, 2005
Inibidor de Fusão
Enfuvirtida (T-20)
Março, 2003
Antagonistas CCR5
Maraviroc (MVC)
Agosto, 2007
Inibidores de Integrase
Raltegravir (RAL)
Outubro, 2007
3.3 Tratamentos Contra a Infecção por HIV
24
troviral [44, 38]. Uma alternativa para solucionar este problema é a utilização da Terapia
Antirretroviral Altamente Ativa (Highly Active Antirretroviral Therapy - HAART), que
consiste na combinação de antirretrovirais de diferentes grupos no mesmo tratamento, de
forma a inibir mais de uma fase do ciclo de replicação do HIV. Em [41] demonstrou-se
que a utilização da HAART pode diminuir a quantidade de partículas virais de um indivíduo a níveis indetectáveis. Já em [14] os autores demonstraram que com este tipo de
tratamento o paciente leva um tempo muito maior para desenvolver resistência às várias
drogas utilizadas no tratamento.
O uso da Terapia Antirretroviral Altamente Ativa tem reduzido consideravelmente
a morbidade e mortalidade entre os pacientes infectados com HIV. Porém, o sucesso do
tratamento é frequentemente limitado pela emergência de HIV resistente a drogas durante
a terapia. Um fato importante é que vírus resistentes podem ser transmitidos a indivíduos recém-infectados. A transmissão destes vírus resistentes a drogas antirretrovirais é
uma das maiores preocupações em saúde pública, visto que pode levar à situação na qual
não haverá drogas efetivas disponíveis para o tratamento do HIV [48]. A utilização de
sequências de HIV-1 para inferir a susceptibilidade a drogas e a probabilidade de resposta
à terapia é idealmente realizada por sistemas computacionais especializados, auxiliando
os médicos na condução do tratamento. Estudos prospectivos têm demonstrado que os
pacientes cujos médicos têm acesso a dados de resistências às drogas, particularmente
dados de resistência genotípica, respondem melhor a terapia do que os pacientes controles
cujos médicos não tem acesso aos mesmos dados [44]. Esse tipo de informação pode ser
utilizado para auxiliar a escolha de drogas as quais o vírus de um determinado paciente
não possua resistência. Desta forma, a utilização da bioinformática com ferramentas que
tentem predizer a resposta de um paciente a um determinado tratamento com antirretrovirais, ou mesmo que auxiliem no processo de escolha de tratamentos, poderá beneciar
os pacientes, médicos e pesquisadores, permitindo um melhor entendimento da correlação
entre genótipo e tratamento antiviral.
Capítulo 4
Predição da Resposta de Pacientes ao Tratamento com Drogas Antirretrovirais
4.1 Introdução
A infecção pelo HIV e, consequentemente, a AIDS, é um problema de saúde pública de
grande magnitude e oferece inúmeros desaos cientícos em diversas áreas do conhecimento. Nas áreas de Biologia e Bioinformática muitos esforços têm sido realizados tanto
para compreender os diversos aspectos relacionados com a infecção pelo HIV [49, 29, 33]
como no desenvolvimento de novas drogas [46, 13] ou de mecanismos para torná-las mais
ecazes.
Um problema frequente no tratamento da infecção pelo HIV é o surgimento de fenótipos virais resistentes ao tratamento antirretroviral administrado a um paciente. Por esse
motivo, é importante saber a quais drogas um paciente possui resistência para utilizar essas informações no processo de escolha de um tratamento antirretroviral que resulte num
controle satisfatório infecção e, consequentemente, retardar o surgimento de um fenótipo
viral resistente ao tratamento corrente.
Desse modo, se torna desejável a utilização de
ferramentas computacionais que possam predizer a resposta de um paciente a um determinado tratamento com antirretrovirais.
Alguns trabalhos apresentados na literatura já abordaram o problema da predição da
resposta de pacientes ao tratamento com drogas antirretrovirais [37, 1, 52]. Nesses trabalhos foram desenvolvidas ferramentas que utilizam técnicas de classicação e regressão
logística para predizer o resultado de um determinado tratamento antirretroviral.
Em
[52], os autores formularam a hipótese de que o resultado de tratamento administrado a
um paciente é inuenciado tanto pelo genoma do hospedeiro quanto do vírus que o infecta.
4.2 Trabalhos Relacionados
26
Apesar de as soluções já apresentadas na literatura terem obtido resultados promissores para o problema de predição, na maioria dos trabalhos em questão não são apresentados detalhes sobre que inuência diferentes tipos de atributos exercem no resultado
nal da predição. Esse tipo de análise foi realizada apenas em [1], porém a base de dados
utilizada pelos autores e os atributos extraídos da mesma são diferentes da base de dados
e dos atributos utilizados neste trabalho.
No presente trabalho o problema da predição da resposta de pacientes ao tratamento
com antirretrovirais é abordado com enfoque na avaliação dos atributos utilizados para a
predição. A base de dados utilizada contém registros de pacientes recém infectados pelo
HIV-1 que não receberam nenhum tratamento prévio para essa doença. Além disso não
há na base de dados utilizada nenhuma informação sobre quais drogas são administradas
para cada paciente.
Na seção 4.2 serão apresentados os trabalhos relacionados ao problema de predição
da resposta de pacientes às drogas antirretrovirais. Em seguida uma descrição detalhada
sobre a base de dados utilizada na realização deste trabalho é apresentada na Seção 4.3.
4.2 Trabalhos Relacionados
Predizer a resposta de um tratamento antirretroviral administrado a um paciente é um
problema que tem sido abordado por uma série de trabalhos de bioinformática. Geralmente esses trabalhos têm como objetivo a criação de ferramentas computacionais que
auxiliem na escolha de um conjunto de drogas para compor um coquetel de tratamento.
A necessidade de pesquisas sobre o tema e o desenvolvimento de tais ferramentas surge
devido às diculdades que os especialistas encontram para escolher o tratamento mais
adequado para cada paciente, uma vez que essa escolha envolve um número muito grande
de variáveis, tais como, as diferentes possibilidades de combinações de drogas, os fatores
clínicos de cada paciente, as mutações do vírus HIV presente no organismo do paciente,
as drogas às quais o paciente apresenta resistência, dentre outros.
A seguir são descritos alguns trabalhos que foram propostos para tratar do problema
da predição da resposta de um paciente à terapia antirretroviral e auxiliar na tomada de
decisão sobre a escolha de um tratamento.
Em [37] os autores utilizaram um conjunto de modelos de predição colaborando entre
si para otimizar a escolha de uma terapia antirretroviral para um paciente. Experimentos
foram conduzidos com dados extraídos do banco de dados integrado EuResist(EIDB), que
4.2 Trabalhos Relacionados
27
contém genótipos HIV e dados clínicos de respostas a terapias antirretrovirais. Uma das
principais características desse trabalho é que os modelos de predição foram treinados com
dois tipos de bases de dados, a primeira contendo somente informações genotípicas dos
pacientes e os tratamentos administrados ao mesmo e, a segunda, formada por todos os
atributos da primeira base juntamente com outros dados como, o históricos de tratamentos
anteriores dos pacientes, idade, sexo, dados demográcos, contagem da carga viral e de
células T CD4+, dentre outros. Apesar de o modelo de predição utilizado ser treinado
com as duas bases de dados, ao utilizar o modelo gerado para se predizer a resposta de
um tratamento para um novo paciente não é necessário informar os dados que foram
adicionados à segunda base de dados.
O modelo nal de predição consiste em um conjunto de três modelos diferentes. Cada
modelo é formado por uma camada de geração e seleção de atributos e uma camada de
regressão logística utilizada para predição. Os modelos utilizados são chamados de Evolutivo, Gerador Discriminativo e um Modelo de Mistura de Efeitos. O modelo Evolutivo
utiliza atributos de mutação e históricos de tratamento juntamente com um tipo de atributo que quantica, para cada droga, qual é a possibilidade do surgimento de mutações
no vírus presente no organismo do paciente que o tornem resistente à droga em questão. O modelo Gerador utiliza redes Bayesianas para modelar a interação entre as drogas
presentes no histórico de tratamento de um paciente. Por m, o Modelo de Mistura de
Efeitos utiliza como atributos as interações possíveis entre mutações e drogas antirretrovirais em conjunto com atributos de mutações, fatores clínicos dos pacientes, informações
demográcas e o histórico de tratamento de cada paciente.
O modelo nal de predição gerado pode ser utilizado para auxiliar na seleção de tratamentos antirretrovirais para um paciente.
Além disso, é possível observar mutações
presentes nas sequências de Protease, Transcriptase Reversa e Integrase, bem como uma
estimativa do nível de resistência de um paciente às drogas antirretrovirais. Os autores disponibilizam uma ferramenta online que pode ser acessada em http://engine.euresist.org/.
Em [1] foram utilizados diferentes grupos de atributos na resolução do problema da
predição da resposta de um paciente ao tratamento com drogas antirretrovirais. A avaliação da resposta dos pacientes foi realizada para cada episódio de troca de tratamento,
ou seja, o momento em que o paciente deixa de usar um conjunto de drogas para utilizar outro. Foram utilizados 5 grupos diferentes de dados extraídos a partir do genótipo
viral dos pacientes. O primeiro conjunto de dados, identicado como Indicador, contém
atributos relacionados à presença de mutações no HIV e às drogas utilizadas no trata-
4.2 Trabalhos Relacionados
28
mento. Todos os demais conjuntos de dados incluem também os atributos presentes no
grupo Indicador. O segundo grupo de atributos, chamado Fenótipo, contém um indicador fenotípico de resistência antirretroviral, este indicador é calculado para cada droga
em particular de acordo com o método apresentado em [4]. O terceiro grupo de atributos, chamado Atividade, contém atributos que fornecem uma estimativa do quanto um
coquetel antirretroviral será efetivo contra a infecção de um paciente.
O quarto grupo
de atributos, chamado Barreira Genética, fornece a probabilidade do surgimento de um
fenótipo viral resistente a um medicamento. Por m, o quinto grupo de atributos, denominado Contagem de Progressão Genética (Genetic Progression Score - GPD), fornece o
tempo esperado para o surgimento de um determinado padrão de mutação.
Foram utilizados seis métodos de aprendizagem de máquina diferentes na avaliação
de cada um dos grupos. Os resultados da predição demonstraram que os grupos Fenótipo,
Atividade, Barreira Genética e GPD alcançaram melhores resultados de predição que o
primeiro grupo (Indicador ).
Os melhores resultados foram obtidos a partir dos grupos
Fenótipo e Barreira Genética. A diferença de resultados entre os diferentes classicadores
não foi signicativa, levando os autores à conclusão de que o principal fator para o sucesso
da predição é a escolha do conjunto de dados de entrada, e não do algoritmo a utilizado.
Ao nal deste trabalho, os autores desenvolveram uma ferramenta computacional para
auxiliar na seleção de tratamentos antirretrovirais para um paciente.
chamada THEO
1
Essa ferramenta,
(THErapy Optimizer ) pode ser acessada livremente para propósitos de
pesquisa.
No trabalho proposto em [52], os autores têm como objetivo vericar a veracidade da
hipótese de que a resposta de um paciente ao tratamento com drogas antirretrovirais é
inuenciada tanto pelo genoma do hospedeiro quanto do vírus HIV. Para isto os autores
supõem que, em seu processo de mutação, o HIV preserva pequenas sequências de proteínas, chamadas motivos lineares. Os autores formularam a hipótese de que a presença
de motivos lineares no genoma do HIV que sejam comuns a motivos lineares do genoma
humano podem inuenciar a resposta de um paciente ao tratamento administrado.
Os dados utilizados nos experimentos realizados nesse trabalho foram retirados do
Banco de Dados de HIV da Universidade de Stanford. A base utilizada é formada por
dados de 2019 pacientes. Para a tarefa de predição da resposta dos pacientes às drogas
antirretrovirais os autores utilizaram um método de regressão logística que efetua uma
etapa anterior de seleção de atributos.
1
http://www.geno2pheno.org
4.3 Base de Dados Original
29
Através dos resultados obtidos na predição da resposta dos pacientes às drogas antirretrovirais e da etapa de seleção de atributos os autores demonstraram que a utilização de
determinados motivos lineares presentes tanto na sequência da Transcriptase Reversa do
vírus quanto no genoma humano, contribuiu para aumentar o poder preditivo dos métodos
utilizados. Os autores identicaram também duas posições de mutação na Transcriptase
Reversa que se mostraram bons indicadores de resposta negativa em pacientes que utilizam apenas um medicamento na composição do seu tratamento. Contudo, estes atributos
de mutação não se mostraram bons indicadores de resposta em pacientes que utilizam uma
terapia HAART.
4.3 Base de Dados Original
A base de dados original, que posteriormente foi processada para gerar as bases utilizadas
2
nos experimentos computacionais realizados neste trabalho, foi obtida no website Kaggle ,
que disponibilizou essa base para uma competição de bioinformática. Originalmente ela
3
foi montada a partir da base de dados de HIV da Universidade de Stanford . Essa base
contém dados de 1692 pacientes que haviam contraído o vírus HIV-1 e no momento da
coleta dos dados ainda não haviam recebido qualquer tipo de tratamento. Um tratamento
é denido como a administração de uma ou mais drogas a um paciente com o objetivo de
diminuir a carga viral do mesmo. Os paciente passaram a receber o tratamento após a
coleta de dados.
Cada instância da base de dados contém os seguintes atributos para um paciente:
•
A sequência de nucleotídeos da Transcriptase Reversa (Reverse Transcriptase RT)
do vírus que ele contraiu;
•
A sequência da nucleotídeos da Protease (PR) do vírus que ele contraiu;
•
A contagem de células CD4+ em 1 mL de sangue;
•
A carga viral (Viral Load -VL) no mesmo mL de sangue;
•
A resposta ao tratamento com drogas antiretrovirais.
O atributo classe é o atributo de resposta ao tratamento, que indica se o paciente
obteve ou não progresso no tratamento admininstrado após a coleta dos dados. Para essa
2
3
http://www.kaggle.com
http://hivdb.stanford.edu/
4.3 Base de Dados Original
30
base de dados considera-se que houve um progresso se após de 16 semanas de tratamento
tiver ocorrido uma redução de 100 vezes na carga viral de um paciente com drogas antiretrovirais.
Das 1692 instâncias da base de dados, 552 correspondem a pacientes que responderam
positivamente ao tratamento administrado (atributo classe com valor igual a 1) e as outras
1140 estão relacionadas com pacientes que não responderam ao tratamento (atributo
classe com valor igual a 0). Desse modo, a base de dados contém 67,4% de instâncias cujo
atributo classe tem valor igual a 0 e 32,6% de instâncias cujo atributo classe tem valor
igual a 1.
Os atributos de protease (PR) e transcriptase reversa (RT) são formados por sequências de nucleotídeos que são representadas por cadeias formadas pelas letras A, C, G e
T, as quais representam os nucleotídeos Adenina, Citosina, Guanina e Timina, respectivamente. Esses atributos têm uma grande probabilidade de conter diferenças de uma
instância para a outra, dado que o HIV possui uma alta taxa de mutação. Desse modo, em
instâncias diferentes, podemos ter sequências de tamanhos diferentes e formadas por combinações distintas de nucleotídeos. O formato dessa base de dados original é apresentado
na Figura 4.1.
PR
CCTCAAATCACTTGTGCC...
CCTCGGTTCACTCTTGCA...
CCTCAACTCTTTGGCACC...
.
.
.
CCTCGGTTCACTCTTGGC...
RT
CCCGTTAGCCATGC...
CCCATCAACTGCCA...
CCCATCAGTCCTGC...
.
.
.
CCCATCAAATGCCA...
CD4 VL(log ) Resposta
256
500
1231
.
.
.
120
6,4
1,5
3,2
.
.
.
4,5
10
1
0
0
.
.
.
0
Figura 4.1: Base de dados original.
Para a resolução do problema de classicação abordado neste trabalho foram adotados os seguintes passos.
Inicialmente foram extraídos, para cada paciente, uma série
de atributos das sequências de nucleotídeos da Protease e da Transcriptase Reversa do
vírus. Uma vez extraídos, esses atributos foram agrupados em diferentes bases de dados
de acordo com o seu signicado biológico.
A qualidade de cada grupo de atributos foi
avaliada a partir dos resultados de classicação obtidos para cada uma das bases de dados
construídas. Em um segundo momento técnicas de seleção de atributos foram aplicadas
a uma base de dados que compreende todos os atributos utilizados no presente trabalho.
Outras duas bases foram geradas e avaliadas.
O capítulo a seguir apresenta todos os
detalhes dos experimentos conduzidos neste trabalho.
Capítulo 5
Experimentos Computacionais
5.1 Pré-processamento da Base Original
5.1.1 Extração de Atributos
A grande quantidade de nucleotídeos que representam a RT e a PR dos vírus e a variação
do tamanho das sequências em instâncias diferentes da base nos impõem a realização de
um pré-processamento dessas sequências para a obtenção de um conjunto uniforme de
atributos que possa ser utilizado na tarefa de classicação.
Sendo assim, um pré-processamento das sequências de RT e PR foi realizado para
extração dos atributos que foram utilizados na tarefa de classicação.
1
O web service
Sierra , da Universidade de Stanford, foi utilizado para a extração dos atributos.
Esse
web service nos fornece acesso ao algoritmo HIVdb[26] e, por meio da sua interface, aceita a
submissão das sequências de RT e PR, retornando um XML com as seguintes informações:
•
O subtipo do vírus;
•
Mutações encontradas nas sequências submetidas;
•
O tamanho das sequências;
•
A similaridade destas com uma sequência de consenso .
2
http://sierra2.stanford.edu/sierra/html/webservices/index.shtml
As sequências de consenso utilizadas para cada subtipo são derivadas de um alinhamento com
as sequências do subtipo correspondente mantidas no Banco de Dados de Sequências de HIV de Los
Alamos(hiv-web.lanl.gov). Sequências de consenso são referências comumente utilizadas para a comparação de sequências.
1
2
5.1 Pré-processamento da Base Original
•
32
Os valores de nível de resistência de um paciente a cada uma das 19 drogas (inibidoras de PR e RT) aprovadas pelo Food and Drug Administration (FDA) e registradas
no banco de dados utilizado.
A estrutura do XML retornado pelo web service Sierra pode ser observada no Anexo A.
A partir das informações contidas no XML gerou-se uma nova base de dados, substituindose as sequências de PR e RT pelos atributos extraídos. A Figura 5.1 apresenta o formato
da base de dados gerada após o pré-processamento das sequências de RT e PR. Além
dos atributos CD4, VL e Resposta, contidos na base de dados original, essa base possui
os seguintes atributos extraídos da sequências de RT e PR: subtipo de vírus, o tamanho das sequências de Transcriptase Reversa (TRT ) e Protease (TP R ), a similaridade das
sequências de Transcriptase Reversa (SRT ) e de Protease (SP R ), as mutações (M1 até
Mn )
presentes nas sequências e, por m, os valores de nível de resistência de um paciente aos
medicamentos antirretrovirais (N1 até
Nk ).
Para o atributo Resposta O VALOR 1 indica
que o paciente obteve resposta positiva ao tratamento e, o valor 0 indica que o paciente
não obteve resposta ao tratamento.
Subtipo
B
B
.
.
.
B
TRT
270
212
.
.
.
212
TP R
99
99
.
.
.
99
SRT
98
97,6
.
.
.
97,6
SP R
95
92
.
.
.
92
M1
0
0
.
.
.
0
...
...
...
.
.
.
...
Mn
1
0
.
.
.
0
N1
...
Nk
15 ... 60
15 ... 45
. . .
. . .
. . .
15 ... 45
CD4
234
294
.
.
.
294
VL Resposta
2,3
0
1,3
1
.
.
.
.
.
.
1,3
1
Figura 5.1: Base de dados após extração de atributos
As características da base de dados referentes aos grupos de atributos extraídos a
partir das sequências de RT e PR são apresentadas na Tabela 5.1. O atributo subtipo
indica qual é o subtipo do vírus presente no paciente. O tamanho das sequências indica
quantos aminoácidos cada uma das sequências (RT e PR) contém.
Esse atributo for-
nece informação sobre qual tipo de mutação aconteceu em uma sequência. Por exemplo,
se uma sequência de RT é maior que a sequência de consenso utilizada, é provável que
essa sequência tenha sofrido mutações de inserção, ou seja, que nucleotídeos tenham sido
inseridos ao longo da sequência.
O atributo de similaridade apresenta o percentual de
semelhança da sequência em relação a uma sequência de consenso, o que pode ser utilizado para determinar o seu grau de mutação. Os atributos de mutação são binários, de
forma que o valor 1 representa que o vírus presente no paciente possui uma determinada
mutação e o 0 indica que o vírus não possui aquela mutação. Por m, os atributos de
5.2 Organização dos Experimentos
33
nível de resistência informam o grau de resistência de um paciente a um determinado medicamento. Os níveis de resistência às drogas antirretrovirais fornecidos pelo web service
Sierra são calculados através de informações de resistência à drogas antirretrovirais observadas clinicamente juntamente com informações de resistência relatadas na literatura,
mais detalhes sobre este procedimento podem ser observados em [35]. Para os atributos
de nível de resistência quanto maior o valor do atributo, maior o nível de resistência a
uma droga antirretroviral e, portanto, menor a ecácia da mesma no tratamento.
Tabela 5.1: Características da base de dados após a extração de atributos.
Grupos de Atributos Quantidade
Subtipo
Mutação
Nível de resistência
Tamanho
Similaridade
1
386
19
2
2
Tipo
Discreto {B,C,F etc.}
Binário
Numérico
Numérico
Numérico
A partir deste ponto, todas as referências à base de dados estarão considerando a base
obtida após o pré-processamento das sequências de RT e PR (ver Figura 5.1).
5.1.2 Valores Ausentes de Atributos
Como 80 das 1692 instâncias da base de dados não continham a sequência da PR do
vírus, com o pré-processamento das sequências de RT e PR para extração dos atributos,
não foi possível denir os valores de todos os atributos listados na Tabela 5.1 para essas
instâncias.
Desse modo, após o pré-processamento, 80 instâncias caram com valores
ausentes para alguns atributos.
Para resolver esse problema adotou-se uma abordagem supervisionada, onde o preenchimento dos valores ausentes foi realizado com a média dos valores existentes nas demais
instâncias da base. Para os atributos numéricos utilizou-se a média aritmética obtida e,
para os atributos binários, adotou-se o valor 0 sempre que a média aritmética foi menor
que 0,5 e o valor 1 sempre que a média foi maior ou igual a 0,5.
5.2 Organização dos Experimentos
Como um dos objetivos deste trabalho é investigar quais grupos de atributos extraídos das
sequências de RT e PR geram os melhores resultados na tarefa de predição da resposta
5.2 Organização dos Experimentos
34
de um paciente ao tratamento com drogas antirretrovirais, experimentos com quatro técnicas de classicação foram realizados com bases de dados contendo diferentes grupos de
atributos.
As bases de dados utilizadas nos experimentos foram geradas juntando-se os atributos
de contagem de células CD4+ (CD4) e carga viral (VL) dos pacientes aos grupos de
atributos extraídos a partir das sequências de RT e PR do vírus (ver Tabela 5.1). Desse
modo, foram criadas 5 bases de dados (uma para cada grupo de atributos listado na
Tabela 5.1 e uma contendo todos os grupos de atributos). Vale ressaltar que o atributo
subtipo do vírus não foi utilizado nas bases geradas pelo fato de quase todas as instâncias
(98,7%) estarem associadas ao subtipo B, o que torna esse atributo pouco relevante para
a tarefa de classicação. A Tabela 5.2 apresenta o nome das bases geradas e especica o
conjunto de atributos utilizado em cada uma delas.
Tabela 5.2: Características das bases de dados geradas.
Base
Atributos
MutBD
Mutações encontradas nas sequências de RT e PR + VL + CD4
NivBD
Níveis de resistência aos antirretrovirais + VL + CD4
SimBD
Similaridade das sequências de RT e PR + VL + CD4
TamBD
Tamanho das sequências de RT e PR + VL + CD4
CompBD Mutações + Níveis de resistência + Similaridades + Tamanhos + CD4 + VL
Com essas cinco bases de dados geradas é possível avaliar para diferentes classicadores:
•
Qual(is) grupo(s) de atributos proporciona(m) o melhor desempenho dos classicadores.
•
Se bases que utilizam um único grupo de atributos apresentam melhor desempenho
na classicação do que a base completa (CompBD).
A avaliação comparativa das bases de dados foi realizada com quatro técnicas de
classicação comumente utilizadas em trabalhos de bioinformática: ADTree [17], Random
Forests [6], Redes Bayesianas [11] e Support Vector Machines [12].
Os experimentos envolvendo as técnicas ADTree, Random Forests, Redes Bayesianass
e Support Vector Machines foram conduzidos utilizando-se os algoritmos ADTree, Ran-
domForest, BayesNet e LibSVM, respectivamente, implementados na ferramenta Weka
(versão 3.6) [20].
Os experimentos foram realizados em uma máquina Intel i5-M450
2.4GHz, 4Gb de memória RAM.
5.2 Organização dos Experimentos
35
As execuções desses algoritmos foram realizadas com os seguintes parâmetros.
No
caso do ADTree, o parâmetro numOfBoostingIteration, relacionado ao número de iterações de boosting que o algoritmo utiliza na construção da árvore, foi congurado com
valores de 1 até 30 e, para o parâmetro searchPath, que diz respeito à estratégia de busca
utilizada na construção da árvore, utilizou-se as estratégias Expandir todos os caminhos
possíveis na árvore e Expandir o melhor caminho utilizando a métrica Z-pure. Para o
RandomForest, o parâmetro numTrees, que corresponde ao número de árvores utilizadas
na construção do modelo, foi variado de 10 até 500. Para o algoritmo BayesNet a opção
Estimador Simples foi escolhida para o parâmetro estimator, que é utilizado no cálculo
das tabelas de probabilidade condicional e, o algoritmo Busca Tabu foi adotado para o
parâmetro searchAlgorithm. Por m, para o LibSVM, os parâmetros cost e gamma foram
obtidos a partir de uma busca em grid no espaço de possibilidades de valores que esses
dois parâmetros podem assumir. A partir dessa busca foi denido o valor 0,031 para o parâmetro gamma e três valores para o parâmetro cost : 8, 16 e 32. Para cada classicador,
os resultados dos experimentos apresentados nas seções seguintes sempre são relativos
ao conjunto de parâmetros que obteve a melhor média de resultado. Por exemplo, se o
melhor resultado médio de acurácia para o classicador Random Forests foi obtido com
o parâmetro numTrees igual a 100, foram comparados os resultados obtidos por todas as
bases para essa mesma conguração de parâmetro.
O desempenho dos classicadores foi obtido utilizando-se a
k =10),
sendo as partições geradas de modo aleatório.
k -validação
cruzada (com
Desse modo, para cada base de
dados, os valores das medidas de desempenho dos classicadores correspondem às médias
dos valores obtidos em cada uma das partições.
Vale ressaltar que as instâncias que
compõem cada partição são exatamente as mesmas para todas as bases de dados utilizadas
nos experimentos deste trabalho, ou seja, o que muda numa partição de uma base de dados
para outra são apenas os atributos utilizados para caracterizar as instâncias.
Além de avaliar o desempenho dos classicadores para a base completa (CompBD) e
para as quatro bases que contêm um único grupo de atributos extraídos das sequências de
RT e PR (MutBD, NivBD, SimBD e TamBD), decidiu-se também realizar experimentos
com bases de dados que foram construídas a partir da aplicação de técnicas de seleção
de atributos na base completa (CompBD). Nesse caso, as bases de dados geradas contêm
atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1.
Dado o desbalanceamento de classes das bases de dados adotadas para a realização
deste trabalho e o fato de a literatura da área já ter demonstrado que esse desbalan-
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados
36
ceamento pode inuenciar negativamente o resultado da tarefa de classicação [21], foi
realizada uma avaliação do impacto do desbalanceamento de classes das bases no desempenho dos classicadores.
A apresentação dos resultados dos experimentos conduzidos neste trabalho será feita
da seguinte forma. A avaliação do impacto do desbalanceamento de classes das bases no
desempenho dos classicadores é apresentada na Seção 5.3.
Em seguida, os resultados
da avaliação comparativa das bases de dados listadas na Tabela 5.2 são apresentados na
Seção 5.4.
Por m, a Seção 5.5 apresenta os resultados dos testes conduzidos com as
bases de dados construídas a partir da aplicação de técnicas de seleção de atributos à
base CompBD.
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados
Nesta seção serão apresentados os resultados dos experimentos realizados para a avaliação do impacto do desbalanceamento das bases de dados no desempenho dos classicadores.
As bases de dados adotadas para a realização deste trabalho possuem 1140 instâncias da classe 0 e 552 instâncias da classe 1. Para a realização dos experimentos, essas
bases de dados foram balanceadas utilizando-se o algoritmo SMOTE (Synthetic Minority
Oversampling Technique )[9]. A avaliação do impacto do desbalanceamento foi realizada
comparando-se os resultados de desempenho dos classicadores para as bases de dados
existentes antes e depois do balanceamento.
O algoritmo SMOTE realiza um procedimento na base de dados denominado over-
sampling, que tem como objetivo aumentar o número de instâncias da classe minoritária.
O procedimento de oversampling adotado pelo SMOTE gera instâncias sintéticas a partir
das outras instâncias existentes na base.
Para o balanceamento das bases de dados, o
parâmetro de taxa de incremento das instâncias da classe minoritária foi ajustado em
100% e o número de vizinhos utilizados para geração de cada instância foi igual a 5. O
incremento do número de instâncias da classe minoritária em 100% gerou bases de dados
com uma distribuição praticamente igualitária das classes. Essas bases de dados foram
consideradas balanceadas nos experimentos conduzidos neste trabalho.
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados
37
Vale ressaltar que o balanceamento das bases de dados só foi realizado após a criação
das partições de treinamento e teste. Adotou-se esta abordagem para garantir que apenas
a partição de treinamento seria balanceada e, assim, evitar a existência de instâncias
sintéticas nas partições de teste.
Desse modo, as partições de teste continuaram com
a mesma distribuição de classes da base original, ou seja, aproximadamente 67% das
instâncias pertencem a classe 0 e 33% a classe 1.
Os experimentos foram realizados para cada uma das cinco bases descritas na Tabela 5.2 utilizando-se os quatro classicadores citados na Seção 5.2. O desempenho dos
classicadores foi avaliado em relação ao F-measure obtido por cada uma das classes da
base e pelo F-measure média da mesma.
Os resultados de desempenho dos classicadores são apresentados para as bases de
dados desbalanceadas e balanceadas nas Tabelas 5.3, 5.4, 5.5 e 5.6. Essas tabelas estão
divididas em 5 blocos, cada um deles apresentando os resultados do algoritmo de classicação para a base de dados indicada na primeira coluna da tabela. A segunda coluna
indica a situação da base (balanceada ou desbalanceada). A F-measure para as classes
0 e 1 são apresentados na terceira e quarta colunas, respectivamente. A F-measure média (média ponderada pelo número de instâncias pertencentes a cada uma das classes) é
apresentado na quinta coluna. Por m, a última coluna contém o resultado da diferença
entre a F-measure das classes 0 e 1.
A Tabela 5.3 apresenta os resultados obtidos pelo classicador Random Forests. Como
pode ser observado na quinta coluna, as bases balanceadas obtiveram F-measure média
sempre maior ou igual ao das bases desbalanceadas. Outro impacto positivo do balanceamento das bases foi a redução da diferença entre a F-measure obtida para as classe 0
e 1, o que signica que, para esse classicador, o balanceamento ajudou a obtenção de
resultados mais equilibrados entre as duas classes do problema.
Tabela 5.3: Comparação das F-measures para o classicador Random Forests
Base
Situação
F-measure
F-measure
F-measure
CompBD
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
0,82
0,81
0,77
0,76
0,81
0,81
0,81
0,78
0,77
0,76
0,54
0,61
0,48
0,54
0,53
0,59
0,48
0,54
0,48
0,55
0,73
0,75
0,68
0,69
0,72
0,74
0,70
0,70
0,68
0,70
TamBD
NivBD
MutBD
SimBD
Classe 0
Classe 1
médio
Diferença das
F-measure s
0,28
0,21
0,29
0,21
0,28
0,23
0,33
0,24
0,30
0,21
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados
38
Os resultados dos experimentos para o classicador ADTree são apresentados na Tabela 5.4. No caso desse classicador, o balanceamento entre as classes resultou em aumento
do F-measure média apenas para a base NivBD. No entanto, assim como observado para
o classicador Random Forests, para todas as bases de dados o balanceamento proporcionou um aumento da F-measure da classe minoritária (classe 1) e, consequentemente,
contribuiu para uma redução na diferença entre a F-measure das classes 0 e 1.
Tabela 5.4: Comparação das F-measures para o classicador ADTree
Base
Situação
F-measure
F-measure
F-measure
CompBD
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
0,81
0,77
0,80
0,75
0,81
0,79
0,79
0,72
0,78
0,73
0,60
0,62
0,54
0,60
0,57
0,63
0,57
0,59
0,57
0,58
0,74
0,72
0,72
0,70
0,73
0,74
0,71
0,67
0,71
0,68
TamBD
NivBD
MutBD
SimBD
Classe 0
Classe 1
média
Diferença das
F-measure s
0,21
0,15
0,26
0,15
0,23
0,15
0,22
0,12
0,21
0,15
A Tabela 5.5 contém os resultados dos experimentos com o classicador SVM. Para
esse classicador o balanceamento entre as classes resultou no aumento da F-measure
média para as bases CompBD, MutBD e SimBD. Além disso, assim como ocorreu com os
classicadores Random Forests e ADTree, o balanceamento das bases proporcionou para
todas elas uma redução na diferença entre a F-measure obtida para as classes 0 e 1.
Tabela 5.5: Comparação das F-measures para o classicador SVM
Base
Situação
F-measure
F-measure
F-measure
CompBD
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
0,81
0,77
0,82
0,73
0,82
0,78
0,80
0,76
0,74
0,73
0,48
0,59
0,45
0,59
0,58
0,64
0,41
0,58
0,37
0,57
0,70
0,71
0,70
0,69
0,74
0,74
0,67
0,70
0,62
0,68
TamBD
NivBD
MutBD
SimBD
Classe 0
Classe 1
média
Diferença da
F-measure s
0,33
0,18
0,37
0,14
0,24
0,15
0,39
0,18
0,37
0,16
Os resultados dos experimentos para o classicador Redes Bayesianas são mostrados
na Tabela 5.6.
Para esse classicador o comportamento dos resultados foi um pouco
diferente daqueles obtidos para os demais classicadores. O balanceamento das bases de
dados resultou em um aumento da F-measure para a classe minoritária (classe 1) apenas
para as bases TamBD e SimBD. Isso contribuiu para que a F-measure médio das bases
5.4 Avaliação Comparativa das Bases
39
balanceadas casse menor do que os obtidos para as bases desbalanceadas na maioria dos
casos. Ainda assim, para as bases TamBD, MutBD e SimBD, o balanceamento entre as
classes resultou numa redução da diferença entre a F-measure obtida para as classes 0 e
1.
Tabela 5.6: Comparação das F-measures para o classicador Redes Bayesianas
Base
Situação
F-measure
F-measure
F-measure
CompBD
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
Desbalanceada
Balanceada
0,75
0,74
0,80
0,74
0,74
0,76
0,77
0,74
0,77
0,71
0,62
0,59
0,52
0,56
0,62
0,62
0,59
0,58
0,47
0,59
0,71
0,69
0,71
0,68
0,70
0,71
0,71
0,69
0,67
0,67
TamBD
NivBD
MutBD
SimBD
Classe 0
Classe 1
média
Diferença das
F-measure s
0,13
0,15
0,28
0,18
0,12
0,14
0,18
0,16
0,30
0,12
Sumarizando os resultados, num total de 20 execuções (cada uma das 5 bases foi
testada em 4 classicadores), o balanceamento das bases proporcionou um aumento na
F-measure média em 9 casos e uma redução em 8 casos. Segundo essa medida, os classicadores Random Forests e SVM foram os que mais se beneciaram com o balanceamento
das bases. Portanto, observou-se que a existência de uma inuência positiva do balanceamento de classes no resultado da F-measure média obtido para cada base depende
fortemente do classicador utilizado.
No entanto, para essas 20 execuções, o balanceamento das bases proporcionou a redução da diferença do F-measure entre as classes majoritária e minoritária em 18 casos. Isso
signica que o balanceamento contribuiu para a obtenção de resultados mais equilibrados
entre as duas classes do problema.
Por esse motivo, todos os experimentos descritos a
partir desta seção foram realizados com as bases de dados balanceadas.
5.4 Avaliação Comparativa das Bases
Nesta seção serão apresentados os resultados da avaliação comparativa das bases de dados
listadas na Tabela 5.2. Os experimentos foram realizados utilizando-se as quatro técnicas
de classicação mencionadas na Seção 5.2. As comparações de desempenho dos classicadores para as bases de dados avaliadas neste trabalho foram realizadas a partir de duas
medidas: acurácia e F-measure.
5.4 Avaliação Comparativa das Bases
40
Os resultados da análise comparativa serão apresentados por medida de desempenho. Desse modo, para cada medida de desempenho considerada, serão apresentados os
resultados obtidos pelos classicadores para as bases de dados avaliadas.
Como os resultados dos experimentos realizados com as diferentes bases de dados
correspondem a médias aritméticas calculadas a partir dos valores obtidos em cada uma
das dez partições geradas pelo procedimento de validação cruzada, visando identicar se
existem médias signicativamente diferentes, utilizou-se um teste estatístico denominado
Análise de Variância (ANOVA). A partir do resultado desse teste, se conrmado que pelo
menos uma média é diferente das demais, o método Tukey's Honestly Signicant Dierence (HSD) foi utilizado para determinar quais são as bases que apresentam resultados
signicativamente diferentes de outras.
5.4.1 Acurácia
Os resultados médios de acurácia obtidos por cada classicador para as diferentes bases
de dados são apresentados nos grácos da Figura 5.2.
Como pode ser observado na Figura 5.2, as duas melhores médias de acurácia para
cada classicador foram obtidas com as bases CompBD e NivBD, exceto para o classicador Redes Bayesianass, onde o melhor resultado foi obtido com a base NivBD e o segundo
melhor resultado com a base MutBD.
Contudo, uma vez que os resultados apresentados correspondem às médias das acurácias obtidas para cada uma das 10 partições das bases, o teste estatístico ANOVA
foi aplicado para vericar, para cada classicador, se existem médias signicativamente
diferentes.
A Tabela 5.7 apresenta o resultado do teste estatístico para cada um dos métodos
utilizados. A primeira coluna indica o classicador utilizado, a segunda contém o valor do
teste F, que é calculado como a razão entre as variâncias observadas entre as médias dos
resultado e a média das variâncias de cada teste. A última coluna indica o p-value obtido
e qual é o nível de conança obtido para a análise de variância. O nível de conança é
indicado pelos símbolos a) *** - indicando 99,9% de conança, b) ** 99% de conança,
c) * - 95% de conança e d) # - 90% de conança. A ausência de símbolos indica que
para aquele conjunto de resultados não há diferença estatisticamente signicativa entre
as médias dos resultados.
Os resultados do teste estatístico mostram que existem acurácias médias signicati-
5.4 Avaliação Comparativa das Bases
41
Figura 5.2: Médias de acurácia para os classicadores
vamente diferentes entre pelo menos duas bases a um nível de conança de 99,9% para
os classicadores Random Forests e ADTree, a 95% para o SVM e a 90% para o Redes
Bayesianas.
Para vericar entre quais bases existe diferença com signicância estatística o teste
Tukey's HSD foi utilizado. A Figura 5.3 contém os resultados obtidos para o teste Tukey's
HSD. Nessa gura, um quadro é apresentado para cada classicador, onde a primeira
linha e a primeira coluna de cada quadro contêm os nomes das bases de dados.
Desse
modo, o resultado contido em cada interseção de uma linha com uma coluna de um
quadro indica se as bases relacionadas com a respectivas linha e coluna dessa interseção
Tabela 5.7: Testes ANOVA para os resultados de acurácia
ADTree
Random Forests
Redes Bayesianas
SVM
F value
13.218
6.8859
2.2084
3.6198
Pr(>F)
3.361e-07 ***
0.0002058 ***
0.08317 #
0.01217 *
5.4 Avaliação Comparativa das Bases
42
apresentam resultados signicativamente diferentes (codicado como V verdadeiro) ou
não (codicado como F falso).
CompBD
TamBD
NivBD
MutBD
CompBD
TamBD
NivBD
MutBD
TamBD
V
TamBD
F
ADTree
NivBD
F
V
SVM
NivBD
F
F
MutBD
V
F
V
SimBD
V
F
V
F
MutBD
F
F
F
SimBD
F
F
V
F
RandomForest
CompBD
TamBD
NivBD
MutBD
TamBD
V
NivBD
F
V
MutBD
V
F
F
SimBD
V
F
V
F
Figura 5.3: Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade
Vale observar que o teste Tukey's HSD foi realizado apenas para os classicadores em
que a análise de variância indicou a existência de médias signicativamente diferentes com
um nível de conança maior ou igual a 95%. Como a análise de variância para o Redes
Bayesianass detectou diferença entre os resultados das bases com nível de conança de
90%, o teste Tukey's HSD não foi realizado para os resultados desse classicador.
Para o classicador ADTree, os resultados apresentados na Figura 5.3 mostram que,
com um nível de conança de 95%, os resultados obtidos para as bases CompBD e NivBD
são estatisticamente iguais entre si. Por outro lado, essas duas bases apresentam resultados
estatisticamente diferentes aos das demais bases de dados avaliadas. Para o classicador
Random Forests o resultado obtido com a base CompBD foi o mesmo observado para
o classicador ADTree, ou seja, ela apresenta resultado estatisticamente diferente aos
das demais bases de dados. Já para a base NivBD, o seu resultado foi estatisticamente
diferente ao das bases SimBD e TamBD. Por m, para o classicador SVM, o teste Tukey's
HSD detectou diferença com signicância estatística somente entre os resultados obtidos
com as bases NivBD e SimBD.
Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.3 e nos
grácos da Figura 5.2 observa-se que a base CompBD apresentou resultados de acurácia
preditiva iguais ao da base NivBD e superiores ao das bases MutBD, TamBD e SimBD
em metade dos classicadores. Já a base NivBD obteve resultados superiores ao das bases
MutBD, TamBD e SimBD para o classicador ADTree e superiores aos das bases TamBD
e SimBD para o classicador Random Forests. Além disso, para o classicador SVM, a
base NivBD obteve acurácia superior ao da base SimBD.
5.4 Avaliação Comparativa das Bases
5.4.2
43
F-measure
Os resultados médios de F-measure obtidos por cada classicador para as diferentes bases
de dados são apresentados nos grácos da Figura 5.4. Esses resultados foram semelhantes
àqueles obtidos para a medida de acurácia, ou seja, as bases CompBD e NivBD sempre
obtiveram os dois maiores valores de F-measure em cada classicador, exceto para o Redes
Bayesianass, quando o segundo maior valor foi alcançado pela base MutBD.
Figura 5.4: Médias de F-Measure para os classicadores
Assim como na análise dos resultados de acurácia, o teste estatístico ANOVA foi
aplicado para vericar, para cada classicador, se existem valores médios de F-measure
signicativamente diferentes entre as bases. A Tabela 5.8 apresenta o resultado do teste
estatístico para cada classicador utilizado. Relembrando os códigos de nível de conança
utilizados na tabela 5.8, o nível de conança é indicado pelos símbolos a) *** - 99,9% de
conança, b) ** 99% de conança, c) * - 95% de conança e d) # - 90% de signicância.
A ausência de símbolos indica que para aquele conjunto de resultados não há diferença
estatisticamente signicativa entre as médias dos resultados.
Os resultados da análise de variância mostram que existem valores de F-measure
5.4 Avaliação Comparativa das Bases
44
Tabela 5.8: Teste ANOVA os resultados de F-measure
ADTree
Random Forests
Redes Bayesianas
SVM
F value
12.152
5.2754
2.047
5.3941
Pr(>F)
8.833e-07 ***
0.001430 **
0.1038
0.001234 **
médios signicativamente diferentes entre pelo menos duas bases a um nível de conança
de 99,9% para o classicador ADTree e a 99% para o Random Forests e SVM. Já para
o classicador Redes Bayesianass, o teste de análise de variância não detectou nenhuma
diferença com signicância estatística entre os valores de F-measure média obtidos para
as bases testadas.
A Figura 5.5 apresenta os resultados do teste Tukey's HSD para todos os classicadores
em que o teste estatístico ANOVA detectou a existência de resultados signicativamente
diferentes com um nível de conança maior ou igual a 95%. O resultado contido em cada
interseção de uma linha com uma coluna indica se as bases relacionadas com as respectivas linha e coluna dessa interseção apresentam resultados signicativamente diferentes
(codicado como V verdadeiro) ou não (codicado como F falso).
CompBD
TamBD
NivBD
MutBD
CompBD
TamBD
NivBD
MutBD
TamBD
V
TamBD
F
ADTree
NivBD
F
V
SVM
NivBD
F
F
MutBD
V
F
V
SimBD
V
F
V
F
MutBD
F
F
F
SimBD
V
F
V
F
Random Forests
CompBD
TamBD
NivBD
MutBD
TamBD
V
NivBD
F
F
MutBD
V
F
F
SimBD
V
F
F
F
Figura 5.5: Teste Tukey's HSD para os dados de F-measure a 95% de conabilidade
Para o classicador ADTree, os resultados do teste Tukey's HSD foram iguais àqueles obtidos para a medida de acurácia neste mesmo classicador, ou seja, com um nível
de conança de 95%, pode-se armar que os F-measures médios obtidos para as bases
CompBD e NivBD são estatisticamente iguais entre si, mas diferentes daqueles alcançados
pelas demais bases de dados. Para o classicador SVM, o teste Tukey's HSD detectou diferença de resultados com signicância estatística somente entre a base SimBD e as bases
NivBD e CompBD. Por m, para o Random Forests, somente a base CompBD apresentou resultado estatisticamente diferente daqueles obtidos pelas bases MutBD, TamBD e
SimBD.
5.5 Análise das Bases Após a Seleção de Atributos
45
Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.5 e nos
grácos da Figura 5.4, observa-se que, para dois classicadores, a base CompBD apresentou resultados de F-measure média superiores ao das bases MutBD, TamBD e SimBD.
A base NivBD por sua vez obteve resultados superiores ao das bases MutBD, TamBD e
SimBD para o classicador ADTree.
Analisando os resultados obtidos pode-se observar que as melhores médias de acurácia e F-measure foram obtidas pelas bases CompBD e NivBD. A partir dos resultados
da médias e dos testes de signicância estatística é possível armar, com um nível de
signicância maior ou igual a 95%, que para o classicador ADTree os resultados das
bases CompBD e NivBD são melhores que os demais resultados.
Para o classicador
Random Forests este mesmo comportamento é observado para a base CompBD. Por m,
para o classicador SVM somente foi detectada diferença com um nível de signicância
estatística maior ou igual a 95% entre os resultados da base NivBD e SimBD.
A partir desses resultados pode-se concluir que as bases CompBD e NivBD fornecem
os melhores desempenhos de classicação.
5.5 Análise das Bases Após a Seleção de Atributos
Na seção anterior experimentos foram realizados com o objetivo de se investigar para
qual(is) base(s) de dados os classicadores apresentariam o melhor desempenho.
No
entanto, as cinco bases utilizadas até o momento (ver Tabela 5.2) contém apenas um
único grupo de atributos extraído das sequências de RT e PR (MutBD, NivBD, SimBD
e TamBD) ou são formadas por todos os grupos de atributos extraídos das sequências
(CompBD). Portanto, visando avaliar também bases de dados contendo subconjuntos de
atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1, decidiu-se realizar experimentos com bases de dados que foram construídas a partir da aplicação de
técnicas de seleção de atributos na base completa (CompBD). Nesta seção serão apresentados os resultados dos experimentos conduzidos com essas novas bases.
Para a geração das novas bases foram utilizadas as técnicas de seleção de atributos
Correlation-based Feature Selection [19] e Consistency-based Feature Selection [25], implementadas na ferramenta Weka pelos algoritmos ConsistencySubsetEval e CFSSubSetEval,
respectivamente. Ambos os algoritmos utilizaram os parâmetros padrões da ferramenta
Weka.
A partir da técnica Correlation-based Feature Selection gerou-se a base CfsBD
e, a partir da técnica Consistency-based Feature Selection, gerou-se a base ConsBD. As
5.5 Análise das Bases Após a Seleção de Atributos
46
características de cada base podem ser observadas nas Tabelas 5.9 e 5.10.
Grupos de Atributos
Quantidade
% em relação
ao tamanho da base
Tabela 5.9: Características da base CfsBD.
Atributos de mutação
Atributos de Nível de resistência
Atributos de Tamanho
Atributos de similaridade
Outros (VL)
Total de Atributos Selecionados
Grupos de Atributo
29
1
1
0
1
32
Quantidade
90,6%
3,1%
3,1%
0%
3,1%
-
% em relação
ao tamanho da base
Tabela 5.10: Características da base ConsBD.
Atributos de mutação
Atributos de Nível de resistência
Atributos de Tamanho
Atributos de Similaridade
Outros (CD4, VL)
Total de Atributos Selecionados
36
7
1
2
2
48
75%
14,6%
2,08%
4,16%
4,16%
-
Através das Tabelas 5.9 e 5.10 pode-se observar que, para as duas bases geradas, a
maioria dos atributos selecionados correspondem a atributos de mutação. Contudo, a base
gerada a partir do algoritmo ConsistencySubsetEval é mais heterogênea, com relação aos
tipos de atributos que a compõe, do que a base CfsBD.
Assim como na seção anterior, os resultados de desempenho dos classicadores para as
bases ConsBD e CfsBD foram avaliados utilizando-se a medida de acurácia e F-measure.
Para simplicar a análise dos resultados os testes foram realizados apenas com os dois
classicadores que tiveram o melhor desempenho nos experimentos descritos na Seção 5.4,
a saber, ADTree e Random Forests.
Além disso, a análise comparativa dos resultados
para as bases ConsBD e CfsBD foi realizada apenas com as duas bases que obtiveram os
melhores resultados nos demais testes realizados até o momento (CompBD e NivBD).
5.5.1 Acurácia
A Figura 5.6 apresenta os resultados de acurácia média obtidos pelas bases para cada um
dos classicadores.
A partir da Figura 5.6, que apresenta os resultados obtidos para o classicador AD-
Tree, pode-se observar que ambas as bases ConsBD e CfsBD apresentam acurácia média
5.5 Análise das Bases Após a Seleção de Atributos
47
Figura 5.6: Resultados de acurácia média para os testes com seleção de atributos
superior àquelas obtidas pelas demais bases. Já os resultados obtidos com o classicador
Random Forests, mostram que apenas a base ConsBD apresentou resultados superiores
aos das bases CompBD e NivBD.
Como os resultados apresentados na Figura 5.6 correspondem a médias de acurácias
obtidas para 10 partições das bases, o teste estatístico ANOVA foi aplicado para vericar,
para cada classicador, se existem médias signicativamente diferentes. Os resultados do
teste ANOVA podem ser vistos na Tabela 5.11. Esses resultados mostram que existem
acurácias médias signicativamente diferentes entre pelo menos duas bases, a um nível de
conança de 99,9%, entre os resultados do classicador Random Forests.
Tabela 5.11: ANOVA para o conjunto de resultados de acurácia nos testes de seleção de
atributos
ADTree
Random Forests
F value Pr(>F)
2.4332 0.08079 #
7.7532 0.000404 ***
Para identicar entre os resultados de quais bases se encontram as diferenças detectadas pelo teste ANOVA, foi aplicado o teste Tukey's HSD, cujos resultados são apresentados
na Figura 5.7.
Analisando os resultados do teste Tukey's HSD (a 95% de conabilidade) apresentados na Figura 5.7 juntamente com as acurácias médias apresentadas nos grácos da Figura 5.6, pode-se concluir que, apesar de pelo menos uma dentre as bases CfsBD e ConsBD
apresentar acurácia média superior àquelas obtidas pelas bases CompBD e NivBD, esses
resultados não são signicativamente diferentes.
5.5 Análise das Bases Após a Seleção de Atributos
48
Random Forests
CompBD
NivBD
ConsBD
CfsBD
F
F
V
F
F
NivBD
ConsBD
V
Figura 5.7: Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade, testes
de seleção de atributos
5.5.2
F-measure
A Figura 5.8 apresenta os resultados médios de F-measure obtidos por cada classicador
para cada uma das bases avaliadas. Os resultados médios de F-measure foram semelhantes
aos resultados de acurácia, ou seja, para o classicador ADTree o melhor resultado foi
obtido para a base CfsBD e, para o Random Forests, o melhor resultado foi alcançado
pela base ConsBD.
Figura 5.8: Resultados de F-measure média para os testes com seleção de atributos
Novamente, para vericar se existe diferença estatística entre os resultados obtidos
pelas bases, o teste estatístico ANOVA foi utilizado. Os resultados desse teste, mostrados
na Tabela 5.12, mostram que existem resultados de F-measure médios signicativamente
diferentes entre pelo menos duas bases, a um nível de conança de 99,9%, entre os resultados do classicador Random Forests.
Visando identicar para quais bases os resultados apresentam as diferenças detectadas
pelo teste ANOVA, utilizou-se o teste Tukey's HSD, cujos resultados encontram-se na
Figura 5.9.
Com os resultados obtidos no teste Tukey's HSD para um nível de conança de 95%,
5.5 Análise das Bases Após a Seleção de Atributos
49
Tabela 5.12: ANOVA para o conjunto de resultados de F-measure nos testes de seleção
de atributos
ADTree
Random Forests
F value Pr(>F)
2.6826 0.06123 #
6.7624 0.0009828 ***
Random Forests
CompBD
NivBD
ConsBD
NivBD
ConsBD
CfsBD
F
F
V
F
F
V
Figura 5.9: Teste Tukey's HSD para os resultados de F-measure a 95% de conabilidade,
testes de seleção de atributos
chega-se à mesma conclusão obtida para os resultados de acurácia, ou seja, apesar de pelo
menos uma dentre as bases CfsBD e ConsBD apresentar F-measure média superior ao
das bases CompBD e NivBD para os classicadores utilizados, essa diferença não possui
signicância estatística.
5.5.3 Análise dos Resultados da Base CfsBD
Enquanto os resultados de acurácia e F-measure para a base ConsBD são semelhantes para
os dois classicadores utilizados nessa análise, o mesmo não ocorre para a base CfsBD.
Por isso, o objetivo desta seção é apresentar as razões para essa discrepância.
Apesar de obter as melhores médias de acurácia e F-measure para o algoritmo ADTree,
no algoritmo Random Forests, os resultados obtidos pela base CfsBD são os piores resultados para esse classicador. Observando-se os atributos da base CfsBD, verica-se que a
maior parte dessa base é formada por atributos de mutação. Desse modo, esperava-se que
os resultados obtidos para essa base com o classicador ADTree fossem semelhantes àqueles alcançados pela base MutBD nesse mesmo classicador. No entanto, isso não ocorre.
Enquanto a base MutBD esteve sempre entre as bases com os piores desempenhos para o
ADTree, a base CfsBD alcançou os melhores resultados médios de acurácia e F-measure
obtidos até o momento. Esse fato levanta um questionamento sobre a inuência dos atributos de mutação da base CfsBD no resultado obtido pelo classicador ADTree.
Para
responder a esse questionamento, uma análise será realizada na árvore de decisão gerada
pelo algoritmo ADTree para a base CfsBD. A Figura 5.10 apresenta a árvore gerada pelo
ADTree.
5.5 Análise das Bases Após a Seleção de Atributos
50
Figura 5.10: ADTree gerada para a base CfsBD
Na árvore de decisão apresentada na Figura 5.10 pode-se notar que, apesar de a base
CfsBD conter 29 atributos de mutação, apenas um desses atributos (A98G) apareceu na
árvore de decisão gerada. Os outros atributos que aparecem no modelo construído são: a
carga viral (VL) do paciente, o tamanho da sequência de RT (TamRT) e o único atributo
de nível de resistência que existe nessa base (NFV quantica a resistência de um paciente
à droga Nefravir). Essa observação indica que o bom desempenho do classicador ADTree
para essa base não está relacionado com os atributos de mutação, mas sim com os demais
atributos presentes na mesma.
Já para o classicador Random Forests, assim como se esperava, a base CfsBD teve
um desempenho semelhante àquele obtido com a base MutBD. Isso se deve ao fato de
o classicador Random Forest realizar de modo aleatório a escolha dos atributos que
participam de cada um dos nós das árvores geradas para a composição do modelo de
classicação. Sendo assim, como mais de 90% da base CfsBD é formada por atributos
de mutação, certamente a maioria dos atributos selecionados para composição do modelo
de classicação serão de mutação, o que explica a semelhança entre os resultados obtidos
para essa base e aqueles alcançados pela base MutBD.
Capítulo 6
Conclusões
Atualmente a pandemia de HIV é um dos maiores problemas de saúde pública no mundo.
Devido à sua gravidade e proporção, a busca por soluções para o tratamento dessa doença tem envolvido pesquisadores de diferentes áreas conhecimento, tais como biologia,
medicina e bioinformática. Embora o último relatório da UNAIDS sugira que a porcentagem global de pessoas infectadas permaneça estabilizada, é crescente a preocupação com
o surgimento de fenótipos virais resistentes às drogas antirretrovirais e, principalmente,
com a transmissão de linhagens de vírus resistentes a pacientes recém infectados. Teme-se
que esses problemas possam levar o tratamento dessa doença a uma situação onde não
haverá drogas efetivas no combate à infecção [48].
A Terapia Antirretroviral Altamente Ativa foi um grande avanço no combate à infecção, amenizando o problema do surgimento de fenótipos virais resistentes ou, pelo menos,
retardando o surgimento de linhagens de vírus resistentes. A escolha de drogas adequadas
para compor o tratamento de um paciente exerce um papel chave no sucesso do mesmo
e, por isso, deve ser feita observando-se as características da infecção de cada paciente.
Em [43] foi demonstrado que os pacientes, cujos médicos têm acesso aos dados de resistência do seu vírus às drogas, respondem melhor à terapia do que os pacientes cujos médicos
não tem acesso a esses dados.
Uma das diculdades no processo de escolha de tratamentos antirretrovirais está no
fato de não se saber como um paciente responderá ao tratamento escolhido. Portanto,
ter uma maneira de predizer essa resposta de modo automático e com precisão é de
fundamental importância para a obtenção de sucesso nesse tipo de tratamento.
Por
isso, o problema de predizer a resposta de um paciente a um tratamento com drogas
antirretrovirais tem sido abordado por alguns trabalhos de bioinformática relatados na
literatura. De forma geral, estes trabalhos utilizam técnicas de mineração de dados para
6 Conclusões
52
a construção de ferramentas computacionais para a predição da resposta de pacientes
ao tratamento com antirretrovirais. Essas ferramentas utilizam tais resultados como base
para indicar conjuntos de drogas antirretrovirais que tenham maior probabilidade de obter
sucesso no tratamento de um paciente.
Apesar da existência de trabalhos que abordam o problema de predição da resposta
de pacientes ao tratamento com drogas antirretrovirais, ainda existem poucas fontes na
literatura que abordem a questão da importância de cada tipo de atributo para o resultado
dessa predição.
Desse modo, este trabalho discutiu e analisou a importância de diferentes tipos de
atributos no problema de predição de resposta de pacientes ao tratamento com drogas
antirretrovirais. Como um primeiro passo para abordar essa questão, a partir de uma base
de dados utilizada numa competição de bioinformática, foram extraídos cinco tipos de
atributos diferentes das sequências de PR e RT do vírus contraído por cada paciente. Dos
cinco tipos de atributos extraídos das sequências de PR e RT, quatro foram selecionados
para compor as bases de dados utilizadas nos experimentos realizados neste trabalho (ver
Tabela 5.1).
Os quatro tipos de atributos utilizados referem-se às mutações presentes
nas sequências de PR e RT do vírus de cada paciente, ao nível de resistências às drogas
antirretrovirais, ao tamanho das sequências de PR e RT e à similaridade das sequências
de PR e RT com uma sequência de consenso. Além dessas bases, foi gerada uma quinta
base reunindo todos os atributos das demais. Para cada uma das bases de dados gerada
foram avaliadas as medidas de acurácia e F-measure obtidas em cada um dos quatro
classicadores utilizados nos experimentos computacionais.
Uma vez que as bases de dados geradas eram desbalanceadas, os primeiros experimentos realizados buscaram avaliar o impacto desse desbalanceamento de classes no resultado
nal da predição. De acordo resultados apresentados na Seção 5.3 é possível concluir que
o balanceamento das bases de dados proporcionou resultados mais equilibrados entre as
duas classes do problema para a grande a maioria dos testes realizados.
Por este mo-
tivo, todos os demais experimentos realizados neste trabalho utilizaram as bases de dados
balanceadas.
Os resultados advindos da avaliação comparativa entre as bases (Seção 5.4) mostraram que as maiores médias de acurácia e F-measure foram obtidas pelas bases CompBD
e NivBD para todos os classicadores.
No entanto, após a análise desses resultados
em conjunto com os testes de signicância estatística aplicados, é possível armar que,
para o classicador Alternating Decicion Tree os resultados das bases CompBD e NivBD
6 Conclusões
53
são superiores aos resultados obtidos pelas demais bases. Essa conclusão se repete para
os resultados obtidos pelo classicador Random Forests para a base CompBD. Para o
classicador SVM a base NivBD obteve as melhores médias tanto de acurácia quanto
de F-measure, contudo, apresentou diferença estatisticamente signicativa somente com
relação aos resultados da base SimBD.
Os resultados da avaliação comparativa entre as bases mostram que, quando avaliados
individualmente, os melhores atributos para a predição da resposta de pacientes às drogas
antirretrovirais são os atributos de nível de resistência (representados na base NivBD). A
base CompBD também apresentou bons resultados de acurácia e F-measure, indicando
que adicionar outros conjuntos de atributos também pode contribuir para melhorar o
poder preditivo dos classicadores utilizados na tarefa de predição em questão.
Além dos testes realizados com as bases de dados citadas na Figura 5.1, foram geradas duas novas bases de dados através da aplicação das técnicas de seleção de atributos Correlation-based Feature Selection e Consistency-based Feature Selection na base
CompBD. A aplicação dessas técnicas de seleção de atributos gerou, respectivamente, as
bases CfsBD e ConsBD. A partir dessas duas bases de dados foi possível avaliar: a) Quais
foram os atributos considerados relevantes e, dessa maneira, selecionados pelas diferentes
técnicas de seleção para compor as novas bases, b) Se os atributos de nível de resistência,
que já haviam demonstrado serem bons preditores quanto à resposta de um paciente ao
tratamento, foram selecionados e, c) Se após a seleção de atributos, as bases geradas
melhoraram os resultados de acurácia e F-measure obtidos antes da seleção.
Algumas respostas para as avaliações mencionadas anteriormente foram obtidas a
partir da observação das características das bases geradas por cada uma das técnicas de
seleção de atributos (Figuras 5.9 e 5.10), das quais vale destacar: i) As duas bases foram
formadas majoritariamente por atributos de mutação, ii) o atributo VL, que indica a
carga viral de um paciente no início do tratamento, e o atributo que fornece o tamanho
da sequência de RT, foram selecionados para compor as duas bases, iii) somente a técnica
Consistency-based Feature Selection selecionou um número considerável de atributos de
nível de resistência.
Nos testes realizados na Seção 5.5 foi possível vericar que a base ConsBD (que
possui um conjunto mais diversicado de atributos em relação a base CfsBD) alcançou
bons resultados de predição para os dois classicadores utilizados.
Ainda para estes
testes, vericou-se que os atributos de nível de resistência, tamanho da sequência da
RT e a carga viral, exercem grande inuência nos resultados obtidos pelo classicador
6 Conclusões
54
Alternating Decision Tree para a base CfsBD. Apesar de serem os maiores resultados
médios de acurácia e F-measure, os resultados obtidos pelas bases ConsBD e CfsBD
(para o classicador Alternating Decicion Tree ) não foram signicativamente diferentes
dos resultados alcançados pelas bases CompBD e NivBD.
Por m, analisando os resultados obtidos por todos os experimentos realizados, notase que, dentre os grupos de atributos avaliados individualmente, o de nível de resistência
apresentou os melhores resultados na tarefa de predição de resposta de pacientes às drogas
antirretrovirais. As bases CompBD e ConsBD também apresentaram bons resultados de
classicação nos testes realizados, demonstrando que é interessante utilizar bases de dados
que possuam um conjunto diversicado de atributos. Além disso, apesar de não terem
sido realizados testes de signicância estatística que comprovem as diferenças entre os
resultados obtidos para os diferentes classicadores utilizados neste trabalho, na média,
os melhores valores de acurácia e F-measure foram obtidos pelos classicadores Random
Forests e Alternating Decision Tree. Vale ressaltar também que uma importante contribuição deste trabalho foi a avaliação dos atributos de similaridade das sequências de PR
e RT com uma sequência de consenso e dos atributos de tamanho dessas sequências, uma
vez que nenhum dos trabalhos encontrados na literatura utilizaram esses atributos.
Os resultados apresentados em [52] fornecem indícios de que motivos lineares exercem
uma inuência positiva no desempenho da tarefa de predição de resposta de pacientes ao
tratamento com antirretrovirais. Desse modo, como trabalho futuro, sugere-se a avaliação da importância desse tipo de atributo juntamente com todos aqueles avaliados neste
trabalho.
Ainda como trabalhos futuros, avaliações incluindo atributos advindos de outros tipos
de dados não utilizados neste trabalho, como por exemplo o histórico de tratamento de
um paciente, podem ser realizadas.
55
APÊNDICE A -- Exemplo de XML Retornado pelo
Web Service Sierra
<? xml version=" 1 . 0 " standalone=" y e s " ?>
<? xml− s t y l e s h e e t
type=" t e x t / x s l " h r e f=" h t t p : // hivdb6 . s t a n f o r d . edu / a s i / d e p l o y e d / x s l / hivTransform . x s l " ?>
<S t a n f o r d _ A l g o r i t h m _ I n t e r p r e t a t i o n>
<a l g o r i t h m V e r s i o n>6 . 0 . 9 F</ a l g o r i t h m V e r s i o n>
<w e b S e r v i c e V e r s i o n>beta − 1 . 0 . 1</ w e b S e r v i c e V e r s i o n>
<s u c c e s s>
<s e q u e n c e md5sum=" d91c88fdba198a56ae987d7a43833101 ">
CCCATTAGTCCTATTGAAACTGTAC . . .
</ s e q u e n c e>
<summary>
<PR>
t r u e
<c o n s e n s u s>PQITLWQRPLVTIKIGGQLK . . . </ c o n s e n s u s>
<alignedNASequence>CCTCAAATCACTCTT . . . </ alignedNASequence>
<alignedAASequence>PQITLWQRPVVTVKV . . . </ alignedAASequence>
<f i r s t A A>1</ f i r s t A A>
<lastAA>99</ lastAA>
<subtype type="B" p e r c e n t S i m i l a r i t y=" 9 2 . 6 "/>
</PR>
<RT>
t r u e
<c o n s e n s u s>PISPIETVPVKLKPGMDGPKVKQW . . . </ c o n s e n s u s>
<alignedNASequence>CCCATTAGTCCTATTGAA . . . </ alignedNASequence>
<alignedAASequence>PISPIETVPVKLKPGMDG . . . </ alignedAASequence>
<f i r s t A A>1</ f i r s t A A>
<lastAA>301</ lastAA>
<subtype type="B" p e r c e n t S i m i l a r i t y=" 9 5 . 3 "/>
</RT>
<IN>
 f a l s e
</IN>
</summary>
<PR_mutations>
<mutation c l a s s i f i c a t i o n ="PI_MINOR">L10IV</ mutation>
<mutation c l a s s i f i c a t i o n ="OTHER">I13V</ mutation>
<mutation c l a s s i f i c a t i o n ="PI_MAJOR">V32I</ mutation>
Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra
</PR_mutations>
<RT_mutations>
<mutation c l a s s i f i c a t i o n ="NRTI">M41L</ mutation>
<mutation c l a s s i f i c a t i o n ="NRTI">L74I</ mutation>
<mutation c l a s s i f i c a t i o n ="NNRTI">K103KN</ mutation>
</RT_mutations>
<d r u g S c o r e s>
<drug code="3TC" genericName=" l a m i v u d i n e " type="NRTI" s c o r e=" 7 7 . 0 "
l e v e l S t a n f o r d="5" l e v e l S I R="R" >





</ drug>
<drug code="ABC" genericName=" a b a c a v i r " type="NRTI" s c o r e=" 9 8 . 0 "
l e v e l S t a n f o r d="5" l e v e l S I R="R" >







</ drug>
...
</ d r u g S c o r e s>
<comments>
<comment i d="RT_POS210W_NRTI">L210W c o n t r i b u t e s r e s i s t a n c e t o each o f t h e
NRTIs e x c e p t 3TC and FTC. I t u s u a l l y o c c u r s with t h e m ut a t i on s M41L and
T215Y .</comment>
</comments>
</ s u c c e s s>
</ S t a n f o r d _ A l g o r i t h m _ I n t e r p r e t a t i o n>
56
Referências Bibliográcas
[1]
Altmann, A., Beerenwinkel, N., Sing, T., Savenkov, I., Däumer, M., Kaiser, R., Rhee, S., Fessel, W.,
Shafer, R., Lengauer, T.
Improved prediction of response to antiretroviral combination therapy using the genetic
barrier to drug resistance. Antiviral therapy 12, 2 (2007), 169.
[2]
Andrew, R., David, P., Crandall, K. A., Holmes, E. C.
The causes and consequences of HIV evolution. Nature
Reviews Genetics 5, 1 (2004), 5261.
[3]
Basmaciogullari, S., Babcock, G., Van Ryk, D., Wojtowicz, W., Sodroski, J.
Identication of conserved
and variable structures in the human immunodeciency virus gp120 glycoprotein of importance for cxcr4 binding.
Journal of virology 76, 21 (2002), 10791.
[4]
Beerenwinkel, N., Daumer, M., Oette, M., Korn, K., Hoffmann, D., Kaiser, R., Lengauer, T., Selbig,
J., Walter, H.
Geno2pheno: estimating phenotypic drug resistance from hiv-1 genotypes. Nucleic Acids Research
31, 13 (2003), 38503855.
[5]
Breiman, L.
Classication and regression trees. Chapman & Hall/CRC, 1984.
[6]
Breiman, L.
Random forests. Machine Learning 45 (October 2001), 532.
[7]
Briz, V., Poveda, E., Soriano, V.
Hiv entry inhibitors: mechanisms of action and resistance pathways. Journal
of Antimicrobial Chemotherapy 57, 4 (2006), 619627.
[8]
Carr, J., Foley, B., Leitner, T., Salminen, M., Korber, B., McCutchan, F.
Reference sequences representing
the principal genetic diversity of hiv-1 in the pandemic. Human retroviruses and AIDS (1998), 11110.
[9]
Chawla, N., Bowyer, K., Hall, L., Kegelmeyer, W.
Smote: synthetic minority over-sampling technique.
Journal of Articial Intelligence Research 16, 1 (2002), 321357.
[10]
Clark, S., Calef, C., Mellors, J.
Mutations in retroviral genes associated with drug resistance. HIV Sequence
Compendium, Los Alamos National Laboratory, Los Alamos, NM (2007).
[11]
Cooper, G., Herskovits, E.
A bayesian method for the induction of probabilistic networks from data. Machine
learning 9, 4 (1992), 309347.
Support-vector networks. Machine learning 20, 3 (1995), 273297.
[12]
Cortes, C., Vapnik, V.
[13]
Dau, B., Holodniy, M.
[14]
Deeks, S.
[15]
Frankel, A. D., Young, J. A. T.
Novel targets for antiretroviral therapy: clinical progress to date. Drugs 69, 1 (2009), 3150.
Treatment of antiretroviral-drug-resistant HIV-1 infection. The Lancet 362, 9400 (2003), 20022011.
HIV-1: Fifteen proteins and an rna. Annual Review of Biochemistry 67, 1 (1998),
125.
[16]
[17]
Freed, E.
Hiv-1 gag proteins: diverse functions in the virus life cycle. Virology 251, 1 (1998), 115.
Freund, Y.
The alternating decision tree learning algorithm. In In Machine Learning: Proceedings of the Sixteenth
International Conference (1999), Morgan Kaufmann, p. 124133.
REFERÊNCIAS BIBLIOGRÁFICAS
[18]
Hahn, B., Shaw, G., De, K., others.
58
Aids as a zoonosis: scientic and public health implications. Science 287,
5453 (2000), 607.
Correlation-based feature selection for machine learning. PhD thesis, The University of Waikato, 1999.
[19]
Hall, M.
[20]
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I. H.
The weka data mining
software: an update. SIGKDD Explor. Newsl. 11 , 1018.
[21]
Japkowicz, N., Stephen, S.
The class imbalance problem: A systematic study. Intell. Data Anal. 6 (October 2002),
429449.
[22]
Kamber, M., Pei, J.
[23]
Klatt, E.
[24]
Levy, J.
[25]
Liu, H., Setiono, R.
Data mining: Concepts and techniques. Morgan Kaufmann, 2011.
Pathology of AIDS. Florida State University College of Medicine, 2002.
Pathogenesis of human immunodeciency virus infection. Microbiological reviews 57, 1 (1993), 183289.
A probabilistic approach to feature selection - a lter solution. In Proc. of Int. Conf. on
Machine Learning (1996), Morgan Kaufmann, p. 319327.
[26]
Liu, T., Shafer, R.
Web resources for hiv type 1 genotypic-resistance test interpretation. Clinical infectious diseases
42, 11 (2006), 1608.
[27]
Luciw, P.
Human immunodeciency viruses and their replication. Virology, 3rd edn. Lippincott-Raven, Philadelphia
(1996), 18811952.
[28]
[29]
Madigan, M.
Brock biology of microorganisms, 11th edn. International Microbiology 8 (2005), 149152.
McMichael, A., Phillips, R.
Escape of human immunodeciency virus from immune control. Annual review of
immunology 15, 1 (1997), 271296.
[30]
Mitsuya, H., Weinhold, K., Furman, P., St Clair, M., Lehrman, S., Gallo, R., Bolognesi, D., Barry,
D., Broder, S.
3'-azido-3'-deoxythymidine (bw a509u): an antiviral agent that inhibits the infectivity and cytopathic
eect of human t-lymphotropic virus type iii/lymphadenopathy-associated virus in vitro. Proceedings of the National
Academy of Sciences 82, 20 (1985), 7096.
[31]
Oliveira, S. E. L., Merschmann, L. H. C., Bouillet, L. E. M.
Identifying signicant features in hiv sequence to
predict patients' response to therapies. In Proceedings of the 6th Brazilian conference on Advances in bioinformatics
and computational biology (Berlin, Heidelberg, 2011), BSB'11, Springer-Verlag, p. 1825.
[32]
[33]
Peeters, M.
Recombinant hiv sequences: their role in the global epidemic. HIV sequence compendium (2000), 5472.
Perelson, A., Neumann, A., Markowitz, M., Leonard, J., Ho, D.
Hiv-1 dynamics in vivo: virion clearance
rate, infected cell life-span, and viral generation time. Science 271, 5255 (1996), 1582.
[34]
Rambaut, A., Posada, D., Crandall, K., Holmes, E.
The causes and consequences of hiv evolution. Nature
Reviews Genetics 5, 1 (2004), 5261.
[35]
Rhee, S., Taylor, J., Wadhera, G., Ben-Hur, A., Brutlag, D., Shafer, R.
Genotypic predictors of human
immunodeciency virus type 1 drug resistance. Proceedings of the National Academy of Sciences 103, 46 (2006),
17355.
[36]
Robertson, D., Anderson, J., Bradac, J., Carr, J., Foley, B., Funkhouser, R., Gao, F., Hahn, B.,
Kalish, M., Kuiken, C., others.
[37]
Hiv-1 nomenclature proposal. Science 288, 5463 (2000), 55.
Rosen-Zvi, M., Altmann, A., Prosperi, M., Aharoni, E., Neuvirth, H., Sönnerborg, A., Schülter, E.,
Struck, D., Peres, Y., Incardona, F., Kaiser, R., Zazzi, M., Lengauer, T.
Selecting anti-HIV therapies
based on a variety of genomic and clinical factors. Bioinformatics 24 (July 2008), i399i406.
REFERÊNCIAS BIBLIOGRÁFICAS
The impact of highly active antiretroviral therapy on hiv-specic immune function. Aids 15 (2001), S4.
[38]
Saag, M.
[39]
Salminen, M.
[40]
59
Hiv inter-subtype recombination-consequences for the epidemic. AIDS Reviews 2, 3 (2000), 178189.
Schapire, R., Singer, Y.
Improved boosting algorithms using condence-rated predictions. Machine learning 37, 3
(1999), 297336.
[41]
Scheer, S., Chu, P., Klausner, J., Katz, M., Schwarcz, S.
Eect of highly active antiretroviral therapy on
diagnoses of sexually transmitted diseases in people with aids. The Lancet 357, 9254 (2001), 432435.
[42]
Schwartz, S., Nair, M.
Current concepts in human immunodeciency virus infection and aids. Clinical and Vaccine
Immunology 6, 3 (1999), 295.
[43]
Hiv-1 reverse transcriptase and protease sequencing for drug resistance
Shafer, R., K, D., M.A, W., SH, E.
studies. HIV Sequence Compendium (2001), 83133.
[44]
Shafer, R., Kantor, R., Gonzales, M.
The genetic basis of hiv-1 resistance to reverse transcriptase and protease
inhibitors. AIDS reviews 2, 4 (2000), 211.
[45]
Simon, F., Mauclère, P., Roques, P., Loussert-Ajaka, I., Müller-Trutwin, M., Saragosti, S., GeorgesCourbot, M., Barré-Sinoussi, F., Brun-Vézinet, F.
Identication of a new human immunodeciency virus type
1 distinct from group m and group o. Nature medicine 4, 9 (1998), 10321037.
[46]
Steigbigel, R., Cooper, D., Kumar, P., Eron, J., Schechter, M., Markowitz, M., Loutfy, M., Lennox,
J., Gatell, J., Rockstroh, J., others.
Raltegravir with optimized background therapy for resistant hiv-1 infection.
New England Journal of Medicine 359, 4 (2008), 339354.
[47]
Subbarao, S., Schochetman, G.
[48]
van de Vijver D, A, W., C, B.
Genetic variability of hiv-1. Aids 10 (1996), S13.
The epidemiology of transmission of drug resistant hiv-1. HIV Sequence Compendium
(2007), 1736.
How does hiv cause aids? Science 260, 5112 (1993), 1273.
[49]
Weiss, R.
[50]
Weiss, R., Weiss, R., MCCUNE, J., MCMICHAEL, A., ROWLAND-JONES, S., RICHMAN, D., NABEL,
G., RINGROSE, P.
Gulliver's travels in hivland. AIDS 410, 6831 (2001).
Medical virology. Academic Pr, 1994.
[51]
White, D., Fenner, F.
[52]
William Dampier, Perry Evans, L. U., Tozeren, A.
antiretroviral therapy. vol. 47. BMC Med Genomics, 2009.
Host sequence motifs shared by HIV predict response to