UNIVERSIDADE FEDERAL DE OURO PRETO Samuel Evangelista Lima de Oliveira IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM SEQUÊNCIAS DE PROTEASE E TRANSCRIPTASE REVERSA DO VÍRUS HIV PARA A PREDIÇÃO DA RESPOSTA DE PACIENTES AO TRATAMENTO COM DROGAS ANTIRRETROVIRAIS Ouro Preto 2012 UNIVERSIDADE FEDERAL DE OURO PRETO Samuel Evangelista Lima de Oliveira IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM SEQUÊNCIAS DE PROTEASE E TRANSCRIPTASE REVERSA DO VÍRUS HIV PARA A PREDIÇÃO DA RESPOSTA DE PACIENTES AO TRATAMENTO COM DROGAS ANTIRRETROVIRAIS Dissertação de Mestrado submetida ao Programa de Pós-Graduação Computação da em Ciência da Universidade Federal de Ouro Preto como requisito parcial para a obtenção do título de Mestre. Área de concentração: Recuperação e Tratamento da Informação. Orientador: Luiz Henrique de Campos Merschmann Co-orientador: Leoneide Érica Maduro Bouillet Ouro Preto 2012 IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM SEQUÊNCIAS DE PROTEASE E TRANSCRIPTASE REVERSA DO VÍRUS HIV PARA A PREDIÇÃO DA RESPOSTA DE PACIENTES AO TRATAMENTO COM DROGAS ANTIRRETROVIRAIS Samuel Evangelista Lima de Oliveira Dissertação de Mestrado submetida ao Programa de Pós-Graduação Computação da em Ciência da Universidade Federal de Ouro Preto como requisito parcial para a obtenção do título de Mestre. Aprovada por: Luiz Henrique de Campos Merschmann, D.Sc. / DECOM-UFOP (Presidente) Leoneide Érica Maduro Bouillet, D.Sc. / CiPharma-UFOP Alexandre Plastino de Carvalho, D.Sc. / IC-UFF Gisele Lobo Pappa, Ph.D. / DCC-UFMG Ouro Preto, 09 de Fevereiro de 2012. O482i Oliveira, Samuel Evangelista Lima de. Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais [manuscrito] / Samuel Evangelista Lima de Oliveira – 2012. 69 f.: il.; grafs.; tabs. Orientador: Prof. Dr. Luiz Henrique de Campos Merschmann. Co-orientadora: Leoneide Érica Maduro Bouillet Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Departamento de Computação. Programa de Pós-graduação em Ciência da Computação. Área de concentração: Recuperação e Tratamento da Informação. 1. Mineração de dados (Computação) - Teses. 2. Bioinformática - Teses. 3. Seleção de atributos - Teses. 4. Classificação - Teses. I. Universidade Federal de Ouro Preto. II. Título. CDU: 575.112:004 Catalogação: [email protected] Agradecimentos Muitas pessoas zeram parte destes dois anos de caminhada e a construção e conclusão deste trabalho se deve também a elas. Nestes poucos parágrafos venho agradecer a atenção, carinho, repeito, paciência e apoio recebidos de todos aqueles que trilharam este caminho ao meu lado. Primeiramente, agradeço a toda a minha família, especialmente a minha mãe e aos meus irmãos. A minha mãe, por me apoiar sempre, estar ao meu lado e, principalmente, por ter orgulho do meu trabalho. E aos meus irmãos pelo carinho que só um irmão é capaz de compreender. A minha namorada, Doris, por ter me acompanhado a cada passo me dando forças, me animando quando era preciso e principalmente me incentivando e ouvindo pacientemente os mais variados assuntos a respeito de computação de bioinformática. Ao meu orientador, Luiz Merschmann, por ter me acolhido tão bem como orientando, por todo o conhecimento cientíco e prossional compartilhado e, acima de tudo, pela amizade e sinceridade sempre presentes nesses dois anos de convicência. A minha co-orientadora, Leoneide Boillet, por ser uma verdadeira fonte de conhecimento que contribuiu imensamente para a realização deste trabalho, e pelos ótimos conselhos, sugestões e conversas. Agradeço imensamente a todos os amigos que torceram por mim, aos amigos do CEFET-OP, amigos do PPGCC/UFOP, os demais amigos da UFOP e aqueles que entraram na minha vida por outros meios, todos vocês, direta ou indiretamente, fazem parte desta conquista. Por m, agradeço a todos os funcionários e professores do DECOM/UFOP pela atenção, dedicação e por me oferecer uma formação técnina e humana de qualidade da qual tenho muito orgulho. Resumo O vírus da Imunodeciência Humana é um retrovirus que ataca principalmente o sistema imunológico humano, reduzindo progressivamente a sua ecácia. Combinações de dro- gas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altas taxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a alguns antirretrovirais e, consequentemente, causar falhas no tratamento. Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dados para predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada. Contudo ainda há poucos estudos que avaliem a inuência que diferentes tipos de atributos na tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho é apresentado um estudo comparativo sobre a utilização de diferentes atributos na predição da resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais. Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro modelos de classicação. A partir desses conjuntos de atributos foram realizadas três etapas de testes que envolveram a avaliação do impacto do desbalanceamento das bases no resultado dos modelos de classicação, a análise da importância de cada grupo de atributos e, por m, uma etapa de seleção de atributos. A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-se observar que uma etapa de balanceamento ajudou na obtenção de resultados mais equilibrados entre as duas classes do problema de classicação em questão. Por sua vez a análise da importância dos diferentes grupos de atributos demonstrou que os melhores resultados de predição foram obtidos para os atributos que representam os níveis de resistência dos pacientes às drogas antirretrovirais. Por m, as bases de dados obtidas após uma fase de seleção de atributos apresentaram melhores resultados de predição quando compostas por um conjunto variado de atributos. Nesta etapa dos testes foi possível observar novamente a importância dos atributos de nível de resistência, bem como a importância de um atributo que representa o tamanho de uma determinada proteína do HIV. Palavras-chave: Mineração de dados, Classicação, Bioinformática, HIV. Abstract The Human Immunodeciency Virus (HIV) is a retrovirus that attacks the human immune system, progressively reducing its eectiveness. Combinations of antiretroviral drugs are used to treat the infection by HIV. However, the high mutation rate in the HIV virus makes it resistant to some antiretroviral drugs and leads to treatment failure. Nowadays, there are bioinformatic studies based on data mining techniques, to predict the patients' response to antirretroviral therapies. However, there are few studies evaluating the contribution of dierent types of features extracted from the HIV genotype in the prediction of patients' response to antirretroviral therapies. This work presents a study comparing the inuence of dierent types of attributes in the prediction of patient's outcome to therapy. The attributes were grouped in dierent datasets according to its biological meaning. Experiments were conduced trough four classication methods, using the datasets previously generated. Using these datasets it was possible to perform three experiments sets wich envolved, the evaluation about the impact of datasets' unbalance in the classication results, the signicance of each attribute group and, nally, an attribute selection step. The results shown that, a previous balancing step helped to obtain good results to booth classes of the prediction problem addressed in this work. The results also shown that, between the attributes used in this work, the best attribute group for this prediction task are the attributes that indicate the patients' resistance levels to the antirretroviral drugs. Complementarly, the datasets obtained after an attribute selection step obtained better prediction results when they are composed of diverse types of attributes. In these nal experimentes was possible to notice again the signicance of the attributes that indicate the patients' resistance levels, as well, the signicance of an attribute wich is the size of an specic HIV protein. Keywords: Data mining, classication, bioinformatics, HIV. Sumário Lista de Figuras viii Lista de Tabelas ix 1 Introdução 1 2 Classicação de Dados 4 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 Tarefa de Classicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Medidas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.4 Técnicas de Classicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.4.1 Árvores de Decisão Alternadas . . . . . . . . . . . . . . . . . . . . . 8 2.5 Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.6 Classicadores Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.6.2 Classicador Bayesiano Simples . . . . . . . . . . . . . . . . . . . . 13 2.6.3 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Máquinas de Vetor de Suporte . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.7.1 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.7.2 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.7 3 Vírus da Imunodeciência Humana 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 Sumário vii 3.2 HIV-1 e seu Ciclo de Multiplicação . . . . . . . . . . . . . . . . . . . . . . 3.3 Tratamentos Contra a Infecção por HIV . . . . . . . . . . . . . . . . . . . 4 Predição da Resposta de Pacientes ao Tratamento com Drogas Antirretrovirais 19 21 25 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3 Base de Dados Original . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5 Experimentos Computacionais 5.1 31 Pré-processamento da Base Original . . . . . . . . . . . . . . . . . . . . . . 31 5.1.1 Extração de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.1.2 Valores Ausentes de Atributos . . . . . . . . . . . . . . . . . . . . . 33 5.2 Organização dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 36 5.4 Avaliação Comparativa das Bases . . . . . . . . . . . . . . . . . . . . . . . 39 5.4.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.4.2 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Análise das Bases Após a Seleção de Atributos . . . . . . . . . . . . . . . . 45 5.5.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.5.2 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.5.3 Análise dos Resultados da Base CfsBD . . . . . . . . . . . . . . . . 49 5.5 6 Conclusões 51 Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra 55 Referências Bibliográcas 57 Referências Bibliográcas 57 Lista de Figuras 2.1 Matriz de confusão para um problema de classicação binário. . . . . . . . 6 2.2 Árvore de decisão clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3 Árvore de decisão alternada . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 Árvore de decisão alternada genérica . . . . . . . . . . . . . . . . . . . . . 10 2.5 Representação de um hiperplano ótimo separando duas classes . . . . . . . 16 3.1 Representação do genoma e da partícula viral do HIV-1 . . . . . . . . . . . 19 3.2 Ciclo de multiplicação do HIV-1 . . . . . . . . . . . . . . . . . . . . . . . . 20 4.1 Base de dados original. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.1 Base de dados após extração de atributos . . . . . . . . . . . . . . . . . . . 32 5.2 Médias de acurácia para os classicadores . . . . . . . . . . . . . . . . . . . 41 5.3 Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade . . . 42 5.4 Médias de F-Measure para os classicadores . . . . . . . . . . . . . . . . . 43 5.5 Teste Tukey's HSD para os dados de F-measure a 95% de conabilidade . . 44 5.6 Resultados de acurácia média para os testes com seleção de atributos 47 5.7 Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade, . . . testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.8 Resultados de F-measure média para os testes com seleção de atributos . . 48 5.9 Teste Tukey's HSD para os resultados de F-measure a 95% de conabilidade, testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . 49 5.10 ADTree gerada para a base CfsBD . . . . . . . . . . . . . . . . . . . . . . 50 Lista de Tabelas 3.1 Drogas antirretrovirais aprovadas pelo FDA . . . . . . . . . . . . . . . . . 23 5.1 Características da base de dados após a extração de atributos. . . . . . . . 33 5.2 Características das bases de dados geradas. . . . . . . . . . . . . . . . . . . 34 5.3 Comparação das F-measures para o classicador Random Forests . . . . . 37 5.4 Comparação das F-measures para o classicador ADTree . . . . . . . . . . 38 5.5 Comparação das F-measures para o classicador SVM . . . . . . . . . . . 38 5.6 Comparação das F-measures para o classicador Redes Bayesianas 5.7 Testes ANOVA para os resultados de acurácia 5.8 Teste ANOVA os resultados de F-measure 5.9 Características da base CfsBD. . . . . 39 . . . . . . . . . . . . . . . . 41 . . . . . . . . . . . . . . . . . . 44 . . . . . . . . . . . . . . . . . . . . . . . . 46 5.10 Características da base ConsBD. . . . . . . . . . . . . . . . . . . . . . . . . 46 5.11 ANOVA para o conjunto de resultados de acurácia nos testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.12 ANOVA para o conjunto de resultados de F-measure nos testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Capítulo 1 Introdução Segundo o Programa da Organização das Nações Unidas para HIV/AIDS (UNAIDS), no nal de 2009, cerca de 33 milhões de pessoas estavam infectadas pelo vírus HIV. Esse fato, associado à rápida mutação do vírus e à diculdade de se combater a infecção, torna a AIDS uma das piores doenças infecciosas presentes no mundo atual. Muitos esforços têm sido empreendidos pelos pesquisadores para tentar compreender diversos aspectos em relação à infecção pelo HIV [49, 29, 33], para desenvolver novas drogas [46, 13] ou tornar as já existentes mais ecazes. Desde 1985, quando foi demonstrado que a droga Azidotimidina era capaz de inibir a replicação do HIV e ajudar no controle da infecção, foram alcançados diversos progressos no tratamento e controle da infecção pelo HIV através de drogas antirretrovirais. Um dos principais avanços no tratamento da infecção foi o surgimento da Terapia Antiretroviral Altamente Ativa (Highly Active Antiretroviral Therapy - HAART), que consiste na combinação de diferentes tipos de antirretrovirais em um mesmo tratamento. Tal terapia se mostrou eciente no controle da infecção pelo HIV a ponto de reduzir o número de partículas virais em um indivíduo a níveis indetectáveis [41], diminuindo consideravelmente a morbidade e mortalidade entre os pacientes infectados com HIV. Apesar dos resultados positivos alcançados pelo HAART, o sucesso do tratamento com antirretrovirais é frequentemente limitado pelo surgimento de fenótipos virais resistentes às drogas que estão sendo utilizadas no tratamento. O surgimento de fenótipos virais resistentes está relacionado com as altas taxas de mutação do HIV e a pressão evolutiva exercida pelas drogas utilizadas no tratamento da infecção. Desse modo, é importante que a escolha das drogas antirretrovirais que farão parte de uma terapia antirretroviral seja realizada levando-se em consideração informações sobre as sequências genéticas do vírus do paciente, dado que essas informações podem ser utilizadas para se inferir a 1 Introdução 2 susceptibilidade do vírus às drogas e o tipo de resposta do paciente à terapia. Estudos prospectivos têm demonstrado que os pacientes cujos médicos têm acesso aos seus dados de resistência às drogas respondem melhor à terapia do que pacientes cujos médicos não tem acesso a esses dados [43]. Como o processo de escolha de terapias antirretrovirais ecientes é um processo complexo, é desejável que existam ferramentas computacionais que possam predizer a resposta de um paciente a um determinado tratamento com drogas antirretrovirais ou que auxiliem no processo de escolha dos tratamentos. A predição da resposta de pacientes ao tratamento com drogas antirretrovirais pode ser vista como um problema de classicação onde o objetivo é predizer se um tratamento antiretroviral administrado a um paciente terá um resultado positivo ou negativo. Essa predição pode ser feita com base em um conjunto de informações relacionadas com o estado clínico do paciente, com os tratamentos administrados, com as sequências de proteínas do vírus HIV presente no organismo do paciente e outros. Alguns trabalhos apresentados na literatura fazem uso de técnicas de mineração de dados para resolver esse problema de classicação [37, 1]. Nesses trabalhos foram propostas ferramentas computacionais que resolvem o problema de classicação descrito anteriormente para auxiliar na indicação de terapias antirretrovirais que tenham maior probabilidade de sucesso para um determinado paciente. Apesar de existirem propostas na literatura para solucionar o problema de predição da resposta de pacientes ao tratamento com drogas antirretrovirais, há uma lacuna quando se trata de trabalhos que avaliem qual é a importância de cada tipo de atributo utilizado no processo de classicação. Esse fato motivou a proposta principal deste trabalho, cujo objetivo é avaliar a relevância de diferentes tipos de atributos, que são extraídos das sequências genéticas dos vírus adquiridos pelos pacientes, para o problema de classicação descrito anteriormente. Para alcançar esse objetivo, experimentos computacionais foram realizados com bases de dados contendo diferentes tipos de atributos. Com essas bases de dados foi possí- vel avaliar, para diferentes classicadores, qual(is) tipo(s) de atributos proporciona(m) o melhor desempenho dos mesmos. Neste ponto, vale ressaltar que uma outra importante contribuição deste trabalho foi a avaliação de alguns tipos de atributos que ainda não haviam sido utilizados em outros trabalhos propostos na literatura. Parte dos resultados desta avaliação foram publicados em [31]. Uma característica comumente encontrada nas bases de dados biológicas, que também aparece nas bases de dados utilizadas neste trabalho, é o desbalanceamento entre as clas- 1 Introdução 3 ses. No caso das bases aqui utilizadas, aproximadamente 33% das instâncias correspondem a pacientes que responderam positivamente ao tratamento com as drogas antirretrovirais e os outros 67% estão relacionados com pacientes que responderam negativamente ao tratamento. Sendo assim, um segundo objetivo deste trabalho é avaliar o impacto desse desbalanceamento entre as classes das bases de dados no desempenho dos classicadores. O restante deste trabalho está organizado como especicado a seguir. O Capítulo 2 apresenta uma revisão bibliográca sobre o processo de classicação e os algoritmos utilizados neste trabalho. O Capítulo 3 contém conceitos básicos sobre o Vírus da Imunodeciência Humana, assim como alguns aspectos do seu ciclo de replicação e as drogas disponíveis para o tratamento da infecção. No Capítulo 4 é apresentada a denição do problema abordado neste trabalho, bem como trabalhos relacionados. A descrição dos experimentos realizados, bem como os resultados desses experimentos são apresentados no Capítulo 5. Por m, no Capítulo 6 são apresentadas as conclusões do trabalho, e sugestões para trabalhos futuros. Capítulo 2 Classicação de Dados 2.1 Introdução O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) tradicionalmente apresentado na literatura é composto por diversas etapas, que agregadas, podem ser resumidas em pré-processamento, mineração de dados e visualização dos resultados. A classicação (ou predição) é uma das tarefas mais importantes da mineração de dados. A partir de um conjunto de instâncias com características e classes conhecidas, seu objetivo é construir modelos que sejam capazes de predizer a classe de novas instâncias a partir das suas características [22]. Diversas técnicas de classicação já foram propostas na literatura por pesquisadores das áreas de estatística, aprendizado de máquina e mineração de dados. Dentre as várias áreas de aplicação das técnicas de classicação, a bioinformática vem se destacando nos últimos tempos. Essa é uma área de estudo que trata do armazenamento, da análise, da interpretação e da utilização de informações obtidas a partir de dados biológicos. Exemplos de aplicações incluem o problema de classicação de proteínas, a predição da resposta de pacientes a tratamentos, a classicação de tumores em pacientes, e outros. Neste capítulo, uma breve descrição do processo de classicação é apresentada na Seção 2.2. Em seguida, questões relacionadas com a avaliação de classicadores são discutidas na Seção 2.3. Por m, a Seção 2.4 apresenta uma breve descrição sobre as técnicas de classicação utilizadas neste trabalho. 2.2 Tarefa de Classicação 5 2.2 Tarefa de Classicação O processo de classicação pode ser dividido em duas etapas: a etapa de treinamento e a etapa de teste. O objetivo da etapa de treinamento é construir um modelo de classicação a partir de um conjunto de instâncias contidas em uma base de dados. Cada instância dessa base de dados é caracterizada por um conjunto de atributos e pertence a uma determinada classe, denida por um dos atributos, denominado atributo classe. As instâncias utilizadas para construção do modelo de classicação formam uma base de dados conhecida como base de dados de treinamento. Na etapa de teste avalia-se o modelo gerado na etapa anterior quanto à sua capacidade de predizer corretamente as classes de novas instâncias (instâncias cujas classes são desconhecidas). A avaliação da capacidade preditiva do modelo é realizada a partir de um conjunto de instâncias diferente daquele usado na etapa de treinamento do modelo. Esse conjunto de instâncias constitui a base de dados de teste. Assim como as instâncias do conjunto de treinamento, as instâncias de teste também possuem o valor do atributo classe conhecido. Isso permite que o resultado obtido pelo modelo de classicação possa ser comparado com os verdadeiros valores do atributo classe das instâncias de teste, permitindo, dessa maneira, que a capacidade preditiva do classicador seja calculada. Um método comumente utilizado na avaliação de classicadores é a k-validação cru- zada. Neste método uma base de dados original de tamanho em k N é dividida aleatoriamente partições, de forma que cada partição tem aproximadamente de teste é realizada em k iterações e, para cada iteração, uma das como base de dados de teste, e as demais k−1 N elementos. A etapa k k partições é utilizada partições são utilizadas como base de da- dos de treinamento. Desse modo, os resultados das medidas de desempenho avaliadas são calculados como a média aritmética dos resultados obtidos em cada uma das k iterações. A avaliação da capacidade preditiva de um modelo de classicação pode ser feita por meio de diversas medidas de desempenho, dentre elas, a acurácia, precisão, revocação, F- measure, área sob a curva ROC e outras. Na próxima seção são apresentadas as medidas de desempenho utilizadas neste trabalho. 2.3 Medidas de Desempenho A análise da qualidade de um classicador é comumente realizada através de um conjunto de dados reunidos em uma matriz chamada matriz de confusão. O tamanho de uma matriz 2.3 Medidas de Desempenho 6 de confusão (MC) varia de acordo com o número de classes do problema em questão. Desse modo, para um problema com linhas e m m classes a MC gerada corresponde a uma tabela com colunas, onde cada entrada M Ci,j m indica o número de instâncias da classe que foram rotuladas pelo classicador como pertencentes à classe j. i Em uma matriz de confusão de um classicador com 100% de acerto, todas as entradas diferentes de M Ck,k (diagonal principal) são preenchidas com o valor 0, ou seja, nenhuma instância de uma classe i é rotulada como pertencendo a uma classe j. A Figura 2.1 apresenta a matriz de confusão para um problema de classicação binário. Os quatro resultados que formam essa matriz de confusão são: • Verdadeiros Positivos: a quantidade de instâncias da classe positiva rotuladas corretamente; • Verdadeiros Negativos: a quantidade de instâncias da classe negativa rotuladas corretamente; • Falsos Positivos: a quantidade de instâncias da classe negativa rotulados com a classe positiva; • Falsos Negativos: a quantidade de instâncias da classe positiva rotuladas com a classe negativa. Classe Predita Classe real Positiva Negativa Positiva Verdadeiros Positivos(VP) Falsos Negativos(FN) Negativa Falsos Positivos(FP) Verdadeiros Negativos(VN) Figura 2.1: Matriz de confusão para um problema de classicação binário. Os dados de uma matriz de confusão permitem o cálculo de diversas medidas que podem ser utilizadas na análise de desempenho de um classicador. Uma das medidas mais utilizadas na avaliação de classicadores é a acurácia (acc), que representa a porcentagem de instâncias do conjunto de testes que foram corretamente classicadas. A acurácia é calculada através da razão entre o número de instâncias de teste corretamente classicadas (V P + V N ) e o número total de instâncias no conjunto de teste (V P + F P + V N + F N ). O cálculo da acurácia é mostrado na Equação 2.1. acc = VP +VN V P + FP + V N + FN (2.1) 2.3 Medidas de Desempenho 7 Utilizar somente a medida de acurácia para avaliar o desempenho de um classicador para bases de dados com desbalanceamento entre as classes pode ser insuciente para a obtenção de conclusões corretas. Isso se deve ao fato de que essa medida tende a privilegiar a classe majoritária. Por exemplo, um classicador que sempre atribui a classe majoritária às instâncias de teste pode facilmente alcançar uma acurácia de 95% se a base de dados possuir 95% das instâncias associadas à classe majoritária. Desse modo, algumas outras medidas de desempenho são importantes na avaliação dos classicadores que lidam com bases desbalanceadas por permitirem uma desassociação entre os erros ocorridos em cada classe. Entre essas medidas estão a precisão, a revocação e a F-measure. A medida de precisão indica a capacidade do classicador em reconhecer as instâncias pertencentes a uma classe de interesse enquanto rejeita as demais. Algebricamente, essa medida é denida para uma classe da seguinte forma: precisão = VP V P + FP (2.2) A medida de revocação indica a habilidade do classicador para identicar as instâncias de uma classe de interesse. Algebricamente, essa medida é denida para uma classe da seguinte forma: revocação = VP V P + FN (2.3) Apesar de as medidas de precisão e revocação serem sucientes para denir com exatidão o desempenho dos classicadores, a avaliação dos mesmos torna-se mais simples quando se utiliza uma única medida de desempenho. Sendo assim, foi proposta a F- measure, que corresponde a uma média harmônica ponderada entre os valores de precisão e revocação. Essa medida é denida da seguinte forma: F-measure = (1 + β) × precisão × revocação β 2 × precisão + revocação (0 ≤ β ≤ +∞) O cálculo dessa medida envolve a denição do coeciente β, importância da precisão em relação à revocação. Utilizando-se (2.4) utilizado para denir a β>1 atribui-se um peso maior para a revocação no cálculo do valor nal da F-measure. Caso contrário, ou seja, para β < 1, atribui-se peso maior para a precisão. Neste trabalho, o valor de F-measure foi calculado utilizando-se sempre β = 1. 2.4 Técnicas de Classicação 8 2.4 Técnicas de Classicação Nesta seção será apresentada uma breve descrição das diferentes técnicas de classicação utilizadas no decorrer deste trabalho. 2.4.1 Árvores de Decisão Alternadas As Árvores de Decisão Alternadas (Alternating Decision Trees - ADTree) [17] podem ser vistas como uma generalização das técnicas de árvores de decisão, e de classicadores baseados em regras. Ao propor o classicador ADTree o autor tinha como objetivo obter resultados tão bons quanto aqueles apresentados por classicadores tradicionais como o C5.0 e CART [5], mas que além disso pudessem gerar regras de classicação de fácil compreensão e interpretação. Para explicar o classicador ADTree de forma simples, será utilizado um exemplo que relacione árvores de decisão convencionais às árvores de decisão alternadas. Para isto considere a árvore de decisão da Figura 2.2. Figura 2.2: Árvore de decisão clássica Na Figura 2.2 pode-se observar uma árvore de decisão tradicional, que possui 3 nós de decisão e 4 folhas de predição, Essa árvore mapeia as instâncias em duas classes diferentes, +1 e -1. A classe de uma instância é atribuída pela folha de predição que está ao nal do caminho que os atributos a1 e a2 da instância em questão irão percorrer pela árvore. Por exemplo, para um objeto cujos atributos sejam é +1, a1 = 4 e a2 = 3, a classe correspondente que é a classe correspondente à folha que está ao nal do caminho percorrido pelos atributos a1 = 4 e a2 = 3. 2.4 Técnicas de Classicação 9 Generalizando a árvore apresentada na Figura 2.2 para uma ADTree pode-se observar a nova árvore na Figura 2.3. Para efetuar a generalização da árvore mantêm-se os nós de decisão, e para cada um dos caminhos que sai de um nó de decisão é associado um nó de predição contendo um valor real, que representa o peso desse caminho. Em seguida, as folhas com os valores das classes são excluídas, e por m a raiz da árvore é representada por um nó de predição, que também contém um peso associado. Figura 2.3: Árvore de decisão alternada De maneira semelhante ao que acontece nas árvores de decisão convencionais, a classe de uma instância é gerada através do caminho percorrido através da árvore. Contudo, nas ADTrees, não se associa a classe de uma instância ao valor de uma folha, mas sim ao sinal obtido pela soma de todos os valores dos nós de predição percorridos da raiz até uma folha da árvore. Para o mesmo exemplo utilizado anteriormente, a1 = 4 e a2 = 3, a classe associada a essa instância será o valor retornado pela função sinal. A função sinal retorna o sinal da soma de todos os de valores presentes nos nós de predição percorridos por uma instância. Logo, para o exemplo citado, sinal(0, 5 + 0, 3 + 0, 6) = sinal(1, 4) = +1, e a classe da instância de exemplo é +1. Ou seja, se a soma dos pesos do caminho denido pelos atributos de uma instância for positiva a classe associada à instância é a classe +1, caso contrário, a classe associada é -1. Note que a ADTree representada na Figura 2.3 produz os mesmos resultados de classicação que a árvore de decisão tradicional representada na Figura 2.2. Isso acontece pois uma árvore de decisão tradicional pode ser representada por várias ADTrees diferentes sem alterar as regras de classicação da árvore original. Pode-se perceber que na árvore de decisão alternada representada na Figura 2.3 cada nó preditor tem no máximo um nó de decisão associado a ele. Na Figura 2.4 é apresentada 2.4 Técnicas de Classicação 10 uma generalização do conceito de ADTrees apresentada na Figura 2.3. Esta generalização permite que um nó preditor possa estar associado a vários nós de decisão, o que permite que, com os valores dos atributos de uma instância, seja possível percorrer múltiplos caminhos na árvore. Figura 2.4: Árvore de decisão alternada genérica Dessa forma, a classicação de uma instância desconhecida é feita da maneira descrita a seguir: o caminho percorrido pela instância começa pela raiz da árvore. Ao atingir um nó de decisão o caminho continua de acordo com a resposta obtida no mesmo e, ao atingir um nó de predição, o caminho continua por todas as alternativas possíveis, subdividindose em múltiplos caminhos. A classe associada a uma instância será fornecida pelo sinal da soma dos valores de todos os nós de predição do conjunto de caminhos percorridos pela instância. Por exemplo, suponha uma instância com os seguintes valores de atributos: e a2 = 3 . a1 = 1, 3 Estes valores de atributos descrevem um conjunto formado por dois caminhos na ADTree representada na Figura 2.4. A classe correspondente a essa instância será o valor de sinal(0, 5 + 0, 3 + 0, 6 − 1, 0) = sinal(0, 4), ou seja, a classe será +1. O conjunto de caminhos percorridos pelos atributos de uma instância em uma ADTree pode ser visto como um conjunto de regras simples. A soma dos valores dos nós de predição presentes em cada um desses caminhos é considerado o peso associado a eles e, dessa forma, o peso associado às regras. Desse modo, uma ADTree também pode ser vista como um conjunto de regras simples reunidas para formar uma regra complexa com maior poder de predição. Quanto maior o peso associado a uma regra simples maior será a inuência que essa regra exercerá na regra complexa e, consequentemente, na árvore de decisão. O processo de agrupar regras simples em uma regra complexa, com maior capacidade 2.5 Random Forests 11 preditiva, chamado de boosting, é utilizado pelo classicador ADTree na construção da árvore de decisão. Para a realização deste processo o ADTree utiliza o algoritmo AdaBoost [40]. A construção de um classicador ADTree é um processo iterativo onde, a cada passo, uma regra simples é adicionada ao conjunto de regras pré-existentes. Cada regra corresponde a uma sub-árvore cuja raiz é um nó de decisão e as folhas são dois nós de predição. Essa sub-árvore é adicionada como lha de um nó de predição que pode ou não ser um nó folha, ou seja, pode-se inserir um nó entre a raiz da árvore e as folhas. A raiz da árvore é um nó de predição, cujo valor reete a distribuição de classes no conjunto de treinamento. Ou seja, se a classe +1 for majoritária no conjunto de treinamento, o valor da raiz da árvore será maior que zero, caso contrário, será menor que zero. Quanto maior for o desbalanceamento entre as classes, maior será o valor absoluto do nó de predição que representa a raiz da árvore. 2.5 Random Forests O classicador Random Forests [6] consiste em um comitê de árvores de decisão ou árvores de regressão, em que cada árvore é construída a partir de um conjunto de treinamento diferente, obtido através de amostragem do conjunto de treinamento original. As predições realizadas por este classicador são feitas através de uma votação entre as árvores do comitê. A geração de cada conjunto de treinamento utilizado na construção de cada uma das árvores é realizada através de uma amostragem aleatória e com reposição do conjunto de treinamento original. Além disso, o conjunto de treinamento utilizado na construção de cada árvore tem tamanho igual ao tamanho do conjunto de treinamento original. Esse tipo de amostragem é chamada de booststrap. Para cada conjunto de treinamento formado através do booststrap cerca de 1/3 das instâncias do conjunto de treinamento original não são utilizadas. Essas instâncias são chamadas de out-of-bag e são utilizadas para se calcular a qualidade de cada árvore e contribuição de cada uma delas para o comitê. O Random Forests, segundo uma denição formal, é um classicador composto por uma coleção de árvores de decisão {h(x, θ1 ), h(x, θ2 ), ..., h(x, θk )} onde, cada θi é um vetor de números inteiros aleatórios que dene quais instâncias do conjunto de treinamento original serão utilizadas no treinamento de cada árvore. Cada uma das árvores h(x, θi ) 2.6 Classicadores Bayesianos 12 vota unicamente para denir a classe da instância x. A classe atribuída a essa instância será a classe mais votada pelo comitê de árvores [6]. Outra característica importante do classicador Random Forests é que, para a criação de cada novo nó de uma árvore um subconjunto de atributos é selecionado aleatoriamente, de forma que a escolha da melhor partição para o nó em questão é feita utilizando-se somente este subconjunto de atributos escolhido. O pseudo-código 1 apresentado a seguir descreve de forma simplicada como o modelo de classicação é construído pelo Random Forests. 1 2 Entrada: T : Conjunto de treinamento original, N: Número de árvores para cada arvorei ∈ N faça Gere um novo conjunto de treinamento do conjunto de treinamento original 3 Construa a 4 Para cada nó da arvorei , utilizando amostragem por bootstrap T; sem poda, utilizando o conjunto de treinamento arvorei , escolha aleatoriamente melhor divisão do nó utilizando os m Algoritmo 1: ti F F ti ; atributos e determine a atributos e o conjunto de treinamento ti ; 5 Pseudo-código da construção do classicador Random Forests Para predizer a classe de uma nova instância x, o classicador Random Forests realiza a votação majoritária entre as classes preditas por cada uma das árvores do comitê para a instância x. 2.6 Classicadores Bayesianos Os classicadores estatísticos conhecidos como classicadores Bayesianos utilizam o teorema de Bayes para calcular a probabilidade de uma instância de um conjunto C = {C1 , C2 , C3 , ..., Cm } se a qual classe do conjunto C X pertencer a cada classe e a partir das probabilidades calculadas deni- a instância X pertence. Serão abordados dois tipos de classicadores Bayesianos: os classicadores Bayesianos simples e as redes Bayesianas. Os classicadores Bayesianos simples consideram que dado um conjunto de valores X = {x1 , x2 , ...xn }, o efeito do valor de um atributo xi dependente dos demais valores de atributos do conjunto em uma determinada classe é in- X. Essa consideração, conhecida como independência condicional, tem como principal objetivo diminuir a quantidade de processamento necessário para o cálculo das probabilidades utilizadas para a tarefa de 2.6 Classicadores Bayesianos 13 classicação. Por outro lado, as Redes Bayesianas permitem modelar correlações e dependências entre os atributos de uma instância para utilizá-las na tarefa de predição. A seguir, antes da apresentação dos classicadores Bayesianos, uma breve revisão sobre Teorema de Bayes é realizada. 2.6.1 Teorema de Bayes Suponha uma instância X, representada por uma tupla de valores de atributos, que representa uma instância qualquer. Em problemas de classicação, deseja-se saber a qual classe de um conjunto de que X C = {C1 , C2 , C3 , ..., Ck } a instância X pertence a uma classe P (H = Ci |X), Ci do conjunto Ci , dada a tupla de valores de atributos de P (H|X), A probabilidade a hipótese X pertencer a uma X. chamada de probabilidade condicional, ou probabilidade à posteriori, que é a probabilidade da variável X. H Deseja-se saber qual é o valor de ou seja, qual é a probabilidade de uma instância determinada classe da variável C. pertence. Seja Já a probabilidade a probabilidade de uma hipótese P (H), H H assumir um determinado valor, dado o valor conhecida como probabilidade à priori, fornece acontecer independentemente de outros eventos. O Teorema de Bayes permite o cálculo da probabilidade condicional P (H|X) através da seguinte equação. P (H = Ci |X) = Na Equação 2.5, lidade da classe Ci P (Ci ), P (X), e P (X|Ci ) × P (Ci ) P (X) P (X|Ci ) (2.5) representam, respectivamente, a probabi- ocorrer no conjunto de dados, a probabilidade de uma instância X ocorrer no conjunto de dados e a probabilidade de uma instância X ocorrer no conjunto de dados condicionada à classe Ci . Todas essas probabilidades podem ser estimadas a partir de um conjunto de dados de treinamento. 2.6.2 Classicador Bayesiano Simples Suponha um conjunto de treinamento formado por conhecidos. Cada instância butos X X = (x1 , x2 , x3 , ..., xn ). Dada uma nova instância J, N instâncias com os rótulos de classe é formada por um vetor n-dimensional de valores de atri- O conjunto de classes é composto por C = {C1 , C2 , ..., Cm }. cuja classe é desconhecida, a classe predita pelo classica- 2.6 Classicadores Bayesianos 14 dor Bayesiano simples para a instância condicional P (Ci |J), J será aquela que obtiver a maior probabilidade essa formulação pode ser expressa pela equação. P (Ci |J) > P (Ch |J) | ∀h, 1 ≤ h ≤ m, h 6= i Ou seja, a classe associada à instância P (Ci |J). Para calcular P (Ci |J) J será aquela que maximizar a probabilidade o classicador Bayesiano simples utiliza o teorema de Bayes, da forma como apresentado na Equação 2.5. priori P (X) (2.6) Nessa equação a probabilidade à é constante para todas as classes, uma vez que a probabilidade de uma instância aparecer no conjunto de treinamento não depende das classes apresentadas no mesmo. Dessa forma, pode-se desconsiderar P (X) e a Equação 2.5 pode ser reescrita da sequinte maneira: P (Ci |X) ∝ P (X|Ci ) × P (Ci ) A probabilidade de cada classe através da fórmula Ci |Ci | , onde N P (Ci ) = no conjunto de treinamento e N (2.7) no conjunto de treinamento pode ser calculada |Ci | é o número de vezes que a classe Ci aparece é a quantidade de instâncias presente nesse conjunto. Uma vez que o classicador Bayesiano simples assume independência condicional entre os atributos, a parcela condicional de Ci P (X|Ci ) pode ser calculada através do produtório da probabilidade dado o valor do atributo xk da instância. O calculo de P (X|Ci ) é dado por: P (X|Ci ) = n Y P (xk |Ci ) (2.8) k=1 = P (x1 |Ci ) × P (x2 |Ci ) × P (x3 |Ci ) × ...P (xn |Ci ) Uma vez calculadas as probabilidades condicionais dos valores de atributos da instância X para todas as classes será aquela Ci Ci do problema em questão, a classe atribuída à instância que obtiver o maior valor de probabilidade X P (Ci |X). 2.6.3 Redes Bayesianas A suposição de independência condicional entre os atributos adotada pelo classicador Bayesiano simples simplica a construção do modelo de classicação e os cálculos das 2.7 Máquinas de Vetor de Suporte 15 probabilidades condicionais utilizadas. Contudo, nem sempre essa suposição é verdadeira e, nesses casos ela pode prejudicar os resultados da classicação. As redes Bayesianas oferecem uma abordagem que permite agregar ao modelo de classicação informações sobre dependências entre subconjuntos de atributos. As Redes Bayesianas oferecem uma representação dos relacionamentos entre um conjunto de variáveis através de dois elementos. O primeiro é um grafo acíclico direcionado, que representa as relações de dependência entre conjuntos de variáveis. Nesse grafo cada nó representa uma variável aleatória e cada aresta representa uma relação de dependência probabilística entre os nós. Se existir uma aresta diretamente de um nó A para um nó B, então A é pai de B, consequentemente B é lho de A. Se existir um caminho no grafo de A para C, então A é ancestral de C, e consequentemente, C é descendente de A. Uma propriedade importante para as Redes Bayesianas é que cada variável é condicionalmente independente de seus não descendentes, dados os seus nós pais. O outro elemento é a tabela de probabilidades condicionais (TPC) associadas a cada variável da rede. A TPC para uma variável X especica a distribuição condicional P(X|Pais(X)), onde Pais(X) são os pais da variável X. Essas variáveis correspondem aos atributos presentes nos dados. Para o treinamento de uma Rede Bayesiana a estrutura da rede pode ser fornecida como entrada ou gerada através dos dados de treinamento. Quando a estrutura da rede é conhecida, o treinamento do modelo de classicação envolve somente o cálculo das probabilidades condicionais para cada variável. Quando a estrutura da rede é desconhecida é necessário encontrar o conjunto de arestas que interliguem as variáveis, ou seja, é necessário denir a topologia da rede. Esse é um problema de otimização discreta e os algoritmos utilizados para a construção da Rede Bayesiana diferem principalmente pela forma como este problema é resolvido. 2.7 Máquinas de Vetor de Suporte A técnica de classicação conhecida como Máquinas de Vetor de Suporte [12] (Support Vector Machines - SVM) surgiu da teoria de aprendizado estatístico. Classicadores que utilizam esta técnica tentam encontrar um hiperplano que divida o espaço de dados entre as diferentes classes de um problema. Pode-se dividir estes classicadores em SVMs lineares e SVMs não lineares. O primeiro grupo resolve problemas cujas classes são linearmente separáveis e, o segundo estende os SVMs lineares para resolver problemas cujas classes não podem ser linearmente separadas. 2.7 Máquinas de Vetor de Suporte 16 2.7.1 SVMs Lineares Um conjunto de dados é denido como sendo linearmente separável se repeitar as seguintes características. Seja o conjunto de dados é associada a uma classe D com ci ∈ {−1, +1}. D n instâncias onde, cada instância de D é considerado linearmente separável se for possível separar os dados das classes -1 e +1 através de um hiperplano. Podem ser construídos diversos hiperplanos que separam as classes. Cada um desses hiperplanos dene uma margem de separação entre as classes do problema. Hiperplanos com margens de separação pequenas tendem a super ajustar o modelo aos dados de treinamento e, com isso, a possibilidade de se classicar erroneamente uma nova instância aumenta. O modelo de classicação de uma SVM linear é construído através da busca do hiperplano que separe as duas classes do problema obtendo a maior margem possível entre as classes, ou seja, que a distância entre as instâncias das classes e o hiperplano seja a maior possível. A esse hiperplano é dado o nome de hiperplano ótimo e o classicador SVM é construído a partir da equação do hiperplano ótimo. A Figura 2.5 representa a separação de duas classes (retângulo e círculo) através de um hiperplano ótimo. Figura 2.5: Representação de um hiperplano ótimo separando duas classes Na Figura 2.5 as instâncias das classes retângulo e círculo que estão cortadas pelas linhas pontilhadas são as instâncias do conjunto de dados de treinamento que possuem a menor distância até o Hiperplano ótimo. Essas instâncias, conhecidas como vetores 2.7 Máquinas de Vetor de Suporte 17 de suporte, serão utilizadas para se determinar a equação do hiperplano que separa as classes. 2.7.2 SVMs Não Lineares Quando um conjunto de dados de interesse não é linearmente separável as SVMs lineares não apresentam uma boa solução para o problema, uma vez que não conseguem separar as classes satisfatoriamente através de um hiperplano. Para os casos de conjuntos de dados não linearmente separáveis as SVMs não lineares aplicam um processo de mapeamento não linear aos dados do conjunto de treinamento. Este processo envolve a aplicação de uma função de transformação que mapeia os dados do conjunto de treinamento do seu espaço original para um espaço de dimensão maior. Este espaço de dimensão maior é chamado de espaço de características. O mapeamento deve satisfazer duas condições: 1) A transformação aplicada deve ser não linear; 2) A dimensão do espaço de características deve ser sucientemente alta para que seja seja possível separar as classes do problema através de um hiperplano Após realizar o mapeamento dos dados de treinamento para o espaço de características é realizado o mesmo procedimento de busca pelo hiperplano ótimo adotado pelos SVMs lineares. Capítulo 3 Vírus da Imunodeciência Humana 3.1 Introdução O Vírus da Imunodeciência Humana (Human Immunodeciency Vírus - HIV) pertencente à família Retroviridae e sub-família Lentivirinae [27]. Os vírus pertencentes à família Lentivirinae são caracterizados pela associação com doenças de imunodeciência ou que envolvem o sistema nervoso central, associadas a um longo período de incubação, antes das manifestações clínicas tornarem-se aparentes [23]. O HIV pode infectar diversos órgãos do corpo humano, contudo o seu alvo principal é sistema imunológico, infectando principalmente os linfócitos T CD4+ [24]. A infecção pelo HIV reduz progressivamente a ecácia do sistema imunológico, levando a um completo colapso do sistema imune, culminando na Síndrome da Imunodeciência Adquirida (SIDA) ou Acquired Immunodeciency Syndrome (AIDS) [49], que é caracterizada por sinais e sintomas constitucionais, caquexia, demência, uma variedade de infecções oportunistas e/ou neoplasias [42]. O HIV é classicado em dois tipos: HIV-1 e HIV-2, sendo o HIV-1 o mais frequente mundialmente. As sequências de HIV-1 têm sido historicamente classicadas, com base em suas relações logenéticas, em grupos e subtipos [36] e desta forma o HIV-1 apresenta três grupos distintos: o grupo M, do inglês major , o grupo O de outlier e o grupo N de new ou non M - non O [45]. A classicação dos subtipos logeneticamente equidistantes é baseada em análises das sequências dos genes env e gag [47] e são identicados por letras alfabéticas [36]. Existem 9 subtipos (A1, A2, B, C, D, F1, F2, G, H, J e K) e 51 formas recombinantes circulantes ou CRF, que correspondem a recombinantes virais que apresentam um genoma mosaico com diferentes subtipos em diferentes regiões genô- 3.2 HIV-1 e seu Ciclo de Multiplicação micas 1 19 [8, 32, 39]. Os grupos N e O estão restritos ao oeste africano. O HIV-2 é composto por sete subtipos e, assim como os grupos N e O, é mais comum no oeste africano [18]. Neste estudo trabalharemos apenas com indivíduos infectados pelo HIV-1. 3.2 HIV-1 e seu Ciclo de Multiplicação O HIV-1 possui um genoma constituído por duas moléculas idênticas de RNA ta simples. Este genoma apresenta nove janelas abertas de leitura correspondentes a três genes principais comuns a todos os retrovírus: gag, pol, env e a seis genes adicionais com função regulatória na replicação viral: tat, rev, nef, vif, vpr, vpu [51]. A Figura 3.1 contém uma representação esquemática do genoma do HIV e da partícula viral. Figura 3.1: Representação do genoma e da partícula viral do HIV-1 O gene gag codica as proteínas da matrix (MA), proteína do capsídeo (CA), nucleocapsídeo (NC) e a proteína p6. O gene env codica as proteínas gp120 (SU ou superfície) e gp41 (TM ou transmembrana). Por sua vez, o gene pol codica as proteínas protease (PR), transcriptase reversa (reverse transcriptase - RT) e integrase (IN). Os produtos dos genes gag e env são componentes estruturais do núcleo e da membrana externa do vírion (párticula viral fora da célula hospedeira). Já as proteínas codicadas pelo gene pol são responsáveis por funções enzimáticas essenciais ao ciclo de replicação do vírus [15]. O ciclo de multiplicação do HIV-1 é constituído por uma sequência de etapas que são reguladas vez por proteínas virais e celulares, que se inicia com a fusão da partícula viral à célula hospedeira até o brotamento e a maturação de uma nova partícula viral. A 1 http://www.hiv.lanl.gov/ 3.2 HIV-1 e seu Ciclo de Multiplicação 20 Figura 3.2 representa o ciclo de multiplicação do HIV-1 de forma simplicada e, a seguir, o ciclo de multiplicação é explicado em detalhes. Figura 3.2: Ciclo de multiplicação do HIV-1 São demonstradas as etapas de adsorção, penetração, transcrição reversa do RNA, síntese, montagem e brotamento das partículas virais. Fonte: [34] O processo de infecção se inicia quando o vírion se liga a uma célula hospedeira através de interações com a proteína gp120 e o receptor celular CD4, em conjunto com um coreceptor CCR5 ou CXCR4. Uma vez que essa ligação é realizada com sucesso, formando o complexo CD4/gp120/co-receptor, promove uma alteração conformacional adicional na gp120 que leva à exposição do domínio de fusão, presente na gp41, e consequentemente à inserção na membrana da célula alvo, promovendo assim a fusão das membranas celulares e viral. Posteriormente ocorre à liberação do conteúdo viral no citoplasma [50, 16, 3]. Uma vez no citoplasma, o capsídeo é dissolvido pelas enzimas do hospedeiro, liberando o RNA viral e as proteínas MA, RT, IN e Vpr. Esse complexo de proteínas é levado para o núcleo da célula hospedeira e neste momento a proteína RT faz a transcrição do RNA viral em uma molécula de DNA viral, que será integrada ao genoma do hospedeiro, em uma reação processada pela integrase. O DNA viral integrado, conhecido como provírus, serve como molde para a síntese de RNAs virais, que são transportados para o citoplasma. O provírus é geralmente quiescente e se replica coordenadamente com o DNA da célula hospedeira. 3.3 Tratamentos Contra a Infecção por HIV 21 Quando a célula infectada com HIV sofre ativação ou estimulação, o provírus é transativado resultando na produção e liberação de vírions infecciosos. Uma vez que o DNA viral foi integrado ao genoma celular, o vírus pode se manter em estado latente por diversos anos. Contudo, uma vez que o vírus se torna ativo ele utiliza a RNA polimerase para criar cópias do genoma viral e mRNAs. O RNA e os mRNA são transportados para o citoplasma, onde os mRNAs utilizam o maquinário celular para produzir as proteínas virais. As proteínas dos genes gag e gag-pol são geradas como poliproteínas e serão processadas posteriormente. As proteínas, juntamente com o RNA viral, são transportados para a membrana celular, onde juntamente com outras proteínas serão montados e brotarão do hospedeiro como um novo vírion imaturo, que não é capaz de infectar outras células. O processo de maturação envolve o processamento das poliproteínas Gag e Gag-Pol pela PR, que realiza a clivagem dessas poliproteínas que então são remontadas para gerar um vírion estruturado e maduro, capaz de infectar outras células e reiniciar o ciclo de multiplicação do HIV-1. 3.3 Tratamentos Contra a Infecção por HIV As drogas desenvolvidas para combater a infecção são chamadas de antirretrovirais e, geralmente, têm como alvo determinadas fases do ciclo de multiplicação do vírus. Uma vez que o HIV é um vírus da família Retroviridae, um dos primeiros esforços no desenvolvimento de drogas antirretrovirais teve seu foco na busca de um composto capaz de interromper o funcionamento da proteína Transcriptase Reversa e consequentemente o ciclo de multiplicação do HIV-1. Em [30] foi demonstrado que a droga Azidotimidina (AZT), também conhecida como Zidovudina, primeiramente utilizada como potencial droga no combate ao câncer, era capaz de inibir a transcrição reversa e a replicação in vitro. Desde 1985, quando foi observado o potencial uso do AZT como antirretroviral, até hoje, foram desenvolvidos antirretrovirais visando diferentes fases do ciclo de multiplicação do HIV-1. Atualmente, existem 23 drogas antirretrovirais aprovadas pelo FDA (Food and Drug Administration ), que é o departamento de Controle de Drogas e Alimentos dos Estados Unidos. Os antirretrovirais estão divididos em 6 grupos, de acordo com o alvo molecular da droga e o mecanismo de ação da mesma. Os antirretrovirais atacam 5 alvos moleculares que dizem respeito a estágios diferentes do ciclo de replicação do HIV-1. No primeiro grupo encontram-se os agentes antivirais de maior sucesso e mais comu- 3.3 Tratamentos Contra a Infecção por HIV 22 mente utilizados: análogos nucleosídios ou inibidores nucleosídios da transcriptase reversa (NTRI, do inglês, Nucleoside Reverse Transcriptase Inhibitors ), que são desoxinucleotídeos modicados que se ligam a uma molécula de DNA viral que está sendo sintetizada causando uma terminação prematura da cadeia de DNA. Uma vez que a função de replicação do ácido nucleico da célula normal pode também ser um alvo, esses fármacos via de regra exibem algum grau de toxicidade ao hospedeiro. Com o tempo, muitos deles perdem sua potência antiviral em virtude do surgimento de vírus resistentes a eles [28]. O segundo grupo, chamado de Inibidores não Nucleosídicos da Transcriptase Reversa (Non Nucleoside Reverse Transcriptase Inhibitors - NNRTI), inclui drogas que se ligam à transcriptase reversa e prejudicam a mobilidade de determinados domínios da proteína, impedindo a síntese do DNA. O terceiro grupo de drogas, Inibidores de Protease (PIs), impedem a replicação viral pela ligação ao sítio ativo da protease do HIV, inibindo o processamento de grandes proteínas virais em seus componentes individuais, impedindo a maturação do vírus. O quarto grupo de drogas, conhecidos como Inibidores de Fusão, se ligam à proteína gp41 evitando que o vírus se ligue a células hospedeiras. O quinto grupo de drogas são os Antagonistas CCR5, que se ligam à bolsa hidrofóbica formada pelas hélices de transmembrana do co-receptor CCR5 bloqueando a superfície celular receptora e impedindo que o vírus entre na célula [7]. Por m, o sexto grupo são os Inibidores de Integrase, uma classe de drogas projetada para impedir a ação da proteína integrase. A Tabela 3.1 apresenta a lista do 23 antirretrovirais aprovados pelo FDA. Apesar dos esforços no desenvolvimento de drogas antirretrovirais, a ecácia dessas drogas muitas vezes é comprometida pelo surgimento de fenótipos virais resistentes aos medicamentos. O surgimento desses fenótipos é resultante da incapacidade de reparo de leitura do genoma viral pela Transcriptase Reversa. Desta forma, há um surgimento espontâneo de mutações que podem conferir ao vírus resistência as drogas antirretrovirais [29]. A taxa elevada de replicação do HIV e sua inerente variabilidade genética são fatores que levam à identicação de variantes virais que apresentam susceptibilidade alterada às drogas. De acordo com os dados do Los Alamos National Laboratory, 2007, foram listadas 947 mutações relacionadas à resistência a drogas, dos quais 37 ocorrem no Gag, 321 na protease, 9 na integrase, 374 na RT e 206 no Env. Estas mutações descritas são predominantemente encontradas no subtipo B e não em outros genótipos do HIV-1 [10]. Estudos demonstram que quando apenas um antirretroviral é utilizado no tratamento de um paciente podem surgir fenótipos virais resistentes ao antirretroviral utilizado [2]. Essa resistência implica na replicação eciente do vírus, mesmo na presença do antirre- 3.3 Tratamentos Contra a Infecção por HIV 23 Tabela 3.1: Drogas antirretrovirais aprovadas pelo FDA Classe de Antirretroviral Inibidores Nucleosídicos da Transcriptase Reversa Inibidores Não Nucleosídicos da Transcriptase Reversa inibidores de Protease Nome Genérico Data de Aprovação Delavirdina (DLV) Abril, 1997 Rilpivirina (RPV) Maio, 2011 Saquinavir (SQV) Dezembro, 1995 Efavirenz (EFV) Setembro, 1998 Etravirinea(ETR) Janeiro, 2008 Nevirapina(NVP) Junho, 1996 Abacavir (ABC) Dezembro, 1998 Didanosina (ddl) Outubro, 1991 Emtricitabina (FTC) Julho, 2003 Lamivudina (3TC) Novembro, 1995 Estavudina (d4T) Junho, 1994 Tenofovir DF (TDF) Outubro, 2001 Zidovudina (ZDV, AZT) Março, 1987 Atazanavir (ATV) Junho, 2003 Darunavir (DRV) Junho, 2006 Fosamprenavir (FPV) Outubro, 2003 Indinavir (IDV) Março, 1996 Nelnavir (NFV) Março, 1997 Ritonavir (RTV) Março, 1996 Saquinavir (SQV) Dezembro, 1995 Tipranavir (TPV) Junho, 2005 Inibidor de Fusão Enfuvirtida (T-20) Março, 2003 Antagonistas CCR5 Maraviroc (MVC) Agosto, 2007 Inibidores de Integrase Raltegravir (RAL) Outubro, 2007 3.3 Tratamentos Contra a Infecção por HIV 24 troviral [44, 38]. Uma alternativa para solucionar este problema é a utilização da Terapia Antirretroviral Altamente Ativa (Highly Active Antirretroviral Therapy - HAART), que consiste na combinação de antirretrovirais de diferentes grupos no mesmo tratamento, de forma a inibir mais de uma fase do ciclo de replicação do HIV. Em [41] demonstrou-se que a utilização da HAART pode diminuir a quantidade de partículas virais de um indivíduo a níveis indetectáveis. Já em [14] os autores demonstraram que com este tipo de tratamento o paciente leva um tempo muito maior para desenvolver resistência às várias drogas utilizadas no tratamento. O uso da Terapia Antirretroviral Altamente Ativa tem reduzido consideravelmente a morbidade e mortalidade entre os pacientes infectados com HIV. Porém, o sucesso do tratamento é frequentemente limitado pela emergência de HIV resistente a drogas durante a terapia. Um fato importante é que vírus resistentes podem ser transmitidos a indivíduos recém-infectados. A transmissão destes vírus resistentes a drogas antirretrovirais é uma das maiores preocupações em saúde pública, visto que pode levar à situação na qual não haverá drogas efetivas disponíveis para o tratamento do HIV [48]. A utilização de sequências de HIV-1 para inferir a susceptibilidade a drogas e a probabilidade de resposta à terapia é idealmente realizada por sistemas computacionais especializados, auxiliando os médicos na condução do tratamento. Estudos prospectivos têm demonstrado que os pacientes cujos médicos têm acesso a dados de resistências às drogas, particularmente dados de resistência genotípica, respondem melhor a terapia do que os pacientes controles cujos médicos não tem acesso aos mesmos dados [44]. Esse tipo de informação pode ser utilizado para auxiliar a escolha de drogas as quais o vírus de um determinado paciente não possua resistência. Desta forma, a utilização da bioinformática com ferramentas que tentem predizer a resposta de um paciente a um determinado tratamento com antirretrovirais, ou mesmo que auxiliem no processo de escolha de tratamentos, poderá beneciar os pacientes, médicos e pesquisadores, permitindo um melhor entendimento da correlação entre genótipo e tratamento antiviral. Capítulo 4 Predição da Resposta de Pacientes ao Tratamento com Drogas Antirretrovirais 4.1 Introdução A infecção pelo HIV e, consequentemente, a AIDS, é um problema de saúde pública de grande magnitude e oferece inúmeros desaos cientícos em diversas áreas do conhecimento. Nas áreas de Biologia e Bioinformática muitos esforços têm sido realizados tanto para compreender os diversos aspectos relacionados com a infecção pelo HIV [49, 29, 33] como no desenvolvimento de novas drogas [46, 13] ou de mecanismos para torná-las mais ecazes. Um problema frequente no tratamento da infecção pelo HIV é o surgimento de fenótipos virais resistentes ao tratamento antirretroviral administrado a um paciente. Por esse motivo, é importante saber a quais drogas um paciente possui resistência para utilizar essas informações no processo de escolha de um tratamento antirretroviral que resulte num controle satisfatório infecção e, consequentemente, retardar o surgimento de um fenótipo viral resistente ao tratamento corrente. Desse modo, se torna desejável a utilização de ferramentas computacionais que possam predizer a resposta de um paciente a um determinado tratamento com antirretrovirais. Alguns trabalhos apresentados na literatura já abordaram o problema da predição da resposta de pacientes ao tratamento com drogas antirretrovirais [37, 1, 52]. Nesses trabalhos foram desenvolvidas ferramentas que utilizam técnicas de classicação e regressão logística para predizer o resultado de um determinado tratamento antirretroviral. Em [52], os autores formularam a hipótese de que o resultado de tratamento administrado a um paciente é inuenciado tanto pelo genoma do hospedeiro quanto do vírus que o infecta. 4.2 Trabalhos Relacionados 26 Apesar de as soluções já apresentadas na literatura terem obtido resultados promissores para o problema de predição, na maioria dos trabalhos em questão não são apresentados detalhes sobre que inuência diferentes tipos de atributos exercem no resultado nal da predição. Esse tipo de análise foi realizada apenas em [1], porém a base de dados utilizada pelos autores e os atributos extraídos da mesma são diferentes da base de dados e dos atributos utilizados neste trabalho. No presente trabalho o problema da predição da resposta de pacientes ao tratamento com antirretrovirais é abordado com enfoque na avaliação dos atributos utilizados para a predição. A base de dados utilizada contém registros de pacientes recém infectados pelo HIV-1 que não receberam nenhum tratamento prévio para essa doença. Além disso não há na base de dados utilizada nenhuma informação sobre quais drogas são administradas para cada paciente. Na seção 4.2 serão apresentados os trabalhos relacionados ao problema de predição da resposta de pacientes às drogas antirretrovirais. Em seguida uma descrição detalhada sobre a base de dados utilizada na realização deste trabalho é apresentada na Seção 4.3. 4.2 Trabalhos Relacionados Predizer a resposta de um tratamento antirretroviral administrado a um paciente é um problema que tem sido abordado por uma série de trabalhos de bioinformática. Geralmente esses trabalhos têm como objetivo a criação de ferramentas computacionais que auxiliem na escolha de um conjunto de drogas para compor um coquetel de tratamento. A necessidade de pesquisas sobre o tema e o desenvolvimento de tais ferramentas surge devido às diculdades que os especialistas encontram para escolher o tratamento mais adequado para cada paciente, uma vez que essa escolha envolve um número muito grande de variáveis, tais como, as diferentes possibilidades de combinações de drogas, os fatores clínicos de cada paciente, as mutações do vírus HIV presente no organismo do paciente, as drogas às quais o paciente apresenta resistência, dentre outros. A seguir são descritos alguns trabalhos que foram propostos para tratar do problema da predição da resposta de um paciente à terapia antirretroviral e auxiliar na tomada de decisão sobre a escolha de um tratamento. Em [37] os autores utilizaram um conjunto de modelos de predição colaborando entre si para otimizar a escolha de uma terapia antirretroviral para um paciente. Experimentos foram conduzidos com dados extraídos do banco de dados integrado EuResist(EIDB), que 4.2 Trabalhos Relacionados 27 contém genótipos HIV e dados clínicos de respostas a terapias antirretrovirais. Uma das principais características desse trabalho é que os modelos de predição foram treinados com dois tipos de bases de dados, a primeira contendo somente informações genotípicas dos pacientes e os tratamentos administrados ao mesmo e, a segunda, formada por todos os atributos da primeira base juntamente com outros dados como, o históricos de tratamentos anteriores dos pacientes, idade, sexo, dados demográcos, contagem da carga viral e de células T CD4+, dentre outros. Apesar de o modelo de predição utilizado ser treinado com as duas bases de dados, ao utilizar o modelo gerado para se predizer a resposta de um tratamento para um novo paciente não é necessário informar os dados que foram adicionados à segunda base de dados. O modelo nal de predição consiste em um conjunto de três modelos diferentes. Cada modelo é formado por uma camada de geração e seleção de atributos e uma camada de regressão logística utilizada para predição. Os modelos utilizados são chamados de Evolutivo, Gerador Discriminativo e um Modelo de Mistura de Efeitos. O modelo Evolutivo utiliza atributos de mutação e históricos de tratamento juntamente com um tipo de atributo que quantica, para cada droga, qual é a possibilidade do surgimento de mutações no vírus presente no organismo do paciente que o tornem resistente à droga em questão. O modelo Gerador utiliza redes Bayesianas para modelar a interação entre as drogas presentes no histórico de tratamento de um paciente. Por m, o Modelo de Mistura de Efeitos utiliza como atributos as interações possíveis entre mutações e drogas antirretrovirais em conjunto com atributos de mutações, fatores clínicos dos pacientes, informações demográcas e o histórico de tratamento de cada paciente. O modelo nal de predição gerado pode ser utilizado para auxiliar na seleção de tratamentos antirretrovirais para um paciente. Além disso, é possível observar mutações presentes nas sequências de Protease, Transcriptase Reversa e Integrase, bem como uma estimativa do nível de resistência de um paciente às drogas antirretrovirais. Os autores disponibilizam uma ferramenta online que pode ser acessada em http://engine.euresist.org/. Em [1] foram utilizados diferentes grupos de atributos na resolução do problema da predição da resposta de um paciente ao tratamento com drogas antirretrovirais. A avaliação da resposta dos pacientes foi realizada para cada episódio de troca de tratamento, ou seja, o momento em que o paciente deixa de usar um conjunto de drogas para utilizar outro. Foram utilizados 5 grupos diferentes de dados extraídos a partir do genótipo viral dos pacientes. O primeiro conjunto de dados, identicado como Indicador, contém atributos relacionados à presença de mutações no HIV e às drogas utilizadas no trata- 4.2 Trabalhos Relacionados 28 mento. Todos os demais conjuntos de dados incluem também os atributos presentes no grupo Indicador. O segundo grupo de atributos, chamado Fenótipo, contém um indicador fenotípico de resistência antirretroviral, este indicador é calculado para cada droga em particular de acordo com o método apresentado em [4]. O terceiro grupo de atributos, chamado Atividade, contém atributos que fornecem uma estimativa do quanto um coquetel antirretroviral será efetivo contra a infecção de um paciente. O quarto grupo de atributos, chamado Barreira Genética, fornece a probabilidade do surgimento de um fenótipo viral resistente a um medicamento. Por m, o quinto grupo de atributos, denominado Contagem de Progressão Genética (Genetic Progression Score - GPD), fornece o tempo esperado para o surgimento de um determinado padrão de mutação. Foram utilizados seis métodos de aprendizagem de máquina diferentes na avaliação de cada um dos grupos. Os resultados da predição demonstraram que os grupos Fenótipo, Atividade, Barreira Genética e GPD alcançaram melhores resultados de predição que o primeiro grupo (Indicador ). Os melhores resultados foram obtidos a partir dos grupos Fenótipo e Barreira Genética. A diferença de resultados entre os diferentes classicadores não foi signicativa, levando os autores à conclusão de que o principal fator para o sucesso da predição é a escolha do conjunto de dados de entrada, e não do algoritmo a utilizado. Ao nal deste trabalho, os autores desenvolveram uma ferramenta computacional para auxiliar na seleção de tratamentos antirretrovirais para um paciente. chamada THEO 1 Essa ferramenta, (THErapy Optimizer ) pode ser acessada livremente para propósitos de pesquisa. No trabalho proposto em [52], os autores têm como objetivo vericar a veracidade da hipótese de que a resposta de um paciente ao tratamento com drogas antirretrovirais é inuenciada tanto pelo genoma do hospedeiro quanto do vírus HIV. Para isto os autores supõem que, em seu processo de mutação, o HIV preserva pequenas sequências de proteínas, chamadas motivos lineares. Os autores formularam a hipótese de que a presença de motivos lineares no genoma do HIV que sejam comuns a motivos lineares do genoma humano podem inuenciar a resposta de um paciente ao tratamento administrado. Os dados utilizados nos experimentos realizados nesse trabalho foram retirados do Banco de Dados de HIV da Universidade de Stanford. A base utilizada é formada por dados de 2019 pacientes. Para a tarefa de predição da resposta dos pacientes às drogas antirretrovirais os autores utilizaram um método de regressão logística que efetua uma etapa anterior de seleção de atributos. 1 http://www.geno2pheno.org 4.3 Base de Dados Original 29 Através dos resultados obtidos na predição da resposta dos pacientes às drogas antirretrovirais e da etapa de seleção de atributos os autores demonstraram que a utilização de determinados motivos lineares presentes tanto na sequência da Transcriptase Reversa do vírus quanto no genoma humano, contribuiu para aumentar o poder preditivo dos métodos utilizados. Os autores identicaram também duas posições de mutação na Transcriptase Reversa que se mostraram bons indicadores de resposta negativa em pacientes que utilizam apenas um medicamento na composição do seu tratamento. Contudo, estes atributos de mutação não se mostraram bons indicadores de resposta em pacientes que utilizam uma terapia HAART. 4.3 Base de Dados Original A base de dados original, que posteriormente foi processada para gerar as bases utilizadas 2 nos experimentos computacionais realizados neste trabalho, foi obtida no website Kaggle , que disponibilizou essa base para uma competição de bioinformática. Originalmente ela 3 foi montada a partir da base de dados de HIV da Universidade de Stanford . Essa base contém dados de 1692 pacientes que haviam contraído o vírus HIV-1 e no momento da coleta dos dados ainda não haviam recebido qualquer tipo de tratamento. Um tratamento é denido como a administração de uma ou mais drogas a um paciente com o objetivo de diminuir a carga viral do mesmo. Os paciente passaram a receber o tratamento após a coleta de dados. Cada instância da base de dados contém os seguintes atributos para um paciente: • A sequência de nucleotídeos da Transcriptase Reversa (Reverse Transcriptase RT) do vírus que ele contraiu; • A sequência da nucleotídeos da Protease (PR) do vírus que ele contraiu; • A contagem de células CD4+ em 1 mL de sangue; • A carga viral (Viral Load -VL) no mesmo mL de sangue; • A resposta ao tratamento com drogas antiretrovirais. O atributo classe é o atributo de resposta ao tratamento, que indica se o paciente obteve ou não progresso no tratamento admininstrado após a coleta dos dados. Para essa 2 3 http://www.kaggle.com http://hivdb.stanford.edu/ 4.3 Base de Dados Original 30 base de dados considera-se que houve um progresso se após de 16 semanas de tratamento tiver ocorrido uma redução de 100 vezes na carga viral de um paciente com drogas antiretrovirais. Das 1692 instâncias da base de dados, 552 correspondem a pacientes que responderam positivamente ao tratamento administrado (atributo classe com valor igual a 1) e as outras 1140 estão relacionadas com pacientes que não responderam ao tratamento (atributo classe com valor igual a 0). Desse modo, a base de dados contém 67,4% de instâncias cujo atributo classe tem valor igual a 0 e 32,6% de instâncias cujo atributo classe tem valor igual a 1. Os atributos de protease (PR) e transcriptase reversa (RT) são formados por sequências de nucleotídeos que são representadas por cadeias formadas pelas letras A, C, G e T, as quais representam os nucleotídeos Adenina, Citosina, Guanina e Timina, respectivamente. Esses atributos têm uma grande probabilidade de conter diferenças de uma instância para a outra, dado que o HIV possui uma alta taxa de mutação. Desse modo, em instâncias diferentes, podemos ter sequências de tamanhos diferentes e formadas por combinações distintas de nucleotídeos. O formato dessa base de dados original é apresentado na Figura 4.1. PR CCTCAAATCACTTGTGCC... CCTCGGTTCACTCTTGCA... CCTCAACTCTTTGGCACC... . . . CCTCGGTTCACTCTTGGC... RT CCCGTTAGCCATGC... CCCATCAACTGCCA... CCCATCAGTCCTGC... . . . CCCATCAAATGCCA... CD4 VL(log ) Resposta 256 500 1231 . . . 120 6,4 1,5 3,2 . . . 4,5 10 1 0 0 . . . 0 Figura 4.1: Base de dados original. Para a resolução do problema de classicação abordado neste trabalho foram adotados os seguintes passos. Inicialmente foram extraídos, para cada paciente, uma série de atributos das sequências de nucleotídeos da Protease e da Transcriptase Reversa do vírus. Uma vez extraídos, esses atributos foram agrupados em diferentes bases de dados de acordo com o seu signicado biológico. A qualidade de cada grupo de atributos foi avaliada a partir dos resultados de classicação obtidos para cada uma das bases de dados construídas. Em um segundo momento técnicas de seleção de atributos foram aplicadas a uma base de dados que compreende todos os atributos utilizados no presente trabalho. Outras duas bases foram geradas e avaliadas. O capítulo a seguir apresenta todos os detalhes dos experimentos conduzidos neste trabalho. Capítulo 5 Experimentos Computacionais 5.1 Pré-processamento da Base Original 5.1.1 Extração de Atributos A grande quantidade de nucleotídeos que representam a RT e a PR dos vírus e a variação do tamanho das sequências em instâncias diferentes da base nos impõem a realização de um pré-processamento dessas sequências para a obtenção de um conjunto uniforme de atributos que possa ser utilizado na tarefa de classicação. Sendo assim, um pré-processamento das sequências de RT e PR foi realizado para extração dos atributos que foram utilizados na tarefa de classicação. 1 O web service Sierra , da Universidade de Stanford, foi utilizado para a extração dos atributos. Esse web service nos fornece acesso ao algoritmo HIVdb[26] e, por meio da sua interface, aceita a submissão das sequências de RT e PR, retornando um XML com as seguintes informações: • O subtipo do vírus; • Mutações encontradas nas sequências submetidas; • O tamanho das sequências; • A similaridade destas com uma sequência de consenso . 2 http://sierra2.stanford.edu/sierra/html/webservices/index.shtml As sequências de consenso utilizadas para cada subtipo são derivadas de um alinhamento com as sequências do subtipo correspondente mantidas no Banco de Dados de Sequências de HIV de Los Alamos(hiv-web.lanl.gov). Sequências de consenso são referências comumente utilizadas para a comparação de sequências. 1 2 5.1 Pré-processamento da Base Original • 32 Os valores de nível de resistência de um paciente a cada uma das 19 drogas (inibidoras de PR e RT) aprovadas pelo Food and Drug Administration (FDA) e registradas no banco de dados utilizado. A estrutura do XML retornado pelo web service Sierra pode ser observada no Anexo A. A partir das informações contidas no XML gerou-se uma nova base de dados, substituindose as sequências de PR e RT pelos atributos extraídos. A Figura 5.1 apresenta o formato da base de dados gerada após o pré-processamento das sequências de RT e PR. Além dos atributos CD4, VL e Resposta, contidos na base de dados original, essa base possui os seguintes atributos extraídos da sequências de RT e PR: subtipo de vírus, o tamanho das sequências de Transcriptase Reversa (TRT ) e Protease (TP R ), a similaridade das sequências de Transcriptase Reversa (SRT ) e de Protease (SP R ), as mutações (M1 até Mn ) presentes nas sequências e, por m, os valores de nível de resistência de um paciente aos medicamentos antirretrovirais (N1 até Nk ). Para o atributo Resposta O VALOR 1 indica que o paciente obteve resposta positiva ao tratamento e, o valor 0 indica que o paciente não obteve resposta ao tratamento. Subtipo B B . . . B TRT 270 212 . . . 212 TP R 99 99 . . . 99 SRT 98 97,6 . . . 97,6 SP R 95 92 . . . 92 M1 0 0 . . . 0 ... ... ... . . . ... Mn 1 0 . . . 0 N1 ... Nk 15 ... 60 15 ... 45 . . . . . . . . . 15 ... 45 CD4 234 294 . . . 294 VL Resposta 2,3 0 1,3 1 . . . . . . 1,3 1 Figura 5.1: Base de dados após extração de atributos As características da base de dados referentes aos grupos de atributos extraídos a partir das sequências de RT e PR são apresentadas na Tabela 5.1. O atributo subtipo indica qual é o subtipo do vírus presente no paciente. O tamanho das sequências indica quantos aminoácidos cada uma das sequências (RT e PR) contém. Esse atributo for- nece informação sobre qual tipo de mutação aconteceu em uma sequência. Por exemplo, se uma sequência de RT é maior que a sequência de consenso utilizada, é provável que essa sequência tenha sofrido mutações de inserção, ou seja, que nucleotídeos tenham sido inseridos ao longo da sequência. O atributo de similaridade apresenta o percentual de semelhança da sequência em relação a uma sequência de consenso, o que pode ser utilizado para determinar o seu grau de mutação. Os atributos de mutação são binários, de forma que o valor 1 representa que o vírus presente no paciente possui uma determinada mutação e o 0 indica que o vírus não possui aquela mutação. Por m, os atributos de 5.2 Organização dos Experimentos 33 nível de resistência informam o grau de resistência de um paciente a um determinado medicamento. Os níveis de resistência às drogas antirretrovirais fornecidos pelo web service Sierra são calculados através de informações de resistência à drogas antirretrovirais observadas clinicamente juntamente com informações de resistência relatadas na literatura, mais detalhes sobre este procedimento podem ser observados em [35]. Para os atributos de nível de resistência quanto maior o valor do atributo, maior o nível de resistência a uma droga antirretroviral e, portanto, menor a ecácia da mesma no tratamento. Tabela 5.1: Características da base de dados após a extração de atributos. Grupos de Atributos Quantidade Subtipo Mutação Nível de resistência Tamanho Similaridade 1 386 19 2 2 Tipo Discreto {B,C,F etc.} Binário Numérico Numérico Numérico A partir deste ponto, todas as referências à base de dados estarão considerando a base obtida após o pré-processamento das sequências de RT e PR (ver Figura 5.1). 5.1.2 Valores Ausentes de Atributos Como 80 das 1692 instâncias da base de dados não continham a sequência da PR do vírus, com o pré-processamento das sequências de RT e PR para extração dos atributos, não foi possível denir os valores de todos os atributos listados na Tabela 5.1 para essas instâncias. Desse modo, após o pré-processamento, 80 instâncias caram com valores ausentes para alguns atributos. Para resolver esse problema adotou-se uma abordagem supervisionada, onde o preenchimento dos valores ausentes foi realizado com a média dos valores existentes nas demais instâncias da base. Para os atributos numéricos utilizou-se a média aritmética obtida e, para os atributos binários, adotou-se o valor 0 sempre que a média aritmética foi menor que 0,5 e o valor 1 sempre que a média foi maior ou igual a 0,5. 5.2 Organização dos Experimentos Como um dos objetivos deste trabalho é investigar quais grupos de atributos extraídos das sequências de RT e PR geram os melhores resultados na tarefa de predição da resposta 5.2 Organização dos Experimentos 34 de um paciente ao tratamento com drogas antirretrovirais, experimentos com quatro técnicas de classicação foram realizados com bases de dados contendo diferentes grupos de atributos. As bases de dados utilizadas nos experimentos foram geradas juntando-se os atributos de contagem de células CD4+ (CD4) e carga viral (VL) dos pacientes aos grupos de atributos extraídos a partir das sequências de RT e PR do vírus (ver Tabela 5.1). Desse modo, foram criadas 5 bases de dados (uma para cada grupo de atributos listado na Tabela 5.1 e uma contendo todos os grupos de atributos). Vale ressaltar que o atributo subtipo do vírus não foi utilizado nas bases geradas pelo fato de quase todas as instâncias (98,7%) estarem associadas ao subtipo B, o que torna esse atributo pouco relevante para a tarefa de classicação. A Tabela 5.2 apresenta o nome das bases geradas e especica o conjunto de atributos utilizado em cada uma delas. Tabela 5.2: Características das bases de dados geradas. Base Atributos MutBD Mutações encontradas nas sequências de RT e PR + VL + CD4 NivBD Níveis de resistência aos antirretrovirais + VL + CD4 SimBD Similaridade das sequências de RT e PR + VL + CD4 TamBD Tamanho das sequências de RT e PR + VL + CD4 CompBD Mutações + Níveis de resistência + Similaridades + Tamanhos + CD4 + VL Com essas cinco bases de dados geradas é possível avaliar para diferentes classicadores: • Qual(is) grupo(s) de atributos proporciona(m) o melhor desempenho dos classicadores. • Se bases que utilizam um único grupo de atributos apresentam melhor desempenho na classicação do que a base completa (CompBD). A avaliação comparativa das bases de dados foi realizada com quatro técnicas de classicação comumente utilizadas em trabalhos de bioinformática: ADTree [17], Random Forests [6], Redes Bayesianas [11] e Support Vector Machines [12]. Os experimentos envolvendo as técnicas ADTree, Random Forests, Redes Bayesianass e Support Vector Machines foram conduzidos utilizando-se os algoritmos ADTree, Ran- domForest, BayesNet e LibSVM, respectivamente, implementados na ferramenta Weka (versão 3.6) [20]. Os experimentos foram realizados em uma máquina Intel i5-M450 2.4GHz, 4Gb de memória RAM. 5.2 Organização dos Experimentos 35 As execuções desses algoritmos foram realizadas com os seguintes parâmetros. No caso do ADTree, o parâmetro numOfBoostingIteration, relacionado ao número de iterações de boosting que o algoritmo utiliza na construção da árvore, foi congurado com valores de 1 até 30 e, para o parâmetro searchPath, que diz respeito à estratégia de busca utilizada na construção da árvore, utilizou-se as estratégias Expandir todos os caminhos possíveis na árvore e Expandir o melhor caminho utilizando a métrica Z-pure. Para o RandomForest, o parâmetro numTrees, que corresponde ao número de árvores utilizadas na construção do modelo, foi variado de 10 até 500. Para o algoritmo BayesNet a opção Estimador Simples foi escolhida para o parâmetro estimator, que é utilizado no cálculo das tabelas de probabilidade condicional e, o algoritmo Busca Tabu foi adotado para o parâmetro searchAlgorithm. Por m, para o LibSVM, os parâmetros cost e gamma foram obtidos a partir de uma busca em grid no espaço de possibilidades de valores que esses dois parâmetros podem assumir. A partir dessa busca foi denido o valor 0,031 para o parâmetro gamma e três valores para o parâmetro cost : 8, 16 e 32. Para cada classicador, os resultados dos experimentos apresentados nas seções seguintes sempre são relativos ao conjunto de parâmetros que obteve a melhor média de resultado. Por exemplo, se o melhor resultado médio de acurácia para o classicador Random Forests foi obtido com o parâmetro numTrees igual a 100, foram comparados os resultados obtidos por todas as bases para essa mesma conguração de parâmetro. O desempenho dos classicadores foi obtido utilizando-se a k =10), sendo as partições geradas de modo aleatório. k -validação cruzada (com Desse modo, para cada base de dados, os valores das medidas de desempenho dos classicadores correspondem às médias dos valores obtidos em cada uma das partições. Vale ressaltar que as instâncias que compõem cada partição são exatamente as mesmas para todas as bases de dados utilizadas nos experimentos deste trabalho, ou seja, o que muda numa partição de uma base de dados para outra são apenas os atributos utilizados para caracterizar as instâncias. Além de avaliar o desempenho dos classicadores para a base completa (CompBD) e para as quatro bases que contêm um único grupo de atributos extraídos das sequências de RT e PR (MutBD, NivBD, SimBD e TamBD), decidiu-se também realizar experimentos com bases de dados que foram construídas a partir da aplicação de técnicas de seleção de atributos na base completa (CompBD). Nesse caso, as bases de dados geradas contêm atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1. Dado o desbalanceamento de classes das bases de dados adotadas para a realização deste trabalho e o fato de a literatura da área já ter demonstrado que esse desbalan- 5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 36 ceamento pode inuenciar negativamente o resultado da tarefa de classicação [21], foi realizada uma avaliação do impacto do desbalanceamento de classes das bases no desempenho dos classicadores. A apresentação dos resultados dos experimentos conduzidos neste trabalho será feita da seguinte forma. A avaliação do impacto do desbalanceamento de classes das bases no desempenho dos classicadores é apresentada na Seção 5.3. Em seguida, os resultados da avaliação comparativa das bases de dados listadas na Tabela 5.2 são apresentados na Seção 5.4. Por m, a Seção 5.5 apresenta os resultados dos testes conduzidos com as bases de dados construídas a partir da aplicação de técnicas de seleção de atributos à base CompBD. 5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados Nesta seção serão apresentados os resultados dos experimentos realizados para a avaliação do impacto do desbalanceamento das bases de dados no desempenho dos classicadores. As bases de dados adotadas para a realização deste trabalho possuem 1140 instâncias da classe 0 e 552 instâncias da classe 1. Para a realização dos experimentos, essas bases de dados foram balanceadas utilizando-se o algoritmo SMOTE (Synthetic Minority Oversampling Technique )[9]. A avaliação do impacto do desbalanceamento foi realizada comparando-se os resultados de desempenho dos classicadores para as bases de dados existentes antes e depois do balanceamento. O algoritmo SMOTE realiza um procedimento na base de dados denominado over- sampling, que tem como objetivo aumentar o número de instâncias da classe minoritária. O procedimento de oversampling adotado pelo SMOTE gera instâncias sintéticas a partir das outras instâncias existentes na base. Para o balanceamento das bases de dados, o parâmetro de taxa de incremento das instâncias da classe minoritária foi ajustado em 100% e o número de vizinhos utilizados para geração de cada instância foi igual a 5. O incremento do número de instâncias da classe minoritária em 100% gerou bases de dados com uma distribuição praticamente igualitária das classes. Essas bases de dados foram consideradas balanceadas nos experimentos conduzidos neste trabalho. 5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 37 Vale ressaltar que o balanceamento das bases de dados só foi realizado após a criação das partições de treinamento e teste. Adotou-se esta abordagem para garantir que apenas a partição de treinamento seria balanceada e, assim, evitar a existência de instâncias sintéticas nas partições de teste. Desse modo, as partições de teste continuaram com a mesma distribuição de classes da base original, ou seja, aproximadamente 67% das instâncias pertencem a classe 0 e 33% a classe 1. Os experimentos foram realizados para cada uma das cinco bases descritas na Tabela 5.2 utilizando-se os quatro classicadores citados na Seção 5.2. O desempenho dos classicadores foi avaliado em relação ao F-measure obtido por cada uma das classes da base e pelo F-measure média da mesma. Os resultados de desempenho dos classicadores são apresentados para as bases de dados desbalanceadas e balanceadas nas Tabelas 5.3, 5.4, 5.5 e 5.6. Essas tabelas estão divididas em 5 blocos, cada um deles apresentando os resultados do algoritmo de classicação para a base de dados indicada na primeira coluna da tabela. A segunda coluna indica a situação da base (balanceada ou desbalanceada). A F-measure para as classes 0 e 1 são apresentados na terceira e quarta colunas, respectivamente. A F-measure média (média ponderada pelo número de instâncias pertencentes a cada uma das classes) é apresentado na quinta coluna. Por m, a última coluna contém o resultado da diferença entre a F-measure das classes 0 e 1. A Tabela 5.3 apresenta os resultados obtidos pelo classicador Random Forests. Como pode ser observado na quinta coluna, as bases balanceadas obtiveram F-measure média sempre maior ou igual ao das bases desbalanceadas. Outro impacto positivo do balanceamento das bases foi a redução da diferença entre a F-measure obtida para as classe 0 e 1, o que signica que, para esse classicador, o balanceamento ajudou a obtenção de resultados mais equilibrados entre as duas classes do problema. Tabela 5.3: Comparação das F-measures para o classicador Random Forests Base Situação F-measure F-measure F-measure CompBD Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada 0,82 0,81 0,77 0,76 0,81 0,81 0,81 0,78 0,77 0,76 0,54 0,61 0,48 0,54 0,53 0,59 0,48 0,54 0,48 0,55 0,73 0,75 0,68 0,69 0,72 0,74 0,70 0,70 0,68 0,70 TamBD NivBD MutBD SimBD Classe 0 Classe 1 médio Diferença das F-measure s 0,28 0,21 0,29 0,21 0,28 0,23 0,33 0,24 0,30 0,21 5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 38 Os resultados dos experimentos para o classicador ADTree são apresentados na Tabela 5.4. No caso desse classicador, o balanceamento entre as classes resultou em aumento do F-measure média apenas para a base NivBD. No entanto, assim como observado para o classicador Random Forests, para todas as bases de dados o balanceamento proporcionou um aumento da F-measure da classe minoritária (classe 1) e, consequentemente, contribuiu para uma redução na diferença entre a F-measure das classes 0 e 1. Tabela 5.4: Comparação das F-measures para o classicador ADTree Base Situação F-measure F-measure F-measure CompBD Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada 0,81 0,77 0,80 0,75 0,81 0,79 0,79 0,72 0,78 0,73 0,60 0,62 0,54 0,60 0,57 0,63 0,57 0,59 0,57 0,58 0,74 0,72 0,72 0,70 0,73 0,74 0,71 0,67 0,71 0,68 TamBD NivBD MutBD SimBD Classe 0 Classe 1 média Diferença das F-measure s 0,21 0,15 0,26 0,15 0,23 0,15 0,22 0,12 0,21 0,15 A Tabela 5.5 contém os resultados dos experimentos com o classicador SVM. Para esse classicador o balanceamento entre as classes resultou no aumento da F-measure média para as bases CompBD, MutBD e SimBD. Além disso, assim como ocorreu com os classicadores Random Forests e ADTree, o balanceamento das bases proporcionou para todas elas uma redução na diferença entre a F-measure obtida para as classes 0 e 1. Tabela 5.5: Comparação das F-measures para o classicador SVM Base Situação F-measure F-measure F-measure CompBD Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada 0,81 0,77 0,82 0,73 0,82 0,78 0,80 0,76 0,74 0,73 0,48 0,59 0,45 0,59 0,58 0,64 0,41 0,58 0,37 0,57 0,70 0,71 0,70 0,69 0,74 0,74 0,67 0,70 0,62 0,68 TamBD NivBD MutBD SimBD Classe 0 Classe 1 média Diferença da F-measure s 0,33 0,18 0,37 0,14 0,24 0,15 0,39 0,18 0,37 0,16 Os resultados dos experimentos para o classicador Redes Bayesianas são mostrados na Tabela 5.6. Para esse classicador o comportamento dos resultados foi um pouco diferente daqueles obtidos para os demais classicadores. O balanceamento das bases de dados resultou em um aumento da F-measure para a classe minoritária (classe 1) apenas para as bases TamBD e SimBD. Isso contribuiu para que a F-measure médio das bases 5.4 Avaliação Comparativa das Bases 39 balanceadas casse menor do que os obtidos para as bases desbalanceadas na maioria dos casos. Ainda assim, para as bases TamBD, MutBD e SimBD, o balanceamento entre as classes resultou numa redução da diferença entre a F-measure obtida para as classes 0 e 1. Tabela 5.6: Comparação das F-measures para o classicador Redes Bayesianas Base Situação F-measure F-measure F-measure CompBD Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada Desbalanceada Balanceada 0,75 0,74 0,80 0,74 0,74 0,76 0,77 0,74 0,77 0,71 0,62 0,59 0,52 0,56 0,62 0,62 0,59 0,58 0,47 0,59 0,71 0,69 0,71 0,68 0,70 0,71 0,71 0,69 0,67 0,67 TamBD NivBD MutBD SimBD Classe 0 Classe 1 média Diferença das F-measure s 0,13 0,15 0,28 0,18 0,12 0,14 0,18 0,16 0,30 0,12 Sumarizando os resultados, num total de 20 execuções (cada uma das 5 bases foi testada em 4 classicadores), o balanceamento das bases proporcionou um aumento na F-measure média em 9 casos e uma redução em 8 casos. Segundo essa medida, os classicadores Random Forests e SVM foram os que mais se beneciaram com o balanceamento das bases. Portanto, observou-se que a existência de uma inuência positiva do balanceamento de classes no resultado da F-measure média obtido para cada base depende fortemente do classicador utilizado. No entanto, para essas 20 execuções, o balanceamento das bases proporcionou a redução da diferença do F-measure entre as classes majoritária e minoritária em 18 casos. Isso signica que o balanceamento contribuiu para a obtenção de resultados mais equilibrados entre as duas classes do problema. Por esse motivo, todos os experimentos descritos a partir desta seção foram realizados com as bases de dados balanceadas. 5.4 Avaliação Comparativa das Bases Nesta seção serão apresentados os resultados da avaliação comparativa das bases de dados listadas na Tabela 5.2. Os experimentos foram realizados utilizando-se as quatro técnicas de classicação mencionadas na Seção 5.2. As comparações de desempenho dos classicadores para as bases de dados avaliadas neste trabalho foram realizadas a partir de duas medidas: acurácia e F-measure. 5.4 Avaliação Comparativa das Bases 40 Os resultados da análise comparativa serão apresentados por medida de desempenho. Desse modo, para cada medida de desempenho considerada, serão apresentados os resultados obtidos pelos classicadores para as bases de dados avaliadas. Como os resultados dos experimentos realizados com as diferentes bases de dados correspondem a médias aritméticas calculadas a partir dos valores obtidos em cada uma das dez partições geradas pelo procedimento de validação cruzada, visando identicar se existem médias signicativamente diferentes, utilizou-se um teste estatístico denominado Análise de Variância (ANOVA). A partir do resultado desse teste, se conrmado que pelo menos uma média é diferente das demais, o método Tukey's Honestly Signicant Dierence (HSD) foi utilizado para determinar quais são as bases que apresentam resultados signicativamente diferentes de outras. 5.4.1 Acurácia Os resultados médios de acurácia obtidos por cada classicador para as diferentes bases de dados são apresentados nos grácos da Figura 5.2. Como pode ser observado na Figura 5.2, as duas melhores médias de acurácia para cada classicador foram obtidas com as bases CompBD e NivBD, exceto para o classicador Redes Bayesianass, onde o melhor resultado foi obtido com a base NivBD e o segundo melhor resultado com a base MutBD. Contudo, uma vez que os resultados apresentados correspondem às médias das acurácias obtidas para cada uma das 10 partições das bases, o teste estatístico ANOVA foi aplicado para vericar, para cada classicador, se existem médias signicativamente diferentes. A Tabela 5.7 apresenta o resultado do teste estatístico para cada um dos métodos utilizados. A primeira coluna indica o classicador utilizado, a segunda contém o valor do teste F, que é calculado como a razão entre as variâncias observadas entre as médias dos resultado e a média das variâncias de cada teste. A última coluna indica o p-value obtido e qual é o nível de conança obtido para a análise de variância. O nível de conança é indicado pelos símbolos a) *** - indicando 99,9% de conança, b) ** 99% de conança, c) * - 95% de conança e d) # - 90% de conança. A ausência de símbolos indica que para aquele conjunto de resultados não há diferença estatisticamente signicativa entre as médias dos resultados. Os resultados do teste estatístico mostram que existem acurácias médias signicati- 5.4 Avaliação Comparativa das Bases 41 Figura 5.2: Médias de acurácia para os classicadores vamente diferentes entre pelo menos duas bases a um nível de conança de 99,9% para os classicadores Random Forests e ADTree, a 95% para o SVM e a 90% para o Redes Bayesianas. Para vericar entre quais bases existe diferença com signicância estatística o teste Tukey's HSD foi utilizado. A Figura 5.3 contém os resultados obtidos para o teste Tukey's HSD. Nessa gura, um quadro é apresentado para cada classicador, onde a primeira linha e a primeira coluna de cada quadro contêm os nomes das bases de dados. Desse modo, o resultado contido em cada interseção de uma linha com uma coluna de um quadro indica se as bases relacionadas com a respectivas linha e coluna dessa interseção Tabela 5.7: Testes ANOVA para os resultados de acurácia ADTree Random Forests Redes Bayesianas SVM F value 13.218 6.8859 2.2084 3.6198 Pr(>F) 3.361e-07 *** 0.0002058 *** 0.08317 # 0.01217 * 5.4 Avaliação Comparativa das Bases 42 apresentam resultados signicativamente diferentes (codicado como V verdadeiro) ou não (codicado como F falso). CompBD TamBD NivBD MutBD CompBD TamBD NivBD MutBD TamBD V TamBD F ADTree NivBD F V SVM NivBD F F MutBD V F V SimBD V F V F MutBD F F F SimBD F F V F RandomForest CompBD TamBD NivBD MutBD TamBD V NivBD F V MutBD V F F SimBD V F V F Figura 5.3: Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade Vale observar que o teste Tukey's HSD foi realizado apenas para os classicadores em que a análise de variância indicou a existência de médias signicativamente diferentes com um nível de conança maior ou igual a 95%. Como a análise de variância para o Redes Bayesianass detectou diferença entre os resultados das bases com nível de conança de 90%, o teste Tukey's HSD não foi realizado para os resultados desse classicador. Para o classicador ADTree, os resultados apresentados na Figura 5.3 mostram que, com um nível de conança de 95%, os resultados obtidos para as bases CompBD e NivBD são estatisticamente iguais entre si. Por outro lado, essas duas bases apresentam resultados estatisticamente diferentes aos das demais bases de dados avaliadas. Para o classicador Random Forests o resultado obtido com a base CompBD foi o mesmo observado para o classicador ADTree, ou seja, ela apresenta resultado estatisticamente diferente aos das demais bases de dados. Já para a base NivBD, o seu resultado foi estatisticamente diferente ao das bases SimBD e TamBD. Por m, para o classicador SVM, o teste Tukey's HSD detectou diferença com signicância estatística somente entre os resultados obtidos com as bases NivBD e SimBD. Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.3 e nos grácos da Figura 5.2 observa-se que a base CompBD apresentou resultados de acurácia preditiva iguais ao da base NivBD e superiores ao das bases MutBD, TamBD e SimBD em metade dos classicadores. Já a base NivBD obteve resultados superiores ao das bases MutBD, TamBD e SimBD para o classicador ADTree e superiores aos das bases TamBD e SimBD para o classicador Random Forests. Além disso, para o classicador SVM, a base NivBD obteve acurácia superior ao da base SimBD. 5.4 Avaliação Comparativa das Bases 5.4.2 43 F-measure Os resultados médios de F-measure obtidos por cada classicador para as diferentes bases de dados são apresentados nos grácos da Figura 5.4. Esses resultados foram semelhantes àqueles obtidos para a medida de acurácia, ou seja, as bases CompBD e NivBD sempre obtiveram os dois maiores valores de F-measure em cada classicador, exceto para o Redes Bayesianass, quando o segundo maior valor foi alcançado pela base MutBD. Figura 5.4: Médias de F-Measure para os classicadores Assim como na análise dos resultados de acurácia, o teste estatístico ANOVA foi aplicado para vericar, para cada classicador, se existem valores médios de F-measure signicativamente diferentes entre as bases. A Tabela 5.8 apresenta o resultado do teste estatístico para cada classicador utilizado. Relembrando os códigos de nível de conança utilizados na tabela 5.8, o nível de conança é indicado pelos símbolos a) *** - 99,9% de conança, b) ** 99% de conança, c) * - 95% de conança e d) # - 90% de signicância. A ausência de símbolos indica que para aquele conjunto de resultados não há diferença estatisticamente signicativa entre as médias dos resultados. Os resultados da análise de variância mostram que existem valores de F-measure 5.4 Avaliação Comparativa das Bases 44 Tabela 5.8: Teste ANOVA os resultados de F-measure ADTree Random Forests Redes Bayesianas SVM F value 12.152 5.2754 2.047 5.3941 Pr(>F) 8.833e-07 *** 0.001430 ** 0.1038 0.001234 ** médios signicativamente diferentes entre pelo menos duas bases a um nível de conança de 99,9% para o classicador ADTree e a 99% para o Random Forests e SVM. Já para o classicador Redes Bayesianass, o teste de análise de variância não detectou nenhuma diferença com signicância estatística entre os valores de F-measure média obtidos para as bases testadas. A Figura 5.5 apresenta os resultados do teste Tukey's HSD para todos os classicadores em que o teste estatístico ANOVA detectou a existência de resultados signicativamente diferentes com um nível de conança maior ou igual a 95%. O resultado contido em cada interseção de uma linha com uma coluna indica se as bases relacionadas com as respectivas linha e coluna dessa interseção apresentam resultados signicativamente diferentes (codicado como V verdadeiro) ou não (codicado como F falso). CompBD TamBD NivBD MutBD CompBD TamBD NivBD MutBD TamBD V TamBD F ADTree NivBD F V SVM NivBD F F MutBD V F V SimBD V F V F MutBD F F F SimBD V F V F Random Forests CompBD TamBD NivBD MutBD TamBD V NivBD F F MutBD V F F SimBD V F F F Figura 5.5: Teste Tukey's HSD para os dados de F-measure a 95% de conabilidade Para o classicador ADTree, os resultados do teste Tukey's HSD foram iguais àqueles obtidos para a medida de acurácia neste mesmo classicador, ou seja, com um nível de conança de 95%, pode-se armar que os F-measures médios obtidos para as bases CompBD e NivBD são estatisticamente iguais entre si, mas diferentes daqueles alcançados pelas demais bases de dados. Para o classicador SVM, o teste Tukey's HSD detectou diferença de resultados com signicância estatística somente entre a base SimBD e as bases NivBD e CompBD. Por m, para o Random Forests, somente a base CompBD apresentou resultado estatisticamente diferente daqueles obtidos pelas bases MutBD, TamBD e SimBD. 5.5 Análise das Bases Após a Seleção de Atributos 45 Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.5 e nos grácos da Figura 5.4, observa-se que, para dois classicadores, a base CompBD apresentou resultados de F-measure média superiores ao das bases MutBD, TamBD e SimBD. A base NivBD por sua vez obteve resultados superiores ao das bases MutBD, TamBD e SimBD para o classicador ADTree. Analisando os resultados obtidos pode-se observar que as melhores médias de acurácia e F-measure foram obtidas pelas bases CompBD e NivBD. A partir dos resultados da médias e dos testes de signicância estatística é possível armar, com um nível de signicância maior ou igual a 95%, que para o classicador ADTree os resultados das bases CompBD e NivBD são melhores que os demais resultados. Para o classicador Random Forests este mesmo comportamento é observado para a base CompBD. Por m, para o classicador SVM somente foi detectada diferença com um nível de signicância estatística maior ou igual a 95% entre os resultados da base NivBD e SimBD. A partir desses resultados pode-se concluir que as bases CompBD e NivBD fornecem os melhores desempenhos de classicação. 5.5 Análise das Bases Após a Seleção de Atributos Na seção anterior experimentos foram realizados com o objetivo de se investigar para qual(is) base(s) de dados os classicadores apresentariam o melhor desempenho. No entanto, as cinco bases utilizadas até o momento (ver Tabela 5.2) contém apenas um único grupo de atributos extraído das sequências de RT e PR (MutBD, NivBD, SimBD e TamBD) ou são formadas por todos os grupos de atributos extraídos das sequências (CompBD). Portanto, visando avaliar também bases de dados contendo subconjuntos de atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1, decidiu-se realizar experimentos com bases de dados que foram construídas a partir da aplicação de técnicas de seleção de atributos na base completa (CompBD). Nesta seção serão apresentados os resultados dos experimentos conduzidos com essas novas bases. Para a geração das novas bases foram utilizadas as técnicas de seleção de atributos Correlation-based Feature Selection [19] e Consistency-based Feature Selection [25], implementadas na ferramenta Weka pelos algoritmos ConsistencySubsetEval e CFSSubSetEval, respectivamente. Ambos os algoritmos utilizaram os parâmetros padrões da ferramenta Weka. A partir da técnica Correlation-based Feature Selection gerou-se a base CfsBD e, a partir da técnica Consistency-based Feature Selection, gerou-se a base ConsBD. As 5.5 Análise das Bases Após a Seleção de Atributos 46 características de cada base podem ser observadas nas Tabelas 5.9 e 5.10. Grupos de Atributos Quantidade % em relação ao tamanho da base Tabela 5.9: Características da base CfsBD. Atributos de mutação Atributos de Nível de resistência Atributos de Tamanho Atributos de similaridade Outros (VL) Total de Atributos Selecionados Grupos de Atributo 29 1 1 0 1 32 Quantidade 90,6% 3,1% 3,1% 0% 3,1% - % em relação ao tamanho da base Tabela 5.10: Características da base ConsBD. Atributos de mutação Atributos de Nível de resistência Atributos de Tamanho Atributos de Similaridade Outros (CD4, VL) Total de Atributos Selecionados 36 7 1 2 2 48 75% 14,6% 2,08% 4,16% 4,16% - Através das Tabelas 5.9 e 5.10 pode-se observar que, para as duas bases geradas, a maioria dos atributos selecionados correspondem a atributos de mutação. Contudo, a base gerada a partir do algoritmo ConsistencySubsetEval é mais heterogênea, com relação aos tipos de atributos que a compõe, do que a base CfsBD. Assim como na seção anterior, os resultados de desempenho dos classicadores para as bases ConsBD e CfsBD foram avaliados utilizando-se a medida de acurácia e F-measure. Para simplicar a análise dos resultados os testes foram realizados apenas com os dois classicadores que tiveram o melhor desempenho nos experimentos descritos na Seção 5.4, a saber, ADTree e Random Forests. Além disso, a análise comparativa dos resultados para as bases ConsBD e CfsBD foi realizada apenas com as duas bases que obtiveram os melhores resultados nos demais testes realizados até o momento (CompBD e NivBD). 5.5.1 Acurácia A Figura 5.6 apresenta os resultados de acurácia média obtidos pelas bases para cada um dos classicadores. A partir da Figura 5.6, que apresenta os resultados obtidos para o classicador AD- Tree, pode-se observar que ambas as bases ConsBD e CfsBD apresentam acurácia média 5.5 Análise das Bases Após a Seleção de Atributos 47 Figura 5.6: Resultados de acurácia média para os testes com seleção de atributos superior àquelas obtidas pelas demais bases. Já os resultados obtidos com o classicador Random Forests, mostram que apenas a base ConsBD apresentou resultados superiores aos das bases CompBD e NivBD. Como os resultados apresentados na Figura 5.6 correspondem a médias de acurácias obtidas para 10 partições das bases, o teste estatístico ANOVA foi aplicado para vericar, para cada classicador, se existem médias signicativamente diferentes. Os resultados do teste ANOVA podem ser vistos na Tabela 5.11. Esses resultados mostram que existem acurácias médias signicativamente diferentes entre pelo menos duas bases, a um nível de conança de 99,9%, entre os resultados do classicador Random Forests. Tabela 5.11: ANOVA para o conjunto de resultados de acurácia nos testes de seleção de atributos ADTree Random Forests F value Pr(>F) 2.4332 0.08079 # 7.7532 0.000404 *** Para identicar entre os resultados de quais bases se encontram as diferenças detectadas pelo teste ANOVA, foi aplicado o teste Tukey's HSD, cujos resultados são apresentados na Figura 5.7. Analisando os resultados do teste Tukey's HSD (a 95% de conabilidade) apresentados na Figura 5.7 juntamente com as acurácias médias apresentadas nos grácos da Figura 5.6, pode-se concluir que, apesar de pelo menos uma dentre as bases CfsBD e ConsBD apresentar acurácia média superior àquelas obtidas pelas bases CompBD e NivBD, esses resultados não são signicativamente diferentes. 5.5 Análise das Bases Após a Seleção de Atributos 48 Random Forests CompBD NivBD ConsBD CfsBD F F V F F NivBD ConsBD V Figura 5.7: Teste Tukey's HSD para os dados de acurácia a 95% de conabilidade, testes de seleção de atributos 5.5.2 F-measure A Figura 5.8 apresenta os resultados médios de F-measure obtidos por cada classicador para cada uma das bases avaliadas. Os resultados médios de F-measure foram semelhantes aos resultados de acurácia, ou seja, para o classicador ADTree o melhor resultado foi obtido para a base CfsBD e, para o Random Forests, o melhor resultado foi alcançado pela base ConsBD. Figura 5.8: Resultados de F-measure média para os testes com seleção de atributos Novamente, para vericar se existe diferença estatística entre os resultados obtidos pelas bases, o teste estatístico ANOVA foi utilizado. Os resultados desse teste, mostrados na Tabela 5.12, mostram que existem resultados de F-measure médios signicativamente diferentes entre pelo menos duas bases, a um nível de conança de 99,9%, entre os resultados do classicador Random Forests. Visando identicar para quais bases os resultados apresentam as diferenças detectadas pelo teste ANOVA, utilizou-se o teste Tukey's HSD, cujos resultados encontram-se na Figura 5.9. Com os resultados obtidos no teste Tukey's HSD para um nível de conança de 95%, 5.5 Análise das Bases Após a Seleção de Atributos 49 Tabela 5.12: ANOVA para o conjunto de resultados de F-measure nos testes de seleção de atributos ADTree Random Forests F value Pr(>F) 2.6826 0.06123 # 6.7624 0.0009828 *** Random Forests CompBD NivBD ConsBD NivBD ConsBD CfsBD F F V F F V Figura 5.9: Teste Tukey's HSD para os resultados de F-measure a 95% de conabilidade, testes de seleção de atributos chega-se à mesma conclusão obtida para os resultados de acurácia, ou seja, apesar de pelo menos uma dentre as bases CfsBD e ConsBD apresentar F-measure média superior ao das bases CompBD e NivBD para os classicadores utilizados, essa diferença não possui signicância estatística. 5.5.3 Análise dos Resultados da Base CfsBD Enquanto os resultados de acurácia e F-measure para a base ConsBD são semelhantes para os dois classicadores utilizados nessa análise, o mesmo não ocorre para a base CfsBD. Por isso, o objetivo desta seção é apresentar as razões para essa discrepância. Apesar de obter as melhores médias de acurácia e F-measure para o algoritmo ADTree, no algoritmo Random Forests, os resultados obtidos pela base CfsBD são os piores resultados para esse classicador. Observando-se os atributos da base CfsBD, verica-se que a maior parte dessa base é formada por atributos de mutação. Desse modo, esperava-se que os resultados obtidos para essa base com o classicador ADTree fossem semelhantes àqueles alcançados pela base MutBD nesse mesmo classicador. No entanto, isso não ocorre. Enquanto a base MutBD esteve sempre entre as bases com os piores desempenhos para o ADTree, a base CfsBD alcançou os melhores resultados médios de acurácia e F-measure obtidos até o momento. Esse fato levanta um questionamento sobre a inuência dos atributos de mutação da base CfsBD no resultado obtido pelo classicador ADTree. Para responder a esse questionamento, uma análise será realizada na árvore de decisão gerada pelo algoritmo ADTree para a base CfsBD. A Figura 5.10 apresenta a árvore gerada pelo ADTree. 5.5 Análise das Bases Após a Seleção de Atributos 50 Figura 5.10: ADTree gerada para a base CfsBD Na árvore de decisão apresentada na Figura 5.10 pode-se notar que, apesar de a base CfsBD conter 29 atributos de mutação, apenas um desses atributos (A98G) apareceu na árvore de decisão gerada. Os outros atributos que aparecem no modelo construído são: a carga viral (VL) do paciente, o tamanho da sequência de RT (TamRT) e o único atributo de nível de resistência que existe nessa base (NFV quantica a resistência de um paciente à droga Nefravir). Essa observação indica que o bom desempenho do classicador ADTree para essa base não está relacionado com os atributos de mutação, mas sim com os demais atributos presentes na mesma. Já para o classicador Random Forests, assim como se esperava, a base CfsBD teve um desempenho semelhante àquele obtido com a base MutBD. Isso se deve ao fato de o classicador Random Forest realizar de modo aleatório a escolha dos atributos que participam de cada um dos nós das árvores geradas para a composição do modelo de classicação. Sendo assim, como mais de 90% da base CfsBD é formada por atributos de mutação, certamente a maioria dos atributos selecionados para composição do modelo de classicação serão de mutação, o que explica a semelhança entre os resultados obtidos para essa base e aqueles alcançados pela base MutBD. Capítulo 6 Conclusões Atualmente a pandemia de HIV é um dos maiores problemas de saúde pública no mundo. Devido à sua gravidade e proporção, a busca por soluções para o tratamento dessa doença tem envolvido pesquisadores de diferentes áreas conhecimento, tais como biologia, medicina e bioinformática. Embora o último relatório da UNAIDS sugira que a porcentagem global de pessoas infectadas permaneça estabilizada, é crescente a preocupação com o surgimento de fenótipos virais resistentes às drogas antirretrovirais e, principalmente, com a transmissão de linhagens de vírus resistentes a pacientes recém infectados. Teme-se que esses problemas possam levar o tratamento dessa doença a uma situação onde não haverá drogas efetivas no combate à infecção [48]. A Terapia Antirretroviral Altamente Ativa foi um grande avanço no combate à infecção, amenizando o problema do surgimento de fenótipos virais resistentes ou, pelo menos, retardando o surgimento de linhagens de vírus resistentes. A escolha de drogas adequadas para compor o tratamento de um paciente exerce um papel chave no sucesso do mesmo e, por isso, deve ser feita observando-se as características da infecção de cada paciente. Em [43] foi demonstrado que os pacientes, cujos médicos têm acesso aos dados de resistência do seu vírus às drogas, respondem melhor à terapia do que os pacientes cujos médicos não tem acesso a esses dados. Uma das diculdades no processo de escolha de tratamentos antirretrovirais está no fato de não se saber como um paciente responderá ao tratamento escolhido. Portanto, ter uma maneira de predizer essa resposta de modo automático e com precisão é de fundamental importância para a obtenção de sucesso nesse tipo de tratamento. Por isso, o problema de predizer a resposta de um paciente a um tratamento com drogas antirretrovirais tem sido abordado por alguns trabalhos de bioinformática relatados na literatura. De forma geral, estes trabalhos utilizam técnicas de mineração de dados para 6 Conclusões 52 a construção de ferramentas computacionais para a predição da resposta de pacientes ao tratamento com antirretrovirais. Essas ferramentas utilizam tais resultados como base para indicar conjuntos de drogas antirretrovirais que tenham maior probabilidade de obter sucesso no tratamento de um paciente. Apesar da existência de trabalhos que abordam o problema de predição da resposta de pacientes ao tratamento com drogas antirretrovirais, ainda existem poucas fontes na literatura que abordem a questão da importância de cada tipo de atributo para o resultado dessa predição. Desse modo, este trabalho discutiu e analisou a importância de diferentes tipos de atributos no problema de predição de resposta de pacientes ao tratamento com drogas antirretrovirais. Como um primeiro passo para abordar essa questão, a partir de uma base de dados utilizada numa competição de bioinformática, foram extraídos cinco tipos de atributos diferentes das sequências de PR e RT do vírus contraído por cada paciente. Dos cinco tipos de atributos extraídos das sequências de PR e RT, quatro foram selecionados para compor as bases de dados utilizadas nos experimentos realizados neste trabalho (ver Tabela 5.1). Os quatro tipos de atributos utilizados referem-se às mutações presentes nas sequências de PR e RT do vírus de cada paciente, ao nível de resistências às drogas antirretrovirais, ao tamanho das sequências de PR e RT e à similaridade das sequências de PR e RT com uma sequência de consenso. Além dessas bases, foi gerada uma quinta base reunindo todos os atributos das demais. Para cada uma das bases de dados gerada foram avaliadas as medidas de acurácia e F-measure obtidas em cada um dos quatro classicadores utilizados nos experimentos computacionais. Uma vez que as bases de dados geradas eram desbalanceadas, os primeiros experimentos realizados buscaram avaliar o impacto desse desbalanceamento de classes no resultado nal da predição. De acordo resultados apresentados na Seção 5.3 é possível concluir que o balanceamento das bases de dados proporcionou resultados mais equilibrados entre as duas classes do problema para a grande a maioria dos testes realizados. Por este mo- tivo, todos os demais experimentos realizados neste trabalho utilizaram as bases de dados balanceadas. Os resultados advindos da avaliação comparativa entre as bases (Seção 5.4) mostraram que as maiores médias de acurácia e F-measure foram obtidas pelas bases CompBD e NivBD para todos os classicadores. No entanto, após a análise desses resultados em conjunto com os testes de signicância estatística aplicados, é possível armar que, para o classicador Alternating Decicion Tree os resultados das bases CompBD e NivBD 6 Conclusões 53 são superiores aos resultados obtidos pelas demais bases. Essa conclusão se repete para os resultados obtidos pelo classicador Random Forests para a base CompBD. Para o classicador SVM a base NivBD obteve as melhores médias tanto de acurácia quanto de F-measure, contudo, apresentou diferença estatisticamente signicativa somente com relação aos resultados da base SimBD. Os resultados da avaliação comparativa entre as bases mostram que, quando avaliados individualmente, os melhores atributos para a predição da resposta de pacientes às drogas antirretrovirais são os atributos de nível de resistência (representados na base NivBD). A base CompBD também apresentou bons resultados de acurácia e F-measure, indicando que adicionar outros conjuntos de atributos também pode contribuir para melhorar o poder preditivo dos classicadores utilizados na tarefa de predição em questão. Além dos testes realizados com as bases de dados citadas na Figura 5.1, foram geradas duas novas bases de dados através da aplicação das técnicas de seleção de atributos Correlation-based Feature Selection e Consistency-based Feature Selection na base CompBD. A aplicação dessas técnicas de seleção de atributos gerou, respectivamente, as bases CfsBD e ConsBD. A partir dessas duas bases de dados foi possível avaliar: a) Quais foram os atributos considerados relevantes e, dessa maneira, selecionados pelas diferentes técnicas de seleção para compor as novas bases, b) Se os atributos de nível de resistência, que já haviam demonstrado serem bons preditores quanto à resposta de um paciente ao tratamento, foram selecionados e, c) Se após a seleção de atributos, as bases geradas melhoraram os resultados de acurácia e F-measure obtidos antes da seleção. Algumas respostas para as avaliações mencionadas anteriormente foram obtidas a partir da observação das características das bases geradas por cada uma das técnicas de seleção de atributos (Figuras 5.9 e 5.10), das quais vale destacar: i) As duas bases foram formadas majoritariamente por atributos de mutação, ii) o atributo VL, que indica a carga viral de um paciente no início do tratamento, e o atributo que fornece o tamanho da sequência de RT, foram selecionados para compor as duas bases, iii) somente a técnica Consistency-based Feature Selection selecionou um número considerável de atributos de nível de resistência. Nos testes realizados na Seção 5.5 foi possível vericar que a base ConsBD (que possui um conjunto mais diversicado de atributos em relação a base CfsBD) alcançou bons resultados de predição para os dois classicadores utilizados. Ainda para estes testes, vericou-se que os atributos de nível de resistência, tamanho da sequência da RT e a carga viral, exercem grande inuência nos resultados obtidos pelo classicador 6 Conclusões 54 Alternating Decision Tree para a base CfsBD. Apesar de serem os maiores resultados médios de acurácia e F-measure, os resultados obtidos pelas bases ConsBD e CfsBD (para o classicador Alternating Decicion Tree ) não foram signicativamente diferentes dos resultados alcançados pelas bases CompBD e NivBD. Por m, analisando os resultados obtidos por todos os experimentos realizados, notase que, dentre os grupos de atributos avaliados individualmente, o de nível de resistência apresentou os melhores resultados na tarefa de predição de resposta de pacientes às drogas antirretrovirais. As bases CompBD e ConsBD também apresentaram bons resultados de classicação nos testes realizados, demonstrando que é interessante utilizar bases de dados que possuam um conjunto diversicado de atributos. Além disso, apesar de não terem sido realizados testes de signicância estatística que comprovem as diferenças entre os resultados obtidos para os diferentes classicadores utilizados neste trabalho, na média, os melhores valores de acurácia e F-measure foram obtidos pelos classicadores Random Forests e Alternating Decision Tree. Vale ressaltar também que uma importante contribuição deste trabalho foi a avaliação dos atributos de similaridade das sequências de PR e RT com uma sequência de consenso e dos atributos de tamanho dessas sequências, uma vez que nenhum dos trabalhos encontrados na literatura utilizaram esses atributos. Os resultados apresentados em [52] fornecem indícios de que motivos lineares exercem uma inuência positiva no desempenho da tarefa de predição de resposta de pacientes ao tratamento com antirretrovirais. Desse modo, como trabalho futuro, sugere-se a avaliação da importância desse tipo de atributo juntamente com todos aqueles avaliados neste trabalho. Ainda como trabalhos futuros, avaliações incluindo atributos advindos de outros tipos de dados não utilizados neste trabalho, como por exemplo o histórico de tratamento de um paciente, podem ser realizadas. 55 APÊNDICE A -- Exemplo de XML Retornado pelo Web Service Sierra <? xml version=" 1 . 0 " standalone=" y e s " ?> <? xml− s t y l e s h e e t type=" t e x t / x s l " h r e f=" h t t p : // hivdb6 . s t a n f o r d . edu / a s i / d e p l o y e d / x s l / hivTransform . x s l " ?> <S t a n f o r d _ A l g o r i t h m _ I n t e r p r e t a t i o n> <a l g o r i t h m V e r s i o n>6 . 0 . 9 F</ a l g o r i t h m V e r s i o n> <w e b S e r v i c e V e r s i o n>beta − 1 . 0 . 1</ w e b S e r v i c e V e r s i o n> <s u c c e s s> <s e q u e n c e md5sum=" d91c88fdba198a56ae987d7a43833101 "> CCCATTAGTCCTATTGAAACTGTAC . . . </ s e q u e n c e> <summary> <PR> <p r e s e n t>t r u e</ p r e s e n t> <c o n s e n s u s>PQITLWQRPLVTIKIGGQLK . . . </ c o n s e n s u s> <alignedNASequence>CCTCAAATCACTCTT . . . </ alignedNASequence> <alignedAASequence>PQITLWQRPVVTVKV . . . </ alignedAASequence> <f i r s t A A>1</ f i r s t A A> <lastAA>99</ lastAA> <subtype type="B" p e r c e n t S i m i l a r i t y=" 9 2 . 6 "/> </PR> <RT> <p r e s e n t>t r u e</ p r e s e n t> <c o n s e n s u s>PISPIETVPVKLKPGMDGPKVKQW . . . </ c o n s e n s u s> <alignedNASequence>CCCATTAGTCCTATTGAA . . . </ alignedNASequence> <alignedAASequence>PISPIETVPVKLKPGMDG . . . </ alignedAASequence> <f i r s t A A>1</ f i r s t A A> <lastAA>301</ lastAA> <subtype type="B" p e r c e n t S i m i l a r i t y=" 9 5 . 3 "/> </RT> <IN> <p r e s e n t> f a l s e</ p r e s e n t> </IN> </summary> <PR_mutations> <mutation c l a s s i f i c a t i o n ="PI_MINOR">L10IV</ mutation> <mutation c l a s s i f i c a t i o n ="OTHER">I13V</ mutation> <mutation c l a s s i f i c a t i o n ="PI_MAJOR">V32I</ mutation> Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra </PR_mutations> <RT_mutations> <mutation c l a s s i f i c a t i o n ="NRTI">M41L</ mutation> <mutation c l a s s i f i c a t i o n ="NRTI">L74I</ mutation> <mutation c l a s s i f i c a t i o n ="NNRTI">K103KN</ mutation> </RT_mutations> <d r u g S c o r e s> <drug code="3TC" genericName=" l a m i v u d i n e " type="NRTI" s c o r e=" 7 7 . 0 " l e v e l S t a n f o r d="5" l e v e l S I R="R" > <p a r t i a l S c o r e mutation="M41L" s c o r e=" 4 . 0 "/> <p a r t i a l S c o r e mutation=" V118I " s c o r e=" 5 . 0 " /> <p a r t i a l S c o r e mutation="M184V" s c o r e=" 6 0 . 0 " /> <p a r t i a l S c o r e mutation="L210W" s c o r e=" 4 . 0 "/> <p a r t i a l S c o r e mutation="T215Y" s c o r e=" 4 . 0 "/> </ drug> <drug code="ABC" genericName=" a b a c a v i r " type="NRTI" s c o r e=" 9 8 . 0 " l e v e l S t a n f o r d="5" l e v e l S I R="R" > <p a r t i a l S c o r e mutation="M41L" s c o r e=" 1 2 . 0 " /> <p a r t i a l S c o r e mutation=" L74I " s c o r e=" 2 0 . 0 "/> <p a r t i a l S c o r e mutation=" V118I " s c o r e=" 2 . 0 " /> <p a r t i a l S c o r e mutation="M184V" s c o r e=" 1 2 . 0 " /> <p a r t i a l S c o r e mutation="L210W" s c o r e=" 1 2 . 0 "/> <p a r t i a l S c o r e mutation="T215Y" s c o r e=" 2 0 . 0 "/> <p a r t i a l S c o r e mutation=" L74I , M184V" s c o r e=" 2 0 . 0 "/> </ drug> ... </ d r u g S c o r e s> <comments> <comment i d="RT_POS210W_NRTI">L210W c o n t r i b u t e s r e s i s t a n c e t o each o f t h e NRTIs e x c e p t 3TC and FTC. I t u s u a l l y o c c u r s with t h e m ut a t i on s M41L and T215Y .</comment> </comments> </ s u c c e s s> </ S t a n f o r d _ A l g o r i t h m _ I n t e r p r e t a t i o n> 56 Referências Bibliográcas [1] Altmann, A., Beerenwinkel, N., Sing, T., Savenkov, I., Däumer, M., Kaiser, R., Rhee, S., Fessel, W., Shafer, R., Lengauer, T. Improved prediction of response to antiretroviral combination therapy using the genetic barrier to drug resistance. Antiviral therapy 12, 2 (2007), 169. [2] Andrew, R., David, P., Crandall, K. A., Holmes, E. C. The causes and consequences of HIV evolution. Nature Reviews Genetics 5, 1 (2004), 5261. [3] Basmaciogullari, S., Babcock, G., Van Ryk, D., Wojtowicz, W., Sodroski, J. Identication of conserved and variable structures in the human immunodeciency virus gp120 glycoprotein of importance for cxcr4 binding. Journal of virology 76, 21 (2002), 10791. [4] Beerenwinkel, N., Daumer, M., Oette, M., Korn, K., Hoffmann, D., Kaiser, R., Lengauer, T., Selbig, J., Walter, H. Geno2pheno: estimating phenotypic drug resistance from hiv-1 genotypes. Nucleic Acids Research 31, 13 (2003), 38503855. [5] Breiman, L. Classication and regression trees. Chapman & Hall/CRC, 1984. [6] Breiman, L. Random forests. Machine Learning 45 (October 2001), 532. [7] Briz, V., Poveda, E., Soriano, V. Hiv entry inhibitors: mechanisms of action and resistance pathways. Journal of Antimicrobial Chemotherapy 57, 4 (2006), 619627. [8] Carr, J., Foley, B., Leitner, T., Salminen, M., Korber, B., McCutchan, F. Reference sequences representing the principal genetic diversity of hiv-1 in the pandemic. Human retroviruses and AIDS (1998), 11110. [9] Chawla, N., Bowyer, K., Hall, L., Kegelmeyer, W. Smote: synthetic minority over-sampling technique. Journal of Articial Intelligence Research 16, 1 (2002), 321357. [10] Clark, S., Calef, C., Mellors, J. Mutations in retroviral genes associated with drug resistance. HIV Sequence Compendium, Los Alamos National Laboratory, Los Alamos, NM (2007). [11] Cooper, G., Herskovits, E. A bayesian method for the induction of probabilistic networks from data. Machine learning 9, 4 (1992), 309347. Support-vector networks. Machine learning 20, 3 (1995), 273297. [12] Cortes, C., Vapnik, V. [13] Dau, B., Holodniy, M. [14] Deeks, S. [15] Frankel, A. D., Young, J. A. T. Novel targets for antiretroviral therapy: clinical progress to date. Drugs 69, 1 (2009), 3150. Treatment of antiretroviral-drug-resistant HIV-1 infection. The Lancet 362, 9400 (2003), 20022011. HIV-1: Fifteen proteins and an rna. Annual Review of Biochemistry 67, 1 (1998), 125. [16] [17] Freed, E. Hiv-1 gag proteins: diverse functions in the virus life cycle. Virology 251, 1 (1998), 115. Freund, Y. The alternating decision tree learning algorithm. In In Machine Learning: Proceedings of the Sixteenth International Conference (1999), Morgan Kaufmann, p. 124133. REFERÊNCIAS BIBLIOGRÁFICAS [18] Hahn, B., Shaw, G., De, K., others. 58 Aids as a zoonosis: scientic and public health implications. Science 287, 5453 (2000), 607. Correlation-based feature selection for machine learning. PhD thesis, The University of Waikato, 1999. [19] Hall, M. [20] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I. H. The weka data mining software: an update. SIGKDD Explor. Newsl. 11 , 1018. [21] Japkowicz, N., Stephen, S. The class imbalance problem: A systematic study. Intell. Data Anal. 6 (October 2002), 429449. [22] Kamber, M., Pei, J. [23] Klatt, E. [24] Levy, J. [25] Liu, H., Setiono, R. Data mining: Concepts and techniques. Morgan Kaufmann, 2011. Pathology of AIDS. Florida State University College of Medicine, 2002. Pathogenesis of human immunodeciency virus infection. Microbiological reviews 57, 1 (1993), 183289. A probabilistic approach to feature selection - a lter solution. In Proc. of Int. Conf. on Machine Learning (1996), Morgan Kaufmann, p. 319327. [26] Liu, T., Shafer, R. Web resources for hiv type 1 genotypic-resistance test interpretation. Clinical infectious diseases 42, 11 (2006), 1608. [27] Luciw, P. Human immunodeciency viruses and their replication. Virology, 3rd edn. Lippincott-Raven, Philadelphia (1996), 18811952. [28] [29] Madigan, M. Brock biology of microorganisms, 11th edn. International Microbiology 8 (2005), 149152. McMichael, A., Phillips, R. Escape of human immunodeciency virus from immune control. Annual review of immunology 15, 1 (1997), 271296. [30] Mitsuya, H., Weinhold, K., Furman, P., St Clair, M., Lehrman, S., Gallo, R., Bolognesi, D., Barry, D., Broder, S. 3'-azido-3'-deoxythymidine (bw a509u): an antiviral agent that inhibits the infectivity and cytopathic eect of human t-lymphotropic virus type iii/lymphadenopathy-associated virus in vitro. Proceedings of the National Academy of Sciences 82, 20 (1985), 7096. [31] Oliveira, S. E. L., Merschmann, L. H. C., Bouillet, L. E. M. Identifying signicant features in hiv sequence to predict patients' response to therapies. In Proceedings of the 6th Brazilian conference on Advances in bioinformatics and computational biology (Berlin, Heidelberg, 2011), BSB'11, Springer-Verlag, p. 1825. [32] [33] Peeters, M. Recombinant hiv sequences: their role in the global epidemic. HIV sequence compendium (2000), 5472. Perelson, A., Neumann, A., Markowitz, M., Leonard, J., Ho, D. Hiv-1 dynamics in vivo: virion clearance rate, infected cell life-span, and viral generation time. Science 271, 5255 (1996), 1582. [34] Rambaut, A., Posada, D., Crandall, K., Holmes, E. The causes and consequences of hiv evolution. Nature Reviews Genetics 5, 1 (2004), 5261. [35] Rhee, S., Taylor, J., Wadhera, G., Ben-Hur, A., Brutlag, D., Shafer, R. Genotypic predictors of human immunodeciency virus type 1 drug resistance. Proceedings of the National Academy of Sciences 103, 46 (2006), 17355. [36] Robertson, D., Anderson, J., Bradac, J., Carr, J., Foley, B., Funkhouser, R., Gao, F., Hahn, B., Kalish, M., Kuiken, C., others. [37] Hiv-1 nomenclature proposal. Science 288, 5463 (2000), 55. Rosen-Zvi, M., Altmann, A., Prosperi, M., Aharoni, E., Neuvirth, H., Sönnerborg, A., Schülter, E., Struck, D., Peres, Y., Incardona, F., Kaiser, R., Zazzi, M., Lengauer, T. Selecting anti-HIV therapies based on a variety of genomic and clinical factors. Bioinformatics 24 (July 2008), i399i406. REFERÊNCIAS BIBLIOGRÁFICAS The impact of highly active antiretroviral therapy on hiv-specic immune function. Aids 15 (2001), S4. [38] Saag, M. [39] Salminen, M. [40] 59 Hiv inter-subtype recombination-consequences for the epidemic. AIDS Reviews 2, 3 (2000), 178189. Schapire, R., Singer, Y. Improved boosting algorithms using condence-rated predictions. Machine learning 37, 3 (1999), 297336. [41] Scheer, S., Chu, P., Klausner, J., Katz, M., Schwarcz, S. Eect of highly active antiretroviral therapy on diagnoses of sexually transmitted diseases in people with aids. The Lancet 357, 9254 (2001), 432435. [42] Schwartz, S., Nair, M. Current concepts in human immunodeciency virus infection and aids. Clinical and Vaccine Immunology 6, 3 (1999), 295. [43] Hiv-1 reverse transcriptase and protease sequencing for drug resistance Shafer, R., K, D., M.A, W., SH, E. studies. HIV Sequence Compendium (2001), 83133. [44] Shafer, R., Kantor, R., Gonzales, M. The genetic basis of hiv-1 resistance to reverse transcriptase and protease inhibitors. AIDS reviews 2, 4 (2000), 211. [45] Simon, F., Mauclère, P., Roques, P., Loussert-Ajaka, I., Müller-Trutwin, M., Saragosti, S., GeorgesCourbot, M., Barré-Sinoussi, F., Brun-Vézinet, F. Identication of a new human immunodeciency virus type 1 distinct from group m and group o. Nature medicine 4, 9 (1998), 10321037. [46] Steigbigel, R., Cooper, D., Kumar, P., Eron, J., Schechter, M., Markowitz, M., Loutfy, M., Lennox, J., Gatell, J., Rockstroh, J., others. Raltegravir with optimized background therapy for resistant hiv-1 infection. New England Journal of Medicine 359, 4 (2008), 339354. [47] Subbarao, S., Schochetman, G. [48] van de Vijver D, A, W., C, B. Genetic variability of hiv-1. Aids 10 (1996), S13. The epidemiology of transmission of drug resistant hiv-1. HIV Sequence Compendium (2007), 1736. How does hiv cause aids? Science 260, 5112 (1993), 1273. [49] Weiss, R. [50] Weiss, R., Weiss, R., MCCUNE, J., MCMICHAEL, A., ROWLAND-JONES, S., RICHMAN, D., NABEL, G., RINGROSE, P. Gulliver's travels in hivland. AIDS 410, 6831 (2001). Medical virology. Academic Pr, 1994. [51] White, D., Fenner, F. [52] William Dampier, Perry Evans, L. U., Tozeren, A. antiretroviral therapy. vol. 47. BMC Med Genomics, 2009. Host sequence motifs shared by HIV predict response to