UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE CIÊNCIAS BIOLÓGICAS DEPARTAMENTO DE GENÉTICA PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA DISSERTAÇÃO DE MESTRADO GENÔMICA COMPARATIVA E RECONSTRUÇÃO FILOGENÉTICA DE PAPILOMAVÍRUS MARCUS VINICIUS DE ARAGÃO BATISTA RECIFE 2010 UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE CIÊNCIAS BIOLÓGICAS DEPARTAMENTO DE GENÉTICA PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA DISSERTAÇÃO DE MESTRADO GENÔMICA COMPARATIVA E RECONSTRUÇÃO FILOGENÉTICA DE PAPILOMAVÍRUS MARCUS VINICIUS DE ARAGÃO BATISTA Dissertação apresentada ao Programa de Pós-graduação em Genética da Universidade Federal de Pernambuco como requisito para obtenção do grau de Mestre em Genética pela UFPE. Orientador: Prof. Dr. Valdir de Queiroz Balbino Co-orientador: Prof. Dr. Antônio Carlos de Freitas RECIFE 2010 Batista, Marcus Vinicius de Aragão Genômica comparativa e reconstrução filogenética de papilomavírus / Marcus Vinicius de Aragão Batista. – Recife: O Autor, 2010. 108 folhas: il., graf., tab. Orientadores: Valdir de Queiroz Balbino e Antonio Carlos de Freitas. Dissertação (Mestrado) – Universidade Federal de Pernambuco. Centro de Ciências Biológicas. Departamento de Genética, 2010. Inclui bibliografia e anexos. 1. Papilomavírus - Filogenia 2. Papilomavírus - Infecção 3. Papilomavírus - Classificação I. Título. 579.2445 CDD (22.ed.) UFPE CCB – 2010 – 053 UNIVERSIDADE FEDERAL DE PERNAMBUCO PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA Parecer da comissão examinadora da dissertação de: Marcus Vinicius de Aragão Batista intitulada: Genômica comparativa e reconstrução filogenética de Papilomavírus A comissão examinadora considera o presente trabalho APROVADO Portanto, cumpridas todas as exigências regimentais, Marcus Vinicius de Aragão Batista faz jus ao grau de Mestre em Genética pela UFPE. Recife, 01/03/2010 Agradecimentos Aos meus pais que sempre me apoiaram e deram o amor e o suporte necessários para que eu chegasse até aqui. A confiança que vocês depositaram em mim está dando frutos agora e nunca será esquecida. A toda minha faimília, e principalmente aos meus irmãos Marcelo e Mayra, que sempre acreditaram em mim e também contribuíram para essa vitória na minha vida. Valeu por dar trabalho aos meus pais enquanto eu estava fora, não podemos deixá-los mal acostumados, não é? À Thaisa, minha noiva, amiga e companheira de todas as horas que, apesar da distância, me proporcionou muito amor, carinho, compreensão e incentivo fundamentais para minha vida e para a conclusão desse trabalho. Ao professor, orientador e amigo Valdir Balbino, pela oportunidade, boa vontade de transferir seus conhecimentos e incentivo nesta jornada, além claro dos momentos de descontração dentro e fora do laboratório. Aos professores Antônio Carlos e Alexandre Cândido, também orientadores e amigos, pelas contribuições, ensinamentos e confiança depositada em mim e no meu trabalho. Também ao professor Tiago Ferreira, pela inestimável contribuição nas análises deste trabalho. A todos os professores e mestres que participaram da minha formação desde a infância até aqui, por contribuirem para o meu crescimento intelectual e pessoal. Aos amigos e colegas do LABBE, GEMAP, da turma Mestrado 2008 e também de Aracaju pelas horas de descontração, companheirismo, trocas de informações e experiências, sem esquecer a cervejinha nos botecos, importante para tirar o estresse do dia-a-dia. A todos aqueles que torceram por mim e, direta ou indiretamente, contribuíram para a conclusão deste trabalho. SUMÁRIO Item Página Lista de Abreviaturas ......... i Lista de Figuras ......... ii Lista de Tabelas ......... iii Resumo ......... iv Abstract ......... v Introdução ......... vi 1. Revisão da Literatura ......... 1 1.1. Papilomavírus ......... 1 1.1.1. Estrutura Viral ......... 1 1.1.2. Genoma Viral ......... 2 1.1.3. Proteínas Virais ......... 4 ......... 8 1.2.1. Infecção Latente ......... 9 1.2.2. Infecção Produtiva ......... 9 1.2.3. Transformação Maligna ......... 10 1.3. Papilomavírus e Câncer ......... 10 1.4. Classificação dos Papilomavírus ......... 12 1.4.1. Histórico da Identificação dos Tipos de Papilomavírus ......... 12 1.4.2. A Família Papillomaviridae ......... 13 1.4.3. Os Tipos dos Papilomavírus ......... 13 1.5. Evolução dos Papilomavírus ......... 14 1.6. Bioinformática ......... 15 1.6.1. Genômica Comparativa ......... 15 1.6.2. Filogenia Molecular ......... 16 1.6.3. Evolução do Uso de Códons ......... 18 ......... 19 2. Objetivos ......... 21 3. Materiais e Métodos ......... 22 ......... 22 ......... 22 1.2. Ciclo de Infecção dos Papilomavírus 1.7. Justificativa 3.1. Criação do Banco de Dados Local 3.1.1. Obtenção das Sequências Virais 3.1.2. Montagem do Banco de Dados Local ......... 22 ......... 23 3.2.1. Análise da Estrutura Genômica ......... 23 3.2.2. Análise do Pan-Genoma ......... 27 Códons ......... 28 3.2.4. Agrupamento Baseado no Conteúdo Gênico ......... 28 3.3. Alinhamento Múltiplo das Sequências Genômicas ......... 28 3.4. Análise da Diversidade Genômica dos PVs ......... 29 3.4.1. Análise da Variabilidade dos Genes e Proteínas ......... 29 3.4.2. Análise dos Logos de Sequências ......... 30 3.5. Análise de Pressão Seletiva ......... 30 3.6. Análise de Recombinação ......... 32 3.7. Análise de Entropia ......... 33 3.8. Predição da Estrutura Secundária das Proteínas ......... 33 3.9. Reconstrução Filogenética dos PVs ......... 34 3.9.1. Análise de Sinal Filogenético ......... 34 3.9.2. Avaliação da Saturação das Sequências ......... 35 Partições ......... 35 3.9.4. Análise Filogenética dos PVs ......... 36 ......... 38 ......... 38 4.1.1. Obtenção das Sequências ......... 38 4.2. Análise Genômica Comparativa ......... 40 4.2.1. Análise da Estrutura e Anotação Genômica ......... 40 4.2.2. Análise do Pan-Genoma ......... 41 4.2.3. Estatística de Códons e Evolução dos Genomas ......... 42 4.2.4. Análise do Conteúdo Gênico ......... 44 4.3. Análise da Diversidade Genômica ......... 46 4.4. Avaliação da Pressão Seletiva ......... 49 4.5. Análise de Recombinação ......... 52 4.6. Análise de Entropia Genômica ......... 53 4.7. Predição in silico da Estrutura Secundária das Proteínas ......... 56 3.2. Análise Comparativa da Estrutura Genômica dos PVs 3.2.3. Construção de Árvores Genômicas Baseada em Estatística de 3.9.3. Organização das Matrizes e Teste de Homogeneidade das 4. Resultados 4.1. Banco de Dados Local 4.8. Reconstrução da Filogenia dos Papilomavírus ......... 57 5. Discussão ......... 68 6. Conclusões ......... 81 7. Referências Bibliográficas ......... 82 8. Anexos ......... 98 ......... 98 Proteínas dos PVs ......... 101 Anexo 3. Árvores Filogenéticas de Máxima Verossimilhança dos PVs ......... 103 ......... 106 ......... 108 Anexo 1. Figuras Referentes às Análises de Logos de Sequência dos Genes dos PVs Anexo 2. Figuras Referentes às Análises de Logos de Sequência das Anexo 4. Lista de trabalhos apresentados em congressos, prêmios recebidos e outras atividades relevantes 9. Memorial do aluno Lista de abreviaturas PV Papilomavírus DNA Ácido Desoxirribonucléico pb Pares de Bases Da Daltons nm Nanômetro ORF Matriz Aberta de Leitura VLP Partícula Semelhante a Vírus ICTV Comitê Internacional de Taxonomia de Vírus LCR Região Longa de Controle ATP Adenosina Trifosfato RNAm Ácido Ribonucléico Mensageiro DST Doença Sexualmente Transmissível UPGMA Método de Agrupamento Pareado Não Ponderado com Média Aritmética NCBI Centro Nacional para Informação Biotecnológica %GC Conteudo de Guanina e Citosina indel Inserção e Deleção LRT Teste da Razão de Verossimilhança ILD Diferença do Tamanho de Incongruência MCMC Cadeia de Markov Monte Carlo i Lista de Figuras Item Página Figura 1. Representação esquemática da estrutura do papilomavírus ......... 2 Figura 2. Desenho esquemático da estrutura genômica do HPV-16 ......... 3 Figura 3. Função da proteína p53 e sua interação com a oncoproteína E6 ......... 6 Figura 4. Regulação do ciclo celular e a interação da proteína E7 com pRB ......... 7 Figura 5. Ciclo de infecção dos PVs ......... 10 Figura 6. Incidência de câncer do colo do útero ao redor do mundo ......... 11 Figura 7. Análise de similaridade genômica pareada entre os PVs ......... 41 Figura 8. A evolução do conteúdo de GC nos Papilomavírus ......... 43 Figura 9. Dendrogramas representando a divergência no uso de códons ......... 44 Figura 10. Agrupamento baseado na frequência de uso de aminoácidos ......... 45 Figura 11. Árvore baseada no conteúdo gênico do genoma dos PVs ......... 46 Figura 12. Gráficos de entropia para as regiões genômicas estudadas ......... 56 Figura 13. Estrutura secundária predita das oito proteínas dos PVs ......... 58 Figura 14. Avaliação do sinal filogenético dos genes dos Papilomavírus ......... 60 Figura 15. Avaliação do sinal filogenético das proteínas dos Papilomavírus ......... 61 Figura 16. Gráficos de saturação das sequências de DNA dos PVs ......... 63 Figura 17. Árvore filogenética baseada nas sequências de aminoácidos ......... 67 ii Lista de Tabelas Item Página Tabela 1. Lista dos PVs, hospedeiros e número de acesso das sequências ......... 24 Tabela 2. Genomas utilizados na análise, seu tamanho e conteúdo de GC ......... 38 Tabela 3. Diversidade genômica dos Papilomavírus ......... 47 Tabela 4. Diversidade proteômica dos Papilomavírus ......... 49 Tabela 5. Estimativas de pressão seletiva no genoma dos PVs ......... 50 Tabela 6. Teste LRT para detecção de sítios sob seleção positiva ......... 52 Tabela 7. Análise de recombinação entre os PVs ......... 54 Tabela 8. Teste de incongruência entre as partições ......... 64 iii Resumo Os papilomavírus formam um grupo de vírus altamente diverso e específico que infectam mamíferos, aves e répteis. O conhecimento acerca da sua diversidade genética e evolução ainda é pobre, não existindo um cenário compreensivo que elucide as relações filogenéticas desses vírus. Assim, um estudo que visa ao entendimento da variabilidade genética entre os papilomavírus é fundamental para o aumento do conhecimento de sua complexa história evolutiva. Esse trabalho consistiu na análise de 53 sequências genômicas completas de papilomavírus, representando toda sua diversidade conhecida. Estudos de genômica comparativa foram realizados analisando o tamanho dos genomas; conteúdo gênico; variabilidade genética; estatística de códons; pressão seletiva; e recombinação. Regiões de baixa entropia foram utilizadas para a construção de ávores filogenéticas baseadas em quatro métodos diferentes. A metodologia empregada permitiu a identificação de regiões que são conservadas entre os papilomavírus que infectam hospedeiros diferentes, ajudando a entender suas relações evolutivas. Isto é muito importante porque, apesar da grande variação existente entre os genomas dos papilomavírus, fomos capazes de encontrar regiões que são claramente compartilhadas, apresentando baixos níveis de complexidade de informação, com o objetivo de fazer predições. Topologias coerentes foram obtidas com altos valores de confiança, apesar de não haver consistência em alguns nós internos. Esses resultados indicaram que tais regiões são bons marcadores para realização de inferências filogenéticas com menor custo computacional, resultando em um incremento na compreensão da diversificação dos papilomavírus. Palavras-chave: Papilomavírus; Filogenia; Genômica; Bioinformática. iv Abstract Papillomavirus forms a highly diverse and specific group of virus that infects mammals, birds and reptiles. Knowledge about their genetic diversity and evolution is still poor, so there is not a comprehensive scenario that elucidates the phylogenetic relationships of these viruses. Thus, a study aiming at understanding the genetic variability among papillomavirus is fundamental for increasing the knowledge of their complex evolutionary history. This work consisted on the analysis of 53 papillomaviruses complete genome sequences, which represents all known diversity of these viruses. Comparative genomic studies were performed concerning the genome size; gene content; genetic variability; codon statistics; selective pressure; and recombination. Regions with low entropy were used to construct phylogenetic trees based on four different methods. The employed methodology allowed the identification of regions that are conserved among papillomaviruses that infects different hosts, which helps to understand their evolutionary relationships. This is very important because, despite the huge variation between all papillomaviruses genomes, we were able to find regions that are clearly shared among them, presenting low complexity levels of information in order to make predictions. Coherent topologies were obtained with high confidence values, although there was no consistency in some internal nodes. These results indicated that those regions are good markers to make phylogenetic inferences with less computational cost, resulting in an increment of the capacity of understanding the diversification of the papillomavirus. Key-words: Papillomavirus; Phylogeny; Genomics; Bioinformatics. v Introdução Papilomavírus (PV) é um grupo altamente diverso e específico de vírus que é conhecido por infectar mamíferos, aves e répteis. Infecções causadas por PVs frequentemente levam a lesões na pele ou mucosa que requerem a disponibilidade de células da camada basal, onde a expressão genética viral é suprimida, embora a expressão limitada de oncogenes virais resulte no aumento da proliferação destas células e sua expansão lateral. Existe uma associação causal de tipos de PVs com câncer, fazendo com que esses vírus atraíam grande interesse por parte dos pesquisadores. Entretanto, existem PVs que estão associados com lesões cutâneas benignas. Além disso, vários tipos de PVs já foram isolados de animais aparentemente saudáveis, indicando que eles coexistem com seus hospedeiros por longos períodos de tempo de forma latente. O câncer de colo do útero é o segundo em número de casos entre as mulheres no mundo, e na maioria dos casos é possível estabelecer uma associação com papilomavírus humano (HPV). Assim, esforços têm sido feitos para se estudar esses vírus, e com isso, o número de sequências genômicas de PVs disponíveis nos bancos de dados biológicos tem aumentado substancialmente. Conhecimento sobre a evolução desses vírus ainda é relativamente pobre, e entender os processos que regem a diversificação viral é muito importante para o desenvolvimento futuro de novos métodos de diagnóstico e também de tratamentos mais eficazes. Assim, com a utilização de ferramentas computacionais e estratégias metodológicas não avaliadas anteriormente, espera-se obter um cenário evolutivo mais compreensivo dos PVs. vi 1. Revisão da Literatura 1.1. Papilomavírus Os papilomavírus (PVs) pertencem a um grande grupo de vírus epiteliotrópicos, apresentando uma alta diversidade, possuindo mais de cem tipos detectados e sequenciados apenas em humanos. Também já foram encontrados em uma variedade de mamíferos, aves e répteis. Seus isolados são tradicionalmente descritos como “tipos”, sendo que muitos desses tipos se mostram amplamente distribuídos no mundo (de Villiers et al., 2004). Os PVs infectam o epitélio escamoso da pele e mucosas, causando infecções assintomáticas e várias lesões benignas ou malignas em uma ampla gama de espécies de mamíferos (Campo, 2002). Estão associados a lesões hiperplásicas epiteliais cutâneas, mucocutâneas ou mucosas. Em humanos costumam ocasionar uma variedade de proliferações benignas como verrugas (papilomas), ou malignas como as neoplasias intra-epiteliais anogenitais (zur Hausen, 1996). Nos animais, a maioria das lesões é de localização cutânea, apesar de também terem sido observadas em regiões mucosas, como na orofaringe, esôfago e trato genital (Sundberg e Reichmann, 1993; Nicholls e Stanley, 2000). 1.1.1. Estrutura Viral Apresentando uma estrutura não envelopada, os PVs possuem uma molécula de DNA dupla fita circular medindo aproximadamente 8000 pares de bases (pb). Seu capsídeo é composto por 72 subunidades ou capsômeros em forma de pentâmeros e possui peso molecular de aproximadamente 5,2 x 105 daltons (Da) (Shah e Howley, 1996). O capsídeo viral exibe uma simetria icosaédrica com diâmetro aproximado de 55 nm, conferindo ao vírus 1 morfologia esférica quando observado por meio de microscopia eletrônica (Figura 1) (Bernard, 2005). Figura 1: Representação esquemática da estrutura do papilomavírus (Fonte: Modis et al., 2002). 1.1.2. Genoma Viral O genoma dos PVs está normalmente dividido em oito matrizes abertas de leitura (ORFs), que se apresentam parcialmente sobrepostas em apenas uma das fitas da molécula de DNA (Wang, 2007). Entretanto, alguns PVs apresentam estruturas genômicas variadas, possuindo mais ou menos ORFs. Nos vírions, o DNA dos PVs é encontrado com histonas celulares formando complexos semelhantes à cromatina (Howley e Lowy, 2001). Embora possuam um genoma pequeno, os PVs possuem uma complexa biologia. De uma maneira geral, seu genoma se apresenta organizado em três regiões, de acordo com sua localização: uma região de expressão precoce (Early ou E); uma região de expressão tardia (Late ou L); e uma região reguladora (Long Control Region ou LCR) (Figura 2) (Wang, 2007). A região precoce codifica proteínas regulatórias (E1, E2, E4, E5, E6 e E7), incluindo aquelas responsáveis pela replicação do DNA viral, e representa aproximadamente 45% de todo o 2 genoma. Já a região tardia codifica proteínas do capsídeo viral (L1 e L2), compreendendo cerca de 40% do DNA do vírus (Chang, 1990). Figura 2: Desenho esquemático da estrutura genômica do HPV-16. Os genes E codificam as proteínas regulatórias e os genes L codificam as proteínas estruturais. A região do LCR regula a expressão gênica. (Obtido em http://en.wikipedia.org/wiki/File:HPV-16_genome_organization.png) Entre as regiões E e L se localiza o segmento LCR, de 400 a 1000 pb, que contém elementos promotores e reguladores da replicação viral (Figura 2). Esta região é a mais variável do genoma e representa os 15% restantes do genoma do vírus, sem capacidade de codificar proteínas, contendo apenas alguns elementos de regulação como os fatores de transcrição celular e origem de replicação (Chang, 1990). O segmento LCR contém o promotor p97 junto com sequências potencializadoras e silenciadoras que regulam a replicação do DNA controlando a transcrição das ORFs (Burd, 2003). Normalmente está dividido em três regiões: 5’ terminal; central; e 3’ terminal. A região central é onde a maior parte dos fatores de transcrição se liga. Por causa disso, é 3 conhecida como região intensificadora da LCR, sendo ela que regula a transcrição dos oncogenes E6 e E7 (zur Hausen, 1996). Delimitada pelo códon de terminação do gene L1 e por um sítio de ligação de E2 está a região 5’ terminal da LCR. Furth e Baker (1991) relataram que essa região possui um sítio para o término da transcrição e outro para a poliadenilação do transcrito policistrônico. Já a região 3’ terminal compreende um sítio de ligação de E2 e o códon de iniciação do gene E6. Muitas vezes, a transcrição é iniciada a partir do promotor p97, determinando um único transcrito policistrônico iniciado em E6 (Howley e Lowy, 2001). 1.1.3. Proteínas Virais Dentre todas as proteínas, E1 e E2 são as de maior importância na replicação e transcrição do DNA (Tyring, 2000). O gene E1 é reconhecido como o maior e mais conservado da região precoce do genoma de diferentes PVs. A proteína E1 é uma fosfoproteína de 70 a 80 kDa, com atividade de helicase associada a adenosina-trifosfato (ATP), que atua em conjunto com E2 na origem da replicação viral (Masterson et al., 1998). A proteína E1 se liga em sequências ricas em AT na origem, facilitada pela proteína E2. Após a ligação, um hexâmero é formado, que atua desespiralizando a molécula de DNA (Longworth e Laiminis, 2004). A proteína E2 é uma fosfoproteína de aproximadamente 50 kDa com três domínios funcionais que, além de atuar na replicação, também regula a transcrição das ORFs dos PVs. Ela forma dímeros que se ligam em sítios específicos na LCR, podendo ativar ou reprimir a expressão de genes precoces dependendo de sua concentração (Longworth e Laiminis, 2004). Segundo Bryan e Brown (2001), a proteína E4 parece ajudar na liberação do vírus de células infectadas, entretanto sua função ainda não está bem estabelecida. Ela é bastante expressada e abundante nas camadas celulares superiores dos tecidos epiteliais. Sua síntese 4 ocorre a partir de splicing de um RNAm policistrônico, estando fusionado a cinco aminoácidos da proteína E1. Sugere-se que essa fusão indica a maturação viral, uma vez que essa proteína interage e perturba a rede de citoqueratina, aumentando a fragilidade celular, o que contribui com a liberação dos vírus maduros da célula (Doorbar et al., 1990; Raj et al., 2004). Os PVs codificam três oncoproteínas, conhecidas como E5, E6 e E7. A proteína E5 é pequena e altamente hidrofóbica, cujas funções ainda não foram estabelecidas (Longworth e Laiminis, 2004). A depender dos PVs, essa proteína pode apresentar maior ou menor atividade oncogênica (McMurray et al., 2001). Por exemplo, nos HPVs, ela é pouco oncogênica, mas tem uma função importante aumentando bastante o potencial transformante da proteína E7. Contrariamente, nos papilomavírus bovino (BPVs) a proteína E5 é a principal responsável pela transformação celular, aparentemente interagindo com receptores de fatores de crescimento. Essa interação modifica a resposta celular que resulta na apoptose, aumentando assim a proliferação das células infectadas. Existe pouca similaridade entre a proteína E5 de HPVs e de BPVs, sugerindo que elas agem através de diferentes alvos celulares (Yang et al., 1985; Bravo e Alonso, 2004; Longworth e Laiminis, 2004). Existe um grande interesse em estudar as oncoproteínas E6 e E7, devido ao fato delas interagirem com proteínas que atuam no controle do ciclo celular, podendo levar à imortalização das células e, consequentemente, ao desenvolvimento de tumores (Finzer et al., 2002). A oncoproteína E6 possui um tamanho de aproximadamente 150 aminoácidos e contém um domínio de ligação de zinco com dois motivos C-X-X-C. Em humanos, ela sozinha pode levar à imortalização de células epiteliais mamárias. Entretanto, uma eficiente imortalização dos queratinócitos humanos requer a expressão tanto de E6 quanto de E7 (Howley et al., 1989; Longworth e Laiminis, 2004). As primeiras ideias sobre as funções da proteína E6 vêm dos estudos das interações com a proteína celular p53, que é uma supressora de tumor bem caracterizada. Na presença de 5 dano no DNA, a p53 interrompe o ciclo e pode levar à apoptose. Esse mecanismo é utilizado também para evitar que vírus infectando essas células se espalhem (Longworth e Laiminis, 2004). Entretanto, os PVs desenvolveram mecanismos que bloqueiam este mecanismo, o que pode levar ao desenvolvimento de neoplasias. Para isso, a oncoproteína E6 se liga à p53 em um complexo com a ubiquitina-ligase chamado E6AP, levando à consequente degradação da p53 (Figura 3) (Longworth e Laiminis, 2004). Para facilitar o ciclo de vida do vírus, além da degradação da p53, a proteína E6 também pode interagir com a p300, assim como aumentar a atividade da telomerase (McMurray et al., 2001). Assim como E6, a oncoproteína E7 também tem participação importante para a patogênese dos PVs. Essa proteína é pequena, composta por aproximadamente 100 aminoácidos. Apresenta um motivo conservado L-X-C-X-E necessário para a associação da E7 com a proteína supressora de tumor do retinoblastoma (pRB), e também um domínio de ligação de zinco composto por dois motivos C-X-X-C que funciona como um domínio de dimerização (Liu et al., 2006; McLaughlin-Drubin e Münger, 2009). Níveis basais Dano no DNA Estabilização Apoptose Níveis da PTN Diminuição dos níveis Degradação Transcrição Interrupção ciclo celular Perda de função Figura 3: Função da proteína p53 e os efeitos da sua interação com a oncoproteína E6 (modificado de www.medscape.com). Muitas atividades biológicas da oncoproteína E7 que são importantes para o ciclo de vida viral ainda são provavelmente desconhecidas. Entretanto, a habilidade de se ligar e 6 degradar a pRB, que está relacionada com a transformação celular, aparenta ser a sua principal função (Collins et al., 2005). As proteínas da família RB formam complexos com fatores de transcrição como E2F, impedindo a progressão do ciclo celular entre as fases G1 e S. Uma vez associada com a oncoproteína E7, a pRB é sequestrada e degradada através da via de ubiquitinação, resultando na ativação de genes responsáveis pela progressão do ciclo celular, conforme pode ser visto na Figura 4 (Longworth e Laiminis, 2004). Também já foi postulado que a proteína E7 pode se associar com inibidores de quinase dependente de ciclina p21 e p27, sendo esta interação, aparentemente, o principal fator de estímulo ao crescimento celular em infecções por HPV (zur Hausen, 2000). Figura 4: Ilustração esquemática mostrando atividades de regulação do ciclo celular e os efeitos da interação da proteína E7 com pRB (Longworth e Laiminis, 2004). O capsídeo dos PVs é formado por duas proteínas que são codificadas pelo vírus, as proteínas L1 e L2 (Howley e Lowy, 2001). A principal proteína deste capsídeo é a L1, com peso molecular de aproximadamente 55 kDa, cujos pentâmeros têm a propriedade intrínseca 7 de automontagem, formando capsídeos vazios conhecidos como partículas semelhantes a vírus (virus like particles ou VLPs) (Bishop et al., 2007). Relativamente, essa é a proteína que apresenta maior conservação entre os PVs, e no vírion ela corresponde a cerca de 80 a 90% do capsídeo viral (Joyce et al., 1999). A proteína secundária do capsídeo dos PVs é a L2, que participa da montagem e empacotamento do genoma viral, uma vez que ela se liga ao DNA do vírus no momento da maturação. Ela interage com a proteína L1 através de domínios específicos, sendo muito importante para a morfogênese dos PVs (Okun et al., 2001; Florin et al., 2002). Estas proteínas estruturais também foram relacionadas com a ligação entre os vírus e os receptores de superfície celular, importante no desencadeamento da infecção (Day et al., 2008; Sapp e Day, 2009). Muitos sistemas heterólogos estão sendo utilizados para expressar as proteínas L1 e L2, formando VLPs, que têm sido utilizadas isoladamente ou associadas a aminoácidos de E6 e/ou E7 no desenvolvimento de vacinas profiláticas contra HPV (Dell e Gaston, 2001; Wakabayashi et al., 2002; Wang, 2007). 1.2. Ciclo de Infecção dos Papilomavírus Os PVs replicam seus genomas dentro do núcleo das células infectadas dos hospedeiros e apresentam tropismo específico por queratinócitos. Possivelmente, a infecção por PVs ocorre através de microlesões do epitélio que expõem as células das camadas basais (mitoticamente ativas) para a entrada dos vírus (Longworth e Laiminis, 2004). Alguns receptores celulares que se ligam às proteínas L1 e L2 do capsídeo viral são conhecidos, e essa interação faz com que ocorra uma mudança na conformação das proteínas estruturais que resulta na exposição da região amino terminal da proteína L2. Uma série de eventos, ainda não conhecidos completamente, ocorre induzindo a internalização do vírus (Sapp e Day, 8 2009). Após a entrada do vírus na célula, podem ocorrer três formas de infecção: a infecção latente, a infecção produtiva e a transformação maligna. 1.2.1. Infecção latente Muitos PVs parecem utilizar preferencialmente um ciclo de vida latente, uma vez que vários tipos puderam ser detectados em sítios aleatórios da pele saudável de humanos e outros animais (Antonsson e Hansson, 2002; Antonsson et al., 2003). Na infecção latente, o material genético do vírus permanece dentro do núcleo de forma epissomal, replicando-se juntamente com o DNA da célula hospedeira. Condições de supressão imune em humanos podem levar à ativação de infecções latentes, resultando nas lesões (Figura 5) (Jablonska e Majewski, 1994; de Villiers, 1998; Forslund et al., 2003). 1.2.2. Infecção produtiva Na infecção produtiva, o número de cópias do genoma do vírus aumenta de acordo com a diferenciação celular, ou seja, o DNA viral é replicado independentemente do DNA do hospedeiro. As células filhas infectadas migram para as camadas superiores do epitélio, onde se inicia a expressão dos genes tardios, formando partículas virais maduras. Essas partículas são liberadas, infectando novas células hospedeiras (Narisawa-Saito e Kiyono, 2007). Modificações morfológicas no epitélio podem ser observadas durante as infecções produtivas, resultando no desenvolvimento de papilomas e lesões intraepiteliais de baixo grau (Figura 5) (Longworth e Laiminis, 2004). 9 1.2.2. Transformação maligna Nas células basais de humanos, onde o DNA se encontra na forma epissomal, os níveis de expressão das proteínas E6 e E7 são considerados baixos. Entretanto, se essas infecções continuarem por anos, ou até mesmo por décadas, as células passam a apresentar altos níveis de expressão dessas oncoproteínas devido a mutações ou integração do genoma viral. Esse aumento nos níveis de expressão dos oncogenes E6 e E7 parece ajudar na imortalização dessas células, tornando-as tumorigênicas (Figura 5) (Narisawa-Saito e Kiyono, 2007). Vírions livres Tumorigênese Infecção Infecção produtiva Encapsidação a Replicação Acúmulo de Mutações Células basais Infecção latente Epissomo viral Imortalização Células basais Papiloma ou displasia Mutações e integração do genoma viral Figura 5: Representação esquemática do ciclo de infecção dos PVs (modificado de Narisawa-Saito e Kiyono, 2007). 1.3. Papilomavírus e câncer Membros da família Papillomaviridae estão associados a casos clínicos de câncer (Clifford et al., 2003). Em humanos, estudos epidemiológicos apoiam uma forte associação entre HPV e o carcinoma cervical, uma vez que esses vírus são encontrados em quase todos os casos de câncer cervical e neoplasia intra-epitelial cervical (Bosch et al., 2002). 10 O câncer de colo do útero é o segundo em número de casos entre as mulheres e o sétimo de maior incidência no mundo, com aproximadamente 500 mil novos casos por ano, sendo sua taxa de fatalidade de 50 a 55% (Figura 6). O Brasil apresenta cerca de 19 mil novos casos de câncer cervical por ano, com risco estimado de 19 casos a cada 100 mil mulheres. Na região Nordeste, esse tipo de câncer é o segundo mais incidente com 18 casos a cada 100 mil mulheres. Já o estado de Pernambuco tem uma taxa estimada de 22,8 casos para cada 100 mil mulheres, sendo o sexto no Brasil e o primeiro no Nordeste (INCA, 2008). Figura 6: Incidência de câncer do colo do útero por 100.000 mulheres ao redor do mundo (Fonte: Globocan 2002, IARC, http://www-dep.iarc.fr). Fatores como o tabagismo, hormônios, número de filhos, uso de contraceptivo oral, obesidade, promiscuidade, co-infecção com outras doenças sexualmente transmissíveis (DST), 11 nutrição e alguns polimorfismos (tanto nos vírus quanto no hospedeiro) também estão associados em maior ou menor grau ao desenvolvimento do câncer (Franco et al., 2001; de Araújo Souza e Villa, 2003; Burd, 2003; Castellsague et al., 2006; Slomovitz et al., 2006). As informações acerca de processos neoplásicos em outros animais são bastante escassas na literatura, sendo os PVs que infectam humanos e bovinos os principais modelos para estudo. Em bovinos, foi relatada uma associação entre o desenvolvimento de câncer e a ingestão de brotos de samambaia (Pteridium aquilinum) (Campo, 2003). A papilomatose bovina, caprina, bufalina, equina, ovina, entre outras, são doenças importantes economicamente por causarem desvalorização dos animais e produtos derivados a serem comercializados. 1.4. Classificação dos Papilomavírus Após décadas de pesquisas e milhares de sequências de isolados de PVs terem sido produzidas, foi possível estabelecer um banco de dados que permitiu a proposição de um sistema de classificação que pode ser estável, à medida que novos PVs forem encontrados (de Villiers et al., 2004). 1.4.1. Breve histórico da identificação dos tipos de Papilomavírus Apesar dos primeiros tipos de PVs terem sido descobertos há mais de 30 anos (Orth et al., 1977), ainda existe alguma dificuldade em se encontrar sistemas de cultivo celular apropriados para a propagação desses vírus, o que limita o estabelecimento de uma taxonomia baseada em propriedades biológicas (de Villiers et al., 2004). Com o isolamento dos primeiros genomas virais, surgiram algumas classificações baseadas em painéis de restrição, hibridizações por Southern blot sob condições não estringentes e hibridizações líquidas (de Villiers et al., 2004). 12 Na década de 80, os primeiros genomas completos de PVs foram disponibilizados (Chen et al., 1982; Danos et al., 1982; Schwarz et al., 1983; Seedorf et al., 1985). Atualmente, muitas sequências de genomas completos de PVs têm sido depositadas em bancos de dados públicos, estando disponíveis com anotações funcionais, dando respaldo para uma nova classificação baseada em sequências de nucleotídeos. 1.4.2. A família Papillomaviridae Originalmente, os PVs faziam parte da família Papovaviridae, junto com os poliomavírus. Essa classificação era baseada na similaridade dos capsídeos não envelopados e do DNA dupla fita circular comum entre eles. Entretanto, eles são agora oficialmente reconhecidos pelo Comitê Internacional de Taxonomia de Vírus (ICTV) como duas famílias distintas, Papillomaviridae e Polyomaviridae. A separação se deu pela observação de características tais como: 1) diferenças no tamanho do genoma; 2) organizações genômicas notadamente diferentes; 3) baixos níveis de similaridade em sequências de nucleotídeos e aminoácidos; e 4) estratégias transcricionais diferentes (de Villiers et al., 2004; Bernard, 2006; Wang, 2007). 1.4.3. Os tipos dos Papilomavírus A ORF L1, por ser a mais conservada no genoma dos PVs, tem sido utilizada para a identificação de novos tipos virais. Um novo isolado de PV é reconhecido como um novo tipo quando o genoma completo é clonado e o sequenciamento da ORF L1 demonstrar diferença de identidade de nucleotídeos superior a 10% do tipo conhecido mais próximo. Diferenças de identidade entre 2 e 10% definem um subtipo e inferiores a 2% caracterizam uma variante viral (de Villiers et al., 2004; Bernard, 2005). 13 Forslund et al. (1999), utilizando iniciadores degenerados para a amplificação e sequenciamento parcial do gene L1, descreveram 12 supostos novos tipos de HPV. Posteriormente, essa mesma estratégia possibilitou a identificação de 16 supostos novos tipos de BPVs provenientes tanto de lesões cutâneas quanto de pele saudável (Antonsson et al., 2000; Antonsson e Hansson, 2002; Ogawa et al., 2004). Esses achados sugerem que a mesma diversidade molecular já encontrada nos HPVs, entre os quais atualmente são reconhecidos mais de 100 tipos virais, também pode ocorrer nos PVs de outros animais (Bernard, 2005). Os PVs são classificados em 16 gêneros: Alpha; Beta; Gamma; Delta; Epsilon; Zeta; Eta; Theta; Iota; Kappa; Lambda; Mu; Nu; Xi; Omikron; e Pi-papilomavírus. Diferentes gêneros compartilham menos que 60% de identidade na sequência de nucleotídeos na ORF L1. Os gêneros unem tipos filogeneticamente relacionados, mas que são biologicamente diversos (de Villiers et al., 2004). 1.5. Evolução dos Papilomavírus A diversidade dos PVs não tem sido suficientemente estudada. Vírus de aproximadamente 40 espécies de hospedeiros diferentes foram isolados e parcialmente sequenciados, entretanto acredita-se que todos os membros dos Amniotas potencialmente possuam PVs específicos (de Villiers et al., 2004; Rector et al., 2007; Schulz et al., 2009). O gene L1 completo, ou parte dele, normalmente é usado para a detecção e genotipagem dos PVs. Assim, inicialmente, as filogenias dos PVs eram inferidas a partir da comparação de sequências desse gene (Schulz et al., 2009). Este tipo de análise permitia identificar uma série de entidades (gêneros) mais ou menos bem estabelecidas e monofiléticas (de Villiers et al., 2004; Gottschling et al., 2007a). Entretanto, as árvores radiais publicadas não apresentavam um grupo externo apropriado para polarizar a árvore e nem faziam uma avaliação estatística 14 mais criteriosa dos nós internos, pré-requisitos essenciais para uma análise filogenética mais robusta (Rector et al., 2007; Schulz et al., 2009). Mais recentemente, a interpretação de algumas árvores filogenéticas sugeriu que múltiplos mecanismos evolutivos devem guiar a diversificação dos PVs (Gottschling et al., 2007b). Esses mecanismos seriam co-divergência entre os vírus e seus hospedeiros (Rector et al., 2007), infecção cruzada entre espécies relacionadas (Gottschling et al., 2007b), estabelecimento de novos nichos ecológicos por irradiação adaptativa (García-Vallvé et al., 2005), e/ou recombinação (Varsani et al., 2006). Entretanto, um cenário compreensivo da evolução e relações filogenéticas entre os PVs ainda não foi estabelecido. 1.6. Bioinformática No estudo da Biologia moderna a Bioinformática tem tido um papel cada vez mais significante. Ela pode ser definida como a aplicação de métodos analíticos e computacionais para a resolução de problemas biológicos, sendo multidisciplinar por essência (Yu et al., 2004). Nas últimas décadas, com o surgimento dos sequenciadores e de novas e eficientes técnicas de análise de sequências, a disponibilização de dados biológicos tem crescido exponencialmente. Esse elevado número de informações exige recursos computacionais cada vez mais eficientes para o armazenamento e análise destes dados (Prosdocimi et al., 2003; Yu et al., 2004; Lesk, 2005). 1.6.1. Genômica Comparativa Análise comparativa de sequências de nucleotídeos e de aminoácidos é uma das principais aplicações da Bioinformática na elucidação de mecanismos moleculares e evolutivos. A Genômica Comparativa não apenas visa discriminar o DNA conservado do divergente ou o funcional do não-funcional, mas também contribui na identificação da classe 15 funcional geral de certos segmentos de DNA, como éxons codificantes, RNAs nãocodificantes e regiões gênicas regulatórias. Com o passar do tempo e com o acúmulo de dados de sequências genômicas, a Genômica Comparativa torna-se uma poderosa ferramenta, cada vez mais informativa (Hardison, 2003). O processo chave da Genômica Comparativa consiste no alinhamento de sequências de DNA, que visa comparar regiões homólogas entre duas ou mais sequências. A Genômica Comparativa observa a similaridade entre genomas, sendo o principal meio para encontrar regiões funcionais e predizer tais funções (Hardison, 2003). A análise comparativa de genomas também permite inferir como a seleção natural atua nas sequências de DNA em diferentes linhagens, permitindo uma análise evolutiva molecular, com a qual é possível verificar regiões do genoma onde há pressão seletiva maior (Ellegren, 2008). 1.6.2. Filogenia Molecular Uma das aplicações mais clássicas da Bioinformática consiste no desenvolvimento de programas para a Filogenia Molecular, que visa reconstruir as relações evolutivas entre os organismos ou genes, comparando homólogos de sequências de DNA ou de proteínas. As dissimilaridades entre as sequências indicam divergência genética como resultado da evolução molecular durante o curso do tempo (Baldauf, 2003). A representação gráfica desses resultados é feita na forma de árvores, conhecidas como árvores filogenéticas (Prosdocimi et al., 2003). As árvores filogenéticas têm sido aplicadas com sucesso no desenho mais efetivo de drogas, reconstruindo a história epidemiológica de vírus, guiando esforços para a conservação da biodiversidade, entre outras aplicações (Bader et al., 2001; Metzker et al., 2002; Sul et al., 2009). Entretanto, inferir árvores evolutivas não é uma tarefa trivial, uma vez que a verdadeira 16 história evolutiva de vários organismos existentes atualmente é desconhecida, e registros fósseis são escassos (Sul et al., 2009). Vários métodos foram criados para inferir a filogenia a partir de dados moleculares (Felsenstein, 1988; Miyamoto e Cracraft, 1991). Entre eles estão os métodos baseados em distância, métodos baseados na parcimônia e métodos baseados na máxima verossimilhança. Os métodos baseados na análise de distâncias entre sequências são os que exigem menor custo computacional, tornando-os úteis na análise de grandes quantidades de dados e de táxons. Esses métodos envolvem, basicamente, o cálculo das distâncias entre as sequências e a construção de uma árvore (Nei e Kumar, 2000). O método mais simples de distância é o método de agrupamento pareado não ponderado com média aritmética (Unweighted Pair Group Method with Aritmetic Mean ou UPGMA). Esse método presume que todas as linhagens evoluíram com uma taxa de substituição gênica constante, obedecendo a um relógio molecular. Neste caso, as distâncias são ultramétricas, e a árvore apresenta o mesmo comprimento de ramo para todos os táxons (Nei e Kumar, 2000). Outro método de distância é a Evolução Mínima, que computa todas as topologias plausíveis, e a topologia com o menor valor do somatório das estimativas de comprimento de todos os ramos é escolhida como a melhor árvore. Apesar de apresentar boas propriedades estatísticas, ele requer um custo computacional substancial quando o número de táxons comparados é grande. Baseado neste método, Saitou e Nei (1987) desenvolveram um método eficiente, Neighbor Joining, mas que não examina todas as possíveis topologias. A Máxima Parsimônia é um método baseado na teoria de que a hipótese mais provável para explicar um processo é aquela que requer o menor número de passos, ou seja, uma árvore filogenética que requer um menor número de substituições para explicar o processo evolutivo é a mais próxima da real (Nei e Kumar, 2000). 17 Existe ainda o método da Máxima Verossimilhança que se baseia na inferência filogenética através da busca por uma árvore que maximize a probabilidade dos dados de sequência observados. Para cada topologia possível são calculadas as probabilidades considerando o modelo evolutivo escolhido, e a topologia mais verossímil (maior valor de probabilidade) é escolhida como a árvore final. Os parâmetros a serem considerados são os tamanhos de ramos para cada topologia. Assim, existe um custo computacional muito alto, uma vez que várias topologias são testadas, assim como a variação do comprimento dos ramos de cada topologia (Nei e Kumar, 2000). 1.6.3. Evolução do uso de códons Análise estatística de sequências gênicas mostra que os códons sinônimos não são usados de forma aleatória nas diferentes espécies. Certos códons sinônimos podem ocorrer mais frequentemente que outros em sequências codificantes. Entender a extensão e as causas do viés do uso de códons é essencial para entender a evolução viral, particularmente a interação entre os vírus e a resposta imune dos hospedeiros (Jiang et al., 2008; Tao et al., 2009). Ferramentas computacionais que usam análises matemáticas e estatísticas são amplamente utilizadas para determinar o uso de códons de um conjunto de sequências. Análises multivariadas, como a análise de correspondência, têm sido utilizadas para estudar sistematicamente o uso de códons heterogêneos em várias espécies (Medigue et al., 1991; Pouwels e Leunissen, 1994; Andersson e Sharp, 1996; Kunst et al. 1997; Kanaya et al., 2001). 1.7. Justificativa Os PVs são distribuídos mundialmente e estão intimamente relacionados com o desenvolvimento de câncer, apresentando uma importância muito grande quanto à saúde 18 pública, pois cerca de 500.000 mulheres desenvolvem câncer cervical anualmente. É estimado também que 80% das mulheres sexualmente ativas teriam sido expostas ao HPV até os 50 anos de idade. Esses vírus também apresentam considerável importância veterinária e econômica, uma vez que os animais passam a apresentar uma aparência desagradável, o que pode causar grandes prejuízos aos diferentes criatórios, principalmente, no que diz respeito à diminuição da produtividade. Há ainda a desvalorização do couro do animal, desenvolvimento retardado, cegueira, depreciação do valor do animal em função da dificuldade em comercializá-lo, problemas relacionados à fertilidade, principalmente quando o papiloma localiza-se no órgão reprodutor do animal. No caso das vacas, a doença também pode provocar o surgimento de mastite e dificuldades na ordenha, quando a verruga encontra-se no úbere ou teto. Entender a evolução dos vírus pode ajudar a relacioná-los com propriedades biológicas e patológicas específicas. Nos PVs, ocorrem numerosas consistências entre filogenia e patologia, como os HPVs-16 e 31 que causam câncer cervical e são relacionados filogeneticamente. Além disso, a análise comparativa das sequências genéticas desses vírus pode tornar possível o desenvolvimento de novos métodos de detecção e genotipagem mais eficazes, desenho de drogas específicas, além do desenvolvimento de formulações vacinais eficientes de amplo espectro (de Villiers et al., 2004; Bernard, 2006). Apesar disso, ainda não há um cenário evolutivo completamente elucidado das relações filogenéticas dos PVs. A partir da observação da especificidade dos PVs, Chan et al. (1995) sugeriram que uma evolução ligada ao hospedeiro deveria guiar a diversificação desses vírus. Entretanto, foi relatado que alguns tipos de PVs infectavam outros hospedeiros, como alguns BPVs que são capazes de infectar cavalos (Chambers et al., 2003). Além disso, não foram encontrados grupos monofiléticos em todos os tipos de PVs que infectam um mesmo hospedeiro (García-Vallvé et al., 2005). 19 Assim, esse trabalho se justifica por apresentar e discutir dados importantes para a análise in silico da variabilidade genética dos PVs, além de abordagens alternativas de análise filogenética que detectam e removem parte dos dados que contém altos níveis de sinais que perturbam a reconstrução da complexa história evolutiva desses vírus. 20 2. Objetivos 2.1. Objetivo Geral Utilizar ferramentas computacionais para entender as diferenças e similaridades entre os genomas dos PVs, visando contribuir para a compreensão da biologia e evolução viral, além das patologias causadas por eles. 2.2. Objetivos específicos Criar um banco de dados local com as sequências dos genomas completos de PVs depositados no GenBank. Inferir o nível de similaridade e divergência entre os genomas dos PVs. Avaliar taxas e índices de variabilidade entre as sequências de nucleotídeos e aminoácidos dos PVs. Realizar uma análise da evolução do uso de códons dos PVs e de seus respectivos hospedeiros. Verificar a presença de pressão seletiva heterogênea nas proteínas dos PVs. Estimar regiões que alteram o sinal filogenético do conjunto de dados, como regiões de alta entropia ou em que ocorreram possíveis eventos de recombinação. Identificar a presença de domínios, padrões e motivos, relacionando-os com a variabilidade genética dos PVs. Analisar as relações filogenéticas de diferentes regiões do genoma dos PVs, excluindo regiões perturbadoras. 21 3. Materiais e Métodos 3.1. Criação do banco de dados local 3.1.1. Obtenção das sequências virais Para as análises, foi obtido um conjunto representativo de 53 sequências de genomas completos, compreendendo toda a diversidade dos PVs, sendo 47 de PVs não-humanos e seis genomas de HPVs. Devido ao grande número de HPVs identificados atualmente, apenas um representante de cada gênero foi selecionado, para evitar um viés na análise. Estas sequências foram recuperadas do banco de dados público do National Center for Biotechnology Information (NCBI - http://www.ncbi.nlm.nih.gov/). A denominação das sequências, os respectivos números de acesso do Genbank e hospedeiros são mostrados na Tabela 1. A partir dos genomas completos, foram recuperadas separadamente as sequências nucleotídicas de cada gene, assim como as sequências de aminoácidos de cada proteína, utilizando-se a ferramenta BLAST (Altschul et al., 1990). Para isso, foi utilizado o algoritmo BLASTN, que permite procurar em um banco de dados de nucleotídeos usando uma sequência de nucleotídeos como entrada, e o algoritmo BLASTX, que permite procurar em um banco de dados de aminoácidos usando uma sequência de nucleotídeos traduzida com o código genético padrão como entrada. 3.1.2. Montagem do banco de dados local As sequências obtidas foram organizadas no formato FASTA e armazenadas em diferentes arquivos. Neste formato, cada entrada é iniciada pelo símbolo “>” seguido pelo 22 identificador da sequência, e na linha inferior são inseridos os caracteres da sequência sem espaços ou marcas de parágrafos. Em seguida, as sequências foram processadas pelo programa BioEdit versão 7.0.9 (Hall, 1999), onde foram criados arquivos com os bancos de dados locais de nucleotídeos e de aminoácidos, separados gene a gene e proteína a proteína, respectivamente. Também foram anexadas ao banco informações intrínsecas dos genomas como tamanho e composição mononucleotídica e dinucleotídica. 3.2. Análise Comparativa da Estrutura Genômica dos PVs 3.2.1. Análise da estrutura genômica Os genomas dos PVs, organizados no banco de dados local, foram analisados quanto ao número e ordenação dos genes presentes. Uma tabela foi feita com dados binários de presença ou ausência das ORFs baseados na anotação estabelecida no banco de dados do NCBI. Para os prováveis genes com função desconhecida, foram realizadas buscas no Genbank a partir de alinhamentos locais através da ferramenta BLAST (Altschul et al., 1990), com o objetivo de buscar algumas informações relevantes para a anotação dessas sequências. Foram coletadas e armazenadas no banco de dados local informações referentes ao conteúdo de %GC (em todo o genoma), %GC1 (na primeira posição dos códons), %GC2 (na segunda posição dos códons), %GC3 (na terceira posição dos códons), e de aminoácidos utilizando os programas Molecular Evolutionary Genetics Analysis v. 4.0 (MEGA4) (Tamura et al., 2007) e Data Analysis in Molecular Biology and Evolution (DAMBE) v. 5.0.54 (Xia e Xie, 2001). 23 Tabela 1: Lista dos PVs, seus respectivos hospedeiros e número de acesso das sequências. Nome Abreviação Gênero Hospedeiro Ordem (Hospedeiro) Número de Acesso European elk papillomavirus EEPV Deltapapillomavirus Alces alces Artiodactyla NC_001524 Bovine Papillomavirus type 4 BPV-4 Xipapillomavirus Bos taurus Artiodactyla X05817 Bovine papillomavirus type 9 BPV-9 Xipapillomavirus Bos taurus Artiodactyla NC_010192 Bovine papillomavirus type 3 BPV-3 Xipapillomavirus Bos taurus Artiodactyla NC_004197 Bovine papillomavirus type 10 BPV-10 Xipapillomavirus Bos taurus Artiodactyla NC_010193 Bovine papillomavirus type 6 BPV-6 Xipapillomavirus Bos taurus Artiodactyla AJ620208 Phocoena spinipinnis papillomavirus PsPV Omikronpapillomavirus Phocoena spinipinnis Cetacea NC_003348 Tursiops truncatus papillomavirus type 2 TTPV-2 Não-classificado Tursiops truncatus Cetacea NC_008184 Tursiops truncatus papillomavirus type 1 TTPV-1 Não-classificado Tursiops truncatus Cetacea NC_011109 Tursiops truncatus papillomavirus type 3 TTPV-3 Não-classificado Tursiops truncatus Cetacea NC_011110 Capra hircus papillomavirus type 1 ChPV-1 Não-classificado Capra hircus Artiodactyla NC_008032 Canine papillomavirus type 2 CaPV-2 Não-classificado Canis familiaris Carnivora NC_006564 Rousettus aegyptiacus papillomavirus type 1 RaPV-1 Não-classificado Rousettus aegyptiacus Chiroptera DQ366842 Mastomys coucha papillomavirus type 2 McPV-2 Não-classificado Mastomys coucha Rodentia NC_008519 Old World harvest mouse papillomavirus OWHMPV Não-classificado Micromys minutus Rodentia NC_008582 Bovine papillomavirus type 7 BPV-7 Não-classificado Bos taurus Artiodactyla DQ217793 Human papillomavirus type 18 HPV-18 Alphapapillomavirus Homo sapiens Primates NC_001357 Human papillomavirus type 48 HPV-48 Gammapapillomavirus Homo sapiens Primates NC_001690 Human papillomavirus type 24 HPV-24 Não-classificado Homo sapiens Primates NC_001683 Macaca fascicularis papillomavirus type 1 MfPV-1 Betapapillomavirus Macaca fascicularis Primates EF028290 Trichechus manatus latirostris papillomavirus type 1 TmPV-1 Não-classificado Trichechus manatus Sirenia NC_006563 latirostris Sus scrofa papillomavirus type 1 SsPV-1 Não-classificado Sus scrofa Artiodactyla NC_011280 Ursus maritimus papillomavirus type 1 UmPV-1 Não-classificado Ursus maritimus Carnivora NC_010739 24 Human papillomavirus type 41 HPV-41 Nupapillomavirus Homo sapiens Primates NC_001354 Human papillomavirus type 1 HPV-1 Mupapillomavirus Homo sapiens Primates NC_001356 Common chimpanzee papillomavirus type 1 CcPV-1 Não-classificado Pan troglodytes Primates NC_001838 Human papillomavirus type 5 HPV-5 Betapapillomavirus Homo sapiens Primates NC_001531 Rhesus monkey papillomavirus RmPV Alphapapillomavirus Macaca mulatta Primates NC_001678 Canine papillomavirus type 3 CaPV-3 Não-classificado Canis familiaris Carnivora NC_008297 Canine papillomavirus type 4 CaPV-4 Não-classificado Canis familiaris Carnivora NC_010226 Equus caballus papillomavirus type 1 EcPV-1 Zetapapillomavirus Equus caballus Artiodactyla NC_003748 Bovine papillomavirus type 5 BPV-5 Epsilonpapillomavirus Bos taurus Artiodactyla NC_004195 Bovine papillomavirus type 8 BPV-8 Epsilonpapillomavirus Bos taurus Artiodactyla NC_009752 Bovine papillomavirus type 1 BPV-1 Deltapapillomavirus Bos taurus Artiodactyla NC_001522 Bovine papillomavirus type 2 BPV-2 Deltapapillomavirus Bos taurus Artiodactyla M20219 Ovine papillomavirus type 1 OPV-1 Deltapapillomavirus Ovis aries Artiodactyla NC_001789 Western roedeer papillomavirus type 1 WrPV-1 Deltapapillomavirus Capreolus capreolus Artiodactyla NC_011051 Reindeer papillomavirus RPV Deltapapillomavirus Rangifer tarandus Artiodactyla AF443292 Deer papillomavirus DPV Deltapapillomavirus Odocoileus virginianus Artiodactyla NC_001523 Cottontail rabbit papillomavirus CrPV Kappapapillomavirus Sylvilagus floridanus Lagomorpha NC_001541 Rabbit oral papillomavirus RoPV Kappapapillomavirus Oryctolagus cuniculus Lagomorpha NC_002232 Erethizon dorsatum papillomavirus type 1 EdPV-1 Não-classificado Erethizon dorsatum Rodentia NC_006951 Procyon lotor papillomavirus type 1 PlPV-1 Não-classificado Procyon lotor Carnivora NC_007150 Canine oral papillomavirus CoPV Lambdapapillomavirus Canis familiaris Carnivora NC_001619 Uncia uncia papillomavirus type 1 UuPV-1 Lambdapapillomavirus Uncia uncia Carnivora DQ180494 Felis domesticus papillomavirus type 1 FdPV-1 Lambdapapillomavirus Felis silvestris catus Carnivora AF480454 Lynx rufus papillomavirus type 1 LrPV-1 Lambdapapillomavirus Lynx rufus Carnivora AY904722 Puma concolor papillomavirus type 1 PcPV-1 Lambdapapillomavirus Puma concolor Carnivora AY904723 Multimammate rat papillomavirus MrPV Iotapapillomavirus Mastomys natalensis Rodentia NC_001605 25 Psittacus erithacus timneh papillomavirus PePV Thetapapillomavirus Psittacus erithacus timneh Psittaciformes NC_003973 Fringilla coelebs papillomavirus FcPV Etapapillomavirus Fringilla coelebs Passeriformes NC_004068 Chelonia mydas papillomavirus 1 CmPV-1 Não-classificado Chelonia mydas Testudinata NC_011531 Caretta caretta papillomavirus 1 CcaPV-1 Não-classificado Caretta caretta Testudinata NC_011530 26 Foi criada também a tabela de uso de códons para cada genoma viral através do programa INteractive Codon Usage Analysis (INCA) (Supek e Vlahovicek, 2004). As mesmas informações foram obtidas também para os respectivos hospedeiros através do banco de dados público de uso de códons Kazusa (http://www.kazusa.or.jp/codon/). Foi realizada uma análise de similaridade pareada entre os genomas dos PVs a partir da ferramenta Polydot (http://vm-bioinfo.toulouse.inra.fr/emboss/emboss.cgi/help/polydot), que gera uma representação gráfica intuitiva de regiões similares entre duas sequências. Foram utilizadas as opções padrões, com um tamanho de região da sequência utilizada (word size) de 20. 3.2.2. Análise do Pan-Genoma Essa análise foi realizada com o intuito de se conhecer genes que são homólogos (coregenome), genes que são únicos e genes que são dispensáveis (ausentes em um ou mais tipos virais) nos genomas completos dos PVs, representando a essência e a grande diversidade desses vírus. Para se conhecer as relações de similaridade entre os genomas, a ferramenta GenomeBlast (http://bioinfo-srv1.awh.unomaha.edu/genomeblast/) foi utilizada. Ela utiliza os programas BLASTP e MEGABLAST para realizar a comparação entre os genomas. Foram utilizados os parâmetros padrões, que usam um ponto de corte de 50% para cobertura e 30% para identidade, visando à identificação de genes homólogos. Os resultados foram comparados com as informações anotadas no NCBI. Todos os genomas foram utilizados nessa abordagem, com exceção do BPV-4, devido a problemas na anotação deste genoma no banco de dados do Genbank. Assim, foi possível obter uma matriz com dados de conteúdo gênico, número de genes homólogos, únicos e também de dispensáveis. 27 3.2.3. Construção de árvores genômicas baseada em estatística de códons As informações coletadas acerca do conteúdo de %GC; %GC1, %GC2 e %GC3; de frequência de uso de códons e de aminoácidos foram utilizadas para a construção de duas matrizes de dados. A partir dessas matrizes foram construídos dendrogramas, baseados em análises de agrupamentos hierárquicos através do programa de análises estatísticas SPSS versão 16.0, com Distância Euclidiana quadrada. 3.2.4. Agrupamento baseado no conteúdo gênico A partir da identificação dos genes ortólogos foi possível obter dados acerca do número de genes compartilhados entre os tipos virais e, deste modo, especular sobre a evolução do conteúdo gênico dos PVs. Então, uma matriz foi criada com dados binários de presença ou ausência de cada gene em cada genoma. Assim, a distância entre dois genomas foi expressa como uma fração do número de genes compartilhados, ou seja, um coeficiente de similaridade entre os pares de sequência foi calculado e transformado em distância, de acordo com Snel et al. (1999). A fração foi calculada usando a fórmula 1 – (número de genes compartilhados / número de genes no menor genoma), e os dados transpostos em uma matriz. Uma árvore de UPGMA foi construída baseada nessa matriz de distância usando a ferramenta DendroUPGMA (http://genomes.urv.cat/UPGMA/). O coeficiente de Jaccard foi utilizado para comparar o conjunto de variáveis. Por fim, foi realizado um teste estatístico de confiabilidade dos ramos utilizando 100 réplicas de bootstrap. 3.3. Alinhamento múltiplo das sequências genômicas As sequências de aminoácidos dos PVs obtidas foram alinhadas proteína a proteína utilizando uma versão do programa ClustalW (Thompson et al., 1994) incorporada no software MEGA4 (Tamura et al., 2007) para comparação. Regiões difíceis de alinhar foram 28 realinhadas com uma penalidade maior para abertura e extensão de gaps, sendo ajustados manualmente em seguida. Os alinhamentos de aminoácidos foram traduzidos de volta para os códons para obter as sequências alinhadas de nucleotídeos. Esta abordagem foi utilizada para evitar que os gaps fossem inseridos em regiões inadequadas, mudando a matriz de leitura dos códons. Todos os alinhamentos foram organizados no formato FASTA, que é utilizado pela maioria dos programas de Bioinformática. 3.4. Análise da diversidade genômica dos PVs 3.4.1. Análise da variabilidade dos genes e proteínas A partir dos alinhamentos foi possível observar os polimorfismos oriundos de substituições e eventos de inserção e deleção (indels), além dos sítios mais conservados. Em seguida, os alinhamentos das sequências de aminoácidos de cada proteína foram submetidos à análise pela ferramenta Alignment Processor (Henikoff et al., 1995), localizada no servidor Blocks, visando à determinação de fragmentos conservados entre as sequências ou blocos, a partir de informações relativas à estrutura primária das proteínas. Para cada gene, e consequentemente para cada proteína, foi calculado o número total de sítios alinhados, número de sítios com gaps, sítios invariáveis, sítios variáveis, sítios variáveis singletons, sítios informativos de parcimônia e o número total de mutações através dos programas MEGA4 (Tamura et al., 2007) e DNA Sequence Polymorphism (DnaSP) versão 5.10.00 (Librado e Rozas, 2009). Além disso, foram calculadas as taxas de transição e transversão, assim como a razão entre elas, utilizando o programa Tree-Puzzle versão 5.2 (Schmidt et al., 2002). 29 3.4.2. Análise de logos de sequência Foram produzidos logos de sequências de nucleotídeos e de aminoácidos dos PVs, que são representações gráficas de um alinhamento múltiplo, através do programa WebLogo (Crooks et al., 2004) utilizando os parâmetros padrões. Os logos consistem de símbolos representados para cada posição do genoma, cuja altura está relacionada com o grau de conservação daquele sítio, ou seja, indica a frequência relativa para cada aminoácido ou nucleotídeo de cada posição. A partir destas representações é possível observar regiões mais conservadas dos genomas, assim como domínios funcionais nas sequências de aminoácidos. 3.5. Análise de pressão seletiva Com o objetivo de avaliar qual o tipo de pressão seletiva que determina a evolução das proteínas dos PVs, estimativas de máxima verossimilhança foram utilizadas a partir de vários modelos de substituição de códons com a ajuda do programa CODEML, incorporado no pacote Phylogenetic Analysis by Maximum Likelihood (PAML) versão 4.2a (Yang, 2007). A partir desse programa também foi possível analisar se houve intensidade de seleção variável entre os sítios na sequência de aminoácidos. A verificação da pressão seletiva exercida em determinados genes pode ser realizada calculando-se a razão entre a taxa de substituição não-sinônima pela de substituição sinônima (ω = dN/dS). Quando ω = 0, significa que não há substituições não-sinônimas, devido à seleção natural. Se ω = 1, a pressão seletiva exercida sobre o gene é neutra, ou seja, as mudanças de aminoácidos possuem aproximadamente a mesma probabilidade de fixação que as substituições sinônimas. A seleção diversificadora ou positiva ocorre quando ω > 1, indicando que existe uma probabilidade maior de ocorrer e fixar substituições não-sinônimas, sendo essas mudanças adaptativas. A seleção negativa ou purificadora (0 < ω < 1) indica que as 30 substituições de aminoácidos são deletérias, e seu destino é determinado pela seleção natural, mutação ou deriva genética. De todos os modelos de substituição de códons implementados no CODEML, seis são mais ajustáveis às sequências de DNA virais (Nielsen e Yang, 1998; Yang et al., 2000), e eles foram testados para determinar qual o que mais se adéqua ao conjunto de dados. O modelo mais simples é o M0 (uma razão), que assume todos os códons admitindo o mesmo valor de ω, que é medido como uma média para todos os sítios (Goldman e Yang, 1994). O modelo M1 (neutro) assume duas situações: ou os sítios apresentam uma frequência p 0 e possuem ω = 0 (conservados), ou apresentam frequência p1 = 1 – p0 e possui ω = 1 (neutros) (Nielsen e Yang, 1998). Além dessas duas situações, o modelo M2 (seleção) permite utilizar a frequência de códons p2 e assume ω > 0. Continuando, o modelo M3 (discreto) permite n categorias de códons para um determinado número de classes (K), os valores de ω por categoria, são estimados a partir dos dados e seguem uma distribuição gama, subdividida em k categorias (Yang et al., 2000). O modelo M7 (beta) assume dez categorias de códons, com valores de ω distribuídos nestas categorias de acordo com uma distribuição beta, com todos os valores menores que um, indicando seleção negativa (Yang et al., 2000). Por fim, o modelo M8 (beta e ω) é muito parecido com M7, exceto que ele incorpora uma categoria a mais, que pode ter valores de ω maiores que um e, assim, permite a detecção de seleção positiva na última categoria (Yang et al., 2000). A abordagem de detecção de seleção positiva foi inicialmente feita pela estimativa de parâmetros para todos os modelos acima citados, em seguida o teste Likelihood Ratio Test (LRT) foi usado para verificar qual o modelo que melhor se ajustou aos dados, calculando-se a diferença dos valores de verossimilhança entre os modelos equivalentes (Nielsen e Yang, 1998; Yang et al., 2000). Essa diferença segue uma distribuição qui-quadrado (χ2), permitindo 31 determinar a significância estatística entre os modelos, assumindo que os graus de liberdade são dados pela diferença entre os parâmetros de cada modelo. 3.6. Análise de recombinação A detecção de potenciais sequências recombinantes, identificação de prováveis sequências parentais e a localização de possíveis breakpoints de recombinação entre os PVs foram realizadas utilizando o Recombination Detection Program versão 3.0 (RDP3) (Martin et al., 2005). Este software aplica vários algoritmos de análise e detecção de recombinação, que foram utilizados para aumentar a acurácia da detecção, entre eles: o próprio método RDP (Martin e Rybicki, 2000), o método Bootscanning (Martin et al., 2005), o método GENECONV (Padidam et al., 1999), o método Maximum Chi Square (MaxChi) (Maynard Smith, 1992), o método Chimaera (Posada e Crandall, 2001), o método Sister Scanning (SiScan) (Gibbs et al., 2000) e o método 3SEQ (Boni et al., 2007). Para ser um evento de recombinação válido, foram considerados apenas aqueles que foram detectados por pelo menos três algoritmos diferentes, uma vez que a avaliação do desempenho desses métodos de detecção de recombinação usando dados simulados e empíricos não se mostrou amplamente confiável quando utilizado apenas um método (Posada, 2002). As configurações padrões foram utilizadas para cada etapa do processo. Na primeira etapa, um scan preliminar para recombinação foi realizado, enquanto que na segunda etapa foram testadas e refinadas as hipóteses de recombinação preliminar. 3.7. Análise de entropia Com o objetivo de se encontrar as regiões mais informativas para a análise filogenética dos PVs, as sequências nucleotídicas foram submetidas à análise de entropia através do 32 programa DAMBE (Xia e Xie, 2001), visando à avaliação da variabilidade e complexidade de cada sítio. Foi utilizado um tamanho de janela igual a 100 com o objetivo de diminuir o ruído do gráfico. A entropia é calculada para cada posição utilizando a fórmula onde , corresponde à entropia em cada sítio ; é igual a 1, 2, 3 ou 4, correspondendo aos nucleotídeos A, C, G ou T, respectivamente; e é a proporção do nucleotídeo no sítio . Um gráfico foi criado com os valores de entropia calculados para cada sítio. Todos os sítios com baixa complexidade, ou seja, com valores de entropia menor ou igual a dois foram selecionados para a construção da filogenia, uma vez que com esses valores, todos os quatro nucleotídeos podem ser representados. 3.8. Predição da estrutura secundária das proteínas Uma vez calculada a entropia para cada posição do genoma dos PVs, é importante localizar as regiões de baixa complexidade nas estruturas secundárias das respectivas proteínas com o objetivo de associar a baixa entropia com regiões importantes estrutural e funcionalmente. Assim, para cada proteína, foi realizada a predição da estrutura secundária utilizando o servidor JPred 3 (Cole et al., 2008), que incorpora o algoritmo Jnet. Esse servidor utiliza uma combinação de métodos de predição para aumentar a possibilidade de sucesso na determinação da estrutura secundária. Além do aumento da acurácia, o JPred 3 permite predizer a estrutura secundária baseado em um alinhamento múltiplo de sequências de aminoácido, produzindo um consenso das estruturas obtidas a partir de cada sequência. 33 A partir daí, uma associação entre as regiões de baixa entropia com as regiões de αhélice, folhas β e alça da proteína foi realizada, visando buscar sítios importantes funcionalmente para as proteínas dos PVs. 3.9. Reconstrução filogenética dos PVs Em um primeiro momento, as regiões utilizadas de cada gene foram submetidas ao ModelTest versão 3.7 (Posada e Crandall, 1998) para definir a escolha do modelo de substituição de nucleotídeos que melhor se adéqua aos dados. Para as sequências de aminoácidos foi utilizado o programa ProtTest versão 2.4 (Abascall et al., 2005). Foi utilizada a estrutura de seleção de modelos Akaike Information Criterion (AIC). 3.9.1. Análise de sinal filogenético Para verificar se existe sinal filogenético no conjunto dos dados, foi utilizado o programa Tree-Puzzle 5.2 (Schmidt et al., 2002). Essa verificação foi realizada através do mapeamento da verossimilhança (likelihood mapping), que analisa grupos de quatro sequências escolhidas ao acaso chamadas de quartetos (Strimmer e von Haeseler, 1997). Ao agrupar os quartetos, apenas três topologias de árvores não-enraizadas são possíveis, e para cada uma delas é possível estimar um valor de verossimilhança, que pode ser registrado como um ponto em um triângulo equilátero. As topologias de árvores completamente resolvidas são representadas nos vértices do triângulo, indicando a presença de sinal filogenético nos dados. Entre os vértices, ficam representadas as topologias parcialmente resolvidas, que apresentam uma forma de rede (net-like). No centro do triângulo ficam representadas as topologias não-resolvidas apresentando forma de estrela (star-like). 34 À medida que o ruído filogenético aumenta, um maior número de topologias de árvores se apresenta não-resolvidas ou parcialmente resolvidas. Assim, é estabelecido que 50% ou mais das topologias devem estar completamente resolvidas para que se tenha sinal filogenético. 3.9.2. Avaliação da saturação das sequências Para verificar o decaimento do sinal filogenético causado por saturação, foram construídos gráficos que representam o comportamento das taxas de transição e transversão à medida que se aumenta a distância genética entre as sequências, com a ajuda do programa DAMBE (Xia e Xie, 2001). Apesar dos altos níveis de saturação, a terceira posição do códon foi mantida nas análises com nucleotídeos porque os cortes baseados na entropia já excluíram as regiões problemáticas, que poderiam causar um viés evolutivo e consequentemente a ocorrência de agrupamentos aleatórios. 3.9.3. Organização das matrizes e teste de homogeneidade das partições Os genes E4 e E5 foram excluídos da análise por não estarem presentes em pelo menos 80% dos tipos de PVs, apresentarem níveis de entropia e saturação bastante elevados, e ainda por demonstrar os menores valores de sinal filogenético. Assim, a matriz de dados utilizada na análise continha os genes E1, E2, E6, E7, L2 e L1. Em paralelo, análises foram realizadas com os genes concatenados E1, E2, L2 e L1, e também com os genes E6, E1, E2, L2, L1, com o objetivo de avaliar qual o conjunto de genes que melhor conta a história evolutiva dos PVs, assim como confirmar o método utilizado com um número mais representativo de vírus, uma vez que o primeiro conjunto de genes está presente em todos os tipos virais. 35 Antes da reconstrução filogenética, foi avaliada a congruência entre os conjuntos de dados com o teste Incongruence Lenght Difference (ILD) (Farris et al., 1994) implementado no programa NONA versão 2.0 (Goloboff, 1999), incorporado no software WinClada versão 1.00.08 (Nixon, 2002). O teste ILD foi realizado utilizando o critério de máxima parsimônia com procura heurística através do método Tree-Bisection-Reconnection (TBR) de branch swapping e parâmetros padrões. Foram considerados como incongruência significante entre as partições os valores de P ≤ 0,01. 3.9.4. Análise Filogenética dos PVs A reconstrução da filogenia dos PVs foi realizada utilizando métodos baseados em distância, máxima parcimônia, máxima verossimilhança e análise bayesiana. Todas as análises foram feitas utilizando sequências de nucleotídeos e de aminoácidos, e os gaps foram tratados como dados perdidos. O método de distância utilizado foi o Neighbor Joining, e a árvore foi gerada no programa PAUP* versão 4.0b10 (Swofford, 2002), utilizando os modelos e parâmetros mais adequados ao conjunto de dados. O suporte estatístico dos ramos foi estimado baseado em 1000 réplicas de bootstrap não-paramétrico usando busca heurística. Os cálculos de Máxima Parsimônia também foram processados no PAUP* (Swofford, 2002). Para a geração das árvores foram utilizadas buscas heurísticas com o método TBR, árvores iniciais obtidas por adição de táxons aleatoriamente com 10 réplicas. Além disso, 1000 réplicas de bootstrap não-paramétrico foram utilizadas. A máxima verossimilhança foi realizada com a ajuda do programa PhyML versão 3.0 (Guindon e Gascuel, 2003). Os modelos evolutivos e os parâmetros que mais se adequaram ao conjunto de dados foram utilizados, assim como o método NNI para estimar a topologia da 36 árvore. Uma árvore de BioNJ foi utilizada como árvore inicial e os táxons foram adicionados aleatoriamente. A análise bayesiana foi realizada com o programa MrBayes versão 3.1 (Ronquist e Huelsenbeck, 2003), que usa uma técnica de simulação chamada Cadeia de Markov Monte Carlo (MCMC) para aproximar a probabilidade posterior das árvores. Mais uma vez, os parâmetros e modelos mais adequados foram utilizados. A topologia final foi estimada com 1.000.000 de interações usando 2.000 ciclos descartados e amostrando cada 100 interações. 37 4. Resultados 4.1. Banco de dados local 4.1.1. Obtenção das sequências Após uma busca exaustiva no banco de dados do NCBI, 53 tipos de PVs que continham genomas completamente sequenciados foram selecionados para as análises, representando toda a diversidade conhecida dos PVs até o momento. Destes, 47 genomas são de PVs que infectam hospedeiros não-humanos e apenas seis foram selecionados para representar os HPVs, sendo cada um deles representante de um gênero. Isso foi feito para evitar que os HPVs enviesassem as análises, uma vez que mais de cem tipos desses vírus já tiveram os seus genomas completamente sequenciados. Foi possível observar que todos os tipos virais apresentaram os genes E1, E2, L2 e L1. Entretanto, observou-se que aproximadamente 75,5% dos PVs continham o gene E4; 43,4% o gene E5; 84,9% o gene E6 e também 84,9% o gene E7. Poucos PVs apresentaram alguns genes não-usuais que foram encontrados depositados no banco de dados, sendo que a maioria desses genes está completamente sobreposto por outros. O tamanho do genoma dos PVs variou bastante, oscilando de 6953 bp (CmPV1) a 8607 bp (CoPV). Com relação ao conteúdo %GC, os PVs apresentaram uma distribuição que varia de 36,8% (HPV48) a 53,8% (SsPV1) (Tabela 2). Tabela 2: Genomas utilizados na análise, seu tamanho e conteúdo de GC total, assim como na primeira, segunda e terceira posição do códon. PVs Genoma (pb) GC(%) GC1(%) GC2(%) GC3(%) BPV1 7944 45,3 52,3 43,9 35,5 BPV10 7399 43,5 49,9 43,0 31,7 38 BPV2 7937 45,8 53,2 45,1 37,2 BPV3 7276 43,1 50,9 43,2 35,1 BPV4 7265 42,0 49,6 43,4 34,1 BPV5 7841 44,2 51,2 44,1 36,4 BPV6 7296 43,5 51,5 43,4 36,4 BPV7 7412 45,5 50,5 43,1 38,9 BPV8 7791 46,3 52,7 45,3 39,0 BPV9 7303 44,6 51,1 42,6 36,5 CaPV2 8101 46,1 53,2 46,5 42,6 CaPV3 7801 51,5 55,6 46,1 49,9 CaPV4 7742 53,3 57,2 46,7 53,8 CcaPV1 7020 47,1 52,8 43,9 43,3 CcPV1 7888 38,2 47,1 41,3 26,3 ChPV1 7542 44,6 53,0 44,7 40,6 CmPV1 6953 47,2 52,3 45,5 44,5 CoPV 8607 41,6 51,1 42,6 33,5 CrPV 7868 46,4 52,8 43,8 40,4 DPV 8374 47,5 53,0 46,7 44,3 EcPV1 7610 53,0 57,1 45,5 55,4 EdPV1 7428 44,8 53,7 44,0 34,5 EEPV 8095 47,7 53,1 46,0 42,6 FcPV 7729 47,7 54,7 45,1 37,4 FdPV1 8300 46,1 52,9 44,6 42,0 HPV1 7815 40,3 49,0 41,7 29,5 HPV18 7857 40,4 49,1 42,1 32,3 HPV24 7452 40,0 48,5 42,7 28,0 HPV41 7614 46,9 53,0 42,9 43,1 HPV48 7100 36,8 44,8 40,9 21,3 HPV5 7746 42,4 50,6 41,3 37,6 LrPV1 8233 47,4 54,2 44,0 47,7 McPV2 7522 46,8 53,2 43,9 40,2 MfPV1 7588 43,7 51,7 44,1 35,4 MrPV 7687 50,2 53,6 47,7 43,8 OPV1 7761 45,7 51,4 44,0 36,0 OWHMPV 7393 43,5 50,4 42,6 33,1 PcPV1 8321 47,2 53,9 44,5 45,0 PePV 7304 49,3 56,8 47,3 44,3 PlPV1 8103 44,8 53,9 43,9 40,6 PsPV 7879 46,4 53,1 46,2 44,0 RaPV1 7970 51,1 57,6 45,3 46,9 RmPV1 8028 48,0 53,8 43,4 47,9 39 RoPV 7565 44,4 50,8 42,6 38,2 RPV 8090 45,5 52,1 44,3 38,4 SsPV1 7260 53,8 56,0 48,2 59,2 TmPV1 7722 45,1 53,5 45,3 38,5 TTPV1 8089 42,0 49,4 44,7 26,3 TTPV2 7866 46,0 51,6 44,4 37,8 TTPV3 7915 44,2 51,4 46,0 31,8 UmPV1 7582 48,4 53,1 43,9 45,9 UuPV1 8078 46,6 53,1 43,8 43,1 WrPV1 8032 47,3 52,9 45,2 39,4 4.2. Análise genômica comparativa 4.2.1. Análise da estrutura e anotação genômica Após a construção de uma tabela com dados binários de presença ou ausência de genes, foi possível observar a presença de alguns prováveis genes com função desconhecida. A utilização do BLASTN não nos proporcionou resultados suficientemente confiáveis que possam sugerir uma possível função para esses genes. Na análise de similaridade pareada foi possível observar a grande variabilidade entre os genomas dos PVs. Entretanto, algumas regiões com alta similaridade foram encontradas em alguns vírus (Figura 7). Foi possível observar alguns grupos de vírus com genomas mais similares, como foi o caso de todos os BPVs. O TTPV1 e o TTPV3, que infectam o mesmo hospedeiro, também possuem genomas que se apresentam bastante similares, assim como ocorre com o CmPV1 e o CcaPV1, que infectam espécies diferentes de tartarugas. Dois outros grupos de vírus com genomas similares são os formados por OPV1, WrPV1, RPV e DPV e o formados por UuPV1, FdPV1, LrPV1 e PcPV1. 40 Figura 7: Análise de similaridade genômica pareada entre os PVs. Cada quadrado representa a comparação entre dois genomas, sendo as linhas na diagonal indicativo de alto grau de similaridade nos genomas comparados. Da esquerda para direita e de baixo para cima: EEPV, PsPV, TTPV2, TTPV1, TTPV3, ChPV1, CaPV2, RaPV1, McPV2, OWHMPV, MfPV1, TmPV1, SsPV1, UmPV1, CcPV1, RmPV1, CaPV3, CaPV4, EcPV1, OPV1, WrPV1, RPV, DPV, CrPV, RoPV, EdPV1, PlPV1, CoPV, UuPV1, FdPV1, LrPV1, PcPV1, MrPV, PePV, CmPV1, CcaPV1, FcPV, BPVs1-10, HPV18, HPV5, HPV48, HPV1, HPV41 e HPV24. 4.2.2. Análise do Pan-genoma O estudo do Pan-genoma de um grupo de organismos, principalmente microrganismos, nos indica, baseado em similaridades, a presença de genes homólogos ou indispensáveis, genes únicos e genes dispensáveis. Para os papilomavírus, foram identificados 102 genes homólogos, 10 genes únicos e 272 genes dispensáveis. É importante ressaltar a ausência do BPV4, devido a problemas na anotação de seu genoma no NCBI, mais especificamente, a ausência dos códons de início e de parada das ORFs. 41 4.2.3. Estatística de códons e evolução dos genomas O banco de dados local contendo informações dos genomas foi utilizado como matriz de entrada para gerar os agrupamentos. Analisando o conteúdo de GC% dos papilomavírus (Figura 8a) foi possível observar alguns agrupamentos com vírus que infectam o mesmo hospedeiro (e.g. HPV18, HPV24 e HPV1) ou hospedeiros próximos (HPV48 e CcPV1). Entretanto, de uma maneira geral, a árvore não ficou bem resolvida, não separando vários vírus que infectam hospedeiros diferentes e distantes filogeneticamente. A utilização das informações referentes ao conteúdo GC% nas posições 1, 2 e 3 dos códons nas análises também não se mostrou sensível o suficiente para separar os grupos de vírus (Figura 8b). Além disso, é importante destacar que as duas metodologias apresentaram vários agrupamentos diferentes. Mais uma vez, vários vírus que infectam hospedeiros distantes filogeneticamente não foram separados. Baseado na frequência de uso de códons entre os genomas de Papilomavírus, uma árvore foi gerada por agrupamento hierárquico. Como mostrado na Figura 9a, o dendrograma se apresentou bem mais resolvido, e os PVs foram separados em cinco grupos. O primeiro grupo continha vírus que infectam Artiodactyla (ART), Cetacea (CET), Rodentia (ROD), Passeriformes (PAS), Chiroptera (CHI), Lagomorpha (LAG), Primates (PRI) e Carnivora (CAR). Os vírus do grupo 2 infectam Sirenia (SIR), ROD, Testudinata (TES), Psittaciformes (PSI), ART, CAR, LAG e PRI. O grupo 3 apresenta vírus que infectam ART, ROD e CET. Os grupos de hospedeiros que são infectados pelos vírus do grupo 4 são PRI e CET (apenas o TTPV3). Como grupo mais basal, o agrupamento 5 apresenta vírus que infectam CAR e ART (Figura 9a). Conforme pode ser visto na figura 8, os agrupamentos formados não unem apenas os vírus que infectam os mesmos hospedeiros ou hospedeiros próximos filogeneticamente. De 42 maneira geral, esses grupos não foram condizentes com os agrupamentos formados pelo uso de códons dos hospedeiros (Figura 9b). a) b) Figura 8: A evolução do conteúdo de GC nos Papilomavírus. a) Agrupamento baseado no conteúdo total de GC. b) Agrupamento baseado no conteúdo de GC1, GC2 e GC3. Os agrupamentos hierárquicos foram formados utilizando Distância Euclidiana. Apesar da relação com o uso de códons, a frequência do uso de aminoácidos pode se mostrar menos promíscua para agrupar alguns grupos de organismos. Assim, o dendrograma construído baseado nessa metodologia apresentou alguns agrupamentos com PVs que infectam hospedeiros próximos filogeneticamente. Foi possível observar alguns grupos com vírus que infectam felinos, coelhos, roedores, tartarugas, artiodátilos, cetáceos e primatas (Figura 10). Entretanto, ainda foram observados 43 agrupamentos entre vírus que infectam hospedeiros distantes filogeneticamente, assim como vírus que infectam o mesmo hospedeiro em grupos separados. a) b) Figura 9: Dendrogramas representando a divergência no uso de códons sinônimos: a) nos Papilomavírus e b) nos respectivos hospedeiros. 4.2.4. Análise do conteúdo gênico Para todos os genomas analisados, foram identificados 384 genes ortólogos que fazem parte do pan-genoma dos PVs. A partir desses genes, foi possível construir um dendrograma baseado no conteúdo gênico do genoma dos PVs. Com essa árvore, foi possível observar agrupamentos que condizem com a filogenia atualmente aceita para o grupo (Gottschling et al., 2007b), mesmo que muitas vezes com baixo suporte estatístico. Alguns vírus que infectam hospedeiros próximos foram agrupados, como foi o caso do clado com 74% de bootstrap formado pelos artiodátilos BPV1, BPV2, DPV, EEPV, RPV, WrPV1, OPV1, BPV5 e BPV8, muito embora outros artiodátilos se agruparam em outros 44 clados (Figura 11). Um clado suportado com 67% de bootstrap foi formado com os cetáceos. Além do grupo mais basal formado por PVs que infectam aves e répteis, suportado com 100% de bootstrap. Figura 10: Agrupamento hierárquico baseado na frequência de uso de aminoácidos dos PVs utilizando Distância Euclidiana. Baseado nos gêneros estabelecidos por de Villiers et al. (2004), vários clados se formaram, agrupando vírus que pertencem aos mesmos gêneros. Por exemplo, os vírus que infectam artiodátilos citados anteriormente pertencem ao gênero Deltapapillomavirus; o BPV3, BPV4, BPV6, BPV9 e BPV10 que pertencem ao Xipapillomavirus se agruparam; e o CcPV1, RmPV e HPV18 também formaram um clado, uma vez que fazem parte dos Alphapapillomavirus (Figura 11). 45 BPV1 99 50 BPV2 DPV EEPV 56 RPV WrPV1 74 OPV1 BPV5 99 BPV8 BPV10 63 BPV6 99 BPV3 BPV9 HPV48 McPV2 66 OWHMPV 51 CrPV TmPV1 EcPV1 CaPV2 CaPV3 68 CaPV4 HPV1 100 HPV24 56 HPV5 MfPV1 CoPV FdPV1 PcPV1 LrPV1 PlPV1 58 UuPV1 RoPV ChPV1 MrPV EdPV1 64 HPV41 61 CcPV1 RmPV 97 HPV18 RaPV1 UmPV1 62 SsPV1 BPV7 PsPV TTPV3 67 TTPV1 59 TTPV2 CcaPV1 60 CmPV1 100 FcPV 100 PePV 0.05 Figura 11: Árvore de UPGMA baseada no conteúdo gênico do genoma dos PVs. Não estão mostrados valores de bootstrap abaixo de 50%. 4.3. Análise da diversidade genômica Ao final dos alinhamentos, o gene E1 se mostrou como sendo o maior com 2367 pb, enquanto que E5 foi o menor com 509 pb. As análises mostraram que os genes mais conservados foram L1 e E1 com 165 (9,4%) e 146 (6,2%) sítios conservados, respectivamente. Os genes E4 e E5 não apresentaram nenhum sítio conservado, sendo os mais variáveis. Os 46 genes E2 e L2, por sua vez, apesar de relativamente extensos, mostraram um número muito baixo de sítios conservados (Tabela 3). Apesar da grande variação, foi possível observar regiões conservadas nos genes através dos logos de sequência, que podem ser importantes para estrutura e função das proteínas que codificam (Anexo 8.1). Tabela 3: Diversidade genômica dos Papilomavírus. Todas as variáveis foram calculadas usando os programas MEGA4 e DnaSP. ORF Sítios Sítios Sítios Sítios Sítios Nº total (tamanho) com gaps invariáveis variáveis variáveis informativos de singletons de parsimônia mutações 50 1124 2951 1,12 ± 0,02 19 512 1411 0,77 ± 0,02 0 18 54 0,82 ± 0,01 (indels) E1 (2367) 1047 146 (6,2%) (44,2%) E2 (1806) 1251 (49,6%) 24 (1,3%) (69,3%) E4 (1041) 1023 443 531 (29,4%) 0 (0%) (98,3%) E5 (509) 1174 R = Ts/Tv 18 (1,7%) 0 (0%) 66 (13%) 0 66 187 1,18 ± 0,04 10 (1,1%) 158 2 156 440 0,91 ± 0,04 5 83 244 0,82 ± 0,03 59 1024 2523 1,21 ± 0,03 6 342 983 0,76 ± 0,01 (87,0%) E6 (945) 777 (82,2%) E7 (945) 852 (16,7%) 5 (0,5%) (90,2%) L1 (1749) 501 (9,3%) 165 (9,4%) (28,6%) L2 (1998) 1644 (82,3%) 88 1083 (62%) 6 (0,3%) 348 (17,4%) A variação entre as sequências dos genes dos PVs foi bastante elevada, possível de ser observada tanto pela presença de sítios com gaps quanto de sítios variáveis. Em seis genes (E2, E4, E5, E6, E7 e L2), o número de sítios com gaps superou o número de sítios variáveis. Já no gene L1, o número de sítios variáveis superou bastante o número de sítios com gaps. O gene E1 apresentou um número de sítios variáveis próximo ao número de sítios com gaps, 47 1174 e 1047, respectivamente. Dentre os sítios variáveis, a maioria deles se apresentou como informativos de parsimônia (Tabela 3). Um parâmetro importante para uma correta inferência da filogenia são as taxas de transição e transversão. A razão entre o número de transições pelo número de transversões é uma grandeza que nos permite verificar a presença de viés nas substituições. Dos oito genes analisados dos PVs, três (E1, E5 e L1) apresentaram valores R > 1,00 demonstrando um viés de transição. Entretanto, os outros genes (E2, E4, E6, E7 e L2) apresentaram valores de R < 1,00 indicando que a ocorrência de um número maior de transversões (Tabela 3). Com relação às proteínas, como seria esperado, E1 e E5 apresentaram tamanhos de 789 e de 169 aminoácidos, respectivamente, mostrando-se como a maior e menor proteína dos PVs, respectivamente. Seguindo a mesma lógica das sequências de nucleotídeos, as proteínas L1 e E1 se mostraram como sendo as mais conservadas, com 52 e 46 sítios invariáveis, respectivamente. A proteína E5 foi a única que não apresentou nenhum sítio conservado. As proteínas E2 e L2 apresentaram poucos sítios invariáveis, 16 e 15 respectivamente. A oncoproteína E7, apesar de ter menos da metade do tamanho de L2, possui mais sítios conservados que a última. Além disso, a maioria dos sítios variáveis nas proteínas foi informativo de parsimônia, apenas a proteína E5 mostrou um número de sítios informativos próximo ao de singletons (Tabela 4). A região C-terminal se mostrou mais conservada em E1, pois é onde se localiza o domínio de helicase. A maior conservação de E2 estava localizada nas duas extremidades da proteína, a N-terminal que está relacionada com o domínio de trans-ativação e a porção Cterminal com o domínio de ligação de DNA. Apesar da grande variação genética encontrada em E4 e E5, foi possível observar que existem regiões importantes funcionalmente, se mostrando como sendo as menos variáveis (Anexo 8.2). As oncoproteínas E6 e E7 apresentaram domínios de ligação de zinco que se mostraram bastante conservados. O domínio LXCXE, de ligação à pRB, não se mostrou tão conservado 48 (Anexo 8.2). Entretanto, apesar de alguns PVs não apresentarem esse domínio, ainda assim induzem a proliferação celular (Caldeira et al., 2000). Para as proteínas estruturais, foi possível observar conservação em vários domínios de interações intermoleculares responsáveis pela formação e estabilização do capsídeo viral. De uma maneira geral, L1 se mostrou bastante conservada ao longo de toda sua extensão, com vários motivos conservados espaçados por pequenas regiões variáveis (Anexo 8.2). A proteína L2 apresentou dois grandes domínios conservados na região N-terminal e na C-terminal de importância funcional. Tabela 4: Diversidade proteômica dos Papilomavírus. Todas as variáveis foram calculadas usando o programa MEGA4. Proteína Sítios com Sítios Sítios Sítios informativos Sítios (tamanho) gaps (indels) polimórficos conservados de parsimônia variáveis singletons E1 (789) 62 (7,9%) 681 (86,3%) 46 (5,8%) 606 51 E2 (602) 4 (0,6%) 582 (96,7%) 16 (2,7%) 485 91 E4 (347) 60 (17,2%) 283 (81,6%) 4 (1,2%) 199 28 E5 (169) 57 (33,7%) 112 (66,3%) 0 (0%) 64 44 E6 (315) 55 (17,5%) 253 (80,3%) 7 (2,2%) 162 80 E7 (315) 125 (39,6%) 169 (53,7%) 21 (6,7%) 117 32 L1 (583) 18 (3,1%) 513 (88,0%) 52 (8,9%) 466 35 L2 (666) 8 (1,2%) 643 (96,5%) 15 (2,3%) 588 30 4.4. Avaliação da pressão seletiva Com exceção das ORFs E4 e E5, os genes apresentaram valores de ω entre zero e um, para todos os seis modelos testados. Para três modelos, E4 e E5 apresentaram ω = 1. Entretanto, o modelo mais adequado é aquele que apresenta o maior valor do logaritmo de verossimilhança, sendo assim, o modelo mais adequado para E4 foi o M3 e para E5 foi o M7, obtendo os valores médios ω = 0,4464 e ω = 0,2486, respectivamente. Para os genes E1, E2, E6, E7 e L2, o modelo mais adequado foi o M7 (beta), e os valores médios obtidos de ω 49 foram 0,7853, 0,7680, 0,7944, 0,7660, 0,6966, respectivamente. Já para o gene L1, o modelo escolhido foi o M8, obtendo um valor médio de ω = 0,0543 (Tabela 5). Embora todos os genes, de uma maneira geral, tenham apresentado pressão seletiva negativa ou purificadora, foi possível analisar se sítios específicos da proteína estariam sofrendo pressão seletiva positiva ou diversificadora. O teste de LRT para indicar a presença de sítios selecionados positivamente em E1, E2, E4, E5, E6 e L1 falhou em rejeitar a hipótese nula de que tais sítios não são observados (Tabela 6). Entretanto, para E7 e L2, o teste rejeitou a hipótese nula, indicando a presença de um sítio (T na posição 30) em E7, e três sítios (N na posição 87, V na posição 89, e S na posição 90) em L2 (Tabela 6). Tabela 5: Estimativas de pressão seletiva no genoma dos PVs baseadas em verossimilhança, calculadas a partir do programa PAML. O modelo mais adequado se encontra em negrito. * significa que os valores foram determinados a partir de uma média aritmética. ORF Modelo lnL ω= Parâmetros dN/dS* E1 M0 -57733,813234 0,0987 ω = 0,0987 M1a -57392,894549 0,2737 p0 = 0,83404 (p1 = 0,16596) ω0 = 0,12916; ω1 = 1,00000 M2a -57392,894549 0,2737 p0 = 0,83404; p1 = 0,03321 (p2 = 0,13274) ω0 = 0,12916; ω1 = 1,00000; ω2 = 1,00000 M3 -55488,060012 0,1126 p0 = 0,24347; p1 = 0,34520 (p2 = 0,41133) ω0 = 0,00987; ω1 = 0,07081; ω2 = 0,20860 M7 -55355,052612 0,1094 p = 0,73738; q = 5,82847 M8 -55355,057011 0.1094 p0 = 0,99999 (p1 = 0,00001) p = 0,73738; q = 5,82847; ωs = 4,90105 E2 M0 -27572,204455 0,1316 ω = 0,1316 M1a -27290,910936 0,4503 p0 = 0,66177 (p1 = 0,33823) ω0 = 0,16942; ω1 = 1,00000 M2a -27290,910936 0,4503 p0 = 0,66177; p1 = 0,33823 (p2 = 0,00000) ω0 = 0,16942; ω1 = 1,00000; ω2 = 7,11348 M3 -26674,426502 0,1577 p0 = 0,21317; p1 = 0,39637 (p2 = 0,39047) ω0 = 0,02189; ω1 = 0,10812; ω2 = 0,28214 M7 -26630,437356 0,1543 p = 0,98053; q = 5,26030 M8 -26630,439157 0,1544 p0 = 0,99999 (p1 = 0,00001) p = 0,98053; q = 5,26028; ωs = 2,53881 50 E4 M0 -776,026313 0,4464 ω = 0,4464 M1a -778,424306 1,0000 p0 = 0,00001 (p1 = 0,99999) ω0 = 0.00000; ω1 = 1,00000 M2a -778,424246 1,0000 p0 = 0,00000; p1 = 0,99993 (p2 = 0,00007) ω0 = 0,00000; ω1 = 1,00000; ω2 = 1,00000 M3 -776,026313 0,4464 p0 = 0,00000; p1 = 0,00000 (p2 = 1,00000) ω0 = 0,00000; ω1 = 0,00000; ω2 = 0,44641 M7 -776,070967 0,4514 p = 0,03121; q = 0,56377 M8 -778,424306 1,0000 p0 = 0,00001 (p1 = 0.99999) p = 0,00500; q = 1,79514; ωs = 1,00000 E5 M0 -1568,583636 0,2583 ω = 0,2583 M1a -1574,854035 1,0000 p0 = 0,00001 (p1 = 0,99999) ω0 = 0.00000; ω1 = 1,00000 M2a -1574,853835 1,0000 p0 = 0,00000; p1 = 0,99999 (p2 = 0,00001) ω0 = 0,00000; ω1 = 1,00000; ω2 = 1,00000 M3 -1568,583636 0,2583 p0 = 0,00000; p1 = 0,00000 (p2 = 1,00000) ω0 = 0,00000; ω1 = 0,00000; ω2 = 0,25829 M7 -1567,339920 0,2486 p = 7,42197; q = 22,36246 M8 -1574,867539 1,0000 p0 = 0,00001 (p1 = 0.99999) p = 0,00500; q = 1,93547; ωs = 1,00000 E6 M0 -7953,908279 0,2222 ω = 0,2222 M1a -7807,552200 0,7879 p0 = 0,23242 (p1 = 0,76758) ω0 = 0,08742; ω1 = 1,00000 M2a -7807,552200 0,7879 p0 = 0,23242; p1 = 0,73712 (p2 = 0,03046) ω0 = 0,08742; ω1 = 1,00000; ω2 = 1,00000 M3 -7674,316556 0,2464 p0 = 0,07143; p1 = 0,17442 (p2 = 0,75415) ω0 = 0,00000; ω1 = 0,05781; ω2 = 0,31337 M7 -7669,851177 0,2416 p = 0,76477; q = 2,36691 M8 -7669,851673 0,2416 p0 = 0,99999 (p1 = 0,00001) p = 0,76477; q = 2,36691; ωs = 1,00000 E7 M0 -4250,064751 0,2277 ω = 0,2277 M1a -4157,352098 0,7372 p0 = 0,29032 (p1 = 0,70968) ω0 = 0,09470; ω1 = 1,00000 M2a -4157,239435 0,7612 p0 = 0,29031; p1 = 0,66507 (p2 = 0,04462) ω0 = 0,09647; ω1 = 1,00000; ω2 = 1,52793 M3 -4077,107808 0,2713 p0 = 0,15999; p1 = 0,34276 (p2 = 0,49725) ω0 = 0,01048; ω1 = 0,16761; ω2 = 0,42678 M7 -4072,999417 0,2650 p = 0,66121; q = 1,81338 M8 -4072,999625 0,2650 p0 = 0,99999 (p1 = 0,00001) p = 0,66121; q = 1,81338; ωs = 1,00000 51 L1 M0 -4673,2822272 0,0427 ω = 0,0427 M1a -4641,7609762 0,0896 p0 = 0,94999 (p1 = 0,05001) ω0 = 0,04164; ω1 = 1,00000 M2a -4641,7609762 0,0896 p0 = 0,94999; p1 = 0,03716 (p2 = 0,01285) ω0 = 0,04164; ω1 = 1,00000; ω2 = 1,00000 M3 -4509,0897362 0,0471 p0 = 0,29331; p1 = 0,44140 (p2 = 0,26528) ω0 = 0,00528; ω1 = 0,03543; ω2 = 0,11269 M7 -4496,6148662 0,0536 p = 0,68823; q = 11,68678 M8 -4496,2780055 0,0543 p0 = 0,99699 (p1 = 0,00301) p = 0,70451; q = 12,49652; ωs = 1,00000 L2 M0 -1918,2245111 0,0968 ω = 0,0968 M1a -1914,9234904 0,1599 p0 = 0,93651 (p1 = 0,06349) ω0 = 0,10290; ω1 = 1,00000 M2a -1914,9234904 0,1599 p0 = 0,93651; p1 = 0,05647 (p2 = 0,00702) ω0 = 0,10290; ω1 = 1,00000; ω2 = 1,00000 M3 -1871,4174089 0,0954 p0 = 0,08388; p1 = 0,29811 (p2 = 0,61801) ω0 = 0,00860; ω1 = 0,03752; ω2 = 0,13514 M7 -1868,8015490 0,0946 p = 1,19325; q = 11,15743 M8 -1962,8274563 0,1417 p0 = 0,99999 (p1 = 0,00001) p = 0,27619; q = 1,62677; ωs = 1,72836 4.5. Análise de recombinação Com o objetivo de detectar regiões dos genomas dos PVs que se originaram a partir de recombinação, foi utilizado uma combinação de métodos de análise de recombinação que são poderosos e com uma baixa taxa de falso-positivos. Com isso, apenas os genes E5 e E6 não apresentaram eventos de recombinação entre os PVs. Todos os eventos detectados pelo RDP estão listados na Tabela 7. Sequências com baixa probabilidade de ser parentais foram consideradas como desconhecidas. A ORF L2 apresentou o maior número de eventos recombinacionais, com 12 potenciais pontos de quebra de recombinação. 52 Tabela 6: Resultados do teste LRT para detecção de sítios que sofrem seleção positiva. Valores entre parêntese indicam a probabilidade posterior do sítio ser selecionado positivamente. ORF Modelo 1 Modelo 2 Estastística LRT E1 E2 E4 E5 E6 E7 L1 L2 Sítios selecionados positivamente M0 M3 4491,506444 - M1 M2 0,000000 Nenhum M1 M3 3809,669074 Nenhum M7 M8 0,008798 Nenhum M0 M3 1795,55591 - M1 M2 0,000000 Nenhum M1 M3 1232,968870 Nenhum M7 M8 0,003602 Nenhum M0 M3 0,000000 - M1 M2 0,000120 Nenhum M1 M3 4,795986 Nenhum M7 M8 4,706678 Nenhum M0 M3 0,000000 - M1 M2 0,000400 Nenhum M1 M3 12,540798 Nenhum M7 M8 15,055238 Nenhum M0 M3 559,183446 - M1 M2 0,000000 Nenhum M1 M3 266,471288 Nenhum M7 M8 0,000992 Nenhum M0 M3 345,913886 - M1 M2 0,225326 30 T (0,5190) M1 M3 160,488580 Nenhum M7 M8 0,000416 Nenhum M0 M3 328,384982 - M1 M2 0,000000 Nenhum M1 M3 265,342480 Nenhum M7 M8 0,673721 Nenhum M0 M3 93,614204 - M1 M2 0,000000 Nenhum M1 M3 87,012163 Nenhum M7 M8 188,051815 87 N (0,8230) 89 V (0,6430) 90 S (0,9480) 53 4.6. Análise de entropia genômica Obviamente, os genes mais conservados (E1 e L1) foram os que mais apresentaram sítios com valores de entropia menores que dois, indicando baixa complexidade. Com os gráficos de entropia foi possível observar que o gene E1 apresenta cinco regiões de baixa entropia, uma entre 223 e 309 pb; a segunda entre 820 e 953 pb; a terceira entre 993 e 1330 pb; a quarta entre 1516 e 2042 pb; e a quinta região entre 2137 e 2271 pb (Figura 12a). Tabela 7: Análise de recombinação entre os PVs e suas possíveis sequências parentais computada pelo programa RDP. Possível Sequências ORF Eventos RDP Sequências Recombinantes Parentais E1 1 EcPV-1; CaPV-3; CaPV-4 HPV-5 2 BPV-5; BPV-8; RPV; WrPV-1 Desconhecido (TTPV-3) 3 EEPV; WrPV-1; RPV; DPV Desconhecido (BPV-8) 4 CaPV-3; CaPV-4; EcPV-1 HPV-24 5 RmPV-1 HPV-24 6 MrPV CoPV 7 EdPV-1; HPV-41 Desconhecido (HPV-18) 1 BPV-1 Desconhecido (TTPV-3) 2 TTPV-2 Desconhecido (BPV-10) 3 EdPV-1; HPV-41 Desconhecido (CmPV-1) E2 BPV-1; EEPV; BPV-2; OPV-1; E4 4 WrPV-1; RPV; DPV Desconhecido (SsPV-1) 5 CaPV-4; CaPV-3 EEPV 6 HPV-18 HPV-5 1 PlPV-1 UuPV-1 - - Nenhum evento E5 detectado Nenhum evento E6 detectado - - E7 1 UuPV-1; FdPV-1; LrPV-1; PcPV-1 MfPV-1 L1 1 SsPV-1; UmPV-1 CcaPV-1 54 L2 1 ChPV-1 Desconhecido (TTPV3) 2 MfPV-1; HPV-5; HPV-24 UmPV-1 DPV; EEPV; OPV-1; WrPV-1; 3 RPV McPV-2 4 CaPV-2 HPV-24 5 RmPV-1; CcPV-1 Desconhecido (BPV-4) 6 HPV-24; MfPV-1 Desconhecido (CrPV) 7 TTPV-2; TTPV-3 BPV-3 8 CcaPV-1; CmPV-1 Desconhecido (EEPV) 9 RmPV-1 HPV-5 EEPV; BPV-1; BPV-2; WrPV-1; 10 RPV HPV-18 11 TTPV-3 HPV-5 12 CrPV Desconhecido (BPV-1) O gene L1, mais conservado, possui três regiões de baixa entropia, uma entre 52 e 878 pb; a segunda entre 985 e 1111 pb; e a terceira entre 1198 e 1512 pb. Apesar de apresentar menos regiões de baixa complexidade que o gene E1, L1 apresenta regiões maiores que as regiões de E1. No final, L1 apresentou um tamanho total de 1269 sítios com baixa entropia, enquanto que E1 apresentou 1215 sítios (Figura 12g). Os genes E2 e L2, que também estão presentes em todos os PVs, de maneira geral apresentam um grau de complexidade maior que E1 e L1. A partir dos gráficos foram identificados, em E2, quatro regiões de baixa entropia, uma entre 64 e 461 pb; a segunda entre 577 e 592 pb; a terceira entre 1501 e 1609 pb; e a quarta região entre 1708 e 1752 pb. O gene L2 também apresentou quatro regiões de baixa complexidade, uma entre 175 e 315 pb; a segunda entre 502 e 592 pb; a terceira entre 1288 e 1380 pb; e a quarta entre 1885 e 1923 pb. No total, o gene E2 demonstrou 564 sítios de baixa entropia e o gene L2 apenas 363 sítios (Figura 12b, h). Os outros genes (E4, E5, E6 e E7) apresentaram os mais altos valores de entropia. Os genes E4, E5 e E7 possuem apenas uma região de baixa entropia cada, de 436 a 486 pb, de 55 301 a 330 pb e de 658 a 711 pb, respectivamente. Já o gene E6 possui duas regiões de baixa complexidade, uma entre 253 e 363 pb; e outra entre 370 e 459 pb. Finalmente, os genes E4, E5, E6 e E7 apresentaram tamanho total de 51, 30, 201 e 54 sítios de baixa entropia, respectivamente (Figura 12c, d, e, f). a) b) c) d) e) f) g) h) Figura 12: Gráficos de entropia por sítio para as oito regiões genômicas estudadas. Regiões com entropia abaixo de dois (linha em vermelho) são menos complexas, indicando partes mais conservadas dos genomas. 56 4.7. Predição in silico da estrutura secundária das proteínas A predição da estrutura secundária revelou várias regiões de α-hélice, intercaladas com regiões folhas β e de alça na proteína E1, possuindo uma distribuição bastante homogênea (Figura 13a). A região amino-terminal da proteína E2 apresenta um conjunto de regiões de αhélice seguido por regiões de folhas β, sempre intercaladas por regiões de alça. Em torno da parte central da proteína, existe uma grande região de alça, e na porção carbono-terminal foi possível observar cinco regiões de folhas β com uma α-hélice inserida na parte final (Figura 13b). A proteína E4, no entanto, se apresentou como uma grande estrutura de alça, sem nenhuma α-hélice ou folha β presente (Figura 13c). Já a oncoproteína E5 se mostrou como sendo uma grande α-hélice, apenas com regiões de alça nas extremidades (Figura 13d). E6 possui regiões de α-hélice, folha β e alça intercaladas ao longo da proteína (Figura 13e). A análise da estrutura secundária mostrou que a proteína E7 apresenta, em sua região central e carbono-terminal, três folhas β e uma α-hélice (Figura 13f). As proteínas do capsídeo, L1 e L2, apresentaram várias regiões de folha β distribuídas ao longo delas. Entretanto, L2 mostrou apenas duas regiões de α-hélice na parte aminoterminal da proteína, enquanto que L1 apresenta várias α-hélices ao longo da proteína, principalmente na região central. Na parte amino-terminal, L1 possui várias regiões de folha β. Grandes regiões de alça também estão presentes ao longo da proteína L2 e na parte carbonoterminal de L1 (Figura 13g, h). Após a predição, as estruturas secundárias das proteínas dos PVs foram relacionadas com as regiões genômicas de baixa entropia. Grande parte dessas regiões se apresentou em locais relacionados com α-hélices e folhas β, intercaladas por alças, para a maioria das proteínas. As regiões de baixa complexidade do gene E4 se localizavam em estruturas de alça. Em E5, essas regiões se localizavam completamente em estruturas de α-hélice. 57 4.8. Reconstrução da filogenia dos Papilomavírus O modelo de substituição de nucleotídeo que mais se adequou aos genes E1, E2, E6 e L1 foi o GTR+I+G (General Time Reversible incluindo sítios invariáveis e com variação de taxa entre os sítios), enquanto que para E5 foi o GTR+G (General Time Reversible com variação de taxa entre os sítios), e para E4 foi o GTR (General Time Reversible). Para L2, o modelo selecionado foi o TVM+I+G (Transversional Model incluindo sítios invariáveis e com variação de taxa entre os sítios). O modelo TVMef+G (Transversional Model Equal Frequencies com variação de taxa entre os sítios) foi selecionado para o gene E7. Para as sequências de aminoácidos, o modelo selecionado para a proteína E1 foi o RtREV+I+G+F (Modelo para Proteínas Retrovirais incluindo sítios invariáveis, com variação de taxa entre os sítios e observando as frequências dos aminoácidos); já para E2 foi o RtREV+G+F (Modelo para Proteínas Retrovirais com variação de taxa entre os sítios e observando as frequências dos aminoácidos). Para E4, o modelo escolhido foi o CpREV+G+F (Modelo para Proteínas do Cloroplasto com variação de taxa entre os sítios e observando as frequências dos aminoácidos). O modelo Dayhoff+F (Dayhoff PAM observando as frequências dos aminoácidos) foi selecionado para a proteína E5. Para E7, o mesmo modelo foi selecionado, incluindo a variação de taxa entre os sítios. O modelo WAG+I+G+F (Whelan e Goldman incluindo sítios invariáveis, com variação de taxa entre os sítios e observando as frequências dos aminoácidos) foi escolhido para as proteínas E6 e L2, enquanto que o modelo WAG+I+G (Whelan e Goldman incluindo sítios invariáveis, com variação de taxa entre os sítios) foi selecionado para a proteína L1. O sinal filogenético foi calculado separadamente para cada uma das regiões genômicas, tanto para análise com nucleotídeos quanto para aminoácidos. Tanto para as sequências de 58 DNA quanto para as de aminoácidos, as regiões E1, E2, E6, L1 e L2 apresentaram sinal filogenético (Figuras 14 e 15). a) b) c) d) e) f) g) h) Figura 13: Estrutura secundária predita das oito proteínas dos Papilomavírus. Os traços representam regiões de alça, os cilindros vermelhos as regiões de α-hélice e as setas amarelas as regiões de folha β. As subfiguras a, b, c, d, e, f, g, h representam as proteínas E1, E2, E4, E5, E6, E7, L1 e L2, respectivamente. Os genes E4, E5 e E7 apresentaram 23,5; 31,5 e 32,7% dos quartetos nos vértices do triângulo, respectivamente. Estes valores estão bem abaixo do ponto de corte, que é de 50%. 59 A análise com os genes E1, E2, E6, L1 e L2 mostrou 73,3; 68,8; 55,9; 73,2 e 66,3% dos quartetos nas regiões 1, 2 e 3, que foi satisfatório para indicar o sinal filogenético (Figura 14). Figura 14: Avaliação do sinal filogenético dos genes dos Papilomavírus. A presença de sinal filogenético é assumida quando pelo menos 50% dos quartetos estão localizados nos vértices dos triângulos (regiões 1, 2 e 3). A análise com as sequências de aminoácidos demonstrou que as proteínas E4, E5 e E7 também possuem menos que 50% dos quartetos nos vértices do triângulo; 21,5; 31,2 e 31,0%; 60 respectivamente. Já as proteínas E1, E2, E6, L1 e L2 apresentaram 83,9; 72,3; 55,6; 84,6 e 74,2% dos quartetos nas regiões 1, 2 e 3 (Figura 15). Figura 15: Avaliação do sinal filogenético das proteínas dos Papilomavírus. A presença de sinal filogenético é assumida quando pelo menos 50% dos quartetos estão localizados nos vértices dos triângulos (regiões 1, 2 e 3). É interessante notar que, para as sequências de nucleotídeos que não apresentaram sinal filogenético e ainda E6, foi obtido um número de quartetos pouco maior que as sequências de aminoácidos que se encontravam na mesma situação. Isso porque as regiões de baixa 61 complexidade utilizadas para esses genes eram pequenas, e as sequências de aminoácidos são ainda três vezes menores. Entretanto, para os outros genes, as sequências de aminoácidos apresentaram um número maior de quartetos nos vértices do triângulo, sugerindo que essas sequências são mais informativas para a reconstrução da filogenia dos PVs. Os testes de saturação mostraram que todas as regiões genômicas estavam saturadas (Figura 16). Nos gráficos, à medida que se aumenta a distância genética, as taxas de transição e transversão também deveriam aumentar. Quando as sequências estão saturadas, isso não acontece e é possível observar um platô no gráfico. Devido a uma pressão evolutiva diferenciada, a saturação normalmente ocorre na terceira posição do códon. Assim, também foi realizada uma análise excluindo-se a terceira posição do códon. Apesar dos genes E1 e L1 apresentarem linhas de tendência quase retas, ainda há uma tendência que indica certa saturação. Além disso, embora ainda haja saturação quando se utiliza as regiões de baixa entropia dos oito genes, os gráficos mostram que houve uma melhora na disposição das linhas de tendência, indicando que essa abordagem ajuda a diminuir essa saturação (dados não mostrados). Ao se avaliar as partições, os valores do teste de ILD, tanto para nucleotídeos quanto para aminoácidos, foram altos suficientes para negar a hipótese nula de incongruência entre as partições (Tabela 8). Este teste sugere que, todas as regiões de baixa entropia dos genes escolhidos para análise podem ser concatenadas e utilizadas para a reconstrução da filogenia dos PVs. A partir desta análise, obtivemos o suporte para a combinação dos diversos genes. Para fins de validação da abordagem, as combinações E6-E7-E1-E2-L2-L1, E6-E1-E2-L2-L1 e E1-E2-L2-L1 foram analisadas separadamente. 62 Figura 16: Gráficos mostrando a saturação das sequências de DNA das oito regiões genômicas dos Papilomavírus. S = taxa de transição e V = taxa de transversão. A abordagem explorada neste estudo, utilizando regiões de baixa entropia com diferentes métodos de reconstrução da filogenia dos PVs, de uma maneira geral, não gerou 63 árvores totalmente congruentes. Entretanto, altos valores de confiança foram alcançados na maioria dos nós. Foi possível obter árvores filogenéticas bastante robustas, embora com baixo suporte estatístico em alguns nós internos. Comparando-se as topologias e o suporte dos nós entre as árvores construídas a partir das sequências de nucleotídeos, nucleotídeos sem a terceira posição dos códons e de aminoácidos, não foi possível observar grandes incongruências. Apesar de que os cladogramas baseados em sequências de aminoácidos apresentaram alguns valores pouco mais altos de confiabilidade dos ramos. Em todas as partições analisadas, vários agrupamentos monofiléticos podem claramente ser distinguidos, representando os gêneros dos PVs. Os gêneros Deltapapillomavirus, Epsilonpapillomavirus, Mupapillomavirus, Xipapillomavirus, Lambdapapillomavirus, Betapapillomavirus, Kappapapillomavirus, Nupapillomavirus, Alphapapillomavirus, Omikronpapillomavirus, Thetapapillomavirus e Etapapillomavirus, de uma maneira geral, foram monofiléticos e apresentaram altos valores de bootstrap e de probabilidade a posteriori (Figuras 17a, b, c) (Anexo 8.3). A monofilia de alguns desses clados contendo os gêneros dos PVs corresponderam à monofilia dos hospedeiros infectados como os primatas, artiodátilos, lagomorfos, carnívoros, cetáceos, répteis e aves. Essas monofilias foram suportadas sob os diferentes métodos de construção de árvores, assim como utilizando as diferentes partições. Entretanto, vários tipos de PVs não se agruparam de acordo com a filogenia de seus hospedeiros. Gêneros de PVs que infectam primatas não formaram um grupo monofilético em todas as análises; o MfPV1, que infecta um primata não-humano, aparentemente derivou do HPV24; uma parafilia pode ser observada no grupo dos PVs que infectam bovinos; o OPV1 mais relacionado com os cervídeos do que com os bovídeos; os PVs que infectam caninos também foram parafiléticos; o RoPV e o CrPV, que infectam coelhos, foram derivados de HPV1; o UmPV1 que infecta carnívoro e o SsPV1 que infecta artiodátilo agrupados com primatas (Figuras 17a, b, c) (Anexo 8.3). 64 Tabela 8: Teste de incongruência entre partições, realizado com sequências de nucleotídeo e de proteínas. Significativamente Significativamente Genes P (≤) incongruente? Proteínas P (≤) incongruente? E1-E2 0,3333 Não E1-E2 0,1667 Não E1-E6 0,3333 Não E1-E6 0,1667 Não E1-E7 0,5 Não E1-E7 1 Não E1-L1 0,1667 Não E1-L1 0,1667 Não E1-L2 0,1667 Não E1-L2 0,1667 Não E2-E6 0,1818 Não E2-E6 0,1667 Não E2-E7 0,5 Não E2-E7 0,5 Não E2-L1 0,5 Não E2-L1 0,1667 Não E2-L2 0,5 Não E2-L2 0,1667 Não E6-E7 0,1667 Não E6-E7 0,8333 Não E6-L1 0,3333 Não E6-L1 0,1667 Não E6-L2 0,1667 Não E6-L2 0,1667 Não E7-L1 0,3333 Não E7-L1 0,8333 Não E7-L2 0,1667 Não E7-L2 0,3333 Não L1-L2 0,1667 Não L1-L2 0,1667 Não Apesar da relativa robustez da árvore, levando-se em consideração o conjunto de dados altamente variável, alguns nós mostraram contradições filogenéticas bem suportadas quando se levou em consideração os quatro diferentes métodos de construção de árvores filogenéticas. Alguns vírus também se agruparam de forma aleatória quando se utilizou partições diferentes, como foi o caso do EcPV1, TmPV1, MrPV, RaPV1 e BPV7 (Figuras 17a, b, c) (Anexo 8.3). 65 a) b) 66 c) Figura 17: Árvores filogenéticas de Máxima Verossimilhança dos PVs representativos baseada nas sequências de aminoácidos. a) análise com a partição E6-E7-E1-E2-L2-L1, b) análise com a partição E6E1-E2-L2-L1, c) análise com a partição E1-E2-L2-L1. Os valores de suporte dos ramos estão representados (acima: NJ/MP, abaixo: ML/Probabilidades Bayesianas). Incongruências nas topologias e valores de bootstrap abaixo de 50% não estão representadas. 67 5. Discussão Algumas tentativas de obter um cenário compreensivo da evolução dos PVs já foram feitas (Chan et al., 1992; Chan et al., 1995; Gottschling et al., 2007b; Bravo e Alonso, 2007). Entretanto, nenhum estudo aprofundado sobre a evolução dos PVs foi realizado utilizando tanta informação genética combinada com uma nova abordagem para encontrar regiões genômicas mais informativas filogeneticamente. Esta análise utiliza genomas de PVs que infectam uma grande variedade de hospedeiros. Entretanto, não se pode esquecer que existe variação intratípica (variantes e subtipos), e assim não sabemos o quão bem representado é a amostra que deu origem ao tipo viral referencial no banco de dados. Os PVs apresentam uma estrutura genômica muito similar entre si, com quatro genes (E1, E2, L2 e L1) presentes em todos os tipos virais. Entretanto, ainda não foram elucidados, na história evolutiva dos PVs, como os outros genes foram adquiridos ou perdidos. Entretanto, do ponto de vista filogenético, genes não-usuais (presentes em poucos tipos de PVs) não são interessantes por não apresentar muita homologia dentro da família. A grande diversidade dos PVs foi refletida também quando foi analisado tamanho e conteúdo de %GC dos genomas. Interessantemente, o tamanho do genoma dos PVs não estava diretamente relacionado com o número de genes que eles possuem, possivelmente porque a variação pode estar presente nos core-genes. A variação do conteúdo de %GC dos PVs também é considerável, e embora não tenha sido testado, isso provavelmente se deve à pressão mutacional (Sueoka, 1988). Várias ferramentas de Genômica Comparativa utilizadas neste estudo mostraram o quão variável são os genomas dos PVs. Análises de dot plot (polydot), por exemplo, indicou a pouca similaridade de sequência entre esses vírus. Entretanto, alguns grupos de vírus que infectam hospedeiros comuns ou relacionados filogeneticamente compartilham essa 68 similaridade, dando suporte à ideia de uma evolução ligada ao hospedeiro como sugeriu Chan et al. (1995). O problema é que vírus apresentando hospedeiros comuns não apresentam similaridade de sequência nas análises com dot plot, indicando que outros processos além da co-evolução estejam atuando na evolução dos PVs, como foi sugerido por Gottschling et al. (2007b). Para conhecer mais a diversidade dos genomas dos PVs, foi realizada uma análise de seu Pan-genoma. A grande quantidade de genes homólogos, únicos e dispensáveis encontrada se deveu à enorme variação das sequências. Genes homólogos dos PVs, por ser muito variáveis, se mostrou como genes diferentes no Pan-genoma, perturbando a análise. Assim, evidencia-se mais uma vez a grande diversidade existente entre esses vírus. Se há grande divergência entre as sequências, outras variáveis podem ser utilizadas para estudar a evolução dos genomas dos PVs. O agrupamento realizado a partir do conteúdo de %GC mostrou-se pouco útil para entender a história evolutiva dos PVs, devido a uma aparente homogeneização dos genomas. Isso também foi observado quando se utilizou o conteúdo de %GC1, %GC2 e %GC3. Apesar de utilizar a quantidade de GC nas três posições do códon em uma tentativa de aumentar a distringência do método, o resultado também não foi satisfatório. O conteúdo de %GC total, assim como nas diferentes posições do códon, já foi indicado como determinantes do viés no uso de códons de mamíferos (D’Onofrio et al., 1991). Entretanto, nos papilomavírus humanos o viés no uso de códons parece ser influenciado pelo conteúdo de %AT na terceira posição do códon (Zhao et al., 2003). Assim, de uma maneira geral, os agrupamentos utilizando o conteúdo de %GC não se mostraram muito eficazes para o entendimento da diversificação dos PVs, mas estudos mais aprofundados podem elucidar a importância desse viés para a biologia desses vírus. Seguindo a mesma lógica, a análise da frequência de uso de códons também foi abordada. A árvore de códons nos dá uma maneira alternativa de avaliar a similaridade entre 69 os PVs, levando em consideração o viés mutacional devido à ampla gama de hospedeiros, que também foi observado em flavivírus (Schubert e Putonti, 2008). Essa árvore apresentou uma resolução bem melhor que as anteriores, mesmo porque há a utilização de 64 variáveis diferentes para a realização do agrupamento. Embora o dendrograma de códons não consiga explicar a co-evolução, já foi observado que existe um padrão similar de uso de códons em PVs que infectam humanos e não-humanos, mesmo sendo originados a partir de grupos filogenéticos diferentes. Além disso, foi observado também que há um viés distinto para o uso de códons preferenciais, diferenciando-os dos usados pelos hospedeiros mamíferos (Zhao et al., 2003). Ainda não está muito clara qual a relação entre o viés no uso de códons e a biologia dos PVs, entretanto esse viés pode estar influenciando o agrupamento de vírus que infectam hospedeiros diferentes em um mesmo clado. É importante ressaltar também que o uso de códons pode estar sendo influenciado por uma especialização ao tipo de tecido que esses vírus infectam. Nem sempre a história evolutiva de um grupo de vírus é representada por uma árvore de uso de códons, mas sim o quanto essas partículas mudaram para se adaptar ao seu hospedeiro particular, sendo importante entender o tempo de infecção deste hospedeiro para determinar o quanto que esses vírus adotaram suas preferências de códons (Schubert e Putonti, 2008). As análises com frequências de aminoácidos demonstraram que há uma menor promiscuidade com relação ao uso de códons, apesar de existir uma associação entre eles. Isso se deve ao fato de que são analisados 20 aminoácidos, enquanto que existem 64 códons diferentes. Uma explicação para esses agrupamentos seria que existem aminoácidos com propriedades químicas semelhantes, e o dendrograma construído não levou isso em conta. Assim, regiões das proteínas dos PVs podem ser mais suscetíveis às mudanças, desde que não mude as propriedades funcionais e estruturais dessas moléculas. 70 Além disso, esses agrupamentos também podem ser explicados pela diferença no potencial de expressão gênica, uma vez que certos aminoácidos são mais comuns entre genes que são altamente expressos, como foi observado em bactérias (Akashi e Gojobori, 2002; Merkl, 2003). Talvez exista uma força seletiva fazendo com que as frequências de aminoácidos entre os PVs sofram mudanças, refletindo uma hierarquia de coeficientes de seleção, como sugerido por McVean e Vieira (2001). Devido ao grande número de tipos, subtipos e variantes presentes na família Papillomaviridae, as diferenças existentes entre as frequências no uso de códons e de aminoácidos nesses vírus e seus respectivos hospedeiros também podem indicar que há efetividade nas mudanças antigênicas visando criar novas variantes virais, como foi observado nos vírus influenza por Scapoli et al. (2007). Assim, existe a possibilidade de que os PVs puderam adaptar seus genomas aos respectivos hospedeiros, e em seguida, a pressão seletiva favoreceu a diversificação no hospedeiro desses tipos virais. Entretanto, estudos mais aprofundados são necessários para confirmar esses processos. Os genomas dos PVs também apresentam grande variabilidade quanto ao número de genes. Estudar a evolução viral do ponto de vista de aquisição ou perda de genes é uma poderosa maneira para definir famílias gênicas, além de traçar um perfil filogenético dos genes que compreendem esses genomas, como foi observado em herpesvírus por Montague e Hutchison (2000). A árvore construída a partir do conteúdo gênico se apresentou bastante semelhante com a filogenia atualmente aceita para os PVs, agrupando a maior parte deles nos gêneros sugeridos por de Villiers et al. (2004). Entretanto, o suporte estatístico de muitos nós do dendrograma não foi alto, principalmente os dos nós internos. A falta de representatividade dos PVs no banco de dados pode ser uma explicação para isso, uma vez que existe mais de 100 tipos de HPVs, podendo ser esperado a mesma quantidade de tipos para os PVs nãohumanos. É importante ressaltar também que a transferência lateral de genes pelo hospedeiro 71 ou outros vírus pode influenciar no resultado da árvore, introduzindo dados filogenéticos discordantes. Até hoje, agrupamentos baseados no conteúdo gênico foram usados com sucesso para analisar a evolução de herpesvírus (Montague e Hutchison, 2000), adenovírus (Davison et al., 2003), baculovírus (Herniou et al., 2001) e poxvírus (Xing et al., 2006), demonstrando a importância da metodologia. Este agrupamento gerou uma topologia semelhante àquela baseada em alinhamento de sequências com um custo computacional bem baixo, sendo um forte argumento a favor da validade deste tipo de árvore para deduzir a história evolutiva dos PVs a partir de sequências genômicas completas. Mesmo assim, ainda é necessário levar em consideração que esta metodologia apresenta ruídos que nem sempre são excluídos da análise, como foi percebido pelo alto número de genes homólogos, únicos e dispensáveis observados nos PVs. Assim, é importante a comparação destes agrupamentos com filogenias baseadas em alinhamento de sequências, e também que pesquisas visem ao desenvolvimento de metodologias mais robustas para a exclusão dos ruídos. É possível notar uma grande variação genética, tanto nas sequências de nucleotídeos quanto nas de aminoácido. Entretanto, é interessante observar que existe uma relativa conservação no que diz respeito à função das proteínas. Assim sendo, os PVs parecem manter constantes regiões importantes estrutural e funcionalmente, e permitem que outras regiões sejam bem promíscuas. Isto está de acordo com o conhecimento prévio de que regiões da proteína que evoluem de forma mais lenta estão relacionadas com reconhecimento molecular (Worth et al., 2009). Por exemplo, E1 apresentou a maior conservação na região carbono-terminal (Cterminal), local relacionado com o domínio de ATPase e helicase. A grande variação na região amino-terminal (N-terminal) aparentemente não influencia na replicação do DNA viral, como foi visto para HPV-1 e BPV-1 (Wilson et al., 2002). Já a proteína L2 apresentou dois 72 grandes domínios conservados na região N-terminal e na C-terminal de importância funcional, estando de acordo com os achados em grupos de papilomavírus mais próximos (Roden et al., 2000; Bousarghin et al., 2003; Finnen et al., 2003; Bossis et al., 2005; Florin et al., 2006; Kämper et al., 2006; Richards et al., 2006). Assim, embora as sequências dos PVs tenham divergido bastante ao longo do tempo evolutivo, aparentemente as funções foram mantidas. Essa ideia é importante, pois selecionar regiões genômicas importantes funcionalmente para inferir a filogenia do grupo se torna bastante relevante devido à grande variação genética encontrada nesses vírus. Tão importante quanto conhecer a variação nas sequências genéticas de um grupo de organismos, é analisar o comportamento das transições e transversões. Estimar o possível viés dessas taxas é muito importante para o entendimento da evolução dos genomas, assim como a correta reconstrução de sua filogenia (Yang e Yoder, 1999). Nesta análise, a maioria dos genes apresentou valores de R menores do que um. Yang e Yoder (1999) sugerem que altos níveis de divergência genética apresentam valores baixos dessa razão. Isso acontece porque apesar de existirem quatro possíveis transversões e apenas dois tipos de transições são possíveis, o número de transições normalmente se apresenta maior (Purvis e Bromham, 1997). A única inconsistência desses achados foi para o gene E5 que apesar da alta variabilidade genética, apresentou um valor de R acima de um. Segundo Purvis e Bromham (1997), uma estimativa pouco acurada devido à grande divergência genética pode explicar esse comportamento. Ainda hoje existe uma falta de conhecimento a respeito dos mecanismos evolutivos que direcionam a variação nas sequências nucleotídicas, e consequentemente nas propriedades biológicas dos PVs. Assim, é importante examinar que tipo de pressão seletiva está regendo a evolução das proteínas desses vírus. Todas as proteínas analisadas dos PVs apresentaram pressão seletiva negativa. Isto significa que a maior parte das variações encontradas nestas proteínas não possui potencial 73 adaptativo. Apesar disso, foi possível observar duas proteínas (E7 e L2) que apresentaram sítios com evidências de seleção diversificadora. Entretanto, o único sítio que apresentou seleção positiva em E7 foi detectado pelo método de detecção de probabilidades posteriores Naive Empirical Bayes (NEB) (Nielsen e Yang, 1998; Yang et al., 2000), que por não contabilizar os erros de amostragem não possui alta confiabilidade nos resultados. Os sítios detectados na proteína L2 foram obtidos utilizando o método Bayes Empirical Bayes (BEB) (Yang et al., 2005), que é mais confiável. É importante ressaltar que alguns estudos não detectaram sítios sob pressão seletiva diversificadora em E7 e L2, como observado em linhagens de HPV-16 (DeFilippis et al., 2002; Chen et al., 2005), mas foram detectados em análises com Alphapapillomavirus (Carvajal-Rodríguez, 2008). Com relação aos outros genes, apenas duas inconsistências foram encontradas com a literatura, um sítio detectado em L1 (Carvajal-Rodríguez, 2008), e três ou quatro sítios detectados em E6 (DeFilippis et al., 2002; Chen et al., 2005; CarvajalRodríguez, 2008). É preciso levar em consideração que, devido ao alto índice de variabilidade genética entre os membros da família Papillomaviridae, alguma informação pode estar sendo enviesada ou perdida, principalmente com o grande número de gaps introduzidos. Apesar disso, é notória a importância de detectar sítios que estão sofrendo pressão seletiva diversificadora, mesmo tratando-se de um conjunto de dados tão variável, porque provavelmente são peptídeos muito importantes para a imunogenicidade (direcionando modificações nos aminoácidos visando à evasão do sistema imune do hospedeiro) e interação funcional das proteínas virais e celulares (alteração de domínios de ligação proteína-proteína). Assim, o potencial evolutivo das proteínas dos PVs pode ter sérias implicações para a eficácia e desenvolvimento de estratégias vacinais baseadas em epítopos e drogas antivirais, como sugerido por DeFilippis et al. (2002). Esses sítios devem apresentar uma importância ainda maior por estar representados em uma ampla gama de hospedeiros. Entretanto, outras 74 análises mais aprofundadas são necessárias para diminuir ao máximo as chances de erro devido à grande variabilidade encontrada no grupo. Outro processo que ajuda no aumento da variabilidade e, em consequência, dificulta a reconstrução da filogenia dos PVs, é a recombinação. Eventos de recombinação já foram observados em HPVs e nos Alphapapillomavirus (Varsani et al., 2006; Angulo e CarvajalRodríguez, 2007; Carvajal-Rodríguez, 2008), mas nenhum destes estudos abordou uma ampla diversidade de PVs. Em seis genes foram encontrados evidências de recombinação com pelo menos três dos métodos avaliados. Essa abordagem que utilizou evidências encontradas por pelo menos três métodos diferentes foi importante para diminuir as chances de erro de algum dos algoritmos. Entretanto, devido à dificuldade de se alinhar de forma confiável as sequências desses vírus, ainda podemos encontrar sinais de recombinação que podem na verdade ser artefatos (Varsani et al., 2006). Identificar regiões que recombinaram é importante por mostrar regiões nos genomas dos PVs responsáveis por sinais filogenéticos aberrantes, interferindo no entendimento da história evolutiva desses vírus. Além disso, detectar recombinação reforça a ideia de que há infecções múltiplas por diferentes tipos virais, que não é um evento raro, gerando novos tipos recombinantes, como observado por Antonishyn et al. (2008) e Angulo e Carvajal-Rodríguez (2007). Apesar de neste estudo ser utilizado vírus que infectam diferentes hospedeiros, dificultando a ocorrência de recombinação entre eles, as evidências aqui encontradas sugerem que as recombinações podem ter ocorrido em ancestrais, antes da diversificação dos PVs, reforçando a ideia de Varsani et al. (2006). Após a observação de alguns mecanismos que podem estar influenciando a diversificação dos PVs, sugerimos uma nova abordagem para a reconstrução da filogenia desses vírus utilizando regiões genômicas de baixa entropia. Regiões em uma sequência de DNA que são bastante divergentes podem apresentar diferentes histórias evolutivas, e assim 75 perturbar a construção da filogenia de um grupo. Assim, encontrar e excluir essas regiões é um passo importante quando tratamos de um conjunto de dados bastante variável. Análises de entropia de sequências de nucleotídeos e aminoácidos já se mostraram úteis na determinação de padrões de variabilidade genética (Schneider et al., 1986; Pilpel e Lancet, 1999; Zou e Saven, 2000; Mutihac et al., 2001; Valdar, 2002; Krishnamachari et al., 2004; Liao et al., 2005), sendo uma poderosa ferramenta para determinar locais pouco complexos no genoma, importantes para uma reconstrução filogenética mais precisa. Assim, a entropia nos dá suporte estatístico para indicar regiões que apresentam maior probabilidade de serem homólogas, sem influências externas como recombinação. É importante ressaltar que esta é a primeira vez que a entropia foi utilizada com o objetivo de selecionar regiões do genoma dos PVs para a reconstrução de sua filogenia. Apesar da grande variação genética entre os PVs, foi possível observar regiões genômicas de baixa complexidade informacional, que estão relacionadas com as partes conservadas de cada gene. Logicamente, os genes menos variáveis apresentaram mais regiões de baixa entropia. Essas regiões possuem uma probabilidade maior de manter partes mais importantes do genoma, estando relacionadas com domínios funcionais nas proteínas desses vírus. As regiões foram consideradas como sendo de baixa entropia quando menores ou iguais a dois bits de informação porque como o DNA de um organismo apresenta quatro nucleotídeos diferentes, para que todos esses estados estejam disponíveis cada posição requer log2 N bits. Portanto, log2 4 = 2 bits de informação. Esse ponto de corte é importante porque é necessário que todos os estados sejam representados e que exista variação suficiente para separar bem os clados na árvore filogenética gerada. Segundo Kim et al. (2003), locais relacionados com sítios de ligação de fatores de transcrição apresentam baixa probabilidade de mutações, permitindo uma maior probabilidade de manutenção dos domínios em seu estado funcional, tendendo à estabilidade evolutiva. Assim, embora os PVs apresentem uma grande diversidade genética, a análise da entropia 76 permite a seleção de regiões mais estáveis evolutivamente para ser utilizadas na reconstrução da filogenia do grupo. A abordagem aqui sugerida, baseada na análise de entropia, para seleção de regiões mais informativas filogeneticamente se torna mais significativa quando estas regiões genômicas estão relacionadas com a funcionalidade e manutenção da estrutura da proteína, uma vez que é sabido que existem restrições funcionais e estruturais na evolução das proteínas, indicando que existe tolerância diferenciada às substituições de aminoácido. Assim, as mudanças nas sequências de aminoácidos dos PVs relacionadas com estruturas de α-hélice e folha β possuem uma probabilidade menor de ocorrer porque essas estruturas são bastante requisitadas para o estabelecimento da estrutura terciária, como sugerido por Camps et al. (2007). Assim, a grande variabilidade genética que os papilomavírus apresentam pode ser explicada pela presença de regiões conservadas importantes funcional e estruturalmente, que mantêm a estabilidade da proteína e indicam uma ancestralidade comum. Relacionar as regiões de baixa complexidade informacional com a estrutura secundária das proteínas foi bastante relevante. Entretanto, muitas regiões selecionadas pela entropia estão relacionadas com regiões de alça. Apesar da existência de uma potencial flexibilidade nas alças, aumentando a tolerância à variação dessas regiões, alguma conservação pode ser encontrada dependendo se resíduos ativos cataliticamente estão presentes nestas estruturas ou se elas adotam posições importantes para a estrutura terciária (Camps et al., 2007). Além disso, as regiões de hélice e de folha β podem exercer influência sobre as regiões de alça adjacentes, como efeito da blindagem, fazendo com que ocorra conservação dos aminoácidos presentes nesses locais devido à pressão evolutiva conhecida como background selection, como foi observado em Fusconaia, Pleurobema, Lemiox e Ptychobranchus (Chapman et al., 2008). Logo podemos inferir que as regiões de baixa entropia muito 77 provavelmente são importantes estruturalmente, se tornando muito úteis para a reconstrução da filogenia dos PVs. Diante desta constatação, esta foi a primeira vez que a entropia foi utilizada como parâmetro para a seleção de regiões genômicas funcionalmente importantes, visando à melhoria do sinal filogenético para a reconstrução das relações evolutivas de um grupo de organismos. Além disso, foram realizadas análises com três partições diferentes, utilizando 4, 5 e 6 genes concatenados. Conhecer a fundo as relações filogenéticas dos PVs é bastante importante por causa da sua efetiva contribuição para a taxonomia e classificação, relevantes para o diagnóstico e terapia (Gottschling et al., 2007b). Grupos de alto e baixo risco, com relação às lesões malignas e benignas respectivamente, podem ser diferenciados com a ajuda da inferência filogenética (Van Ranst et al., 1992; Muñoz et al., 2003; Bravo e Alonso, 2004; Gottschling et al., 2007b). Apesar de vários estudos abordarem a filogenia dos PVs (Chan et al., 1992; Chan et al., 1995; Gottschling et al., 2007b; Bravo e Alonso, 2007), ainda existem muitas lacunas que precisam ser preenchidas para o completo entendimento da evolução dos PVs. Assim, os resultados apresentados aqui descrevem as relações filogenéticas dos PVs utilizando regiões genômicas de baixa entropia, a partir de uma criteriosa análise que objetivou o entendimento dos padrões de variabilidade das sequências genéticas dos PVs. Do ponto de vista evolutivo, os resultados aqui obtidos corroboraram com a idéia de que a diversificação dos PVs são decorrentes de múltiplos mecanismos evolutivos, como sugerido por Gottschling et al. (2007b), que utilizou grande quantidade de informação genética em suas análises. Para confirmar que apenas a co-evolução guia a diversificação dos PVs é necessário que exista congruência entre a filogenia do vírus com a do hospedeiro, como se pensava há pouco tempo (Chan et al., 1995; de Villiers et al., 2004; García-Vallvé et al., 2005). Apesar de esta 78 ideia ser bastante plausível em primeira instância, nossos resultados sugerem que há desacordo entre a filogenia dos PVs com a dos hospedeiros, como acontece com as polifilias encontradas nos PVs que infectam primatas. Estes resultados estão de acordo com os achados de Gottschling et al. (2007b). Gottschling et al. (2007b) também sugeriram que eventos de recombinação ancestral poderia estar perturbando a recostrução filogenética dos PVs, que foi confirmado por nossos achados. Vários eventos de recombinação foram detectados em nosso estudo, ocorrendo entre tipos virais que são distantemente relacionados. Como a recombinação deve ocorrer no interior de uma célula hospedeira, e muitos desses eventos foram detectados em PVs que infectam hospedeiros diferentes, recombinação pode ter corrido em vírus ancestrais e foram herdados por alguns PVs. Outro grande problema encontrado para a coerente elucidação da filogenia dos PVs é a amostragem insuficiente dos tipos, subtipos e variantes virais. Enquanto muitos tipos de HPVs são conhecidos, há uma amostragem insuficiente de PVs não-humanos. Essa falta de representação pode explicar os baixos valores de bootstrap encontrados nos nós mais internos. Embora os nossos resultados se assemelhassem aos encontrados por Gottschling et al. (2007b), que utilizaram outro método de edição de sequências (Castresana, 2000), conseguimos obtê-los utilizando apenas algumas poucas regiões do genoma, que apresentaram baixa entropia. Isto significa que conseguimos os mesmos resultados utilizando menos dados (cerca de 1000 nucleotídeos a menos nas análises com quatro genes), acarretando em um menor custo computacional. Essa abordagem se torna importante porque utiliza apenas as regiões mais informativas, tornando-se mais eficiente que o método citado anteriormente. Outra vantagem desta abordagem é que a congruência obtida entre as topologias baseadas nas três partições utilizadas em nosso estudo indicou que é possível reconstruir a filogenia dos PVs utilizando 4, 5 ou 6 genes concatenados, desde que as regiões mais 79 informativas destes genes sejam utilizadas. A relevância deste processo é que não existe mais a necessidade de sequenciar o genoma completo de novos tipos de PVs para que eles sejam incluídos em estudos de filogenômica. Embora alguns estudos mostraram a eficiência de outros métodos em eliminar regiões que perturbam o sinal filogenético do conjunto de dados (Castresana, 2000; Talavera e Castresana, 2007), é importante o desenvolvimento de novas abordagens que aumentem essa eficiência para tornar a estimativa de grandes filogenias mais acessível. 80 6. Conclusões Embora os vírus aqui estudados pertençam à mesma família e eles sejam considerados como sendo de evolução lenta, os tipos de PVs apresentaram grande variabilidade genética. O viés do uso preferencial de códons pelos PVs contribui para a grande heterogeneidade de suas sequências genéticas, apesar de não demonstrar o padrão de evolução dos hospedeiros. A pressão seletiva negativa que incide sobre as proteínas dos PVs é mais um indicativo da grande variabilidade genômica desses vírus, que tende a mostrar que as mutações não são adaptativas. Apesar disso, foram identificados sítios sob seleção diversificadora, sugerindo que estudos mais aprofundados são necessários para o entendimento da função biológica desses domínios. Os métodos utilizados neste estudo para detectar e excluir regiões genômicas que perturbam o sinal filogenético indicaram a presença de vários eventos de recombinação, que possivelmente ocorreram em vírus ancestrais aos PVs. Além disso, foram identificadas regiões de baixa entropia que se mostraram necessárias para o estudo das relações evolutivas destes vírus a partir de um conjunto de dados tão heterogêneo que estão associadas com partes importantes funcional e estruturalmente de suas proteínas. A reconstrução da filogenia dos PVs a partir de regiões de baixa entropia foi satisfatória por obter resultados similares aos estudos anteriores, entretanto utilizando um número reduzido de dados, ocasionando uma diminuição considerável do tempo computacional gasto para a realização dos cálculos estatísticos. A falta de representatividade de alguns tipos de PVs explica a ausência de confiabilidade nos nós mais internos. Estudos futuros que visem à detecção e sequenciamento de genomas de novos tipos, subtipos e variantes virais são necessários para o preenchimento destas lacunas, obtendo assim um cenário mais compreensivo da diversificação dos PVs. 81 7. Referências Bibliográficas Abascal F, Zardoya R and Posada D (2005) ProtTest: Selection of best-fit models of protein evolution. Bioinformatics 21:2104-2105. Akashi H and Gojobori T (2002) Metabolic efficiency and amino acid composition in the proteomes of Escherichia coli and Bacillus subtilis. Proc Natl Acad Sci USA 99:36953700. Altschul SF, Gish W, Miller W, Myers EW and Lipman DJ (1990) Basic local alignment search tool. J Mol Biol 215:403-410. Andersson SGE and Sharp PM (1996) Codon usage in the Mycobacterium tuberculosis complex. Microbiol 142:915-925. Angulo M and Carvajal-Rodriguez A (2007) Evidence of recombination within human alphapapillomavirus. Virol J 4:33-40. Antonishyn NA, Horsman GB, Kelln RA, Saggar J and Severini A (2008) The impact of the distribution of human papillomavirus types and associated high-risk lesions in a colposcopy population for monitoring vaccine efficacy. Arch Pathol Lab Med 132:54-60. Antonsson A and Hansson BG (2002) Health skin of many animal species harbors papillomaviruses which are closely related to their human counterparts. J Virol 76:1253712542. Antonsson A, Erfurt C, Hazard K, Holmgren V, Simon M, Kataoka A, Hossain S, Hakangard C and Hansson BG (2003) Prevalence and type spectrum of human papillomaviruses in healthy skin samples collected in three continents. J Gen Virol 84:1881-1886. Bader D, Moret BM and Vawter L (2001) Industrial applications of high-performance computing for phylogeny reconstruction. Proc SPIE ITCom 4528:159-168. Baldauf SL (2003) Phylogeny for the faint of heart: a tutorial. Trends Genet 19:345-351. 82 Bernard HU (2005) The clinical importance of the nomenclature, evolution and taxonomy of human papillomaviruses. J Clin Virol 32:1-6. Bernard HU (2006) Phylogeny and taxonomy of papillomaviruses. In: Campo MS (ed) Papillomavirus Research: From Natural History to Vaccines and Beyond. Caister Academic Press, Norfolk, pp 11-17. Bishop B, Dasgupta J, Klein M, Garcea RL, Christensen ND, Zhao R and Chen XS (2007) Crystal structures of four types of human papillomavirus L1 capsid proteins: understanding the specificity of neutralizing monoclonal antibodies. J Biol Chem 282:31803-31811. Boni MF, Posada D and Feldman MW (2007) An exact nonparametric method for inferring mosaic structure in sequence triplets. Genetics 176:1035-1047. Bosch FX, Lorincz A, Munoz N, Meier CJLM and Shah KV (2002) The causal relation between human papillomavirus and cervical cancer. J Clin Pathol 55:244-65. Bossis I, Roden RBS, Gambhira R, Yang R, Tagaya M, Howley PM and Meneses PI (2005) Interaction of tSNARE syntaxin 18 with the papillomavirus minor capsid protein mediates infection. J Virol 79:6723-6731. Bousarghin L, Touze A, Combita-Rojas A and Coursaget P (2003) Positively charged sequence of human papillomavirus type 16 capsid proteins are sufficient to mediate gene transfer into target cells via the heparan sulphate receptor. J Gen Virol 84:157-164. Bravo IG and Alonso A (2004) Mucosal human papillomaviruses encode four different E5 proteins whose chemistry and phylogeny correlate with malignant or benign growth. J Virol 78:13613-13626. Bravo IG and Alonso Á. Phylogeny and evolution of papillomaviruses based on the E1 and E2 proteins. Virus Genes 34:249-262. Bryan JT and Brown DR (2001) Transmission of human papillomavirus type 11 infection by desquamated cornified cells. Virology 281:35-42. Burd ME (2003) Human papillomavirus and cervical cancer.Clin Microbiol 16:1-17. 83 Caldeira S, de Villiers EM and Tommasino M (2000) Human papillomavirus E7 proteins stimulate proliferation independently of their ability to associate with retinoblastoma protein. Oncogene 19:821-6. Campo MS (2002) Animal models of papillomavirus pathogenesis. Virus Res 89:249-261. Campo MS (2003) Papillomavirus and disease in humans and animals. Vet Comp Oncology 1: 3-14. Camps M, Herman A, Loh E and Loeb LA (2007) Genetic constraints on protein evolution. Crit Rev Biochem Mol Biol 42:313-26. Carvajal-Rodríguez A (2008) Detecting recombination and diversifying selection in human alpha-papillomavirus. Infect Genet Evol 8:689-92. Castellsagué X, Díaz M, de Sanjosé S, Muñoz N, Herrero R, Franceschi S, Peeling RW, Ashley R, Smith JS, Snijders PJ, et al. (2006) Worldwide human papillomavirus etiology of cervical adenocarcinoma and its cofactors: implications for screening and prevention. J Natl Cancer Inst 98:303-15. Castresana J (2000) Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis. Mol Biol Evol 17 540-552. Chambers G, Ellsmore VA, O’Brien PM, Reid SWJ, Love S, Campo MS, Nasir L (2003) Association of bovine papillomavirus with the equine sarcoid. J Gen Virol 84:1055-1062. Chan SY, Bernhard HU, Ong CK, Chan SP, Hoffman B and Delius H (1992) Phylogenetic analysis of 48 papillomavirus types and 28 subtypes and variants: a showcase for the molecular evolution of DNA viruses. J Virol 66:5714-5725. Chan SY, Delius H, Halpern AL and Bernard HU (1995) Analysis of genomic sequences of 95 papillomavirus types: uniting typing, phylogeny, and taxonomy. J Virol 69:3074-3083. Chang F (1990) Role of papillomaviruses. J Clin Pathol 43:269-276. Chapman EG, Piontkivska H, Walker JM, Stewart DT, Curole JP and Hoeh WR (2008) Extreme primary and secondary protein structure variability in the chimeric male- 84 transmitted cytochrome c oxidase subunit II protein in freshwater mussels: evidence for an elevated amino acid substitution rate in the face of domain-specific purifying selection. BMC Evol Biol 8:165-180. Chen EY, Howley PM, Levinson AD and Seeburg PH (1982) The primary structure and genetic organization of the bovine papillomavirus type 1 genome. Nature 299:529- 534. Chen Z, Terai M, Fu L, Herrero R, DeSalle R and Burk RD (2005) Diversifying selection in human papillomavirus type 16 lineages based on complete genome analyses. J Virol 79:7014-7023. Clifford GM, Smith JS, Plummer M, Munoz N and Franceschi S (2003) Human papillomavirus types in invasive cervical cancer worldwide: a meta-analysis. Br J Cancer 88:63-73. Cole C, Barber JD and Barton GJ (2008) The Jpred 3 secondary structure prediction server. Nucleic Acids Res 36:197-201. Collins AS, Nakahara T, Do A and Lambert PF (2005) Interactions with pocket proteins contribute to the role of human papillomavirus type 16 E7 in the papillomavirus life cycle. J Virol 79:14769-14780. Crooks GE, Hon G, Chandonia JM and Brenner SE (2004) WebLogo: a sequence logo generator. Genome Res 14:1188-1190. D’Onofrio G, Mouchiroud D, Aissani B, Gautier C and Bernardi G (1991) Correlations between the compositional properties of human genes, codon usage, and amino acid composition of proteins. J Mol Evol 32:504-510. Danos O, Katinka M and Yaniv M (1982) Human papillomavirus 1a complete DNA sequence: a novel type of genome organization among Papovaviridae. EMBO J 1:231-236. Davison AJ, Benko M and Harrach B (2003) Genetic content and evolution of adenoviruses. J Gen Virol 84:2895-2908. 85 de Araujo Souza PS and Villa LL (2003) Genetic susceptibility to infection with human papillomavirus and development of cervical cancer in women in Brazil. Mutat Res 544:375-83. de Villiers EM (1998) Human papillomavirus infections in skin cancer. Biomed Pharmacother 52:26-33. de Villiers EM, Fauquet C, Broker TR, Bernard HU and zur Hausen H (2004) Classification of papillomaviruses. Virology 324:17-27. DeFilippis VR, Ayala FJ and Villarreal LP (2002) Evidence of diversifying selection in human papillomavirus type 16 E6 but not E7 oncogenes. J Mol Evol 55:491-499. Dell G and Gaston K (2001) Human papillomaviruses and their role in cervical cancer. Cell Mol Life Sci 58:1923-1942. Doorbar J, Parton A, Hartley K, Banks L, Crook T, Stanley M and Crawford L (1990) Detection of novel splicing patterns in an HPV16-containing keratinocyte cell line. Virology 178:254-262. Ellegren H (2008) Comparative genomics and the study of evolution by natural selection. Mol Ecol 17:4586-96. Farris JS, Källersjö M, Kluge AG and Bult C (1994) Testing significance of incongruence. Cladistics 10:315-319. Felsenstein J (1988) Phylogenies from molecular sequences: inference and reliability. Annu Rev Genet 22:521-565. Finnen RL, Erikson KD, Chen XS, Garcea RL (2003) Interactions between papillomavirus L1 and L2 capsid proteins. J Virol 77:4818-4826. Florin L, Becker KA, Lambert C, Nowak T, Sapp C, Strand D, Streek RE and Sapp M (2006) Identification of a dynein interacting domain in the papillomavirus minor capsid protein L2. J Virol 80:6691-6696. 86 Florin L, Sapp C, Streeck RE and Sapp M. (2002) Assembly and translocation of papillomavirus capsid proteins. J Virol 76:10009-14. Forslund O, Antonsson A, Nordin P and Hansson BG (1999) A broad range of human papillomavirus types detected with a general PCR method suitable for analysis of cutaneous tumours and normal skin. J Gen Virol 80:2437-2443. Forslund O, Ly H, Reid C and Higgins G (2003) A broad range of human papillomavirus types are present in skin of Australian patients with non-melanoma skin cancers and solar keratosis. Br J Dermatol 149:64-73. Franco EL, Duarte-Franco E and Ferenczy A (2001) Cervical cancer: epidemiology, prevention and the role of human papillomavirus infection. CMAJ 164:1017-25. Furth PA and Baker CC (1991) An element in the bovine papillomavirus late 3’ untranslated region reduces polyadenylated cytoplasmic RNA levels. J Virol 65:5806-5812. García-Vallvé S, Alonso Á and Bravo IG (2005) Papillomaviruses: different genes have different histories. Trends Microbiol 13:514-521. Gibbs MJ, Armstrong JS and Gibbs AJ (2000) Sister-Scanning: a Monte Carlo procedure for assessing signals in recombinant sequences. Bioinformatics 16:573-582. Goldman N and Yang Z (1994) A codon-based model of nucleotide substitution for protein coding DNA sequences. Mol Biol Evol 11:725-736. Goloboff P (1999) NONA (NO NAME) ver. 2. Published by the author, Tucumán. Gottschling M, Köhler A, Stockfleth E and Nindl I (2007) Phylogenetic analysis of betapapillomaviruses as inferred from nucleotide and amino acid sequence data. Mol Phylogenet Evol 42:213-222. Gottschling M, Stamatakis A, Nindl I, Stockfleth E, Alonso À and Bravo IG (2007) Multiple evolutionary mechanisms drive papillomavirus diversification. Mol Biol Evol 24:12421258. 87 Guindon S and Gascuel O (2003) A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol 52:696-704. Hall TA (1999) BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT. Nucl Acids Symp Ser 41:95-98. Hardison RC (2003) Comparative genomics. PLoS Biol 1:156-160. Hawley-Nelson P, Vousden KH, Hubbert NL, Lowy DR and Schiller JT (1989) HPV16 E6 and E7 proteins cooperate to immortalize human foreskin keratinocytes. EMBO J 8:39053910. Henikoff S, Henikoff JG, Alford WJ and Pietrokovski S (1995) Automated construction and graphical presentation of protein blocks from unaligned sequences. Gene 163:17-26. Herniou EA, Luque T, Chen X, Vlak JM, Winstanley D, Cory JS and O’Reilly DR (2001) Use of whole genome sequence data to infer baculovirus phylogeny. J Virol 75:8117-8126. Howley PM and Lowy DR (2001) Papillomaviruses and their replication. In: Knipe DM and PM (eds) Fields Virology. 4th edition. Howley Lippincot Williams & Wilkins, Philadelphia, pp 2197-2230. INCA (2008) Estimativa 2008 - Incidência de Câncer no Brasil. Instituto Nacional do Câncer/Ministério da Saúde, Rio de Janeiro, 98 pp. Jablonska S and Majewski S (1994) Epidermodysplasia verruciformis: immunological and clinical aspects. Curr Top Microbiol Immunol 186:157-75. Jiang Y, Deng F, Wang H and Hu Z (2008) An extensive analysis on the global codon usage pattern of baculoviruses. Arch Virol 153:2273-2282. Joyce JG, Tung JS, Przysiecki CT, Cook JC, Lehman ED, Sands JA, Jansen KU and Keller PM (1999) The L1 major capsid protein of human papillomavirus type 11 recombinant virus-like particles interacts with heparin and cell-surface glycosaminoglycans on human keratinocytes. J Biol Chem 274:5810-5822. 88 Kämper N, Day PM, Nowak T, Selinka HC, Florin L, Bolscher J, Hilbig L, Schiller JT and Sapp M (2006) A membrane-destabilizing peptide in capsid protein L2 is required for egress of papillomavirus genomes from endosomes. J Virol 80:759-768. Kanaya S, Yamada Y, Kinouchi M, Kudo Y and Ikemura T (2001) Codon usage and tRNA genes in eukaryotes: correlation of codon usage diversity with translation efficiency and with CG-dinucleotide usage as assessed by multivariate analysis. J Mol Evol 53:290-298. Kim JT, Martinetz T and Polani D (2003) Bioinformatic principles underlying the information content of transcription factor binding sites. J Theor Biol 220:529-544. Krishnamachari A, moy Mandal V and Karmeshu (2004) Study of DNA binding sites using the Rényi parametric entropy measure. J Theor Biol 227:429-36. Kunst F, Ogasawara N, Moszer I, Albertini AM, Alloni G, Azevedo V, Bertero MG, Bessières P, Bolotin A, Borchert S, et al. (1997) The complete genome sequence of the gram-positive bacterium Bacillus subtilis. Nature 390:249-256. Lesk A (2008) Introdução à Bioinformática. 2ª edição. Artmed, Porto Alegre, 384 pp. Liao H, Yeh W, Chiang D, Jernigan RL and Lustig B (2005) Protein sequence entropy is closely related to packing density and hydrophobicity. Protein Eng Des Sel 18:59-64. Librado P and Rozas J (2009) DnaSP v5: a software for comprehensive analysis of DNA polymorphism data. Bioinformatics 25:1451-1452. Liu X, Clements A, Zhao K and Marmorstein R (2006) Structure of the human papillomavirus E7 oncoprotein and its mechanism for inactivation of the retinoblastoma tumor suppressor. J Biol Chem 281:578-586. Longworth MS and Laiminis LA (2004) Pathogenesis of human papillomaviruses in differentiating epithelia. Microbiol Mol Biol Rev 68:362-72. Martin D and Rybicki E (2000) RDP: detection of recombination amongst aligned sequences. Bioinformatics 16:562-563. 89 Martin DP, Posada D, Crandall KA and Williamson C (2005) A modified bootscan algorithm for automated identification of recombinant sequences and recombination breakpoints. AIDS Res Hum Retroviruses 21:98-102. Martin DP, Williamson C and Posada D (2005) RDP2: recombination detection and analysis from sequence alignments. Bioinformatics 21:260-262. Masterson PJ, Stanley MA, Lewis AP and Romanos MA (1998) A C-terminal helicase domain of the human papillomavirus E1 protein binds E2 and the DNA polymerase alphaprimase p68 subunit. J Virol 72:7407-7419. Maynard Smith J (1992) Analyzing the mosaic structure of genes. J Mol Evol 34:126-129. McLaughlin-Drubin ME and Münger K (2009) The human papillomavirus E7 oncoprotein. Virology 384:335-44. McMurray HR, Nguyen D, Westbrook TF and Mcance DJ (2001) Biology of human papillomaviruses. Int J Exp Pathol 82:15-33. McVean GAT and Vieira J (2001) Inferring parameters of mutation, selection and demography from patterns of synonymous site evolution in Drosophila. Genetics 157:245257. Medigue C, Rouxel T, Vigier P, Henaut A and Danchin A (1991) Evidence for horizontal gene transfer in Escherichia coli speciation. J Mol Biol 222:851-856. Merkl R (2003) A survey of codon and amino acid frequency bias in microbial genomes focusing on translational efficiency. J Mol Evol 57:453-466. Metzker ML, Mindell DP, Liu XM, Ptak RG, Gibbs RA and Hillis DM (2002) Molecular evidence of HIV-1 transmission in a criminal case. Proc Natl Acad Sci USA 99:1429214297. Miyamoto MM and Cracraft J (1991) Phylogenetic Analysis of DNA Sequences. 1st edition, Oxford University Press, New York, 358 pp. 90 Modis Y, Trus BL and Harrison SC (2002) Atomic model of the papillomavirus capsid. EMBO J 21:4754-4762 Montague MG and Hutchison CA 3rd (2000) Gene content phylogeny of herpesviruses. Proc Natl Acad Sci USA 97:5334-5339. Muñoz N, Bosch FX, de Sanjose S, Herrero R, Castellsague X, Shah KV, Snijders PJLM, Meijer CJF (2003) Epidemiologic classification of human papillomavirus types associated with cervical cancer. N Engl J Med 348:518-527. Mutihac R, Cicuttin A and Mutihac RC (2001) Entropic approach to information coding in DNA molecules. Mater Sci Eng C 18:51-60. Narisawa-Saito M and Kiyono T (2007) Basic mechanisms of high-risk human papillomavirus-induced carcinogenesis: roles of E6 and E7 proteins. Cancer Sci 98:150511. Nei M and Kumar S (2000) Molecular Evolution and Phylogenetics. 1st edition, Oxford University Press, New York, 333 pp. Nicholls PK and Stanley MA (2000) The immunology of animal papillomaviruses. Vet Immunol Immunopathol 73:101-127. Nielsen R and Yang Z (1998) Likelihood models for detecting positively selected amino acid sites and applications to the HIV-1 envelope gene. Genetics 148:929-936. Nixon KC (2002) WinClada ver. 1.0000. Published by the author, Ithaca. Ogawa T, Tomita Y, Okada M, Shinozaki HK, Kaiho I and Shirasawa H (2004) Broadspectrum detection of papillomaviruses in bovine teat papillomas and healthy teat skin. J Gen Virol 85:2191-2197. Okun MM, Day PM, Greenstone HL, Booy FP, Lowy DR, Schiller JT and Roden RB (2001) L1 interaction domains of papillomavirus L2 necessary for viral genome encapsidation. J Virol 75:4332-4342. 91 Orth G, Favre M and Croissant O (1977) Characterization of a new type of human papillomavirus that causes skin warts. J Virol 24:108-120. Padidam M, Sawyer S and Fauquet CM (1999) Possible emergence of new geminiviruses by frequent recombination. Virology 265:218-225. Pilpel Y. and Lancet D (1999) The variable and conserved interfaces of modeled olfactory receptor proteins. Protein Sci 8:969-977. Posada D (2002) Evaluation of methods for detecting recombination from DNA sequences: empirical data. Mol Biol Evol 19:708-717. Posada D and Crandall KA (1998) MODELTEST: testing the model of DNA substitution. Bioinformatics 14:817-8. Posada D and Crandall KA (2001) Evaluation of methods for detecting recombination from DNA sequences: computer simulations. Proc Natl Acad Sci USA 98:13757-13762. Pouwels PH and Leunissen JAM (1994) Divergence in codon usage of Lactobacillus species. Nucleic Acids Res 22:929-936. Prosdocimi F, Folgueras-Flatschart AV, Cerqueira GC and Binneck E (2003) Bioinformática: manual do usuário. Biotec Ciênc Desenvol 29:18-31. Purvis A and Bromham L (1997) Estimating the transition/transversion ratio from independent pairwise comparisons with an assumed phylogeny. J Mol Evol 44:112-119. Raj K, Berguerand S, Southern S, Doorbar J and Beard P (2004) E1 empty set E4 protein of human papillomavirus type 16 associates with mitochondria. J Virol 78:7199-207. Rector A, Lemey P, Tachezy R, Mostmans S, Ghim SJ, van Doorslaer K, Roelke M, Bush M, Montali RJ, Joslin J, et al. (2007) Ancient papillomavirus-host co-speciation in Felidae. Genome Biol 8, R57-68. Richards RM, Lowy D, Schiller JT and Day PM (2006) Cleavage of the papillomavirus minor capsid protein, L2, at a furin consensus site is necessary for infection. Proc Natl Acad Sci USA 103:1522-1527. 92 Roden RBS, Yuty W, Fallon R, Inglis S, Lowy D and Schiller JT (2000) Minor capsid protein of human genital papillomavirus contains subdominant, cross-neutralizing epitopes. Virology 270:254-257. Ronquist F and Huelsenbeck JP (2003) MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics 19:1572-1574. Saitou N and Nei M (1987) The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol Biol Evol 4:406-425. Scapoli C, de Lorenzi S, Salvatorelli G and Barrai I (2007) Amino acid and codon use: in two influenza viruses and three hosts. Med Mal Infect 37:337-42. Schmidt HA, Strimmer K, Vingron M and von Haeseler A (2002) TREE-PUZZLE: maximum likelihood phylogenetic analysis using quartets and parallel computing. Bioinformatics 18:502-504. Schneider TD, Stormo GD, Gold L and Ehrenfeucht A (1986) Information content of binding sites on nucleotide sequences. J Mol Biol 188:415-431. Schubert AM, Putonti C (2008) Evolution of the sequence composition of flaviviruses: infection, genetics and evolution. Infect Genet Evol, Epub ahead of print. Schulz E, Gottschling M, Bravo IG, Wittstatt U, Stockfleth E and Nindl I (2009) Genomic characterization of the first insectivoran papillomavirus reveals an unusually long, second non-coding region and indicates a close relationship to Betapapillomavirus. J Gen Virol 90:626-33. Schwarz E, Dürst M, Demankowski O, Lattermann R, Zech E, Wolfsberger S, Suhai S and zur Hausen H (1983) DNA sequence and genome organization of genital human papillomavirus type 6b. EMBO J 2:2341-2348. Seedorf K, Krämmer G, Dürst M, Suhai S and Röwekamp WG (1985) Human papillomavirus type 16 DNA sequence. Virology 145:181-185. 93 Shah KV and Howley PM (1996) Papillomaviruses. In: Fields BN, Knipes DM and Howley PM (eds) Virology. Raven Press, New York, pp 2077-2109. Slomovitz BM, Sun CC, Frumovitz M, Soliman PT, Schmeler KM, Pearson HC, Berenson A, Ramirez PT, Lu KH and Bodurka DC (2006) Are women ready for the HPV vaccine? Gynecol Oncol 103:151-4. Snel B, Bork P and Huynen MA (1999) Genome phylogeny based on gene content. Nat Genet 21:108-110. Strimmer K and von Haeseler A (1997) Likelihood-mapping: A simple method to visualize phylogenetic content of a sequence alignment. Proc Natl Acad Sci USA 94:6815-6819. Sueoka N (1988) Directional mutation pressure and neutral molecular evolution. Proc Natl Acad Sci USA 85:2653-2657. Sul SJ, Matthews S and Williams TL (2009) Using tree diversity to compare phylogenetic heuristics. BMC Bioinformatics 10 Suppl 4:S3. Sundberg JP and Reichmann ME (1993) Papillomavirus Infection. In: Jones TC, Mohr V, Hunt RD (eds) Nonhuman Primates II. Springer Verlag, Berlin, pp 1-8. Supek F and Vlahovicek K (2004) INCA: synonymous codon usage analysis and clustering by means of self-organizing map. Bioinformatics 20:2329-30. Swofford DL (2002) PAUP*: Phylogenetic Analysis Using Parsimony (*and Other Methods). Sinauer Associates, Sunderland. Talavera G and Castresana J (2007) Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments. Syst Biol 56, 564-577. Tamura K, Dudley J, Nei M and Kumar S (2007) MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0. Mol Biol Evol 24:1596-1599. Tao P, Dai L, Luo M, Tang F, Tien P and Pan Z (2009) Analysis of synonymous codon usage in classical swine fever virus. Virus Genes 38:104-112. 94 Thompson JD, Higgins DG and Gibson TJ (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res 22:4673-4680. Tyring SK (2000) Human papillomavirus infections: epidemiology, pathogenesis, and host immune response. J Am Acad Dermatol 43:18-26. Valdar WSJ (2002) Scoring residue conservation. Proteins Struct Funct Genet 43:227-241. Van Ranst M, Fuse A, Fiten P, Beuken E, Pfister H, Burk RD and Opdenakker G (1992) Human papillomavirus type 13 and pygmy chimpanzee papillomavirus type 1: comparison of the genome organizations. Virology 190:587-596. Varsani A, van der Walt E, Heath L, Rybicki EP, Williamson AL and Martin DP (2006) Evidence of ancient papillomavirus recombination. J Gen Virol 87:2527-2531. Varsani A, van der Walt E, Heath L, Rybicki EP, Williamson AL and Martin DP (2006) Evidence of ancient papillomavirus recombination. J Gen Virol 87:2527-2531. Wakabayashi MT, da Silva DM, Potkul RK, Kast WM (2002) Comparison of human papillomavirus type 16 L1 chimeric virus-like particles versus L1/L2 chimeric virus-like particles in tumor prevention. Intervirology 45:300-307. Wang KL (2007) Human papillomavirus and vaccination in cervical cancer. Taiwan J Obstet Gynecol 46:352-62. Wilson VG, West M, Woytek K, Rangasamy D (2002) Papillomavirus E1 proteins: form, function, and features. Virus Genes 24:275-290. Worth CL, Gong S and Blundell TL (2009) Structural and functional constraints in the evolution of protein families. Nat Rev Mol Cell Biol 10:709-20. Xia X and Xie Z (2001) DAMBE: data analysis in molecular biology and evolution. J Hered 92:371-373. Xing K, Deng R, Wang J, Feng J, Huang M and Wang X (2006) Genome-based phylogeny of poxvirus. Intervirology 49:207-214. 95 Yang YC, Spalholz BA, Rabson MS and Howley PM (1985) Dissociation of transforming and trans-activation functions for bovine papillomavirus type 1. Nature 318:575-577. Yang Z (2007) PAML 4: a program package for phylogenetic analysis by maximum likelihood. Mol Biol Evol 24:1586-1591. Yang Z and Yoder A (1999) Estimation of the transition/transversion rate bias and species sampling. J Mol Evol 48:274-283. Yang Z, Nielsen R, Goldman N and Pedersen AM (2000) Codon-substitution models for heterogeneous selection pressure at amino acid sites. Genetics 155:431-449. Yang Z, Wong WSW and Nielsen R (2005) Bayes empirical Bayes inference of amino acid sites under positive selection. Mol Biol Evol 22:1107-1118. Yu U, Lee SH, Kim YJ and Kim S (2004) Bioinformatics in the post-genome era. J Biochem Mol Biol 37:75-82. Zhao KN, Liu WJ and Frazer IH (2003) Codon usage bias and A+T content variation in human papillomavirus genomes. Virus Res 98:95-104. Zou J and Saven JG (2000) Statistical theory of combinatorial libraries of folding proteins: energetic discrimination of a target structure. J Mol Biol 296:281-294. zur Hausen H (1996) Papillomavirus infections - a major cause of human cancers. Biochim Biophys Acta 1288:55-78. zur Hausen H (2000) Papillomaviruses causing cancer: evasion from host-cell control in early events in carcinogenesis. J Natl Cancer Inst 92:690-698. Fontes da Internet: DendroUPGMA, http://genomes.urv.cat/UPGMA (August 12, 2009) GenomeBlast Software, http://bioinfo-srv1.awh.unomaha.edu/genomeblast (August 24, 2009) International Agency for Research on Cancer (IARC), http://www-dep.iarc.fr (June 14, 2009) 96 Kazusa DataBase, http://www.kazusa.or.jp/codon (June 5, 2009) Medscape, www.medscape.com (May 27, 2009) National Center for Biotechnology Information (NCBI), http://www.ncbi.nlm.nih.gov (August 4, 2008) Polydot Tool, http://vm-bioinfo.toulouse.inra.fr/emboss/emboss.cgi/help/polydot (August 17, 2009) 97 8. Anexos 8.1. Figuras referentes às análises de logos de sequência dos genes dos PVs. E1 E2 E4 98 E5 E6 E7 99 L1 L2 100 8.2. Figuras referentes às análises de logos de sequência das proteínas dos PVs. E1 E2 E4 101 E7 E6 E5 L1 L2 102 8.3. Árvores filogenéticas de Máxima Verossimilhança dos PVs baseadas nas sequências de nucleotídeos e nucleotídeos sem a terceira posição dos códons, da esquerda para a direita respectivamente. a) análise com a partição E6-E7-E1-E2-L2-L1, b) análise com a partição E6-E1-E2-L2-L1, c) análise com a partição E1-E2-L2-L1. Os valores de suporte dos ramos estão representados (acima: NJ/MP, abaixo: ML/Probabilidades Bayesianas). Incongruências nas topologias e valores de bootstrap abaixo de 50% não estão representadas. a) 103 b) 104 c) 105 8.4. Lista de trabalhos apresentados em congressos, prêmios recebidos e outras atividades relevantes durante o mestrado. BATISTA, M.V.A. ; FERREIRA, T.A.E. ; FREITAS, A.C. ; BALBINO, V.Q. Genetic diversity and phylogenetic relationships of Papillomavirus based on low entropy genome regions. In: 5th International Conference of the Brazilian Association for Bioinformatics and Computational Biology, 2009. MEDEIROS, S. ; BARRETO, R.V. ; BATISTA, M.V.A. ; CUNHA, W. ; GOMES, R. ; LIMA, T.L. ; SILVA, L ; MAURÍCIO-DA-SILVA, L. ; FERREIRA, T. ; BALBINO, V.Q. Sandfly Database: development of an integrated platform of biological and molecular data of sandflies of medical and veterinary importance (Diptera: Psychodidae). In: 5th International Conference of the Brazilian Association for Bioinformatics and Computational Biology, 2009. FREITAS, N. ; FERREIRA, T.E. ; SENA-JÚNIOR, M. ; BATISTA, M.V.A. ; COSTAJÚNIOR, C. ; LEAL-BALBINO, T. C. ; ALMEIDA, A.M.P. ; BALBINO, V.Q. Evolution of the high-pathogenicity island in Yersiniae. In: 5th International Conference of the Brazilian Association for Bioinformatics and Computational Biology, 2009. CARVALHO, C.C.R. ; BATISTA, M.V.A. ; SILVA, M.A.R. ; BALBINO, V.Q. ; FREITAS, A.C. Evaluation of the presence of low frequent Bovine Papillomavirus types (8, 9 and 10) in Pernambuco state by PCR and sequencing assays. In: XX Encontro Nacional de Virologia, 2009. BATISTA, M.V.A. ; FERREIRA, T.A.E. ; FREITAS, A.C. ; BALBINO, V.Q. Computational analysis of the genetic variability of Papillomaviridae family members seeking to increase the knowledge about their evolution and diversification. In: 25º Congresso Brasileiro de Microbiologia, 2009. BATISTA, M.V.A. ; FERREIRA, T.A.E. ; FREITAS, A.C. ; BALBINO, V.Q. Novel approaches for primers and probes design determined by in silico entropy analysis of the genetic variability of Influenza A virus subtype H1N1. In: 25º Congresso Brasileiro de Microbiologia, 2009. Carvalho, C.C.R. ; BATISTA, M.V.A. ; BALBINO, V.Q. ; FREITAS, A.C. Identificação da presença de Papilomavírus tipos 8, 9 e 10 e confirmação de um provável novo tipo de BPV em amostras de gado de Pernambuco. In: 25º Congresso Brasileiro de Microbiologia, 2009. Tenório, K.E.R. ; Oliveira, A.P.A. ; Figueirêdo Júnior, C.A.S. ; BATISTA, M.V.A. ; LIMA, T.L.D. ; BALBINO, V. Q. Análise do genoma mitocondrial de duas espécies de flebotomíneos epidemiologicamente importantes (Diptera: Psychodidae). In: 54º Congresso Brasileiro de Genética, 2008. Figueirêdo Júnior, C.A.S. ; ALECRIM, F.M. ; BATISTA, M.V.A. ; CARDOSO, M.V. ; CUNHA, W.L. ; FREITAS, N.S.A. ; Tenório, K.E.R. ; BALBINO, V. Q. ; ALMEIDA, A.M.P. Avaliação da sintenia e dos padrões de utilização de códons sinônimos dos genes da ilha de alta patogenicidade de Yersinia pestis. In: 54º Congresso Brasileiro de Genética, 2008. 106 BATISTA, M.V.A. ; ALECRIM, F.M. ; CARDOSO, M.V. ; CUNHA, W.L. ; Figueirêdo Júnior, C.A.S. ; FREITAS, A. C. ; BALBINO, V. Q. Establishment and evaluation of degenerate and type-specific primers for detection and typing of Bovine Papillomavirus (BPV). In: 54º Congresso Brasileiro de Genética, 2008. ALECRIM, F.M. ; BATISTA, M.V.A. ; CARDOSO, M.V. ; COSTA-JÚNIOR, C.R.L. ; CUNHA, W.L. ; Figueirêdo Júnior, C.A.S. ; PITA, W.B. ; BALBINO, V. Q. ; MORAIS JÚNIOR, M.A. Bioinformatics analysis determined for design primers to the mitochondrial genome of the yeast Dekkera bruxellensis. In: 54º Congresso Brasileiro de Genética, 2008. CARDOSO, M.V. ; ALECRIM, F.M. ; BATISTA, M.V.A. ; COSTA-JÚNIOR, C.R.L. ; Figueirêdo Júnior, C.A.S. ; Tenório, K.E.R. ; BALBINO, V. Q. ; MORAIS JÚNIOR, M.A. Otimização da extração de DNA mitocondrial de Dekkera Bruxellensis. In: 54º Congresso Brasileiro de Genética, 2008. CUNHA, W.L. ; ALECRIM, F.M. ; BATISTA, M.V.A. ; CARDOSO, M.V. ; Figueirêdo Júnior, C.A.S. ; Oliveira, A.P.A. ; BALBINO, V. Q. Desenho e avaliação de primers degenerados para o gene da tripsina de Colossoma macropomum (Tambaqui). In: 54º Congresso Brasileiro de Genética, 2008. Menção honrosa pela participação no Prêmio Pós-Graduação, Sociedade Brasileira de Genética, 2008. BATISTA, M.V.A. Aplicação da Bioinformática em Estudos da Diversidade e Evolução Viral. II Simpósio Sergipano de Microbiologia, 2008. (Apresentação palestra). BATISTA, M.V.A. Introdução à Bioinformática. II Simpósio Sergipano de Microbiologia, 2008. (Curso de curta duração ministrado). BATISTA, M.V.A. Bioinformática Básica. VII Semana de Biologia da UFRPE, 2008. (Curso de curta duração ministrado). 107 9. Memorial do(a) aluno(a) Eu, Marcus Vinicius de Aragão Batista, nasci no dia 22 de Setembro de 1983 e meu endereço de e-mail é [email protected]. Ingressei na graduação em 2002 no curso de Ciências Biológicas na Universidade Federal de Sergipe e colei grau em 23 de Março de 2007. Durante o curso de graduação, estagiei no Laboratório de Zooplâncton por seis meses, enquanto estava no segundo período. A partir do terceiro período fui trabalhar no Laboratório de Virologia Comparada, onde fui bolsista de iniciação científica por dois anos e meio, atuando na área de desenvolvimento de novas biotecnologias aplicadas à Virologia e Bacteriologia, principalmente enterobactérias (Salmonella) e picornavírus (vírus da hepatite A). Assim, terminei o curso com experiência na área de Genética, com ênfase em Genética de Microrganismos, tendo como produto alguns resumos publicados em Congressos, um artigo publicado em periódico e ainda a experiência de organizar alguns eventos científicos. Ao final do curso, conheci a área da Bioinformática, que despertou muito interesse em mim, o que me levou a fazer Mestrado em Genética e Biologia Molecular na área de Bioinformática no Programa de Pós-Graduação em Genética e Biologia Molecular da Universidade Federal de Pernambuco. Durante o Mestrado obtive experiência em várias áreas da Bioinformática, como Genômica Comparativa, Funcional e Estrutural; Filogenia Molecular; Modelagem Molecular; Genética de Populações. As áreas da Biologia que tenho mais interesse são aquelas que utilizam as diversas aplicações da Bioinformática e da Genética Molecular no estudo dos vírus, principalmente os Papilomavírus. Também durante o Mestrado tive a oportunidade de ir a vários eventos científicos; realizar um estágio em um laboratório fora do estado de Pernambuco; e também ministrar aulas, cursos de curta duração e palestras. Tudo isso foi bastante importante para a minha formação acadêmica, que com certeza não parará por aí. 108