Genômica comparativa e reconstrução filogenética de papilomavírus

Propaganda
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE CIÊNCIAS BIOLÓGICAS
DEPARTAMENTO DE GENÉTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA
DISSERTAÇÃO DE MESTRADO
GENÔMICA COMPARATIVA E RECONSTRUÇÃO
FILOGENÉTICA DE PAPILOMAVÍRUS
MARCUS VINICIUS DE ARAGÃO BATISTA
RECIFE
2010
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE CIÊNCIAS BIOLÓGICAS
DEPARTAMENTO DE GENÉTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA
DISSERTAÇÃO DE MESTRADO
GENÔMICA COMPARATIVA E RECONSTRUÇÃO FILOGENÉTICA
DE PAPILOMAVÍRUS
MARCUS VINICIUS DE ARAGÃO BATISTA
Dissertação
apresentada
ao
Programa de Pós-graduação em
Genética
da
Universidade
Federal de Pernambuco como
requisito para obtenção do grau
de Mestre em Genética pela
UFPE.
Orientador: Prof. Dr. Valdir de Queiroz Balbino
Co-orientador: Prof. Dr. Antônio Carlos de Freitas
RECIFE
2010
Batista, Marcus Vinicius de Aragão
Genômica comparativa e reconstrução filogenética de papilomavírus /
Marcus Vinicius de Aragão Batista. – Recife: O Autor, 2010.
108 folhas: il., graf., tab.
Orientadores: Valdir de Queiroz Balbino e Antonio Carlos de
Freitas.
Dissertação (Mestrado) – Universidade Federal de
Pernambuco. Centro de Ciências Biológicas. Departamento de
Genética, 2010.
Inclui bibliografia e anexos.
1. Papilomavírus - Filogenia 2. Papilomavírus - Infecção 3.
Papilomavírus - Classificação I. Título.
579.2445 CDD (22.ed.)
UFPE
CCB – 2010 – 053
UNIVERSIDADE FEDERAL DE PERNAMBUCO
PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA
Parecer da comissão examinadora da dissertação de:
Marcus Vinicius de Aragão Batista
intitulada:
Genômica comparativa e reconstrução filogenética de Papilomavírus
A comissão examinadora considera o presente trabalho
APROVADO
Portanto, cumpridas todas as exigências regimentais, Marcus Vinicius de Aragão
Batista faz jus ao grau de Mestre em Genética pela UFPE. Recife, 01/03/2010
Agradecimentos
Aos meus pais que sempre me apoiaram e deram o amor e o suporte necessários para
que eu chegasse até aqui. A confiança que vocês depositaram em mim está dando frutos agora
e nunca será esquecida.
A toda minha faimília, e principalmente aos meus irmãos Marcelo e Mayra, que
sempre acreditaram em mim e também contribuíram para essa vitória na minha vida. Valeu
por dar trabalho aos meus pais enquanto eu estava fora, não podemos deixá-los mal
acostumados, não é?
À Thaisa, minha noiva, amiga e companheira de todas as horas que, apesar da
distância, me proporcionou muito amor, carinho, compreensão e incentivo fundamentais para
minha vida e para a conclusão desse trabalho.
Ao professor, orientador e amigo Valdir Balbino, pela oportunidade, boa vontade de
transferir seus conhecimentos e incentivo nesta jornada, além claro dos momentos de
descontração dentro e fora do laboratório.
Aos professores Antônio Carlos e Alexandre Cândido, também orientadores e amigos,
pelas contribuições, ensinamentos e confiança depositada em mim e no meu trabalho.
Também ao professor Tiago Ferreira, pela inestimável contribuição nas análises deste
trabalho.
A todos os professores e mestres que participaram da minha formação desde a infância
até aqui, por contribuirem para o meu crescimento intelectual e pessoal.
Aos amigos e colegas do LABBE, GEMAP, da turma Mestrado 2008 e também de
Aracaju pelas horas de descontração, companheirismo, trocas de informações e experiências,
sem esquecer a cervejinha nos botecos, importante para tirar o estresse do dia-a-dia.
A todos aqueles que torceram por mim e, direta ou indiretamente, contribuíram para a
conclusão deste trabalho.
SUMÁRIO
Item
Página
Lista de Abreviaturas
.........
i
Lista de Figuras
.........
ii
Lista de Tabelas
.........
iii
Resumo
.........
iv
Abstract
.........
v
Introdução
.........
vi
1. Revisão da Literatura
.........
1
1.1. Papilomavírus
.........
1
1.1.1. Estrutura Viral
.........
1
1.1.2. Genoma Viral
.........
2
1.1.3. Proteínas Virais
.........
4
.........
8
1.2.1. Infecção Latente
.........
9
1.2.2. Infecção Produtiva
.........
9
1.2.3. Transformação Maligna
.........
10
1.3. Papilomavírus e Câncer
.........
10
1.4. Classificação dos Papilomavírus
.........
12
1.4.1. Histórico da Identificação dos Tipos de Papilomavírus
.........
12
1.4.2. A Família Papillomaviridae
.........
13
1.4.3. Os Tipos dos Papilomavírus
.........
13
1.5. Evolução dos Papilomavírus
.........
14
1.6. Bioinformática
.........
15
1.6.1. Genômica Comparativa
.........
15
1.6.2. Filogenia Molecular
.........
16
1.6.3. Evolução do Uso de Códons
.........
18
.........
19
2. Objetivos
.........
21
3. Materiais e Métodos
.........
22
.........
22
.........
22
1.2. Ciclo de Infecção dos Papilomavírus
1.7. Justificativa
3.1. Criação do Banco de Dados Local
3.1.1. Obtenção das Sequências Virais
3.1.2. Montagem do Banco de Dados Local
.........
22
.........
23
3.2.1. Análise da Estrutura Genômica
.........
23
3.2.2. Análise do Pan-Genoma
.........
27
Códons
.........
28
3.2.4. Agrupamento Baseado no Conteúdo Gênico
.........
28
3.3. Alinhamento Múltiplo das Sequências Genômicas
.........
28
3.4. Análise da Diversidade Genômica dos PVs
.........
29
3.4.1. Análise da Variabilidade dos Genes e Proteínas
.........
29
3.4.2. Análise dos Logos de Sequências
.........
30
3.5. Análise de Pressão Seletiva
.........
30
3.6. Análise de Recombinação
.........
32
3.7. Análise de Entropia
.........
33
3.8. Predição da Estrutura Secundária das Proteínas
.........
33
3.9. Reconstrução Filogenética dos PVs
.........
34
3.9.1. Análise de Sinal Filogenético
.........
34
3.9.2. Avaliação da Saturação das Sequências
.........
35
Partições
.........
35
3.9.4. Análise Filogenética dos PVs
.........
36
.........
38
.........
38
4.1.1. Obtenção das Sequências
.........
38
4.2. Análise Genômica Comparativa
.........
40
4.2.1. Análise da Estrutura e Anotação Genômica
.........
40
4.2.2. Análise do Pan-Genoma
.........
41
4.2.3. Estatística de Códons e Evolução dos Genomas
.........
42
4.2.4. Análise do Conteúdo Gênico
.........
44
4.3. Análise da Diversidade Genômica
.........
46
4.4. Avaliação da Pressão Seletiva
.........
49
4.5. Análise de Recombinação
.........
52
4.6. Análise de Entropia Genômica
.........
53
4.7. Predição in silico da Estrutura Secundária das Proteínas
.........
56
3.2. Análise Comparativa da Estrutura Genômica dos PVs
3.2.3. Construção de Árvores Genômicas Baseada em Estatística de
3.9.3. Organização das Matrizes e Teste de Homogeneidade das
4. Resultados
4.1. Banco de Dados Local
4.8. Reconstrução da Filogenia dos Papilomavírus
.........
57
5. Discussão
.........
68
6. Conclusões
.........
81
7. Referências Bibliográficas
.........
82
8. Anexos
.........
98
.........
98
Proteínas dos PVs
.........
101
Anexo 3. Árvores Filogenéticas de Máxima Verossimilhança dos PVs
.........
103
.........
106
.........
108
Anexo 1. Figuras Referentes às Análises de Logos de Sequência dos
Genes dos PVs
Anexo 2. Figuras Referentes às Análises de Logos de Sequência das
Anexo 4. Lista de trabalhos apresentados em congressos, prêmios
recebidos e outras atividades relevantes
9. Memorial do aluno
Lista de abreviaturas
PV
Papilomavírus
DNA
Ácido Desoxirribonucléico
pb
Pares de Bases
Da
Daltons
nm
Nanômetro
ORF
Matriz Aberta de Leitura
VLP
Partícula Semelhante a Vírus
ICTV
Comitê Internacional de Taxonomia de Vírus
LCR
Região Longa de Controle
ATP
Adenosina Trifosfato
RNAm
Ácido Ribonucléico Mensageiro
DST
Doença Sexualmente Transmissível
UPGMA
Método de Agrupamento Pareado Não Ponderado com Média
Aritmética
NCBI
Centro Nacional para Informação Biotecnológica
%GC
Conteudo de Guanina e Citosina
indel
Inserção e Deleção
LRT
Teste da Razão de Verossimilhança
ILD
Diferença do Tamanho de Incongruência
MCMC
Cadeia de Markov Monte Carlo
i
Lista de Figuras
Item
Página
Figura 1. Representação esquemática da estrutura do papilomavírus
.........
2
Figura 2. Desenho esquemático da estrutura genômica do HPV-16
.........
3
Figura 3. Função da proteína p53 e sua interação com a oncoproteína E6
.........
6
Figura 4. Regulação do ciclo celular e a interação da proteína E7 com pRB
.........
7
Figura 5. Ciclo de infecção dos PVs
.........
10
Figura 6. Incidência de câncer do colo do útero ao redor do mundo
.........
11
Figura 7. Análise de similaridade genômica pareada entre os PVs
.........
41
Figura 8. A evolução do conteúdo de GC nos Papilomavírus
.........
43
Figura 9. Dendrogramas representando a divergência no uso de códons
.........
44
Figura 10. Agrupamento baseado na frequência de uso de aminoácidos
.........
45
Figura 11. Árvore baseada no conteúdo gênico do genoma dos PVs
.........
46
Figura 12. Gráficos de entropia para as regiões genômicas estudadas
.........
56
Figura 13. Estrutura secundária predita das oito proteínas dos PVs
.........
58
Figura 14. Avaliação do sinal filogenético dos genes dos Papilomavírus
.........
60
Figura 15. Avaliação do sinal filogenético das proteínas dos Papilomavírus
.........
61
Figura 16. Gráficos de saturação das sequências de DNA dos PVs
.........
63
Figura 17. Árvore filogenética baseada nas sequências de aminoácidos
.........
67
ii
Lista de Tabelas
Item
Página
Tabela 1. Lista dos PVs, hospedeiros e número de acesso das sequências
.........
24
Tabela 2. Genomas utilizados na análise, seu tamanho e conteúdo de GC
.........
38
Tabela 3. Diversidade genômica dos Papilomavírus
.........
47
Tabela 4. Diversidade proteômica dos Papilomavírus
.........
49
Tabela 5. Estimativas de pressão seletiva no genoma dos PVs
.........
50
Tabela 6. Teste LRT para detecção de sítios sob seleção positiva
.........
52
Tabela 7. Análise de recombinação entre os PVs
.........
54
Tabela 8. Teste de incongruência entre as partições
.........
64
iii
Resumo
Os papilomavírus formam um grupo de vírus altamente diverso e específico que infectam
mamíferos, aves e répteis. O conhecimento acerca da sua diversidade genética e evolução
ainda é pobre, não existindo um cenário compreensivo que elucide as relações filogenéticas
desses vírus. Assim, um estudo que visa ao entendimento da variabilidade genética entre os
papilomavírus é fundamental para o aumento do conhecimento de sua complexa história
evolutiva. Esse trabalho consistiu na análise de 53 sequências genômicas completas de
papilomavírus, representando toda sua diversidade conhecida. Estudos de genômica
comparativa foram realizados analisando o tamanho dos genomas; conteúdo gênico;
variabilidade genética; estatística de códons; pressão seletiva; e recombinação. Regiões de
baixa entropia foram utilizadas para a construção de ávores filogenéticas baseadas em quatro
métodos diferentes. A metodologia empregada permitiu a identificação de regiões que são
conservadas entre os papilomavírus que infectam hospedeiros diferentes, ajudando a entender
suas relações evolutivas. Isto é muito importante porque, apesar da grande variação existente
entre os genomas dos papilomavírus, fomos capazes de encontrar regiões que são claramente
compartilhadas, apresentando baixos níveis de complexidade de informação, com o objetivo
de fazer predições. Topologias coerentes foram obtidas com altos valores de confiança, apesar
de não haver consistência em alguns nós internos. Esses resultados indicaram que tais regiões
são bons marcadores para realização de inferências filogenéticas com menor custo
computacional, resultando em um incremento na compreensão da diversificação dos
papilomavírus.
Palavras-chave: Papilomavírus; Filogenia; Genômica; Bioinformática.
iv
Abstract
Papillomavirus forms a highly diverse and specific group of virus that infects mammals, birds
and reptiles. Knowledge about their genetic diversity and evolution is still poor, so there is not
a comprehensive scenario that elucidates the phylogenetic relationships of these viruses. Thus,
a study aiming at understanding the genetic variability among papillomavirus is fundamental
for increasing the knowledge of their complex evolutionary history. This work consisted on
the analysis of 53 papillomaviruses complete genome sequences, which represents all known
diversity of these viruses. Comparative genomic studies were performed concerning the
genome size; gene content; genetic variability; codon statistics; selective pressure; and
recombination. Regions with low entropy were used to construct phylogenetic trees based on
four different methods. The employed methodology allowed the identification of regions that
are conserved among papillomaviruses that infects different hosts, which helps to understand
their evolutionary relationships. This is very important because, despite the huge variation
between all papillomaviruses genomes, we were able to find regions that are clearly shared
among them, presenting low complexity levels of information in order to make predictions.
Coherent topologies were obtained with high confidence values, although there was no
consistency in some internal nodes. These results indicated that those regions are good
markers to make phylogenetic inferences with less computational cost, resulting in an
increment of the capacity of understanding the diversification of the papillomavirus.
Key-words: Papillomavirus; Phylogeny; Genomics; Bioinformatics.
v
Introdução
Papilomavírus (PV) é um grupo altamente diverso e específico de vírus que é
conhecido por infectar mamíferos, aves e répteis. Infecções causadas por PVs frequentemente
levam a lesões na pele ou mucosa que requerem a disponibilidade de células da camada basal,
onde a expressão genética viral é suprimida, embora a expressão limitada de oncogenes virais
resulte no aumento da proliferação destas células e sua expansão lateral.
Existe uma associação causal de tipos de PVs com câncer, fazendo com que esses
vírus atraíam grande interesse por parte dos pesquisadores. Entretanto, existem PVs que estão
associados com lesões cutâneas benignas. Além disso, vários tipos de PVs já foram isolados
de animais aparentemente saudáveis, indicando que eles coexistem com seus hospedeiros por
longos períodos de tempo de forma latente.
O câncer de colo do útero é o segundo em número de casos entre as mulheres no
mundo, e na maioria dos casos é possível estabelecer uma associação com papilomavírus
humano (HPV). Assim, esforços têm sido feitos para se estudar esses vírus, e com isso, o
número de sequências genômicas de PVs disponíveis nos bancos de dados biológicos tem
aumentado substancialmente.
Conhecimento sobre a evolução desses vírus ainda é relativamente pobre, e entender
os processos que regem a diversificação viral é muito importante para o desenvolvimento
futuro de novos métodos de diagnóstico e também de tratamentos mais eficazes. Assim, com
a utilização de ferramentas computacionais e estratégias metodológicas não avaliadas
anteriormente, espera-se obter um cenário evolutivo mais compreensivo dos PVs.
vi
1. Revisão da Literatura
1.1. Papilomavírus
Os papilomavírus (PVs) pertencem a um grande grupo de vírus epiteliotrópicos,
apresentando uma alta diversidade, possuindo mais de cem tipos detectados e sequenciados
apenas em humanos. Também já foram encontrados em uma variedade de mamíferos, aves e
répteis. Seus isolados são tradicionalmente descritos como “tipos”, sendo que muitos desses
tipos se mostram amplamente distribuídos no mundo (de Villiers et al., 2004).
Os PVs infectam o epitélio escamoso da pele e mucosas, causando infecções
assintomáticas e várias lesões benignas ou malignas em uma ampla gama de espécies de
mamíferos (Campo, 2002). Estão associados a lesões hiperplásicas epiteliais cutâneas,
mucocutâneas ou mucosas. Em humanos costumam ocasionar uma variedade de proliferações
benignas como verrugas (papilomas), ou malignas como as neoplasias intra-epiteliais
anogenitais (zur Hausen, 1996). Nos animais, a maioria das lesões é de localização cutânea,
apesar de também terem sido observadas em regiões mucosas, como na orofaringe, esôfago e
trato genital (Sundberg e Reichmann, 1993; Nicholls e Stanley, 2000).
1.1.1. Estrutura Viral
Apresentando uma estrutura não envelopada, os PVs possuem uma molécula de DNA
dupla fita circular medindo aproximadamente 8000 pares de bases (pb). Seu capsídeo é
composto por 72 subunidades ou capsômeros em forma de pentâmeros e possui peso
molecular de aproximadamente 5,2 x 105 daltons (Da) (Shah e Howley, 1996). O capsídeo
viral exibe uma simetria icosaédrica com diâmetro aproximado de 55 nm, conferindo ao vírus
1
morfologia esférica quando observado por meio de microscopia eletrônica (Figura 1) (Bernard,
2005).
Figura 1: Representação esquemática da estrutura do papilomavírus (Fonte: Modis et al., 2002).
1.1.2. Genoma Viral
O genoma dos PVs está normalmente dividido em oito matrizes abertas de leitura
(ORFs), que se apresentam parcialmente sobrepostas em apenas uma das fitas da molécula de
DNA (Wang, 2007). Entretanto, alguns PVs apresentam estruturas genômicas variadas,
possuindo mais ou menos ORFs. Nos vírions, o DNA dos PVs é encontrado com histonas
celulares formando complexos semelhantes à cromatina (Howley e Lowy, 2001).
Embora possuam um genoma pequeno, os PVs possuem uma complexa biologia. De
uma maneira geral, seu genoma se apresenta organizado em três regiões, de acordo com sua
localização: uma região de expressão precoce (Early ou E); uma região de expressão tardia
(Late ou L); e uma região reguladora (Long Control Region ou LCR) (Figura 2) (Wang, 2007).
A região precoce codifica proteínas regulatórias (E1, E2, E4, E5, E6 e E7), incluindo aquelas
responsáveis pela replicação do DNA viral, e representa aproximadamente 45% de todo o
2
genoma. Já a região tardia codifica proteínas do capsídeo viral (L1 e L2), compreendendo
cerca de 40% do DNA do vírus (Chang, 1990).
Figura 2: Desenho esquemático da estrutura genômica do HPV-16. Os genes E codificam as proteínas
regulatórias e os genes L codificam as proteínas estruturais. A região do LCR regula a expressão gênica.
(Obtido em http://en.wikipedia.org/wiki/File:HPV-16_genome_organization.png)
Entre as regiões E e L se localiza o segmento LCR, de 400 a 1000 pb, que contém
elementos promotores e reguladores da replicação viral (Figura 2). Esta região é a mais
variável do genoma e representa os 15% restantes do genoma do vírus, sem capacidade de
codificar proteínas, contendo apenas alguns elementos de regulação como os fatores de
transcrição celular e origem de replicação (Chang, 1990).
O segmento LCR contém o promotor p97 junto com sequências potencializadoras e
silenciadoras que regulam a replicação do DNA controlando a transcrição das ORFs (Burd,
2003). Normalmente está dividido em três regiões: 5’ terminal; central; e 3’ terminal. A
região central é onde a maior parte dos fatores de transcrição se liga. Por causa disso, é
3
conhecida como região intensificadora da LCR, sendo ela que regula a transcrição dos
oncogenes E6 e E7 (zur Hausen, 1996). Delimitada pelo códon de terminação do gene L1 e
por um sítio de ligação de E2 está a região 5’ terminal da LCR. Furth e Baker (1991)
relataram que essa região possui um sítio para o término da transcrição e outro para a
poliadenilação do transcrito policistrônico. Já a região 3’ terminal compreende um sítio de
ligação de E2 e o códon de iniciação do gene E6. Muitas vezes, a transcrição é iniciada a
partir do promotor p97, determinando um único transcrito policistrônico iniciado em E6
(Howley e Lowy, 2001).
1.1.3. Proteínas Virais
Dentre todas as proteínas, E1 e E2 são as de maior importância na replicação e
transcrição do DNA (Tyring, 2000). O gene E1 é reconhecido como o maior e mais
conservado da região precoce do genoma de diferentes PVs. A proteína E1 é uma
fosfoproteína de 70 a 80 kDa, com atividade de helicase associada a adenosina-trifosfato
(ATP), que atua em conjunto com E2 na origem da replicação viral (Masterson et al., 1998).
A proteína E1 se liga em sequências ricas em AT na origem, facilitada pela proteína E2. Após
a ligação, um hexâmero é formado, que atua desespiralizando a molécula de DNA
(Longworth e Laiminis, 2004). A proteína E2 é uma fosfoproteína de aproximadamente 50
kDa com três domínios funcionais que, além de atuar na replicação, também regula a
transcrição das ORFs dos PVs. Ela forma dímeros que se ligam em sítios específicos na LCR,
podendo ativar ou reprimir a expressão de genes precoces dependendo de sua concentração
(Longworth e Laiminis, 2004).
Segundo Bryan e Brown (2001), a proteína E4 parece ajudar na liberação do vírus de
células infectadas, entretanto sua função ainda não está bem estabelecida. Ela é bastante
expressada e abundante nas camadas celulares superiores dos tecidos epiteliais. Sua síntese
4
ocorre a partir de splicing de um RNAm policistrônico, estando fusionado a cinco
aminoácidos da proteína E1. Sugere-se que essa fusão indica a maturação viral, uma vez que
essa proteína interage e perturba a rede de citoqueratina, aumentando a fragilidade celular, o
que contribui com a liberação dos vírus maduros da célula (Doorbar et al., 1990; Raj et al.,
2004).
Os PVs codificam três oncoproteínas, conhecidas como E5, E6 e E7. A proteína E5 é
pequena e altamente hidrofóbica, cujas funções ainda não foram estabelecidas (Longworth e
Laiminis, 2004). A depender dos PVs, essa proteína pode apresentar maior ou menor
atividade oncogênica (McMurray et al., 2001). Por exemplo, nos HPVs, ela é pouco
oncogênica, mas tem uma função importante aumentando bastante o potencial transformante
da proteína E7. Contrariamente, nos papilomavírus bovino (BPVs) a proteína E5 é a principal
responsável pela transformação celular, aparentemente interagindo com receptores de fatores
de crescimento. Essa interação modifica a resposta celular que resulta na apoptose,
aumentando assim a proliferação das células infectadas. Existe pouca similaridade entre a
proteína E5 de HPVs e de BPVs, sugerindo que elas agem através de diferentes alvos
celulares (Yang et al., 1985; Bravo e Alonso, 2004; Longworth e Laiminis, 2004).
Existe um grande interesse em estudar as oncoproteínas E6 e E7, devido ao fato delas
interagirem com proteínas que atuam no controle do ciclo celular, podendo levar à
imortalização das células e, consequentemente, ao desenvolvimento de tumores (Finzer et al.,
2002). A oncoproteína E6 possui um tamanho de aproximadamente 150 aminoácidos e
contém um domínio de ligação de zinco com dois motivos C-X-X-C. Em humanos, ela
sozinha pode levar à imortalização de células epiteliais mamárias. Entretanto, uma eficiente
imortalização dos queratinócitos humanos requer a expressão tanto de E6 quanto de E7
(Howley et al., 1989; Longworth e Laiminis, 2004).
As primeiras ideias sobre as funções da proteína E6 vêm dos estudos das interações com
a proteína celular p53, que é uma supressora de tumor bem caracterizada. Na presença de
5
dano no DNA, a p53 interrompe o ciclo e pode levar à apoptose. Esse mecanismo é utilizado
também para evitar que vírus infectando essas células se espalhem (Longworth e Laiminis,
2004). Entretanto, os PVs desenvolveram mecanismos que bloqueiam este mecanismo, o que
pode levar ao desenvolvimento de neoplasias. Para isso, a oncoproteína E6 se liga à p53 em
um complexo com a ubiquitina-ligase chamado E6AP, levando à consequente degradação da
p53 (Figura 3) (Longworth e Laiminis, 2004). Para facilitar o ciclo de vida do vírus, além da
degradação da p53, a proteína E6 também pode interagir com a p300, assim como aumentar a
atividade da telomerase (McMurray et al., 2001).
Assim como E6, a oncoproteína E7 também tem participação importante para a
patogênese dos PVs. Essa proteína é pequena, composta por aproximadamente 100
aminoácidos. Apresenta um motivo conservado L-X-C-X-E necessário para a associação da
E7 com a proteína supressora de tumor do retinoblastoma (pRB), e também um domínio de
ligação de zinco composto por dois motivos C-X-X-C que funciona como um domínio de
dimerização (Liu et al., 2006; McLaughlin-Drubin e Münger, 2009).
Níveis basais
Dano no DNA
Estabilização
Apoptose
Níveis
da PTN
Diminuição
dos níveis
Degradação
Transcrição
Interrupção
ciclo celular
Perda de função
Figura 3: Função da proteína p53 e os efeitos da sua interação com a oncoproteína E6 (modificado de
www.medscape.com).
Muitas atividades biológicas da oncoproteína E7 que são importantes para o ciclo de
vida viral ainda são provavelmente desconhecidas. Entretanto, a habilidade de se ligar e
6
degradar a pRB, que está relacionada com a transformação celular, aparenta ser a sua
principal função (Collins et al., 2005). As proteínas da família RB formam complexos com
fatores de transcrição como E2F, impedindo a progressão do ciclo celular entre as fases G1 e
S. Uma vez associada com a oncoproteína E7, a pRB é sequestrada e degradada através da via
de ubiquitinação, resultando na ativação de genes responsáveis pela progressão do ciclo
celular, conforme pode ser visto na Figura 4 (Longworth e Laiminis, 2004).
Também já foi postulado que a proteína E7 pode se associar com inibidores de quinase
dependente de ciclina p21 e p27, sendo esta interação, aparentemente, o principal fator de
estímulo ao crescimento celular em infecções por HPV (zur Hausen, 2000).
Figura 4: Ilustração esquemática mostrando atividades de regulação do ciclo celular e os efeitos da
interação da proteína E7 com pRB (Longworth e Laiminis, 2004).
O capsídeo dos PVs é formado por duas proteínas que são codificadas pelo vírus, as
proteínas L1 e L2 (Howley e Lowy, 2001). A principal proteína deste capsídeo é a L1, com
peso molecular de aproximadamente 55 kDa, cujos pentâmeros têm a propriedade intrínseca
7
de automontagem, formando capsídeos vazios conhecidos como partículas semelhantes a
vírus (virus like particles ou VLPs) (Bishop et al., 2007). Relativamente, essa é a proteína que
apresenta maior conservação entre os PVs, e no vírion ela corresponde a cerca de 80 a 90% do
capsídeo viral (Joyce et al., 1999).
A proteína secundária do capsídeo dos PVs é a L2, que participa da montagem e
empacotamento do genoma viral, uma vez que ela se liga ao DNA do vírus no momento da
maturação. Ela interage com a proteína L1 através de domínios específicos, sendo muito
importante para a morfogênese dos PVs (Okun et al., 2001; Florin et al., 2002). Estas
proteínas estruturais também foram relacionadas com a ligação entre os vírus e os receptores
de superfície celular, importante no desencadeamento da infecção (Day et al., 2008; Sapp e
Day, 2009). Muitos sistemas heterólogos estão sendo utilizados para expressar as proteínas L1
e L2, formando VLPs, que têm sido utilizadas isoladamente ou associadas a aminoácidos de
E6 e/ou E7 no desenvolvimento de vacinas profiláticas contra HPV (Dell e Gaston, 2001;
Wakabayashi et al., 2002; Wang, 2007).
1.2. Ciclo de Infecção dos Papilomavírus
Os PVs replicam seus genomas dentro do núcleo das células infectadas dos hospedeiros
e apresentam tropismo específico por queratinócitos. Possivelmente, a infecção por PVs
ocorre através de microlesões do epitélio que expõem as células das camadas basais
(mitoticamente ativas) para a entrada dos vírus (Longworth e Laiminis, 2004). Alguns
receptores celulares que se ligam às proteínas L1 e L2 do capsídeo viral são conhecidos, e
essa interação faz com que ocorra uma mudança na conformação das proteínas estruturais que
resulta na exposição da região amino terminal da proteína L2. Uma série de eventos, ainda
não conhecidos completamente, ocorre induzindo a internalização do vírus (Sapp e Day,
8
2009). Após a entrada do vírus na célula, podem ocorrer três formas de infecção: a infecção
latente, a infecção produtiva e a transformação maligna.
1.2.1. Infecção latente
Muitos PVs parecem utilizar preferencialmente um ciclo de vida latente, uma vez que
vários tipos puderam ser detectados em sítios aleatórios da pele saudável de humanos e outros
animais (Antonsson e Hansson, 2002; Antonsson et al., 2003). Na infecção latente, o material
genético do vírus permanece dentro do núcleo de forma epissomal, replicando-se juntamente
com o DNA da célula hospedeira. Condições de supressão imune em humanos podem levar à
ativação de infecções latentes, resultando nas lesões (Figura 5) (Jablonska e Majewski, 1994;
de Villiers, 1998; Forslund et al., 2003).
1.2.2. Infecção produtiva
Na infecção produtiva, o número de cópias do genoma do vírus aumenta de acordo com
a diferenciação celular, ou seja, o DNA viral é replicado independentemente do DNA do
hospedeiro. As células filhas infectadas migram para as camadas superiores do epitélio, onde
se inicia a expressão dos genes tardios, formando partículas virais maduras. Essas partículas
são liberadas, infectando novas células hospedeiras (Narisawa-Saito e Kiyono, 2007).
Modificações morfológicas no epitélio podem ser observadas durante as infecções produtivas,
resultando no desenvolvimento de papilomas e lesões intraepiteliais de baixo grau (Figura 5)
(Longworth e Laiminis, 2004).
9
1.2.2. Transformação maligna
Nas células basais de humanos, onde o DNA se encontra na forma epissomal, os níveis
de expressão das proteínas E6 e E7 são considerados baixos. Entretanto, se essas infecções
continuarem por anos, ou até mesmo por décadas, as células passam a apresentar altos níveis
de expressão dessas oncoproteínas devido a mutações ou integração do genoma viral. Esse
aumento nos níveis de expressão dos oncogenes E6 e E7 parece ajudar na imortalização
dessas células, tornando-as tumorigênicas (Figura 5) (Narisawa-Saito e Kiyono, 2007).
Vírions livres
Tumorigênese
Infecção
Infecção produtiva
Encapsidação
a
Replicação
Acúmulo de
Mutações
Células basais
Infecção latente
Epissomo viral
Imortalização
Células basais
Papiloma ou displasia
Mutações e integração do
genoma viral
Figura 5: Representação esquemática do ciclo de infecção dos PVs (modificado de Narisawa-Saito e
Kiyono, 2007).
1.3. Papilomavírus e câncer
Membros da família Papillomaviridae estão associados a casos clínicos de câncer
(Clifford et al., 2003). Em humanos, estudos epidemiológicos apoiam uma forte associação
entre HPV e o carcinoma cervical, uma vez que esses vírus são encontrados em quase todos
os casos de câncer cervical e neoplasia intra-epitelial cervical (Bosch et al., 2002).
10
O câncer de colo do útero é o segundo em número de casos entre as mulheres e o sétimo
de maior incidência no mundo, com aproximadamente 500 mil novos casos por ano, sendo
sua taxa de fatalidade de 50 a 55% (Figura 6). O Brasil apresenta cerca de 19 mil novos casos
de câncer cervical por ano, com risco estimado de 19 casos a cada 100 mil mulheres. Na
região Nordeste, esse tipo de câncer é o segundo mais incidente com 18 casos a cada 100 mil
mulheres. Já o estado de Pernambuco tem uma taxa estimada de 22,8 casos para cada 100 mil
mulheres, sendo o sexto no Brasil e o primeiro no Nordeste (INCA, 2008).
Figura 6: Incidência de câncer do colo do útero por 100.000 mulheres ao redor do mundo (Fonte:
Globocan 2002, IARC, http://www-dep.iarc.fr).
Fatores como o tabagismo, hormônios, número de filhos, uso de contraceptivo oral,
obesidade, promiscuidade, co-infecção com outras doenças sexualmente transmissíveis (DST),
11
nutrição e alguns polimorfismos (tanto nos vírus quanto no hospedeiro) também estão
associados em maior ou menor grau ao desenvolvimento do câncer (Franco et al., 2001; de
Araújo Souza e Villa, 2003; Burd, 2003; Castellsague et al., 2006; Slomovitz et al., 2006).
As informações acerca de processos neoplásicos em outros animais são bastante
escassas na literatura, sendo os PVs que infectam humanos e bovinos os principais modelos
para estudo. Em bovinos, foi relatada uma associação entre o desenvolvimento de câncer e a
ingestão de brotos de samambaia (Pteridium aquilinum) (Campo, 2003). A papilomatose
bovina, caprina, bufalina, equina,
ovina, entre outras, são
doenças importantes
economicamente por causarem desvalorização dos animais e produtos derivados a serem
comercializados.
1.4. Classificação dos Papilomavírus
Após décadas de pesquisas e milhares de sequências de isolados de PVs terem sido
produzidas, foi possível estabelecer um banco de dados que permitiu a proposição de um
sistema de classificação que pode ser estável, à medida que novos PVs forem encontrados (de
Villiers et al., 2004).
1.4.1. Breve histórico da identificação dos tipos de Papilomavírus
Apesar dos primeiros tipos de PVs terem sido descobertos há mais de 30 anos (Orth et
al., 1977), ainda existe alguma dificuldade em se encontrar sistemas de cultivo celular
apropriados para a propagação desses vírus, o que limita o estabelecimento de uma taxonomia
baseada em propriedades biológicas (de Villiers et al., 2004). Com o isolamento dos
primeiros genomas virais, surgiram algumas classificações baseadas em painéis de restrição,
hibridizações por Southern blot sob condições não estringentes e hibridizações líquidas (de
Villiers et al., 2004).
12
Na década de 80, os primeiros genomas completos de PVs foram disponibilizados
(Chen et al., 1982; Danos et al., 1982; Schwarz et al., 1983; Seedorf et al., 1985). Atualmente,
muitas sequências de genomas completos de PVs têm sido depositadas em bancos de dados
públicos, estando disponíveis com anotações funcionais, dando respaldo para uma nova
classificação baseada em sequências de nucleotídeos.
1.4.2. A família Papillomaviridae
Originalmente, os PVs faziam parte da família Papovaviridae, junto com os
poliomavírus. Essa classificação era baseada na similaridade dos capsídeos não envelopados e
do DNA dupla fita circular comum entre eles. Entretanto, eles são agora oficialmente
reconhecidos pelo Comitê Internacional de Taxonomia de Vírus (ICTV) como duas famílias
distintas, Papillomaviridae e Polyomaviridae. A separação se deu pela observação de
características tais como: 1) diferenças no tamanho do genoma; 2) organizações genômicas
notadamente diferentes; 3) baixos níveis de similaridade em sequências de nucleotídeos e
aminoácidos; e 4) estratégias transcricionais diferentes (de Villiers et al., 2004; Bernard, 2006;
Wang, 2007).
1.4.3. Os tipos dos Papilomavírus
A ORF L1, por ser a mais conservada no genoma dos PVs, tem sido utilizada para a
identificação de novos tipos virais. Um novo isolado de PV é reconhecido como um novo tipo
quando o genoma completo é clonado e o sequenciamento da ORF L1 demonstrar diferença
de identidade de nucleotídeos superior a 10% do tipo conhecido mais próximo. Diferenças de
identidade entre 2 e 10% definem um subtipo e inferiores a 2% caracterizam uma variante
viral (de Villiers et al., 2004; Bernard, 2005).
13
Forslund et al. (1999), utilizando iniciadores degenerados para a amplificação e
sequenciamento parcial do gene L1, descreveram 12 supostos novos tipos de HPV.
Posteriormente, essa mesma estratégia possibilitou a identificação de 16 supostos novos tipos
de BPVs provenientes tanto de lesões cutâneas quanto de pele saudável (Antonsson et al.,
2000; Antonsson e Hansson, 2002; Ogawa et al., 2004). Esses achados sugerem que a mesma
diversidade molecular já encontrada nos HPVs, entre os quais atualmente são reconhecidos
mais de 100 tipos virais, também pode ocorrer nos PVs de outros animais (Bernard, 2005).
Os PVs são classificados em 16 gêneros: Alpha; Beta; Gamma; Delta; Epsilon; Zeta;
Eta; Theta; Iota; Kappa; Lambda; Mu; Nu; Xi; Omikron; e Pi-papilomavírus. Diferentes
gêneros compartilham menos que 60% de identidade na sequência de nucleotídeos na ORF L1.
Os gêneros unem tipos filogeneticamente relacionados, mas que são biologicamente diversos
(de Villiers et al., 2004).
1.5. Evolução dos Papilomavírus
A diversidade dos PVs não tem sido suficientemente estudada. Vírus de
aproximadamente 40 espécies de hospedeiros diferentes foram isolados e parcialmente
sequenciados, entretanto acredita-se que todos os membros dos Amniotas potencialmente
possuam PVs específicos (de Villiers et al., 2004; Rector et al., 2007; Schulz et al., 2009).
O gene L1 completo, ou parte dele, normalmente é usado para a detecção e genotipagem
dos PVs. Assim, inicialmente, as filogenias dos PVs eram inferidas a partir da comparação de
sequências desse gene (Schulz et al., 2009). Este tipo de análise permitia identificar uma série
de entidades (gêneros) mais ou menos bem estabelecidas e monofiléticas (de Villiers et al.,
2004; Gottschling et al., 2007a). Entretanto, as árvores radiais publicadas não apresentavam
um grupo externo apropriado para polarizar a árvore e nem faziam uma avaliação estatística
14
mais criteriosa dos nós internos, pré-requisitos essenciais para uma análise filogenética mais
robusta (Rector et al., 2007; Schulz et al., 2009).
Mais recentemente, a interpretação de algumas árvores filogenéticas sugeriu que
múltiplos mecanismos evolutivos devem guiar a diversificação dos PVs (Gottschling et al.,
2007b). Esses mecanismos seriam co-divergência entre os vírus e seus hospedeiros (Rector et
al., 2007), infecção cruzada entre espécies relacionadas (Gottschling et al., 2007b),
estabelecimento de novos nichos ecológicos por irradiação adaptativa (García-Vallvé et al.,
2005), e/ou recombinação (Varsani et al., 2006). Entretanto, um cenário compreensivo da
evolução e relações filogenéticas entre os PVs ainda não foi estabelecido.
1.6. Bioinformática
No estudo da Biologia moderna a Bioinformática tem tido um papel cada vez mais
significante. Ela pode ser definida como a aplicação de métodos analíticos e computacionais
para a resolução de problemas biológicos, sendo multidisciplinar por essência (Yu et al.,
2004). Nas últimas décadas, com o surgimento dos sequenciadores e de novas e eficientes
técnicas de análise de sequências, a disponibilização de dados biológicos tem crescido
exponencialmente. Esse elevado número de informações exige recursos computacionais cada
vez mais eficientes para o armazenamento e análise destes dados (Prosdocimi et al., 2003; Yu
et al., 2004; Lesk, 2005).
1.6.1. Genômica Comparativa
Análise comparativa de sequências de nucleotídeos e de aminoácidos é uma das
principais aplicações da Bioinformática na elucidação de mecanismos moleculares e
evolutivos. A Genômica Comparativa não apenas visa discriminar o DNA conservado do
divergente ou o funcional do não-funcional, mas também contribui na identificação da classe
15
funcional geral de certos segmentos de DNA, como éxons codificantes, RNAs nãocodificantes e regiões gênicas regulatórias. Com o passar do tempo e com o acúmulo de dados
de sequências genômicas, a Genômica Comparativa torna-se uma poderosa ferramenta, cada
vez mais informativa (Hardison, 2003).
O processo chave da Genômica Comparativa consiste no alinhamento de sequências de
DNA, que visa comparar regiões homólogas entre duas ou mais sequências. A Genômica
Comparativa observa a similaridade entre genomas, sendo o principal meio para encontrar
regiões funcionais e predizer tais funções (Hardison, 2003). A análise comparativa de
genomas também permite inferir como a seleção natural atua nas sequências de DNA em
diferentes linhagens, permitindo uma análise evolutiva molecular, com a qual é possível
verificar regiões do genoma onde há pressão seletiva maior (Ellegren, 2008).
1.6.2. Filogenia Molecular
Uma das aplicações mais clássicas da Bioinformática consiste no desenvolvimento de
programas para a Filogenia Molecular, que visa reconstruir as relações evolutivas entre os
organismos ou genes, comparando homólogos de sequências de DNA ou de proteínas. As
dissimilaridades entre as sequências indicam divergência genética como resultado da
evolução molecular durante o curso do tempo (Baldauf, 2003). A representação gráfica desses
resultados é feita na forma de árvores, conhecidas como árvores filogenéticas (Prosdocimi et
al., 2003).
As árvores filogenéticas têm sido aplicadas com sucesso no desenho mais efetivo de
drogas, reconstruindo a história epidemiológica de vírus, guiando esforços para a conservação
da biodiversidade, entre outras aplicações (Bader et al., 2001; Metzker et al., 2002; Sul et al.,
2009). Entretanto, inferir árvores evolutivas não é uma tarefa trivial, uma vez que a verdadeira
16
história evolutiva de vários organismos existentes atualmente é desconhecida, e registros
fósseis são escassos (Sul et al., 2009).
Vários métodos foram criados para inferir a filogenia a partir de dados moleculares
(Felsenstein, 1988; Miyamoto e Cracraft, 1991). Entre eles estão os métodos baseados em
distância, métodos baseados na parcimônia e métodos baseados na máxima verossimilhança.
Os métodos baseados na análise de distâncias entre sequências são os que exigem menor
custo computacional, tornando-os úteis na análise de grandes quantidades de dados e de
táxons. Esses métodos envolvem, basicamente, o cálculo das distâncias entre as sequências e
a construção de uma árvore (Nei e Kumar, 2000).
O método mais simples de distância é o método de agrupamento pareado não ponderado
com média aritmética (Unweighted Pair Group Method with Aritmetic Mean ou UPGMA).
Esse método presume que todas as linhagens evoluíram com uma taxa de substituição gênica
constante, obedecendo a um relógio molecular. Neste caso, as distâncias são ultramétricas, e a
árvore apresenta o mesmo comprimento de ramo para todos os táxons (Nei e Kumar, 2000).
Outro método de distância é a Evolução Mínima, que computa todas as topologias
plausíveis, e a topologia com o menor valor do somatório das estimativas de comprimento de
todos os ramos é escolhida como a melhor árvore. Apesar de apresentar boas propriedades
estatísticas, ele requer um custo computacional substancial quando o número de táxons
comparados é grande. Baseado neste método, Saitou e Nei (1987) desenvolveram um método
eficiente, Neighbor Joining, mas que não examina todas as possíveis topologias.
A Máxima Parsimônia é um método baseado na teoria de que a hipótese mais provável
para explicar um processo é aquela que requer o menor número de passos, ou seja, uma árvore
filogenética que requer um menor número de substituições para explicar o processo evolutivo
é a mais próxima da real (Nei e Kumar, 2000).
17
Existe ainda o método da Máxima Verossimilhança que se baseia na inferência
filogenética através da busca por uma árvore que maximize a probabilidade dos dados de
sequência observados. Para cada topologia possível são calculadas as probabilidades
considerando o modelo evolutivo escolhido, e a topologia mais verossímil (maior valor de
probabilidade) é escolhida como a árvore final. Os parâmetros a serem considerados são os
tamanhos de ramos para cada topologia. Assim, existe um custo computacional muito alto,
uma vez que várias topologias são testadas, assim como a variação do comprimento dos
ramos de cada topologia (Nei e Kumar, 2000).
1.6.3. Evolução do uso de códons
Análise estatística de sequências gênicas mostra que os códons sinônimos não são
usados de forma aleatória nas diferentes espécies. Certos códons sinônimos podem ocorrer
mais frequentemente que outros em sequências codificantes. Entender a extensão e as causas
do viés do uso de códons é essencial para entender a evolução viral, particularmente a
interação entre os vírus e a resposta imune dos hospedeiros (Jiang et al., 2008; Tao et al.,
2009).
Ferramentas computacionais que usam análises matemáticas e estatísticas são
amplamente utilizadas para determinar o uso de códons de um conjunto de sequências.
Análises multivariadas, como a análise de correspondência, têm sido utilizadas para estudar
sistematicamente o uso de códons heterogêneos em várias espécies (Medigue et al., 1991;
Pouwels e Leunissen, 1994; Andersson e Sharp, 1996; Kunst et al. 1997; Kanaya et al., 2001).
1.7. Justificativa
Os PVs são distribuídos mundialmente e estão intimamente relacionados com o
desenvolvimento de câncer, apresentando uma importância muito grande quanto à saúde
18
pública, pois cerca de 500.000 mulheres desenvolvem câncer cervical anualmente. É estimado
também que 80% das mulheres sexualmente ativas teriam sido expostas ao HPV até os 50
anos de idade.
Esses vírus também apresentam considerável importância veterinária e econômica, uma
vez que os animais passam a apresentar uma aparência desagradável, o que pode causar
grandes prejuízos aos diferentes criatórios, principalmente, no que diz respeito à diminuição
da produtividade. Há ainda a desvalorização do couro do animal, desenvolvimento retardado,
cegueira, depreciação do valor do animal em função da dificuldade em comercializá-lo,
problemas relacionados à fertilidade, principalmente quando o papiloma localiza-se no órgão
reprodutor do animal. No caso das vacas, a doença também pode provocar o surgimento de
mastite e dificuldades na ordenha, quando a verruga encontra-se no úbere ou teto.
Entender a evolução dos vírus pode ajudar a relacioná-los com propriedades biológicas
e patológicas específicas. Nos PVs, ocorrem numerosas consistências entre filogenia e
patologia, como os HPVs-16 e 31 que causam câncer cervical e são relacionados
filogeneticamente. Além disso, a análise comparativa das sequências genéticas desses vírus
pode tornar possível o desenvolvimento de novos métodos de detecção e genotipagem mais
eficazes, desenho de drogas específicas, além do desenvolvimento de formulações vacinais
eficientes de amplo espectro (de Villiers et al., 2004; Bernard, 2006).
Apesar disso, ainda não há um cenário evolutivo completamente elucidado das relações
filogenéticas dos PVs. A partir da observação da especificidade dos PVs, Chan et al. (1995)
sugeriram que uma evolução ligada ao hospedeiro deveria guiar a diversificação desses vírus.
Entretanto, foi relatado que alguns tipos de PVs infectavam outros hospedeiros, como alguns
BPVs que são capazes de infectar cavalos (Chambers et al., 2003). Além disso, não foram
encontrados grupos monofiléticos em todos os tipos de PVs que infectam um mesmo
hospedeiro (García-Vallvé et al., 2005).
19
Assim, esse trabalho se justifica por apresentar e discutir dados importantes para a
análise in silico da variabilidade genética dos PVs, além de abordagens alternativas de análise
filogenética que detectam e removem parte dos dados que contém altos níveis de sinais que
perturbam a reconstrução da complexa história evolutiva desses vírus.
20
2. Objetivos
2.1. Objetivo Geral
Utilizar ferramentas computacionais para entender as diferenças e similaridades entre os
genomas dos PVs, visando contribuir para a compreensão da biologia e evolução viral,
além das patologias causadas por eles.
2.2. Objetivos específicos
Criar um banco de dados local com as sequências dos genomas completos de PVs
depositados no GenBank.
Inferir o nível de similaridade e divergência entre os genomas dos PVs.
Avaliar taxas e índices de variabilidade entre as sequências de nucleotídeos e
aminoácidos dos PVs.
Realizar uma análise da evolução do uso de códons dos PVs e de seus respectivos
hospedeiros.
Verificar a presença de pressão seletiva heterogênea nas proteínas dos PVs.
Estimar regiões que alteram o sinal filogenético do conjunto de dados, como regiões de
alta entropia ou em que ocorreram possíveis eventos de recombinação.
Identificar a presença de domínios, padrões e motivos, relacionando-os com a
variabilidade genética dos PVs.
Analisar as relações filogenéticas de diferentes regiões do genoma dos PVs, excluindo
regiões perturbadoras.
21
3. Materiais e Métodos
3.1. Criação do banco de dados local
3.1.1. Obtenção das sequências virais
Para as análises, foi obtido um conjunto representativo de 53 sequências de genomas
completos, compreendendo toda a diversidade dos PVs, sendo 47 de PVs não-humanos e seis
genomas de HPVs. Devido ao grande número de HPVs identificados atualmente, apenas um
representante de cada gênero foi selecionado, para evitar um viés na análise. Estas sequências
foram recuperadas do banco de dados público do National Center for Biotechnology
Information (NCBI - http://www.ncbi.nlm.nih.gov/). A denominação das sequências, os
respectivos números de acesso do Genbank e hospedeiros são mostrados na Tabela 1.
A partir dos genomas completos, foram recuperadas separadamente as sequências
nucleotídicas de cada gene, assim como as sequências de aminoácidos de cada proteína,
utilizando-se a ferramenta BLAST (Altschul et al., 1990). Para isso, foi utilizado o algoritmo
BLASTN, que permite procurar em um banco de dados de nucleotídeos usando uma
sequência de nucleotídeos como entrada, e o algoritmo BLASTX, que permite procurar em
um banco de dados de aminoácidos usando uma sequência de nucleotídeos traduzida com o
código genético padrão como entrada.
3.1.2. Montagem do banco de dados local
As sequências obtidas foram organizadas no formato FASTA e armazenadas em
diferentes arquivos. Neste formato, cada entrada é iniciada pelo símbolo “>” seguido pelo
22
identificador da sequência, e na linha inferior são inseridos os caracteres da sequência sem
espaços ou marcas de parágrafos.
Em seguida, as sequências foram processadas pelo programa BioEdit versão 7.0.9 (Hall,
1999), onde foram criados arquivos com os bancos de dados locais de nucleotídeos e de
aminoácidos, separados gene a gene e proteína a proteína, respectivamente. Também foram
anexadas ao banco informações intrínsecas dos genomas como tamanho e composição
mononucleotídica e dinucleotídica.
3.2. Análise Comparativa da Estrutura Genômica dos PVs
3.2.1. Análise da estrutura genômica
Os genomas dos PVs, organizados no banco de dados local, foram analisados quanto
ao número e ordenação dos genes presentes. Uma tabela foi feita com dados binários de
presença ou ausência das ORFs baseados na anotação estabelecida no banco de dados do
NCBI. Para os prováveis genes com função desconhecida, foram realizadas buscas no
Genbank a partir de alinhamentos locais através da ferramenta BLAST (Altschul et al., 1990),
com o objetivo de buscar algumas informações relevantes para a anotação dessas sequências.
Foram coletadas e armazenadas no banco de dados local informações referentes ao
conteúdo de %GC (em todo o genoma), %GC1 (na primeira posição dos códons), %GC2 (na
segunda posição dos códons), %GC3 (na terceira posição dos códons), e de aminoácidos
utilizando os programas Molecular Evolutionary Genetics Analysis v. 4.0 (MEGA4) (Tamura
et al., 2007) e Data Analysis in Molecular Biology and Evolution (DAMBE) v. 5.0.54 (Xia e
Xie, 2001).
23
Tabela 1: Lista dos PVs, seus respectivos hospedeiros e número de acesso das sequências.
Nome
Abreviação
Gênero
Hospedeiro
Ordem (Hospedeiro)
Número de Acesso
European elk papillomavirus
EEPV
Deltapapillomavirus
Alces alces
Artiodactyla
NC_001524
Bovine Papillomavirus type 4
BPV-4
Xipapillomavirus
Bos taurus
Artiodactyla
X05817
Bovine papillomavirus type 9
BPV-9
Xipapillomavirus
Bos taurus
Artiodactyla
NC_010192
Bovine papillomavirus type 3
BPV-3
Xipapillomavirus
Bos taurus
Artiodactyla
NC_004197
Bovine papillomavirus type 10
BPV-10
Xipapillomavirus
Bos taurus
Artiodactyla
NC_010193
Bovine papillomavirus type 6
BPV-6
Xipapillomavirus
Bos taurus
Artiodactyla
AJ620208
Phocoena spinipinnis papillomavirus
PsPV
Omikronpapillomavirus
Phocoena spinipinnis
Cetacea
NC_003348
Tursiops truncatus papillomavirus type 2
TTPV-2
Não-classificado
Tursiops truncatus
Cetacea
NC_008184
Tursiops truncatus papillomavirus type 1
TTPV-1
Não-classificado
Tursiops truncatus
Cetacea
NC_011109
Tursiops truncatus papillomavirus type 3
TTPV-3
Não-classificado
Tursiops truncatus
Cetacea
NC_011110
Capra hircus papillomavirus type 1
ChPV-1
Não-classificado
Capra hircus
Artiodactyla
NC_008032
Canine papillomavirus type 2
CaPV-2
Não-classificado
Canis familiaris
Carnivora
NC_006564
Rousettus aegyptiacus papillomavirus type 1
RaPV-1
Não-classificado
Rousettus aegyptiacus
Chiroptera
DQ366842
Mastomys coucha papillomavirus type 2
McPV-2
Não-classificado
Mastomys coucha
Rodentia
NC_008519
Old World harvest mouse papillomavirus
OWHMPV
Não-classificado
Micromys minutus
Rodentia
NC_008582
Bovine papillomavirus type 7
BPV-7
Não-classificado
Bos taurus
Artiodactyla
DQ217793
Human papillomavirus type 18
HPV-18
Alphapapillomavirus
Homo sapiens
Primates
NC_001357
Human papillomavirus type 48
HPV-48
Gammapapillomavirus
Homo sapiens
Primates
NC_001690
Human papillomavirus type 24
HPV-24
Não-classificado
Homo sapiens
Primates
NC_001683
Macaca fascicularis papillomavirus type 1
MfPV-1
Betapapillomavirus
Macaca fascicularis
Primates
EF028290
Trichechus manatus latirostris papillomavirus type 1
TmPV-1
Não-classificado
Trichechus manatus
Sirenia
NC_006563
latirostris
Sus scrofa papillomavirus type 1
SsPV-1
Não-classificado
Sus scrofa
Artiodactyla
NC_011280
Ursus maritimus papillomavirus type 1
UmPV-1
Não-classificado
Ursus maritimus
Carnivora
NC_010739
24
Human papillomavirus type 41
HPV-41
Nupapillomavirus
Homo sapiens
Primates
NC_001354
Human papillomavirus type 1
HPV-1
Mupapillomavirus
Homo sapiens
Primates
NC_001356
Common chimpanzee papillomavirus type 1
CcPV-1
Não-classificado
Pan troglodytes
Primates
NC_001838
Human papillomavirus type 5
HPV-5
Betapapillomavirus
Homo sapiens
Primates
NC_001531
Rhesus monkey papillomavirus
RmPV
Alphapapillomavirus
Macaca mulatta
Primates
NC_001678
Canine papillomavirus type 3
CaPV-3
Não-classificado
Canis familiaris
Carnivora
NC_008297
Canine papillomavirus type 4
CaPV-4
Não-classificado
Canis familiaris
Carnivora
NC_010226
Equus caballus papillomavirus type 1
EcPV-1
Zetapapillomavirus
Equus caballus
Artiodactyla
NC_003748
Bovine papillomavirus type 5
BPV-5
Epsilonpapillomavirus
Bos taurus
Artiodactyla
NC_004195
Bovine papillomavirus type 8
BPV-8
Epsilonpapillomavirus
Bos taurus
Artiodactyla
NC_009752
Bovine papillomavirus type 1
BPV-1
Deltapapillomavirus
Bos taurus
Artiodactyla
NC_001522
Bovine papillomavirus type 2
BPV-2
Deltapapillomavirus
Bos taurus
Artiodactyla
M20219
Ovine papillomavirus type 1
OPV-1
Deltapapillomavirus
Ovis aries
Artiodactyla
NC_001789
Western roedeer papillomavirus type 1
WrPV-1
Deltapapillomavirus
Capreolus capreolus
Artiodactyla
NC_011051
Reindeer papillomavirus
RPV
Deltapapillomavirus
Rangifer tarandus
Artiodactyla
AF443292
Deer papillomavirus
DPV
Deltapapillomavirus
Odocoileus virginianus
Artiodactyla
NC_001523
Cottontail rabbit papillomavirus
CrPV
Kappapapillomavirus
Sylvilagus floridanus
Lagomorpha
NC_001541
Rabbit oral papillomavirus
RoPV
Kappapapillomavirus
Oryctolagus cuniculus
Lagomorpha
NC_002232
Erethizon dorsatum papillomavirus type 1
EdPV-1
Não-classificado
Erethizon dorsatum
Rodentia
NC_006951
Procyon lotor papillomavirus type 1
PlPV-1
Não-classificado
Procyon lotor
Carnivora
NC_007150
Canine oral papillomavirus
CoPV
Lambdapapillomavirus
Canis familiaris
Carnivora
NC_001619
Uncia uncia papillomavirus type 1
UuPV-1
Lambdapapillomavirus
Uncia uncia
Carnivora
DQ180494
Felis domesticus papillomavirus type 1
FdPV-1
Lambdapapillomavirus
Felis silvestris catus
Carnivora
AF480454
Lynx rufus papillomavirus type 1
LrPV-1
Lambdapapillomavirus
Lynx rufus
Carnivora
AY904722
Puma concolor papillomavirus type 1
PcPV-1
Lambdapapillomavirus
Puma concolor
Carnivora
AY904723
Multimammate rat papillomavirus
MrPV
Iotapapillomavirus
Mastomys natalensis
Rodentia
NC_001605
25
Psittacus erithacus timneh papillomavirus
PePV
Thetapapillomavirus
Psittacus erithacus timneh
Psittaciformes
NC_003973
Fringilla coelebs papillomavirus
FcPV
Etapapillomavirus
Fringilla coelebs
Passeriformes
NC_004068
Chelonia mydas papillomavirus 1
CmPV-1
Não-classificado
Chelonia mydas
Testudinata
NC_011531
Caretta caretta papillomavirus 1
CcaPV-1
Não-classificado
Caretta caretta
Testudinata
NC_011530
26
Foi criada também a tabela de uso de códons para cada genoma viral através do
programa INteractive Codon Usage Analysis (INCA) (Supek e Vlahovicek, 2004). As
mesmas informações foram obtidas também para os respectivos hospedeiros através do banco
de dados público de uso de códons Kazusa (http://www.kazusa.or.jp/codon/). Foi realizada
uma análise de similaridade pareada entre os genomas dos PVs a partir da ferramenta Polydot
(http://vm-bioinfo.toulouse.inra.fr/emboss/emboss.cgi/help/polydot),
que
gera
uma
representação gráfica intuitiva de regiões similares entre duas sequências. Foram utilizadas as
opções padrões, com um tamanho de região da sequência utilizada (word size) de 20.
3.2.2. Análise do Pan-Genoma
Essa análise foi realizada com o intuito de se conhecer genes que são homólogos (coregenome), genes que são únicos e genes que são dispensáveis (ausentes em um ou mais tipos
virais) nos genomas completos dos PVs, representando a essência e a grande diversidade
desses vírus.
Para se conhecer as relações de similaridade entre os genomas, a ferramenta
GenomeBlast (http://bioinfo-srv1.awh.unomaha.edu/genomeblast/) foi utilizada. Ela utiliza os
programas BLASTP e MEGABLAST para realizar a comparação entre os genomas. Foram
utilizados os parâmetros padrões, que usam um ponto de corte de 50% para cobertura e 30%
para identidade, visando à identificação de genes homólogos. Os resultados foram
comparados com as informações anotadas no NCBI. Todos os genomas foram utilizados
nessa abordagem, com exceção do BPV-4, devido a problemas na anotação deste genoma no
banco de dados do Genbank. Assim, foi possível obter uma matriz com dados de conteúdo
gênico, número de genes homólogos, únicos e também de dispensáveis.
27
3.2.3. Construção de árvores genômicas baseada em estatística de códons
As informações coletadas acerca do conteúdo de %GC; %GC1, %GC2 e %GC3; de
frequência de uso de códons e de aminoácidos foram utilizadas para a construção de duas
matrizes de dados. A partir dessas matrizes foram construídos dendrogramas, baseados em
análises de agrupamentos hierárquicos através do programa de análises estatísticas SPSS
versão 16.0, com Distância Euclidiana quadrada.
3.2.4. Agrupamento baseado no conteúdo gênico
A partir da identificação dos genes ortólogos foi possível obter dados acerca do número
de genes compartilhados entre os tipos virais e, deste modo, especular sobre a evolução do
conteúdo gênico dos PVs. Então, uma matriz foi criada com dados binários de presença ou
ausência de cada gene em cada genoma. Assim, a distância entre dois genomas foi expressa
como uma fração do número de genes compartilhados, ou seja, um coeficiente de similaridade
entre os pares de sequência foi calculado e transformado em distância, de acordo com Snel et
al. (1999). A fração foi calculada usando a fórmula 1 – (número de genes compartilhados /
número de genes no menor genoma), e os dados transpostos em uma matriz. Uma árvore de
UPGMA foi construída baseada nessa matriz de distância usando a ferramenta
DendroUPGMA (http://genomes.urv.cat/UPGMA/). O coeficiente de Jaccard foi utilizado
para comparar o conjunto de variáveis. Por fim, foi realizado um teste estatístico de
confiabilidade dos ramos utilizando 100 réplicas de bootstrap.
3.3. Alinhamento múltiplo das sequências genômicas
As sequências de aminoácidos dos PVs obtidas foram alinhadas proteína a proteína
utilizando uma versão do programa ClustalW (Thompson et al., 1994) incorporada no
software MEGA4 (Tamura et al., 2007) para comparação. Regiões difíceis de alinhar foram
28
realinhadas com uma penalidade maior para abertura e extensão de gaps, sendo ajustados
manualmente em seguida. Os alinhamentos de aminoácidos foram traduzidos de volta para os
códons para obter as sequências alinhadas de nucleotídeos. Esta abordagem foi utilizada para
evitar que os gaps fossem inseridos em regiões inadequadas, mudando a matriz de leitura dos
códons. Todos os alinhamentos foram organizados no formato FASTA, que é utilizado pela
maioria dos programas de Bioinformática.
3.4. Análise da diversidade genômica dos PVs
3.4.1. Análise da variabilidade dos genes e proteínas
A partir dos alinhamentos foi possível observar os polimorfismos oriundos de
substituições e eventos de inserção e deleção (indels), além dos sítios mais conservados. Em
seguida, os alinhamentos das sequências de aminoácidos de cada proteína foram submetidos à
análise pela ferramenta Alignment Processor (Henikoff et al., 1995), localizada no servidor
Blocks, visando à determinação de fragmentos conservados entre as sequências ou blocos, a
partir de informações relativas à estrutura primária das proteínas.
Para cada gene, e consequentemente para cada proteína, foi calculado o número total de
sítios alinhados, número de sítios com gaps, sítios invariáveis, sítios variáveis, sítios variáveis
singletons, sítios informativos de parcimônia e o número total de mutações através dos
programas MEGA4 (Tamura et al., 2007) e DNA Sequence Polymorphism (DnaSP) versão
5.10.00 (Librado e Rozas, 2009). Além disso, foram calculadas as taxas de transição e
transversão, assim como a razão entre elas, utilizando o programa Tree-Puzzle versão 5.2
(Schmidt et al., 2002).
29
3.4.2. Análise de logos de sequência
Foram produzidos logos de sequências de nucleotídeos e de aminoácidos dos PVs, que
são representações gráficas de um alinhamento múltiplo, através do programa WebLogo
(Crooks et al., 2004) utilizando os parâmetros padrões. Os logos consistem de símbolos
representados para cada posição do genoma, cuja altura está relacionada com o grau de
conservação daquele sítio, ou seja, indica a frequência relativa para cada aminoácido ou
nucleotídeo de cada posição. A partir destas representações é possível observar regiões mais
conservadas dos genomas, assim como domínios funcionais nas sequências de aminoácidos.
3.5. Análise de pressão seletiva
Com o objetivo de avaliar qual o tipo de pressão seletiva que determina a evolução das
proteínas dos PVs, estimativas de máxima verossimilhança foram utilizadas a partir de vários
modelos de substituição de códons com a ajuda do programa CODEML, incorporado no
pacote Phylogenetic Analysis by Maximum Likelihood (PAML) versão 4.2a (Yang, 2007). A
partir desse programa também foi possível analisar se houve intensidade de seleção variável
entre os sítios na sequência de aminoácidos.
A verificação da pressão seletiva exercida em determinados genes pode ser realizada
calculando-se a razão entre a taxa de substituição não-sinônima pela de substituição sinônima
(ω = dN/dS). Quando ω = 0, significa que não há substituições não-sinônimas, devido à seleção
natural. Se ω = 1, a pressão seletiva exercida sobre o gene é neutra, ou seja, as mudanças de
aminoácidos possuem aproximadamente a mesma probabilidade de fixação que as
substituições sinônimas. A seleção diversificadora ou positiva ocorre quando ω > 1, indicando
que existe uma probabilidade maior de ocorrer e fixar substituições não-sinônimas, sendo
essas mudanças adaptativas. A seleção negativa ou purificadora (0 < ω < 1) indica que as
30
substituições de aminoácidos são deletérias, e seu destino é determinado pela seleção natural,
mutação ou deriva genética.
De todos os modelos de substituição de códons implementados no CODEML, seis são
mais ajustáveis às sequências de DNA virais (Nielsen e Yang, 1998; Yang et al., 2000), e eles
foram testados para determinar qual o que mais se adéqua ao conjunto de dados. O modelo
mais simples é o M0 (uma razão), que assume todos os códons admitindo o mesmo valor de ω,
que é medido como uma média para todos os sítios (Goldman e Yang, 1994). O modelo M1
(neutro) assume duas situações: ou os sítios apresentam uma frequência p 0 e possuem ω = 0
(conservados), ou apresentam frequência p1 = 1 – p0 e possui ω = 1 (neutros) (Nielsen e Yang,
1998). Além dessas duas situações, o modelo M2 (seleção) permite utilizar a frequência de
códons p2 e assume ω > 0.
Continuando, o modelo M3 (discreto) permite n categorias de códons para um
determinado número de classes (K), os valores de ω por categoria, são estimados a partir dos
dados e seguem uma distribuição gama, subdividida em k categorias (Yang et al., 2000). O
modelo M7 (beta) assume dez categorias de códons, com valores de ω distribuídos nestas
categorias de acordo com uma distribuição beta, com todos os valores menores que um,
indicando seleção negativa (Yang et al., 2000). Por fim, o modelo M8 (beta e ω) é muito
parecido com M7, exceto que ele incorpora uma categoria a mais, que pode ter valores de ω
maiores que um e, assim, permite a detecção de seleção positiva na última categoria (Yang et
al., 2000).
A abordagem de detecção de seleção positiva foi inicialmente feita pela estimativa de
parâmetros para todos os modelos acima citados, em seguida o teste Likelihood Ratio Test
(LRT) foi usado para verificar qual o modelo que melhor se ajustou aos dados, calculando-se
a diferença dos valores de verossimilhança entre os modelos equivalentes (Nielsen e Yang,
1998; Yang et al., 2000). Essa diferença segue uma distribuição qui-quadrado (χ2), permitindo
31
determinar a significância estatística entre os modelos, assumindo que os graus de liberdade
são dados pela diferença entre os parâmetros de cada modelo.
3.6. Análise de recombinação
A detecção de potenciais sequências recombinantes, identificação de prováveis
sequências parentais e a localização de possíveis breakpoints de recombinação entre os PVs
foram realizadas utilizando o Recombination Detection Program versão 3.0 (RDP3) (Martin
et al., 2005). Este software aplica vários algoritmos de análise e detecção de recombinação,
que foram utilizados para aumentar a acurácia da detecção, entre eles: o próprio método RDP
(Martin e Rybicki, 2000), o método Bootscanning (Martin et al., 2005), o método
GENECONV (Padidam et al., 1999), o método Maximum Chi Square (MaxChi) (Maynard
Smith, 1992), o método Chimaera (Posada e Crandall, 2001), o método Sister Scanning
(SiScan) (Gibbs et al., 2000) e o método 3SEQ (Boni et al., 2007).
Para ser um evento de recombinação válido, foram considerados apenas aqueles que
foram detectados por pelo menos três algoritmos diferentes, uma vez que a avaliação do
desempenho desses métodos de detecção de recombinação usando dados simulados e
empíricos não se mostrou amplamente confiável quando utilizado apenas um método (Posada,
2002). As configurações padrões foram utilizadas para cada etapa do processo. Na primeira
etapa, um scan preliminar para recombinação foi realizado, enquanto que na segunda etapa
foram testadas e refinadas as hipóteses de recombinação preliminar.
3.7. Análise de entropia
Com o objetivo de se encontrar as regiões mais informativas para a análise filogenética
dos PVs, as sequências nucleotídicas foram submetidas à análise de entropia através do
32
programa DAMBE (Xia e Xie, 2001), visando à avaliação da variabilidade e complexidade de
cada sítio. Foi utilizado um tamanho de janela igual a 100 com o objetivo de diminuir o ruído
do gráfico.
A entropia é calculada para cada posição utilizando a fórmula
onde
,
corresponde à entropia em cada sítio ; é igual a 1, 2, 3 ou 4, correspondendo aos
nucleotídeos A, C, G ou T, respectivamente; e
é a proporção do nucleotídeo no sítio .
Um gráfico foi criado com os valores de entropia calculados para cada sítio.
Todos os sítios com baixa complexidade, ou seja, com valores de entropia menor ou
igual a dois foram selecionados para a construção da filogenia, uma vez que com esses
valores, todos os quatro nucleotídeos podem ser representados.
3.8. Predição da estrutura secundária das proteínas
Uma vez calculada a entropia para cada posição do genoma dos PVs, é importante
localizar as regiões de baixa complexidade nas estruturas secundárias das respectivas
proteínas com o objetivo de associar a baixa entropia com regiões importantes estrutural e
funcionalmente.
Assim, para cada proteína, foi realizada a predição da estrutura secundária utilizando o
servidor JPred 3 (Cole et al., 2008), que incorpora o algoritmo Jnet. Esse servidor utiliza uma
combinação de métodos de predição para aumentar a possibilidade de sucesso na
determinação da estrutura secundária. Além do aumento da acurácia, o JPred 3 permite
predizer a estrutura secundária baseado em um alinhamento múltiplo de sequências de
aminoácido, produzindo um consenso das estruturas obtidas a partir de cada sequência.
33
A partir daí, uma associação entre as regiões de baixa entropia com as regiões de αhélice, folhas β e alça da proteína foi realizada, visando buscar sítios importantes
funcionalmente para as proteínas dos PVs.
3.9. Reconstrução filogenética dos PVs
Em um primeiro momento, as regiões utilizadas de cada gene foram submetidas ao
ModelTest versão 3.7 (Posada e Crandall, 1998) para definir a escolha do modelo de
substituição de nucleotídeos que melhor se adéqua aos dados. Para as sequências de
aminoácidos foi utilizado o programa ProtTest versão 2.4 (Abascall et al., 2005). Foi utilizada
a estrutura de seleção de modelos Akaike Information Criterion (AIC).
3.9.1. Análise de sinal filogenético
Para verificar se existe sinal filogenético no conjunto dos dados, foi utilizado o
programa Tree-Puzzle 5.2 (Schmidt et al., 2002). Essa verificação foi realizada através do
mapeamento da verossimilhança (likelihood mapping), que analisa grupos de quatro
sequências escolhidas ao acaso chamadas de quartetos (Strimmer e von Haeseler, 1997).
Ao agrupar os quartetos, apenas três topologias de árvores não-enraizadas são possíveis,
e para cada uma delas é possível estimar um valor de verossimilhança, que pode ser registrado
como um ponto em um triângulo equilátero. As topologias de árvores completamente
resolvidas são representadas nos vértices do triângulo, indicando a presença de sinal
filogenético nos dados. Entre os vértices, ficam representadas as topologias parcialmente
resolvidas, que apresentam uma forma de rede (net-like). No centro do triângulo ficam
representadas as topologias não-resolvidas apresentando forma de estrela (star-like).
34
À medida que o ruído filogenético aumenta, um maior número de topologias de árvores
se apresenta não-resolvidas ou parcialmente resolvidas. Assim, é estabelecido que 50% ou
mais das topologias devem estar completamente resolvidas para que se tenha sinal
filogenético.
3.9.2. Avaliação da saturação das sequências
Para verificar o decaimento do sinal filogenético causado por saturação, foram
construídos gráficos que representam o comportamento das taxas de transição e transversão à
medida que se aumenta a distância genética entre as sequências, com a ajuda do programa
DAMBE (Xia e Xie, 2001).
Apesar dos altos níveis de saturação, a terceira posição do códon foi mantida nas
análises com nucleotídeos porque os cortes baseados na entropia já excluíram as regiões
problemáticas, que poderiam causar um viés evolutivo e consequentemente a ocorrência de
agrupamentos aleatórios.
3.9.3. Organização das matrizes e teste de homogeneidade das partições
Os genes E4 e E5 foram excluídos da análise por não estarem presentes em pelo menos
80% dos tipos de PVs, apresentarem níveis de entropia e saturação bastante elevados, e ainda
por demonstrar os menores valores de sinal filogenético. Assim, a matriz de dados utilizada
na análise continha os genes E1, E2, E6, E7, L2 e L1. Em paralelo, análises foram realizadas
com os genes concatenados E1, E2, L2 e L1, e também com os genes E6, E1, E2, L2, L1, com
o objetivo de avaliar qual o conjunto de genes que melhor conta a história evolutiva dos PVs,
assim como confirmar o método utilizado com um número mais representativo de vírus, uma
vez que o primeiro conjunto de genes está presente em todos os tipos virais.
35
Antes da reconstrução filogenética, foi avaliada a congruência entre os conjuntos de
dados com o teste Incongruence Lenght Difference (ILD) (Farris et al., 1994) implementado
no programa NONA versão 2.0 (Goloboff, 1999), incorporado no software WinClada versão
1.00.08 (Nixon, 2002). O teste ILD foi realizado utilizando o critério de máxima parsimônia
com procura heurística através do método Tree-Bisection-Reconnection (TBR) de branch
swapping e parâmetros padrões. Foram considerados como incongruência significante entre as
partições os valores de P ≤ 0,01.
3.9.4. Análise Filogenética dos PVs
A reconstrução da filogenia dos PVs foi realizada utilizando métodos baseados em
distância, máxima parcimônia, máxima verossimilhança e análise bayesiana. Todas as
análises foram feitas utilizando sequências de nucleotídeos e de aminoácidos, e os gaps foram
tratados como dados perdidos.
O método de distância utilizado foi o Neighbor Joining, e a árvore foi gerada no
programa PAUP* versão 4.0b10 (Swofford, 2002), utilizando os modelos e parâmetros mais
adequados ao conjunto de dados. O suporte estatístico dos ramos foi estimado baseado em
1000 réplicas de bootstrap não-paramétrico usando busca heurística.
Os cálculos de Máxima Parsimônia também foram processados no PAUP* (Swofford,
2002). Para a geração das árvores foram utilizadas buscas heurísticas com o método TBR,
árvores iniciais obtidas por adição de táxons aleatoriamente com 10 réplicas. Além disso,
1000 réplicas de bootstrap não-paramétrico foram utilizadas.
A máxima verossimilhança foi realizada com a ajuda do programa PhyML versão 3.0
(Guindon e Gascuel, 2003). Os modelos evolutivos e os parâmetros que mais se adequaram ao
conjunto de dados foram utilizados, assim como o método NNI para estimar a topologia da
36
árvore. Uma árvore de BioNJ foi utilizada como árvore inicial e os táxons foram adicionados
aleatoriamente.
A análise bayesiana foi realizada com o programa MrBayes versão 3.1 (Ronquist e
Huelsenbeck, 2003), que usa uma técnica de simulação chamada Cadeia de Markov Monte
Carlo (MCMC) para aproximar a probabilidade posterior das árvores. Mais uma vez, os
parâmetros e modelos mais adequados foram utilizados. A topologia final foi estimada com
1.000.000 de interações usando 2.000 ciclos descartados e amostrando cada 100 interações.
37
4. Resultados
4.1. Banco de dados local
4.1.1. Obtenção das sequências
Após uma busca exaustiva no banco de dados do NCBI, 53 tipos de PVs que continham
genomas completamente sequenciados foram selecionados para as análises, representando
toda a diversidade conhecida dos PVs até o momento. Destes, 47 genomas são de PVs que
infectam hospedeiros não-humanos e apenas seis foram selecionados para representar os
HPVs, sendo cada um deles representante de um gênero. Isso foi feito para evitar que os
HPVs enviesassem as análises, uma vez que mais de cem tipos desses vírus já tiveram os seus
genomas completamente sequenciados.
Foi possível observar que todos os tipos virais apresentaram os genes E1, E2, L2 e L1.
Entretanto, observou-se que aproximadamente 75,5% dos PVs continham o gene E4; 43,4% o
gene E5; 84,9% o gene E6 e também 84,9% o gene E7. Poucos PVs apresentaram alguns
genes não-usuais que foram encontrados depositados no banco de dados, sendo que a maioria
desses genes está completamente sobreposto por outros.
O tamanho do genoma dos PVs variou bastante, oscilando de 6953 bp (CmPV1) a 8607
bp (CoPV). Com relação ao conteúdo %GC, os PVs apresentaram uma distribuição que varia
de 36,8% (HPV48) a 53,8% (SsPV1) (Tabela 2).
Tabela 2: Genomas utilizados na análise, seu tamanho e conteúdo de GC total, assim como na primeira,
segunda e terceira posição do códon.
PVs
Genoma (pb)
GC(%)
GC1(%)
GC2(%)
GC3(%)
BPV1
7944
45,3
52,3
43,9
35,5
BPV10
7399
43,5
49,9
43,0
31,7
38
BPV2
7937
45,8
53,2
45,1
37,2
BPV3
7276
43,1
50,9
43,2
35,1
BPV4
7265
42,0
49,6
43,4
34,1
BPV5
7841
44,2
51,2
44,1
36,4
BPV6
7296
43,5
51,5
43,4
36,4
BPV7
7412
45,5
50,5
43,1
38,9
BPV8
7791
46,3
52,7
45,3
39,0
BPV9
7303
44,6
51,1
42,6
36,5
CaPV2
8101
46,1
53,2
46,5
42,6
CaPV3
7801
51,5
55,6
46,1
49,9
CaPV4
7742
53,3
57,2
46,7
53,8
CcaPV1
7020
47,1
52,8
43,9
43,3
CcPV1
7888
38,2
47,1
41,3
26,3
ChPV1
7542
44,6
53,0
44,7
40,6
CmPV1
6953
47,2
52,3
45,5
44,5
CoPV
8607
41,6
51,1
42,6
33,5
CrPV
7868
46,4
52,8
43,8
40,4
DPV
8374
47,5
53,0
46,7
44,3
EcPV1
7610
53,0
57,1
45,5
55,4
EdPV1
7428
44,8
53,7
44,0
34,5
EEPV
8095
47,7
53,1
46,0
42,6
FcPV
7729
47,7
54,7
45,1
37,4
FdPV1
8300
46,1
52,9
44,6
42,0
HPV1
7815
40,3
49,0
41,7
29,5
HPV18
7857
40,4
49,1
42,1
32,3
HPV24
7452
40,0
48,5
42,7
28,0
HPV41
7614
46,9
53,0
42,9
43,1
HPV48
7100
36,8
44,8
40,9
21,3
HPV5
7746
42,4
50,6
41,3
37,6
LrPV1
8233
47,4
54,2
44,0
47,7
McPV2
7522
46,8
53,2
43,9
40,2
MfPV1
7588
43,7
51,7
44,1
35,4
MrPV
7687
50,2
53,6
47,7
43,8
OPV1
7761
45,7
51,4
44,0
36,0
OWHMPV
7393
43,5
50,4
42,6
33,1
PcPV1
8321
47,2
53,9
44,5
45,0
PePV
7304
49,3
56,8
47,3
44,3
PlPV1
8103
44,8
53,9
43,9
40,6
PsPV
7879
46,4
53,1
46,2
44,0
RaPV1
7970
51,1
57,6
45,3
46,9
RmPV1
8028
48,0
53,8
43,4
47,9
39
RoPV
7565
44,4
50,8
42,6
38,2
RPV
8090
45,5
52,1
44,3
38,4
SsPV1
7260
53,8
56,0
48,2
59,2
TmPV1
7722
45,1
53,5
45,3
38,5
TTPV1
8089
42,0
49,4
44,7
26,3
TTPV2
7866
46,0
51,6
44,4
37,8
TTPV3
7915
44,2
51,4
46,0
31,8
UmPV1
7582
48,4
53,1
43,9
45,9
UuPV1
8078
46,6
53,1
43,8
43,1
WrPV1
8032
47,3
52,9
45,2
39,4
4.2. Análise genômica comparativa
4.2.1. Análise da estrutura e anotação genômica
Após a construção de uma tabela com dados binários de presença ou ausência de genes,
foi possível observar a presença de alguns prováveis genes com função desconhecida. A
utilização do BLASTN não nos proporcionou resultados suficientemente confiáveis que
possam sugerir uma possível função para esses genes. Na análise de similaridade pareada foi
possível observar a grande variabilidade entre os genomas dos PVs. Entretanto, algumas
regiões com alta similaridade foram encontradas em alguns vírus (Figura 7).
Foi possível observar alguns grupos de vírus com genomas mais similares, como foi o
caso de todos os BPVs. O TTPV1 e o TTPV3, que infectam o mesmo hospedeiro, também
possuem genomas que se apresentam bastante similares, assim como ocorre com o CmPV1 e
o CcaPV1, que infectam espécies diferentes de tartarugas. Dois outros grupos de vírus com
genomas similares são os formados por OPV1, WrPV1, RPV e DPV e o formados por UuPV1,
FdPV1, LrPV1 e PcPV1.
40
Figura 7: Análise de similaridade genômica pareada entre os PVs. Cada quadrado representa a
comparação entre dois genomas, sendo as linhas na diagonal indicativo de alto grau de similaridade nos
genomas comparados. Da esquerda para direita e de baixo para cima: EEPV, PsPV, TTPV2, TTPV1,
TTPV3, ChPV1, CaPV2, RaPV1, McPV2, OWHMPV, MfPV1, TmPV1, SsPV1, UmPV1, CcPV1, RmPV1,
CaPV3, CaPV4, EcPV1, OPV1, WrPV1, RPV, DPV, CrPV, RoPV, EdPV1, PlPV1, CoPV, UuPV1, FdPV1,
LrPV1, PcPV1, MrPV, PePV, CmPV1, CcaPV1, FcPV, BPVs1-10, HPV18, HPV5, HPV48, HPV1, HPV41
e HPV24.
4.2.2. Análise do Pan-genoma
O estudo do Pan-genoma de um grupo de organismos, principalmente microrganismos,
nos indica, baseado em similaridades, a presença de genes homólogos ou indispensáveis,
genes únicos e genes dispensáveis. Para os papilomavírus, foram identificados 102 genes
homólogos, 10 genes únicos e 272 genes dispensáveis. É importante ressaltar a ausência do
BPV4, devido a problemas na anotação de seu genoma no NCBI, mais especificamente, a
ausência dos códons de início e de parada das ORFs.
41
4.2.3. Estatística de códons e evolução dos genomas
O banco de dados local contendo informações dos genomas foi utilizado como matriz
de entrada para gerar os agrupamentos. Analisando o conteúdo de GC% dos papilomavírus
(Figura 8a) foi possível observar alguns agrupamentos com vírus que infectam o mesmo
hospedeiro (e.g. HPV18, HPV24 e HPV1) ou hospedeiros próximos (HPV48 e CcPV1).
Entretanto, de uma maneira geral, a árvore não ficou bem resolvida, não separando vários
vírus que infectam hospedeiros diferentes e distantes filogeneticamente.
A utilização das informações referentes ao conteúdo GC% nas posições 1, 2 e 3 dos
códons nas análises também não se mostrou sensível o suficiente para separar os grupos de
vírus (Figura 8b). Além disso, é importante destacar que as duas metodologias apresentaram
vários agrupamentos diferentes. Mais uma vez, vários vírus que infectam hospedeiros
distantes filogeneticamente não foram separados.
Baseado na frequência de uso de códons entre os genomas de Papilomavírus, uma
árvore foi gerada por agrupamento hierárquico. Como mostrado na Figura 9a, o dendrograma
se apresentou bem mais resolvido, e os PVs foram separados em cinco grupos. O primeiro
grupo continha vírus que infectam Artiodactyla (ART), Cetacea (CET), Rodentia (ROD),
Passeriformes (PAS), Chiroptera (CHI), Lagomorpha (LAG), Primates (PRI) e Carnivora
(CAR). Os vírus do grupo 2 infectam Sirenia (SIR), ROD, Testudinata (TES), Psittaciformes
(PSI), ART, CAR, LAG e PRI. O grupo 3 apresenta vírus que infectam ART, ROD e CET.
Os grupos de hospedeiros que são infectados pelos vírus do grupo 4 são PRI e CET (apenas o
TTPV3). Como grupo mais basal, o agrupamento 5 apresenta vírus que infectam CAR e ART
(Figura 9a).
Conforme pode ser visto na figura 8, os agrupamentos formados não unem apenas os
vírus que infectam os mesmos hospedeiros ou hospedeiros próximos filogeneticamente. De
42
maneira geral, esses grupos não foram condizentes com os agrupamentos formados pelo uso
de códons dos hospedeiros (Figura 9b).
a)
b)
Figura 8: A evolução do conteúdo de GC nos Papilomavírus. a) Agrupamento baseado no conteúdo total
de GC. b) Agrupamento baseado no conteúdo de GC1, GC2 e GC3. Os agrupamentos hierárquicos foram
formados utilizando Distância Euclidiana.
Apesar da relação com o uso de códons, a frequência do uso de aminoácidos pode se
mostrar menos promíscua para agrupar alguns grupos de organismos. Assim, o dendrograma
construído baseado nessa metodologia apresentou alguns agrupamentos com PVs que
infectam hospedeiros próximos filogeneticamente.
Foi possível observar alguns grupos com vírus que infectam felinos, coelhos, roedores,
tartarugas, artiodátilos, cetáceos e primatas (Figura 10). Entretanto, ainda foram observados
43
agrupamentos entre vírus que infectam hospedeiros distantes filogeneticamente, assim como
vírus que infectam o mesmo hospedeiro em grupos separados.
a)
b)
Figura 9: Dendrogramas representando a divergência no uso de códons sinônimos: a) nos Papilomavírus e
b) nos respectivos hospedeiros.
4.2.4. Análise do conteúdo gênico
Para todos os genomas analisados, foram identificados 384 genes ortólogos que fazem
parte do pan-genoma dos PVs. A partir desses genes, foi possível construir um dendrograma
baseado no conteúdo gênico do genoma dos PVs. Com essa árvore, foi possível observar
agrupamentos que condizem com a filogenia atualmente aceita para o grupo (Gottschling et
al., 2007b), mesmo que muitas vezes com baixo suporte estatístico.
Alguns vírus que infectam hospedeiros próximos foram agrupados, como foi o caso do
clado com 74% de bootstrap formado pelos artiodátilos BPV1, BPV2, DPV, EEPV, RPV,
WrPV1, OPV1, BPV5 e BPV8, muito embora outros artiodátilos se agruparam em outros
44
clados (Figura 11). Um clado suportado com 67% de bootstrap foi formado com os cetáceos.
Além do grupo mais basal formado por PVs que infectam aves e répteis, suportado com 100%
de bootstrap.
Figura 10: Agrupamento hierárquico baseado na frequência de uso de aminoácidos dos PVs utilizando
Distância Euclidiana.
Baseado nos gêneros estabelecidos por de Villiers et al. (2004), vários clados se
formaram, agrupando vírus que pertencem aos mesmos gêneros. Por exemplo, os vírus que
infectam artiodátilos citados anteriormente pertencem ao gênero Deltapapillomavirus; o
BPV3, BPV4, BPV6, BPV9 e BPV10 que pertencem ao Xipapillomavirus se agruparam; e o
CcPV1, RmPV e HPV18 também formaram um clado, uma vez que fazem parte dos
Alphapapillomavirus (Figura 11).
45
BPV1
99
50
BPV2
DPV
EEPV
56
RPV
WrPV1
74
OPV1
BPV5
99
BPV8
BPV10
63
BPV6
99
BPV3
BPV9
HPV48
McPV2
66
OWHMPV
51
CrPV
TmPV1
EcPV1
CaPV2
CaPV3
68
CaPV4
HPV1
100
HPV24
56
HPV5
MfPV1
CoPV
FdPV1
PcPV1
LrPV1
PlPV1
58
UuPV1
RoPV
ChPV1
MrPV
EdPV1
64
HPV41
61
CcPV1
RmPV
97
HPV18
RaPV1
UmPV1
62
SsPV1
BPV7
PsPV
TTPV3
67
TTPV1
59
TTPV2
CcaPV1
60
CmPV1
100
FcPV
100
PePV
0.05
Figura 11: Árvore de UPGMA baseada no conteúdo gênico do genoma dos PVs. Não estão mostrados
valores de bootstrap abaixo de 50%.
4.3. Análise da diversidade genômica
Ao final dos alinhamentos, o gene E1 se mostrou como sendo o maior com 2367 pb,
enquanto que E5 foi o menor com 509 pb. As análises mostraram que os genes mais
conservados foram L1 e E1 com 165 (9,4%) e 146 (6,2%) sítios conservados, respectivamente.
Os genes E4 e E5 não apresentaram nenhum sítio conservado, sendo os mais variáveis. Os
46
genes E2 e L2, por sua vez, apesar de relativamente extensos, mostraram um número muito
baixo de sítios conservados (Tabela 3). Apesar da grande variação, foi possível observar
regiões conservadas nos genes através dos logos de sequência, que podem ser importantes
para estrutura e função das proteínas que codificam (Anexo 8.1).
Tabela 3: Diversidade genômica dos Papilomavírus. Todas as variáveis foram calculadas usando os
programas MEGA4 e DnaSP.
ORF
Sítios
Sítios
Sítios
Sítios
Sítios
Nº total
(tamanho)
com gaps
invariáveis
variáveis
variáveis
informativos
de
singletons
de parsimônia
mutações
50
1124
2951
1,12 ± 0,02
19
512
1411
0,77 ± 0,02
0
18
54
0,82 ± 0,01
(indels)
E1 (2367)
1047
146 (6,2%)
(44,2%)
E2 (1806)
1251
(49,6%)
24 (1,3%)
(69,3%)
E4 (1041)
1023
443
531
(29,4%)
0 (0%)
(98,3%)
E5 (509)
1174
R = Ts/Tv
18
(1,7%)
0 (0%)
66 (13%)
0
66
187
1,18 ± 0,04
10 (1,1%)
158
2
156
440
0,91 ± 0,04
5
83
244
0,82 ± 0,03
59
1024
2523
1,21 ± 0,03
6
342
983
0,76 ± 0,01
(87,0%)
E6 (945)
777
(82,2%)
E7 (945)
852
(16,7%)
5 (0,5%)
(90,2%)
L1 (1749)
501
(9,3%)
165 (9,4%)
(28,6%)
L2 (1998)
1644
(82,3%)
88
1083
(62%)
6 (0,3%)
348
(17,4%)
A variação entre as sequências dos genes dos PVs foi bastante elevada, possível de ser
observada tanto pela presença de sítios com gaps quanto de sítios variáveis. Em seis genes
(E2, E4, E5, E6, E7 e L2), o número de sítios com gaps superou o número de sítios variáveis.
Já no gene L1, o número de sítios variáveis superou bastante o número de sítios com gaps. O
gene E1 apresentou um número de sítios variáveis próximo ao número de sítios com gaps,
47
1174 e 1047, respectivamente. Dentre os sítios variáveis, a maioria deles se apresentou como
informativos de parsimônia (Tabela 3).
Um parâmetro importante para uma correta inferência da filogenia são as taxas de
transição e transversão. A razão entre o número de transições pelo número de transversões é
uma grandeza que nos permite verificar a presença de viés nas substituições. Dos oito genes
analisados dos PVs, três (E1, E5 e L1) apresentaram valores R > 1,00 demonstrando um viés
de transição. Entretanto, os outros genes (E2, E4, E6, E7 e L2) apresentaram valores de R <
1,00 indicando que a ocorrência de um número maior de transversões (Tabela 3).
Com relação às proteínas, como seria esperado, E1 e E5 apresentaram tamanhos de 789
e de 169 aminoácidos, respectivamente, mostrando-se como a maior e menor proteína dos
PVs, respectivamente. Seguindo a mesma lógica das sequências de nucleotídeos, as proteínas
L1 e E1 se mostraram como sendo as mais conservadas, com 52 e 46 sítios invariáveis,
respectivamente. A proteína E5 foi a única que não apresentou nenhum sítio conservado. As
proteínas E2 e L2 apresentaram poucos sítios invariáveis, 16 e 15 respectivamente. A
oncoproteína E7, apesar de ter menos da metade do tamanho de L2, possui mais sítios
conservados que a última. Além disso, a maioria dos sítios variáveis nas proteínas foi
informativo de parsimônia, apenas a proteína E5 mostrou um número de sítios informativos
próximo ao de singletons (Tabela 4).
A região C-terminal se mostrou mais conservada em E1, pois é onde se localiza o
domínio de helicase. A maior conservação de E2 estava localizada nas duas extremidades da
proteína, a N-terminal que está relacionada com o domínio de trans-ativação e a porção Cterminal com o domínio de ligação de DNA. Apesar da grande variação genética encontrada
em E4 e E5, foi possível observar que existem regiões importantes funcionalmente, se
mostrando como sendo as menos variáveis (Anexo 8.2).
As oncoproteínas E6 e E7 apresentaram domínios de ligação de zinco que se mostraram
bastante conservados. O domínio LXCXE, de ligação à pRB, não se mostrou tão conservado
48
(Anexo 8.2). Entretanto, apesar de alguns PVs não apresentarem esse domínio, ainda assim
induzem a proliferação celular (Caldeira et al., 2000).
Para as proteínas estruturais, foi possível observar conservação em vários domínios de
interações intermoleculares responsáveis pela formação e estabilização do capsídeo viral. De
uma maneira geral, L1 se mostrou bastante conservada ao longo de toda sua extensão, com
vários motivos conservados espaçados por pequenas regiões variáveis (Anexo 8.2). A proteína
L2 apresentou dois grandes domínios conservados na região N-terminal e na C-terminal de
importância funcional.
Tabela 4: Diversidade proteômica dos Papilomavírus. Todas as variáveis foram calculadas usando o
programa MEGA4.
Proteína
Sítios com
Sítios
Sítios
Sítios informativos
Sítios
(tamanho)
gaps (indels)
polimórficos
conservados
de parsimônia
variáveis
singletons
E1 (789)
62 (7,9%)
681 (86,3%)
46 (5,8%)
606
51
E2 (602)
4 (0,6%)
582 (96,7%)
16 (2,7%)
485
91
E4 (347)
60 (17,2%)
283 (81,6%)
4 (1,2%)
199
28
E5 (169)
57 (33,7%)
112 (66,3%)
0 (0%)
64
44
E6 (315)
55 (17,5%)
253 (80,3%)
7 (2,2%)
162
80
E7 (315)
125 (39,6%)
169 (53,7%)
21 (6,7%)
117
32
L1 (583)
18 (3,1%)
513 (88,0%)
52 (8,9%)
466
35
L2 (666)
8 (1,2%)
643 (96,5%)
15 (2,3%)
588
30
4.4. Avaliação da pressão seletiva
Com exceção das ORFs E4 e E5, os genes apresentaram valores de ω entre zero e um,
para todos os seis modelos testados. Para três modelos, E4 e E5 apresentaram ω = 1.
Entretanto, o modelo mais adequado é aquele que apresenta o maior valor do logaritmo de
verossimilhança, sendo assim, o modelo mais adequado para E4 foi o M3 e para E5 foi o M7,
obtendo os valores médios ω = 0,4464 e ω = 0,2486, respectivamente. Para os genes E1, E2,
E6, E7 e L2, o modelo mais adequado foi o M7 (beta), e os valores médios obtidos de ω
49
foram 0,7853, 0,7680, 0,7944, 0,7660, 0,6966, respectivamente. Já para o gene L1, o modelo
escolhido foi o M8, obtendo um valor médio de ω = 0,0543 (Tabela 5).
Embora todos os genes, de uma maneira geral, tenham apresentado pressão seletiva
negativa ou purificadora, foi possível analisar se sítios específicos da proteína estariam
sofrendo pressão seletiva positiva ou diversificadora. O teste de LRT para indicar a presença
de sítios selecionados positivamente em E1, E2, E4, E5, E6 e L1 falhou em rejeitar a hipótese
nula de que tais sítios não são observados (Tabela 6). Entretanto, para E7 e L2, o teste rejeitou
a hipótese nula, indicando a presença de um sítio (T na posição 30) em E7, e três sítios (N na
posição 87, V na posição 89, e S na posição 90) em L2 (Tabela 6).
Tabela 5: Estimativas de pressão seletiva no genoma dos PVs baseadas em verossimilhança, calculadas a
partir do programa PAML. O modelo mais adequado se encontra em negrito. * significa que os valores
foram determinados a partir de uma média aritmética.
ORF
Modelo
lnL
ω=
Parâmetros
dN/dS*
E1
M0
-57733,813234
0,0987
ω = 0,0987
M1a
-57392,894549
0,2737
p0 = 0,83404 (p1 = 0,16596) ω0 = 0,12916; ω1 = 1,00000
M2a
-57392,894549
0,2737
p0 = 0,83404; p1 = 0,03321 (p2 = 0,13274) ω0 = 0,12916; ω1 =
1,00000; ω2 = 1,00000
M3
-55488,060012
0,1126
p0 = 0,24347; p1 = 0,34520 (p2 = 0,41133) ω0 = 0,00987; ω1 =
0,07081; ω2 = 0,20860
M7
-55355,052612
0,1094
p = 0,73738; q = 5,82847
M8
-55355,057011
0.1094
p0 = 0,99999 (p1 = 0,00001) p = 0,73738; q = 5,82847; ωs =
4,90105
E2
M0
-27572,204455
0,1316
ω = 0,1316
M1a
-27290,910936
0,4503
p0 = 0,66177 (p1 = 0,33823) ω0 = 0,16942; ω1 = 1,00000
M2a
-27290,910936
0,4503
p0 = 0,66177; p1 = 0,33823 (p2 = 0,00000) ω0 = 0,16942; ω1 =
1,00000; ω2 = 7,11348
M3
-26674,426502
0,1577
p0 = 0,21317; p1 = 0,39637 (p2 = 0,39047) ω0 = 0,02189; ω1 =
0,10812; ω2 = 0,28214
M7
-26630,437356
0,1543
p = 0,98053; q = 5,26030
M8
-26630,439157
0,1544
p0 = 0,99999 (p1 = 0,00001) p = 0,98053; q = 5,26028; ωs =
2,53881
50
E4
M0
-776,026313
0,4464
ω = 0,4464
M1a
-778,424306
1,0000
p0 = 0,00001 (p1 = 0,99999) ω0 = 0.00000; ω1 = 1,00000
M2a
-778,424246
1,0000
p0 = 0,00000; p1 = 0,99993 (p2 = 0,00007) ω0 = 0,00000; ω1 =
1,00000; ω2 = 1,00000
M3
-776,026313
0,4464
p0 = 0,00000; p1 = 0,00000 (p2 = 1,00000) ω0 = 0,00000; ω1 =
0,00000; ω2 = 0,44641
M7
-776,070967
0,4514
p = 0,03121; q = 0,56377
M8
-778,424306
1,0000
p0 = 0,00001 (p1 = 0.99999) p = 0,00500; q = 1,79514; ωs =
1,00000
E5
M0
-1568,583636
0,2583
ω = 0,2583
M1a
-1574,854035
1,0000
p0 = 0,00001 (p1 = 0,99999) ω0 = 0.00000; ω1 = 1,00000
M2a
-1574,853835
1,0000
p0 = 0,00000; p1 = 0,99999 (p2 = 0,00001) ω0 = 0,00000; ω1 =
1,00000; ω2 = 1,00000
M3
-1568,583636
0,2583
p0 = 0,00000; p1 = 0,00000 (p2 = 1,00000) ω0 = 0,00000; ω1 =
0,00000; ω2 = 0,25829
M7
-1567,339920
0,2486
p = 7,42197; q = 22,36246
M8
-1574,867539
1,0000
p0 = 0,00001 (p1 = 0.99999) p = 0,00500; q = 1,93547; ωs =
1,00000
E6
M0
-7953,908279
0,2222
ω = 0,2222
M1a
-7807,552200
0,7879
p0 = 0,23242 (p1 = 0,76758) ω0 = 0,08742; ω1 = 1,00000
M2a
-7807,552200
0,7879
p0 = 0,23242; p1 = 0,73712 (p2 = 0,03046) ω0 = 0,08742; ω1 =
1,00000; ω2 = 1,00000
M3
-7674,316556
0,2464
p0 = 0,07143; p1 = 0,17442 (p2 = 0,75415) ω0 = 0,00000; ω1 =
0,05781; ω2 = 0,31337
M7
-7669,851177
0,2416
p = 0,76477; q = 2,36691
M8
-7669,851673
0,2416
p0 = 0,99999 (p1 = 0,00001) p = 0,76477; q = 2,36691; ωs =
1,00000
E7
M0
-4250,064751
0,2277
ω = 0,2277
M1a
-4157,352098
0,7372
p0 = 0,29032 (p1 = 0,70968) ω0 = 0,09470; ω1 = 1,00000
M2a
-4157,239435
0,7612
p0 = 0,29031; p1 = 0,66507 (p2 = 0,04462) ω0 = 0,09647; ω1 =
1,00000; ω2 = 1,52793
M3
-4077,107808
0,2713
p0 = 0,15999; p1 = 0,34276 (p2 = 0,49725) ω0 = 0,01048; ω1 =
0,16761; ω2 = 0,42678
M7
-4072,999417
0,2650
p = 0,66121; q = 1,81338
M8
-4072,999625
0,2650
p0 = 0,99999 (p1 = 0,00001) p = 0,66121; q = 1,81338; ωs =
1,00000
51
L1
M0
-4673,2822272
0,0427
ω = 0,0427
M1a
-4641,7609762
0,0896
p0 = 0,94999 (p1 = 0,05001) ω0 = 0,04164; ω1 = 1,00000
M2a
-4641,7609762
0,0896
p0 = 0,94999; p1 = 0,03716 (p2 = 0,01285) ω0 = 0,04164; ω1 =
1,00000; ω2 = 1,00000
M3
-4509,0897362
0,0471
p0 = 0,29331; p1 = 0,44140 (p2 = 0,26528) ω0 = 0,00528; ω1 =
0,03543; ω2 = 0,11269
M7
-4496,6148662
0,0536
p = 0,68823; q = 11,68678
M8
-4496,2780055
0,0543
p0 = 0,99699 (p1 = 0,00301) p = 0,70451; q = 12,49652; ωs =
1,00000
L2
M0
-1918,2245111
0,0968
ω = 0,0968
M1a
-1914,9234904
0,1599
p0 = 0,93651 (p1 = 0,06349) ω0 = 0,10290; ω1 = 1,00000
M2a
-1914,9234904
0,1599
p0 = 0,93651; p1 = 0,05647 (p2 = 0,00702) ω0 = 0,10290; ω1 =
1,00000; ω2 = 1,00000
M3
-1871,4174089
0,0954
p0 = 0,08388; p1 = 0,29811 (p2 = 0,61801) ω0 = 0,00860; ω1 =
0,03752; ω2 = 0,13514
M7
-1868,8015490
0,0946
p = 1,19325; q = 11,15743
M8
-1962,8274563
0,1417
p0 = 0,99999 (p1 = 0,00001) p = 0,27619; q = 1,62677; ωs =
1,72836
4.5. Análise de recombinação
Com o objetivo de detectar regiões dos genomas dos PVs que se originaram a partir de
recombinação, foi utilizado uma combinação de métodos de análise de recombinação que são
poderosos e com uma baixa taxa de falso-positivos. Com isso, apenas os genes E5 e E6 não
apresentaram eventos de recombinação entre os PVs. Todos os eventos detectados pelo RDP
estão listados na Tabela 7. Sequências com baixa probabilidade de ser parentais foram
consideradas como desconhecidas. A ORF L2 apresentou o maior número de eventos
recombinacionais, com 12 potenciais pontos de quebra de recombinação.
52
Tabela 6: Resultados do teste LRT para detecção de sítios que sofrem seleção positiva. Valores entre
parêntese indicam a probabilidade posterior do sítio ser selecionado positivamente.
ORF Modelo 1 Modelo 2 Estastística LRT
E1
E2
E4
E5
E6
E7
L1
L2
Sítios selecionados positivamente
M0
M3
4491,506444
-
M1
M2
0,000000
Nenhum
M1
M3
3809,669074
Nenhum
M7
M8
0,008798
Nenhum
M0
M3
1795,55591
-
M1
M2
0,000000
Nenhum
M1
M3
1232,968870
Nenhum
M7
M8
0,003602
Nenhum
M0
M3
0,000000
-
M1
M2
0,000120
Nenhum
M1
M3
4,795986
Nenhum
M7
M8
4,706678
Nenhum
M0
M3
0,000000
-
M1
M2
0,000400
Nenhum
M1
M3
12,540798
Nenhum
M7
M8
15,055238
Nenhum
M0
M3
559,183446
-
M1
M2
0,000000
Nenhum
M1
M3
266,471288
Nenhum
M7
M8
0,000992
Nenhum
M0
M3
345,913886
-
M1
M2
0,225326
30 T (0,5190)
M1
M3
160,488580
Nenhum
M7
M8
0,000416
Nenhum
M0
M3
328,384982
-
M1
M2
0,000000
Nenhum
M1
M3
265,342480
Nenhum
M7
M8
0,673721
Nenhum
M0
M3
93,614204
-
M1
M2
0,000000
Nenhum
M1
M3
87,012163
Nenhum
M7
M8
188,051815
87 N (0,8230)
89 V (0,6430)
90 S (0,9480)
53
4.6. Análise de entropia genômica
Obviamente, os genes mais conservados (E1 e L1) foram os que mais apresentaram
sítios com valores de entropia menores que dois, indicando baixa complexidade. Com os
gráficos de entropia foi possível observar que o gene E1 apresenta cinco regiões de baixa
entropia, uma entre 223 e 309 pb; a segunda entre 820 e 953 pb; a terceira entre 993 e 1330 pb;
a quarta entre 1516 e 2042 pb; e a quinta região entre 2137 e 2271 pb (Figura 12a).
Tabela 7: Análise de recombinação entre os PVs e suas possíveis sequências parentais computada pelo
programa RDP.
Possível Sequências
ORF
Eventos RDP
Sequências Recombinantes
Parentais
E1
1
EcPV-1; CaPV-3; CaPV-4
HPV-5
2
BPV-5; BPV-8; RPV; WrPV-1
Desconhecido (TTPV-3)
3
EEPV; WrPV-1; RPV; DPV
Desconhecido (BPV-8)
4
CaPV-3; CaPV-4; EcPV-1
HPV-24
5
RmPV-1
HPV-24
6
MrPV
CoPV
7
EdPV-1; HPV-41
Desconhecido (HPV-18)
1
BPV-1
Desconhecido (TTPV-3)
2
TTPV-2
Desconhecido (BPV-10)
3
EdPV-1; HPV-41
Desconhecido (CmPV-1)
E2
BPV-1; EEPV; BPV-2; OPV-1;
E4
4
WrPV-1; RPV; DPV
Desconhecido (SsPV-1)
5
CaPV-4; CaPV-3
EEPV
6
HPV-18
HPV-5
1
PlPV-1
UuPV-1
-
-
Nenhum evento
E5
detectado
Nenhum evento
E6
detectado
-
-
E7
1
UuPV-1; FdPV-1; LrPV-1; PcPV-1
MfPV-1
L1
1
SsPV-1; UmPV-1
CcaPV-1
54
L2
1
ChPV-1
Desconhecido (TTPV3)
2
MfPV-1; HPV-5; HPV-24
UmPV-1
DPV; EEPV; OPV-1; WrPV-1;
3
RPV
McPV-2
4
CaPV-2
HPV-24
5
RmPV-1; CcPV-1
Desconhecido (BPV-4)
6
HPV-24; MfPV-1
Desconhecido (CrPV)
7
TTPV-2; TTPV-3
BPV-3
8
CcaPV-1; CmPV-1
Desconhecido (EEPV)
9
RmPV-1
HPV-5
EEPV; BPV-1; BPV-2; WrPV-1;
10
RPV
HPV-18
11
TTPV-3
HPV-5
12
CrPV
Desconhecido (BPV-1)
O gene L1, mais conservado, possui três regiões de baixa entropia, uma entre 52 e 878
pb; a segunda entre 985 e 1111 pb; e a terceira entre 1198 e 1512 pb. Apesar de apresentar
menos regiões de baixa complexidade que o gene E1, L1 apresenta regiões maiores que as
regiões de E1. No final, L1 apresentou um tamanho total de 1269 sítios com baixa entropia,
enquanto que E1 apresentou 1215 sítios (Figura 12g).
Os genes E2 e L2, que também estão presentes em todos os PVs, de maneira geral
apresentam um grau de complexidade maior que E1 e L1. A partir dos gráficos foram
identificados, em E2, quatro regiões de baixa entropia, uma entre 64 e 461 pb; a segunda entre
577 e 592 pb; a terceira entre 1501 e 1609 pb; e a quarta região entre 1708 e 1752 pb. O gene
L2 também apresentou quatro regiões de baixa complexidade, uma entre 175 e 315 pb; a
segunda entre 502 e 592 pb; a terceira entre 1288 e 1380 pb; e a quarta entre 1885 e 1923 pb.
No total, o gene E2 demonstrou 564 sítios de baixa entropia e o gene L2 apenas 363 sítios
(Figura 12b, h).
Os outros genes (E4, E5, E6 e E7) apresentaram os mais altos valores de entropia. Os
genes E4, E5 e E7 possuem apenas uma região de baixa entropia cada, de 436 a 486 pb, de
55
301 a 330 pb e de 658 a 711 pb, respectivamente. Já o gene E6 possui duas regiões de baixa
complexidade, uma entre 253 e 363 pb; e outra entre 370 e 459 pb. Finalmente, os genes E4,
E5, E6 e E7 apresentaram tamanho total de 51, 30, 201 e 54 sítios de baixa entropia,
respectivamente (Figura 12c, d, e, f).
a)
b)
c)
d)
e)
f)
g)
h)
Figura 12: Gráficos de entropia por sítio para as oito regiões genômicas estudadas. Regiões com entropia
abaixo de dois (linha em vermelho) são menos complexas, indicando partes mais conservadas dos genomas.
56
4.7. Predição in silico da estrutura secundária das proteínas
A predição da estrutura secundária revelou várias regiões de α-hélice, intercaladas com
regiões folhas β e de alça na proteína E1, possuindo uma distribuição bastante homogênea
(Figura 13a). A região amino-terminal da proteína E2 apresenta um conjunto de regiões de αhélice seguido por regiões de folhas β, sempre intercaladas por regiões de alça. Em torno da
parte central da proteína, existe uma grande região de alça, e na porção carbono-terminal foi
possível observar cinco regiões de folhas β com uma α-hélice inserida na parte final (Figura
13b).
A proteína E4, no entanto, se apresentou como uma grande estrutura de alça, sem
nenhuma α-hélice ou folha β presente (Figura 13c). Já a oncoproteína E5 se mostrou como
sendo uma grande α-hélice, apenas com regiões de alça nas extremidades (Figura 13d). E6
possui regiões de α-hélice, folha β e alça intercaladas ao longo da proteína (Figura 13e). A
análise da estrutura secundária mostrou que a proteína E7 apresenta, em sua região central e
carbono-terminal, três folhas β e uma α-hélice (Figura 13f).
As proteínas do capsídeo, L1 e L2, apresentaram várias regiões de folha β distribuídas
ao longo delas. Entretanto, L2 mostrou apenas duas regiões de α-hélice na parte aminoterminal da proteína, enquanto que L1 apresenta várias α-hélices ao longo da proteína,
principalmente na região central. Na parte amino-terminal, L1 possui várias regiões de folha β.
Grandes regiões de alça também estão presentes ao longo da proteína L2 e na parte carbonoterminal de L1 (Figura 13g, h).
Após a predição, as estruturas secundárias das proteínas dos PVs foram relacionadas
com as regiões genômicas de baixa entropia. Grande parte dessas regiões se apresentou em
locais relacionados com α-hélices e folhas β, intercaladas por alças, para a maioria das
proteínas. As regiões de baixa complexidade do gene E4 se localizavam em estruturas de alça.
Em E5, essas regiões se localizavam completamente em estruturas de α-hélice.
57
4.8. Reconstrução da filogenia dos Papilomavírus
O modelo de substituição de nucleotídeo que mais se adequou aos genes E1, E2, E6 e
L1 foi o GTR+I+G (General Time Reversible incluindo sítios invariáveis e com variação de
taxa entre os sítios), enquanto que para E5 foi o GTR+G (General Time Reversible com
variação de taxa entre os sítios), e para E4 foi o GTR (General Time Reversible). Para L2, o
modelo selecionado foi o TVM+I+G (Transversional Model incluindo sítios invariáveis e
com variação de taxa entre os sítios). O modelo TVMef+G (Transversional Model Equal
Frequencies com variação de taxa entre os sítios) foi selecionado para o gene E7.
Para as sequências de aminoácidos, o modelo selecionado para a proteína E1 foi o
RtREV+I+G+F (Modelo para Proteínas Retrovirais incluindo sítios invariáveis, com variação
de taxa entre os sítios e observando as frequências dos aminoácidos); já para E2 foi o
RtREV+G+F (Modelo para Proteínas Retrovirais com variação de taxa entre os sítios e
observando as frequências dos aminoácidos). Para E4, o modelo escolhido foi o CpREV+G+F
(Modelo para Proteínas do Cloroplasto com variação de taxa entre os sítios e observando as
frequências dos aminoácidos).
O modelo Dayhoff+F (Dayhoff PAM observando as frequências dos aminoácidos) foi
selecionado para a proteína E5. Para E7, o mesmo modelo foi selecionado, incluindo a
variação de taxa entre os sítios. O modelo WAG+I+G+F (Whelan e Goldman incluindo sítios
invariáveis, com variação de taxa entre os sítios e observando as frequências dos aminoácidos)
foi escolhido para as proteínas E6 e L2, enquanto que o modelo WAG+I+G (Whelan e
Goldman incluindo sítios invariáveis, com variação de taxa entre os sítios) foi selecionado
para a proteína L1.
O sinal filogenético foi calculado separadamente para cada uma das regiões genômicas,
tanto para análise com nucleotídeos quanto para aminoácidos. Tanto para as sequências de
58
DNA quanto para as de aminoácidos, as regiões E1, E2, E6, L1 e L2 apresentaram sinal
filogenético (Figuras 14 e 15).
a)
b)
c)
d)
e)
f)
g)
h)
Figura 13: Estrutura secundária predita das oito proteínas dos Papilomavírus. Os traços representam
regiões de alça, os cilindros vermelhos as regiões de α-hélice e as setas amarelas as regiões de folha β. As
subfiguras a, b, c, d, e, f, g, h representam as proteínas E1, E2, E4, E5, E6, E7, L1 e L2, respectivamente.
Os genes E4, E5 e E7 apresentaram 23,5; 31,5 e 32,7% dos quartetos nos vértices do
triângulo, respectivamente. Estes valores estão bem abaixo do ponto de corte, que é de 50%.
59
A análise com os genes E1, E2, E6, L1 e L2 mostrou 73,3; 68,8; 55,9; 73,2 e 66,3% dos
quartetos nas regiões 1, 2 e 3, que foi satisfatório para indicar o sinal filogenético (Figura 14).
Figura 14: Avaliação do sinal filogenético dos genes dos Papilomavírus. A presença de sinal filogenético é
assumida quando pelo menos 50% dos quartetos estão localizados nos vértices dos triângulos (regiões 1, 2
e 3).
A análise com as sequências de aminoácidos demonstrou que as proteínas E4, E5 e E7
também possuem menos que 50% dos quartetos nos vértices do triângulo; 21,5; 31,2 e 31,0%;
60
respectivamente. Já as proteínas E1, E2, E6, L1 e L2 apresentaram 83,9; 72,3; 55,6; 84,6 e
74,2% dos quartetos nas regiões 1, 2 e 3 (Figura 15).
Figura 15: Avaliação do sinal filogenético das proteínas dos Papilomavírus. A presença de sinal
filogenético é assumida quando pelo menos 50% dos quartetos estão localizados nos vértices dos
triângulos (regiões 1, 2 e 3).
É interessante notar que, para as sequências de nucleotídeos que não apresentaram sinal
filogenético e ainda E6, foi obtido um número de quartetos pouco maior que as sequências de
aminoácidos que se encontravam na mesma situação. Isso porque as regiões de baixa
61
complexidade utilizadas para esses genes eram pequenas, e as sequências de aminoácidos são
ainda três vezes menores. Entretanto, para os outros genes, as sequências de aminoácidos
apresentaram um número maior de quartetos nos vértices do triângulo, sugerindo que essas
sequências são mais informativas para a reconstrução da filogenia dos PVs.
Os testes de saturação mostraram que todas as regiões genômicas estavam saturadas
(Figura 16). Nos gráficos, à medida que se aumenta a distância genética, as taxas de transição
e transversão também deveriam aumentar. Quando as sequências estão saturadas, isso não
acontece e é possível observar um platô no gráfico. Devido a uma pressão evolutiva
diferenciada, a saturação normalmente ocorre na terceira posição do códon. Assim, também
foi realizada uma análise excluindo-se a terceira posição do códon.
Apesar dos genes E1 e L1 apresentarem linhas de tendência quase retas, ainda há uma
tendência que indica certa saturação. Além disso, embora ainda haja saturação quando se
utiliza as regiões de baixa entropia dos oito genes, os gráficos mostram que houve uma
melhora na disposição das linhas de tendência, indicando que essa abordagem ajuda a
diminuir essa saturação (dados não mostrados).
Ao se avaliar as partições, os valores do teste de ILD, tanto para nucleotídeos quanto
para aminoácidos, foram altos suficientes para negar a hipótese nula de incongruência entre as
partições (Tabela 8). Este teste sugere que, todas as regiões de baixa entropia dos genes
escolhidos para análise podem ser concatenadas e utilizadas para a reconstrução da filogenia
dos PVs. A partir desta análise, obtivemos o suporte para a combinação dos diversos genes.
Para fins de validação da abordagem, as combinações E6-E7-E1-E2-L2-L1, E6-E1-E2-L2-L1
e E1-E2-L2-L1 foram analisadas separadamente.
62
Figura 16: Gráficos mostrando a saturação das sequências de DNA das oito regiões genômicas dos
Papilomavírus. S = taxa de transição e V = taxa de transversão.
A abordagem explorada neste estudo, utilizando regiões de baixa entropia com
diferentes métodos de reconstrução da filogenia dos PVs, de uma maneira geral, não gerou
63
árvores totalmente congruentes. Entretanto, altos valores de confiança foram alcançados na
maioria dos nós. Foi possível obter árvores filogenéticas bastante robustas, embora com baixo
suporte estatístico em alguns nós internos. Comparando-se as topologias e o suporte dos nós
entre as árvores construídas a partir das sequências de nucleotídeos, nucleotídeos sem a
terceira posição dos códons e de aminoácidos, não foi possível observar grandes
incongruências. Apesar de que os cladogramas baseados em sequências de aminoácidos
apresentaram alguns valores pouco mais altos de confiabilidade dos ramos.
Em todas as partições analisadas, vários agrupamentos monofiléticos podem claramente
ser distinguidos, representando os gêneros dos PVs. Os gêneros Deltapapillomavirus,
Epsilonpapillomavirus,
Mupapillomavirus,
Xipapillomavirus,
Lambdapapillomavirus,
Betapapillomavirus,
Kappapapillomavirus,
Nupapillomavirus,
Alphapapillomavirus,
Omikronpapillomavirus, Thetapapillomavirus e Etapapillomavirus, de uma maneira geral,
foram monofiléticos e apresentaram altos valores de bootstrap e de probabilidade a posteriori
(Figuras 17a, b, c) (Anexo 8.3).
A monofilia de alguns desses clados contendo os gêneros dos PVs corresponderam à
monofilia dos hospedeiros infectados como os primatas, artiodátilos, lagomorfos, carnívoros,
cetáceos, répteis e aves. Essas monofilias foram suportadas sob os diferentes métodos de
construção de árvores, assim como utilizando as diferentes partições. Entretanto, vários tipos
de PVs não se agruparam de acordo com a filogenia de seus hospedeiros. Gêneros de PVs que
infectam primatas não formaram um grupo monofilético em todas as análises; o MfPV1, que
infecta um primata não-humano, aparentemente derivou do HPV24; uma parafilia pode ser
observada no grupo dos PVs que infectam bovinos; o OPV1 mais relacionado com os
cervídeos do que com os bovídeos; os PVs que infectam caninos também foram parafiléticos;
o RoPV e o CrPV, que infectam coelhos, foram derivados de HPV1; o UmPV1 que infecta
carnívoro e o SsPV1 que infecta artiodátilo agrupados com primatas (Figuras 17a, b, c)
(Anexo 8.3).
64
Tabela 8: Teste de incongruência entre partições, realizado com sequências de nucleotídeo e de proteínas.
Significativamente
Significativamente
Genes
P (≤)
incongruente?
Proteínas
P (≤)
incongruente?
E1-E2
0,3333
Não
E1-E2
0,1667
Não
E1-E6
0,3333
Não
E1-E6
0,1667
Não
E1-E7
0,5
Não
E1-E7
1
Não
E1-L1
0,1667
Não
E1-L1
0,1667
Não
E1-L2
0,1667
Não
E1-L2
0,1667
Não
E2-E6
0,1818
Não
E2-E6
0,1667
Não
E2-E7
0,5
Não
E2-E7
0,5
Não
E2-L1
0,5
Não
E2-L1
0,1667
Não
E2-L2
0,5
Não
E2-L2
0,1667
Não
E6-E7
0,1667
Não
E6-E7
0,8333
Não
E6-L1
0,3333
Não
E6-L1
0,1667
Não
E6-L2
0,1667
Não
E6-L2
0,1667
Não
E7-L1
0,3333
Não
E7-L1
0,8333
Não
E7-L2
0,1667
Não
E7-L2
0,3333
Não
L1-L2
0,1667
Não
L1-L2
0,1667
Não
Apesar da relativa robustez da árvore, levando-se em consideração o conjunto de dados
altamente variável, alguns nós mostraram contradições filogenéticas bem suportadas quando
se levou em consideração os quatro diferentes métodos de construção de árvores filogenéticas.
Alguns vírus também se agruparam de forma aleatória quando se utilizou partições diferentes,
como foi o caso do EcPV1, TmPV1, MrPV, RaPV1 e BPV7 (Figuras 17a, b, c) (Anexo 8.3).
65
a)
b)
66
c)
Figura 17: Árvores filogenéticas de Máxima Verossimilhança dos PVs representativos baseada nas
sequências de aminoácidos. a) análise com a partição E6-E7-E1-E2-L2-L1, b) análise com a partição E6E1-E2-L2-L1, c) análise com a partição E1-E2-L2-L1. Os valores de suporte dos ramos estão
representados (acima: NJ/MP, abaixo: ML/Probabilidades Bayesianas). Incongruências nas topologias e
valores de bootstrap abaixo de 50% não estão representadas.
67
5. Discussão
Algumas tentativas de obter um cenário compreensivo da evolução dos PVs já foram
feitas (Chan et al., 1992; Chan et al., 1995; Gottschling et al., 2007b; Bravo e Alonso, 2007).
Entretanto, nenhum estudo aprofundado sobre a evolução dos PVs foi realizado utilizando
tanta informação genética combinada com uma nova abordagem para encontrar regiões
genômicas mais informativas filogeneticamente.
Esta análise utiliza genomas de PVs que infectam uma grande variedade de hospedeiros.
Entretanto, não se pode esquecer que existe variação intratípica (variantes e subtipos), e assim
não sabemos o quão bem representado é a amostra que deu origem ao tipo viral referencial no
banco de dados.
Os PVs apresentam uma estrutura genômica muito similar entre si, com quatro genes
(E1, E2, L2 e L1) presentes em todos os tipos virais. Entretanto, ainda não foram elucidados,
na história evolutiva dos PVs, como os outros genes foram adquiridos ou perdidos. Entretanto,
do ponto de vista filogenético, genes não-usuais (presentes em poucos tipos de PVs) não são
interessantes por não apresentar muita homologia dentro da família.
A grande diversidade dos PVs foi refletida também quando foi analisado tamanho e
conteúdo de %GC dos genomas. Interessantemente, o tamanho do genoma dos PVs não
estava diretamente relacionado com o número de genes que eles possuem, possivelmente
porque a variação pode estar presente nos core-genes. A variação do conteúdo de %GC dos
PVs também é considerável, e embora não tenha sido testado, isso provavelmente se deve à
pressão mutacional (Sueoka, 1988).
Várias ferramentas de Genômica Comparativa utilizadas neste estudo mostraram o quão
variável são os genomas dos PVs. Análises de dot plot (polydot), por exemplo, indicou a
pouca similaridade de sequência entre esses vírus. Entretanto, alguns grupos de vírus que
infectam hospedeiros comuns ou relacionados filogeneticamente compartilham essa
68
similaridade, dando suporte à ideia de uma evolução ligada ao hospedeiro como sugeriu Chan
et al. (1995). O problema é que vírus apresentando hospedeiros comuns não apresentam
similaridade de sequência nas análises com dot plot, indicando que outros processos além da
co-evolução estejam atuando na evolução dos PVs, como foi sugerido por Gottschling et al.
(2007b).
Para conhecer mais a diversidade dos genomas dos PVs, foi realizada uma análise de
seu Pan-genoma. A grande quantidade de genes homólogos, únicos e dispensáveis encontrada
se deveu à enorme variação das sequências. Genes homólogos dos PVs, por ser muito
variáveis, se mostrou como genes diferentes no Pan-genoma, perturbando a análise. Assim,
evidencia-se mais uma vez a grande diversidade existente entre esses vírus.
Se há grande divergência entre as sequências, outras variáveis podem ser utilizadas para
estudar a evolução dos genomas dos PVs. O agrupamento realizado a partir do conteúdo
de %GC mostrou-se pouco útil para entender a história evolutiva dos PVs, devido a uma
aparente homogeneização dos genomas. Isso também foi observado quando se utilizou o
conteúdo de %GC1, %GC2 e %GC3. Apesar de utilizar a quantidade de GC nas três posições
do códon em uma tentativa de aumentar a distringência do método, o resultado também não
foi satisfatório.
O conteúdo de %GC total, assim como nas diferentes posições do códon, já foi indicado
como determinantes do viés no uso de códons de mamíferos (D’Onofrio et al., 1991).
Entretanto, nos papilomavírus humanos o viés no uso de códons parece ser influenciado pelo
conteúdo de %AT na terceira posição do códon (Zhao et al., 2003). Assim, de uma maneira
geral, os agrupamentos utilizando o conteúdo de %GC não se mostraram muito eficazes para
o entendimento da diversificação dos PVs, mas estudos mais aprofundados podem elucidar a
importância desse viés para a biologia desses vírus.
Seguindo a mesma lógica, a análise da frequência de uso de códons também foi
abordada. A árvore de códons nos dá uma maneira alternativa de avaliar a similaridade entre
69
os PVs, levando em consideração o viés mutacional devido à ampla gama de hospedeiros, que
também foi observado em flavivírus (Schubert e Putonti, 2008). Essa árvore apresentou uma
resolução bem melhor que as anteriores, mesmo porque há a utilização de 64 variáveis
diferentes para a realização do agrupamento. Embora o dendrograma de códons não consiga
explicar a co-evolução, já foi observado que existe um padrão similar de uso de códons em
PVs que infectam humanos e não-humanos, mesmo sendo originados a partir de grupos
filogenéticos diferentes. Além disso, foi observado também que há um viés distinto para o uso
de códons preferenciais, diferenciando-os dos usados pelos hospedeiros mamíferos (Zhao et
al., 2003).
Ainda não está muito clara qual a relação entre o viés no uso de códons e a biologia dos
PVs, entretanto esse viés pode estar influenciando o agrupamento de vírus que infectam
hospedeiros diferentes em um mesmo clado. É importante ressaltar também que o uso de
códons pode estar sendo influenciado por uma especialização ao tipo de tecido que esses vírus
infectam.
Nem sempre a história evolutiva de um grupo de vírus é representada por uma árvore de
uso de códons, mas sim o quanto essas partículas mudaram para se adaptar ao seu hospedeiro
particular, sendo importante entender o tempo de infecção deste hospedeiro para determinar o
quanto que esses vírus adotaram suas preferências de códons (Schubert e Putonti, 2008).
As análises com frequências de aminoácidos demonstraram que há uma menor
promiscuidade com relação ao uso de códons, apesar de existir uma associação entre eles. Isso
se deve ao fato de que são analisados 20 aminoácidos, enquanto que existem 64 códons
diferentes. Uma explicação para esses agrupamentos seria que existem aminoácidos com
propriedades químicas semelhantes, e o dendrograma construído não levou isso em conta.
Assim, regiões das proteínas dos PVs podem ser mais suscetíveis às mudanças, desde que não
mude as propriedades funcionais e estruturais dessas moléculas.
70
Além disso, esses agrupamentos também podem ser explicados pela diferença no
potencial de expressão gênica, uma vez que certos aminoácidos são mais comuns entre genes
que são altamente expressos, como foi observado em bactérias (Akashi e Gojobori, 2002;
Merkl, 2003). Talvez exista uma força seletiva fazendo com que as frequências de
aminoácidos entre os PVs sofram mudanças, refletindo uma hierarquia de coeficientes de
seleção, como sugerido por McVean e Vieira (2001).
Devido ao grande número de tipos, subtipos e variantes presentes na família
Papillomaviridae, as diferenças existentes entre as frequências no uso de códons e de
aminoácidos nesses vírus e seus respectivos hospedeiros também podem indicar que há
efetividade nas mudanças antigênicas visando criar novas variantes virais, como foi
observado nos vírus influenza por Scapoli et al. (2007). Assim, existe a possibilidade de que
os PVs puderam adaptar seus genomas aos respectivos hospedeiros, e em seguida, a pressão
seletiva favoreceu a diversificação no hospedeiro desses tipos virais. Entretanto, estudos mais
aprofundados são necessários para confirmar esses processos.
Os genomas dos PVs também apresentam grande variabilidade quanto ao número de
genes. Estudar a evolução viral do ponto de vista de aquisição ou perda de genes é uma
poderosa maneira para definir famílias gênicas, além de traçar um perfil filogenético dos
genes que compreendem esses genomas, como foi observado em herpesvírus por Montague e
Hutchison (2000).
A árvore construída a partir do conteúdo gênico se apresentou bastante semelhante com
a filogenia atualmente aceita para os PVs, agrupando a maior parte deles nos gêneros
sugeridos por de Villiers et al. (2004). Entretanto, o suporte estatístico de muitos nós do
dendrograma não foi alto, principalmente os dos nós internos. A falta de representatividade
dos PVs no banco de dados pode ser uma explicação para isso, uma vez que existe mais de
100 tipos de HPVs, podendo ser esperado a mesma quantidade de tipos para os PVs nãohumanos. É importante ressaltar também que a transferência lateral de genes pelo hospedeiro
71
ou outros vírus pode influenciar no resultado da árvore, introduzindo dados filogenéticos
discordantes.
Até hoje, agrupamentos baseados no conteúdo gênico foram usados com sucesso para
analisar a evolução de herpesvírus (Montague e Hutchison, 2000), adenovírus (Davison et al.,
2003), baculovírus (Herniou et al., 2001) e poxvírus (Xing et al., 2006), demonstrando a
importância da metodologia.
Este agrupamento gerou uma topologia semelhante àquela baseada em alinhamento de
sequências com um custo computacional bem baixo, sendo um forte argumento a favor da
validade deste tipo de árvore para deduzir a história evolutiva dos PVs a partir de sequências
genômicas completas. Mesmo assim, ainda é necessário levar em consideração que esta
metodologia apresenta ruídos que nem sempre são excluídos da análise, como foi percebido
pelo alto número de genes homólogos, únicos e dispensáveis observados nos PVs. Assim, é
importante a comparação destes agrupamentos com filogenias baseadas em alinhamento de
sequências, e também que pesquisas visem ao desenvolvimento de metodologias mais
robustas para a exclusão dos ruídos.
É possível notar uma grande variação genética, tanto nas sequências de nucleotídeos
quanto nas de aminoácido. Entretanto, é interessante observar que existe uma relativa
conservação no que diz respeito à função das proteínas. Assim sendo, os PVs parecem manter
constantes regiões importantes estrutural e funcionalmente, e permitem que outras regiões
sejam bem promíscuas. Isto está de acordo com o conhecimento prévio de que regiões da
proteína que evoluem de forma mais lenta estão relacionadas com reconhecimento molecular
(Worth et al., 2009).
Por exemplo, E1 apresentou a maior conservação na região carbono-terminal (Cterminal), local relacionado com o domínio de ATPase e helicase. A grande variação na
região amino-terminal (N-terminal) aparentemente não influencia na replicação do DNA viral,
como foi visto para HPV-1 e BPV-1 (Wilson et al., 2002). Já a proteína L2 apresentou dois
72
grandes domínios conservados na região N-terminal e na C-terminal de importância funcional,
estando de acordo com os achados em grupos de papilomavírus mais próximos (Roden et al.,
2000; Bousarghin et al., 2003; Finnen et al., 2003; Bossis et al., 2005; Florin et al., 2006;
Kämper et al., 2006; Richards et al., 2006).
Assim, embora as sequências dos PVs tenham divergido bastante ao longo do tempo
evolutivo, aparentemente as funções foram mantidas. Essa ideia é importante, pois selecionar
regiões genômicas importantes funcionalmente para inferir a filogenia do grupo se torna
bastante relevante devido à grande variação genética encontrada nesses vírus.
Tão importante quanto conhecer a variação nas sequências genéticas de um grupo de
organismos, é analisar o comportamento das transições e transversões. Estimar o possível viés
dessas taxas é muito importante para o entendimento da evolução dos genomas, assim como a
correta reconstrução de sua filogenia (Yang e Yoder, 1999).
Nesta análise, a maioria dos genes apresentou valores de R menores do que um. Yang e
Yoder (1999) sugerem que altos níveis de divergência genética apresentam valores baixos
dessa razão. Isso acontece porque apesar de existirem quatro possíveis transversões e apenas
dois tipos de transições são possíveis, o número de transições normalmente se apresenta maior
(Purvis e Bromham, 1997). A única inconsistência desses achados foi para o gene E5 que
apesar da alta variabilidade genética, apresentou um valor de R acima de um. Segundo Purvis
e Bromham (1997), uma estimativa pouco acurada devido à grande divergência genética pode
explicar esse comportamento.
Ainda hoje existe uma falta de conhecimento a respeito dos mecanismos evolutivos que
direcionam a variação nas sequências nucleotídicas, e consequentemente nas propriedades
biológicas dos PVs. Assim, é importante examinar que tipo de pressão seletiva está regendo a
evolução das proteínas desses vírus.
Todas as proteínas analisadas dos PVs apresentaram pressão seletiva negativa. Isto
significa que a maior parte das variações encontradas nestas proteínas não possui potencial
73
adaptativo. Apesar disso, foi possível observar duas proteínas (E7 e L2) que apresentaram
sítios com evidências de seleção diversificadora. Entretanto, o único sítio que apresentou
seleção positiva em E7 foi detectado pelo método de detecção de probabilidades posteriores
Naive Empirical Bayes (NEB) (Nielsen e Yang, 1998; Yang et al., 2000), que por não
contabilizar os erros de amostragem não possui alta confiabilidade nos resultados. Os sítios
detectados na proteína L2 foram obtidos utilizando o método Bayes Empirical Bayes (BEB)
(Yang et al., 2005), que é mais confiável.
É importante ressaltar que alguns estudos não detectaram sítios sob pressão seletiva
diversificadora em E7 e L2, como observado em linhagens de HPV-16 (DeFilippis et al.,
2002; Chen et al., 2005), mas foram detectados em análises com Alphapapillomavirus
(Carvajal-Rodríguez, 2008). Com relação aos outros genes, apenas duas inconsistências foram
encontradas com a literatura, um sítio detectado em L1 (Carvajal-Rodríguez, 2008), e três ou
quatro sítios detectados em E6 (DeFilippis et al., 2002; Chen et al., 2005; CarvajalRodríguez, 2008).
É preciso levar em consideração que, devido ao alto índice de variabilidade genética
entre os membros da família Papillomaviridae, alguma informação pode estar sendo
enviesada ou perdida, principalmente com o grande número de gaps introduzidos. Apesar
disso, é notória a importância de detectar sítios que estão sofrendo pressão seletiva
diversificadora, mesmo tratando-se de um conjunto de dados tão variável, porque
provavelmente são peptídeos muito importantes para a imunogenicidade (direcionando
modificações nos aminoácidos visando à evasão do sistema imune do hospedeiro) e interação
funcional das proteínas virais e celulares (alteração de domínios de ligação proteína-proteína).
Assim, o potencial evolutivo das proteínas dos PVs pode ter sérias implicações para a
eficácia e desenvolvimento de estratégias vacinais baseadas em epítopos e drogas antivirais,
como sugerido por DeFilippis et al. (2002). Esses sítios devem apresentar uma importância
ainda maior por estar representados em uma ampla gama de hospedeiros. Entretanto, outras
74
análises mais aprofundadas são necessárias para diminuir ao máximo as chances de erro
devido à grande variabilidade encontrada no grupo.
Outro processo que ajuda no aumento da variabilidade e, em consequência, dificulta a
reconstrução da filogenia dos PVs, é a recombinação. Eventos de recombinação já foram
observados em HPVs e nos Alphapapillomavirus (Varsani et al., 2006; Angulo e CarvajalRodríguez, 2007; Carvajal-Rodríguez, 2008), mas nenhum destes estudos abordou uma ampla
diversidade de PVs. Em seis genes foram encontrados evidências de recombinação com pelo
menos três dos métodos avaliados. Essa abordagem que utilizou evidências encontradas por
pelo menos três métodos diferentes foi importante para diminuir as chances de erro de algum
dos algoritmos. Entretanto, devido à dificuldade de se alinhar de forma confiável as
sequências desses vírus, ainda podemos encontrar sinais de recombinação que podem na
verdade ser artefatos (Varsani et al., 2006).
Identificar regiões que recombinaram é importante por mostrar regiões nos genomas dos
PVs responsáveis por sinais filogenéticos aberrantes, interferindo no entendimento da história
evolutiva desses vírus. Além disso, detectar recombinação reforça a ideia de que há infecções
múltiplas por diferentes tipos virais, que não é um evento raro, gerando novos tipos
recombinantes, como observado por Antonishyn et al. (2008) e Angulo e Carvajal-Rodríguez
(2007).
Apesar de neste estudo ser utilizado vírus que infectam diferentes hospedeiros,
dificultando a ocorrência de recombinação entre eles, as evidências aqui encontradas sugerem
que as recombinações podem ter ocorrido em ancestrais, antes da diversificação dos PVs,
reforçando a ideia de Varsani et al. (2006).
Após a observação de alguns mecanismos que podem estar influenciando a
diversificação dos PVs, sugerimos uma nova abordagem para a reconstrução da filogenia
desses vírus utilizando regiões genômicas de baixa entropia. Regiões em uma sequência de
DNA que são bastante divergentes podem apresentar diferentes histórias evolutivas, e assim
75
perturbar a construção da filogenia de um grupo. Assim, encontrar e excluir essas regiões é
um passo importante quando tratamos de um conjunto de dados bastante variável.
Análises de entropia de sequências de nucleotídeos e aminoácidos já se mostraram úteis
na determinação de padrões de variabilidade genética (Schneider et al., 1986; Pilpel e Lancet,
1999; Zou e Saven, 2000; Mutihac et al., 2001; Valdar, 2002; Krishnamachari et al., 2004;
Liao et al., 2005), sendo uma poderosa ferramenta para determinar locais pouco complexos
no genoma, importantes para uma reconstrução filogenética mais precisa. Assim, a entropia
nos dá suporte estatístico para indicar regiões que apresentam maior probabilidade de serem
homólogas, sem influências externas como recombinação.
É importante ressaltar que esta é a primeira vez que a entropia foi utilizada com o
objetivo de selecionar regiões do genoma dos PVs para a reconstrução de sua filogenia.
Apesar da grande variação genética entre os PVs, foi possível observar regiões genômicas de
baixa complexidade informacional, que estão relacionadas com as partes conservadas de cada
gene. Logicamente, os genes menos variáveis apresentaram mais regiões de baixa entropia.
Essas regiões possuem uma probabilidade maior de manter partes mais importantes do
genoma, estando relacionadas com domínios funcionais nas proteínas desses vírus.
As regiões foram consideradas como sendo de baixa entropia quando menores ou iguais
a dois bits de informação porque como o DNA de um organismo apresenta quatro
nucleotídeos diferentes, para que todos esses estados estejam disponíveis cada posição requer
log2 N bits. Portanto, log2 4 = 2 bits de informação. Esse ponto de corte é importante porque é
necessário que todos os estados sejam representados e que exista variação suficiente para
separar bem os clados na árvore filogenética gerada.
Segundo Kim et al. (2003), locais relacionados com sítios de ligação de fatores de
transcrição apresentam baixa probabilidade de mutações, permitindo uma maior probabilidade
de manutenção dos domínios em seu estado funcional, tendendo à estabilidade evolutiva.
Assim, embora os PVs apresentem uma grande diversidade genética, a análise da entropia
76
permite a seleção de regiões mais estáveis evolutivamente para ser utilizadas na reconstrução
da filogenia do grupo.
A abordagem aqui sugerida, baseada na análise de entropia, para seleção de regiões
mais informativas filogeneticamente se torna mais significativa quando estas regiões
genômicas estão relacionadas com a funcionalidade e manutenção da estrutura da proteína,
uma vez que é sabido que existem restrições funcionais e estruturais na evolução das
proteínas, indicando que existe tolerância diferenciada às substituições de aminoácido. Assim,
as mudanças nas sequências de aminoácidos dos PVs relacionadas com estruturas de α-hélice
e folha β possuem uma probabilidade menor de ocorrer porque essas estruturas são bastante
requisitadas para o estabelecimento da estrutura terciária, como sugerido por Camps et al.
(2007).
Assim, a grande variabilidade genética que os papilomavírus apresentam pode ser
explicada pela presença de regiões conservadas importantes funcional e estruturalmente, que
mantêm a estabilidade da proteína e indicam uma ancestralidade comum. Relacionar as
regiões de baixa complexidade informacional com a estrutura secundária das proteínas foi
bastante relevante.
Entretanto, muitas regiões selecionadas pela entropia estão relacionadas com regiões de
alça. Apesar da existência de uma potencial flexibilidade nas alças, aumentando a tolerância à
variação dessas regiões, alguma conservação pode ser encontrada dependendo se resíduos
ativos cataliticamente estão presentes nestas estruturas ou se elas adotam posições importantes
para a estrutura terciária (Camps et al., 2007).
Além disso, as regiões de hélice e de folha β podem exercer influência sobre as regiões
de alça adjacentes, como efeito da blindagem, fazendo com que ocorra conservação dos
aminoácidos presentes nesses locais devido à pressão evolutiva conhecida como background
selection, como foi observado em Fusconaia, Pleurobema, Lemiox e Ptychobranchus
(Chapman et al., 2008). Logo podemos inferir que as regiões de baixa entropia muito
77
provavelmente são importantes estruturalmente, se tornando muito úteis para a reconstrução
da filogenia dos PVs.
Diante desta constatação, esta foi a primeira vez que a entropia foi utilizada como
parâmetro para a seleção de regiões genômicas funcionalmente importantes, visando à
melhoria do sinal filogenético para a reconstrução das relações evolutivas de um grupo de
organismos. Além disso, foram realizadas análises com três partições diferentes, utilizando 4,
5 e 6 genes concatenados.
Conhecer a fundo as relações filogenéticas dos PVs é bastante importante por causa da
sua efetiva contribuição para a taxonomia e classificação, relevantes para o diagnóstico e
terapia (Gottschling et al., 2007b). Grupos de alto e baixo risco, com relação às lesões
malignas e benignas respectivamente, podem ser diferenciados com a ajuda da inferência
filogenética (Van Ranst et al., 1992; Muñoz et al., 2003; Bravo e Alonso, 2004; Gottschling
et al., 2007b).
Apesar de vários estudos abordarem a filogenia dos PVs (Chan et al., 1992; Chan et al.,
1995; Gottschling et al., 2007b; Bravo e Alonso, 2007), ainda existem muitas lacunas que
precisam ser preenchidas para o completo entendimento da evolução dos PVs. Assim, os
resultados apresentados aqui descrevem as relações filogenéticas dos PVs utilizando regiões
genômicas de baixa entropia, a partir de uma criteriosa análise que objetivou o entendimento
dos padrões de variabilidade das sequências genéticas dos PVs.
Do ponto de vista evolutivo, os resultados aqui obtidos corroboraram com a idéia de que
a diversificação dos PVs são decorrentes de múltiplos mecanismos evolutivos, como sugerido
por Gottschling et al. (2007b), que utilizou grande quantidade de informação genética em suas
análises.
Para confirmar que apenas a co-evolução guia a diversificação dos PVs é necessário que
exista congruência entre a filogenia do vírus com a do hospedeiro, como se pensava há pouco
tempo (Chan et al., 1995; de Villiers et al., 2004; García-Vallvé et al., 2005). Apesar de esta
78
ideia ser bastante plausível em primeira instância, nossos resultados sugerem que há
desacordo entre a filogenia dos PVs com a dos hospedeiros, como acontece com as polifilias
encontradas nos PVs que infectam primatas. Estes resultados estão de acordo com os achados
de Gottschling et al. (2007b).
Gottschling et al. (2007b) também sugeriram que eventos de recombinação ancestral
poderia estar perturbando a recostrução filogenética dos PVs, que foi confirmado por nossos
achados. Vários eventos de recombinação foram detectados em nosso estudo, ocorrendo entre
tipos virais que são distantemente relacionados. Como a recombinação deve ocorrer no
interior de uma célula hospedeira, e muitos desses eventos foram detectados em PVs que
infectam hospedeiros diferentes, recombinação pode ter corrido em vírus ancestrais e foram
herdados por alguns PVs.
Outro grande problema encontrado para a coerente elucidação da filogenia dos PVs é a
amostragem insuficiente dos tipos, subtipos e variantes virais. Enquanto muitos tipos de
HPVs são conhecidos, há uma amostragem insuficiente de PVs não-humanos. Essa falta de
representação pode explicar os baixos valores de bootstrap encontrados nos nós mais internos.
Embora os nossos resultados se assemelhassem aos encontrados por Gottschling et al.
(2007b), que utilizaram outro método de edição de sequências (Castresana, 2000),
conseguimos obtê-los utilizando apenas algumas poucas regiões do genoma, que
apresentaram baixa entropia. Isto significa que conseguimos os mesmos resultados utilizando
menos dados (cerca de 1000 nucleotídeos a menos nas análises com quatro genes),
acarretando em um menor custo computacional. Essa abordagem se torna importante porque
utiliza apenas as regiões mais informativas, tornando-se mais eficiente que o método citado
anteriormente.
Outra vantagem desta abordagem é que a congruência obtida entre as topologias
baseadas nas três partições utilizadas em nosso estudo indicou que é possível reconstruir a
filogenia dos PVs utilizando 4, 5 ou 6 genes concatenados, desde que as regiões mais
79
informativas destes genes sejam utilizadas. A relevância deste processo é que não existe mais
a necessidade de sequenciar o genoma completo de novos tipos de PVs para que eles sejam
incluídos em estudos de filogenômica.
Embora alguns estudos mostraram a eficiência de outros métodos em eliminar regiões
que perturbam o sinal filogenético do conjunto de dados (Castresana, 2000; Talavera e
Castresana, 2007), é importante o desenvolvimento de novas abordagens que aumentem essa
eficiência para tornar a estimativa de grandes filogenias mais acessível.
80
6. Conclusões
Embora os vírus aqui estudados pertençam à mesma família e eles sejam considerados
como sendo de evolução lenta, os tipos de PVs apresentaram grande variabilidade genética.
O viés do uso preferencial de códons pelos PVs contribui para a grande heterogeneidade
de suas sequências genéticas, apesar de não demonstrar o padrão de evolução dos hospedeiros.
A pressão seletiva negativa que incide sobre as proteínas dos PVs é mais um indicativo
da grande variabilidade genômica desses vírus, que tende a mostrar que as mutações não são
adaptativas. Apesar disso, foram identificados sítios sob seleção diversificadora, sugerindo
que estudos mais aprofundados são necessários para o entendimento da função biológica
desses domínios.
Os métodos utilizados neste estudo para detectar e excluir regiões genômicas que
perturbam o sinal filogenético indicaram a presença de vários eventos de recombinação, que
possivelmente ocorreram em vírus ancestrais aos PVs. Além disso, foram identificadas
regiões de baixa entropia que se mostraram necessárias para o estudo das relações evolutivas
destes vírus a partir de um conjunto de dados tão heterogêneo que estão associadas com partes
importantes funcional e estruturalmente de suas proteínas.
A reconstrução da filogenia dos PVs a partir de regiões de baixa entropia foi satisfatória
por obter resultados similares aos estudos anteriores, entretanto utilizando um número
reduzido de dados, ocasionando uma diminuição considerável do tempo computacional gasto
para a realização dos cálculos estatísticos.
A falta de representatividade de alguns tipos de PVs explica a ausência de
confiabilidade nos nós mais internos. Estudos futuros que visem à detecção e sequenciamento
de genomas de novos tipos, subtipos e variantes virais são necessários para o preenchimento
destas lacunas, obtendo assim um cenário mais compreensivo da diversificação dos PVs.
81
7. Referências Bibliográficas
Abascal F, Zardoya R and Posada D (2005) ProtTest: Selection of best-fit models of protein
evolution. Bioinformatics 21:2104-2105.
Akashi H and Gojobori T (2002) Metabolic efficiency and amino acid composition in the
proteomes of Escherichia coli and Bacillus subtilis. Proc Natl Acad Sci USA 99:36953700.
Altschul SF, Gish W, Miller W, Myers EW and Lipman DJ (1990) Basic local alignment
search tool. J Mol Biol 215:403-410.
Andersson SGE and Sharp PM (1996) Codon usage in the Mycobacterium tuberculosis
complex. Microbiol 142:915-925.
Angulo M and Carvajal-Rodriguez A (2007) Evidence of recombination within human alphapapillomavirus. Virol J 4:33-40.
Antonishyn NA, Horsman GB, Kelln RA, Saggar J and Severini A (2008) The impact of the
distribution of human papillomavirus types and associated high-risk lesions in a
colposcopy population for monitoring vaccine efficacy. Arch Pathol Lab Med 132:54-60.
Antonsson A and Hansson BG (2002) Health skin of many animal species harbors
papillomaviruses which are closely related to their human counterparts. J Virol 76:1253712542.
Antonsson A, Erfurt C, Hazard K, Holmgren V, Simon M, Kataoka A, Hossain S, Hakangard
C and Hansson BG (2003) Prevalence and type spectrum of human papillomaviruses in
healthy skin samples collected in three continents. J Gen Virol 84:1881-1886.
Bader D, Moret BM and Vawter L (2001) Industrial applications of high-performance
computing for phylogeny reconstruction. Proc SPIE ITCom 4528:159-168.
Baldauf SL (2003) Phylogeny for the faint of heart: a tutorial. Trends Genet 19:345-351.
82
Bernard HU (2005) The clinical importance of the nomenclature, evolution and taxonomy of
human papillomaviruses. J Clin Virol 32:1-6.
Bernard HU (2006) Phylogeny and taxonomy of papillomaviruses. In: Campo MS (ed)
Papillomavirus Research: From Natural History to Vaccines and Beyond. Caister
Academic Press, Norfolk, pp 11-17.
Bishop B, Dasgupta J, Klein M, Garcea RL, Christensen ND, Zhao R and Chen XS (2007)
Crystal structures of four types of human papillomavirus L1 capsid proteins: understanding
the specificity of neutralizing monoclonal antibodies. J Biol Chem 282:31803-31811.
Boni MF, Posada D and Feldman MW (2007) An exact nonparametric method for inferring
mosaic structure in sequence triplets. Genetics 176:1035-1047.
Bosch FX, Lorincz A, Munoz N, Meier CJLM and Shah KV (2002) The causal relation
between human papillomavirus and cervical cancer. J Clin Pathol 55:244-65.
Bossis I, Roden RBS, Gambhira R, Yang R, Tagaya M, Howley PM and Meneses PI (2005)
Interaction of tSNARE syntaxin 18 with the papillomavirus minor capsid protein mediates
infection. J Virol 79:6723-6731.
Bousarghin L, Touze A, Combita-Rojas A and Coursaget P (2003) Positively charged
sequence of human papillomavirus type 16 capsid proteins are sufficient to mediate gene
transfer into target cells via the heparan sulphate receptor. J Gen Virol 84:157-164.
Bravo IG and Alonso A (2004) Mucosal human papillomaviruses encode four different E5
proteins whose chemistry and phylogeny correlate with malignant or benign growth. J
Virol 78:13613-13626.
Bravo IG and Alonso Á. Phylogeny and evolution of papillomaviruses based on the E1 and
E2 proteins. Virus Genes 34:249-262.
Bryan JT and Brown DR (2001) Transmission of human papillomavirus type 11 infection by
desquamated cornified cells. Virology 281:35-42.
Burd ME (2003) Human papillomavirus and cervical cancer.Clin Microbiol 16:1-17.
83
Caldeira S, de Villiers EM and Tommasino M (2000) Human papillomavirus E7 proteins
stimulate proliferation independently of their ability to associate with retinoblastoma
protein. Oncogene 19:821-6.
Campo MS (2002) Animal models of papillomavirus pathogenesis. Virus Res 89:249-261.
Campo MS (2003) Papillomavirus and disease in humans and animals. Vet Comp Oncology 1:
3-14.
Camps M, Herman A, Loh E and Loeb LA (2007) Genetic constraints on protein evolution.
Crit Rev Biochem Mol Biol 42:313-26.
Carvajal-Rodríguez A (2008) Detecting recombination and diversifying selection in human
alpha-papillomavirus. Infect Genet Evol 8:689-92.
Castellsagué X, Díaz M, de Sanjosé S, Muñoz N, Herrero R, Franceschi S, Peeling RW,
Ashley R, Smith JS, Snijders PJ, et al. (2006) Worldwide human papillomavirus etiology
of cervical adenocarcinoma and its cofactors: implications for screening and prevention. J
Natl Cancer Inst 98:303-15.
Castresana J (2000) Selection of conserved blocks from multiple alignments for their use in
phylogenetic analysis. Mol Biol Evol 17 540-552.
Chambers G, Ellsmore VA, O’Brien PM, Reid SWJ, Love S, Campo MS, Nasir L (2003)
Association of bovine papillomavirus with the equine sarcoid. J Gen Virol 84:1055-1062.
Chan SY, Bernhard HU, Ong CK, Chan SP, Hoffman B and Delius H (1992) Phylogenetic
analysis of 48 papillomavirus types and 28 subtypes and variants: a showcase for the
molecular evolution of DNA viruses. J Virol 66:5714-5725.
Chan SY, Delius H, Halpern AL and Bernard HU (1995) Analysis of genomic sequences of
95 papillomavirus types: uniting typing, phylogeny, and taxonomy. J Virol 69:3074-3083.
Chang F (1990) Role of papillomaviruses. J Clin Pathol 43:269-276.
Chapman EG, Piontkivska H, Walker JM, Stewart DT, Curole JP and Hoeh WR (2008)
Extreme primary and secondary protein structure variability in the chimeric male-
84
transmitted cytochrome c oxidase subunit II protein in freshwater mussels: evidence for an
elevated amino acid substitution rate in the face of domain-specific purifying selection.
BMC Evol Biol 8:165-180.
Chen EY, Howley PM, Levinson AD and Seeburg PH (1982) The primary structure and
genetic organization of the bovine papillomavirus type 1 genome. Nature 299:529- 534.
Chen Z, Terai M, Fu L, Herrero R, DeSalle R and Burk RD (2005) Diversifying selection in
human papillomavirus type 16 lineages based on complete genome analyses. J Virol
79:7014-7023.
Clifford GM, Smith JS, Plummer M, Munoz N and Franceschi S (2003) Human
papillomavirus types in invasive cervical cancer worldwide: a meta-analysis. Br J Cancer
88:63-73.
Cole C, Barber JD and Barton GJ (2008) The Jpred 3 secondary structure prediction server.
Nucleic Acids Res 36:197-201.
Collins AS, Nakahara T, Do A and Lambert PF (2005) Interactions with pocket proteins
contribute to the role of human papillomavirus type 16 E7 in the papillomavirus life cycle.
J Virol 79:14769-14780.
Crooks GE, Hon G, Chandonia JM and Brenner SE (2004) WebLogo: a sequence logo
generator. Genome Res 14:1188-1190.
D’Onofrio G, Mouchiroud D, Aissani B, Gautier C and Bernardi G (1991) Correlations
between the compositional properties of human genes, codon usage, and amino acid
composition of proteins. J Mol Evol 32:504-510.
Danos O, Katinka M and Yaniv M (1982) Human papillomavirus 1a complete DNA sequence:
a novel type of genome organization among Papovaviridae. EMBO J 1:231-236.
Davison AJ, Benko M and Harrach B (2003) Genetic content and evolution of adenoviruses. J
Gen Virol 84:2895-2908.
85
de Araujo Souza PS and Villa LL (2003) Genetic susceptibility to infection with human
papillomavirus and development of cervical cancer in women in Brazil. Mutat Res
544:375-83.
de Villiers EM (1998) Human papillomavirus infections in skin cancer. Biomed Pharmacother
52:26-33.
de Villiers EM, Fauquet C, Broker TR, Bernard HU and zur Hausen H (2004) Classification
of papillomaviruses. Virology 324:17-27.
DeFilippis VR, Ayala FJ and Villarreal LP (2002) Evidence of diversifying selection in
human papillomavirus type 16 E6 but not E7 oncogenes. J Mol Evol 55:491-499.
Dell G and Gaston K (2001) Human papillomaviruses and their role in cervical cancer. Cell
Mol Life Sci 58:1923-1942.
Doorbar J, Parton A, Hartley K, Banks L, Crook T, Stanley M and Crawford L (1990)
Detection of novel splicing patterns in an HPV16-containing keratinocyte cell line.
Virology 178:254-262.
Ellegren H (2008) Comparative genomics and the study of evolution by natural selection. Mol
Ecol 17:4586-96.
Farris JS, Källersjö M, Kluge AG and Bult C (1994) Testing significance of incongruence.
Cladistics 10:315-319.
Felsenstein J (1988) Phylogenies from molecular sequences: inference and reliability. Annu
Rev Genet 22:521-565.
Finnen RL, Erikson KD, Chen XS, Garcea RL (2003) Interactions between papillomavirus L1
and L2 capsid proteins. J Virol 77:4818-4826.
Florin L, Becker KA, Lambert C, Nowak T, Sapp C, Strand D, Streek RE and Sapp M (2006)
Identification of a dynein interacting domain in the papillomavirus minor capsid protein
L2. J Virol 80:6691-6696.
86
Florin L, Sapp C, Streeck RE and Sapp M. (2002) Assembly and translocation of
papillomavirus capsid proteins. J Virol 76:10009-14.
Forslund O, Antonsson A, Nordin P and Hansson BG (1999) A broad range of human
papillomavirus types detected with a general PCR method suitable for analysis of
cutaneous tumours and normal skin. J Gen Virol 80:2437-2443.
Forslund O, Ly H, Reid C and Higgins G (2003) A broad range of human papillomavirus
types are present in skin of Australian patients with non-melanoma skin cancers and solar
keratosis. Br J Dermatol 149:64-73.
Franco EL, Duarte-Franco E and Ferenczy A (2001) Cervical cancer: epidemiology,
prevention and the role of human papillomavirus infection. CMAJ 164:1017-25.
Furth PA and Baker CC (1991) An element in the bovine papillomavirus late 3’ untranslated
region reduces polyadenylated cytoplasmic RNA levels. J Virol 65:5806-5812.
García-Vallvé S, Alonso Á and Bravo IG (2005) Papillomaviruses: different genes have
different histories. Trends Microbiol 13:514-521.
Gibbs MJ, Armstrong JS and Gibbs AJ (2000) Sister-Scanning: a Monte Carlo procedure for
assessing signals in recombinant sequences. Bioinformatics 16:573-582.
Goldman N and Yang Z (1994) A codon-based model of nucleotide substitution for protein
coding DNA sequences. Mol Biol Evol 11:725-736.
Goloboff P (1999) NONA (NO NAME) ver. 2. Published by the author, Tucumán.
Gottschling M, Köhler A, Stockfleth E and Nindl I (2007) Phylogenetic analysis of betapapillomaviruses as inferred from nucleotide and amino acid sequence data. Mol
Phylogenet Evol 42:213-222.
Gottschling M, Stamatakis A, Nindl I, Stockfleth E, Alonso À and Bravo IG (2007) Multiple
evolutionary mechanisms drive papillomavirus diversification. Mol Biol Evol 24:12421258.
87
Guindon S and Gascuel O (2003) A simple, fast, and accurate algorithm to estimate large
phylogenies by maximum likelihood. Syst Biol 52:696-704.
Hall TA (1999) BioEdit: a user-friendly biological sequence alignment editor and analysis
program for Windows 95/98/NT. Nucl Acids Symp Ser 41:95-98.
Hardison RC (2003) Comparative genomics. PLoS Biol 1:156-160.
Hawley-Nelson P, Vousden KH, Hubbert NL, Lowy DR and Schiller JT (1989) HPV16 E6
and E7 proteins cooperate to immortalize human foreskin keratinocytes. EMBO J 8:39053910.
Henikoff S, Henikoff JG, Alford WJ and Pietrokovski S (1995) Automated construction and
graphical presentation of protein blocks from unaligned sequences. Gene 163:17-26.
Herniou EA, Luque T, Chen X, Vlak JM, Winstanley D, Cory JS and O’Reilly DR (2001)
Use of whole genome sequence data to infer baculovirus phylogeny. J Virol 75:8117-8126.
Howley PM and Lowy DR (2001) Papillomaviruses and their replication. In: Knipe DM and
PM (eds) Fields Virology. 4th edition. Howley Lippincot Williams & Wilkins,
Philadelphia, pp 2197-2230.
INCA (2008) Estimativa 2008 - Incidência de Câncer no Brasil. Instituto Nacional do
Câncer/Ministério da Saúde, Rio de Janeiro, 98 pp.
Jablonska S and Majewski S (1994) Epidermodysplasia verruciformis: immunological and
clinical aspects. Curr Top Microbiol Immunol 186:157-75.
Jiang Y, Deng F, Wang H and Hu Z (2008) An extensive analysis on the global codon usage
pattern of baculoviruses. Arch Virol 153:2273-2282.
Joyce JG, Tung JS, Przysiecki CT, Cook JC, Lehman ED, Sands JA, Jansen KU and Keller
PM (1999) The L1 major capsid protein of human papillomavirus type 11 recombinant
virus-like particles interacts with heparin and cell-surface glycosaminoglycans on human
keratinocytes. J Biol Chem 274:5810-5822.
88
Kämper N, Day PM, Nowak T, Selinka HC, Florin L, Bolscher J, Hilbig L, Schiller JT and
Sapp M (2006) A membrane-destabilizing peptide in capsid protein L2 is required for
egress of papillomavirus genomes from endosomes. J Virol 80:759-768.
Kanaya S, Yamada Y, Kinouchi M, Kudo Y and Ikemura T (2001) Codon usage and tRNA
genes in eukaryotes: correlation of codon usage diversity with translation efficiency and
with CG-dinucleotide usage as assessed by multivariate analysis. J Mol Evol 53:290-298.
Kim JT, Martinetz T and Polani D (2003) Bioinformatic principles underlying the information
content of transcription factor binding sites. J Theor Biol 220:529-544.
Krishnamachari A, moy Mandal V and Karmeshu (2004) Study of DNA binding sites using
the Rényi parametric entropy measure. J Theor Biol 227:429-36.
Kunst F, Ogasawara N, Moszer I, Albertini AM, Alloni G, Azevedo V, Bertero MG,
Bessières P, Bolotin A, Borchert S, et al. (1997) The complete genome sequence of the
gram-positive bacterium Bacillus subtilis. Nature 390:249-256.
Lesk A (2008) Introdução à Bioinformática. 2ª edição. Artmed, Porto Alegre, 384 pp.
Liao H, Yeh W, Chiang D, Jernigan RL and Lustig B (2005) Protein sequence entropy is
closely related to packing density and hydrophobicity. Protein Eng Des Sel 18:59-64.
Librado P and Rozas J (2009) DnaSP v5: a software for comprehensive analysis of DNA
polymorphism data. Bioinformatics 25:1451-1452.
Liu X, Clements A, Zhao K and Marmorstein R (2006) Structure of the human papillomavirus
E7 oncoprotein and its mechanism for inactivation of the retinoblastoma tumor suppressor.
J Biol Chem 281:578-586.
Longworth MS and Laiminis LA (2004) Pathogenesis of human papillomaviruses in
differentiating epithelia. Microbiol Mol Biol Rev 68:362-72.
Martin D and Rybicki E (2000) RDP: detection of recombination amongst aligned sequences.
Bioinformatics 16:562-563.
89
Martin DP, Posada D, Crandall KA and Williamson C (2005) A modified bootscan algorithm
for automated identification of recombinant sequences and recombination breakpoints.
AIDS Res Hum Retroviruses 21:98-102.
Martin DP, Williamson C and Posada D (2005) RDP2: recombination detection and analysis
from sequence alignments. Bioinformatics 21:260-262.
Masterson PJ, Stanley MA, Lewis AP and Romanos MA (1998) A C-terminal helicase
domain of the human papillomavirus E1 protein binds E2 and the DNA polymerase alphaprimase p68 subunit. J Virol 72:7407-7419.
Maynard Smith J (1992) Analyzing the mosaic structure of genes. J Mol Evol 34:126-129.
McLaughlin-Drubin ME and Münger K (2009) The human papillomavirus E7 oncoprotein.
Virology 384:335-44.
McMurray HR, Nguyen D, Westbrook TF and Mcance DJ (2001) Biology of human
papillomaviruses. Int J Exp Pathol 82:15-33.
McVean GAT and Vieira J (2001) Inferring parameters of mutation, selection and
demography from patterns of synonymous site evolution in Drosophila. Genetics 157:245257.
Medigue C, Rouxel T, Vigier P, Henaut A and Danchin A (1991) Evidence for horizontal
gene transfer in Escherichia coli speciation. J Mol Biol 222:851-856.
Merkl R (2003) A survey of codon and amino acid frequency bias in microbial genomes
focusing on translational efficiency. J Mol Evol 57:453-466.
Metzker ML, Mindell DP, Liu XM, Ptak RG, Gibbs RA and Hillis DM (2002) Molecular
evidence of HIV-1 transmission in a criminal case. Proc Natl Acad Sci USA 99:1429214297.
Miyamoto MM and Cracraft J (1991) Phylogenetic Analysis of DNA Sequences. 1st edition,
Oxford University Press, New York, 358 pp.
90
Modis Y, Trus BL and Harrison SC (2002) Atomic model of the papillomavirus capsid.
EMBO J 21:4754-4762
Montague MG and Hutchison CA 3rd (2000) Gene content phylogeny of herpesviruses. Proc
Natl Acad Sci USA 97:5334-5339.
Muñoz N, Bosch FX, de Sanjose S, Herrero R, Castellsague X, Shah KV, Snijders PJLM,
Meijer CJF (2003) Epidemiologic classification of human papillomavirus types associated
with cervical cancer. N Engl J Med 348:518-527.
Mutihac R, Cicuttin A and Mutihac RC (2001) Entropic approach to information coding in
DNA molecules. Mater Sci Eng C 18:51-60.
Narisawa-Saito M and Kiyono T (2007) Basic mechanisms of high-risk human
papillomavirus-induced carcinogenesis: roles of E6 and E7 proteins. Cancer Sci 98:150511.
Nei M and Kumar S (2000) Molecular Evolution and Phylogenetics. 1st edition, Oxford
University Press, New York, 333 pp.
Nicholls PK and Stanley MA (2000) The immunology of animal papillomaviruses. Vet
Immunol Immunopathol 73:101-127.
Nielsen R and Yang Z (1998) Likelihood models for detecting positively selected amino acid
sites and applications to the HIV-1 envelope gene. Genetics 148:929-936.
Nixon KC (2002) WinClada ver. 1.0000. Published by the author, Ithaca.
Ogawa T, Tomita Y, Okada M, Shinozaki HK, Kaiho I and Shirasawa H (2004) Broadspectrum detection of papillomaviruses in bovine teat papillomas and healthy teat skin. J
Gen Virol 85:2191-2197.
Okun MM, Day PM, Greenstone HL, Booy FP, Lowy DR, Schiller JT and Roden RB (2001)
L1 interaction domains of papillomavirus L2 necessary for viral genome encapsidation. J
Virol 75:4332-4342.
91
Orth G, Favre M and Croissant O (1977) Characterization of a new type of human
papillomavirus that causes skin warts. J Virol 24:108-120.
Padidam M, Sawyer S and Fauquet CM (1999) Possible emergence of new geminiviruses by
frequent recombination. Virology 265:218-225.
Pilpel Y. and Lancet D (1999) The variable and conserved interfaces of modeled olfactory
receptor proteins. Protein Sci 8:969-977.
Posada D (2002) Evaluation of methods for detecting recombination from DNA sequences:
empirical data. Mol Biol Evol 19:708-717.
Posada D and Crandall KA (1998) MODELTEST: testing the model of DNA substitution.
Bioinformatics 14:817-8.
Posada D and Crandall KA (2001) Evaluation of methods for detecting recombination from
DNA sequences: computer simulations. Proc Natl Acad Sci USA 98:13757-13762.
Pouwels PH and Leunissen JAM (1994) Divergence in codon usage of Lactobacillus species.
Nucleic Acids Res 22:929-936.
Prosdocimi F, Folgueras-Flatschart AV, Cerqueira GC and Binneck E (2003) Bioinformática:
manual do usuário. Biotec Ciênc Desenvol 29:18-31.
Purvis A and Bromham L (1997) Estimating the transition/transversion ratio from
independent pairwise comparisons with an assumed phylogeny. J Mol Evol 44:112-119.
Raj K, Berguerand S, Southern S, Doorbar J and Beard P (2004) E1 empty set E4 protein of
human papillomavirus type 16 associates with mitochondria. J Virol 78:7199-207.
Rector A, Lemey P, Tachezy R, Mostmans S, Ghim SJ, van Doorslaer K, Roelke M, Bush M,
Montali RJ, Joslin J, et al. (2007) Ancient papillomavirus-host co-speciation in Felidae.
Genome Biol 8, R57-68.
Richards RM, Lowy D, Schiller JT and Day PM (2006) Cleavage of the papillomavirus minor
capsid protein, L2, at a furin consensus site is necessary for infection. Proc Natl Acad Sci
USA 103:1522-1527.
92
Roden RBS, Yuty W, Fallon R, Inglis S, Lowy D and Schiller JT (2000) Minor capsid protein
of human genital papillomavirus contains subdominant, cross-neutralizing epitopes.
Virology 270:254-257.
Ronquist F and Huelsenbeck JP (2003) MrBayes 3: Bayesian phylogenetic inference under
mixed models. Bioinformatics 19:1572-1574.
Saitou N and Nei M (1987) The neighbor-joining method: a new method for reconstructing
phylogenetic trees. Mol Biol Evol 4:406-425.
Scapoli C, de Lorenzi S, Salvatorelli G and Barrai I (2007) Amino acid and codon use: in two
influenza viruses and three hosts. Med Mal Infect 37:337-42.
Schmidt HA, Strimmer K, Vingron M and von Haeseler A (2002) TREE-PUZZLE: maximum
likelihood phylogenetic analysis using quartets and parallel computing. Bioinformatics
18:502-504.
Schneider TD, Stormo GD, Gold L and Ehrenfeucht A (1986) Information content of binding
sites on nucleotide sequences. J Mol Biol 188:415-431.
Schubert AM, Putonti C (2008) Evolution of the sequence composition of flaviviruses:
infection, genetics and evolution. Infect Genet Evol, Epub ahead of print.
Schulz E, Gottschling M, Bravo IG, Wittstatt U, Stockfleth E and Nindl I (2009) Genomic
characterization of the first insectivoran papillomavirus reveals an unusually long, second
non-coding region and indicates a close relationship to Betapapillomavirus. J Gen Virol
90:626-33.
Schwarz E, Dürst M, Demankowski O, Lattermann R, Zech E, Wolfsberger S, Suhai S and
zur Hausen H (1983) DNA sequence and genome organization of genital human
papillomavirus type 6b. EMBO J 2:2341-2348.
Seedorf K, Krämmer G, Dürst M, Suhai S and Röwekamp WG (1985) Human papillomavirus
type 16 DNA sequence. Virology 145:181-185.
93
Shah KV and Howley PM (1996) Papillomaviruses. In: Fields BN, Knipes DM and Howley
PM (eds) Virology. Raven Press, New York, pp 2077-2109.
Slomovitz BM, Sun CC, Frumovitz M, Soliman PT, Schmeler KM, Pearson HC, Berenson A,
Ramirez PT, Lu KH and Bodurka DC (2006) Are women ready for the HPV vaccine?
Gynecol Oncol 103:151-4.
Snel B, Bork P and Huynen MA (1999) Genome phylogeny based on gene content. Nat Genet
21:108-110.
Strimmer K and von Haeseler A (1997) Likelihood-mapping: A simple method to visualize
phylogenetic content of a sequence alignment. Proc Natl Acad Sci USA 94:6815-6819.
Sueoka N (1988) Directional mutation pressure and neutral molecular evolution. Proc Natl
Acad Sci USA 85:2653-2657.
Sul SJ, Matthews S and Williams TL (2009) Using tree diversity to compare phylogenetic
heuristics. BMC Bioinformatics 10 Suppl 4:S3.
Sundberg JP and Reichmann ME (1993) Papillomavirus Infection. In: Jones TC, Mohr V,
Hunt RD (eds) Nonhuman Primates II. Springer Verlag, Berlin, pp 1-8.
Supek F and Vlahovicek K (2004) INCA: synonymous codon usage analysis and clustering
by means of self-organizing map. Bioinformatics 20:2329-30.
Swofford DL (2002) PAUP*: Phylogenetic Analysis Using Parsimony (*and Other Methods).
Sinauer Associates, Sunderland.
Talavera G and Castresana J (2007) Improvement of phylogenies after removing divergent
and ambiguously aligned blocks from protein sequence alignments. Syst Biol 56, 564-577.
Tamura K, Dudley J, Nei M and Kumar S (2007) MEGA4: Molecular Evolutionary Genetics
Analysis (MEGA) software version 4.0. Mol Biol Evol 24:1596-1599.
Tao P, Dai L, Luo M, Tang F, Tien P and Pan Z (2009) Analysis of synonymous codon usage
in classical swine fever virus. Virus Genes 38:104-112.
94
Thompson JD, Higgins DG and Gibson TJ (1994) CLUSTAL W: improving the sensitivity of
progressive multiple sequence alignment through sequence weighting, position-specific
gap penalties and weight matrix choice. Nucleic Acids Res 22:4673-4680.
Tyring SK (2000) Human papillomavirus infections: epidemiology, pathogenesis, and host
immune response. J Am Acad Dermatol 43:18-26.
Valdar WSJ (2002) Scoring residue conservation. Proteins Struct Funct Genet 43:227-241.
Van Ranst M, Fuse A, Fiten P, Beuken E, Pfister H, Burk RD and Opdenakker G (1992)
Human papillomavirus type 13 and pygmy chimpanzee papillomavirus type 1: comparison
of the genome organizations. Virology 190:587-596.
Varsani A, van der Walt E, Heath L, Rybicki EP, Williamson AL and Martin DP (2006)
Evidence of ancient papillomavirus recombination. J Gen Virol 87:2527-2531.
Varsani A, van der Walt E, Heath L, Rybicki EP, Williamson AL and Martin DP (2006)
Evidence of ancient papillomavirus recombination. J Gen Virol 87:2527-2531.
Wakabayashi MT, da Silva DM, Potkul RK, Kast WM (2002) Comparison of human
papillomavirus type 16 L1 chimeric virus-like particles versus L1/L2 chimeric virus-like
particles in tumor prevention. Intervirology 45:300-307.
Wang KL (2007) Human papillomavirus and vaccination in cervical cancer. Taiwan J Obstet
Gynecol 46:352-62.
Wilson VG, West M, Woytek K, Rangasamy D (2002) Papillomavirus E1 proteins: form,
function, and features. Virus Genes 24:275-290.
Worth CL, Gong S and Blundell TL (2009) Structural and functional constraints in the
evolution of protein families. Nat Rev Mol Cell Biol 10:709-20.
Xia X and Xie Z (2001) DAMBE: data analysis in molecular biology and evolution. J Hered
92:371-373.
Xing K, Deng R, Wang J, Feng J, Huang M and Wang X (2006) Genome-based phylogeny of
poxvirus. Intervirology 49:207-214.
95
Yang YC, Spalholz BA, Rabson MS and Howley PM (1985) Dissociation of transforming
and trans-activation functions for bovine papillomavirus type 1. Nature 318:575-577.
Yang Z (2007) PAML 4: a program package for phylogenetic analysis by maximum
likelihood. Mol Biol Evol 24:1586-1591.
Yang Z and Yoder A (1999) Estimation of the transition/transversion rate bias and species
sampling. J Mol Evol 48:274-283.
Yang Z, Nielsen R, Goldman N and Pedersen AM (2000) Codon-substitution models for
heterogeneous selection pressure at amino acid sites. Genetics 155:431-449.
Yang Z, Wong WSW and Nielsen R (2005) Bayes empirical Bayes inference of amino acid
sites under positive selection. Mol Biol Evol 22:1107-1118.
Yu U, Lee SH, Kim YJ and Kim S (2004) Bioinformatics in the post-genome era. J Biochem
Mol Biol 37:75-82.
Zhao KN, Liu WJ and Frazer IH (2003) Codon usage bias and A+T content variation in
human papillomavirus genomes. Virus Res 98:95-104.
Zou J and Saven JG (2000) Statistical theory of combinatorial libraries of folding proteins:
energetic discrimination of a target structure. J Mol Biol 296:281-294.
zur Hausen H (1996) Papillomavirus infections - a major cause of human cancers. Biochim
Biophys Acta 1288:55-78.
zur Hausen H (2000) Papillomaviruses causing cancer: evasion from host-cell control in early
events in carcinogenesis. J Natl Cancer Inst 92:690-698.
Fontes da Internet:
DendroUPGMA, http://genomes.urv.cat/UPGMA (August 12, 2009)
GenomeBlast Software, http://bioinfo-srv1.awh.unomaha.edu/genomeblast (August 24, 2009)
International Agency for Research on Cancer (IARC), http://www-dep.iarc.fr (June 14, 2009)
96
Kazusa DataBase, http://www.kazusa.or.jp/codon (June 5, 2009)
Medscape, www.medscape.com (May 27, 2009)
National Center for Biotechnology Information (NCBI), http://www.ncbi.nlm.nih.gov
(August 4, 2008)
Polydot Tool, http://vm-bioinfo.toulouse.inra.fr/emboss/emboss.cgi/help/polydot (August 17,
2009)
97
8. Anexos
8.1. Figuras referentes às análises de logos de sequência dos genes dos PVs.
E1
E2
E4
98
E5
E6
E7
99
L1
L2
100
8.2. Figuras referentes às análises de logos de sequência das proteínas dos
PVs.
E1
E2
E4
101
E7
E6
E5
L1
L2
102
8.3. Árvores filogenéticas de Máxima Verossimilhança dos PVs baseadas
nas sequências de nucleotídeos e nucleotídeos sem a terceira posição dos
códons, da esquerda para a direita respectivamente. a) análise com a
partição E6-E7-E1-E2-L2-L1, b) análise com a partição E6-E1-E2-L2-L1, c)
análise com a partição E1-E2-L2-L1. Os valores de suporte dos ramos estão
representados (acima: NJ/MP, abaixo: ML/Probabilidades Bayesianas).
Incongruências nas topologias e valores de bootstrap abaixo de 50% não
estão representadas.
a)
103
b)
104
c)
105
8.4. Lista de trabalhos apresentados em congressos, prêmios recebidos e
outras atividades relevantes durante o mestrado.
BATISTA, M.V.A. ; FERREIRA, T.A.E. ; FREITAS, A.C. ; BALBINO, V.Q. Genetic
diversity and phylogenetic relationships of Papillomavirus based on low entropy genome
regions. In: 5th International Conference of the Brazilian Association for Bioinformatics and
Computational Biology, 2009.
MEDEIROS, S. ; BARRETO, R.V. ; BATISTA, M.V.A. ; CUNHA, W. ; GOMES, R. ;
LIMA, T.L. ; SILVA, L ; MAURÍCIO-DA-SILVA, L. ; FERREIRA, T. ; BALBINO, V.Q.
Sandfly Database: development of an integrated platform of biological and molecular data of
sandflies of medical and veterinary importance (Diptera: Psychodidae). In: 5th International
Conference of the Brazilian Association for Bioinformatics and Computational Biology, 2009.
FREITAS, N. ; FERREIRA, T.E. ; SENA-JÚNIOR, M. ; BATISTA, M.V.A. ; COSTAJÚNIOR, C. ; LEAL-BALBINO, T. C. ; ALMEIDA, A.M.P. ; BALBINO, V.Q. Evolution of
the high-pathogenicity island in Yersiniae. In: 5th International Conference of the Brazilian
Association for Bioinformatics and Computational Biology, 2009.
CARVALHO, C.C.R. ; BATISTA, M.V.A. ; SILVA, M.A.R. ; BALBINO, V.Q. ; FREITAS,
A.C. Evaluation of the presence of low frequent Bovine Papillomavirus types (8, 9 and 10) in
Pernambuco state by PCR and sequencing assays. In: XX Encontro Nacional de Virologia,
2009.
BATISTA, M.V.A. ; FERREIRA, T.A.E. ; FREITAS, A.C. ; BALBINO, V.Q. Computational
analysis of the genetic variability of Papillomaviridae family members seeking to increase the
knowledge about their evolution and diversification. In: 25º Congresso Brasileiro de
Microbiologia, 2009.
BATISTA, M.V.A. ; FERREIRA, T.A.E. ; FREITAS, A.C. ; BALBINO, V.Q. Novel
approaches for primers and probes design determined by in silico entropy analysis of the
genetic variability of Influenza A virus subtype H1N1. In: 25º Congresso Brasileiro de
Microbiologia, 2009.
Carvalho, C.C.R. ; BATISTA, M.V.A. ; BALBINO, V.Q. ; FREITAS, A.C. Identificação da
presença de Papilomavírus tipos 8, 9 e 10 e confirmação de um provável novo tipo de BPV
em amostras de gado de Pernambuco. In: 25º Congresso Brasileiro de Microbiologia, 2009.
Tenório, K.E.R. ; Oliveira, A.P.A. ; Figueirêdo Júnior, C.A.S. ; BATISTA, M.V.A. ; LIMA,
T.L.D. ; BALBINO, V. Q. Análise do genoma mitocondrial de duas espécies de
flebotomíneos epidemiologicamente importantes (Diptera: Psychodidae). In: 54º Congresso
Brasileiro de Genética, 2008.
Figueirêdo Júnior, C.A.S. ; ALECRIM, F.M. ; BATISTA, M.V.A. ; CARDOSO, M.V. ;
CUNHA, W.L. ; FREITAS, N.S.A. ; Tenório, K.E.R. ; BALBINO, V. Q. ; ALMEIDA,
A.M.P. Avaliação da sintenia e dos padrões de utilização de códons sinônimos dos genes da
ilha de alta patogenicidade de Yersinia pestis. In: 54º Congresso Brasileiro de Genética, 2008.
106
BATISTA, M.V.A. ; ALECRIM, F.M. ; CARDOSO, M.V. ; CUNHA, W.L. ; Figueirêdo
Júnior, C.A.S. ; FREITAS, A. C. ; BALBINO, V. Q. Establishment and evaluation of
degenerate and type-specific primers for detection and typing of Bovine Papillomavirus
(BPV). In: 54º Congresso Brasileiro de Genética, 2008.
ALECRIM, F.M. ; BATISTA, M.V.A. ; CARDOSO, M.V. ; COSTA-JÚNIOR, C.R.L. ;
CUNHA, W.L. ; Figueirêdo Júnior, C.A.S. ; PITA, W.B. ; BALBINO, V. Q. ; MORAIS
JÚNIOR, M.A. Bioinformatics analysis determined for design primers to the mitochondrial
genome of the yeast Dekkera bruxellensis. In: 54º Congresso Brasileiro de Genética, 2008.
CARDOSO, M.V. ; ALECRIM, F.M. ; BATISTA, M.V.A. ; COSTA-JÚNIOR, C.R.L. ;
Figueirêdo Júnior, C.A.S. ; Tenório, K.E.R. ; BALBINO, V. Q. ; MORAIS JÚNIOR, M.A.
Otimização da extração de DNA mitocondrial de Dekkera Bruxellensis. In: 54º Congresso
Brasileiro de Genética, 2008.
CUNHA, W.L. ; ALECRIM, F.M. ; BATISTA, M.V.A. ; CARDOSO, M.V. ; Figueirêdo
Júnior, C.A.S. ; Oliveira, A.P.A. ; BALBINO, V. Q. Desenho e avaliação de primers
degenerados para o gene da tripsina de Colossoma macropomum (Tambaqui). In: 54º
Congresso Brasileiro de Genética, 2008.
Menção honrosa pela participação no Prêmio Pós-Graduação, Sociedade Brasileira de
Genética, 2008.
BATISTA, M.V.A. Aplicação da Bioinformática em Estudos da Diversidade e Evolução Viral.
II Simpósio Sergipano de Microbiologia, 2008. (Apresentação palestra).
BATISTA, M.V.A. Introdução à Bioinformática. II Simpósio Sergipano de Microbiologia,
2008. (Curso de curta duração ministrado).
BATISTA, M.V.A. Bioinformática Básica. VII Semana de Biologia da UFRPE, 2008. (Curso
de curta duração ministrado).
107
9. Memorial do(a) aluno(a)
Eu, Marcus Vinicius de Aragão Batista, nasci no dia 22 de Setembro de 1983 e meu
endereço de e-mail é [email protected]. Ingressei na graduação em 2002 no
curso de Ciências Biológicas na Universidade Federal de Sergipe e colei grau em 23 de Março
de 2007. Durante o curso de graduação, estagiei no Laboratório de Zooplâncton por seis
meses, enquanto estava no segundo período. A partir do terceiro período fui trabalhar no
Laboratório de Virologia Comparada, onde fui bolsista de iniciação científica por dois anos e
meio, atuando na área de desenvolvimento de novas biotecnologias aplicadas à Virologia e
Bacteriologia, principalmente enterobactérias (Salmonella) e picornavírus (vírus da hepatite
A). Assim, terminei o curso com experiência na área de Genética, com ênfase em Genética de
Microrganismos, tendo como produto alguns resumos publicados em Congressos, um artigo
publicado em periódico e ainda a experiência de organizar alguns eventos científicos. Ao final
do curso, conheci a área da Bioinformática, que despertou muito interesse em mim, o que me
levou a fazer Mestrado em Genética e Biologia Molecular na área de Bioinformática no
Programa de Pós-Graduação em Genética e Biologia Molecular da Universidade Federal de
Pernambuco. Durante o Mestrado obtive experiência em várias áreas da Bioinformática, como
Genômica Comparativa, Funcional e Estrutural; Filogenia Molecular; Modelagem Molecular;
Genética de Populações. As áreas da Biologia que tenho mais interesse são aquelas que
utilizam as diversas aplicações da Bioinformática e da Genética Molecular no estudo dos
vírus, principalmente os Papilomavírus. Também durante o Mestrado tive a oportunidade de ir
a vários eventos científicos; realizar um estágio em um laboratório fora do estado de
Pernambuco; e também ministrar aulas, cursos de curta duração e palestras. Tudo isso foi
bastante importante para a minha formação acadêmica, que com certeza não parará por aí.
108
Download