DIOGO CASTRO DOS SANTOS Simulação Computacional e Análise de um Modelo Fenotípico de Evolução Viral Dissertação apresentada à Disciplina de Infectologia da Universidade Federal de São Paulo, UNIFESP, para obtenção do título de Mestre em Ciências. São Paulo 2011 DIOGO CASTRO DOS SANTOS Simulação Computacional e Análise de um Modelo Fenotípico de Evolução Viral Dissertação apresentada à Disciplina de Infectologia da Universidade Federal de São Paulo, UNIFESP, para obtenção do título de Mestre em Ciências. Área de concentração: Infectologia Orientador: Prof. Dr. Luiz Mário Ramos Janini Co-orientador: Prof. Dr. Francisco de Assis Ribas Bosco São Paulo 2011 Santos, Diogo Castro dos Simulação Computacional e Análise de um Modelo Fenotípico de Evolução Viral / Diogo Castro – São Paulo, 2011. xvii, 152f Dissertação (Mestrado) – Universidade Federal de São Paulo, UNIFESP. Programa de Pós-Graduação em Infectologia. Título em inglês: Computer Simulation and Analysis of a Phenotypic Model of Viral Evolution. 1. Evolução viral. 2. Simulação computacional. 3. Quasispecies. 4. Processos de ramificação. UNIVERSIDADE FEDERAL DE SÃO PAULO DISCIPLINA DE INFECTOLOGIA Chefe do Departamento: Prof. Dr. Ângelo Amato Vicenzo de Paola. Chefe da Disciplina de Infectologia: Prof. Dr. Eduardo Alexandrino Sérvolo de Medeiros. Coordenador do Curso de Pós-graduação: Prof. Dr. Ricardo Sobhie Diaz. Este trabalho foi realizado na Disciplina de Infectologia, Departamento de Medicina da Universidade Federal de São Paulo, UNIFESP. Aprovado pelo Comitê de Ética em Pesquisa da UNIFESP (CEP 0606/09). DIOGO CASTRO DOS SANTOS Simulação Computacional e Análise de um Modelo Fenotípico de Evolução Viral Presidente da Banca: Prof. Dr. Luiz Mário Ramos Janini BANCA EXAMINADORA Prof. Dr. Alexandre Ferreira Ramos Prof. Dr. Fernando Martins Antoneli Junior Profa. Dra. Isabel Maria Vicente Guedes de Carvalho Mello Prof. Dr. Marcelo Ribeiro da Silva Briones DEDICATÓRIA Aos milhões de brasileiros que contribuíram com o trabalho, suor e - não raramente, o próprio sangue – para a fundação e manutenção das universidades públicas brasileiras, mesmo sendo eles e seus filhos impedidos de acessá-las. Aos demais brasileiros cujo silêncio e inação permitem a contínua institucionalização das desigualdades humanas. AGRADECIMENTOS Ao professor Mário pela oportunidade, apoio, orientação, e aulas particulares (discussões). Ao professor Bosco pelos conselhos, orientação, e por me lembrar do gosto das ciências exatas. Ao professor Fernando pelo apoio com a matemática e discussões. Ao Jean, Marcos e Wagner pela vital contribuição além-academia. ―A esperança é de que, distantes da pantomima do poder, os sonhos não tenham morrido. Como na estória da Bela Adormecida, eles dormem, mais profundos que pesadelos do cotidiano. E um dia acordarão. E o povo, possuído pela sua beleza esquecida, se transformará em guerreiro e se dedicará à única tarefa que vale a pena, que é a de transformar os sonhos em realidade. Essa é a única política que me fascina. Como o Guimarães Rosa, vivo na esperança da ressurreição dos mortos.‖ Rubem Alves RESUMO Uma grande quantidade dos vírus de importância médica, como o HIV, o vírus sincicial respiratório, o vírus da hepatite C, o vírus influenza A (H1N1), e o vírus da poliomielite, possui genoma RNA. Estes vírus apresentam taxas mutacionais extremamente altas, rápida cinética replicativa, população numerosa de partículas, e grande diversidade genética. Manifestas durante o processo infeccioso, tais características permitem a população viral adaptar-se rapidamente a ambientes dinâmicos, escapar ao sistema imunológico, desenvolver resistência às vacinas e drogas antivirais, e exibir dinâmica evolutiva complexa cuja compreensão representa um desafio para a genética de populações tradicional e para as estratégias de intervenção terapêutica efetiva. Para descrever biológica e matematicamente a evolução dos vírus RNA, modelos teóricos de evolução viral têm sido propostos, e muitas de suas predições foram confirmadas experimentalmente. O presente trabalho teve como objetivo simular computacionalmente e analisar um modelo de evolução viral que represente relações evolutivas existentes entre a população viral de genoma RNA e as diferentes pressões seletivas exercidas sobre ela na sua interação com o organismo hospedeiro. Também objetivou desenvolver um software de simulação computacional personalizado para o modelo de evolução viral, e demonstrar a possibilidade de descrever o modelo como um processo de ramificação de Galton-Watson. Entre os resultados e discussões delineados, encontram-se um critério analítico para estudo do tempo de recuperação e do regime crítico de um processo de ramificação de GaltonWatson aplicado à evolução viral; predições sobre a correlação entre fatores do organismo hospedeiro e a dinâmica evolutiva da população viral; predições sobre a contribuição da taxa mutacional, do tamanho e da capacidade replicativa máxima da população viral para o prognóstico e quatro fases da infecção: o tempo de recuperação, o equilíbrio mutação-seleção, o limiar da extinção, e a mutagênese letal. Palavras-chave: evolução viral, simulação computacional, quasispecies, processos de ramificação. ABSTRACT A large amount of viruses of medical importance such as HIV, respiratory syncytial virus, the hepatitis C virus, influenza A (H1N1) and polio virus, has RNA genome. These viruses exhibit extremely high mutational rate, fast replicative kinetics, large population of particles and high genetic diversity. Manifested during the infectious process, these features allow the virus population to adapt quickly to dynamic environments, escape from the immune system, develop resistance to vaccines and antiviral drugs, and display complex evolutionary dynamics whose understanding represents a challenge to the traditional population genetics and for effective therapeutic intervention strategies. To describe mathematically and biological evolution of RNA viruses, theoretical models of virus evolution have been proposed, and many of their predictions were experimentally confirmed. This study aimed to simulate and analyze computationally a model of viral evolution that represents evolutionary relationships between the population of viral RNA genome and the different selective pressures on it in its interaction with the host organism. It also aimed to develop computational simulation software for the viral evolution model, and demonstrate the possibility of describing the model as a Galton-Watson branching process. Among the results and discussions outlined, there are an analytical criterion to study the recovery time and the critical regime of a Galton-Watson branching process applied to viral evolution; predictions about the correlation between factors of the host organism and the evolutionary dynamics of viral population; predictions about the contribution of mutational rate, the size and maximum replicative capacity of viral population for the prognosis and four stages of infection: recovery time, mutation-selection equilibrium, extinction threshold, and lethal mutagenesis. Key words: viral evolution, computer simulation, quasispecies, branching processes. SUMÁRIO 1. INTRODUÇÃO .................................................................................................................... 1 1.1 Teoria Evolutiva de Quasispecies Virais ...................................................................................................... 1 1.1.1 Taxa Mutacional e Paisagem Adaptativa ............................................................................................. 4 1.1.2 Fitness................................................................................................................................................................. 8 1.1.3 Erro Catástrofe ............................................................................................................................................... 9 1.1.4 Mutagênese Letal ....................................................................................................................................... 11 1.2 Processo de Ramificação de Galton-Watson ........................................................................................... 14 1.2.1 Descrição Matemática .............................................................................................................................. 17 1.3 Simulação Computacional Aplicada à Evolução Biológica................................................................. 19 1.3.1 Softwares de Simulação ........................................................................................................................... 24 2. OBJETIVOS ....................................................................................................................... 31 3. METODOLOGIA............................................................................................................... 32 3.1 Modelo Fenotípico de Evolução Viral ......................................................................................................... 32 3.1.1 Fenômenos Biológicos Modelados ...................................................................................................... 36 3.1.2 Adaptações ao Modelo Fenotípico ...................................................................................................... 39 3.2 Software de Simulação Computacional ..................................................................................................... 41 3.2.1 Interface de Comunicação com o Usuário ........................................................................................ 42 3.2.2 Algoritmo para Implantação do Modelo ........................................................................................... 45 3.2.3 Validação do Algoritmo ........................................................................................................................... 46 3.2.4 Ferramentas Utilizadas............................................................................................................................ 48 4. RESULTADOS E DISCUSSÃO ....................................................................................... 49 4.1 Processo de Ramificação de Galton-Watson ........................................................................................... 49 4.2 Simulação Computacional ............................................................................................................................... 63 4.2.1 Tempo de Recuperação ........................................................................................................................... 65 4.2.2 Equilíbrio Mutação-Seleção ................................................................................................................... 70 4.2.3 Limiar da Extinção ..................................................................................................................................... 74 4.2.4 Mutagênese Letal ....................................................................................................................................... 75 5. CONCLUSÕES................................................................................................................... 78 5.1 Novas Contribuições.......................................................................................................................................... 78 5.2 Perspectivas Futuras ......................................................................................................................................... 78 REFERÊNCIAS ..................................................................................................................... 81 APÊNDICE A – Interface de Comunicação com o Usuário ............................................... 96 APÊNDICE B – Gráficos ..................................................................................................... 101 APÊNDICE C - Principais Arquivos do Código Fonte ..................................................... 130 LISTA DE ILUSTRAÇÕES Ilustração 1 - Descrição esquemática de uma população quasispecie viral ............................... 4 Ilustração 2 - Taxas mutacionais e a complexidade genômica de entidades replicantes ........... 5 Ilustração 3 - Representação de uma paisagem adaptativa......................................................... 7 Ilustração 4 – Processos de ramificação geral e clássico.......................................................... 16 Ilustração 5 - Componentes do hardware virtual Avida ........................................................... 27 Ilustração 6 - Exemplo do código de um organismo digital na linguagem genética Avida ..... 29 Ilustração 7 - Procedimento realizado por um organismo digital ao se reproduzir .................. 29 LISTA DE FIGURAS Figura 1 - Grafos das matrizes médias. .................................................................................... 54 Figura 2 - Interface de comunicação com o usuário: campos para definição dos dados de entrada. ..................................................................................................................................... 96 Figura 3 - Interface de comunicação com o usuário: gráfico da progênie por geração. ........... 97 Figura 4 - Interface de comunicação com o usuário: histograma das classes reprodutivas. .... 97 Figura 5 - Interface de comunicação com o usuário: gráfico diversidade fenotípica por geração ...................................................................................................................................... 98 Figura 6 - Interface de comunicação com o usuário: gráfico taxa replicativa média por geração ...................................................................................................................................... 98 Figura 7 - Interface de comunicação com o usuário: dados de saída. ...................................... 99 Figura 8 - Interface de comunicação com o usuário: gráfico entropia por geração. ............... 99 Figura 9 - Interface de comunicação com o usuário: navegação pelo histórico da simulação em forma de vídeo. ................................................................................................................. 100 Figura 10 – Interface de comunicação como usuário: definição do diretório e do nome do arquivo para salvar os dados de saída. .................................................................................... 100 Figura 11 – Variação da frequência relativa de partículas em cada classe replicativa durante o tempo de recuperação. ............................................................................................................ 101 Figura 12 – Tempo de recuperação e probabilidade mutacional deletéria. ............................ 102 Figura 13 – Tempo de recuperação e probabilidade mutacional benéfica. ............................ 102 Figura 14 – Tempo de recuperação e variação nas probabilidades mutacionais deletéria e benéfica................................................................................................................................... 103 Figura 15 - Tempo de Recuperação e capacidade replicativa máxima instantânea da população inicial. ..................................................................................................................................... 103 Figura 16 - Tempo de recuperação e tamanho da população inicial ...................................... 104 Figura 17 - Diversidade fenotípica da população durante o tempo de recuperação ............... 105 Figura 18 - Aumento da diversidade fenotípica da população durante o tempo de recuperação, e queda nas gerações anteriores ao equilíbrio mutação-seleção ............................................. 105 Figura 19 - Diversidade fenotípica e capacidade replicativa máxima instantânea da população inicial durante o tempo de recuperação. ................................................................................. 106 Figura 20 - Diminuição da diversidade fenotípica durante o tempo de recuperação ............. 106 Figura 21 - Diversidade fenotípica e probabilidade mutacional deletéria durante o tempo de recuperação ............................................................................................................................. 107 Figura 22 - Diversidade fenotípica e probabilidade mutacional benéfica durante o tempo de recuperação ............................................................................................................................. 107 Figura 23 - Diversidade fenotípica e tamanho da população inicial durante o tempo de recuperação ............................................................................................................................. 108 Figura 24 - Queda da taxa replicativa média nas primeiras gerações após o bottleneck ....... 108 Figura 25 - Taxa replicativa média e probabilidade mutacional deletéria durante o tempo de recuperação ............................................................................................................................. 109 Figura 26 - Taxa replicativa média e probabilidade mutacional benéfica durante o tempo de recuperação ............................................................................................................................. 109 Figura 27 – Taxa replicativa média e capacidade replicativa máxima instantânea da população inicial durante o tempo de recuperação. ................................................................................. 110 Figura 28 - Taxa replicativa média e tamanho da populacional inicial durante o tempo de recuperação ............................................................................................................................. 110 Figura 29 - Curva da progênie por geração em forma de degraus. ....................................... 111 Figura 30 - Curva da progênie por geração em forma de degraus. ........................................ 111 Figura 31 - Curva da taxa replicativa média por geração em forma de degraus .................... 112 Figura 32 - Curva da diversidade fenotípica por geração em forma de degraus .................... 112 Figura 33 - Histogramas e estabilidade típicos das classes replicativas no equilíbrio mutaçãoseleção .................................................................................................................................... 113 Figura 34 - Diversidade fenotípica e probabilidades mutacionais deletéria e benéfica durante o equilíbrio mutação-seleção ..................................................................................................... 114 Figura 35 - Diversidade fenotípica e probabilidade mutacional benéfica durante o equilíbrio mutação-seleção...................................................................................................................... 115 Figura 36 - Diversidade fenotípica e neutralidade durante o equilíbrio mutação-seleção ..... 115 Figura 37 - Diversidade fenotípico e probabilidade mutacional deletéria durante o equilíbrio mutação-seleção...................................................................................................................... 116 Figura 38 - Diversidade fenotípica e capacidade replicativa máxima instantânea da população inicial durante o equilíbrio mutação-seleção .......................................................................... 116 Figura 39 - Diversidade fenotípica e tamanho da população inicial durante o equilíbrio mutação-seleção...................................................................................................................... 117 Figura 40 – Estabilidade típica do tamanho da progênie durante o equilíbrio mutação seleção (platô da curva) ....................................................................................................................... 117 Figura 41 - Taxa replicativa média e probabilidades mutacionais deletéria e benéfica durante o equilíbrio mutação-seleção ..................................................................................................... 118 Figura 42 – Taxa replicativa média e probabilidade mutacional deletéria durante o equilíbrio mutação-seleção...................................................................................................................... 119 Figura 43 - Taxa replicativa média e probabilidade mutacional benéfica durante o equilíbrio mutação-seleção...................................................................................................................... 119 Figura 44 - Taxa replicativa média da população e capacidade replicativa máxima instantânea da população inicial durante o equilíbrio mutação-seleção. ................................................... 120 Figura 45 - Taxa replicativa média e tamanho da população inicial durante o equilíbrio mutação-seleção...................................................................................................................... 120 Figura 46 - Progênie e probabilidade mutacionais deletéria e benéfica durante o equilíbrio mutação-seleção...................................................................................................................... 121 Figura 47 - Progênie e capacidade replicativa máxima instantânea da população inicial durante o equilíbrio mutação-seleção ..................................................................................... 122 Figura 48 - Progênie e tamanho da população inicial durante o equilíbrio mutação-seleção.122 Figura 49 – Histograma das classes replicativas com a classe replicativa Rmax sendo a mais representada ............................................................................................................................ 123 Figura 50 – Variação do tamanho da progênie durante o limiar da extinção ......................... 123 Figura 51 - Diversidade fenotípica durante o limiar da extinção .......................................... 124 Figura 52 – Taxa replicativa média durante o limiar da extinção. ........................................ 124 Figura 53 – Extinção súbita durante o limiar da extinção ...................................................... 125 Figura 54 – Extinção súbita durante o limiar da extinção ...................................................... 125 Figura 55 - Histogramas típicos da extinção. ......................................................................... 126 Figura 56 - Diversidade fenotípica durante a extinção ........................................................... 127 Figura 57 – Taxa replicativa média durante a extinção .......................................................... 127 Figura 58 – Tamanho da progênie durante a extinção............................................................ 128 Figura 59 - Probabilidade mutacional deletéria mínima para extinção e Rmax da população inicial ...................................................................................................................................... 128 Figura 60 - Tamanho da população inicial e ciclos replicativos necessários para a extinção da população ocorrer. .................................................................................................................. 129 1. INTRODUÇÃO Em consonância com os objetivos do presente trabalho, neste capítulo apresenta-se uma revisão dos conceitos de evolução viral aplicados aos vírus RNA (tópico 1.1), de uma ferramenta matemática usada para a descrição de populações em processo de replicação (tópico 1.2), e de conceitos de simulação computacional aplicados à evolução biológica (tópico 1.3). 1.1 Teoria Evolutiva de Quasispecies Virais Uma grande quantidade dos vírus de importância médica, como o HIV, o vírus sincicial respiratório, o vírus da hepatite C, o vírus influenza A (H1N1), e o vírus da poliomielite, possui genoma RNA [1-3]. Estes vírus apresentam taxas mutacionais extremamente altas, rápida cinética replicativa, população numerosa de partículas, e grande diversidade genética [1]. Manifestas durante o processo infeccioso, tais características permitem a população viral adaptar-se rapidamente a ambientes dinâmicos, escapar ao sistema imunológico, desenvolver resistência às vacinas e drogas antivirais, e exibir dinâmica evolutiva complexa cuja compreensão representa um desafio para a genética de populações tradicional e para as estratégias de intervenção terapêutica efetiva [1, 3, 6-10]. Para descrever biológica e matematicamente a evolução dos vírus RNA, a teoria de quasispecies tem sido amplamente usada, e muitas de suas predições foram validadas experimentalmente [3-5]. Ela foi formulada originalmente por Manfred Eigen, em 1971, e desenvolvida por Eigen e Peter Schuster para explicar a dinâmica molecular da origem da vida [2, 81]. Eigen teorizou que as primeiras entidades vivas, constituídas por moléculas idênticas ou semelhantes aos RNAs, replicavam-se por meio de processos quimicamente catalisados, e evoluíam devido à incorporação contínua de erros durante a replicação. Este mecanismo replicativo originaria uma população heterogênea de moléculas, formada por uma coleção ampla de mutantes, denominada nuvem de mutantes, com a sequência de nucleotídeo 1 de cada mutante diferindo um ou mais nucleotídeos em relação às sequências dos demais mutantes da população [2]. Para responder como a informação genética podia ser preservada apesar da tendência à degradação química, e como o conceito de entidades auto-replicantes associa-se com os conceitos de competição e seleção natural, a teoria de quasispecies estabeleceu uma ligação entre duas áreas diferentes do conhecimento: a evolução das espécies de Darwin, e a termodinâmica e cinética química [81]. Em 1977, Eigen e Schuster concluíram que, em um ambiente de alta taxa mutacional e condições termodinâmicas desequilibradas, envolvendo auto-replicação e degradação do RNA, o princípio de seleção natural darwinista levaria à seleção de determinados genótipos e à definição da quantidade deles [43, 44]. No entanto, a seleção não se basearia na estabilidade estrutural de uma determinada molécula, mas sim na concorrência entre os fenótipos, como entre as capacidades das moléculas de produzir progênie [43, 44]. Nesse sistema, a molécula auto-replicante alcançaria uma capacidade replicativa máxima, e o conjunto de moléculas reprodutivas e variantes da população possuiria uma distribuição numérica regulada por uma equação semelhante à lei de ação das massas. Eigen e Schuster referiram a esta distribuição como quasispecies [41, 187]. No ano de 1978, durante um congresso realizado em Klosters, Suíça, patrocinado pelo Instituto Max Planck e organizado anualmente por Eigen, Charles Weissmann apresentou um trabalho experimental do pesquisador Esteban Domingo envolvendo o sequenciamento e a detecção de sequências variantes obtidas a partir de clones isolados do bacteriófago Qβ [4]. Eigen, que estava sentado na primeira fila, levantou-se e exclamou sobre a estrutura e dinâmica dos variantes: ―Quasispecies in reality!‖ [82]. Este acontecimento resultou no início da interação que perdura até os dias atuais entre a biofísica teórica e a biologia evolutiva [4, 41], e na descoberta de que o conceito de organização da informação genética sob a forma de quasispecies tem relevância muito além da idéia da origem da vida [45, 187]. Com a publicação do conceito de quasispecies virais, contribuições provenientes de diversas áreas científicas, como a biologia molecular, medicina, matemática e a teoria da informação, foram incorporadas para descrever o comportamento evolutivo dos vírus RNA e a sua relação com a doença e o tratamento antiviral (a ilustração 1 descreve esquematicamente a composição e a complexidade de uma população quasispecie em um organismo hospedeiro conforme previstas pelas novas contribuições). Os termos fitness e população passaram a ser 2 usados em vez de reatividade e molaridade, e novas expressões foram cunhadas para expressar as novas descobertas, como ―memória molecular‖ [43, 44, 186, 187]. No campo experimental, os pesquisadores Esteban Domingo, John Holland, Christof Biebricher, entre outros, conduziram experimentos com a finalidade de identificar quais conceitos da teoria evolutiva darwinista aplicam-se ao nível molecular. A pesquisa começou com a detecção da estrutura característica de quasispecies em bacteriófago RNA, e progrediu para vírus de plantas, e para vírus de animais, incluindo vírus humanos como o influenza, o vírus da imunodeficiência humana tipo 1 (HIV-1), e o vírus da hepatite C (HCV) [4, 45-50]. A dinâmica característica de uma quasispecies foi reproduzida em laboratório usando como modelo RNAs curtos cuja replicação foi catalisada pela enzima de replicação do bacteriófago Qβ [51]. Princípios genéticos clássicos aplicados à evolução das espécies biológicas, tais como a hipótese da Rainha Vermelha, a teoria da Catraca de Muller, e o princípio da exclusão competitiva, provaram-se experimentalmente úteis na análise da evolução viral [52-56, 186, 187]. Atualmente, entre os fundamentos teóricos para explicar a evolução dos vírus RNA estão os conceitos de taxa mutacional, paisagem adaptativa, fitness, erro catástrofe, e mutagênese letal, conforme abordados nos tópicos seguintes [57-60]. 3 Ilustração 1 - Descrição esquemática de uma população quasispecie viral. A infecção por um único genoma viral resulta na geração de vários mutantes, alguns dos quais são representados à direita. Os genomas são representados como linhas horizontais e as mutações como símbolos nas linhas. A sequência consenso (parte inferior) é a que inclui, em cada posição, o resíduo encontrado com mais frequência na posição correspondente dos mutantes. A complexidade (número médio de mutações por genoma) e a composição de uma quasispecie viral são determinantes importantes do comportamento biológico de um vírus [32]. 1.1.1 TAXA MUTACIONAL E PAISAGEM ADAPTATIVA A fidelidade da enzima polimerase de replicação viral determina a taxa mutacional do genoma viral e contribui para determinar o alcance da variação genética sobre a qual a seleção natural atuará. As polimerases codificadas pelos vírus RNA exibem baixa fidelidade replicativa – com taxa estimada entre 10-3 e 10-5 erros por nucleotídeo copiado por ciclo de replicação (ilustração 2) – valores altos relativamente às taxas apresentadas pelos vírus constituídos de DNA (entre 10-8 e 10-6 erros por nucleotídeo copiado por ciclo de replicação), pelos organismos procariotos e eucariotos (em Escherichia coli, por exemplo, entre 10-9 e 1011 erros por nucleotídeo copiado por divisão celular) [1, 3, 5, 45, 61, 83, 84, 186]. 4 Ilustração 2 - Relação entre as taxas mutacionais e a complexidade genômica de entidades replicantes [32]. Considerando a grande quantidade de partículas virais observada em infecções naturais e experimentais, entre 1011 e 1012 partículas virais, estima-se que muitas mutações pontuais e mutações múltiplas são geradas em cada ciclo de replicação viral [32, 62]. Assim, ao se replicar nas células, um determinado genoma viral pode se transformar rapidamente em uma coleção de sequências relacionadas, e se organizar em torno de uma sequência mestre. A existência de diversas variantes na população que são continuamente restauradas por mutação em sequência relacionada limita nossa capacidade de prever as consequências de uma infecção ou intervenção terapêutica estudando apenas genomas virais isolados [63]. A organização genética da população viral é descrita usando uma representação geométrica de todas as possíveis sequências, denominada espaço de sequência, na qual a distância representa a similaridade genética entre sequências [44]. A cada geração das 5 progênies virais, é gerada uma distribuição de mutantes cada vez mais complexa, com variantes atingindo regiões cada vez mais distantes do espaço de sequência. A nuvem de mutantes assim gerados contém candidatos que serão escolhidos pela seleção natural [43, 44]. A evolução das populações virais também pode ser descrita por meio de uma paisagem adaptativa (do inglês: fitness landscape; ilustração 3) [85]. Em uma paisagem adaptativa, o solo é uma representação dos mutantes existentes no espaço de sequência, e a altitude representa o fitness associado com um determinado mutante [85]. O meio ambiente e suas pressões seletivas determinam os contornos de uma paisagem adaptativa, e a adaptação de uma população viral a um ambiente envolve ela se deslocar de um determinado ponto da paisagem adaptativa para outro com maior fitness [43]. Na evolução de uma população viral, uma rede de variantes mutacionalmente relacionados ocupará picos e vales da paisagem adaptativa correspondentes ao seu fitness [3]. Uma população replicando rapidamente e bem adaptada a um determinado ambiente irá habitar um pico alto e estreito da paisagem adaptativa, enquanto uma população geneticamente mais diversificada e com menor fitness ocupará um mais baixo, porém amplo pico da paisagem adaptativa [86]. A teoria evolutiva de quasispecies prevê ainda que as altas taxas de mutação são favorecidas em um ambiente dinâmico, e as taxas de erro dos vírus podem ter sido otimizadas pela seleção natural [79, 80]. Para os vírus com genoma RNA, a baixa fidelidade replicativa gera uma população diversa de variantes. Enquanto esses variantes são geralmente menos aptos, eles podem dominar rapidamente se uma mudança repentina no ambiente, como a pressão imunológica, mudar a paisagem adaptativa. Por outro lado, uma população homogênea, gerada pela alta fidelidade replicativa, não apresenta a mesma flexibilidade e pode ser menos bem-sucedida no ambiente dinâmico do hospedeiro [86 186]. Estudos realizados com o vírus da poliomielite forneceram suporte experimental para este modelo. Com base em experiência com ribavirina e mutagênese letal, dois estudos testaram a hipótese que um mutante com baixa taxa mutacional seria menos sensível à mutagênese letal e resistente a ribavirina. Ambos os estudos procuraram isolar mutantes resistentes à ribavirina de um vírus da poliomielite e recuperaram uma variante com a substituição de um único aminoácido na polimerase viral [87, 88]. Este mutante era relativamente resistente à mutagênese letal, e ensaios com marcadores indicaram que ele possuía uma taxa mutacional e diversidade genética menores [87, 89, 90]. Enquanto o tipo 6 selvagem e o mutante isolado replicavam com cinética semelhante, o tipo selvagem mostrouse mais apto em ensaios de competição direta [89, 90]. Esses dados sugerem que altas taxas mutacionais conferem uma vantagem evolutiva para os vírus RNA. Nos modelos de evolução viral do tipo estritamente fenotípico, como o estudado pelo presente trabalho, a denominação probabilidade mutacional geralmente é utilizada em vez de taxa mutacional porque, apesar de o modelo abordado ser fenotípico e o termo mutação referir-se a modificações genotípicas, tal denominação é empregada para se referir às modificações fenotípicas que afetam a capacidade replicativa da população viral. Essas modificações fenotípicas provêm tanto de características da população, quanto de características do ambiente no qual a população está evoluindo, conforme abordado no tópico 3.1.1. Portanto, ao longo do texto a denominação ―probabilidade mutacional‖ se refere genericamente a alterações (ou efeitos) de caráter adaptativo, deletério ou neutro sobre a capacidade replicativa da população viral. Ilustração 3 - Representação de uma paisagem adaptativa. Uma paisagem adaptativa é definida pela altitute (fitness) e o solo (combinações de genes). O ambiente e suas pressões seletivas determinam o contorno de uma paisagem adaptativa [188, 189]. 7 1.1.2 FITNESS Na evolução darwiniana, a seleção natural atua sobre a variação genética existente, gerada pela mutação, para otimizar o fitness. Conceitualmente, fitness refere-se ao quão adaptado um organismo está em relação a seu ambiente, refletindo as chances de ele sobreviver e se reproduzir [64]. Nos experimentos de laboratório, os pesquisadores de evolução viral geralmente usam a capacidade replicativa como uma aproximação para fitness, embora outros fatores, como o escape ao sistema imunológico, transmissibilidade, e tropismo celular também sejam componentes importantes do fitness viral no ambiente dinâmico do hospedeiro [56, 65, 186]. Devido às taxas mutacionais elevadas, determinado variante viral também é influenciado significativamente pela probabilidade de o variante ser gerado de novo por meio da mutação de sequências vizinhas no espaço de sequência [63]. Assim, um variante com fitness baixo na população viral pode ser mantido em uma frequência alta porque está vinculado, no espaço de sequência, com um genótipo de fitness alto [27]. A vinculação genética entre variantes no espaço de sequência é uma característica relevante para o estudo da população viral, pois contextualiza determinado mutante em uma rede funcional de variantes [3]. Uma população viral, portanto, seria constituída por uma nuvem de mutantes diversos vinculados geneticamente devido à taxa mutacional, interagindo cooperativamente, e contribuindo coletivamente para as características da população. A unidade de seleção passa a ser a população como um todo, e a natureza das interações entre variantes geneticamente distintos é de importância crítica para a patogênese dos hospedeiros [3, 43, 67]. Avaliar o fitness de determinado variante sem considerar a população como um todo pode ocasionar uma representação inapropriada do fitness de uma população viral. Experimentos com o vírus da estomatite vesicular mostraram que variantes com fitness alto quando isolados podem apresentar fitness baixo quando inseridos em uma população complexa [66]. Similarmente, estudos longitudinais com o vírus da dengue identificaram clones defectivos que são mantidos em alta frequência na população [67]. 8 Outro efeito que contribui para a definição do fitness viral é denominado ―sobrevivência do mais plano― (do inglês: ―survival of the flattest‖), em contraste com o conceito de sobrevivência do mais apto (fittest), e prediz que uma população viral evoluindo sob uma taxa mutacional suficientemente alta favorecerá mutantes com maior robustez genômica (com maior neutralidade) em detrimento dos mutantes que produzem maior progênie [27, 86]. Este efeito foi observado em organismos digitais, bacteriófagos, e no vírus da estomatite vesicular [68-72, 86]. Uma população viral plana com um extenso repertório de mutantes pode explorar vastas regiões do espaço de sequência e está mais preparada para se adaptar às rápidas mudanças ambientais. Apesar de as mutações neutras não mudarem o fenótipo, elas podem contribuir para o surgimento de efeitos epistáticos conforme novas mutações se acumulam no genoma [73]. Esta característica pode explicar muitos fenômenos observados e possui relevância clínica direta. Por exemplo, um arbovírus precisa se adaptar aos hospedeiros inseto e mamífero, e às respectivas paisagens adaptativas. Uma população quasispecies que ocupa uma região plana e vasta do espaço de sequência pode ter maior êxito em acessar locais do espaço de sequência com maior neutralidade em mais de um hospedeiro. Do mesmo modo, estudos retrospectivos de isolados primários do HIV sugerem que ele pode estar se movendo para uma região mais plana e menos adaptada do espaço de sequência [65, 74-76]. No caso do vírus influenza, mapeamento antigênico da proteína hemaglutinina sugere que cepas interpandêmicas permanecem antigenicamente estáveis durante anos apesar da deriva genética, e evoluem ao longo de uma região neutra do espaço de sequência. Esse acúmulo constante de diversidade genética é pontuado por mudança periódica na antigenicidade [77]. Embora esse processo adaptativo ocorra em transmissões entre hospedeiros ao longo do tempo, ele destaca a importância do ―achatamento‖ (flatness) para a evolução viral. 1.1.3 ERRO CATÁSTROFE Eigen demonstrou que aumentos na taxa mutacional das sequências auto-replicantes implicaria em uma transição da população entre dois comportamentos diferentes [41]: 9 Em taxa mutacional relativamente baixa, a população alcançaria o equilíbrio em torno da sequência mestre, formando assim uma quasispecies. Em taxa mutacional relativamente alta, a distribuição da população se tornaria uniforme sobre o espaço de sequência. Leuthäusser mostrou que esse comportamento assemelha-se a uma transição de fase na mecânica estatística [91]. A taxa mutacional crítica necessária para ocorrer a transição foi denominada limite do erro (do inglês: error threshold) [91]. Em algumas paisagens adaptativas, um aumento da taxa mutacional além do limite do erro faz com que uma população viral entre em uma fase denominada erro catástrofe. No modelo clássico desenvolvido por Eigen, vários fenômenos podem ser observados quando a população viral entra no erro catástrofe. Em primeiro lugar, a sequência principal, ou seja, a sequência com a maior capacidade replicativa será perdida [2]. Em segundo lugar, a população quasispecies se deslocará sobre o espaço de sequência, tornando as sequências uniformemente distribuídas [14]. Como a distribuição uniforme das sequências é impossível em populações finitas, este deslocamento deve ser interpretado como uma mudança da população no espaço de sequência [15]. Várias mudanças abruptas podem ser observadas em diferentes características da população, particularmente na média e na variância da distância de Hamming das sequências da população, e em alguns parâmetros coletivos, como a sequência consenso ou na distribuição ancestral [16-21]. Além disso, tanto a perda da sequência principal, quanto o deslocamento da população viral sobre o espaço de sequência, têm sido relacionados a uma "crise" ou "colapso" da informação (processo conhecido como colapso mutacional, do inglês mutational meltdown) [13, 23, 41, 63]. Nesse sentido, supõe-se que a entrada em erro catástrofe estabelece um limite máximo para o conteúdo informacional que um sistema de auto-replicantes pode manter em uma determinada taxa mutacional [27, 29, 92]. Esta interpretação tem duas consequências práticas importantes. No campo da origem da vida, ela representa o que é conhecido como o paradoxo de Eigen, segundo o qual as primeiras moléculas auto-replicantes não seriam longas o suficiente, relativamente às taxas mutacionais pré-bióticas, para codificar as enzimas ou funções necessárias para copiar as sequências com maior precisão [2, 81, 93]. A segunda 10 consequência importante refere-se ao campo da evolução dos vírus RNA [23, 94], pois os primeiros experimentos de mutagênese letal, bem como uma primeira explicação para a perda de infectividade viral, tiveram origem na possibilidade de deslocar vírus com genoma constituído por RNA para o erro catástrofe por meio de drogas mutagênicas [95-98, 186]. Na teoria de erro catástrofe estabelecida por Eigen, a entrada da população em erro catástrofe retardaria a extinção da população, pois, quando a população entra em erro catástrofe, ela perde a sequência com maior fitness devido às altas taxas mutacionais, e evolui para genótipos que possuem menor fitness, porém são mais robustos para os efeitos das mutações [31]. 1.1.4 MUTAGÊNESE LETAL Uma das mais importantes implicações do conceito de limite do erro e de erro catástrofe, devido à sua possibilidade de aplicações práticas, é o conceito de mutagênese letal [13]. Sabe-se atualmente que muitos vírus RNA replicam perto do seu limite do erro, tornando-os sensíveis a aumentos da taxa mutacional. Estudos com o vírus da estomatite vesicular mostraram que mutagênicos químicos geralmente reduzem a infectividade viral, e estudos com o vírus da poliomielite demonstraram que mutagênicos análogos de nucleosídeos podem empurrar a população viral à extinção [96, 99-101]. Um aumento de quatro vezes na taxa de mutação resultou numa redução de 95% do título viral. Outros estudos encontraram resultados semelhantes para o vírus da coriomeningite (LCMV) e o vírus da febre aftosa (VFA) [102-105, 186]. Estas observações sugerem que o aumento da taxa mutacional pode ser uma estratégia terapêutica eficaz contra infecções causadas por vírus RNA, e o processo de extinção da população viral induzido pelo aumento da taxa mutacional é denominado mutagênese letal [106]. A ribavirina, um nucleosídeo com ampla atividade antiviral, tem atraído grande interesse e pode induzir a mutagênese letal do vírus Hantaan e do vírus da poliomielite [100, 101, 107]. Embora a ribavirina seja clinicamente usada para o tratamento do vírus sincicial respiratório e o vírus da hepatite C, ela tem efeitos pleiotrópicos, e seu mecanismo de ação nestas infecções é pouco claro [108]. Outro mutagênico, 5-fluorouracil, é licenciado como um 11 agente quimioterápico, e sua atividade antiviral contra o vírus da coriomeningite linfocitica (LCMV) em modelos animais pode prever eficácia para outros vírus do gênero arenavírus, como a febre de Lassa [109, 110]. Loeb e colaboradores identificaram uma série de análogos de nucleosídeos que podem induzir a mutagênese letal do HIV [97, 186]. Trabalhos sobre restrição celular para infecções causadas por retrovírus sugerem que a mutagênese letal é uma forma natural de defesa antiviral [111]. A citidina deaminase APOBEC3G foi identificada inicialmente como um alvo da proteína vif do HIV [112]. Os seres humanos possuem onze proteínas APOBEC que editam mensagens celulares, convertendo bases citosinas em uracilas. Trabalhos posteriores demonstraram que as proteínas APOBEC poderiam induzir mutagênese letal no HIV por meio da desaminação do genoma do HIV durante a transcrição reversa, e genomas do HIV com assinaturas de desaminação foram observados em pacientes [113-115]. Esse mecanismo parece ser conservado evolutivamente e ativo contra o vírus da hepatite B, retrovírus simples, e retroelementos endógenos [116]. O fato de os vírus com genoma RNA replicarem perto do limite do erro faz a mutagênese letal mediada por APOBEC ser uma defesa celular crítica contra os vírus RNA. Bull e colaboradores propuseram uma teoria de mutagênese letal para populações virais [31]. Além do componente genético (a taxa mutacional), eles sugeriram a contribuição de um componente ecológico (o tamanho da progênie produzida por cada partícula da população) para que o processo de extinção ocorra. Assim, para identificar se uma população viral está em processo de extinção, em vez de investigar se o tamanho populacional está estável ou em declínio, é necessário medir a taxa mutacional ao longo do genoma viral, e medir o tamanho da progênie gerada pelas células infectadas [31]. Mais pesquisas ainda precisam ser feitas antes de a mutagênese letal ser considerada uma estratégia terapêutica inspirada nos modelos teóricos de evolução viral. Alguns sugerem, com fundamentos teóricos, que os experimentos já realizados não mostram uma verdadeira transição de fase com a perda de uma sequência mestre. Estudos de mutagênese letal conduzidos por Lowenstein e colaboradores demonstraram uma correlação imperfeita entre carga mutagênica e a extinção da população [104]. Populações virais próximas da extinção apresentam alta heterogeneidade, com muitas mutações em várias posições do genoma. A dinâmica da extinção da população complica-se também porque os genomas com alta mutagênese podem acelerar a extinção, interferindo com a replicação dos variantes da 12 população menos mutados [105, 117]. Nesse caso, uma população com alta mutagênese pode se extinguir sem a ocorrência do erro catástrofe. Enquanto essas discrepâncias podem refletir a lacuna entre a matemática e a complexidade biológica, a distinção entre os conceitos poderia ter implicações reais. Portanto, torna-se necessária a condução de novos trabalhos teóricos e experimentais visando compreender melhor a relação entre a população viral de genoma RNA e as diferentes pressões seletivas exercidas sobre ela na sua interação com o organismo hospedeiro. Entre os principais instrumentos metodológicos provados úteis para a modelagem de populações em processo de replicação, encontram-se o processo de ramificação de GaltonWatson e a simulação computacional [118-120], os quais serão revistos nos próximos tópicos e aplicados ao estudo da evolução dos vírus RNA pelo presente trabalho. 13 1.2 Processo de Ramificação de Galton-Watson O estudo dos processos de ramificação se originou com a publicação de Francis Galton, no Educational Times de primeiro de abril de 1873, sobre o problema estatístico da extinção dos nomes de família na Era Vitoriana. O problema consistia em, tendo um antepassado inicial, definir qual era a chance de o nome de família dele sobreviver ao longo de sucessivas gerações. A sobrevivência do nome de família na primeira geração dependia de o fundador ter um ou mais filhos (filhas não podiam passar o sobrenome); na segunda geração, dependia da probabilidade de os filhos do fundador gerarem netos masculinos; e assim por diante. Uma solução foi oferecida por Henry William Watson, reverendo e matemático, e devido ao artigo cientifico publicado em conjunto por ele e Francis Galton, o processo de ramificação leva o nome de ambos: processo de ramificação de Galton-Watson [11]. O próximo uso conhecido do modelo matemático proposto por Galton e Watson foi feito por Fisher, que usou um modelo matemático idêntico ao modelo de Galton e Watson para estudar a sobrevivência da descendência de um gene mutante e estudar variações aleatórias nas frequências gênicas [121-123]. Haldane aplicou o mesmo modelo na genética [124]. A primeira determinação completa e correta da probabilidade de extinção para o processo de Galton-Watson foi dado por Steffensen [125, 126]. O problema também foi tratado por Kolmogorov, que determinou a forma assintótica da probabilidade de a família ainda existir depois de um grande número finito de gerações [127]. Lotka aplicou as idéia de Galton, usando dados da fertilidade norte-americana, para determinar a probabilidade de extinção de uma linha de descendentes masculina [128-131]. Semenoff usou o modelo de Galton-Watson nas fases elementares de seu tratado teórico sobre reações químicas em cadeia (em oposição à reação nuclear) [132]. Shockley e Pierce empregaram o modelo para estudar a multiplicação de elétrons em um dispositivo de detecção eletrônica, o multiplicador de elétrons [133]. Depois de 1940, o interesse no modelo de Galton-Watson aumentou, parcialmente devido à analogia entre o crescimento das famílias e as reações nucleares em cadeia, e parte devido ao maior interesse geral em aplicações da teoria das probabilidades. Entre os primeiros 14 trabalhos estimulados pela analogia com as reações nucleares estão os de Hawkins e Ulam [134], e Everett e Ulam [135-138]. Um processo de ramificação de Galton-Watson é, portanto, um sistema de partículas indivíduos, células, moléculas, ou outra entidade capaz de produzir descendentes - que vivem por um tempo aleatório e, em algum momento durante a vida ou no momento da morte, produzem um número aleatório de descendentes [120]. O processo começa com uma ou mais partículas iniciais produzindo descendência de acordo com uma determinada distribuição de probabilidade. Os descendentes, por sua vez, produzem sua própria progênie. Cada partícula reproduz assim seu próprio processo de ramificação de forma independente, conferindo à totalidade do processo uma estrutura auto-similar. Apesar de linhagens individuais poderem morrer, o conjunto dos descendentes do ancestral inicial pode persistir indefinidamente [120, 139]. Processos de ramificação que permitem a produção de novos indivíduos durante a vida dos indivíduos parentais denominam-se processos gerais ou processos de Crump–ModeJagers (ilustração 4). Eles são adequados para a descrição de populações de organismos superiores, como plantas e animais vertebrados. Processos de ramificação que assumem a produção dos descendentes no ponto terminal da vida dos indivíduos parentais denominam-se processos clássicos. Eles geralmente são suficientes para a modelagem de populações de células biológicas, genes ou biomoléculas [33]. 15 Ilustração 4 – Processos de ramificação geral (cima) e clássico (baixo). Os retângulos pretos representam indivíduos (objetos, partículas etc.); as linhas horizontais representam o tempo de vida dos indivíduos. As linhas verticais são adicionadas para relacionar os indivíduos aos seus pais. O tamanho das linhas verticais é arbitrário [33]. Um passo para a generalização do processo de ramificação de Galton-Watson é a consideração de mais de um tipo de partícula no processo de ramificação, como, por exemplo, cada tipo pode representar uma variação genética em uma população animal, ou um tipo de 16 mutante em uma população bacteriana etc. O processo de ramificação de Galton-Watson que considera mais de um tipo de partícula em replicação é denominado multitipo [119]. Em um processo de ramificação, o número total de partículas em cada geração depende apenas do número de partículas na geração anterior. Assim, o processo de ramificação de Galton–Watson é formalmente um tipo de processo de Markov [118]. Nas aplicações biológicas, incluindo no estudo de evolução viral realizado pelo presente trabalho, uma vantagem do processo de ramificação de Galton–Watson está na sua generalização da progênie: ela pode representar uma progênie real, pode representar o produto de fissão binária, ou pode representar diferentes tipos de partículas replicando em uma população. Outra vantagem na aplicação do processo de ramificação de Galton-Watson à evolução viral está no grande número de ferramentas analíticas disponíveis, as quais contribuem para gerar a distribuição do número total de partículas em cada geração, os momentos associados, como a média e a variância, a probabilidade de o processo se tornar extinto, e o comportamento do processo se ele não se extinguir [120]. 1.2.1 DESCRIÇÃO MATEMÁTICA Um processo de ramificação de Galton-Watson é uma cadeia de Markov com inteiros não negativos {Zn, n ≥ 0}. Sua função de transição é especificada por uma lei de probabilidade {pk, k ≥ 0}, pk ≥ 0, pk = 1 [118-120]: P{Zn+1 = j | Zn = i} = pij A função geradora de probabilidade, denotada por f, é definida como função de uma variável real s [0, 1]: f(s) = E[s ] = P( = k) s = k= 0p k k=0 onde a variável aleatória é a progênie de uma partícula. 17 k sk, 0 ≤ s ≤ 1, Os iteratos da função geradora de probabilidade são: f0(s) = s, f1(s) = f(s), fn+1(s) = f(fn(s), n = 1, 2, ... Em particular: fn+1(s) = fn(f(s)). Uma das descobertas de Watson foi que a função geradora de probabilidade de Zn é n iterato fn(s) de f(s) [118]. Com esse teorema, pode-se mostrar: = E() = E(Z1) = f ‘(1), 2 = Var() = f ‘‘(1) - ( - 1). Um processo de ramificação de Galton-Watson é classificado em três casos: se < 1, o processo é denominado subcrítico; se = 1, o processo é denominado critico; se > 1, o processo é denominado supercrítico. Com Z0 = 1 segue que [118]: Var (Zn) = 2 __________ n (n – 1) 2 - se 1, 2 n se = 1. A extinção de um processo de ramificação ocorre quando não há partículas na geração, ou seja, Zn = 0. Outra descoberta de Watson foi que a probabilidade de extinção pode ser 18 obtida em termos de f(s) [118]. Considerando que o valor 1 sempre é um ponto fixo de f, ou seja, f(1) = i=0 pi = 1 [118], pode-se definir a probabilidade de extinção de Zn por: = lim P (Zn = 0) = lim fn (0). n n A probabilidade de extinção é um ponto fixo de f : f() = . Assim, se o processo é supercrítico, então 0 ≤ < 1 e com probabilidade 1 - o processo sobreviverá indefinitivamente. Se o processo é subcrítico, então = 1 e a extinção do processo ocorrerá em um tempo finito. Se o processo é crítico, então = 1 e a extinção do processo ocorrerá, porém o tempo para extinção pode ser infinito [118]. A descrição matemática dos momentos associados a um processo de ramificação de Galton-Watson, do comportamento assintótico dele, e da aplicação dele a um modelo de evolução viral, é realizada pelo presente trabalho (tópico 4.1). A descrição matemática e a aplicação do processo de ramificação de Galton-Watson realizadas pelo presente trabalho visam ao estudo do modelo fenotípico de evolução viral proposto; para mais informações sobre o processo de ramificação de Galton-Watson e suas aplicações, recomendam-se as seguintes referências: 118-120. 1.3 Simulação Computacional Aplicada à Evolução Biológica A simulação usa um modelo para fornecer informações e conclusões sobre o comportamento dos elementos do mundo real que estão sendo estudados. O mesmo conceito aplica-se à simulação computacional, mas esta exige que o modelo seja criado por meio da programação de computadores. O modelo simulado normalmente é avaliado numericamente ao longo do período simulado, e os dados coletados são analisados e interpretados 19 estatisticamente, como em qualquer experiência, para estimar as características do sistema do mundo real. A simulação computacional pode ser classificada como um ramo da matemática aplicada, e tem aplicações em quase todos os campos científicos - da química quântica ao estudo dos padrões de fluxo do tráfego [140, 173]. A origem da simulação computacional é tão antiga quanto a origem do computador digital, e começa nos Estados Unidos durante a Segunda Guerra Mundial [140]. O Electrical Numerical Integrator and Computer (ENIAC), o primeiro computador digital programável, nasceu em 1945. John von Neumann teve interesse imediato e, com a participação de Nicholas Metropolis e Stanislaw Ulam, começou a trabalhar em um modelo computacional de reação termonuclear. O procedimento realizado por eles foi típico de técnicas de simulação computacional modernas. Eles começaram com um modelo matemático retratando a evolução temporal do sistema em termos de equações, ou regras de evolução, para as variáveis do modelo. O modelo foi construído com uma mistura de princípios teóricos bem estabelecidos, e algumas idéias físicas e matemáticas. Eles então transformaram o modelo em um algoritmo computacional, e a evolução presenciada no computador foi dita "simular" a evolução do sistema real em questão. As primeiras tentativas conhecidas atualmente de simulação computacional remontam ao desenvolvimento das técnicas de simulação de Monte Carlo, realizado por Jon Von Neumann e Stanislaw Ulam, para ajudar na compreensão e no desenvolvimento da bomba atômica [140, 173]. A era moderna de simulação começou durante a década de 1950, quando novos conceitos e métodos para a criação de simulações foram implementados com programas escritos nas linguagens de programação disponíveis, como o código de máquina, a linguagem Assembly, e Fortran. O hardware dos computadores era caro, escasso, lento e nem sempre confiável. As linguagens de programação também não eram projetadas para aplicações de simulação computacional. Apesar dessas desvantagens circunstanciais, a importâncias da simulação computacional tornou-se visível. Técnicas de modelagem foram desenvolvidas e implementadas em plataformas de hardware e software disponíveis [140]. Tocher foi o primeiro a descrever um aplicativo computacional para experimentos de amostragem. No início da década de 1960, Geoffrey Gordon da IBM introduziu uma linguagem de computador chamada GPSS (Sistema de Simulação de Propósito Geral) 20 destinada a gerenciar a sobrecarga associada à execução de simulações em um computador (por exemplo, mecanismos temporais, representação de recursos, entidades etc.). Esta nova linguagem foi utilizada pela primeira vez na IBM para analisar sistemas complexos, mas rapidamente ganhou aceitação militar e entre várias organizações. Em 1962, a Rand Corporation anunciou que Harry Markowitz, Bernard Hausner, e Herbert Karr desenvolveram a linguagem de simulação computacional SIMSCRIPT. Este software foi desenvolvido como uma ferramenta de modelagem para a força aérea dos Estados Unidos. Durante este mesmo período, os cientistas noruegueses Dahl e Nygaard lançaram a linguagem SIMULA que, além de ser uma linguagem de simulação computacional, foi a primeira linguagem de programação orientada a objeto [140, 171, 172]. O desenvolvimento de uma indústria de linguagens de simulação computacional, e a percepção de que muitos esforços redundantes ocorriam nos Estados Unidos e Europa, levaram à criação de workshops, organizações de suporte, e conferências visando comunicar o progresso na área, reduzir a redundância de esforços e alcançar avanços mais rapidamente. Em Março de 1964, o Workshop sobre Linguagens de Simulação (Workshop on Simulation Languages) foi realizado na Universidade de Stanford e forneceu o primeiro encontro formal para desenvolvedores e usuários de simulação computacional trocarem idéias. A necessidade de uma conferência anual regular era evidente e em 1967, foi realizada a primeira Conferência de Simulação de Inverno (Winter Simulation Conference). Em 1968, a Sociedade para Simulação Computacional (Society for Computer Simulation, SCS) tornou-se um patrocinador oficial e ganhou popularidade como uma organização líder para os profissionais de simulação computacional [140]. Nesse período, a meteorologia tornou-se, juntamente com a investigação de armas, uma das primeiras disciplinas a fazer uso do computador. Enquanto trabalhava no problema de simular sistemas climáticos, o meteorologista e matemático Edward Lorentz descobriu um modelo simples que exibiu características agora chamadas de "dependência sensível das condições iniciais" e "atratores estranhos", características de um sistema bem descrito pela "teoria do caos", um campo que Lorentz ajudou a criar [140, 173]. Na década de 1990, outra área crescente de simulação, baseada em agentes, começou a ganhar popularidade e aplicativos foram desenvolvidos para uma variedade de aplicações 21 científicas. Os modelos baseados em agentes foram e são aplicados a problemas epidemiológicos, entre outros da área de ciências biológicas. A indústria de simulação continuou a crescer em vendas e produtos disponíveis, com centenas de produtos de simulação sendo especializados em diversas áreas [140, 173]. Atualmente, a aplicação da simulação computacional na pesquisa científica, particularmente no campo de evolução biológica, está aumentando devido à maior disponibilidade do poder de processamento dos computadores, às melhorias nas linguagens de programação, ao custo reduzido em comparação com métodos experimentais, e à grande quantidade de informação biológica disponíveis em formato digital. Outro fator que destaca a importância do uso dela na pesquisa científica biológica é a dificuldade inerente ou mesmo impossibilidade de descrever com precisão o complexo mundo biológico aplicando sistemas analíticos ou modelos puramente matemáticos [140, 173]. Entre as vantagens do uso da simulação atualmente, destacam-se [153, 154]: O sistema real com elementos estocásticos pode não ser descrito de forma precisa através de modelos matemáticos que possam ser calculados analiticamente. Permite manter maior controle sob as condições dos experimentos o que muitas vezes não é possível com o sistema real. Permite estudar o sistema durante um longo período de tempo simulado. Permite construir modelos mais realistas: permite a liberdade na construção do modelo; Processo de modelagem progressivo: o modelo vai aumentando de complexidade aos poucos; Perguntas do tipo ―e se?‖: não busca diretamente a solução, mas torna mais claras as possíveis consequências de tomadas de decisões; Facilidade de comunicação: mais fácil compreensão que os modelos matemáticos; 22 Soluções rápidas; Grande flexibilidade: aplica-se a variados problemas; Visão sistêmica: visualização através de animação; Exploração de possibilidades: experiências com o modelo construído; Diagnóstico de problemas: melhores entendimentos das interações entre as variáveis; Desenvolvimento de entendimento: ajudar a entender como o sistema opera; Construção de consenso: depois de validado tem melhor aceitação que a opinião de uma única pessoa; Destacam-se as seguintes limitações do uso da simulação [153, 154]: Cada execução da simulação estocástica produz apenas estimativas dos parâmetros analisados. O modelo de simulação em geral consome muito tempo para ser desenvolvido. Os resultados da simulação quando apresentados em grandes volumes de dados e com efeitos de animações e gráficos, podem levar a uma confiança nos resultados acima da justificada. Se o modelo não for uma representação válida do modelo em estudo, este não terá utilidade, mesmo que os resultados causem boa impressão. Treinamento especial para a construção do modelo; Maiores dificuldades para interpretação dos resultados; Maior aplicação de recursos e tempo para a modelagem e análise da simulação; Uso indevido em problemas que possuem solução analítica factível; 23 Dificuldade de modelagem; Necessidade de recursos computacionais adequados; Nível de detalhamento do modelo além do necessário; Grau de precisão requerido que satisfaçam os objetivos. 1.3.1 SOFTWARES DE SIMULAÇÃO 1.3.1.1 Core War Core War é um jogo de computador programado no qual dois ou mais programas de computador competem entre si na memória do computador. O objetivo de cada programa é causar a interrupção da execução dos demais programas. Os jogadores criam seu próprio programa de computador usando uma linguagem semelhante à linguagem de programação Assembly, e os inserem para competir. O desenvolvimento do conceito de programas de computador auto-replicantes na memória do computador representou um passo importante para o desenvolvimento de plataformas mais complexas de estudo da evolução biológica, como o sistema Tierra e o Avida [152]. 1.3.1.2 Sistema Tierra O sistema de simulação computacional Tierra foi desenvolvido no início da década de noventa por Thomas Shelby Ray Júnior, mais conhecido como Tom Ray, um ecologista estadunidense. O sistema Tierra consiste em um conjunto de programas de computador (denominados, no sistema Tierra, como organismos digitais) que competem pelos recursos do 24 sistema, como tempo de processamento, denominado energia, e memória, denominada recurso da CPU. Os organismos digitais podem evoluir mediante replicação, mutação, recombinação, e seleção (competição por energia e recurso) [151]. O Tierra é utilizado para o estudo de processos básicos de evolução e dinâmica ecológica. Nos anos iniciais de seu desenvolvimento, o sistema Tierra ganhou destaque nos meios de comunicação devido a ser o primeiro sistema a utilizar organismos digitais para o estudo da evolução biológica [151]. Críticas ao sistema incluem aumento limitado da complexidade informacional mantida pelos organismos, e questionamento sobre a validade do método para representar características do sistema evolutivo natural [141, 142]. 1.3.1.2 Plataforma Avida A plataforma Avida foi desenvolvida em 1993 por Charles Ofria e C. Titus Brown. Ela ainda está em desenvolvimento na Universidade do Estado de Michigan, por Charles Ofria, e no Instituto de Tecnologia da Califórnia, por Claus Wilke. Ela é um software utilizado para realizar experimentos de evolução com programas de computador auto-replicantes organismos digitais semelhantes ao sistema Tierra - oferecendo mais funcionalidades que o sistema Tierra [143]. Entre as características apresentadas pela plataforma Avida, encontram-se [143]: 01. Possibilidade de registrar dados sobre a população; 02. Diferentemente do sistema Tierra, os organismos são executados simultaneamente; 25 03. Possui um sistema de eventos para agendar ações a serem executadas ao longo do experimento; 04. Os organismos digitais podem ser configurados de diversas formas; 05. Possui um modo de análise para processar os dados após o experimento. A plataforma Avida é composta por três módulos [143]: 01. Núcleo da plataforma: o qual mantém a população de organismos digitais (cada organismo com seu genoma, hardware virtual etc.); um ambiente que mantêm as reações e recursos com os quais os organismos interagirão; um gerenciador para alocar o tempo da CPU destinado a processar os organismos; 02 Interface gráfica de comunicação com o usuário (GUI): por meio do qual o pesquisador pode configurar o experimento; 03 Ferramentas de análise: inclui um ambiente de teste de organismos fora da população; ferramentas para reconstrução filogenética; análise de fitness e mutações; entre outras. Um quarto módulo está em desenvolvimento, o qual oferecerá uma documentação de ajuda interativa. Os organismos do Avida podem gerar outros organismos (replicar) e definir o genoma de cada organismo gerado. Cada organismo tenta fazer uma cópia idêntica do genoma dele, e a plataforma Avida insere aleatoriamente o organismo gerado na população, matando o organismo que ocupava previamente aquela posição [143]. O genoma dos organismos é um conjunto de símbolos (instruções parecidas com as instruções da linguagem de programação Assembly) os quais serão processados pela CPU. 26 O hardware virtual da plataforma Avida é estruturado conforme a ilustração: Ilustração 5 - Componentes do hardware virtual Avida [143]. Registradores: O núcleo do hardware virtual é a CPU, a qual processa cada instrução dos genomas e modifica os estados dos seus componentes. Operações matemáticas, comparações e outras operações podem ser feitas em três registradores, AX, BX, e CX. Esses registradores armazenam e manipulam os dados em número de 32 bits. Pilhas (Stacks): A CPU pode armazenar dados em duas pilhas. Somente uma pilha pode ser acessada por vez, podendo ser trocada qual está ativa. Memória: a memória é carregada com o genoma do organismo e a execução começa na primeira instrução da memória e prossegue linearmente até a última. 27 Tecnicamente essa memória é considerada circular, pois, quando a última instrução é executada, a CPU volta a executar a primeira instrução novamente, formando um laço. Cabeças (Heads): são essencialmente ponteiros para localizações da memória. Entre as quatro cabeças existentes no Avida, somente o ponteiro de execução existe na arquitetura padrão de computadores. Para poder se replicar, um organismo precisa conseguir ler instruções da memória e escrever elas em outra posição da memória. A cabeça de leitura aponta para a posição da memória na qual os dados serão lidos, e a cabeça de escrita aponta para a posição da memória na qual os dados serão escritos. A cabeça de controle de fluxo é usada para saltos e execução repetida de instruções (loop). Os valores das quatro cabeças podem ser manipulados pelos organismos via instruções. Entrada e saída de dados: o hardware virtual tem um buffer de leitura e um buffer de escrita, os quais são utilizados pelos organismos para interagir com o ambiente. Os organismos podem ler um ou vários números do buffer de leitura, e escrever os resultados no buffer de saída. Essa interação com o ambiente exerce uma função crucial na evolução dos organismos da plataforma Avida. As instruções da linguagem genética do Avida são semelhantes às instruções da linguagem de programação Assembly, porém várias linguagens de programação podem ser utilizadas na plataforma. Essas linguagens de programação são formadas por grupos de instruções relacionadas (referidos como ―instruction sets‖) existentes entre as centenas de instruções oferecidas pela plataforma [143]. Cada instrução no genoma tem sua função determinada somente por ela e pelas instruções próximas. O grupo de instrução padrão da plataforma é composto por vinte e seis instruções [143]. Artigos científicos usando a plataforma Avida foram publicados em revistas como Nature, Science e PLoS [144-148]. 28 Ilustração 6 - Exemplo do código de um organismo digital na linguagem genética Avida [141]. Ilustração 7 - procedimento realizado por um organismo digital ao se reproduzir: alocar memória e copiar o genoma dele (dividir) para a memória alocada [141]. 29 1.3.1.3 EvolSimulator O programa EvolSimulator permite a simulação da evolução de um genoma completo, com mudanças na sequência de nucleotídeo ou de proteína, e no conteúdo gênico. Um dos principais objetivos do EvolSimulator é testar as hipóteses de evolução genômica sob a luz da transferência lateral de genes. A configuração do programa é feita por meio de diversos parâmetros oferecidos pelo mesmo, precisando o pesquisador escolher um conjunto deles para iniciar o experimento [149]. 1.3.1.4 Breve A plataforma Breve permite ao usuário definir o comportamento de agentes em um ambiente 3D, e observar como eles interagem. Ela inclui suporte para visualização gráfica do ambiente, simulação de leis físicas, e uma linguagem script para programação. As simulações podem ser escritas tanto por uma linguagem script, quanto pela linguagem Python. Ambas as linguagens podem ser usadas para simular diversos tipos de ambientes, como criaturas virtuais, ecossistemas virtuais, e simulações de biologia molecular [150]. 30 2. OBJETIVOS O objetivo geral do presente trabalho é: Simular computacionalmente um modelo de evolução viral que represente relações evolutivas existentes entre a população viral de genoma RNA e as diferentes pressões seletivas exercidas sobre ela na sua interação com o organismo hospedeiro. Os objetivos específicos do presente trabalho são: Desenvolver um software de simulação computacional personalizado para o modelo. Demonstrar a possibilidade de descrever o modelo como um processo de ramificação de Galton-Watson. Analisar no modelo a correlação entre as probabilidades mutacionais, o tamanho populacional inicial, e a capacidade replicativa máxima instantânea da população viral e quatro fases da infecção viral: o tempo de recuperação, o equilíbrio mutação-seleção, o limiar da extinção, e a mutagênese letal. 31 3. METODOLOGIA Neste capítulo, apresentam-se a descrição do modelo fenotípico de evolução viral adotado na simulação computacional e no processo de ramificação de Galton-Watson (tópico 3.1), e a descrição do software de simulação computacional desenvolvido para simular o modelo (tópico 3.2). Conforme determinação do programa de pós-graduação da UNIFESP ao qual o presente trabalho está vinculado, os objetivos e metodologia foram submetidos à análise do Comitê de Ética em Pesquisa da UNIFESP, recebendo aprovação sob o parecer CEP 0606/09. 3.1 Modelo Fenotípico de Evolução Viral O modelo fenotípico proposto baseia-se no trabalho de Aguirre e colaboradores [34], sendo adaptado para representar o estabelecimento e evolução de uma população viral em um cenário adaptativo que sugira o ambiente biológico do hospedeiro, em vez de eventos de bottleneck sucessivos, como é abordado no trabalho citado. O modelo proposto baseia-se no trabalho citado devido a este ter sido, na data da concepção do presente trabalho, uma das mais recentes publicações a estudar a evolução dos vírus RNA mediante o uso da modelagem; devido à possibilidade, observada pelos membros envolvidos com o presente trabalho, de adaptar o modelo para o estudo dos objetivos do presente trabalho; e devido à possibilidade de o conhecimento e a experiência adquiridos com o estudo do modelo servirem como base para a elaboração de modelos de evolução viral mais complexos. O modelo fenotípico proposto lida especificamente com a evolução dos vírus de genoma RNA, e não com a evolução dos vírus de genoma DNA, visando conhecer relações evolutivas existentes entre a população viral de genoma RNA e as diferentes pressões seletivas exercidas sobre ela na sua interação com o organismo hospedeiro. Denomina-se o modelo como fenotípico devido a ele contemplar características evolutivas de uma população viral frente a um cenário adaptativo que pode sugerir o ambiente do hospedeiro, e inclui elementos como taxa mutacional, capacidade replicativa, e tamanho 32 populacional máximo, sem representar diretamente o genótipo de cada partícula. A simulação computacional e a análise de propriedades genotípicas de uma população viral, incluindo a recombinação genética, são objeto de estudo de um projeto de pesquisa derivado do modelo fenotípico abordado nesse trabalho (ver tópico 5.2). No modelo fenotípico proposto, assume-se a existência de uma população viral fundadora do processo replicativo constituída por Z0 partículas virais, com cada partícula apresentando capacidade replicativa r entre zero e a capacidade replicativa máxima R definida para a população (0 ≤ r ≤ R). Ao se replicar, uma partícula viral com capacidade replicativa zero (r = 0) não gerará progênie, enquanto uma partícula viral com capacidade replicativa um (r = 1) gerará uma partícula como progênie, e assim por diante, até a partícula viral com capacidade replicativa igual à capacidade replicativa máxima (r = R) gerar como progênie o maior número de descendentes que uma única partícula da população pode gerar. Durante a replicação, uma partícula viral gera cópias dela mesma em conformidade com sua capacidade replicativa, ocorrendo apenas uma das seguintes mutações em cada partícula gerada: Mutação benéfica ou adaptativa: se a partícula parental possuir capacidade replicativa menor que a capacidade replicativa máxima definida para a população (r < R), a capacidade replicativa da partícula gerada aumentará uma unidade em relação à capacidade replicativa da partícula parental, e apresentará, portanto, capacidade replicativa r+1. Se a partícula parental possuir capacidade replicativa igual à capacidade replicativa máxima (r = R), a partícula gerada conservará a mesma capacidade replicativa da partícula parental. Mutação deletéria: a capacidade replicativa da partícula gerada diminuirá uma unidade em relação à capacidade replicativa da partícula parental, e será, portanto, r-1. Mutação neutra: a partícula gerada conservará a mesma capacidade replicativa da partícula parental. 33 No modelo, a probabilidade de uma partícula gerada sofrer mutação deletéria é denominada probabilidade mutacional deletéria p, e assume valor entre zero e um. A probabilidade de uma partícula gerada sofrer mutação benéfica é denominada probabilidade mutacional benéfica q, e assume valor entre zero e a probabilidade mutacional deletéria p, com a soma de p e q devendo ser menor ou igual a um. A probabilidade de uma partícula gerada sofrer mutação neutra é denominada probabilidade mutacional neutra n, e é complementar às probabilidades p e q (n = 1 – p – q). A evolução da população inicial procede-se em ciclos replicativos consecutivos, ou gerações, nos quais as partículas virais constituintes de um ciclo replicativo produzirão, segundo suas respectivas capacidades replicativas e as probabilidades mutacionais, as partículas virais integrantes do novo ciclo replicativo. Se a quantidade de partículas virais produzidas para integrar um novo ciclo replicativo for maior que o tamanho populacional máximo N definido para a população, um procedimento de amostragem aleatória é realizado visando escolher N partículas virais da progênie para integrarem o novo ciclo replicativo. Se a quantidade de partículas existentes em uma geração for igual a zero, assume-se que a população viral foi extinta. Os dados de entrada do modelo fenotípico de evolução viral são listados e definidos a seguir: Capacidade replicativa máxima R: especifica qual é a maior capacidade replicativa que uma partícula da população pode alcançar. Constitui um limite superior ao aumento, via mutação benéfica, da capacidade replicativa da população, e define a quantidade de classes replicativas da população (cada classe replicativa corresponde a um conjunto de partículas da população que possuem uma mesma capacidade replicativa). População viral inicial: especifica a quantidade de partículas da população inicial, e a capacidade replicativa de cada uma das partículas. Cada partícula possui capacidade replicativa entre zero e a capacidade replicativa máxima R. A maior capacidade replicativa apresentada pela população em determinado ciclo replicativo é denominada capacidade replicativa máxima instantânea Rmax. 34 Tamanho populacional máximo N: especifica a quantidade máxima de partículas que a população pode conter por ciclo replicativo. Se a progênie gerada em um determinado ciclo replicativo exceder o tamanho populacional máximo, um processo de amostragem aleatória é realizado visando limitar o tamanho populacional ao tamanho máximo especificado. Probabilidades mutacionais: especificam a probabilidade de a mutação sofrida por uma partícula gerada ser deletéria (probabilidade mutacional p), benéfica (probabilidade mutacional q), ou neutra (probabilidade mutacional n). Os dados de saída do modelo fenotípico de evolução viral são listados e definidos a seguir: Progênie por ciclo replicativo: total de partículas virais produzidas em cada ciclo replicativo. Obtida pela soma da quantidade de partículas geradas por cada partícula da população em um determinado ciclo replicativo. A progênie por ciclo replicativo é calculada antes de o processo de amostragem aleatória ocorrer. Partículas em cada classe replicativa: frequência absoluta e frequência relativa de partículas virais em cada uma das classes replicativas. As frequências são calculadas a cada ciclo replicativo. Taxa replicativa média : capacidade replicativa média da população: R = iu , i=1 i onde ui é a porcentagem de partículas na classe replicativa i. 35 Diversidade fenotípica : medida da dispersão estatística das classes replicativas em cada ciclo replicativo: R u (i - ) i=0 = i 2 3.1.1 FENÔMENOS BIOLÓGICOS MODELADOS A probabilidade mutacional deletéria p considerada no modelo fenotípico visa modelar a fenomenologia da taxa de erro que diminui a capacidade replicativa da população viral, e pressões exercidas pelo sistema imunológico do hospedeiro e pelo tratamento antiviral. A baixa fidelidade intrínseca da enzima polimerase de replicação dos vírus RNA, com cerca de 10-3 e 10-5 erros por nucleotídeo copiado por ciclo de replicação [3, 45], pode gerar progênie com capacidade replicativa menor em relação à capacidade replicativa do genoma molde à medida que afeta bases nitrogenadas codificadoras de aminoácidos importantes para a funcionalidade de proteínas virais, ou à medida que afeta bases nitrogenadas com função estrutural na formação de pontes intracadeias do RNA viral [78]. A probabilidade de essas substituições com efeito deletério sobre a capacidade replicativa ocorrerem aumenta devido ao tamanho relativamente pequeno do genoma viral, à presença de quadros de leitura sobrepostos no genoma, e ao fato de muitas sequências do genoma terem tanto função estrutural, quanto de codificação [78]. A pressão seletiva exercida pela resposta celular e humoral do sistema imunológico do hospedeiro sobre os genomas virais em formação e sobre as partículas virais maduras também pode ser considerada como componente da probabilidade mutacional deletéria representada no modelo, pois limita a capacidade replicativa do genoma molde [166]. O tratamento antiviral, quando presente e eficaz, atua aumentando a taxa mutacional global do genoma viral, acentuando a resposta celular e humoral do sistema imunológico, restringindo a replicação do genoma viral molde, e restringindo o empacotamento do genoma e proteínas virais produzidos [10, 166, 167, 185]. Essas estratégias de atuação decrescem ou anulam a capacidade replicativa de genomas virais moldes. 36 A probabilidade mutacional benéfica considerada no modelo fenotípico visa modelar a fenomenologia de mutações ocorridas durante a produção da progênie viral propiciarem incremento na capacidade replicativa da população. Esse incremento pode advir, por exemplo, de mutações pontuais ou múltiplas que permitam a população: Aumentar a eficiência replicativa: mutações que modifiquem o conteúdo nucleotídico do genoma viral, movendo a população para regiões mais robustas (com maior neutralidade) da paisagem adaptativa, podem constituir vantagem para a população em um ambiente com altas taxas mutacionais deletérias. Por outro lado, mutações que modifiquem o conteúdo nucleotídico do genoma viral, movendo a população para regiões menos robustas da paisagem adaptativa, podem constituir vantagem quando a população necessita gerar maior diversidade para se adaptar a um novo ambiente [174]. Escapar às respostas do sistema imunológico: mutações que ocasionem variação na estrutura de antígenos virais podem possibilitar o escape às respostas do sistema imunológico; semelhantemente, mudanças no conteúdo nucleotídico do genoma viral podem diminuir a quantidade de contexto dinucleotídeo alvo das APOBECs celulares [111]. Escapar à atuação de medicamentos anti-virais: por exemplo, uma população viral pode escapar à terapia realizada com medicamento anti-viral diminuindo, via mutação e seleção, a afinidade de proteínas virais às moléculas do medicamento; pode escapar à terapia realizada com análogos de nucleosídeos aumentando a fidelidade da enzima de replicação, e excluindo eles do sítio ativo [175]; Mudanças ambientais favoráveis à adaptação viral: mudanças do ambiente no qual a população viral está evoluindo podem eventualmente aumentar a capacidade replicativa da população quando, por exemplo, determinada 37 pressão seletiva é removida, como a suspenção de uma terapia antiviral eficiente. A probabilidade mutacional benéfica q assume valores menores ou iguais à probabilidade mutacional deletéria p devido às estimativas dos trabalhos experimentais sobre a frequência de ambas as mutações durante a replicação viral. Estudo experimental com substituições de um único nucleotídeo em genes do vírus da estomatite vesicular (VEV), por exemplo, estimou que cerca de 69% das mutações espontâneas são deletérias ou fatais, 4% são mutações espontâneas benéficas, e 27% são mutações espontâneas neutras [42]. Substituições aleatórias de um único nucleotídeo na protease do HIV-1 diminuíram a eficiência catalítica da protease em 84% dos mutantes, e incrementaram a eficiência catalítica em 2% dos mutantes [36]. Estudo com o vírus etch do tabaco observou mutações deletérias em 36,4% dos mutantes, mutações fatais em 40,9%, e mutações neutras em 22,7% dos mutantes [37]. E outros estudos estimam que as mutações benéficas sejam aproximadamente mil vezes menos frequentes que as mutações deletérias [38-40]. A probabilidade mutacional neutra considerada no modelo fenotípico, por sua vez, visa modelar a fenomenologia de as mutações ocorridas durante a produção da progênie viral não terem efeito deletério ou benéfico para a capacidade replicativa da população. Mutações ocorridas durante a replicação viral podem eventualmente ser neutras ao, por exemplo, não alterar os aminoácidos codificados pelo genoma viral (mutação silenciosa), não alterar aminoácido para outro com função físico-química diferente à exercida pelo aminoácido original, e não alterar trechos genômicos com função estrutural para o RNA viral. Cada uma das classes replicativas consideradas no modelo fenotípico (0 ≤ r ≤ R) visa representar um conjunto de genotípicos diferentes da população viral que expressam uma mesma capacidade replicativa. A capacidade replicativa máxima R é definida para a população visando representar no modelo fenotípico as limitações replicativas intrínsecas do genoma viral e as limitações replicativas impostas às partículas virais pela maquinaria replicativa celular, e pelo ambiente intracelular e extracelular do hospedeiro (por exemplo, a restrição espacial, e a disponibilidade e finitude de recursos biomoleculares). 38 A capacidade replicativa máxima instantânea Rmax visa representar no modelo a maior capacidade replicativa atingida por uma ou mais partículas da população em uma determinado geração. Na população viral inicial, a capacidade replicativa máxima instantânea depende da composição fenotípica das partículas transmitidas no evento de bottleneck. Nas demais gerações, depende da capacidade adaptativa da população viral ao novo ambiente, e da resposta do organismo hospedeiro à infecção. A quantidade de partículas em cada classe replicativa é definida para a população inicial visando representar no modelo diferenças de quantidade e composição fenotípica das partículas transmitidas para o novo hospedeiro durante um evento de bottleneck. A diversidade fenotípica , calculada para a população em cada ciclo replicativo, visa acompanhar no modelo padrões de dispersão das classes replicativas que possam sugerir os padrões de dispersão assumidos pela população viral conforme a infecção progride. 3.1.2 ADAPTAÇÕES AO MODELO FENOTÍPICO O presente trabalho apresenta adaptações ao modelo fenotípico de evolução viral que modificam os resultados obtidos por meio analítico e por meio das simulações computacionais em comparação com os resultados obtidos pelo trabalho de Aguirre e colaboradores [34]. No trabalho de Aguirre e colaboradores, a geração parental é incluída juntamente com a progênie dela no processo de amostragem aleatória que selecionará quais partículas constituirão cada nova geração, possibilitando, assim, que tanto partículas parentais, quanto partículas da progênie componham uma nova geração [34]. Entre as adaptações realizadas no modelo pelo presente trabalho, está a não preservação da geração parental no processo de amostragem aleatória. O critério utilizado para embasar a não preservação da geração parental é o conhecimento biológico estabelecido sobre as estratégias replicativas do genoma viral. Sabe-se, por exemplo, da necessidade de um vírus distinguir, durante a etapa de maturação e liberação, entre as suas proteínas e genomas recémsintetizados e as proteínas e RNAs da célula infectada e do genoma viral molde. Essa necessidade é acentuada pela estimativa de a quantidade de genomas retrovirais presentes no citoplasma de uma célula infectada constituir menos de um por cento dos RNAs celulares 39 [157]. Sendo assim, estratégia de replicação foi desenvolvida por alguns vírus marcando os genomas virais recém-sintetizados com um sinal de empacotamento, uma sequência genômica dentro da estrutura secundária do RNA viral, o qual é reconhecido pelas proteínas virais. Nos vírus que utilizam essa estratégia, o sinal de empacotamento seria mascarado nos genomas virais moldes [157]. Outra estratégia replicativa do genoma viral adotada por alguns vírus RNA é a degradação do RNA viral molde durante a replicação. O processo de replicação em retrovírus é realizado por uma enzima transcriptase reversa heterodímera, codificada pelo vírus, que é composta por uma subunidade menor com função estrutural, a p51, e uma subunidade maior, a p66, com função catalítica. Esta se subdivide em três domínios: o domínio polimerase Nterminal, o domínio ribonuclease H (RNase H) C-terminal, e o domínio que conecta as duas regiões. O processo de transcrição reversa envolve a cópia do genoma viral de RNA fita única para o DNA viral de cadeia dupla, realizada pelo domínio polimerase N-terminal; e a clivagem do RNA presente no híbrido RNA-DNA, realizada pelo domínio ribonuclease H. Assim, ao término do processo de transcrição reversa, há a formação do DNA complementar viral, o qual se integrará ao genoma celular e gerará a progênie viral; e a degradação do ácido ribonucleico viral mediada pela ribonuclease H [35]. A quantidade de partículas virais produzidas por cada célula infectada, estimada em torno de 4 x 104 e 5,5 x 104 para o vírus da imunodeficiência símia (SIV), também diminuiria significativamente a influência que teria um único genoma molde se, em vez de degradado, ele fosse preservado para a geração posterior [158]. A preservação da geração parental na composição da nova geração não permite a população viral entrar no limiar da extinção e na mutagênese letal, mesmo com a probabilidade mutacional deletéria próxima do seu máximo. Com a não preservação da geração parental no modelo, a população pode entrar no limiar da extinção e na mutagênese letal, conforme abordado nos tópicos 4.2.3 e 4.2.4, aproximando mais o modelo da dinâmica evolutiva conhecida dos vírus de genoma RNA em um hospedeiro [158]. A preservação da geração parental no modelo de evolução viral também pode fazer com que uma ou mais partículas de uma determinada geração sejam preservadas durante várias gerações consecutivas, em contraste com o conhecimento biológico supracitado sobre as estratégias replicativas do genoma viral. 40 Outra adaptação realizada refere-se ao tamanho populacional máximo adotado no modelo. Na simulação de duas populações virais evoluindo representada pela figura quatro do trabalho de Aguirre e colaboradores [34], o tamanho populacional máximo é especificado como sendo 103 partículas. As simulações computacionais apresentadas no presente trabalho foram realizadas com tamanho populacional máximo sendo três a cinco ordens de grandeza maior, entre 106 e 108 partículas, visando estudar a dinâmica evolutiva da população viral em um hospedeiro, em vez de estudar a dinâmica evolutiva da população viral em eventos de bottleneck sucessivos. 3.2 Software de Simulação Computacional Para a realização da simulação computacional, propôs-se o desenvolvimento de um software personalizado para o modelo. O software de simulação computacional permite ao usuário: Definir os dados de entrada por meio de uma interface gráfica: o software apresenta ao usuário a possibilidade de definir os dados de entrada por meio de uma interface gráfica, e se necessitar, o usuário pode alterá-los durante a execução da simulação. Acompanhar a execução da simulação computacional por meio de gráficos e tabulação dos dados de saída em tempo real: durante a execução de cada ciclo replicativo, os gráficos e tabela personalizados para cada dado de saída são atualizados e exibidos na interface gráfica de comunicação com o usuário, permitindo ao usuário acompanhar a evolução da população viral modelada em tempo real. Esta característica visa permitir ao pesquisador perceber determinadas flutuações e padrões dos dados de saída, bem como realizar analogia com os conceitos conhecidos de evolução viral, que seriam mais difíceis de notar apenas analisando os gráficos e tabulação dos dados de saída ao término da simulação. 41 Pausar a execução da simulação computacional e modificar os dados de entrada: os dados de entrada definidos pelo pesquisador antes de iniciar a execução da simulação computacional podem ser alterados em qualquer ciclo replicativo durante a execução. Tal possibilidade permite analisar, por exemplo, o efeito de uma mudança nas taxas mutacionais ocorrida em determinado momento da evolução da população viral. Consultar o histórico da simulação computacional em forma de vídeo: em qualquer momento da execução da simulação computacional, ou ao término dela, pode-se visualizar os gráficos e tabela referentes a cada ciclo replicativo já executado da simulação computacional. Para tanto, estão disponíveis as opções pausar a execução da simulação, retroceder ou avançar para determinado ciclo replicativo já executado, e continuar ou finalizar a execução da simulação. Exportar os dados de saída para análise e edição em ferramentas específicas: uma tabela contendo os dados de entrada, dados de saída, e valores trabalhados internamente pelo software de simulação computacional, é gerada e pode ser exportada para análise e edição em ferramentas estatísticas específicas. 3.2.1 INTERFACE DE COMUNICAÇÃO COM O USUÁRIO Uma interface gráfica de comunicação com o usuário foi desenvolvida para o software. As imagens das janelas e campos que compõem a interface gráfica de comunicação com o usuário seguem no apêndice A do presente trabalho. A janela apresentada na figura 2 contém os campos para definição dos dados de entrada, inicialização e finalização da simulação computacional, a saber: 42 Probability mutation (u): define a probabilidade de uma partícula gerada sofrer mutação. Probability benefical (q): define a probabilidade mutacional benéfica q. Probability deleterious (p): define a probabilidade mutacional deletéria p. Maximum reproductive (R): define a capacidade replicativa máxima R da população. Maximum particles (N): define o tamanho populacional máximo N. Maximum generation: define a quantidade máxima de ciclos replicativos que serão executados. Se a população modelada extinguir antes de o ciclo replicativo máximo ser processado, a execução da simulação termina no ciclo replicativo em que a população se extinguiu. Multi-core processor: define a quantidade de núcleos de processamento do computador a ser utilizada pelo software. Nas simulações executadas, devido à configuração dos hardwares utilizados, trabalhou-se com dois núcleos de processamento, um destinado ao processo da interface gráfica, outro destinado ao processamento do algoritmo. Initial population: define a quantidade de partículas da população inicial, e a capacidade replicativa de cada uma delas. Previous generation: permite o usuário escolher se as partículas de um determinado ciclo replicativo serão incluídas ou não, juntamente com a progênie delas, no processo de amostragem aleatória que selecionará quais partículas constituirão a nova geração. Se a opção ―Preserve‖ for selecionada, as partículas de um determinado ciclo replicativo serão incluídas no processo de amostragem aleatória juntamente com a progênie delas. Se a opção ―Don‘t Preserve‖ for selecionada, elas não serão incluídas, e o processo de amostragem aleatória atuará somente sobre a progênie delas. 43 Produce r = 0: quando esta opção é selecionada, a classe replicativa zero é incluída, e as partículas da população com capacidade replicativa igual a um (r = 1) que sofrerem mutação deletéria ocuparão durante um ciclo replicativo a classe replicativa zero antes de serem eliminadas da população. Quando esta opção não é selecionada, a classe replicativa zero não é incluída, e as partículas da população com capacidade replicativa igual a um (r = 1) que sofrerem mutação deletéria serão eliminadas da população. Botões: a inicialização da simulação é feita acionando o botão ―Process‖. O término da simulação antes de a quantidade de ciclos replicativos informada no campo ―Maximum generation‖ ser atingida é feito acionando o botão ―Finish‖. A janela para navegação pelo histórico da simulação, apresentada na figura 8, é exibida quando o botão ―Video‖ é acionado. O encerramento da execução do software de simulação computacional é feito acionando o botão ―Exit‖. As janelas apresentadas nas figuras número três ao número sete contêm respectivamente os seguintes gráficos, os quais são atualizados em tempo real ao término de cada ciclo replicativo: Progênie produzida pela população em cada ciclo replicativo. Histograma com a frequência relativa de cada uma das classes replicativas da população em determinado ciclo replicativo. Taxa replicativa média da população em cada ciclo replicativo. Diversidade fenotípica da população em cada ciclo replicativo. Entropia em cada ciclo replicativo. 44 A figura 8 apresenta uma planilha contendo todos os dados de saída, a qual é atualizada em tempo real ao término da execução de cada ciclo replicativo. Apresenta também a opção de exportar os dados de saída para um arquivo, botão ―Save to File‖; e a opção de exportar os dados de saída para a área de transferência do sistema operacional, botão ―Copy to Memory‖. Os dados de saída assim exportados podem ser editados e analisados em ferramentas estatísticas. A figura 9 apresenta uma janela com o campo e botões necessários para consultar o histórico da simulação em forma de vídeo. A figura 10 apresenta a janela para escolha do diretório e nome do arquivo a salvar os dados de saída. Ela é exibida quando o botão ―Save to File‖ é acionado. 3.2.2 ALGORITMO PARA IMPLANTAÇÃO DO MODELO O algoritmo para implantação do modelo fenotípico de evolução viral no software de simulação computacional corresponde ao código fonte contido nos arquivos ―simulation.h‖ e ―simulation.cpp‖ do apêndice C. Para representar no algoritmo as classes replicativas e as partículas virais da população, um vetor de números inteiros com R+1 termos é criado. Cada posição do vetor refere-se a uma classe replicativa, e cada termo do vetor refere-se à quantidade de partículas da respectiva classe replicativa. Esse modo de representação é vantajoso em relação a outros devido à quantidade de memória exigida ser fixa independentemente da quantidade de partículas virais, não representando limitação para a execução do software em diferentes configurações de hardware. Por exemplo, considerando que, nos executáveis gerados pelos compiladores utilizados no presente trabalho, cada número inteiro positivo ocupa oito bytes da memória RAM, o total de memória RAM necessária para representar uma população com capacidade replicativa máxima dez é igual a: (10+1) * 8, ou seja, 88 bytes. 45 O processo de amostragem aleatória é implantado utilizando o método de amostragem estocástica uniforme (stochastic universal sampling). Nos ciclos replicativos em que a progênie produzida excederia o tamanho populacional máximo N, cada classe replicativa da população é mapeada para uma fração, proporcional ao número total de partículas que ela produziria, de uma roleta formada por um círculo de trezentos e sessenta graus. Sorteios aleatórios são realizados visando selecionar N pontos distintos da área da roleta, os quais corresponderão às partículas da progênie que constituirão a nova geração. A área da roleta não selecionada pelos sorteios corresponde às partículas da progênie que não participarão da constituição da nova geração, sendo eliminadas da população. Para manter o histórico da execução da simulação computacional, um vetor com a quantidade de partículas contida nas classes replicativas é criado em cada ciclo replicativo. Um vetor de números reais com quantidade de termos igual ao total de ciclos replicativos da simulação computacional é criado para cada dado de saída. Assim, há um vetor de números reais para guardar o valor da diversidade fenotípica em cada ciclo replicativo; um vetor para guardar o valor da taxa replicativa média em cada ciclo replicativo etc. O código fonte foi projeto para hardware e sistema operacional 64 bits devido a essa arquitetura ser capaz de manipular números inteiros maiores do que os manipulados pela arquitetura 32 bits. Aquela permite a manipulação de valores inteiros de até 264, enquanto esta permite a manipulação de valores inteiros de até 232 (4.294.967.296). A diferença torna-se indispensável quando a população ou progênie atinge valor maior que 232. Para o processamento paralelo, um thread é criado para processamento da interface gráfica de comunicação com o usuário, e threads são criados para o processamento do algoritmo, perfazendo o total de threads a quantidade especificada pelo usuário no campo ‗Multi-core processor‘. Nos sistemas operacionais multitarefas, cada thread pode ser atribuído para um núcleo do processador, aproveitando ao máximo, assim, a eficiência da tecnologia multi-core dos processadores modernos. 3.2.3 VALIDAÇÃO DO ALGORITMO 46 Para a verificação e validação do algoritmo implantado, ou seja, para assegurar o funcionamento correto e adequado dele aos propósitos do presente trabalho, realizou-se verificação dinâmica executando o software com dados de entrada escolhidos especificamente para analisar o comportamento do software e os dados de saída gerados. Assim, foi possível checar se: Os campos de entrada da interface gráfica suportam valores no mesmo intervalo das variáveis do modelo; Os valores da planilha de saída (figura 7) correspondem aos valores plotados nos gráficos; O código implantado para os cálculos da porcentagem de partícula da população em cada classe replicativa, do tamanho da progênie, da taxa replicativa média, e da diversidade fenotípica, gera os valores esperados pelas respectivas fórmulas; A navegação pelo histórico da simulação em forma de vídeo funciona adequadamente; A exportação dos dados de saída para arquivo e para a área de transferência do sistema operacional funciona adequadamente. Inspecionou-se, durante os estágios de desenvolvimento do software, o código fonte tendo como diretriz a seguinte lista de checagem: As variáveis foram iniciadas? A nomeação das variáveis e constantes segue o padrão escolhido? 47 O tipo de dado numérico especificado para a variável suporta os valores que ela receberá? Há redundância no código? Os blocos de memória alocados são liberados ao término da utilização? A quantidade de memória utilizada é compatível com as configurações de hardware? A variável utilizada como índice no laço atinge o valor pré-determinado para o término do laço? O acesso a vetor e matriz ocorre dentro do conjunto de índices declarado? Os principais arquivos do código fonte otimizado são listados no apêndice C do presente trabalho. 3.2.4 FERRAMENTAS UTILIZADAS O código fonte do software foi desenvolvido com a linguagem de programação C++. O ambiente de desenvolvimento utilizado foi o Qt Creator versão 2.0.1, juntamente com a interface de comunicação com o usuário Qt versão 4.7.1, e a biblioteca de geração de gráficos Qwt versão 6. Executáveis do software foram gerados utilizando o compilador GCC versão 4.5.2, para o sistema operacional Linux 64 bits. O ambiente de desenvolvimento Microsoft Visual C++ 2010, para gerar o executável para o sistema operacional Microsoft Windows 64 bits; e o ambiente de desenvolvimento Xcode 3.2 para o sistema operacional Mac OS X 64 bits. As ferramentas computacionais utilizadas são gratuitas, de código fonte aberto (com exceção do Microsoft Visual C++), sendo extensivamente utilizadas pela comunidade internacional [176]. 48 4. RESULTADOS E DISCUSSÃO Neste capítulo, apresentam-se a descrição do modelo fenotípico de evolução viral como um processo de ramificação de Galton-Watson (4.1), e os resultados obtidos com a simulação computacional (4.2). 4.1 Processo de Ramificação de Galton-Watson O modelo fenotípico de evolução viral pode ser descrito como um processo de ramificação de Galton-Watson no qual a sequência aleatória {Zn | Zn N, Z0 ≥ 1} representa a quantidade de partículas virais na n-ésima geração da população viral, e as classes replicativas (0 ≤ r ≤ R) representam os variados tipos do processo. O modelo proposto classifica-se como um processo de ramificação de Galton-Watson clássico, pois as partículas parentais geram descentes ao término do seu tempo de vida, e multitipo, devido à capacidade reprodutiva máxima de uma população viral em replicação ser maior que zero, originando ao menos dois tipos no processo de ramificação. No modelo, todas as partículas da população se replicam, diferentemente da ilustração 4 descrita no tópico 1.2, na qual algumas partículas podem não gerar descendentes. Essa diferença não afeta as análises. Como cada termo da sequência aleatória formada por {Zn | Zn N, Z0 ≥ 1} depende somente do termo precedente para ser definido, ou seja, o termo Zn+1 depende somente de Zn e da lei de probabilidade do processo, e os termos da sequência são números inteiros positivos, a sequência aleatória referida constitui-se uma cadeia de Markov. Para a apresentação das propriedades do modelo fenotípico de evolução viral, consideram-se as seguintes variações do modelo: Modelo fenotípico simplificado: variação do modelo fenotípico de evolução viral em que a probabilidade mutacional benéfica é definida como zero (q = 0). Essa variação é apropriada, pois se estima que a taxa mutacional benéfica seja ordens de grandeza menor que a taxa mutacional deletéria, sendo consensualmente referida como até mil 49 vezes menor [38-40]. Outros trabalhos de evolução viral também consideram modelo evolutivo com a probabilidade mutacional q definida como zero [31, 168]. Modelo fenotípico completo: variação do modelo fenotípico de evolução viral em que a probabilidade mutacional benéfica é maior que zero (q > 0). Modelo fenotípico com a classe replicativa zero: variação do modelo fenotípico simplificado e do modelo fenotípico completo em que a classe replicativa zero é considerada (0 ≤ r ≤ R). Essa variação, comparativamente ao modelo fenotípico sem a classe replicativa zero, é mais apropriada para comparar os resultados da simulação computacional com os resultados analíticos do modelo, pois na simulação computacional considera-se a classe replicativa zero. Modelo fenotípico sem a classe replicativa zero: variação do modelo fenotípico simplificado e do modelo fenotípico completo em que a classe replicativa zero é omitida. Nessa variação, as partículas da população podem apresentar capacidade replicativa entre um e a capacidade replicativa máxima R (1 ≤ r ≤ R); e quando uma partícula produzida por uma partícula parental com capacidade replicativa um (r = 1) sofre mutação deletéria, ela é eliminada da população. Essa variação é apropriada para algumas considerações analíticas. A distribuição de probabilidade da progênie pode ser calculada para o modelo fenotípico simplificado como uma distribuição de Bernoulli ao se assumir que a possibilidade de uma nova partícula gerada sofrer mutação deletéria corresponde à probabilidade de sucesso do teste de Bernoulli; e a possibilidade de uma nova partícula gerada sofrer mutação neutra corresponde à probabilidade de fracasso do mesmo teste. Assim, se Xi é uma variável aleatória que assume valor 1 quando o evento de replicação i resultar em mutação deletéria, e valor 0 quando o evento de replicação i resultar em mutação neutra, a distribuição de probabilidade de Xi é expressa por: 50 P(Xi = k) = pkni-k Considerando que a probabilidade de fracasso n é complementar à probabilidade de sucesso p (n = 1 – p): P(Xi = k) = pk (1 - p)i-k Posto que os eventos de replicação sejam independentes um do outro, a probabilidade de a produção de g partículas virais conter a quantidade k de partículas virais com mutação deletéria (ou seja, com capacidade replicativa r-1) pode ser denotada por Sn e representada pelo binômio [159]: P(Sn = k) = binom(k; g, p) = (gk) pk(1 - p)g-k A partir da distribuição de probabilidade da progênie, pode-se definir uma função geradora de probabilidade f = (f 0,..., f R) para o processo de ramificação do modelo fenotípico simplificado: f 0(z0, ..., zR) = 1 f 1(z0, ..., zR) = pz0 + (1 - p)z1 f 2(z0, ..., zR) = (pz1 + (1 - p)z2)2 . . . R f (z0, ..., zR) = (pzR-1 + (1 - p)zR)R O coeficiente p refere-se à probabilidade mutacional deletéria do modelo, e o coeficiente (1 – p) refere-se à probabilidade mutacional neutra n do modelo. Essa função determina completamente o processo de ramificação para o modelo fenotípico simplificado. Para o modelo fenotípico completo, adota-se a distribuição trinomial em vez da distribuição binomial, pois o modelo fenotípico completo possui, além das probabilidades 51 mutacionais p e n, a probabilidade mutacional q. Sendo assim, a função geradora de probabilidade do modelo fenotípico completo é: f 0(z0, ..., zR) = 1 f 1(z0, ..., zR) = pz0 + (1 – p - q)z1 + qz2 f 2(z0, ..., zR) = (pz1 + (1 – p - q)z2 + qz3)2 . . . R f (z0, ..., zR) = (pzR-1 + (1 - p)zR)R O coeficiente q refere-se à probabilidade mutacional benéfica do modelo. Para o modelo fenotípico sem a classe replicativa zero, pode-se omitir a variável z0 e o componente f 0, e mudar o componente f 1 para: f 1(z0,..., zR) = p + (1 – p – q)z1 + qz2. A matriz dos primeiros momentos M = {Mij}, a qual descreve como a média das subpopulações em cada classe replicativa evolui com o tempo, pode ser definida como: i j Mij = E(Z1|Z0 = 1) i, j = 0, 1, ..., R, i onde a notação Zn representa a quantidade de partículas com capacidade replicativa i no ciclo replicativo n, sendo as demais classes replicativas igual a zero. Em relação à função geradora de probabilidade, pode-se expressar Mij usando a Jacobiana [156]: Mij = fj zi (1, 1, ..., 1) A evolução do tamanho da população em cada ciclo replicativo, representado por Zn, pode ser escrita: E(Zn|Z0) = Mn Z0 52 Ou, usando parêntese como notação para a média: (Zn+1) = Mn (Zn) (1) Com essas definições, pode-se escrever a matriz média para o modelo fenotípico simplificado: M= 0 p 0 0 0 ... 0 0 n 2p 0 0 ... 0 0 0 2n 3p 0 ... 0 0 0 0 3n 4p … 0 0 . . . 0 0 . . . 0 0 . . . 0 0 . . . 0 4n . . . 0 … . . 0 . 0 (2) Rp Rn A matriz média para o modelo fenotípico completo: M= 0 p 0 0 0 ... 0 0 n 2p 0 0 ... 0 0 q 2n 3p 0 ... 0 0 0 2q 3n 4p … 0 0 . . . 0 0 . . . 0 0 . . . 0 3q . . . 0 4n . . . 0 … . 0 53 . . (R – 1)q Rp R(n+q) (3) Matrizes de entradas não negativas, como as matrizes médias descritas, possuem propriedades espectrais especiais, as quais não dependem da magnitude das entradas, mas dependem do grafo associado. Assim, torna-se pertinente a representação da matriz média do modelo fenotípico como uma matriz de adjacência de um grafo ponderado direcionado, sendo os vértices do grafo representação das classes replicativas, e as arestas representação das mutações deletéria (linha sólida), benéfica (linha tracejada) e neutra (self-loop, linha pontilhada): A 0 1 2 1 2 2 B 1 1 1 4 3 1 0 3 3 2 2 2 3 3 4 3 1 2 3 Figura 1 - Grafos da matriz média do modelo fenotípico simplificado (A), e do modelo fenotípico completo (B). De acordo com a matriz média e o grafo associado, um processo de ramificação de Galton-Watson multitipo pode ser classificado em: Decomponível: quando a matriz média é redutível. Indecomponível: quando a matriz média é irredutível. Positivamente regular: quando a matriz média é primitiva Uma matriz M é redutível se existir um par i, j com (Mk)ij = 0 para algum k ≥ 1. O que equivale a existir uma partição do conjunto de índices {0, 1, . . . , R} em conjuntos disjuntos não-vazios Λ1 e Λ2 tal que mij = 0 sempre que i ∈ Λ1 e j ∈ Λ2. Caso contrário, M é 54 irredutível. Outro modo de caracterizar a irredutibilidade da matriz é por meio do grafo dela: a matriz é irredutível se o grafo da matriz é conexo, ou seja, se para cada par de vértices (i, j) há uma sequência de arestas direcionadas de i para j. Uma matriz M é primitiva se Mn é positiva para algum inteiro positivo n. Um processo de ramificação positivamente regular é indecomponível, uma vez que uma matriz primitiva é irredutível. A partir dessa classificação, pode-se afirmar sobre as variações do modelo fenotípico de evolução viral: As matrizes médias (2) e (3) não são positivamente regular, pois elas não são primitivas (a primeira coluna é preenchida com zeros). O processo de ramificação é decomponível, pois não há nos grafos descritos aresta do vértice representado pela classe replicativa 0 até outro vértice. O grafo representando o modelo fenotípico simplificado (figura 1, A) é desconectado, pois não há mutação benéfica no modelo fenotípico simplificado. No modelo fenotípico com a classe replicativa zero, as matrizes médias são invertíveis (pois elas possuem o valor 1 em vez de zero na posição M0,0), e o processo de ramificação é decomponível. O modelo fenotípico sem a classe replicativa zero é positivamente regular quando a mutação benéfica é considerada, pois as matrizes médias dessa variação podem ser obtidas removendo a primeira coluna e a primeira linha das matrizes (2) e (3); e é decomponível quando a mutação benéfica não é considerada. O raio espectral g(M) da matriz M é o máximo dos valores absolutos dos autovalores [156]: g(M) = max{|1|, |2|, ..., |R|} 55 Quando o maior autovalor é positivo, g(M) é denominado parâmetro malthusiano m do processo de ramificação [120]. O parâmetro malthusiano de um processo de ramificação de Galton-Watson contribui para a evolução da população como a média da distribuição de probabilidade da progênie em um processo de ramificação de Galton-Watson simples, o que implica: g(Mn) = mn, e que o tamanho da população aumenta ou diminui em uma taxa geométrica. Com a matriz M sendo finita e não negativa, a teoria de Perron-Frobenius estabelece que exista um autovalor positivo de M, m, com módulo e autovetor esquerdo e autovetor direito associados, ν e u, respectivamente, os quais podem ser normalizados como seque: v M = m v, M u = m u, (v, u) = 1, (u, 1) = 1, onde ( , ) representa um pareamento canônico entre vetores e covetores. Com o vetor de probabilidades de extinção = (1, ..., R): r = P(Zn = 0 para algum n|Zr0 = 1) Segundo a teoria dos processos de ramificação, o vetor satisfaz a seguinte equação, com f representando a função geradora de probabilidade: f() = (4) O vetor de 1 sempre é uma solução da equação (4), assim, se o processo não tem outra solução no cubo unitário [0, 1]R, o processo tem probabilidade 1 de se extinguir. 56 A classificação do processo de ramificação de Galton-Watson indecomponível é [120121]: Supercrítico: se m > 1, então 0 ≤ < 1 é o único ponto de f no cubo unitário [0, 1]R diferente que 1. A população sobreviverá indefinitivamente com probabilidade positiva. Subcrítico: se m < 1, então = 1 é o único ponto de f no cubo unitário [0, 1]R diferente que 1. A população se extinguirá em um tempo finito. Crítico: se m = 1, então = 1 é o único ponto de f no cubo unitário [0, 1]R. A população se extinguirá em um tempo infinito, mas a extinção ocorrerá quase certamente. Sevastyanov [120, 160] generalizou essa classificação, contribuindo para aplicação dela a processos de ramificação decomponíveis, baseando-se no grafo e na matriz média. Para aplicação da generalização de Sevastyanov ao modelo fenotípico, consideram-se as seguintes definições: Componente de um grafo: é o subgrafo formado por qualquer subconjunto fechado (subconjunto não vazio, conexo, e sem aresta ligando um vértice do subconjunto com um vértice localizado fora dele) do conjunto de vértices do grafo. Um grafo possui quantidade bem definida de componentes. Componente final de um grafo: segundo Sevastyanov, um componente de um grafo é denominado final se todos os tipos do processo de ramificação representados pelo componente têm probabilidade 1 de produzir progênie do tipo contido no próprio componente. 57 Processo de ramificação de Galton-Watson singular: um processo de ramificação de Galton-Watson é denominado singular se sua função geradora de probabilidade é linear (sem termo constante): f(z) = M z. A parte da função geradora de probabilidade correspondente aos tipos contidos em um componente final define um processo de ramificação singular. Processo de ramificação de Galton-Watson final: Sevastyanov estabelece que, se existe um ou mais componentes finais, então = 0, e o processo de ramificação é denominado final. No grafo do modelo fenotípico simplificado (figura 1, A) cada vértice corresponde a um componente: {0}, {1}, ..., {R}. O grafo do modelo fenotípico completo (figura 1, B) tem dois componentes: {0} e {1, 2, ..., R}. No modelo fenotípico com a classe replicativa zero, {0} é um componente final, pois f 0 é uma função linear. No modelo fenotípico sem a classe replicativa zero, não existe um componente final, porém, conforme abordado anteriormente, esse modelo é indecomponível quando a mutação benéfica é considerada. Kesten e Stigum formalizaram o comportamento assintótico da população para processos de ramificação multitipo indecomponíveis [161, 162] e decomponíveis [163]. Eles estabeleceram o resultado que, conforme um processo de ramificação supercrítico cresce em uma taxa geométrica prevista pela Lei de Crescimento Malthusiana, pode-se escrever: Zn ~ mn Wn, onde Wn é um vetor aleatório com distribuição assintótica finita de tipos, e n . Considerando um processo de ramificação indecomponível supercrítico, para um vetor aleatório normalizado Wn = Zn / mn há uma variável escalar W 0 tal que, com probabilidade 1 [164]: lim Wn = W u, n 58 r E(W|Z0 = 1) = vr, onde u é o autovetor direito normalizado, e v = v1, ..., vr o autovetor esquerdo, ambos correspondentes ao parâmetro malthusiano m. Uma parte da prova desse teorema é fornecida no resultado ―convergência de tipos‖ de Kurtz [165], o qual estabelece que, com probabilidade 1: lim Zn = u ___ n |Zn| O autovetor direito u é positivo, pois o processo de ramificação é indecomponível, e forma uma distribuição de probabilidade com r ur = 1. Essa distribuição é chamada distribuição assintótica dos tipos do processo de ramificação multitipo. No modelo fenotípico simplificado, pode-se calcular os autovalores r da matriz média M: r = r n = r(1 – p) r = 0, ..., R E o parâmetro malthusiano m: m = g(M) = R = R n = R(1 – p) (7) Como consequência do critério de classificação dos processos de ramificação e da equação (7), pode-se classificar o modelo fenotípico simplificado em três regimes: Subcrítico: se R(1 – p) < 1. Com probabilidade 1 a população viral se extinguirá em um tempo finito. Supercrítico: se R(1 – p) > 1. Com probabilidade positiva, a população viral sobreviverá e crescerá em uma taxa exponencial proporcional a mn quando n . 59 Crítico: se R(1 – p) = 1. Com probabilidade 1 a população viral se extinguirá, porém pode ser necessário um tempo infinito para a extinção ocorrer. O autovetor esquerdo v pode ser calculado para o modelo fenotípico simplificado: v= 1 (1 – p )R (0, ..., 0, 1) E o autovetor direito u: K R-k uk = ( R k ) (1 – p) p , onde k = 0, 1,..., R, isto é, uk = binom(k; R, 1 - p). Quando o modelo fenotípico simplificado é subcrítico, a população extingue-se, com probabilidade 1 e em um tempo finito, se o produto da probabilidade mutacional neutra (1 – p) com a capacidade replicativa máxima R é menor que 1: (1 – p)R < 1 Assim, pode-se concluir, sobre o regime subcrítico do modelo fenotípico simplificado, que a mutagênese letal depende de um componente genético (a taxa mutacional), e de um componente ecológico (a capacidade replicativa máxima da população). Este resultado contribui para provar, no contexto do modelo fenotípico de evolução viral, o critério para ocorrência de mutagênese letal proposto por Bull e colaboradores [31]. Quando o modelo fenotípico simplificado é supercrítico, há duas fases durante o crescimento exponencial da população: uma fase transiente, denominada neste trabalho como ―tempo de recuperação‖, e uma fase estacionária, denominada neste trabalho como ―equilíbrio mutação-seleção‖: 60 Tempo de recuperação: a seguinte função de correlação temporal pode ser estabelecida para estudo do tempo de recuperação: R ll i=0 i i c(t) = 0 t i onde lt representa a frequência relativa de partículas da classe replicativa i no ciclo replicativo t. A função de correlação temporal c(t) é estabelecida baseando-se no comportamento das classes replicativas durante o tempo de recuperação: conforme o processo de ramificação aproxima-se da fase estacionária, a frequência relativa de partículas em cada classe replicativa tende a se estabilizar. Como o processo de ramificação de Galton-Watson é markoviano, a função de correlação c(t) é decrescente do tipo exponencial: t c(t) ~ R , c(t) ~ e-t, onde depende, no modelo fenotípico simplificado, das probabilidades p e n, e da capacidade replicativa máxima instantânea da população inicial: = log (Rmax (1 – p)). A partir desse comportamento típico da função de correlação pode-se definir um tempo característico necessário para a relaxação do sistema em direção ao estado de equilíbrio como: 1 T = ______ Como T depende somente de parâmetros intrínsecos do modelo, é útil tomá-lo como definição para o tempo de recuperação da população viral, evitando-se assim critérios estritamente numéricos sujeitos a imprecisões computacionais inevitáveis. Assim propõe-se a definição do tempo de recuperação da população viral como sendo o próprio parâmetro T. 61 Essa definição torna possível a comparação, quanto ao tempo de recuperação T, de dois ou mais processos de ramificação iniciados com valores diferentes de p, n, e Rmax. Fase estacionária: o parâmetro malthusiano, no modelo fenotípico simplificado, é m = r = r n = r(1 – p) com os autovetores direito e esquerdo: u(r) = (u0(r), ..., ur(r), 0, ..., 0), v(r) = (0, ..., 0, 1 / (1 – p)r, vr+1(r), ..., vR(r)), r onde uk(r) = k) (1 – p)k pr – k, e vk(r) são os componentes remanesccentes, podendo ( alguns deles ser negativos. Assim, há R+1 distribuições assintóticas distintas dos tipos das partículas: u(r) = binom( . ; r, 1 – p) Quando o modelo fenotípico simplificado é crítico, conforme a probabilidade mutacional deletéria p tende à probabilidade mutacional crítica pc, o parâmetro = log (Rmax (1 – p)) pode ser escrito através da sua expansão de Taylor como: ~ p - pc, e portanto, o tempo de recuperação (T) será escrito como: 1 T ~ ______ p – pc 62 Note-se que na vizinhança do ponto crítico é necessário ao sistema um tempo de recuperação cada vez maior, de tal forma que se torna cada vez mais difícil para o sistema atingir o estado de equilíbrio. Portanto, quando p = pc, o sistema se comporta de maneira crítica e o estado de equilíbrio é, para todos os efeitos práticos, inatingível. Em resumo, quanto menor a diferença entre p e pc, maior o tempo de recuperação T, de tal forma que T ∞ quando p pc. 4.2 Simulação Computacional O processo de ramificação de Galton-Watson mostrou-se suficiente para descrever o comportamento do modelo fenotípico de evolução viral quando a probabilidade mutacional q é fixada para zero. Todavia, o desenvolvimento do software de simulação personalizado para o modelo fenotípico é imperativo devido às imprescindíveis contribuições do mesmo: Desenvolvimento de uma plataforma de simulação computacional, e desenvolvimento de modelos derivados: a partir do desenvolvimento do software de simulação personalizado para o modelo fenotípico de evolução viral, é possível elaborar modelos de evolução viral derivados que, devido à sua complexidade crescente, exigem uma plataforma de simulação computacional cada vez mais sofisticada para serem estudados. Estudo do modelo fenotípico quando a probabilidade mutacional benéfica q é maior que zero: com a simulação computacional, pode-se estudar o comportamento da população quando a probabilidade benéfica q é considerada no modelo. Facilidade para implantar melhoria: pelo fato de o código fonte estar disponível às pessoas envolvidas com o presente trabalho, a inclusão de novas funcionalidades e a alteração das já implantadas são facilitadas e potencializadas em comparação ao uso de softwares de terceiros. 63 Aproveitamento do código fonte: o código fonte gerado pode ser total ou parcialmente aproveitado para o desenvolvimento de novos softwares de apoio à pesquisa e ensino. Didático: a possibilidade de definir os dados de entrada por meio de uma interface gráfica de comunicação com o usuário, e a possibilidade de visualizar aspectos evolutivos da população modelada em tempo real, podem constituir recursos didáticos para explicar o presente trabalho e conceitos envolvidos nele para público não especializado. A simulação computacional do modelo fenotípico de evolução viral foi realizada com diferentes combinações de probabilidades mutacionais deletéria e benéfica, tamanho populacional inicial, e capacidade replicativa máxima instantânea da população inicial. Para a realização da simulação, os campos da interface gráfica foram inicializados com os seguintes valores: Probability mutation (u): valor 1, definindo, assim, que todas as partículas sofrem uma mutação ao serem geradas, em conformidade com a descrição do modelo fenotípico; Probability deleterious (p): foram realizadas execuções da simulação para cada valor no intervalo 0,01 e 1,00; Probability benefical (q): foram realizadas execuções da simulação para cada valor no intervalo 0,00 e 0,50, com o valor desse campo sendo sempre menor ou igual ao valor do campo Probability deleterious (p), e a soma dos valores de ambos os campos sendo menor ou igual a 1, em conformidade com a descrição do modelo fenotípico; 64 Maximum reproductive (R): valor 10, definindo, assim, a existência de no máximo onze classes replicativas. Portanto, em todas as simulações numéricas deste trabalho 0 ≤ r ≤ 10; Maximum particles (N): valores entre 106 e 108; Maximum generation: valor 104, definindo que, se a população não se extinguir antes, a execução da simulação terminará no ciclo replicativo 104; Produce r = 0: opção selecionada, incluindo, assim, a possibilidade de a população conter partículas com capacidade replicativa zero. Previous generation: selecionada a opção ―Don‘t Preserve‖. Initial population: na maioria das execuções, a população inicial foi definida como sendo constituída por uma única partícula devido à quantidade de partículas fundadoras da nova população viral ser estimada em aproximadamente uma [169, 170]. Maiores quantidades também foram definidas, e a influência delas para a evolução da população foi comparada. Os resultados obtidos com a simulação computacional, e a discussão sobre a relação deles com a evolução dos vírus RNA no ambiente biológico do hospedeiro, são delineados nos tópicos seguintes para quatro fases da infecção viral: o tempo de recuperação, o equilíbrio mutação-seleção, o limiar da extinção, e a mutagênese letal. Para melhor organização do texto, os gráficos referenciados encontram-se no apêndice B do presente trabalho. 4.2.1 TEMPO DE RECUPERAÇÃO 65 O tempo de recuperação corresponde à fase inicial da infecção viral, quando uma ou mais partículas é transmitida para um novo hospedeiro e inicia o processo de reestabelecimento da população viral nesse novo hospedeiro, adaptando-se por meio de mutação e seleção às características do novo ambiente. O tempo de recuperação abrange, assim, o período da infecção desde o evento de bottleneck, até a estabilização da população viral, a qual é representada pelo equilíbrio mutação-seleção [2, 41, 177]. Para identificação do tempo de recuperação na simulação computacional, adotou-se um critério qualitativo baseando-se nos gráficos da progênie por ciclo replicativo, da diversidade fenotípica por ciclo replicativo, e da taxa replicativa média por ciclo replicativo. Nesses gráficos, o tempo de recuperação compreende o intervalo da curva desde o início da simulação, até antes de a curva atingir seu platô. Os resultados obtidos com a simulação computacional mostram que o tempo de recuperação é caracterizado pela instabilidade da frequência relativa de partículas nas classes replicativas (figura 11); pelo aumento, em cada ciclo replicativo, do tamanho da progênie (figura 12) e da diversidade fenotípica (figuras 17); e pela diminuição nos primeiros ciclos replicativos, com aumento nos demais ciclos replicativos, da taxa replicativa média (figura 24). Estabelecendo-se analogia entre o modelo e o fenômeno biológico que ele visa representar, essa instabilidade característica das classes replicativas durante o tempo de recuperação poderia refletir o surgimento, devido à atuação das altas taxas mutacionais dos vírus RNA, de genótipos virais expressando novas capacidades replicativas para a população viral; e a conservação ou eliminação, devido à seleção, de genotípicos virais expressando capacidades replicativas que conferem maior vantagem adaptativa à população viral no ambiente do novo hospedeiro. Essa interpretação é reforçada pelas estimativas de a população viral fundadora do processo infeccioso possuir apenas uma fração do tamanho e da variedade genotípica e fenotípica apresentada por ela no equilíbrio mutação-seleção, e de o ambiente intracelular e extracelular do novo hospedeiro possuir diferenças em relação ao ambiente do hospedeiro no qual a população estava evoluindo antes do bottleneck [169, 170, 157]. 66 A diminuição característica da taxa replicativa média nos primeiros ciclos replicativos poderia refletir o surgimento, devido à atuação das mutações deletérias, de genótipos virais expressando capacidade replicativa menores em relação à capacidade replicativa da população fundadora do processo infeccioso. O aumento característico da taxa replicativa média nos demais ciclos replicativos poderia refletir o surgimento, devido à atuação das mutações benéficas e da seleção, de genótipos virais expressando maior capacidade replicativa. As mutações benéficas necessitariam de maior quantidade de ciclos replicativos para ocorrerem devido à taxa mutacional benéfica ser ordens de grandeza menor em relação à taxa mutacional deletéria [38-40], e devido ao tamanho da população e da progênie ser menor nos primeiros ciclos replicativos [169, 170]. A instabilidade característica das classes replicativas, e a diminuição característica da taxa replicativa média nos primeiros ciclos replicativos, poderiam relacionar-se também com as possíveis vantagens de se realizar a quimioprofilaxia nas primeiras horas após a exposição do organismo a um vírus. Estudos com modelos animais usando inoculação intravenosa, inoculação percutânea, e simulando exposição sexual a vírus, além de estudos com o uso de quimioprofilaxia em humanos que tiveram exposição recente, demonstram os benefícios dessa terapia para prevenir a transmissão viral [182]. Por exemplo, um estudo de caso-controle conduzido com profissionais da área da saúde sugeriu que o uso da zidovudina (AZT) depois da exposição percutânea a sangue infectado pelo HIV foi associado a uma significativa diminuição do risco de transmissão [179]. E estudos de transmissões verticais do HIV nas quais somente o recém-nascido recebeu tratamento anti-retroviral também demonstraram efeito protetor [180]. Entre as explicações conhecidas para o efeito protetor da quimioprofilaxia, está o tempo de 48 a 72hs que o HIV levaria para ser detectado no linfonodo, e o tempo de aproximadamente cinco dias que o vírus levaria para se disseminar e ser detectado no sangue. Esse período constituiria uma janela de oportunidade para o uso da quimioprofilaxia [181]. Estabelecendo relação entre o modelo e a evolução viral, outra explicação para o efeito protetor observado nos estudos citados seria a menor adaptação da população viral, nos primeiros ciclos replicativos após o bottleneck, ao ambiente do novo hospedeiro. Essa menor adaptação ocasiona a instabilidade nas classes replicativas (figura 11), diminuição na taxa 67 replicativa média (figura 24), tamanho da progênie e diversidade fenotípica menores (figuras 12, 17), e o aumento da quantidade de ciclos replicativos necessários para mutações benéficas ocorrerem e serem preservadas (figura 24). Tais efeitos, aliados à pressão seletiva dos medicamentos usados na quimioprofilaxia, acentuariam as chances de extinção da população viral. Durante o tempo de recuperação, observa-se também uma assimetria entre os efeitos da probabilidade mutacional deletéria, e os efeitos da probabilidade mutacional benéfica. Esta, embora mais rara que aquela, desempenha um papel significativo para a adaptação da população viral ao hospedeiro e para o prognóstico da infecção. Com a probabilidade mutacional deletéria fixa, os seguintes efeitos são observados conforme a probabilidade mutacional benéfica é aumentada em cada execução da simulação: A quantidade de ciclos replicativos necessários para a população atingir o equilíbrio mutação-seleção diminui a cada execução da simulação (figura 13); O tamanho da progênie, a diversidade fenotípica, e a taxa replicativa média aumentam (figura 13, 22, 26). Tais efeitos são vantagens adaptativas conferidas à população viral pelo aumento da probabilidade mutacional benéfica, pois permitiriam a população alcançar o equilíbrio mutação-seleção mais rapidamente, e gerar maior quantidade de partículas e diversidade. Todavia, estudos têm mostrado que o aumento da diversidade da população pode ocasionar maior virulência do vírus da poliomielite [183]; e que a carga viral elevada é um fator prognóstico importante para estimar o tempo de evolução para a AIDS em infecção pelo HIV [184]. Esses efeitos negativos para o organismo hospedeiro poderiam refletir negativamente na transmissibilidade viral à medida que diminuam o tempo de vida do hospedeiro. 68 Com a probabilidade mutacional benéfica fixa, aumento na probabilidade mutacional deletéria em diferentes execuções da simulação ocasiona os seguintes efeitos sobre a evolução da população modelada: A quantidade de ciclos replicativos necessários para a população atingir o equilíbrio mutação-seleção aumenta (figura 12); O tamanho da progênie e a taxa replicativa média diminuem (figura 12, 25); A diversidade fenotípica aumenta (figura 21). Os dois primeiros efeitos contribuem para um melhor prognóstico da infecção, e menor adaptabilidade da população viral [183]. O aumento da diversidade fenotípica contribui para a adaptabilidade da população e pior prognóstico [183]. Considerando a elevada frequência das mutações deletérias [38-40], e o melhor prognóstico associado a elas em relação às mutações benéficas, as mutações deletérias poderiam ser importantes fontes de diversidade e adaptabilidade para a população viral. Uma curva em forma de degraus é visualizada no gráfico da progênie (figura 29), diversidade fenotípica (figura 32), e taxa replicativa média (figura 31), quando a probabilidade mutacional benéfica q é definida para valor igual a 10-6, e a população inicial é composta por Z50 = 1. Cada degrau representa a quantidade de ciclos replicativos que a população permaneceu com uma mesma capacidade replicativa máxima instantânea Rmax até alcançar Rmax = R. Em paralelo com a evolução biológica, tal resultado obtido com o modelo poderia corresponder à evolução de uma população viral inicial com capacidade replicativa menor em relação à capacidade replicativa que ela expressará no equilíbrio mutação-seleção. 69 Cada degrau representaria o tempo, ou quantidade de gerações, necessário para uma mutação benéfica ocorrer e ser preservada na população. No modelo, aumento no tamanho da população inicial afeta o tamanho da progênie, porém não afeta o tempo de recuperação, a diversidade fenotípica, e a taxa replicativa média (figuras 16, 23, 28). Tal resultado é obtido porque a evolução de cada uma das partículas da população inicial constitui um processo de ramificação simultâneo e independente, conforme abordado no tópico 4.1. Comparando com o fenômeno biológico, o aumento do tamanho da população inicial modelada corresponderia a uma maior quantidade de partículas virais transmitida durante o evento de bottleneck, sendo essas partículas fenotipicamente homogêneas quanto ao fenótipo capacidade replicativa. No entanto, diferentemente dos resultados da simulação, o tempo para estabilização da população viral no novo ambiente poderia diminuir em relação a um evento de bottleneck que transmitisse menos partículas virais, pois embora essas partículas transmitidas fossem homogêneas quanto ao fenótipo capacidade replicativa, genotipicamente elas poderiam ser heterogêneas, o que favoreceria o surgimento de novas capacidades replicativas conforme a população se replicar. No modelo, se a população não tiver limite superior para aumento da capacidade replicativa, e se a probabilidade mutacional benéfica for maior que zero, espera-se que a população gere capacidades replicativas cada vez maiores. Na evolução viral, essa observação poderia corresponder a uma população viral evoluindo em um ambiente propício para a ocorrência de mutações benéficas, porém sendo necessário um tempo maior que o tempo de vida do organismo hospedeiro para a população atingir a capacidade replicativa máxima que ela conseguiria atingir em tal ambiente. Nesse cenário, a população viral não alcançaria o equilíbrio mutação-seleção. 4.2.2 EQUILÍBRIO MUTAÇÃO-SELEÇÃO 70 O equilíbrio mutação-seleção corresponde à fase avançada da infecção viral, quando a população viral conseguiu se reestabelecer no ambiente do novo indivíduo, recuperando tamanho, diversidade genotípica e fenotípica afetados pelo evento de bottleneck. Essa fase inicia-se ao término do tempo de recuperação, e durante ela, a população viral apresenta carga viral estável (set point) [2, 41, 177, 178]. Nos gráficos da progênie por ciclo replicativo, diversidade fenotípica por ciclo replicativo, e taxa replicativa média por ciclo replicativo, o equilíbrio mutação-seleção compreende o intervalo representado pelo platô da curva. Nos resultados da simulação computacional, o equilíbrio mutação-seleção caracterizase pela estabilidade da frequência relativa de partículas virais em cada classe replicativa (figura 33), e consequentemente, pela estabilidade do tamanho da progênie (figura 40), da diversidade fenotípica (figura 17), e da taxa replicativa média (figura 24). Essa estabilidade é mantida por meio de um constante fluxo de partículas de uma classe replicativa para as classes replicativas vizinhas, devido à atuação das probabilidades mutacionais deletéria e benéfica. Embora determinada classe replicativa perca constantemente, pela atuação da probabilidade mutacional deletéria, uma porcentagem do seu total de partículas para a classe replicativa imediatamente inferior, essa porcentagem perdida é reposta pela atuação da mesma probabilidade mutacional deletéria sobre a classe replicativa imediatamente superior. Semelhantemente, quando a probabilidade mutacional benéfica é maior que zero, determinada classe replicativa perde constantemente partículas para a classe replicativa imediatamente superior, porém essa quantidade perdida é reposta pela atuação da mesma probabilidade mutacional benéfica sobre a classe replicativa imediatamente inferior. A probabilidade mutacional neutra, por sua vez, contribui para determinada classe replicativa manter uma porcentagem do seu total de partículas, produzindo progênie com a mesma capacidade replicativa. Tal fluxo contínuo mantém a frequência relativa de partículas em cada classe replicativa estável durante o equilíbrio mutação-seleção. Comparando-se o modelo com a evolução viral, o fluxo contínuo de partículas entre as classes replicativas poderia refletir o incremento ou decremento, devido às taxas mutacionais e pressões do ambiente, da capacidade replicativa expressa pela progênie viral em relação à 71 capacidade replicativa expressa pelo genoma viral molde. Poderia refletir também a vinculação, ou rede funcional de variantes, entre variantes virais na paisagem adaptativa, característica prevista pela teoria de quasispecies virais. Segundo a teoria de quasispecies virais, a frequência de determinado genótipo na população viral é influenciada não somente pela sua capacidade replicativa, mas também pela probabilidade de ele ser gerado de novo na população devido a mutações de genótipos vizinhos dele na paisagem adaptativa [3]. O tamanho da progênie, a diversidade fenotípica, e a taxa replicativa média alcançam maior ou menor valor durante o equilíbrio mutação-seleção, e apresentam diferente padrão de desenvolvimento durante o tempo de recuperação, dependendo das probabilidades mutacionais deletéria e benéfica, da capacidade replicativa máxima instantânea e do tamanho da populacional inicial. A capacidade replicativa máxima instantânea e o tamanho da populacional inicial são características predominantemente endógenas da população viral, pois são definidas, respectivamente, pela composição e quantidade das partículas virais transmitidas no evento de bottleneck. As probabilidades mutacionais deletéria e benéfica, além de representarem características endógenas da população viral, também representam fatores do ambiente intracelular e extracelular do hospedeiro. Sendo assim, características apresentadas pela população viral no equilíbrio mutação-seleção, e o padrão de desenvolvimento dela durante o tempo de recuperação, poderiam variar dependendo da resposta do hospedeiro à infecção. Por exemplo, em um processo infeccioso marcado por forte resposta imunológica do hospedeiro, a população viral poderia se deslocar, via seleção, para regiões da paisagem adaptativa com diversidade fenotípica, tamanho da progênie e taxa replicativa média maiores. Esse deslocamento, além de possibilitar o escape ao sistema imunológico, poderia afetar atributos da progressão da infecção, como características clínicas de agudização ou cronificação. Considerando que os vírus desenvolveram diversas estratégias para usar a maquinaria macromolecular e a energia do organismo hospedeiro para entrar na célula alvo, transcrever seus mRNAs, replicar seu genoma, transportar seu genoma até o núcleo celular, inibir a transcrição celular, empacotar suas proteínas, entre outras necessidades de seu ciclo 72 replicativo [155], torna-se pertinente a hipótese de os vírus valerem-se, semelhantemente, das respostas do hospedeiro à infecção para alcançarem o patamar de diversidade, tamanho da progênie, e taxa replicativa média que melhor contribuiria para sua estabilização e transmissão. Com probabilidade mutacional benéfica maior que zero, a população modelada se estabiliza preenchendo aproximadamente as mesmas classes replicativas, e apresentando o mesmo tamanho da progênie, diversidade fenotípica, e taxa replicativa média, independente da variação na capacidade replicativa máxima da população inicial (figuras 38, 44, 47). Estabelecendo paralelo com a evolução viral, tal resultado sugere que as taxas mutacionais da população viral, juntamente com a resposta do hospedeiro à infecção, poderiam constituir uma assinatura importante para determinar as características da população viral durante o equilíbrio mutação-seleção. Com a probabilidade mutacional deletéria fixa, aumento na probabilidade mutacional benéfica em diferentes execuções da simulação ocasiona os seguintes efeitos sobre o equilíbrio mutação-seleção: O tamanho da progênie e a taxa replicativa média aumentam (figura 41, 46); A diversidade fenotípica aumenta até atingir um valor máximo, então diminui (figura 35); A classe replicativa com maior quantidade de partículas é a representada pela capacidade replicativa máxima instantânea Rmax (figura 49). Com a probabilidade mutacional benéfica fixa, aumento na probabilidade mutacional deletéria ocasiona os seguintes efeitos sobre o equilíbrio mutação-seleção no modelo: O tamanho da progênie e a taxa replicativa média diminuem (figura 41, 46); 73 A diversidade fenotípica aumenta até atingir um valor máximo, então diminui (figura 37); Com probabilidade mutacional benéfica fixa em valor suficientemente baixo, a classe replicativa com maior quantidade de partículas é uma classe replicativa de valor intermediário em relação às classes replicativas ocupadas pela população, e não a classe representada pela capacidade replicativa máxima instantânea Rmax (figura 33). Conforme a probabilidade mutacional benéfica aumenta, observa-se uma seleção das partículas da população viral favorecendo aquelas partículas com maior capacidade replicativa, ou seja, há a sobrevivência do mutante de maior fitness. Por outro lado, com a probabilidade mutacional benéfica suficientemente baixa, e conforme a probabilidade mutacional deletéria aumenta, observa-se um incremento das partículas da população viral com capacidade replicativa média, em detrimento do mutante de maior fitness. Juntamente com a sobrevivência do mutante de maior fitness observam-se características que poderiam ser associadas a um pior prognóstico, como aumento do tamanho da progênie, da diversidade fenotípica, e da taxa replicativa média [183, 184]. 4.2.3 LIMIAR DA E XTINÇÃO O limiar da extinção refere-se à fase da infecção viral em que a taxa mutacional é alta suficientemente para desestabilizar a população viral, evitando que ela alcance o equilíbrio mutação-seleção; e insuficientemente alta para induzir a extinção da população com absoluta certeza. Durante o limiar da extinção, incremento na taxa mutacional conduziria a população à extinção, enquanto decremento na mesma taxa permitiria a população alcançar o equilíbrio mutação-seleção. No modelo, o limiar da extinção caracteriza-se pela variação da frequência relativa de partículas nas classes replicativas, do tamanho da progênie (figura 50), da diversidade 74 fenotípica (figura 51), e da taxa replicativa média (figura 52); e pela possibilidade de eventual extinção da população ou sobrevivência dela por tempo indeterminado (figura 50, 53, 54). Em paralelo com a evolução biológica viral, a variação observada no modelo corresponderia à impossibilidade da população viral de preservar, devido às altíssimas taxas mutacionais, capacidades replicativas maiores em relação às já expressas por ela. Capacidade replicativa maior que as já expressas pela população seriam geradas devido às mutações benéficas (quando presentes), porém a preservação delas seria impossibilitada, pois as partículas expressando as novas capacidades replicativas teriam dificuldade de gerar cópias fidedignas delas mesmas. Observa-se no modelo, durante o limiar da extinção, uma correlação entre as frequências relativas de partículas nas classes replicativas, marcada pelo aumento da coerência da população, e pela propagação da mudança ocorrida na frequência relativa de uma classe replicativa para as demais classes replicativas. Comparando o resultado à evolução viral, essa forte correlação entre as classes replicativas ocorreria porque as altas taxas mutacionais tornariam a população sensível à flutuação na quantidade de partículas e capacidades replicativas durante o limiar da extinção. Assim, além do incremento das taxas mutacionais e pressões seletivas, flutuações estocásticas na quantidade de partículas da população ou nas capacidades replicativas podem ser decisivas para induzir a população à extinção durante o limiar da extinção. Quando a extinção ocorre durante o limiar da extinção, geralmente o declínio no tamanho da população e no tamanho da progênie até atingir valor zero é súbito, isto é, demanda poucos ciclos replicativos para ocorrer em comparação à quantidade total de ciclos replicativos que a população permaneceu evoluindo (figuras 53, 54). A extinção ocorreria subitamente durante o limiar da extinção devido à forte correlação existente entre as classes replicativas, com o declínio na quantidade de partículas sofrido por uma classe replicativa sendo rapidamente propagado para as demais classes replicativas. 4.2.4 MUTAGÊNESE LETAL 75 A mutagênese letal corresponde à fase da infecção viral em que o processo de extinção da população viral é induzido pelas altas taxas mutacionais. A mutagênese letal é tanto uma proposta de estratégia terapêutica antiviral, quanto um mecanismo de defesa natural da célula [13, 96, 106, 111, 116]. No modelo, o processo de mutagênese letal caracteriza-se pela variação das classes replicativas da população, com preenchimento paulatino das classes replicativas inferiores, e perda das classes replicativas superiores (figura 55); aumento do tamanho da progênie e da diversidade fenotípica nos primeiros ciclos replicativos, com declínio nos demais ciclos replicativos (figuras 56, 58); e declínio da taxa replicativa média (figura 57). Mesmo em processo de extinção, o tamanho da progênie e a diversidade fenotípica aumentam nos primeiros ciclos replicativos porque a população inicial se replica, aumentando de tamanho e ocupando maior quantidade de classes replicativas, antes de a população começar a gerar partículas com capacidade replicativa zero. Conforme maior quantidade de partículas com capacidade replicativa zero é gerada e as capacidades replicativas superiores são perdidas, o tamanho da progênie e a diversidade fenotípica da população diminuem até atingir valor zero. A taxa replicativa média apresenta declínio durante o processo de extinção porque, devido à alta probabilidade mutacional deletéria, as capacidades replicativas geradas pela população são inferiores em relação à expressa pela população inicial. Aumento na probabilidade mutacional deletéria diminui a quantidade de ciclos replicativos necessários para a extinção ocorrer, enquanto aumento na probabilidade mutacional benéfica pode evitar a extinção da população. E quanto maior a capacidade replicativa máxima instantânea da população viral, maior a probabilidade mutacional deletéria mínima para extinção da população (figura 59). Aplicando à evolução viral, aumento na taxa mutacional deletéria, ou no conjunto de pressões do organismo hospedeiro, reduziria o tempo necessário para extinção da população porque diminuiria a quantidade de partículas virais viáveis, e diminuiria consequentemente a possibilidade de a população gerar capacidades replicativas maiores que as já expressas por ela. Aumento na taxa mutacional benéfica, ou 76 diminuição de pressões do organismo hospedeiro, pode evitar a extinção da população ao possibilitar a produção de capacidades replicativas maiores. No modelo, variação na quantidade de partículas da população inicial não evita a extinção, apenas aumenta ou diminui a quantidade de ciclos replicativos necessários para a extinção ocorrer (figura 60). Na evolução da população viral, aumento na quantidade de partículas da população inicial pode diminuir a chance de extinção porque essa população conteria maior variação genotípica, o que favoreceria o surgimento de novos fenótipos conforme a população se replicar. Pela fórmula de extinção proposta por Bull e colaboradores [31], na ausência de mutações benéficas, a população se torna extinta quando a taxa de mutação deletéria for suficientemente alta para que a relação (1 – p) Rmax < 1 seja satisfeita. Na presença de mutações benéficas, desde que a probabilidade q seja suficientemente baixa, uma relação análoga à de Bull e colaboradores também existe, estabelecendo uma condição de mutagênese letal mesmo na presença de efeitos adaptativos sobre a população viral [190]. Com a probabilidade mutacional benéfica igual a zero, a população não consegue, evidentemente, alcançar capacidade replicativa máxima instantânea maior que a capacidade replicativa máxima da população inicial. Sendo assim, para a sobrevivência de uma população viral, as partículas virais transmitidas para o novo organismo hospedeiro via evento de bottleneck precisariam conter capacidade replicativa máxima instantânea compatível com as taxas mutacionais e demais pressões que a população viral será exposta. Por outro lado, como no início da infecção viral há menor resposta específica do organismo hospedeiro, as partículas virais transmitidas no evento de bottleneck poderiam ser favorecidas ao encontrar um ambiente com maior disponibilidade relativa de recursos e menor pressão seletiva. 77 5. CONCLUSÕES 5.1 Novas Contribuições Entre as novas contribuições do presente trabalho, destacam-se: 1. Desenvolvimento de um modelo fenotípico de evolução viral para estudar aspectos da dinâmica evolutiva de vírus RNA no ambiente do hospedeiro; 2. Desenvolvimento de um software de simulação computacional personalizado para o modelo; 3. Compilação dos dados obtidos com a simulação computacional do modelo; 4. Descrição do modelo como um processo de ramificação de Galton-Watson; 5. Apresentação de um critério analítico para o estudo do tempo de recuperação. 5.2 Perspectivas Futuras O presente trabalho representa, para os membros envolvidos com a concepção e implantação do mesmo, o início de uma linha de pesquisa que visa estudar a evolução dos vírus RNA utilizando como instrumental metodológico a modelagem computacional e matemática. Trata-se de uma linha de pesquisa consolidada em algumas instituições de pesquisa da Europa e Estados Unidos, com importantes resultados publicados, e em constante debate e colaboração internacionalmente [3-6, 27, 28, 31, 174]. Pretende-se submeter o conteúdo desenvolvido pelo presente trabalho a periódicos especializados em forma de três artigos: um artigo abordando a descrição matemática do 78 modelo, um artigo abordando as possíveis implicações biológicas dos resultados, e um terceiro descrevendo o software de simulação. Pretende-se também descrever matematicamente o modelo fenotípico completo assim como foi descrito matematicamente o modelo fenotípico simplificado (tópico 4.1), e submeter para publicação os resultados relevantes obtidos. O prosseguimento do trabalho far-se-á desenvolvendo um modelo genotípico para estudo da evolução dos vírus RNA. Esse modelo conterá representação dos genomas de cada partícula da população viral, os quais poderão ser definidos, por exemplo, usando sequências de nucleotídeo ou aminoácido disponíveis em banco de dados públicos, ou sequências de nucleotídeo ou aminoácido artificiais, criadas pelo usuário especificamente para os propósitos da simulação. As mutações corresponderão às substituições de base que eventualmente ocorrerão nas sequências durante a replicação. O ambiente no qual a população evoluirá poderá, conforme propósito e desenho da simulação, representar aspectos estruturais, funcionais e dinâmicos de componente celular, molecular e espacial que sugiram correspondência a componente biológico do organismo hospedeiro. A capacidade replicativa, e outras características fenotípicas da população viral que sejam apropriadas a modelagem, serão expressão da informação contida nos genomas de cada partícula, e da interação entre os fenótipos de cada partícula e os componentes do ambiente. Com esse modelo implantado em um software de simulação computacional personalizado, tornar-se-á possível projetar uma variedade de experimentos de modelagem, e extrair para análise uma ampla quantidade de dados, como, por exemplo, as sequências de nucleotídeo ou aminoácido de toda a população em determinado ciclo replicativo, as quais podem ser analisadas em ferramentas de análise filogenética. O acompanhamento detalhado da evolução dos componentes modelados computacionalmente poderá, assim como ocorreu com o estudo do modelo fenotípico realizado pelo presente trabalho, fornecer subsídio para a modelagem matemática dos componentes. A finalidade de tais estudos, tanto o relacionado ao modelo fenotípico, quanto os relacionados ao modelo genotípico, não é descrever detalhadamente como a evolução dos vírus RNA ocorre, mas sim compreender os motivos pelos quais certas regularidades são observadas. Espera-se que as predições teóricas propostas por eles possam, sobretudo, 79 contribuir para a interpretação de resultados experimentais obtidos e sugerir novos experimentos, os quais podem ser usados para refinar os estudos teóricos. 80 REFERÊNCIAS [1] Holland J, Spindler K, Horodyski F, Grabau E, Nichol S, et al. (1982) Rapid evolution of RNA genomes. Science 215: 1577–1585. [2] Eigen M (1971) Selforganization of matter and the evolution of biological macromolecules. Naturwissenschaften 58: 465–523. [3] Domingo E, Martin V, Perales C, Grande-Perez A, Garcia-Arriaza J, et al. (2006) Viruses as quasispecies: biological implications. Curr Top Microbiol Immunol 299: 51–82. [4] Domingo E, Sabo D, Taniguchi T, Weissmann C (1978) Nucleotide sequence heterogeneity of an RNA phage population. Cell 13: 735–744. [5] Batschelet E, Domingo E, Weissmann C (1976) The proportion of revertant and mutant phage in a growing population, as a function of mutation and growth rate. Gene 1: 27–32. [6] Domingo E, Baranowski E, Ruiz-Jarabo CM, Martin-Hernandez AM, Saiz JC, et al. (1998) Quasispecies structure and persistence of RNA viruses. Emerg Infect Dis 4: 521–527. [7] Duffy S, Shackelton LA, Holmes EC (2008) Rates of evolutionary change in viruses: patterns and determinants. Nat Rev Genet 9: 267–276. [8] Gerrish PJ, Garcia-Lerma JG (2003) Mutation rate and the efficacy of antimicrobial drug treatment. Lancet Infect Dis 3: 28–32. [9] Geisbert TW, Jahrling PB (2004) Exotic emerging viral diseases: progress and challenges. Nat Med 10: S110–121. [10] Fields BN, Knipe DM, Howley PM (2007) Fields‘ virology. Philadelphia: Wolters Kluwer Health/Lippincott Williams & Wilkins. 2 v. (xix, 3091, I-3086p.). [11] Watson, H.W. and Galton, F. (1874) On the probability of extinction of families. J. Anthropol. Inst. Great Britain and Ireland 4, 138–144. [12] Schaffer, H.E. (1970) in Mathematical Topics in Population Genetics (Kojima, K., ed.), pp 317–336, Springer-Verlag. [13] Biebricher C, Eigen M: The error threshold. Virus Res 2005, 107(2):117‐127. [14] McCaskill JS: A localization threshold for macromolecular quasispecies from continuously distributed replication rates. J Chem Phys 1984, 80(10):5194‐5202 81 [15] Swetina J, Schuster P: Self‐replication with errors : A model for polynucleotide replication. Biophys Chem 1982, 16(4):329‐345. [16] Swetina J: First and second moments and the mean Hamming distance in a stochastic replication‐mutation model for biological macromolecules. J Math Biol 1989, 27(4):463‐483. [17] Wiehe T: Model dependency of error thresholds: the role of fitness functions and contrasts between the finite and infinite sites models. Genet Res 1997, 69(02):127‐ 136. [18] Bonhoeffer S, Stadler PF: Error Thresholds on Correlated Fitness Landscapes. J Theor Biol 1993, 164(3):359‐372. [19] Tarazona P: Error thresholds for molecular quasispecies as phase transitions: From simple landscapes to spin‐glass models. Phys Rev A 1992, 45(8):6038. [20] Hermisson J, Redner O, Wagner H, Baake E: Mutation‐selection balance: ancestry, load, and maximum principle. Theor Popul Biol 2002, 62(1):9‐46. [21] Baake E, Gabriel W: Biological evolution through mutation, selection, and drift: An introductory review. In: Ann Rev Comp Phys VII. Edited by Stauffer D. Singapore: World Scientific; 2000: 203‐264. [22] Schuster P: Mathematical modeling of evolution. Solved and open problems. Theory Biosci 2010. [23] Eigen M: Error catastrophe and antiviral strategy. Proc Natl Acad Sci U S A 2002, 99(21):13374‐13376. [24] Eigen M, Schuster P: Stages of emerging life —Five principles of early organization. J Mol Evol 1982, 19(1):47‐61. [25] Bull JJ, Meyers LA, Lachmann M: Quasispecies made simple. PLoS Comput Biol 2005, 1(6):e61. [26] Summers J, Litwin S: Examining The Theory of Error Catastrophe. J Virol 2006, 80(1):20‐26. [27] Wilke CO: Quasispecies theory in the context of population genetics. BMC Evol Biol 2005, 5(44). [28] Campos PRA, Adami C, Wilke CO: Optimal adaptive performance and delocalization in NK fitness landscapes. Physica A 2002, 304(3‐4):495‐506. 82 [29] Takeuchi N, Hogeweg P: Error‐threshold exists in fitness landscapes with lethal mutants. BMC Evol Biol 2007, 7(15). [30]. Nowak MA, Schuster P: Error thresholds of replication in finite populations mutation frequencies and the onset of muller's ratchet. J Theor Biol 1989, 137(4):375‐395. [31] Bull JJ, Sanjuan R, Wilke CO: Theory of lethal mutagenesis for viruses. J Virol 2007, 81(6):2930‐2939. [32] Domingo, E. Quasispecies: From molecular Darwinism to viral diseases. Contrib. Sci. 2009, 5,. 161–168. [33] Kimmel and D. Axelrod, Branching Processes in Biology. New York: Springer-Verlag, 2002, pp. 80-83. [34] Aguirre J, Lázaro E, Manrubia SC. A trade-off between neutrality and adaptability limits the optimization of viral quasispecies. J Theor Biol. 2009 Nov 7;261(1):148-55. [35] Telesnitsky, A.; Goff, S. Retroviruses. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY, USA, 1997; p 121-160. [36] Parera, M., Fernandez, G., Clotet, B., Mart´ınez, M.A., 2007. HIV-1 protease catalytic efficiency effects caused by random single aminoacid substitutions.Mol.Biol. Evol. 24, 382– 387. [37] Carrasco, P., de la Iglesia, F., Elena, S.F., 2007. Distribution of fitness and virulence effects caused by single-nucleotide substitutions in Tobacco Etch virus. J.Virol. 81,12979– 12984. [38] Keightley, P.D., Lynch, M., 2003.Toward a realistic model of mutations affecting fitness. Evol. Int. J. Org. Evol. 57, 683–685. [39] Orr, H.A., 2003. The distribution of fitness effects among beneficial mutations. Genetics 163, 1519–1526. [40] Miralles, R., Gerrish, P.J., Moya, A., Elena, S.F., 1999. Clonal interference and the Evolution of RNA viruses. Science 285, 1745–1747. [41] Eigen, M. & Schuster, P. (1977). The hypercycle. A principle of natural selforganization. Part A: emergence of the hypercycle. Naturwissenschaften, 64, 541–565. [42] Sanjuán R, Moya A, Elena SF (2004) The distribution of fitness effects caused by singlenucleotide substitutions in an RNA virus. Proc Natl Acad Sci USA 101: 8396–8401. 83