- GEnEtica cardiovaScular TEXTO_ Mafald a Bourbon Mafalda Borbon INTRODUÇÃO À GENÉTICA MOLECULAR Doutorada em Ciências Clínicas pelo Imperial College, School of Medicine, especialidade em Genética Cardiovascular. Coordenadora da Unidade Investigação Cardiovascular, Centro de Biopatologia do Instituto Nacional de Saúde Dr Ricardo Jorge. Vogal do Grupo de Estudo de Biologia Celular e Genética Cardiovascular da SPC. Coordenadora de Estudo Português de Hipercolesterolemia Familiar . Resumo do artigo Neste e nos próximos números serão abordados vários temas relacionados com a genética cardiovascular: os primeiros terão um carácter mais geral, e serão sobre noções básicas de genética e, os seguintes, serão sobre temas específicos como a genética das miocardiopatias, genética da hipercolesterolemia familiar, genética da hipertensão e genética das malformações congénitas. 70 Nas nossas células o DNA está localizado no núcleo e está empacotado em 46 cromossomas, 23 herdados da mãe e 23 herdados do pai, dando origem a uma combinação única, ou seja, um indivíduo único. Cada cromossoma é constituído por DNA, que por sua vez é dividido em diferentes regiões, chamadas genes, e o conjunto de toda a informação genética armazenada nos cromossomas constitui o que chamamos o genoma. A informação genética de uma célula consiste em milhares de genes, e cada gene codifica, na maioria dos casos, para uma só proteína. As proteínas realizam importantes funções celulares, ou servem como blocos de construção. A informação contida nos genes determina a composição das proteínas, e deste modo as funções da célula. O genoma humano contém 3x109 pares de bases de DNA, que codificam para cerca de 105 proteínas diferentes. Só cerca de 2-4% da capacidade total de codificação do DNA humano é usada para codificar os diferentes genes, a restante tem provavelmente funções estruturais e organizativas. Para se poder entender como é que o DNA (ácido desoxirribonucleico) dirige a síntese de RNA (ácido ribonucleico), que por sua vez dirige a formação das proteínas, é necessário primeiramente conhecer a estrutura dos ácidos nucleicos envolvidos, o DNA e o RNA (secção 1). O conceito de gene também é importante (secção 2), para que depois possam ser 71 introduzidos os mecanismos que tornam todo este processo possível (secção 3). Quando ocorre um erro gerado por uma falha num destes mecanismos, este erro ou mutação pode dar origem a uma doença genética (secção 4). 1. Estrutura dos ácidos nucleicos O DNA e o RNA têm grandes semelhanças químicas. Na sua estrutura primária são ambos polímeros lineares, compostos por monómeros, denominados nucleótidos. Em termos de tamanho, os RNAs celulares podem ser constituídos por menos de 100 até milhares de nucleótidos, os DNAs celulares podem ser muito longos, podendo chegar a conter milhões de nucleótidos. Tanto o DNA como o RNA contêm somente 4 nucleótidos diferentes. Todos os nucleótidos têm uma estrutura comum: um grupo fosfato ligado por uma ligação fosfodiester a uma pentose (uma molécula de açúcar de 5 carbonos), que por sua vez se liga a uma base orgânica. No RNA a pentose é a ribose e no DNA é a desoxirribose. Existe também uma diferença numa das 4 bases orgânicas que compõem o DNA e o RNA: as bases adenina (A), guanina Fig 1 DNA. A dupla hélice de DNA é formada por duas cadeias complementares de nucleótidos, formados por um grupo fosfato ligado por uma ligação fosfodiester a uma pentose e uma base orgânica, emparelhadas de forma antiparalela (uma no sentido 5'◊3', a outra no sentido 3'◊5'). O emparelhamento é mantido por duas ligações de hidrogénio entre as bases A e T e três ligações de hidrogénio entre as bases G e C. (G), citosina (C) são encontrados tanto no DNA como no RNA, mas a Timina (T) só é encontrada no DNA e o Uracilo (U) só é encontrado no RNA. As bases G e A denominam-se purinas e as bases C, T e U denominam-se pirimidinas (Figura 1). A nível da estrutura estas moléculas também têm uma estrutura diferente. A molécula de DNA tem uma estrutura de cadeia dupla. As duas cadeias da hélice são complementares uma à outra, o que quer dizer que cada cadeia de DNA contém informação para a síntese de uma nova cópia da cadeia complementar. A dupla hélice de DNA é formada por açúcares desoxirribose de 5 carbonos - ligados por ligações fosfodiester, formando duas cadeias de um esqueleto açúcar-fosfato no exterior da dupla hélice. A cadeia dupla é sustentada pelo emparelhamento entre as duas cadeias: O G emparelha sempre com um C, através de 3 ligações de hidrogénio e o A emparelha sempre com o T, através de 2 ligações de hidrogénio (Figura 1). A molécula de RNA apresenta uma estrutura de cadeia simples. Em todos os processos que envolvem moléculas de DNA e RNA, a leitura das cadeias é feita no sentido 5' (extremidade fosfato) 3' (extremidade hidroxil) (figura 1). 2 Gene Um elemento funcional e transmissível do genoma é denominado gene, e contém a sequência de DNA que codifica para uma proteína (ou mais que uma em alguns casos). A sequência codificante das proteínas é na maioria dos genes interrompida por blocos de sequência não codificante, estes blocos chamam-se intrões, enquanto que os blocos codificantes são denominados exões. Os intrões são removidos por um processo chamado Fig 2 de modo a que as células filhas recebam uma cópia de todo o genoma da célula mãe. Para que isto seja possível, através de um mecanismo complexo, o DNA das células é copiado antes da célula se dividir. Assim cada célula filha recebe uma cópia exacta do DNA da célula que se dividiu. Esta duplicação do DNA é chamada de replicação. A hélice de DNA é formada por duas cadeias complementares de DNA, sendo que cada cadeia serve de molde para a síntese de uma outra cadeia complementar (Figura 3). Em condições normais o DNA é empacotado numa estrutura compacta chamada cromatina. Para que o DNA seja replicado as duas cadeias têm Correspondência entre a sequência de nucleótidos na cadeia de DNA, os nucleótidos do RNA e os aminoácidos da cadeia polipeptídica. splicing. O promotor é um importante elemento funcional de um gene. É aqui que a RNA polimerase se liga para iniciar a transcrição, ou seja, a síntese de uma molécula de RNA, que é uma cópia da sequência de DNA. A iniciação da transcrição é um processo altamente regulado. Só uma pequena percentagem dos genes em cada célula é transcrita, sendo a maioria destes transcritos numa frequência baixa. Somente um pequeno grupo de genes que codificam para proteínas altamente expressas são transcritos com uma alta frequência. células filhas, e de uma geração para outra. Para que tal aconteça o DNA é duplicado antes de uma célula se dividir (replicação). Quando são necessárias proteínas, os genes correspondentes são transcritos para RNA (transcrição). Nas células eucariotas o RNA tem de ser processado, para que as partes não codificantes sejam removidas (processamento), e depois é transportado para fora do núcleo (transporte). Fora do núcleo, as proteínas são formadas com base no código contido no RNA (transdução) (Figura 2). 3 DNA RNA proteína 3.1 Replicação do DNA Todas as células têm de conter DNA. Antes de uma célula se dividir tem de replicar o seu DNA, O DNA é transmitido de uma célula para as suas Fig 3 Adaptado de P. Berg and M. Singer, 1992, Dealing with Genes, The Language of Heredity, University Science Books 72 Adaptado de T. Strachan and A. P. Read, 1999, Human Molecular Genetics 2, 2nd ed., Garland Science A molécula de DNA, constituída por duas cadeias complementares antiparalelas, é desenrolada pela acção de proteínas do complexo de replicação e cada uma das cadeias serve de molde para a síntese de novas cadeias complementares. Cada moléculafilha de DNA contém uma cadeia parental e uma nova cadeia de DNA, resultando numa replicação semi-conservativa. 73 Fig 4 .Mecanismo de transcrição para a síntese de RNA. O RNA é transcrito como uma molécula de cadeia simples, com uma sequência de bases complementar à cadeia molde do DNA de um gene, com substituição das bases de timina por uracilo. Para o reconhecimento da região de início da transcrição, o promotor, é necessária a ligação de vários factores de transcrição que posteriormente vão permitir a ligação da RNA polimerase e o início da transcrição. de ser separadas. As células possuem uma complexa maquinaria para desenvolverem este processo. Quando é chegada a altura de replicar, proteínas de iniciação ligam-se ao DNA, em regiões denominadas origem de replicação. Estas regiões são caracterizadas por terem uma ligação fraca entre as duas cadeias de DNA. Há cerca de 10 000 origens de replicação no DNA de uma célula, aumentando deste modo a taxa de replicação. As proteínas de iniciação separam as duas cadeias e deixam um pequeno espaço onde é criada a origem da replicação. Quando as cadeias estão separadas outro grupo de proteínas liga-se a cada cadeia e começam a replicação. Para completar este processo de replicação as células têm mecanismos para corrigir erros que por vezes ocorrem durante a replicação do DNA, a este mecanismo chama-se sistema de reparação do DNA. Problemas nestes processos, de cópia e reparação, resultam numa falha de replicação e manutenção da integridade do DNA. Esta falha pode ter consequências desastrosas, como o desenvolvimento de cancro, ou se esta mutação ocorrer nas células germinais, pode dar origem a uma mutação em determinado gene, que será depois transmitida de geração em geração. (Ver secção 4). Desta maneira a replicação constitui a condição fundamental para o crescimento biológico (através da divisão celular) e transmissão da informação genética, do DNA, de geração para geração. 3.2 Transcrição (RNA) Em todas as células eucariotas o DNA nunca sai do núcleo, o código genético (os genes) são copiados para RNA no núcleo, que é depois descodificado (traduzido) em proteínas no citoplasma. No processo de transcrição, a informação armazenada no DNA é copiada para o RNA, que tem 3 papeis distintos na síntese proteica. O RNA mensageiro (mRNA) contém as instruções do DNA que especificam a ordem correcta de aminoácidos durante a síntese proteica, o RNA de transferência (tRNA) que transporta os aminoácidos até aos ribossomas onde se realiza a síntese proteica e o RNA ribossomal (rRNA) que é um constituinte do ribossoma. No processo da transcrição normalmente só uma das duas cadeias de DNA é que serve de molde para a síntese de RNA. Durante a transcrição a cadeia dupla de DNA é aberta e a cadeia de DNA que servirá de molde para a síntese de RNA forma uma cadeia dupla transitória, um híbrido DNA-RNA, com a cadeia crescente de RNA (Figura 4). 3.3 Processamento Os passos iniciais no processamento de todos os transcritos primários de RNA (pré-mRNA) ocorrem nas duas extremidades da molécula e estas modificações são essenciais para a obtenção de um mRNA estável. Uma nova cópia de mRNA de um determinado gene, denominado de pré-mRNA, antes de sofrer o processamento deve passar por 3 modificações (ainda antes de sair do núcleo e ser traduzido numa proteína): 1 Capping - este processo ocorre antes da transcrição estar concluída. Um nucleósido metilado (7-metilguanosina) liga-se à extremidade 5' do RNA. Pensa-se que esta modificação facilite o transporte do RNA do núcleo para o citoplasma, sendo importante para o início da síntese proteica e servindo como estabilizador, protegendo o mRNA de da identificação das zonas de splicing, nas fronteiras intrão/exão. Em particular este mecanismo é dependente da regra chamada de GT-AG: os intrões quase sempre começam com GT (ou GU a nível do pré mRNA) e terminam em AG. Embora os nucleótidos GT (GU) e AG sejam cruciais para o splicing, por si só não são suficientes para sinalizar a presença de um intrão. A comparação de variadas sequências revela que as sequências adjacentes aos dinucleótidos GT e AG mostram um elevado grau de conservação. Existe também uma terceira região intrónica conservada, funcionalmente importante no splicing, denominada branch site, que é normalmente localizada muito perto do fim do intrão, a cerca de 40 nucleótidos antes do dinucleótido terminal AG. A maioria dos mRNAs eucarióticos contém também regiões não codificadas nas duas extremidades; estas são referidas como 5' e 3' regiões não codificantes (UTRs - untranslated regions). degradação enzimática. 2 Cauda poli-A - uma enzima especial (poli-A polimerase) liga uma cadeia de 150-200 nucleótidos de adenina à extremidade 3' do pré-mRNA, imediatamente depois da transcrição. Pensa-se que a cauda poli (A) tenha várias funções: facilite o transporte para o citoplasma, aumente a estabilidade do mRNA, e deste modo prolongue o tempo de vida da molécula de RNA e talvez facilite a tradução, permitindo um melhor reconhecimento do mRNA pela maquinaria do ribossoma. 3 Splicing - o processo final do processamento do pré-mRNA é a remoção de sequências não codificantes, os intrões, seguido da ligação dos exões, para criar o mRNA, contendo somente as sequências que codificam para a proteína. Este processo é realizado pelo spliceossoma. O spliceossoma é um complexo especial formado por proteínas e por moléculas catalíticas, os snRNAs (RNAs pequenos e nucleares). O mecanismo de splicing do RNA é dependente Quadro I GCA GCC GCG GCU AGA AGG GGA CGA GGC AUA CGC CGG GAC AAC UGC GAA CAA GGG CAC AUC CGU GAU AAU UGU GAG CAG GGU CAU AUU UUA UUG CCA CUA CCC CUC UUC CCG CUG AAA CUU AAG AUG UUU CCU AGC AGU UCA UCC UCG UCU GUA ACA GUC UAA ACC ACG UAC GUG UAG ACU UGG UAU GUU UGA Ala Arg Asp Asn Cys Glu Gin Gly His IIe Leu Lys Ser Thr Trp Tyr A R D C E Q G H I L K S T W Y N Met Phe Pro M F P Val stop V Código genético. A informação contida na sequência de nucleótidos dos genes traduz-se, numa fase final, em aminoácidos através da leitura de codões (conjunto de 3 nucleótidos) no mRNA. Apesar de existirem todas as combinações possíveis entre os 4 nucleótidos (A, C, G, T/U), existe redundância do código genético fazendo com que apenas se codifiquem 20 aminoácidos diferentes, para além dos codões stop. 74 3.4 Transporte Uma vez que o DNA é transcrito em mRNA no núcleo e a síntese proteica ocorre no citoplasma, o mRNA tem de sair do núcleo e ir para o citoplasma. O ambiente do núcleo é diferente do ambiente do citoplasma. Para separar estes dois ambientes diferentes o núcleo está rodeado por uma membrana dupla, e a única ligação com o citoplasma circundante é através de canais chamados complexo poronuclear (NPC, nuclear pore complex). Quando chega a altura do mRNA sair do núcleo, pensa-se que o mRNA é etiquetado por proteínas que servem como sinais de exportação, dirigindo o mRNA para o complexo poro-nuclear pelo qual o mRNA sairá. O mRNA e estas proteínas de exportação ligam-se a receptores de exportação e e o complexo total (RNA, proteínas receptores de exportação) é translocado através do complexo poro-nuclear. O mRNA é libertado para o citoplasma e fica imediatamente disponível para a próxima fase: a tradução. 3.5 Tradução da proteína A tradução é a síntese de proteínas dirigida por um molde de mRNA e é também o passo final de todo este processo complexo. A tradução é dependente de uma série de componentes, dos quais dois são extremamente importantes. O primeiro é o ribossoma, a fábrica celular responsável pela síntese proteica, e que consiste em duas subunidades diferentes, uma pequena e outra grande, e é constituído por rRNA e proteínas. O segundo componente é o RNA de transferência, tRNA, uma molécula de 75 RNA especializada que transporta um aminoácido numa extremidade e tem um tripleto de nucleótidos, chamado de anti-codão, na outra extremidade. O processo da tradução pode então ser dividido em 3 fases: iniciação, alongamento e terminação. A informação contida na sequência de nucleótidos de uma molécula de mRNA é lida em sequências de 3 nucleótidos, denominados codões. A cada codão corresponde um aminoácido, apesar de um determinado aminoácido poder ser codificado por diferentes codões como resultado da redundância do código genético (Quadro 1). O codão AUG que codifica para a metionina, funciona como o codão de iniciação para a maioria dos mRNAs. Um aspecto crítico para a iniciação deste processo, é começar a síntese proteica no codão de iniciação, estabelecendo assim a grelha de leitura correcta (in frame) para a tradução do mRNA. O reconhecimento do local de início da transcrição pela subunidade pequena do ribossoma (30S) requer diferentes factores. A maioria dos mRNA tem um sítio único de iniciação perto da extremidade 5'cap. A interacção do ribossoma com esta Fig 5 Ribossoma Cadeia aa 1 aa 2 aa (rRNA+proteína) 3 polipetidica aa 4 aa crescente 6 aa 5 aa 7 tRNA mRNA 5‘ tRNA4 a abandonar C o ribossoma C C aa7-tRNA7 C A G a entrar no ribossoma U U U A G C G G G A A A A U C G G UC 3‘ codão codão codão codão codão codão codão aa2 aa3 aa5 aa6 aa7 aa1 aa4 Fase de alongamento da tradução. Estão representados os três papeis do RNA na síntese proteica. O RNA mensageiro (mRNA) é traduzido em proteína pela acção conjunta do RNA de transferência (tRNA) e do ribossoma, que é composto por numerosas proteínas e RNAs ribossomais. Adaptado de A. J. F. Griffiths et al., 1993, An Introduction to Genetics Analysis, 5th ed., W. H. Freeman extremidade metilada 5´cap, que será removida, inicia este processo. Quando a unidade pequena ribossomal ligada ao MettRNAiMet está correctamente posicionada no codão de iniciação, a sua união com a grande subunidade ribossomal (60S) completa a formação do complexo ribossomal 80S de iniciação. Este complexo está agora pronto para começar a fase de alongamento, ou seja a adição de aminoácidos pela tradução in frame do mRNA (Figura 5). Os passos principais do processo de alongamento são: a entrada de sucessivos tRNAs associados a aminoácidos, a formação de uma ligação peptídica entre aminoácidos adjacentes e o movimento ou translocação do ribossoma ao longo mRNA. O anti-codão de um Fig 6 DNA Cromossomal Transcrição Transcrito primário (pré-mRNA) Processamento do RNA Núcleo 5‘ 3‘ mRNA Citoplasma rRNA RNA´S Citoplasmaticos Ribossoma mRNA tRNA Tradução N C N Processamento pós-traducional C Proteínas Intracelulares (citoplasmáticas, nucleares, outros organelos) Proteínas Secretadas .Expressão génica nas células eucarioticas. A expressão da informação genética em todas as células é, maioritariamente, um sistema unidireccional: o DNA especifica a síntese de RNA e este, por sua vez, dirige a síntese de polipéptidos para a formação de proteínas. Na maioria das vezes estas proteínas têm ainda de uma série de processos para serem depois direccionadas para o seu local especifico na célula. Devido a esta universalidade, o fluxo de informação genética em DNA◊ RNA◊ proteína é descrito como o dogma central da biologia molecular. tRNA emparelha e forma ligações químicas, com o codão de 3 nucleótidos do mRNA. Deste modo o tRNA actua como o tradutor entre o mRNA e a proteína, trazendo o aminoácido específico codificado pelo codão de mRNA. Durante esta fase da tradução os aminoácidos são ligados entre si, dentro do ribossoma, e formam uma cadeia polipeptídica através de reacções bioquímicas múltiplas, que assumirá posteriormente a forma de uma proteína (Figura 5). O fim da tradução de uma proteína chega quando o ribossoma encontra um dos 3 codões de terminação (stop) representados na Tabela 1. Apesar da síntese proteica ser o passo final da expressão génica (Figura 6), a tradução do mRNA é só o primeiro passo para a formação de uma proteína funcional. A cadeia polipeptídica formada tem depois de adoptar a estrutura tridimensional apropriada e, na maioria das vezes, ainda tem de sofrer uma série de processos até ser convertida na sua forma activa. Estes processos, particularmente nos eucariotas, estão intimamente ligados à determinação da localização e transporte das diferentes proteínas para o seu destino final. 4 Tipos e mecanismos de mutação Alterações na sequência de DNA durante alguns dos processos aqui apresentados, por exemplo na replicação e splicing, podem levar ao aparecimento de mutações que causem doenças, como acontece na Hipercolesterolemia Familiar, já abordada do ponto de vista clínico, no primeiro número desta revista e de que ainda voltaremos a falar. Existem vários tipos de mutações: 1. mutações missense ou pontuais, alteração de um nucleótido que leva à alteração de um aminoácido; 2. mutações nonsense ou stop, alteração de um nucleótido que leva ao 76 aparecimento prematuro de um dos 3 codões stop, levando à terminação precoce da síntese da proteína; 3. pequenas deleções (del) e/ou inserções (ins), deleção ou inserção de um pequeno número de nucleótidos que poderão ou não alterar a grelha de leitura da sequência do mRNA. Quando a deleção ou inserção é de 3 ou múltiplos de 3 nucleótidos, diz-se que é uma del/ins in frame pois não altera a grelha de leitura. Outras combinações de deleção e/ou inserção de nucleótidos levam à alteração da grelha de leitura resultando na maioria dos casos no aparecimento precoce de um codão stop, ou seja, a terminação precoce da síntese da proteína. Estas mutações que não ocorrem in frame podem ser são também denominadas de mutações frameshift pois alteram a grelha de leitura do mRNA. 4. grandes deleções e inserções - deleção ou inserção de grandes sequências de nucleótidos, que ocorrem normalmente em regiões repetitivas do gene, muitas vezes devido a recombinação entre sequências repetitivas Alu, comuns no nosso genoma; 5. mutações de splicing - alteração de um dos nucleótidos nas regiões conservadas de splicing, ou locais críticos nos exões que vão levar ao splicing incorrecto do mRNA, levando na maioria das vezes à deleção de um exão completo, processo também denominado de skipping, ou então à retenção de parte de um intrão que também poderá levar ao aparecimento precoce de um codão stop, ou seja a terminação precoce da síntese da proteína. As mutações missense são as mais comuns na maioria das doenças genéticas, mas 77 também as mais difíceis de identificar como causadoras de doença, sendo necessário recorrer a estudos funcionais in vitro, para atestar que são patogénicas. Para que se possa provar que as mutações de splicing alteram na realidade o splicing do mRNA, também é necessário a realização de estudos de RNA do doente, ou em sistemas heterologos. Todas as outras mutações que levam ao aparecimento precoce de um codão stop ou à deleção e/ou inserção de um pequeno ou grande número de nucleótidos numa região que codifica para uma parte importante da proteína, não necessitam da realização de estudos funcionais, uma vez que a proteína produzida nunca terá a função completa e na maioria dos casos este tipo de mutações leva mesmo à instabilidade do RNA, que acaba por ser degradado na célula. Todos estes processos aqui descritos são complexos, mas tão bem codificados que raramente ocorrem erros na transcrição da informação genética nas células. Se ocorre um erro num gene (ou seja uma mutação), esse erro vai condicionar o funcionamento de uma determinada proteína, podendo ser mais ou menos grave. Mas estes processos são de tal maneira regulados que, a ocorrência de um erro genético de novo é raro. Habitualmente as alterações encontradas num indivíduo são herdadas de um dos progenitores e depois transmitidas aos descendentes. É por isso que se fala em doenças familiares ou genéticas. Mafalda Bourbon Bibliografia • Lodish H, Berk A, Zipursky SL, Matsudaira P, Baltimore D, Darnell JE. 1999. Nucleic Acids, the Genetic Code, and the Synthesis of Macromolecules; DNA Replication, Repair, and Recombination. In: Molecular Cell Biology. Fourth Edition. New York, W. H. Freeman & Co. •Griffiths AJF, Miller JH, Suzuki DT, Lewontin RC, Gelbart WM. 1999. Molecular Biology of Gene Function. In: An Introduction to Genetic Analysis. Seventh Edition. New York, W. H. Freeman & Co. •Strachan T, Strachan R, Andrew P. 1999. DNA structure and gene expression. In: Human Molecular Genetics 2. Second edition. New York, Garland Science. •Alberts B, Johnson A, Lewis J, Raff M, Roberts K, Walter P. 2002. Basic Genetic Mechanisms. In: Molecular Biology of the Cell Fourth Edition. New York, Garland Science •Berg P and Singer M. 1992. In: Dealing with Genes, The Language of Heredity. University Science Books, Mill Valley, CA. Agradecimentos Agradece-se à Dra. Sonia Silva (Unidade de Investigação Cardiocascular, CBP, INSA) a criação e adaptação das figuras que acompanham este artigo.