Biologia Computacional Análise de Dados de Microarrays João Marques 58513 Joana Nunes 58497 Miguel Amador 58484 10 de Novembro de 2009 Objectivos O objectivo deste trabalho laboratorial foi a análise de dados de microarrays através de ferramentas informáticas onde se procedeu à identificação de clusters usando o software Genesis e posterior caracterização e identificação dos mesmos. 1. Análise de Dados – Identificação de Cluster a. Quais as considerações sobre a importância do passo de filtragem? A detecção de um sinal está sempre associada à possibilidade de existência de ruído. Assim, a filtragem configura-se como um passo importante na melhor detecção das posições com sinal, de forma a atenuar o ruído que pode resultar, por exemplo de: eficiência das sondas que foram usadas no chip para detecção de fragmentos, as quantidades específicas dos vários tipos de mRNA não serem directamente resultado da produção dos mesmos no interior da célula, ou mesmo erros de leitura do aparelho. Fazendo a filtragem, conseguimos um resultado mais próximo da realidade, retirando a maioria do ruído que possa estar a alterar os resultados. A filtragem é ainda um passo importante para uma normalização dos resultados, restringindo as posições de interesse em análise, tornando o processo mais eficaz. b. Qual foi o resultado para este exemplo em particular? A filtragem utilizada foi baseada em missing values. Este processo consiste em colocar o software a analisar todas as colunas de uma linha, retirando as que não apresentassem sinal num determinado número mínimo de colunas. Neste exemplo em particular, usámos um factor de 17, uma vez que os dados da nossa análise continham 17 colunas. Assim, o sinal tinha de ser detectado em todas as colunas de uma linha para que esta não seja retirada pelo filtro. O uso de um factor mais baixo levou a um número de genes obtidos muito mais elevado, aumentando a complexidade do processamento dos mesmos. c. Após salvar os dados normalizados compare com o original. Há alguma diferença? O processo de normalização global, feito usando a função específica do software, permite compensar as diferenças observadas ao nível do material, procurando estatisticamente restringi-las. Este processo de normalização consistiu no cálculo da 1 Trabalho 4 Análise de Dados de Microarrays Biologia Computacional média do sinal de todo o chip, colocando cada posição pela ordem do valor obtido para essa média, procurando assim igualar as intensidades médias. Nos dados normalizados, observamos então uma alteração das intensidades em relação ao original, motivado pela alteração da escala. A normalização, para além de permitir uma maior precisão na avaliação da expressão individual do material genético em cada posição, permite a comparação de genes idênticos de diferentes experiências. d. Como podemos obter clusters usando o dendograma obtido com a análise HCA? A HCA é um método de construção de um dendograma em que os clusters são obtidos pela análise do dendograma e não de uma forma directa. A análise HCA vai basear-se numa dada função de semelhança ou característica que relacione dois objectos e vai construindo o dendograma, ligando-os de forma gradual. Assim observa-se que dois ou mais objectos agrupados num determinado nível, continuam agrupados num nível superior. A comparação recorre a um dos seguintes algoritmos: algoritmo de ligação única (single-link); algoritmo de ligação completa (complete-link) e algoritmo de ligação por média (average-link). Neste caso fizemos uso do average-link pela pouca sensibilidade que apresentam para resultados díspares dos restantes. A obtenção dos clusters pode ser, assim, feito pelo corte horizontal no dendograma ao nível do nó que contempla o número de clusters que se pretende. Assim o número de clusters depende da altura a que se faz o corte. Um exemplo de corte por forma a obter 3 clusters a partir de um dendograma é o representado na Figura 1: Figura 1 – Exemplo de corte num Dendograma obtido por HCA Na Figura 1, nota-se que temos um cluster composto por A, B e C, outro composto por D, E e F, e um terceiro que tem apenas G. Se fosse nosso objectivo obter mais cluster, cortaríamos o dendograma mais à direita. 2 Trabalho 4 Análise de Dados de Microarrays Biologia Computacional e. Qual é a diferença entre o número de clusters que podem ser extraídos usando o HCA e o número de clusters obtidos usando o K-means? O algoritmo K-means obriga à parametrização inicial do número de clusters a serem considerados no agrupamento dos genes através de um processo iterativo, através do número k, o que representa uma desvantagem em relação ao HCA. No início do processo iterativo, o K-means divide os objectos em k conjuntos, de forma a, em cada iteração, sejam calculados os k centróides correspondentes aos k conjuntos. Posteriormente, recalcula a partição dos objectos pelos k conjuntos, sendo que cada objecto é atribuído ao conjunto de cujo ponto centróide está próximo, através de uma função de distância dada. As iterações acabam quando já não houver alterações nas partições. Nota-se assim a importância do parâmetro k estar pré-definido. Por outro lado, no algoritmo HCA, pode ser obtido qualquer número de clusters, por corte no dendograma de forma apropriada. Isto pode ser feito pelo algoritmo através de uma percentagem de semelhança, por exemplo, que define o local onde o dendograma é cortado. 2. Ferramentas para pesquisa de motivos a. Baseado nos resultados obtidos em submissões anteriores no YEASTRACT, comente a importância e o significado biológico do cluster de genes em análise. A ferramenta YEASTRACT foi por nós utilizada para agrupar genes, tanto com base no Gene Ontology (GO), como nos Transcription Factors (TF). O conjunto de genes utilizados tanto numa das análises como na outra foi o conjunto de genes obtido através do software GENESIS, com o algoritmo k-means. O agrupamento dos genes por GO foi feito em processos biológicos e aos níveis 2 e 4. Os resultados, representados na Figura 2 e na Figura 3, são, como seria de esperar, bastante distintos entre si. Ao nível 2, apenas conseguimos discernir as funções básicas de cada gene. Ficamos a saber que 67.2% dos genes estão envolvidos em processos celulares, e 36,2% em regulação biológica, entre outras funções menos significativas. Concluímos que estes resultados são algo vagos (já que alguns genes apresentam mais que uma função a este nível), e exigem uma análise mais detalhada, pelo que se agrupou de novo os genes, agora ao nível 4. Os resultados foram significativamente melhores, já que nos foi possível distinguir funções bastante mais específicas de cada um dos genes. As funções mais significativas foram: regulação de processos celulares (27.6%), processos metabólicos de macromoléculas (25.9%), e processos metabólicos de biopolímeros (24.1%), entre outros. Estes resultados são, como era de esperar, mais significativos do ponto de vista biológico. Podemos, no entanto, fazer uma análise ainda mais detalhada, recorrendo ao agrupamento por processos biológicos ao nível 6. Apenas a título de exemplo, teríamos obtido com 12.1%, funções como regulação de expressão genética, regulação de biossíntese de macromoléculas, regulação da biossíntese celular e regulação de processos que relacionados com nucleótidos e nucleósidos, entre outros resultados menos relevantes. Os resultados para esta última análise encontram-se na Figura 4. Um dos factos que se observou relativamente a estas análises foi que nem todos os genes introduzidos foram considerado pelo GO. Apenas 58 dos 74 introduzidos foram 3 Trabalho 4 Análise de Dados de Microarrays Biologia Computacional analisados. Isto acontece porque alguns dos genes que introduzimos correspondem a factores de transcrição e não são levados em linha de conta nesta análise. Para além disto, notámos também que existe um link para cada um dos genes considerados, que nos leva a uma página com mais alguma informação sobre esse mesmo gene. Nesta página podemos retirar dados como a sequência do gene, a sequência do promotor do gene, e também a localização do gene no genoma, entre outras. Relativamente ao agrupamento dos genes por TF, os resultados obtidos estão representados na Figura 5. Estes resultados são bastante significativos do ponto de vista biológico, já que ao saber quais os genes que são regulados por um mesmo factor de transcrição, podemos inferir e tentar analisar possíveis relações entre os genes. Verificamos que 43,2% dos genes submetidos são regulados pelo factor de transcrição Ste12p, o que é um número bastante significativo. Seguindo o link desse mesmo factor de transcrição, podemos obter verificar que este é activado pela MAP cinase e activa genes envolvidos em vias de crescimento invasivo, por exemplo. Podemos também saber a sua sequência de aminoácidos, bem como seguir para páginas com informações adicionais. Concluímos assim que a ferramenta YEASTRACT, tanto agrupando por GO como por TF pode levar a resultados biologicamente muito interessantes, e permite pesquisas bastante rápidas, dado que tem muita informação condensada. Revela-se bastante útil na análise de clusters obtidos através de outras ferramentas (no nosso caso o GENESIS). Figura 2 – Resultados obtidos na análise por Gene Ontology ao nível 2 4 Trabalho 4 Análise de Dados de Microarrays Biologia Computacional Figura 3 - Resultados obtidos na análise por Gene Ontology ao nível 4 Figura 4 - Resultados obtidos na análise por Gene Ontology ao nível 6 5 Trabalho 4 Análise de Dados de Microarrays Biologia Computacional Figura 5 - Resultados obtidos na análise por Transcription Factors 6