Laboratórios/LAB4/Relatório BC 4

Propaganda
Biologia Computacional
Análise de Dados de Microarrays
João Marques
58513
Joana Nunes
58497
Miguel Amador
58484
10 de Novembro de 2009
Objectivos
O objectivo deste trabalho laboratorial foi a análise de dados de microarrays através
de ferramentas informáticas onde se procedeu à identificação de clusters usando o
software Genesis e posterior caracterização e identificação dos mesmos.
1. Análise de Dados – Identificação de Cluster
a. Quais as considerações sobre a importância do passo de filtragem?
A detecção de um sinal está sempre associada à possibilidade de existência de ruído.
Assim, a filtragem configura-se como um passo importante na melhor detecção das
posições com sinal, de forma a atenuar o ruído que pode resultar, por exemplo de:
eficiência das sondas que foram usadas no chip para detecção de fragmentos, as
quantidades específicas dos vários tipos de mRNA não serem directamente resultado da
produção dos mesmos no interior da célula, ou mesmo erros de leitura do aparelho.
Fazendo a filtragem, conseguimos um resultado mais próximo da realidade, retirando a
maioria do ruído que possa estar a alterar os resultados. A filtragem é ainda um passo
importante para uma normalização dos resultados, restringindo as posições de interesse
em análise, tornando o processo mais eficaz.
b. Qual foi o resultado para este exemplo em particular?
A filtragem utilizada foi baseada em missing values. Este processo consiste em
colocar o software a analisar todas as colunas de uma linha, retirando as que não
apresentassem sinal num determinado número mínimo de colunas. Neste exemplo em
particular, usámos um factor de 17, uma vez que os dados da nossa análise continham
17 colunas. Assim, o sinal tinha de ser detectado em todas as colunas de uma linha para
que esta não seja retirada pelo filtro. O uso de um factor mais baixo levou a um número
de genes obtidos muito mais elevado, aumentando a complexidade do processamento
dos mesmos.
c. Após salvar os dados normalizados compare com o original. Há alguma
diferença?
O processo de normalização global, feito usando a função específica do software,
permite compensar as diferenças observadas ao nível do material, procurando
estatisticamente restringi-las. Este processo de normalização consistiu no cálculo da
1
Trabalho 4
Análise de Dados de Microarrays
Biologia Computacional
média do sinal de todo o chip, colocando cada posição pela ordem do valor obtido para
essa média, procurando assim igualar as intensidades médias.
Nos dados normalizados, observamos então uma alteração das intensidades em
relação ao original, motivado pela alteração da escala.
A normalização, para além de permitir uma maior precisão na avaliação da expressão
individual do material genético em cada posição, permite a comparação de genes
idênticos de diferentes experiências.
d. Como podemos obter clusters usando o dendograma obtido com a análise HCA?
A HCA é um método de construção de um dendograma em que os clusters são
obtidos pela análise do dendograma e não de uma forma directa. A análise HCA vai
basear-se numa dada função de semelhança ou característica que relacione dois objectos
e vai construindo o dendograma, ligando-os de forma gradual. Assim observa-se que
dois ou mais objectos agrupados num determinado nível, continuam agrupados num
nível superior. A comparação recorre a um dos seguintes algoritmos: algoritmo de
ligação única (single-link); algoritmo de ligação completa (complete-link) e algoritmo
de ligação por média (average-link). Neste caso fizemos uso do average-link pela pouca
sensibilidade que apresentam para resultados díspares dos restantes.
A obtenção dos clusters pode ser, assim, feito pelo corte horizontal no dendograma
ao nível do nó que contempla o número de clusters que se pretende. Assim o número de
clusters depende da altura a que se faz o corte. Um exemplo de corte por forma a obter 3
clusters a partir de um dendograma é o representado na Figura 1:
Figura 1 – Exemplo de corte num Dendograma obtido por HCA
Na Figura 1, nota-se que temos um cluster composto por A, B e C, outro composto
por D, E e F, e um terceiro que tem apenas G. Se fosse nosso objectivo obter mais
cluster, cortaríamos o dendograma mais à direita.
2
Trabalho 4
Análise de Dados de Microarrays
Biologia Computacional
e. Qual é a diferença entre o número de clusters que podem ser extraídos usando o
HCA e o número de clusters obtidos usando o K-means?
O algoritmo K-means obriga à parametrização inicial do número de clusters a serem
considerados no agrupamento dos genes através de um processo iterativo, através do
número k, o que representa uma desvantagem em relação ao HCA. No início do
processo iterativo, o K-means divide os objectos em k conjuntos, de forma a, em cada
iteração, sejam calculados os k centróides correspondentes aos k conjuntos.
Posteriormente, recalcula a partição dos objectos pelos k conjuntos, sendo que cada
objecto é atribuído ao conjunto de cujo ponto centróide está próximo, através de uma
função de distância dada. As iterações acabam quando já não houver alterações nas
partições. Nota-se assim a importância do parâmetro k estar pré-definido.
Por outro lado, no algoritmo HCA, pode ser obtido qualquer número de clusters, por
corte no dendograma de forma apropriada. Isto pode ser feito pelo algoritmo através de
uma percentagem de semelhança, por exemplo, que define o local onde o dendograma é
cortado.
2. Ferramentas para pesquisa de motivos
a. Baseado nos resultados obtidos em submissões anteriores no YEASTRACT,
comente a importância e o significado biológico do cluster de genes em análise.
A ferramenta YEASTRACT foi por nós utilizada para agrupar genes, tanto com base
no Gene Ontology (GO), como nos Transcription Factors (TF). O conjunto de genes
utilizados tanto numa das análises como na outra foi o conjunto de genes obtido através
do software GENESIS, com o algoritmo k-means. O agrupamento dos genes por GO foi
feito em processos biológicos e aos níveis 2 e 4. Os resultados, representados na Figura
2 e na Figura 3, são, como seria de esperar, bastante distintos entre si. Ao nível 2,
apenas conseguimos discernir as funções básicas de cada gene. Ficamos a saber que
67.2% dos genes estão envolvidos em processos celulares, e 36,2% em regulação
biológica, entre outras funções menos significativas. Concluímos que estes resultados
são algo vagos (já que alguns genes apresentam mais que uma função a este nível), e
exigem uma análise mais detalhada, pelo que se agrupou de novo os genes, agora ao
nível 4. Os resultados foram significativamente melhores, já que nos foi possível
distinguir funções bastante mais específicas de cada um dos genes. As funções mais
significativas foram: regulação de processos celulares (27.6%), processos metabólicos
de macromoléculas (25.9%), e processos metabólicos de biopolímeros (24.1%), entre
outros. Estes resultados são, como era de esperar, mais significativos do ponto de vista
biológico. Podemos, no entanto, fazer uma análise ainda mais detalhada, recorrendo ao
agrupamento por processos biológicos ao nível 6. Apenas a título de exemplo, teríamos
obtido com 12.1%, funções como regulação de expressão genética, regulação de
biossíntese de macromoléculas, regulação da biossíntese celular e regulação de
processos que relacionados com nucleótidos e nucleósidos, entre outros resultados
menos relevantes. Os resultados para esta última análise encontram-se na Figura 4. Um
dos factos que se observou relativamente a estas análises foi que nem todos os genes
introduzidos foram considerado pelo GO. Apenas 58 dos 74 introduzidos foram
3
Trabalho 4
Análise de Dados de Microarrays
Biologia Computacional
analisados. Isto acontece porque alguns dos genes que introduzimos correspondem a
factores de transcrição e não são levados em linha de conta nesta análise. Para além
disto, notámos também que existe um link para cada um dos genes considerados, que
nos leva a uma página com mais alguma informação sobre esse mesmo gene. Nesta
página podemos retirar dados como a sequência do gene, a sequência do promotor do
gene, e também a localização do gene no genoma, entre outras.
Relativamente ao agrupamento dos genes por TF, os resultados obtidos estão
representados na Figura 5. Estes resultados são bastante significativos do ponto de vista
biológico, já que ao saber quais os genes que são regulados por um mesmo factor de
transcrição, podemos inferir e tentar analisar possíveis relações entre os genes.
Verificamos que 43,2% dos genes submetidos são regulados pelo factor de transcrição
Ste12p, o que é um número bastante significativo. Seguindo o link desse mesmo factor
de transcrição, podemos obter verificar que este é activado pela MAP cinase e activa
genes envolvidos em vias de crescimento invasivo, por exemplo. Podemos também
saber a sua sequência de aminoácidos, bem como seguir para páginas com informações
adicionais.
Concluímos assim que a ferramenta YEASTRACT, tanto agrupando por GO como
por TF pode levar a resultados biologicamente muito interessantes, e permite pesquisas
bastante rápidas, dado que tem muita informação condensada. Revela-se bastante útil na
análise de clusters obtidos através de outras ferramentas (no nosso caso o GENESIS).
Figura 2 – Resultados obtidos na análise por Gene Ontology ao nível 2
4
Trabalho 4
Análise de Dados de Microarrays
Biologia Computacional
Figura 3 - Resultados obtidos na análise por Gene Ontology ao nível 4
Figura 4 - Resultados obtidos na análise por Gene Ontology ao nível 6
5
Trabalho 4
Análise de Dados de Microarrays
Biologia Computacional
Figura 5 - Resultados obtidos na análise por Transcription Factors
6
Download