Fabiana G. S. Pinto Anotação de Genomas Fabiana G. S. Pinto Obtenção de Seqüências geradas pelo MegaBace 1000 • Dados brutos (medidas analógicas) de saída do seqüênciamento→ Base calling BIOINFORMÁTICA * PHRED: - Transforma os dados brutos em seqüências de bases, atribuí valores de qualidade a cada base na seqüência e gera arquivos de saída FASTA e PHD * PHRAP: - Leitura Montagem dos pequenos fragmentos de DNA seqüenciados em seqüências maiores: CONTIG * CONSED: - Visualização e edição das montagens das seqüências de alta qualidade Fabiana G. S. Pinto Valores de qualidade gerados pelo PHRED Quando arquivos de seqüências de DNA são analisados pelo phred → a cada base é assinada um valor de qualidade, o qual é uma estimativa da probabilidade de erro para essa base. Bases com um valor de qualidade de 20 são consideradas com um alto valor de qualidade. q = -10 log10(pe) onde pe= erro estimado q20 = 1/100 probabilidade de erro q30= 1/1000 probabilidade de erro q40= 1/10000 probabilidade de erro Fabiana G. S. Pinto Regiões genômicas que podem ser melhoradas re-seqüênciamento. Fabiana G. S. Pinto Análise e Montagem das Seqüências Seqüências shotgun analisadas Phred, Phrap e Consed Resultado Seqüências ordenadas com consenso formam um “CONTIG” Fabiana G. S. Pinto Anotação de Genomas ANOTAÇÃO DE NUCLEOTÍDEOS Onde estão os genes? ANOTAÇÃO DE PROTEÍNAS Quais são os genes? ANOTAÇÃO DE PROCESSOS Cómo os genes interagem? GLIMMER - GENEMARK Predições de ORF – Open Reading Frame “6 frames” Fabiana G. S. Pinto Gerar todas as possíveis ORFs (open reading frames) nos seis sentidos e sobrepostas CONTIG GERADO APÓS ANOTAÇÃO PELO GLIMMER OU GENEMARK.......... Fabiana G. S. Pinto CONTIG APÓS A ANOTAÇÃO MANUAL ......................... O anotador decide qual ORF tem que eliminar ou validar. Requere-se de conhecimento e de muito critério. Fabiana G. S. Pinto Análise de Seqüências: Bioinformática Fabiana G. S. Pinto CONTIG APÓS A ANOTAÇÃO MANUAL ......................... O anotador decide qual ORF tem que eliminar ou validar. Requere-se de conhecimento e de muito critério. Fabiana G. S. Pinto Banco de Dados Biológicos Banco de Dados (DataBase) Banco de Dados Públicos Bancos Primários INSDC – International Nucleotide Sequence Database Colaboration Bancos Secundários Bancos Funcionais Fabiana G. S. Pinto Sistema de Gerenciamento de Banco de Dados - SGBD Bancos primários Bancos secundários GenBank EBI European Bioinformatics Institute DDBJ – DNA DataBase of Japan PDB Protein Data Bank PIR – Protein Information Resource SIWSS-PROT. InterPro. COG – Orthologous KEGG – Kyoto Encyclopedia of Genes and Genomes Atualizações em Nucleic Acids Research http:// www3.oup.co.uk/nar/database/ Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Procurar pelo gene polC (dnaE, DNA Polimerase III) Fabiana G. S. Pinto Procurar pelo gene polC (dnaE,DNA Polimerase III) Fabiana G. S. Pinto Entrez: procurar pelo gene polC (dnaE) AND E coli Fabiana G. S. Pinto Entrez: procurar pelo gene polC (dnaE) AND E coli Fabiana G. S. Pinto Resgatar seqüências de genes em formato FASTA Fabiana G. S. Pinto Resgatar seqüências de genes em formato FASTA Seqüência FASTA em nucleotídeos Seqüência FASTA do produto gênico em aminoácidos Coordenadas do gene no contexto do genoma total Fabiana G. S. Pinto seqüência FASTA do gene dnaE Começa com codon de iniciação, no caso ATG (metionina) e continua sem espaços até um codon de finalização Começa com símbolo maior e descrição do gene e do organismo sem espaços Fabiana G. S. Pinto Informação adicional do gene dnaE, Polimerase III subunidade alfa Link para referencias bibliográficas no PubMed Processo celular envolvido e localização do produto gênico Fabiana G. S. Pinto Informação adicional do gene dnaE, Polimerase III subunidade alfa EcoCyc. Informação do site de enciclopédia e genes de E coli http://ecocyc.org/ Classificação de COG. Genes Ortólogos Classificação EC number. Número de Enzima Fabiana G. S. Pinto CONCEITOS PARA LEMBRAR HOMÓLOGOS PARÁLOGOS ORTÓLOGOS E. coli S.meliloti R. tropici ORTÓLOGOS R. tropici S.meliloti E coli Gene dnaE Delta subunit Gene dnaE Alpha subunit Duplicação gênica Gene DNA Polimerase III inicial Fabiana G. S. Pinto Classificação de Gene Ortólogo para dnaE COG0587 Relação Filogenética para COG0587 entre 50 espécies Fabiana G. S. Pinto Link para Procurar números de enzimas http://www.genome.jp/dbget-bin/get_htext?ECtable EC para Polimerase III : 2.7.7.7 Fabiana G. S. Pinto EC para Polimerase III : 2.7.7.7 Fabiana G. S. Pinto EC para Polimerase III: 2.7.7.7 Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Alinhamento das Seqüências •Finalidade: procurar determinar o grau de similaridade entre duas ou mais seqüências. Alinhamento entre mais de uma seqüência é Múltiplo. •Programas on-line: ClustalW, Multialin, FASTA, BLAST....... •Qualidade: soma dos pontos obtidos por cada unidade (match) menos a penalidades pela introdução dos gaps (mismatch) Alinhamento global ou Local Global: ClustalW-X Multialin •Local: BLAST (Basic Local Alignment Search Tool) Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Blast no NCBI: http://www.ncbi.nlm.nih.gov/BLAST/ Fabiana G. S. Pinto Vamos procurar similaridades através do Blastx do gene dnaE de E coli (resgatar seq FASTA do entrez gene) Fabiana G. S. Pinto Colar a seqüência FASTA com os dados iniciais. Este é nosso query Fabiana G. S. Pinto “Blastar” Fabiana G. S. Pinto Clicar Format para abrir nova janela Fabiana G. S. Pinto Fabiana G. S. Pinto Qualidade do Alinhamento Score elevado Ver Subject: Salmonella E value máximo: 0.0. Fabiana G. S. Pinto Ótimo: a partir de e-60 (e diminuindo para mais negativo) Aceitável: entre e-30 a e-60 E value maiores indicam alinhamento ao acaso: maior a 0.0 até e-10 - e-30 typhymurium Identidade difere de positivos. Positivo procura analogia do aminoácido na seq da proteína Fabiana G. S. Pinto http://www.ebi.ac.uk/clustalw/ Fabiana G. S. Pinto http://www.ebi.ac.uk/clustalw/ Fabiana G. S. Pinto Resgatar seq FASTA em Entrez Genes: RNA Polymerase sigma subunit AND alpha proteobacteria Fabiana G. S. Pinto Copiar quatro seqüências FASTA (1, 6, 10 e 17) e colar em bloco de notas Fabiana G. S. Pinto Selecionar tudo copiar e colar na janela do ClastalW. Run! Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto O asterisco mostra identidade. Este alinhamento auxilia quando é preciso desenhar primers PCR para amplificar um gene de interesse. Buscamos seqüências do gene em espécies próxima da que estamos estudando Fabiana G. S. Pinto No final mostra uma árvore filogenética Fabiana G. S. Pinto Banco de proteínas http://us.expasy.org/sprot/sprot-top.html Fabiana G. S. Pinto Fabiana G. S. Pinto Fabiana G. S. Pinto Banco Funcional: enciclopédia de genes e genomas http://www.genome.jp/kegg/kegg2.html Fabiana G. S. Pinto Fabiana G. S. Pinto Procariotos Polimerase III subunidade alfa Fabiana G. S. Pinto Fabiana G. S. Pinto Genes para 2.7.7.7 seqüenciados em vários organismos Fabiana G. S. Pinto Gene dnaE em E. coli K-12 com muita informação e links ! Fabiana G. S. Pinto Seqüência FASTA em aminoácidos Seqüência FASTA em nucleotídeos Fabiana G. S. Pinto Também podem navegar na lista de genomas seqüenciados http://www.genome.jp/kegg/catalog/org_list.html