Pontifícia Universidade Católica de Goiás Departamento de Biologia Disciplina: Bioinformática Bio1015 Introdução a Bioinformática Prof. Macks Wendhell Gonçalves, Msc [email protected] EMENTA Introdução à bioinformática: conceitos, uso de bancos de dados, recuperação e formatos de sequências, BLAST, métodos de alinhamento de sequências, desenho de primers, compreensão da bioinformática evolutiva, estudos de estruturas 3D de proteínas, panorama de vias metabólicas. OBJETIVOS DA DISCIPLINA • Objetivo geral - Dotar os alunos de conhecimentos básicos sobre a aplicação da informática na análise dos processos biológicos a partir de dados de sequências de DNA, sequências de proteínas e de expressão gênica. • Objetivos específicos - Entender a importância do Projeto Genoma Humano - Entender a forma como a ciência da computação tem ajudado na exploração de dados biológicos. - Conhecer a história da genômica e da bioinformática. - Compreender os serviços bioinformáticos mais utilizados. - Conhecer os principais bancos de dados disponíveis para análises em bioinformática - Conhecer as principais ferramentas bioinformáticas utilizadas em Biologia Molecular CONTEÚDO PROGRAMÁTICO • • • • • • • • • • • • • • • Biologia na era da informática e importância da Bioinformática; Revisão dos principais conceitos de Biologia molecular e conexão com conceitos de informática; Compreensão dos principais métodos de sequenciamento; Breve histórico do Projeto Genoma Humano; Apresentação e familiarização dos principais bancos de dados utilizados em Bioinformática; Obtenção de sequências (DNA e Proteína) e formato dos arquivos; Compreensão e realização de técnicas de alinhamentos pareados; Compreensão e realização de técnicas de alinhamentos múltiplos; Desenho de primers; Anotação de sequências; Bioinformática evolutiva – construção de árvores filogenéticas; Predição de Estrutura secundária e terciária de Proteínas Principais recursos do Expasy; Principais recursos do Protein Data Bank; Principais recursos do KEGG. BIBLIOGRAFIA • Básica Schrank A. et al. Biologia molecular básica. 3 ed. Porto Alegre: Mercado Aberto, 2003. Alberts, Bruce. Biologia molecular da célula. 4. ed. Porto Alegre: Artmed, 2006 [i.e.2004]. 1463 p. • Complementar Prosdocimi et al. Bioinformática: Manual do Usuário. Um guia amplo e básico sobre diversos aspectos desta nova ciência. Revista Biotecnologia 29. Prosdocimi & Santos. Sobre bioinformática, genoma e ciência. Ciência Hoje. Malone et al. 2006. R. Bras. Agrociência, Pelotas, v. 12, n. 1, p. 07-13, jan-mar, 2 (http://www.ufpel.tche.br/faem/agrociencia/v12n1/artigo02.pdf) Binneck E. As ômicas: integrando a bioinformação. Revista Biotecnologia 32. Prosdocimi, F. Curso de bioinformática. O que é a bioinformática? A bioinformática consiste em todo tipo de estudo ou de ferramenta computacional que se pode realizar e/ou produzir de forma a organizar ou obter informação biológica a partir de sequências de biomoléculas. A Bioinformática é uma nova disciplina científica com raízes nas Ciências da Computação, Estatística, Genética, Bioquímica e Biologia Molecular. • A 10 anos atrás o termo nem existia. O que é a bioinformática? Interpretação da linguagem dos genes por algoritmos oriundos da informática Geração de hipóteses a partir dos dados Aprendizado automático a partir de grandes volumes de dados Bioinformática Leitura de informações contidas no código genético Criação de bancos de dados. Desenvolvimento de softwares que otimize a análise de bancos de dados genômicos Contexto Histórico A história começa na década de 1940 com a invenção do moderno computador digital Contexto Histórico - Ele se chama digital, pois os dados são armazenados com um alfabeto binário - Dígitos binários – 0 e 1 (Liga/desliga) Possível graças aos transístores Em 1944, Avery e colaboradores descobriram que o DNA era a substância que carregava a informação genética Usando a descoberta de Avery como referência, vemos que o nascimento do moderno computador digital e da moderna biologia molecular se deram mais ou menos ao mesmo tempo Contexto Histórico A descoberta da hélice dupla, em 1953, mostrou que a informação genética também é armazenada de forma digital - Mas diferente do alfabeto binário dos computadores, os dados genéticos são armazenados com um alfabeto quaternário “A, C, G e T” - Mais tarde se descobriu que a forma dos genes operarem também é digital, os genes podem ser “ligados” ou “desligados” Apenas estas observações já seria suficiente para prever, na década de 1950, que um dia informática e biologia molecular iriam juntas fazer nascer uma nova área de conhecimento Contexto Histórico O nascimento da área, entretanto, teve de esperar muito tempo para acontecer Essa é a razão da bioinformática ser uma aparente novidade Algumas pessoas consideram que a bioinformática passou a ser reconhecida como importante pelo mundo científico por volta de 1995, ano que o primeiro genoma de uma bactéria foi publicado Por que tão longa demora? Contexto Histórico Do lado da biologia molecular o motivo é simples - Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser “lida” - Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las - Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento” suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade Uma máquina automática - Em 1995, uma única máquina dessas já conseguia ler milhares de letrinhas por dia Contexto Histórico Do lado da computação foi também preciso um amadurecimento - Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada vez mais rápido, a um custo cada vez menor - Se o sequenciamento automático do DNA tivesse amadurecido mais rapidamente, não haveria computadores com poder suficiente para dar conta dos dados gerados - Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte - 1024 bytes, aproximadamente 1000 letras Contexto Histórico Então, através de uma evolução que parece mais ou menos sincronizada, desembocamos em 1995 Os computadores já estavam suficientemente poderosos para poder processar os milhões e milhões de letrinhas que passaram a vir à luz. E assim nasceu a bioinformática, com a missão de ajudar-nos a entender a história que está escrita nesse livro da vida Surgimento da bioinformática? Com o surgimento dos sequenciadores capilares de DNA em larga escala gerou-se uma enorme quantidade de informação biológica, de modo que seria impossível de se analisar manualmente. Crescimento do GenBank. Crescimento exponencial do número de sequências contidas nesse banco de dados ao longo de duas décadas. Fonte: GenBank Objetivos da bioinformática • Reconhecimento de padrões • Criação de algoritmos • Descoberta de genes • Descoberta de novos fármacos • Alinhamento de estruturas de proteínas • Agrupar proteínas homólogas • Predição de estruturas de proteínas • Previsão de expressão gênica e interações de proteínas • Identificar inibidores de enzimas • Estudos de associação ampla de genoma e modelagem da evolução Biologia computadorizada e a Bioinformática Biologia computadorizada Diz respeito a qualquer aplicação da computação na área biológica. x Bioinformática Está frequentemente associada a análises de sequências do genoma, transcriptoma e proteoma. Paradigmas da Bioinformática 1º 3º 2º Ferramentas de bioinformática são produzidas para construir os edifícios genômicos. Ex: Projeto Genoma Mineração do grande volume de dados biológicos em genômica gerados. Onde a genômica encontra a ciência e o método científico de observação: hipótese, experimentação resultados. Paradigmas da Bioinformática Montagem de DNA - Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases. As máquinas sequenciadoras conseguem ler apenas pedaços de cerca de 1000 bases - Como é possível montar um livro com 4 milhões se só conseguimos ler fragmentos de 1000 bases? - A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si. Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos Aí, obviamente, é necessário um programa de computador para montar esse quebra cabeça Paradigmas da Bioinformática Frequentemente esse é o perfil de resultados de trabalhos em Genômica – Ciência descritiva. É preciso utilizar a “peneira” para gerar dados mais informativos e relevantes Funções dos genes já identificados em estudos. Paradigmas da Bioinformática Aprendizagem de Máquina (AM) • Principal preocupação - Como construir programas de computador que automaticamente melhoram seu desempenho com a experiência? • Técnicas orientadas a dados - Aprendem automaticamente a partir de grandes volumes de dados - Geração de hipóteses a partir dos dados Aprendizagem de Máquina Algumas Técnicas Redes Neurais Artificiais (RNs) Máquinas de Vetores Suporte (SVMs) Algoritmos de Agrupamento (AA) Algoritmos Genéticos (AGs) Árvores de Decisão (ADs) Raciocínio Baseado em Casos (RBC) K-vizinhos mais próximos (kNN) Aprendizagem de Máquina Problemas em Biologia Molecular que podem ser tratados por AM Reconhecimento de genes Reconstrução de árvores filogenéticas Análise de dados de expressão gênica Previsão de estruturas de proteínas Análise de interação entre genes Montagem de fragmentos Alinhamento de sequências Área estratégica de pesquisa Os bancos de dados genômicos disponíveis gratuitamente na internet hoje contêm mais informação biológica do que todos os cientistas do mundo serão capazes de analisar, não importa quanto tempo se dediquem Dados gratuitos e de qualidade Muitas vezes pobremente analisados: a corrida genômica Brasil: pra quê financiar pesquisas tão caras? Não seria melhor investir na educação? Tarefa do bioinformata Ser criativo e produtivo ao mesmo tempo Não perde o tempo da produção do dado Economiza “50%” do esforço científico Bioinformática e suas aplicações Ciência básica - Construção de árvores filogenéticas; - Montagem e caracterização de genomas; Na medicina - Diagnóstico e tratamento; - Analisar uma Mutação nova de uma doença e comparar com outras mutações em bancos de dados; - Farmacogenética; - Alvos proteicos com potencial de serem modificados com fármacos minimizando as causas da doença; - Terapia gênica