Apresentação do PowerPoint - SOL

Propaganda
Pontifícia Universidade Católica de Goiás
Departamento de Biologia
Disciplina: Bioinformática
Bio1015
Introdução a Bioinformática
Prof. Macks Wendhell Gonçalves, Msc
[email protected]
EMENTA
 Introdução à bioinformática: conceitos, uso de bancos de dados,
recuperação e formatos de sequências, BLAST, métodos de
alinhamento de sequências, desenho de primers, compreensão
da bioinformática evolutiva, estudos de estruturas 3D de
proteínas, panorama de vias metabólicas.
OBJETIVOS DA DISCIPLINA
• Objetivo geral
- Dotar os alunos de conhecimentos básicos sobre a aplicação da informática na
análise dos processos biológicos a partir de dados de sequências de DNA,
sequências de proteínas e de expressão gênica.
• Objetivos específicos
- Entender a importância do Projeto Genoma Humano
- Entender a forma como a ciência da computação tem ajudado na exploração de dados
biológicos.
- Conhecer a história da genômica e da bioinformática.
- Compreender os serviços bioinformáticos mais utilizados.
- Conhecer os principais bancos de dados disponíveis para análises em bioinformática
- Conhecer as principais ferramentas bioinformáticas utilizadas em Biologia Molecular
CONTEÚDO PROGRAMÁTICO
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Biologia na era da informática e importância da Bioinformática;
Revisão dos principais conceitos de Biologia molecular e conexão com conceitos de
informática;
Compreensão dos principais métodos de sequenciamento;
Breve histórico do Projeto Genoma Humano;
Apresentação e familiarização dos principais bancos de dados utilizados em
Bioinformática;
Obtenção de sequências (DNA e Proteína) e formato dos arquivos;
Compreensão e realização de técnicas de alinhamentos pareados;
Compreensão e realização de técnicas de alinhamentos múltiplos;
Desenho de primers;
Anotação de sequências;
Bioinformática evolutiva – construção de árvores filogenéticas;
Predição de Estrutura secundária e terciária de Proteínas
Principais recursos do Expasy;
Principais recursos do Protein Data Bank;
Principais recursos do KEGG.
BIBLIOGRAFIA
• Básica
Schrank A. et al. Biologia molecular básica. 3 ed. Porto Alegre: Mercado Aberto, 2003.
Alberts, Bruce. Biologia molecular da célula. 4. ed. Porto Alegre: Artmed, 2006
[i.e.2004]. 1463 p.
• Complementar
Prosdocimi et al. Bioinformática: Manual do Usuário. Um guia amplo e básico sobre
diversos aspectos desta nova ciência. Revista Biotecnologia 29.
Prosdocimi & Santos. Sobre bioinformática, genoma e ciência. Ciência Hoje.
Malone et al. 2006. R. Bras. Agrociência, Pelotas, v. 12, n. 1, p. 07-13, jan-mar, 2
(http://www.ufpel.tche.br/faem/agrociencia/v12n1/artigo02.pdf)
Binneck E. As ômicas: integrando a bioinformação. Revista Biotecnologia 32.
Prosdocimi, F. Curso de bioinformática.
O que é a bioinformática?
 A bioinformática consiste em todo tipo de estudo ou de ferramenta
computacional que se pode realizar e/ou produzir de forma a organizar
ou obter informação biológica a partir de sequências de biomoléculas.
 A Bioinformática é uma nova disciplina científica com raízes nas
Ciências da Computação, Estatística, Genética, Bioquímica e Biologia
Molecular.
• A 10 anos atrás o termo
nem existia.
O que é a bioinformática?
Interpretação da
linguagem dos genes por
algoritmos oriundos da
informática
Geração de
hipóteses a partir
dos dados
Aprendizado automático
a partir de grandes
volumes de dados
Bioinformática
Leitura de informações
contidas no código genético
Criação de bancos
de dados.
Desenvolvimento de
softwares que otimize a
análise de bancos de dados
genômicos
Contexto Histórico
 A história começa na década de 1940 com a invenção do moderno
computador digital
Contexto Histórico
- Ele se chama digital, pois os dados são armazenados com um
alfabeto binário
- Dígitos binários – 0 e 1 (Liga/desliga) Possível graças aos
transístores
 Em 1944, Avery e colaboradores descobriram que o DNA era a
substância que carregava a informação genética
Usando a descoberta de Avery como referência, vemos que o
nascimento do moderno computador digital e da moderna
biologia molecular se deram mais ou menos ao mesmo tempo
Contexto Histórico
 A descoberta da hélice dupla, em 1953, mostrou que a informação
genética também é armazenada de forma digital
- Mas diferente do alfabeto binário dos computadores, os dados genéticos
são armazenados com um alfabeto quaternário “A, C, G e T”
- Mais tarde se descobriu que a forma dos genes operarem também é
digital, os genes podem ser “ligados” ou “desligados”
 Apenas estas observações já seria suficiente para prever, na década de
1950, que um dia informática e biologia molecular iriam juntas fazer
nascer uma nova área de conhecimento
Contexto Histórico
 O nascimento da área, entretanto, teve de esperar muito tempo
para acontecer
 Essa é a razão da bioinformática ser uma aparente novidade
 Algumas pessoas consideram que a bioinformática passou a ser
reconhecida como importante pelo mundo científico por volta de
1995, ano que o primeiro genoma de uma bactéria foi publicado
Por que tão longa demora?
Contexto Histórico
 Do lado da biologia molecular o motivo é simples
- Apesar da estrutura do DNA ter sido desvendada em 1953, a informação
nela contida não podia ser “lida”
- Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o
livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão
pequenas que não conseguíamos lê-las
- Foi preciso esperar até fins da década de 1980 para que aparecesse uma
“lente de aumento” suficientemente boa que permitisse a leitura dessas
letrinhas em grande quantidade
Uma máquina automática
- Em 1995, uma única máquina dessas já conseguia ler milhares de
letrinhas por dia
Contexto Histórico
 Do lado da computação foi também preciso um amadurecimento
- Computadores sendo capazes de armazenar cada vez mais informação, de
processá-la de modo cada vez mais rápido, a um custo cada vez menor
- Se o sequenciamento automático do DNA tivesse amadurecido mais
rapidamente, não haveria computadores com poder suficiente para dar
conta dos dados gerados
- Na década de 1970 a unidade básica de armazenamento de informação
era o kilobyte - 1024 bytes, aproximadamente 1000 letras
Contexto Histórico
 Então, através de uma evolução que parece mais ou menos
sincronizada, desembocamos em 1995
 Os computadores já estavam suficientemente poderosos para
poder processar os milhões e milhões de letrinhas que passaram
a vir à luz.
 E assim nasceu a bioinformática, com a missão de ajudar-nos a
entender a história que está escrita nesse livro da vida
Surgimento da bioinformática?
 Com o surgimento dos sequenciadores capilares de DNA em larga escala
gerou-se uma enorme quantidade de informação biológica, de modo que
seria impossível de se analisar manualmente.
Crescimento do GenBank.
Crescimento exponencial do
número de sequências
contidas nesse banco de dados
ao longo de duas décadas.
Fonte: GenBank
Objetivos da bioinformática
• Reconhecimento de padrões
• Criação de algoritmos
• Descoberta de genes
• Descoberta de novos fármacos
• Alinhamento de estruturas de
proteínas
• Agrupar proteínas homólogas
• Predição de estruturas de proteínas
• Previsão de expressão gênica e
interações de proteínas
• Identificar inibidores de enzimas
• Estudos de associação ampla de
genoma e modelagem da evolução
Biologia computadorizada e a Bioinformática
Biologia
computadorizada
Diz respeito a qualquer
aplicação da computação
na área biológica.
x
Bioinformática
Está frequentemente
associada a análises de
sequências do genoma,
transcriptoma e proteoma.
Paradigmas da Bioinformática
1º
3º
2º
Ferramentas de
bioinformática são
produzidas para
construir os edifícios
genômicos. Ex:
Projeto Genoma
Mineração do grande
volume de dados
biológicos em
genômica gerados.
Onde a genômica
encontra a ciência e o
método científico de
observação: hipótese,
experimentação
resultados.
Paradigmas da Bioinformática
 Montagem de DNA
- Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou
bases. As máquinas sequenciadoras conseguem ler apenas pedaços de
cerca de 1000 bases
- Como é possível montar um livro com 4 milhões se só conseguimos
ler fragmentos de 1000 bases?
- A solução é gerar uma enorme quantidade de fragmentos que tenham
sobreposição entre si. Para ler 3 ou 4 milhões são necessários cerca de
100 mil desses fragmentos
Aí, obviamente, é necessário um programa de
computador para montar esse quebra cabeça
Paradigmas da Bioinformática
 Frequentemente esse é o perfil de resultados de trabalhos em Genômica –
Ciência descritiva.
É preciso utilizar a “peneira” para gerar dados mais
informativos e relevantes
Funções dos genes já identificados em estudos.
Paradigmas da Bioinformática
 Aprendizagem de Máquina (AM)
• Principal preocupação
- Como construir programas de computador que automaticamente
melhoram seu desempenho com a experiência?
• Técnicas orientadas a dados
- Aprendem automaticamente a partir de grandes volumes de dados
- Geração de hipóteses a partir dos dados
Aprendizagem de Máquina
 Algumas Técnicas







Redes Neurais Artificiais (RNs)
Máquinas de Vetores Suporte (SVMs)
Algoritmos de Agrupamento (AA)
Algoritmos Genéticos (AGs)
Árvores de Decisão (ADs)
Raciocínio Baseado em Casos (RBC)
K-vizinhos mais próximos (kNN)
Aprendizagem de Máquina
 Problemas em Biologia Molecular que podem ser tratados
por AM







Reconhecimento de genes
Reconstrução de árvores filogenéticas
Análise de dados de expressão gênica
Previsão de estruturas de proteínas
Análise de interação entre genes
Montagem de fragmentos
Alinhamento de sequências
Área estratégica de pesquisa
 Os bancos de dados genômicos disponíveis gratuitamente na
internet hoje contêm mais informação biológica do que todos os
cientistas do mundo serão capazes de analisar, não importa
quanto tempo se dediquem
Dados gratuitos e de qualidade
Muitas vezes pobremente analisados: a corrida genômica
Brasil: pra quê financiar pesquisas tão caras?
Não seria melhor investir na educação?
Tarefa do bioinformata
Ser criativo e produtivo ao mesmo tempo
Não perde o tempo da produção do dado
Economiza “50%” do esforço científico
Bioinformática e suas aplicações
 Ciência básica
- Construção de árvores filogenéticas;
- Montagem e caracterização de genomas;
 Na medicina
- Diagnóstico e tratamento;
- Analisar uma Mutação nova de uma doença e comparar com
outras mutações em bancos de dados;
- Farmacogenética;
- Alvos proteicos com potencial de serem modificados com
fármacos minimizando as causas da doença;
- Terapia gênica
Download