introdução - Felipe Torres

Propaganda
Bioinformática
Felipe G. Torres
FELIPE G TORRES
Graduado em Sistemas de Informação.
Mestrando em Computação Aplicada –
linha de pesquisa em bioinformática.
[email protected]
http://www.4shared.com/folder/iMzBTB
BF/Bioinformtica.html
INTRODUÇÃO
• A necessidade de processar e analisar dados
biológicos motivou o surgimento de uma
ciência interdisciplinar.
• Alguns biólogos começaram a utilizar o
computador para executar processos nos
dados.
• O conjunto desses processos é chamado de
Bioinformática.
INTRODUÇÃO
• Existem dois
biológicos:
tipos
de
experimentos
• In vivo – Experimentos executados com
seres vivos.
• In vitro – Experimentos executados com
dados desenvolvimento artificial.
INTRODUÇÃO
• Existem basicamente três tipos de análises
de dados genéticos:
• Proteínas
• DNA
• RNA
INTRODUÇÃO
INTRODUÇÃO
Década de 60…
INTRODUÇÃO
Tempo 13 anos (1990 2003)
Custo U$3.8 bilhões
INTRODUÇÃO BANCO DE D. B. ESTRUT. COMP. DADOS BIO. BANCO DE DADOS ATUAIS FERRAMENTAS
ILLUMINA HISEQ2000
SANGER
TOTAL DE BASES: 30~ 350 kb
TEMPO DA CORRIDA: 15 HORAS
CUSTO: U$1000/Mb
TOTAL DE BASES: 35 ~ 200 Gb
TEMPO DA CORRIDA: 1.5 a 8 dias
CUSTO: MENOS DE U$1/Mb
INTRODUÇÃO
• O que são nucleotídeos ?
• Os nucleotídeos são compostos por uma base
nitrogenada, um grupo fosfato e uma ribose ou
desoxiribose.
INTRODUÇÃO
INTRODUÇÃO
INTRODUÇÃO
• Onde posso encontrar nucleotídeos ?
INTRODUÇÃO
• Direção da sequência 3’ 5’ e 5’ 3’
INTRODUÇÃO
INTRODUÇÃO
• Aminoácidos são moléculas orgânicas
complexas formadas por:
um grupo
amina e um grupo carboxilo.
INTRODUÇÃO
• Atualmente a bioquímica categoriza
basicamente 20 nomes de aminoácidos
basicamente.
• Os aminoácidos são cientificamente
representados por 1 ou 3 letras.
INTRODUÇÃO
AMINOÁCIDOS
INTRODUÇÃO
• As proteínas são macromoléculas formadas
por aminoácidos. Uma proteína como
exemplo é a insulina humana.
Insulina = (30 glycines, 44 alanines, 5
tyrosines + 14 glutamines + ... )
Insulina = MALWMRLLPLLALLALWGPDPAAAF
VNQHLCGSHLVEALYLVCGERGFFYTPKTRRE
AEDLQVGQVELGGGPGAGSLQPLALEGSLQKR
GIVEQCCTSICSLYQLENYCN
INTRODUÇÃO
INTRODUÇÃO
• A análise de proteínas à 50 anos atrás era
realizada apenas em laboratórios.
• Nesta disciplina posteriormente iremos nos
aprofundar em análises modernas de
proteínas com bioinformática.
INTRODUÇÃO
• Alfred Sanger é tipo
como pai da era moderna
da biologia molecular e
estrutural.
• Ele recebeu o prêmio
nobel
pelo
sequenciamento
da
insulina.
INTRODUÇÃO
• Porém nos anos 1960 o poder
computacional era pequeno, nessa época o
computador tinha no máximo 8mb de
memória.
• Processava cálculos simples e demoravam
um tempo alto para realizar cálculos.
• Essa limitação durante muito tempo foi um
fator
limitante
para
as
análises
computacionais de dados biológicas.
INTRODUÇÃO
• A sequência lógica de obtenção das
informações de uma proteína é:
ESTRUTURA
SEQUÊNCIA
FUNÇÃO
INTRODUÇÃO
• A primeira estrutura 3D de proteína obtida
foi em 1958 pelos Dr. Kendrew e Perultz
utilizando cristalografia de raio X.
• A função da proteína está diretamente ligada
a sua estrutura 3D.
• Com a bioinformática ficou muito mais
fácil obter a estrutura 3D de uma proteína e
navegar por ela.
INTRODUÇÃO
• Existe uma área conhecida
bioinformática estrutural.
como
• Esta responsável por estudar e desenvolver
processos de análise das estruturas
moleculares.
• Posteriormente iremos aprender técnicas e
nos aprofundar mais na análise de
bioinformática de proteínas.
INTRODUÇÃO
INTRODUÇÃO
As proteínas são formadas de
aminoácidos, e os aminoácidos
são formados de quê ?
INTRODUÇÃO
As proteínas são formadas de
aminoácidos, e os aminoácidos
são formados de quê ?
Isso mesmo, nucleotídeos.
BANCO DE DADOS BIO
1965
1970
1982
BANCO DE DADOS BIO
GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO
GENBANK ENTRE 1995 A 2011.
BANCO DE DADOS BIO
GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO
GOLD ENTRE 1997 A 2011.
BANCO DE DADOS BIO
• Banco de dados biológicos são locais
computacionais para o armazenamento de
dados biológicos.
• Dados Biológicos
• Sequências de DNA;
• Sequências de Proteínas;
• Anotações;
BANCO DE DADOS BIO
• Tipos de Bancos de dados biológicos,
(XIONG, 2007):
• Primários
• Secundários
• Especializados
BANCO DE DADOS BIO
• Bancos de dados Primários:
• Armazenam
originais.
informações
biológicas
• Armazenam normalmente em arquivos de
texto. Ex.: Fasta.
BANCO DE DADOS BIO
• Bancos de dados Secundários:
• Armazenam resultados de análises feitas
a partir de dados primários.
• Utilizam SGBD`s
e estruturas
computacionais mais complexas.
ESTRUTURA DE BD
• Modelo Relacional
• Orientação a objeto
MODELO RELACIONAL
• Planilhas que se relacionam
• Utilizando o conceito de keys
• Largamente utilizado e estável
MODELO RELACIONAL
MODELO OO
• Conceito abstrato de objeto
• Conceito melhorado de keys
• Maior facilidade na abstração
MODELO OO
TIPO DE ARQUIVOS - FASTA
TIPO DE ARQUIVOS - GENBANK
TIPO DE ARQUIVOS - GENBANK
UNIPROT
• Banco de dados de proteínas e informações
funcionais.
• O UNIPROT é um consórcio entre:
• European Bioinformatics Institute (EBI).
• Swiss Institute of Bioinformatics (SIB).
• Protein Information Resource (PIR).
• Acesso
disponível
http://www.uniprot.org/
pelo
link:
HIV DATABASE
• No HIV Databases estam armazenados dados de
sequências de HIV, epitopos e testes para
vacinas.
• Este projeto foi fundado pela Division of AIDS
of the National Institute of Allergy and Infectious
Diseases (NIAID)
• Acesso
disponível
pelo
http://www.hiv.lanl.gov/content/index
link:
PROTEIN DATA BANK
•
É um repositório de estruturas tri-dimensionais de
proteínas e ácidos nucléicos.
•
A maioria das estruturas foram obtidas por
cristalograma ou por espectroscopia por ressonância
magnética.
•
A estrutura pode ser visualizada em 3D.
•
Acesso disponível pelo link: http://www.rcsb.org/pdb
ENTREZ
•
O NCBI armazena dados provenientes da sequenciação
de genomas no seu GenBank e mantém um índice de
artigos de investigação biomédica que disponibiliza nas
bases de dados PubMed Central e PubMed.
•
Todas as bases de dados estão disponíveis na Internet
através do motor de busca Entrez. É um grande
integrador de dados no NCBI.
•
Acesso
disponível
pelo
http://www.ncbi.nlm.nih.gov/sites/gquery
link:
ENTREZ - DEFINIÇÃO
• É o sistema de indexação, busca e recuperação de
informação baseado em texto usado pelo Portal NCBI.
• Integra recursos de diversas fontes de informação em
Ciências Biológicas e da Saúde.
ENTREZ - RECURSOS
• Bases de Dados referenciais e textuais
• Literatura em Ciências Biológicas e da Saúde
• Bancos de Dados Genéticos
• Bases de Dados Moleculares
• Ferramentas e Recursos em Biologia Genômica
• Ferramentas de Mineração de Dados (Data Mining)
ENTREZ - ACESSO
Clique aqui para obter descrição e
link de todas as bases de dados
disponíveis no Portal NCBI
ENTREZ - ACESSO
Descrição e link de todas as bases de
dados disponíveis no Portal NCBI
ENTREZ - RECURSOS
• Bases de Dados referenciais e textuais
• Literatura em Ciências Biológicas e da Saúde
• Bancos de Dados Genéticos
• Bases de Dados Moleculares
• Ferramentas e Recursos em Biologia Genômica
• Ferramentas de Mineração de Dados (Data Mining)
ENTREZ - LITERATURA
PUBMED: biomedical literature citations and abstracts
PUBMED CENTRAL: free, full text journal articles
SITE SEARCH: NCBI web and FTP sites
BOOKS: online books
JOURNALS: detailed information about the journals indexed in
PubMed and other
NLM CATALOG: catalog of books, journals, and audiovisuals
in the NLM collections
ENTREZ - LITERATURA
Clique aqui para
acessar as bases de dados em
literatura em Ciências Biológicas e
da Saúde
ENTREZ - LITERATURA
Lista de todas as bases de dados em
literatura em Ciências Biológicas e
da Saúde
ENTREZ - PUBMED
• Serviço da NLM que integra diversas bases de dados em
Ciências Biológicas e da Saúde. Permite o acesso a mais de 17
milhões de itens indexados pela MEDLINE e de artigos de
periódicos, livros, multimeios, entre outros recursos de
informação.
• A base PubMed inclui links para muitos sites que fornecem
resumos e/ou textos completos de artigos e outros recursos de
informação.
ENTREZ - PUBMED
A interface da base PubMed é a
mesma do Portal NCBI, com filtro
de pesquisa apenas para a PubMed
ENTREZ - PUBMED
Links específicos da
base PubMed
ENTREZ – PUBMED CENTRAL
• PubMed Central é um acervo digital de
artigos de periódicos de livre acesso em
Ciências Biológicas e da Saúde, desenvolvido
e gerenciado pelo NCBI.
• Também faz parte da base PubMed, com o
diferencial de que seus recursos de
informação estão disponíveis quase sempre
em texto completo
ENTREZ – PUBMED CENTRAL
A interface da base PubMed Central
é a mesma do Portal NCBI, com
filtro de pesquisa apenas para a
PubMed Central
MÃOS NA MASSA
1- Busque no NCBI as
sequências de Transversotrema.
2- Baixe todas as sequências em
um único arquivo .FASTA
3- Descubra a localização
geográfica
da
coleta
do
organismo de acession id:
JF412530
Bioinformática
Felipe G. Torres
Download