Bancos de dados Biológicos

Bancos de dados
Prof. Dr. Francisco Prosdocimi
Relational database
Conceitos
importantes
Banco de dados
Tabela
Campos
Relações
Chave-primária
A linguagem SQL
Outra linguagem?
Criando uma tabela e
definindo campos
A magia do
comando SELECT
A cláusula WHERE
mysql> select * from bovEST_BLAST where (similarity > 70 and
e_value < 1e-20) order by similarity DESC limit 40;
+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+
| q_id
| s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init
| s_end
| e_value | score |
+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+
| RE087RA01.esd | Chr18 |
100 |
308 |
0 |
0 |
384 |
691 | 43689822 | 43689515 | 3e-172 |
611 |
| RE087RA01.esd | Chr18 |
100 |
75 |
0 |
0 |
241 |
315 | 43691823 | 43691749 |
3e-33 |
149 |
| RE087RA01.esd | Chr18 |
100 |
69 |
0 |
0 |
85 |
153 | 43694415 | 43694347 |
1e-29 |
137 |
| RE087RB10.esd | Chr5 |
100 |
179 |
0 |
0 |
105 |
283 | 56439425 | 56439247 |
3e-95 |
355 |
| RE087RB10.esd | Chr5 |
100 |
133 |
0 |
0 |
283 |
415 | 56438471 | 56438339 |
7e-68 |
264 |
| RE087RC01.esd | Chr3 |
100 |
179 |
0 |
0 |
106 |
284 | 42018973 | 42018795 |
9e-96 |
355 |
| RE087RC02.esd | Chr10 |
100 |
125 |
0 |
0 |
313 |
437 | 99740206 | 99740330 |
2e-63 |
248 |
| RE087RC02.esd | Chr10 |
100 |
104 |
0 |
0 |
212 |
315 | 99739617 | 99739720 |
8e-51 |
206 |
| RE087RC02.esd | Chr10 |
100 |
92 |
0 |
0 |
117 |
208 | 99738535 | 99738626 |
1e-43 |
182 |
| RE087RC03.esd | Chr10 |
100 |
110 |
0 |
0 |
325 |
434 | 99740206 | 99740315 |
2e-54 |
218 |
| RE087RC03.esd | Chr10 |
100 |
104 |
0 |
0 |
224 |
327 | 99739617 | 99739720 |
7e-51 |
206 |
| RE087RC03.esd | Chr10 |
100 |
92 |
0 |
0 |
129 |
220 | 99738535 | 99738626 |
1e-43 |
182 |
| RE087RC05.esd | Chr5 |
100 |
158 |
0 |
0 |
172 |
329 | 24199827 | 24199984 |
9e-83 |
313 |
| RE087RC05.esd | Chr5 |
100 |
136 |
0 |
0 |
436 |
571 | 24201779 | 24201914 |
1e-69 |
270 |
| RE087RC05.esd | Chr5 |
100 |
67 |
0 |
0 |
107 |
173 | 24199155 | 24199221 |
2e-28 |
133 |
| RE087RC06.esd | Chr5 |
100 |
170 |
0 |
0 |
323 |
492 | 108223843 | 108223674 |
6e-90 |
337 |
| RE087RC06.esd | Chr5 |
100 |
137 |
0 |
0 |
491 |
627 | 108223120 | 108222984 |
3e-70 |
272 |
| RE087RC08.esd | Chr19 |
100 |
356 |
0 |
0 |
130 |
485 | 36886303 | 36886658 |
0 |
664 |
| RE087RC10.esd | Chr14 |
100 |
103 |
0 |
0 |
146 |
248 |
1077123 |
1077021 |
6e-50 |
204 |
| RE087RC10.esd | Chr11 |
100 |
103 |
0 |
0 |
146 |
248 | 93831389 | 93831287 |
6e-50 |
204 |
| RE087RC11.esd | Chr7 |
100 |
91 |
0 |
0 |
103 |
193 | 33783452 | 33783362 |
6e-43 |
180 |
| RE087RD01.esd | Chr14 |
100 |
103 |
0 |
0 |
155 |
257 |
1077123 |
1077021 |
6e-50 |
204 |
| RE087RD01.esd | Chr11 |
100 |
103 |
0 |
0 |
155 |
257 | 93831389 | 93831287 |
6e-50 |
204 |
| RE087RD04.esd | Chr8 |
100 |
198 |
0 |
0 |
252 |
449 | 100369996 | 100369799 | 1e-106 |
392 |
| RE087RD05.esd | Chr7 |
100 |
91 |
0 |
0 |
368 |
458 | 39281415 | 39281505 |
8e-43 |
180 |
| RE087RD07.esd | Chr14 |
100 |
219 |
0 |
0 |
151 |
369 | 23348458 | 23348676 | 3e-119 |
434 |
| RE087RD07.esd | Chr14 |
100 |
101 |
0 |
0 |
541 |
641 | 23349620 | 23349720 |
9e-49 |
200 |
| RE087RD07.esd | Chr14 |
100 |
75 |
0 |
0 |
368 |
442 | 23349004 | 23349078 |
3e-33 |
149 |
| RE087RE01.esd | Chr13 |
100 |
332 |
0 |
0 |
112 |
443 | 51325163 | 51324832 | 3e-172 |
611 |
| RE087RE02.esd | Chr19 |
100 |
125 |
0 |
0 |
204 |
328 | 56707552 | 56707428 |
4e-63 |
248 |
| RE087RE02.esd | Chr19 |
100 |
62 |
0 |
0 |
142 |
203 | 56710310 | 56710249 |
2e-25 |
123 |
| RE087RE05.esd | Chr2 |
100 |
241 |
0 |
0 |
275 |
515 | 131052933 | 131052693 | 3e-132 |
478 |
| RE087RE05.esd | Chr2 |
100 |
79 |
0 |
0 |
145 |
223 | 131053063 | 131052985 |
1e-35 |
157 |
| RE087RE09.esd | Chr19 |
100 |
106 |
0 |
0 |
100 |
205 | 13495533 | 13495428 |
1e-51 |
210 |
| RE087RF01.esd | Chr3 |
100 |
195 |
0 |
0 |
86 |
280 | 14725822 | 14726016 | 7e-105 |
387 |
| RE087RF01.esd | Chr3 |
100 |
180 |
0 |
0 |
279 |
458 | 14729898 | 14730077 |
6e-96 |
357 |
| RE087RF01.esd | Chr3 |
100 |
119 |
0 |
0 |
457 |
575 | 14730286 | 14730404 |
2e-59 |
236 |
| RE087RF01.esd | Chr3 |
100 |
74 |
0 |
0 |
575 |
648 | 14730866 | 14730939 |
1e-32 |
147 |
| RE087RF02.esd | Chr5 |
100 |
133 |
0 |
0 |
282 |
414 | 56438471 | 56438339 |
7e-68 |
264 |
| RE087RF02.esd | Chr5 |
100 |
107 |
0 |
0 |
413 |
519 | 56437590 | 56437484 |
2e-52 |
212 |
+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+
40 rows in set (14.36 sec)
Bancos de dados
Biológicos
Prof. Dr. Francisco Prosdocimi
Bancos de dados
• Servem para organizar a
informação biológica e
disponibilizá-la de
maneira simples aos
pesquisadores
• Bancos mais comuns
Sequência, estrutura, proteinprotein interaction, domínios,
assinaturas, famílias gênicas,
evolutivos, paper-específicos
Conceitos básicos
• O conceito de curadoria
de sequências
• Bancos de dados
primários
– Genbank, PDB, EMBL
• Bancos de dados
secundários
– Swissprot, RefSeq, COG,
KEGG
National Center for
Biotechnology Information
O NCBI fornece acesso a
genomas completos de mais de
5.700 organismos. Genomas
significam tanto sequências
completas de organismos quanto
os que estão em processo de
sequenciamento.
http://www.ncbi.nlm.nih.gov
Os bancos de dados do NCBI
• PubMed
•
•
•
•
•
•
GenBank
GenPept
Genome
dbGSS
dbEST
dbSNP
GenBank
• Genbank, ddBJ, EMBL
• Identificadores
– gI, accession number
• Formatos
– FASTA, GenBank
– http://www.ncbi.nlm.nih.gov
/nuccore/187830767?repor
t=genbank&log$=seqview
>gi|187830767|ref|NM_000546.4| Homo sapiens tumor
protein p53 (TP53), transcript variant 1, mRNA
GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGC
TTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGG
GGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTC
CCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAG
TCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATG
GAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGG
ATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCA
GGTCCAGATGAAGCTCCCAG(...)
Taxonomy
• Permite verificar o
número de sequências de
nucleotídeos, proteínas e
genomas de espécies
• Contém a classificação
taxonômica completa das
espécies
– Incluindo categorias nãolineanas
BLAST databases
•
Peptide Sequence Databases
–
–
–
–
–
–
–
•
Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF
Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project.
Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates).
Pat: Proteins from the Patent division of GenPept.
Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank.
Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30
days.
env_nr: Protein sequences from environmental samples.
Nucleotide Sequence Databases
–
–
–
Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST,
GSS, STS, PAT, WGS). No longer "non-redundant".
refseq_rna, refseq_genomic
Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions
•
–
–
–
–
–
–
–
est_human, est_mouse, est_others
gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR
sequences.
Pat: Nucleotides from the Patent division of GenBank.
Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days.
Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions .
Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence
project..
Wgs: A database for whole genome shotgun sequence entries.
env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine
Drainage projects.
Trace Archive
• Contém os dados brutos
de sequenciamento para
diversas espécies
• O pesquisador pode fazer
o download e realizar o
base-calling da maneira
como preferir
• Arquivos pesados (dados
brutos)
• Obsoleto...
– short read archive
RefSeq
• Banco de dados de
sequências de referência para
genomas
• Apresenta uma única cópia
para cada gene no genoma
– É o verdadeiro NR
• Dividido em genoma, cDNA e
proteína (NC, NM e NP)
• Contém sequências de
splicing alternativo
Níveis de curadoria RefSeq
• Predita: automática
– cDNA com ORF sem função descrita
• Provisória: manual
– proteína com função conhecida ou inferida
– o melhor representante do GenBank, mais anotado
• Revisada: manual
– compilação sobre o gene e seus transcritos
– sequência, propriedades, nomenclatura, referências,
retirada de vetor, adição de UTRs, domínios
conservados, descrição da função do gene, links
dbEST
• Contém sequências de ESTs
(e ORestes) de diversos
organismos
dbGSS
• Contém
sequências
genômicas
single-passed
para diversos
organismos
UniGene
• Contém clusters de ESTs
formados a partir de
similaridades usando o
algoritmo megaBLAST
• Reúne variantes de
splicing no mesmo
identificador
• Cataloga variantes de
splicing por tecido
UniGene
• Organização das sequências do GenBank em
um conjunto de aglomerados
• Cada aglomerado do UniGene contém as
sequências que representam um gene único
• E também informações relacionadas, como em
que tecidos o gene é expresso, etc.
• E também onde está mapeado
MegaBLAST gera o UniGene
Todas ESTs contra todas
Detecção de homologia
> 96% de identidade
> 70% do potencial
Aglomerar
GEO database
• Contém dados de
experimentos de
microarray
COG
• Cluster of Orthologous
Groups
– 66 genomas bacterianos
• Best Hits cruzados entre
3 organismos
• Genes bacterianos
agrupados por função
biológica
• KOG, eucariotos
CDD, conserved domains
• Banco de dados de domínios
• NCBI-curated domains
• Baseado nas bases de dados:
– Pfam, SMART, COG, PRK,
TIGRFAM
• Permite mostrar a arquitetura
de domínios de uma
sequência quando o usuário
faz um BLAST
• Utiliza o RPS-blast
Go to => NCBI
Outros serviços NCBI
• Serviços educacionais
– http://www.ncbi.nlm.nih.gov/Education/
• NCBI Handbook
– http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.Vie
w..ShowTOC&rid=handbook.TOC&depth=2
• ORF finder
• Muito mais...
– Coffe break
http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=c
offeebrk
SwissPROT
• Banco de dados de
sequências de
proteínas mais
curado e mais
utilizado no mundo
• Europeus não usam
NCBI
TrEMBL
• Complemento não
anotado ao
SwissPROT
• Não houve curadoria
manual
• Anotação automática
Famílias protéicas
• A maioria das proteínas pode ser agrupada em
famílias com base na similaridade entre suas
sequências
– Similaridade intra-espécies
– Evidência de ancestralidade comum
• Proteínas da mesma família costumam ter funções
moleculares e biológicas semelhantes → inferência
biológica
• Inferência de função
– Similaridade de sequência
– Análise filogenética
Famílias e alinhamento
dkk1
dkk2
dkk3
Prokinecitin/
Intestinal toxin
Lipase protein
cofactor
Pfam :
Dickkopf N-terminal domain
Colipase
Colipase C-terminal domain
Assinaturas ou domínios
protéicos
• Obtidos através da
análise de regiões que se
mantém constantes em
grupos de sequências
similares alinhadas
• Distingue membros de
famílias dos nãomembros
• Auxilia a atribuição de
funcionalidades
moleculares e biológicas
Identificação de famílias por
expressões regulares
Montando uma expressão
regular
Expressão regular
Expressão regular para a família
Uso de expressões regulares
• Identificação de padrões de
famílias
• Identificação de promotores,
sítios para a ligação do
ribossomo (consenso de
kosak)
• Problemas
– Pequenas diferenças em um
membro da família pode
retirá-lo do grupo
– Lembrete: a vida não
apresenta regras rígidas
– Programas com base
estatística ou baseados em
inteligência artificial
Prosite
Prosite INFO
Prosite INFO
pFAM
• Cadeias de Markov:
não se acessa o
estado, porém um
observação
probabilística do
estado
Bancos de dados de domínios
InterPRO
KEGG
• Kyoto Encyclopedia
of Genes and
Genomes
• Permite anotar a
presença de enzimas
e completar vias
bioquímicas
• Visão integrada do
metabolismo
KEGG pathways
• Enzimas/proteínas
encontradas são
marcadas em verde
Gene Ontology
• Primeira ontologia criada em biologia molecular, 2000
• Consórcio para a padronização da anotação gênica
• Vocabulário padrão para a descrição de genes em
três categorias
– Processo biológico
– Função molecular
– Localização celular
Human, mouse,
worm, fly, etc...
Processo biológico
Função molecular
Localização Celular
Além do Gene Ontology
• OBO foundry: The open biomedical
ontologies
• Anatomy ontologies
BaliBASE
• Banco de dados de
alinhamentos
múltiplos
• Curado manualmente
• Visão integrada do
metabolismo
Proteômica
• Swiss-2D-page
• Banco de dados de
géis bidimensionais
Codon Usage DB
• Preferência em
códons sinônimos
• Utilização preferencial
de certos códons por
aminoácidos
• Diferença por
organismo/organela
Lembrete
• Muitos bancos de dados estão disponíveis
para FTP
– Faça o download e instale na sua máquina
– Bancos de dados locais e pesquisaespecíficos ajudam no desenvolvimento e
análise de dados
• Instale no MySQL mais próximo
– Monte suas tabelas e faça seus selects!
– PERL + SQL (a biblioteca DBI)
Conclusões
• Há bancos de dados em
bioinformática para
praticamente qualquer tipo de
abordagem em biologia
molecular
• Stein, 2009
• O papel central da
bioinformática na pesquisa
genômica moderna
• NAR, duas edições por ano
• É preciso conhecer os
serviços, mais cedo ou mais
tarde, você pode precisar