Uso de Técnicas Inteligentes na Análise de Dados Biológicos

Propaganda
Profa. Dra. Cecília Dias Flores
Regente pela Disciplina de Bioinformática - Curso de Biomedicina
Depto. Ciências Exatas e Sociais Aplicadas
Coordenadora do curso Informática Biomédica
PPG em Ciências da Saúde e PPG em Ensino na Saúde
"Bioinformática é uma disciplina informática destinada ao
armazenamento, recuperação, organização e análise de
dados biológicos".
2
Dados Complexos
Tamanho
Quantidade
Significado
3
Tamanho
 O DNA é uma enorme cadeia de caracteres
 Composta somente por caracteres A, C,G e T
 Bactéria Escherichia coli
 E o ser humano?
4
Tamanho
 Exemplos de tamanho de genomas
pb = par de bases —um bp corresponde a aproximadamente 3.4 Å (1 Å = 10-10 m)
Kb = kilo (quilo) pares de bases = 1.000 bp
Mb = mega pares de bases = 1.000.000 bp
Gb = giga pares de bases = 1.000.000.000 bp
5
Tamanho
 Impressão do genoma humano
 Times New Roman
 12 pt
 2622 pb / página
 Impressão em 1 lado
 2415 pcts de 500 folhas
 129 m
 char[] humanDNA = char[3 200 000 000];
 As linguagens de programação não permitem
6
Tamanho
 Como armazenar um genoma
em um arquivo?
 Formato FASTA
 amplamente usados
 Aceita comentários (>)
 Armazena também sequências
incompletas ou pequenas
7
Tamanho
 Como armazenar um genoma
em um arquivo?
 Formato de 2 bits
 A = 00
 C = 01
 G = 10
 T = 11
 Não pode ser lido por um ser
humano
8
Tamanho
 Genomas não são seqüenciados de uma vez só
 Lê de 30-1000bp por vez
9
Quantidade
10
Quantidade
http://www.ncbi.nlm.nih.gov/genbank/statistics/
11
Quantidade
http://www.ncbi.nlm.nih.gov/
13
14
Significado
 O que isso significa...
 ... para mim, como um indivíduo? ( Medicina
personalizada )
 ... para minha população? (genômica e saúde pública )
 ... para a espécie humana ? (Ciência)
15
Significado
 O DNA...
 É a menor estrutura presente em todos os organismos
vivos
 Grande expectativa para a medicina
 DNA não pode dizer tudo sobre o seu futuro
 O DNA não é a única variável que causa doenças
 O comportamento e o meio ambiente interferem na
sua saúde
 O DNA ainda desempenha um papel importante
16
Significado
17
Significado
18
Significado
 Eu acabei de obter uma sequência. O que é sabido a respeito desta
sequência? Ela é única?
 Eu tenho uma sequência única. Ela tem similaridade com alguma
outra sequência de função conhecida?
 Eu encontrei uma nova proteína em um determinado organismo.
Existe um ortólogo conhecido?
 Eu decidi trabalhar com um gene novo. Eu não tenho como obter
um clone contendo a sequência deste gene. Eu preciso da sequência
do cDNA para fazer uma PCR.
19
Significado
 O que se pode descobrir sobre um gene por meio de uma
busca a um BD?
 Informação evolutiva: genes homólogos, frequências dos alelos, ...
 Informação genômica: localização no cromossomo, intros, UTRs,
regiões reguladoras, ...
 Informação estrutural: estruturas da proteína correspondente,
tipos de folds, domínios estruturais, ...
 Informação de expressão: expressão específica a um dado tecido,
fenótipos, doenças, ...
 Informação funcional: função molecular/enzimática, papel em
diferentes rotas, papel em doenças, ...
20
Significado
 Busca de informação sobre genes e produtos gênicos
 Geralmente organizados por sequência
 Sequências genômicas codificam todas características
de um organismo
 Produtos gênicos são descritos unicamente por sua
sequência
 Sequências similares entre biomoléculas indica tanto
uma função similar quanto um relacionamento
evolutivo
 Sequências de macromoléculas proporcionam chaves
biologicamente significativas para busca em BD
21
Significado
 Comece com uma sequência, encontre informação sobre ela
 Muitos tipos de sequências de entrada
 Pode ser uma sequência de aminoácidos ou de nucleotídeos
 Genômica, cDNA/mRNA, proteína
 Completa ou fragmentada
 Matches exatos são raros
 Em geral, o objetivo é recuperar um conjunto de sequências
similares
22
 Ênfase está se deslocando progressivamente do
acúmulo de dados para a sua interpretação
 Com os sequenciamentos realizados, um grande
volume de dados tem sido gerado
 Esses dados precisam agora ser analisados
 Análise laboratorial é difícil e cara
 Ferramentas computacionais sofisticadas são
necessárias para a análise dos dados obtidos
23
24
 Para muitas dessas análises, as ferramentas
computacionais precisam lidar com dados
imprecisos e ruidosos
 Técnicas de laboratório de Biologia Molecular quase
sempre geram dados com erros ou imprecisões
 Erros na coleta de dados
 Erros na construção de bases de dados
Aprendizagem de Máquina
Fornece técnicas para lidar com os problemas acima
25
 Principal preocupação
 Como construir programas de computador que
automaticamente melhoram seu desempenho com a
experiência?
 Técnicas orientadas a dados
 Aprendem automaticamente a partir de grandes
volumes de dados
 Geração de hipóteses a partir dos dados
26
 Algumas Técnicas









Redes Neurais Artificiais (RNs)
Máquinas de Vetores Suporte (SVMs)
Algoritmos de Agrupamento (AA)
Algoritmos Genéticos (AGs)
Árvores de Decisão (ADs)
Raciocínio Baseado em Casos (RBC)
K-vizinhos mais próximos (kNN)
Redes Probabilísticas (Cadeias de Markov, BN)
...
27
 Por muitos anos, sub-áreas da Biologia têm inspirado
técnicas de AM
 Redes Neurais
 Algoritmos Genéticos
 Programação Genética
 Vida Artificial
 Agora, diversas pesquisas na Biologia vêm utilizando
técnicas de AM
28
Redes Neurais, Algoritmos Genéticos
BIOLOGIA
COMPUTAÇÃO
Bioinformática
29
 Problemas da Biologia Molecular que podem ser
tratados por AM
 Reconhecimento de genes
 Reconstrução de árvores filogenéticas
 Análise de dados de expressão gênica
 Previsão de estruturas de proteínas
 Análise de interação entre genes
 Montagem de fragmentos
 Alinhamento de seqüências
30
 Alinhamento de sequências
 Identificação de elementos que provavelmente surgiram de um
ancestral comum
 Reconhecimento de genes
 Identificação de genes em sequências de DNA não caracterizadas
 Análise de dados de expressão gênica
 Identificar:
 Um agrupamento dos genes que seja funcionalmente significativo
 Novas subclasses de doenças
 Funções de genes desconhecidos
 Predição de estrutura de proteínas
 Identificação de estruturas secundárias de proteínas
 Reconstrução de árvores filogenéticas
 Encontrar estratégias eficientes para a obtenção da melhor árvore
ou mesmo de uma árvore sub-ótima
31
 Qual é a estrutura de uma sequência na vida real?
Primária
Secundária
Terciária
32
 Docagem Molecular
 É o procedimento que permite distinguir, do ponto de vista
energético, os complexos e/ou forma de coordenação que duas
moléculas podem adotar
 Métodos de Docking
 Algoritmo evolucionário;
 Método de Monte Carlo;
 Métodos de dinâmica molecular;
 Algoritmo de construção incremental e busca sistemática;
33
 Design, desenvolvimento e gerenciamento de




Bancos de Dados Biológicos
Processamento de Linguagem Natural (PLN)
Desenvolvimento de interfaces gráficas
Sistemas Distribuídos
Segurança
 Bioquímica
 Biofísica
 Biologia molecular
 Química orgânica e físico-química
34
 A obtenção de significados a partir do DNA
 Difícil
 Complexa
 Consome tempo
 Trabalhosa
 O conceito de similaridade é importante
 Comparação com o que já é conhecido
35
 Bioinformática :
 área muito interessante
 muitas oportunidades para adquirir e aplicar
conhecimentos
 Muitos problemas em aberto
 Oportunidades para novos projetos
 Oportunidades possiveis ​para estudantes de
computação de todos os semestres
 Informática :
 melhorar a área da biologia
 trabalhando com dados biológicos
36
 Revisão da disciplina de Biologia Molecular
 Princípios da Bioinformática
 Programação em linguagem Phython
 Seminário
37
 Questões éticas
 Implicações legais
 Discriminação Genética
 Os ataques direcionados
 Perda de reputação
 Vazamento de informações
 Problemas de privacidade
38
39
 LABIOINFO: Implantação de Laboratório de Bioinformática e Biologia
Computacional da UFCSPA
 Emprego de ferramentas de Bioinformática para o estudo de vírus
patogênicos humanos Análise filogenética e relação entre carga viral e
evolução do quadro clínico.
 Descrição: O projeto tem por objetivo identificar e caracterizar vírus
pouco conhecidos - como o metapneumovírus humano (hMPV) e o
bocavírus humano (HBoV) – em pacientes com infecção respiratória
aguda (IRA) - principalmente crianças - no Rio Grande do Sul. O
projeto inclui a construção de redes filogenéticas e moleculares para
melhor compreensão do papel desses vírus na IRA, bem como a relação
com os dados epidemiológicos.
 O vírus influenza A (H1N1) em pacientes no Rio Grande do Sul: análise
filogenética e relação entre carga viral e evolução do quadro clínico
 Desenvolvimento de ferramenta computacional para integrar o
BioPython para uso de modelos probabilísticos de biomoléculas.
Projeto submetido ao Google Summer of Code, o qual foi aprovado.
40
 Desenvolvimento de Objetos de Aprendizagem sobre
Introdução à Biologia Molecular.
41
 Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning





Approach. MIT Press.
de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C.
P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial –
Livro Texto, capítulo Técnicas de Aprendizado de Máquina para
Problemas de Biologia Molecular, pp. 103-152. Editora SBC.
Lesk, Arthur M. Introdução à Bioinformática (2008), Artmed.
Mitchell, T. (1997). Machine Learning. McGraw Hill, New York.
Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática.
Com Ciência – Revista Científica da SBPC.
http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml
Xiong, J. Essential Bioinformatics (2006), Cambridge University Press.
42
OBRIGADO!
Profa. Dra. Cecília Dias Flores
df [email protected]
Download