Profa. Dra. Cecília Dias Flores Regente pela Disciplina de Bioinformática - Curso de Biomedicina Depto. Ciências Exatas e Sociais Aplicadas Coordenadora do curso Informática Biomédica PPG em Ciências da Saúde e PPG em Ensino na Saúde "Bioinformática é uma disciplina informática destinada ao armazenamento, recuperação, organização e análise de dados biológicos". 2 Dados Complexos Tamanho Quantidade Significado 3 Tamanho O DNA é uma enorme cadeia de caracteres Composta somente por caracteres A, C,G e T Bactéria Escherichia coli E o ser humano? 4 Tamanho Exemplos de tamanho de genomas pb = par de bases —um bp corresponde a aproximadamente 3.4 Å (1 Å = 10-10 m) Kb = kilo (quilo) pares de bases = 1.000 bp Mb = mega pares de bases = 1.000.000 bp Gb = giga pares de bases = 1.000.000.000 bp 5 Tamanho Impressão do genoma humano Times New Roman 12 pt 2622 pb / página Impressão em 1 lado 2415 pcts de 500 folhas 129 m char[] humanDNA = char[3 200 000 000]; As linguagens de programação não permitem 6 Tamanho Como armazenar um genoma em um arquivo? Formato FASTA amplamente usados Aceita comentários (>) Armazena também sequências incompletas ou pequenas 7 Tamanho Como armazenar um genoma em um arquivo? Formato de 2 bits A = 00 C = 01 G = 10 T = 11 Não pode ser lido por um ser humano 8 Tamanho Genomas não são seqüenciados de uma vez só Lê de 30-1000bp por vez 9 Quantidade 10 Quantidade http://www.ncbi.nlm.nih.gov/genbank/statistics/ 11 Quantidade http://www.ncbi.nlm.nih.gov/ 13 14 Significado O que isso significa... ... para mim, como um indivíduo? ( Medicina personalizada ) ... para minha população? (genômica e saúde pública ) ... para a espécie humana ? (Ciência) 15 Significado O DNA... É a menor estrutura presente em todos os organismos vivos Grande expectativa para a medicina DNA não pode dizer tudo sobre o seu futuro O DNA não é a única variável que causa doenças O comportamento e o meio ambiente interferem na sua saúde O DNA ainda desempenha um papel importante 16 Significado 17 Significado 18 Significado Eu acabei de obter uma sequência. O que é sabido a respeito desta sequência? Ela é única? Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida? Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido? Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR. 19 Significado O que se pode descobrir sobre um gene por meio de uma busca a um BD? Informação evolutiva: genes homólogos, frequências dos alelos, ... Informação genômica: localização no cromossomo, intros, UTRs, regiões reguladoras, ... Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ... 20 Significado Busca de informação sobre genes e produtos gênicos Geralmente organizados por sequência Sequências genômicas codificam todas características de um organismo Produtos gênicos são descritos unicamente por sua sequência Sequências similares entre biomoléculas indica tanto uma função similar quanto um relacionamento evolutivo Sequências de macromoléculas proporcionam chaves biologicamente significativas para busca em BD 21 Significado Comece com uma sequência, encontre informação sobre ela Muitos tipos de sequências de entrada Pode ser uma sequência de aminoácidos ou de nucleotídeos Genômica, cDNA/mRNA, proteína Completa ou fragmentada Matches exatos são raros Em geral, o objetivo é recuperar um conjunto de sequências similares 22 Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação Com os sequenciamentos realizados, um grande volume de dados tem sido gerado Esses dados precisam agora ser analisados Análise laboratorial é difícil e cara Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos 23 24 Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões Erros na coleta de dados Erros na construção de bases de dados Aprendizagem de Máquina Fornece técnicas para lidar com os problemas acima 25 Principal preocupação Como construir programas de computador que automaticamente melhoram seu desempenho com a experiência? Técnicas orientadas a dados Aprendem automaticamente a partir de grandes volumes de dados Geração de hipóteses a partir dos dados 26 Algumas Técnicas Redes Neurais Artificiais (RNs) Máquinas de Vetores Suporte (SVMs) Algoritmos de Agrupamento (AA) Algoritmos Genéticos (AGs) Árvores de Decisão (ADs) Raciocínio Baseado em Casos (RBC) K-vizinhos mais próximos (kNN) Redes Probabilísticas (Cadeias de Markov, BN) ... 27 Por muitos anos, sub-áreas da Biologia têm inspirado técnicas de AM Redes Neurais Algoritmos Genéticos Programação Genética Vida Artificial Agora, diversas pesquisas na Biologia vêm utilizando técnicas de AM 28 Redes Neurais, Algoritmos Genéticos BIOLOGIA COMPUTAÇÃO Bioinformática 29 Problemas da Biologia Molecular que podem ser tratados por AM Reconhecimento de genes Reconstrução de árvores filogenéticas Análise de dados de expressão gênica Previsão de estruturas de proteínas Análise de interação entre genes Montagem de fragmentos Alinhamento de seqüências 30 Alinhamento de sequências Identificação de elementos que provavelmente surgiram de um ancestral comum Reconhecimento de genes Identificação de genes em sequências de DNA não caracterizadas Análise de dados de expressão gênica Identificar: Um agrupamento dos genes que seja funcionalmente significativo Novas subclasses de doenças Funções de genes desconhecidos Predição de estrutura de proteínas Identificação de estruturas secundárias de proteínas Reconstrução de árvores filogenéticas Encontrar estratégias eficientes para a obtenção da melhor árvore ou mesmo de uma árvore sub-ótima 31 Qual é a estrutura de uma sequência na vida real? Primária Secundária Terciária 32 Docagem Molecular É o procedimento que permite distinguir, do ponto de vista energético, os complexos e/ou forma de coordenação que duas moléculas podem adotar Métodos de Docking Algoritmo evolucionário; Método de Monte Carlo; Métodos de dinâmica molecular; Algoritmo de construção incremental e busca sistemática; 33 Design, desenvolvimento e gerenciamento de Bancos de Dados Biológicos Processamento de Linguagem Natural (PLN) Desenvolvimento de interfaces gráficas Sistemas Distribuídos Segurança Bioquímica Biofísica Biologia molecular Química orgânica e físico-química 34 A obtenção de significados a partir do DNA Difícil Complexa Consome tempo Trabalhosa O conceito de similaridade é importante Comparação com o que já é conhecido 35 Bioinformática : área muito interessante muitas oportunidades para adquirir e aplicar conhecimentos Muitos problemas em aberto Oportunidades para novos projetos Oportunidades possiveis para estudantes de computação de todos os semestres Informática : melhorar a área da biologia trabalhando com dados biológicos 36 Revisão da disciplina de Biologia Molecular Princípios da Bioinformática Programação em linguagem Phython Seminário 37 Questões éticas Implicações legais Discriminação Genética Os ataques direcionados Perda de reputação Vazamento de informações Problemas de privacidade 38 39 LABIOINFO: Implantação de Laboratório de Bioinformática e Biologia Computacional da UFCSPA Emprego de ferramentas de Bioinformática para o estudo de vírus patogênicos humanos Análise filogenética e relação entre carga viral e evolução do quadro clínico. Descrição: O projeto tem por objetivo identificar e caracterizar vírus pouco conhecidos - como o metapneumovírus humano (hMPV) e o bocavírus humano (HBoV) – em pacientes com infecção respiratória aguda (IRA) - principalmente crianças - no Rio Grande do Sul. O projeto inclui a construção de redes filogenéticas e moleculares para melhor compreensão do papel desses vírus na IRA, bem como a relação com os dados epidemiológicos. O vírus influenza A (H1N1) em pacientes no Rio Grande do Sul: análise filogenética e relação entre carga viral e evolução do quadro clínico Desenvolvimento de ferramenta computacional para integrar o BioPython para uso de modelos probabilísticos de biomoléculas. Projeto submetido ao Google Summer of Code, o qual foi aprovado. 40 Desenvolvimento de Objetos de Aprendizagem sobre Introdução à Biologia Molecular. 41 Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning Approach. MIT Press. de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C. P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial – Livro Texto, capítulo Técnicas de Aprendizado de Máquina para Problemas de Biologia Molecular, pp. 103-152. Editora SBC. Lesk, Arthur M. Introdução à Bioinformática (2008), Artmed. Mitchell, T. (1997). Machine Learning. McGraw Hill, New York. Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática. Com Ciência – Revista Científica da SBPC. http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml Xiong, J. Essential Bioinformatics (2006), Cambridge University Press. 42 OBRIGADO! Profa. Dra. Cecília Dias Flores df [email protected]