Sistema de Informação Distribuído para Coleções Biologicas: A Integração do Species Analyst e SinBiota The Species Link Centro de Referência em Informação Ambiental - CRIA Vanderlei Perez Canhos Ricardo Scachetti Pereira Informação Primária em Biodiversidade Há cerca de 3 bilhões de registros de espécimes de espécies animais e vegetais no mundo Descrevendo cerca de 2 milhões de espécies 300 anos de exploração biológica (científica) do planeta Uma Biblioteca da Vida Informação Primária em Biodiversidade Dados não estão prontamente disponíveis: Maior parte reside em etiquetas de papel Informação Primária em Biodiversidade Dados não estão prontamente disponíveis: Maior parte reside em etiquetas de papel Dados informatizados estão armazenados em plataformas e sistemas operacionais heterogêneos e em diferentes sistemas de gerenciamento de dados Além disso: amostragem em cada coleção individualmente não é completa Coleções de Pássaros Mexicanos Paris Museum British Museum Field Museum KU - Natural History Museum “Museu Mundial” de Pássaros Mexicanos Exemplo dos Pássaros Mexicanos Dados coletados em 43 instituições Levou 4 anos para construir um banco de dados centralizado Ligação entre bancos de dados das coleções e o produto final foi quebrada A coleção mais significativa tinha apenas 16% dos dados Objetivos Desenvolver um sistema de informação distribuído conectando coleções em São Paulo Desenvolver e tornar disponíveis ferramentas de modelagem de distribuição de espécies Desenvolver um conjunto de aplicativos que utilizem os dados integrados da rede Definir métodos para recuperação de informação histórica de coleções internacionais Arquitetura Aplicativos Rede de Coleções Biológicas Gateway de Dados Servidor de Modelagem Internet 2 Caching Node 1 Caching Node 2 Internet Nó 1 Nó 2 Nó 3 Nó 4 Nó 5 Nó 6 Premissas O sistema deve tratar a diversidade de: Disciplinas (botânica, zoologia e microbiologia) Sistemas de gerenciamento de coleções e plataformas computacionais (hardware, SO, bancos de dados) Conectividade e infra-estrutura computacional Premissas Autonomia das Coleções Instituição deve ter total controle sobre seus dados (campos, registros, banco de dados) Conexão não deve trazer novas restrições a processos de informatização em andamento - independência de plataforma e software Dar créditos aos proprietários e autores da informação Premissas Auxiliar na informatização se necessário Avaliação de vários sistemas de gerenciamento de coleções disponíveis Quanto ao gerenciamento de dados e operação da coleção Exemplos: Brahms, Specify, Biota, Biolink Documentação para o processo de informatização Premissas Usar software de domínio público Linux (sistema operacional) Apache (servidor web) Java e Perl (Linguagens de programação) PostgreSQL (banco de dados) Sistema de Informação Geográfica (SIG) Boa ferramenta de domínio público não encontrada Desenvolver software de domínio público Premissas Padrões Abertos de Interoperabilidade XML (Extensible Markup Language) XSL (Extensible Stylesheet Language) XML Schema SOAP (Simple Object Access Protocol) UDDI HTTP (Universal Description, Discovery and Integration) (Hypertext Transfer Protocol) Participação em Iniciativas Internacionais (TWDG) Coleções Contatadas Herbário do Instituto de Botânica Departamento de Botânica, Instituto de Biociências, USP Departamento de Botânica, Instituto de Biologia, UNICAMP Ácaros: Depto. Entomologia, Fitopatologia e Zoologia Agrícola, ESALQ/USP Ácaros: UNESP, Campus de São José do Rio Preto Peixes: Museu de Zoologia da Universidade de São Paulo MZUSP Peixes: Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto - USP Peixes: UNESP, Campus de São José do Rio Preto Coleções Microbianas do Instituto de Botânica Instituto Biológico de Campinas, Centro Experimental Campos Mínimos Dados servidos pelo sistema contêm: Taxonomia Referências espacial e temporal Coletor, método, preparação e instituição depositária Sob avaliação: desenvolvimento de sub-redes para cada disciplina, incluindo campos mais específicos (plantas, peixes, mamíferos, aves, insetos, microorganismos, por exemplo) Algoritmos GARP – Genetic Algorithm for Rule-set Production BioClim – Bioclimatic Envelope Pacotes de software para download via Internet Treinamento Possíveis Produtos Website com informação e diagnóstico Portal Web para busca textual Aplicativo de mapeamento (como o Atlas - SinBiota) Sistema de apoio à decisão Ferramentas de modelagem de distribuição de espécies Estatísticas de acesso e monitoramento Consultas aos dicionários disponíveis Geo-referenciamento cooperativo (com validação por modelos de distribuição de espécie) Impactos Esperados Prover bases para novos tipos de estudos e usos dos dados primários em biodiversidade Motivação para a informatização dos dados Caracterização das coleções como importantes centros provedores de informação sobre biodiversidade Melhorar a qualidade dos dados através do uso Estabelecer mecanismo para compartilhamento de dados de longo prazo Diminuir o tempo de resposta na coleta de informação sobre biodiversidade (de meses para segundos) Informação em Biodiversidade no Mundo Iniciativas internacionais baseiam-se em: Global Biodiversity Information Facility - GBIF Informatização de coleções Desenvolvimento de aplicativos Novas tecnologias em Ciência da Computação e Telecomunicações (Internet 2) Catálogo da Vida: Sp2000, ITIS, ... Padrões, Metadados e Interoperabilidade The Species Analyst Atividades em Andamento Projeto teve início em novembro de 2001 Projeto dos componentes de software para a rede, sistema de informação, website e algoritmos de modelagem Diagnóstico da infra-estrutura de cada coleção e definição de estratégias para integração à rede Interfaces do SinBiota/SpLink com esforços internacionais em andamento: Sp2000, ITIS, Species Analyst