 
                                Sistema de Informação Distribuído para Coleções Biologicas: A Integração do Species Analyst e SinBiota The Species Link Centro de Referência em Informação Ambiental - CRIA Vanderlei Perez Canhos Ricardo Scachetti Pereira Informação Primária em Biodiversidade  Há cerca de 3 bilhões de registros de espécimes de espécies animais e vegetais no mundo  Descrevendo cerca de 2 milhões de espécies  300 anos de exploração biológica (científica) do planeta Uma Biblioteca da Vida Informação Primária em Biodiversidade  Dados não estão prontamente disponíveis:  Maior parte reside em etiquetas de papel Informação Primária em Biodiversidade  Dados não estão prontamente disponíveis:    Maior parte reside em etiquetas de papel Dados informatizados estão armazenados em plataformas e sistemas operacionais heterogêneos e em diferentes sistemas de gerenciamento de dados Além disso: amostragem em cada coleção individualmente não é completa Coleções de Pássaros Mexicanos Paris Museum British Museum Field Museum KU - Natural History Museum “Museu Mundial” de Pássaros Mexicanos Exemplo dos Pássaros Mexicanos     Dados coletados em 43 instituições Levou 4 anos para construir um banco de dados centralizado Ligação entre bancos de dados das coleções e o produto final foi quebrada A coleção mais significativa tinha apenas 16% dos dados Objetivos  Desenvolver um sistema de informação distribuído conectando coleções em São Paulo  Desenvolver e tornar disponíveis ferramentas de modelagem de distribuição de espécies  Desenvolver um conjunto de aplicativos que utilizem os dados integrados da rede  Definir métodos para recuperação de informação histórica de coleções internacionais Arquitetura Aplicativos Rede de Coleções Biológicas Gateway de Dados Servidor de Modelagem Internet 2 Caching Node 1 Caching Node 2 Internet Nó 1 Nó 2 Nó 3 Nó 4 Nó 5 Nó 6 Premissas  O sistema deve tratar a diversidade de:  Disciplinas (botânica, zoologia e microbiologia)  Sistemas de gerenciamento de coleções e plataformas computacionais (hardware, SO, bancos de dados)  Conectividade e infra-estrutura computacional Premissas   Autonomia das Coleções  Instituição deve ter total controle sobre seus dados (campos, registros, banco de dados)  Conexão não deve trazer novas restrições a processos de informatização em andamento - independência de plataforma e software Dar créditos aos proprietários e autores da informação Premissas  Auxiliar na informatização se necessário  Avaliação de vários sistemas de gerenciamento de coleções disponíveis    Quanto ao gerenciamento de dados e operação da coleção Exemplos: Brahms, Specify, Biota, Biolink Documentação para o processo de informatização Premissas   Usar software de domínio público  Linux (sistema operacional)  Apache (servidor web)  Java e Perl (Linguagens de programação)  PostgreSQL (banco de dados)  Sistema de Informação Geográfica (SIG)  Boa ferramenta de domínio público não encontrada Desenvolver software de domínio público Premissas  Padrões Abertos de Interoperabilidade  XML       (Extensible Markup Language) XSL (Extensible Stylesheet Language) XML Schema SOAP (Simple Object Access Protocol) UDDI HTTP (Universal Description, Discovery and Integration) (Hypertext Transfer Protocol) Participação em Iniciativas Internacionais (TWDG) Coleções Contatadas           Herbário do Instituto de Botânica Departamento de Botânica, Instituto de Biociências, USP Departamento de Botânica, Instituto de Biologia, UNICAMP Ácaros: Depto. Entomologia, Fitopatologia e Zoologia Agrícola, ESALQ/USP Ácaros: UNESP, Campus de São José do Rio Preto Peixes: Museu de Zoologia da Universidade de São Paulo MZUSP Peixes: Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto - USP Peixes: UNESP, Campus de São José do Rio Preto Coleções Microbianas do Instituto de Botânica Instituto Biológico de Campinas, Centro Experimental Campos Mínimos  Dados servidos pelo sistema contêm:     Taxonomia Referências espacial e temporal Coletor, método, preparação e instituição depositária Sob avaliação: desenvolvimento de sub-redes para cada disciplina, incluindo campos mais específicos (plantas, peixes, mamíferos, aves, insetos, microorganismos, por exemplo) Algoritmos     GARP – Genetic Algorithm for Rule-set Production BioClim – Bioclimatic Envelope Pacotes de software para download via Internet Treinamento Possíveis Produtos  Website com informação e diagnóstico  Portal Web para busca textual  Aplicativo de mapeamento (como o Atlas - SinBiota)  Sistema de apoio à decisão  Ferramentas de modelagem de distribuição de espécies  Estatísticas de acesso e monitoramento  Consultas aos dicionários disponíveis  Geo-referenciamento cooperativo (com validação por modelos de distribuição de espécie) Impactos Esperados  Prover bases para novos tipos de estudos e usos dos dados primários em biodiversidade  Motivação para a informatização dos dados  Caracterização das coleções como importantes centros provedores de informação sobre biodiversidade  Melhorar a qualidade dos dados através do uso  Estabelecer mecanismo para compartilhamento de dados de longo prazo  Diminuir o tempo de resposta na coleta de informação sobre biodiversidade (de meses para segundos) Informação em Biodiversidade no Mundo  Iniciativas internacionais baseiam-se em:     Global Biodiversity Information Facility - GBIF    Informatização de coleções Desenvolvimento de aplicativos Novas tecnologias em Ciência da Computação e Telecomunicações (Internet 2) Catálogo da Vida: Sp2000, ITIS, ... Padrões, Metadados e Interoperabilidade The Species Analyst Atividades em Andamento  Projeto teve início em novembro de 2001  Projeto dos componentes de software para a rede, sistema de informação, website e algoritmos de modelagem  Diagnóstico da infra-estrutura de cada coleção e definição de estratégias para integração à rede  Interfaces do SinBiota/SpLink com esforços internacionais em andamento: Sp2000, ITIS, Species Analyst