A integração do Species Analyst e SinBiota

Sistema de Informação Distribuído
para Coleções Biologicas:
A Integração do Species Analyst e SinBiota
The Species Link
Centro de Referência em Informação Ambiental - CRIA
Vanderlei Perez Canhos
Ricardo Scachetti Pereira
Informação Primária em Biodiversidade

Há cerca de 3 bilhões de registros de
espécimes de espécies animais e vegetais no
mundo

Descrevendo cerca de 2 milhões de espécies

300 anos de exploração biológica (científica) do
planeta
Uma Biblioteca da Vida
Informação Primária em Biodiversidade

Dados não estão prontamente disponíveis:

Maior parte reside em etiquetas de papel
Informação Primária em Biodiversidade

Dados não estão prontamente disponíveis:



Maior parte reside em etiquetas de papel
Dados informatizados estão armazenados em
plataformas e sistemas operacionais
heterogêneos e em diferentes sistemas de
gerenciamento de dados
Além disso: amostragem em cada coleção
individualmente não é completa
Coleções de Pássaros Mexicanos
Paris
Museum
British Museum
Field Museum
KU - Natural
History
Museum
“Museu Mundial” de Pássaros
Mexicanos
Exemplo dos Pássaros Mexicanos




Dados coletados em 43 instituições
Levou 4 anos para construir um banco
de dados centralizado
Ligação entre bancos de dados das
coleções e o produto final foi quebrada
A coleção mais significativa tinha apenas
16% dos dados
Objetivos

Desenvolver um sistema de informação distribuído
conectando coleções em São Paulo

Desenvolver e tornar disponíveis ferramentas de
modelagem de distribuição de espécies

Desenvolver um conjunto de aplicativos que
utilizem os dados integrados da rede

Definir métodos para recuperação de informação
histórica de coleções internacionais
Arquitetura
Aplicativos
Rede de
Coleções
Biológicas
Gateway
de Dados
Servidor de
Modelagem
Internet 2
Caching
Node 1
Caching
Node 2
Internet
Nó 1
Nó 2
Nó 3
Nó 4
Nó 5
Nó 6
Premissas

O sistema deve tratar a diversidade de:

Disciplinas (botânica, zoologia e microbiologia)

Sistemas de gerenciamento de coleções e
plataformas computacionais (hardware, SO,
bancos de dados)

Conectividade e infra-estrutura computacional
Premissas


Autonomia das Coleções

Instituição deve ter total controle sobre seus
dados (campos, registros, banco de dados)

Conexão não deve trazer novas restrições a
processos de informatização em andamento
- independência de plataforma e software
Dar créditos aos proprietários e autores
da informação
Premissas

Auxiliar na informatização se necessário

Avaliação de vários sistemas de
gerenciamento de coleções disponíveis



Quanto ao gerenciamento de dados e operação
da coleção
Exemplos: Brahms, Specify, Biota, Biolink
Documentação para o processo de
informatização
Premissas


Usar software de domínio público

Linux (sistema operacional)

Apache (servidor web)

Java e Perl (Linguagens de programação)

PostgreSQL (banco de dados)

Sistema de Informação Geográfica (SIG)
 Boa ferramenta de domínio público não encontrada
Desenvolver software de domínio público
Premissas

Padrões Abertos de Interoperabilidade

XML






(Extensible Markup Language)
XSL (Extensible Stylesheet Language)
XML Schema
SOAP (Simple Object Access Protocol)
UDDI
HTTP
(Universal Description, Discovery and Integration)
(Hypertext Transfer Protocol)
Participação em Iniciativas Internacionais (TWDG)
Coleções Contatadas










Herbário do Instituto de Botânica
Departamento de Botânica, Instituto de Biociências, USP
Departamento de Botânica, Instituto de Biologia, UNICAMP
Ácaros: Depto. Entomologia, Fitopatologia e Zoologia
Agrícola, ESALQ/USP
Ácaros: UNESP, Campus de São José do Rio Preto
Peixes: Museu de Zoologia da Universidade de São Paulo MZUSP
Peixes: Faculdade de Filosofia, Ciências e Letras de Ribeirão
Preto - USP
Peixes: UNESP, Campus de São José do Rio Preto
Coleções Microbianas do Instituto de Botânica
Instituto Biológico de Campinas, Centro Experimental
Campos Mínimos

Dados servidos pelo sistema contêm:




Taxonomia
Referências espacial e temporal
Coletor, método, preparação e instituição
depositária
Sob avaliação: desenvolvimento de sub-redes
para cada disciplina, incluindo campos mais
específicos (plantas, peixes, mamíferos, aves,
insetos, microorganismos, por exemplo)
Algoritmos




GARP – Genetic Algorithm for Rule-set
Production
BioClim – Bioclimatic Envelope
Pacotes de software para download via
Internet
Treinamento
Possíveis Produtos

Website com informação e diagnóstico

Portal Web para busca textual

Aplicativo de mapeamento (como o Atlas - SinBiota)

Sistema de apoio à decisão

Ferramentas de modelagem de distribuição de espécies

Estatísticas de acesso e monitoramento

Consultas aos dicionários disponíveis

Geo-referenciamento cooperativo (com validação por
modelos de distribuição de espécie)
Impactos Esperados

Prover bases para novos tipos de estudos e usos dos dados
primários em biodiversidade

Motivação para a informatização dos dados

Caracterização das coleções como importantes centros
provedores de informação sobre biodiversidade

Melhorar a qualidade dos dados através do uso

Estabelecer mecanismo para compartilhamento de dados de longo
prazo

Diminuir o tempo de resposta na coleta de informação sobre
biodiversidade (de meses para segundos)
Informação em Biodiversidade no
Mundo

Iniciativas internacionais baseiam-se em:




Global Biodiversity Information Facility - GBIF



Informatização de coleções
Desenvolvimento de aplicativos
Novas tecnologias em Ciência da Computação e
Telecomunicações (Internet 2)
Catálogo da Vida: Sp2000, ITIS, ...
Padrões, Metadados e Interoperabilidade
The Species Analyst
Atividades em Andamento

Projeto teve início em novembro de 2001

Projeto dos componentes de software para a
rede, sistema de informação, website e
algoritmos de modelagem

Diagnóstico da infra-estrutura de cada coleção e
definição de estratégias para integração à rede

Interfaces do SinBiota/SpLink com esforços
internacionais em andamento: Sp2000, ITIS,
Species Analyst