dublin core

Propaganda
DUBLIN CORE E XML: FERRAMENTAS DE GESTÃO DA
INFORMAÇÃO NA WEB
Marcia Izabel Fugisawa Souza1
Adriana Delfino dos Santos2
Roberto Hiroshi Higa3
Laurimar Gonçalves Vendrusculo4
RESUMO
Este artigo relata trabalho conduzido na Embrapa para a criação do website Agência
Embrapa Pecuária de Corte, com a finalidade de reunir, organizar e dar acesso à informação
sobre a cadeia produtiva de pecuária de corte, via Internet. O website proposto será
constituído de recursos eletrônicos (publicações web) relacionados à cadeia produtiva de
pecuária de corte, de variados formatos e tipos, como: textos, imagens, som, software,
dados, interativo, eventos, etc. Este projeto visa o desenvolvimento de uma infra-estrutura
para geração de metadados de recursos eletrônicos, tendo como funcionalidades: inserção;
alteração; exclusão; e, consulta a recursos catalogados. Também aborda a necessidade de
desenvolvimento de ferramentas apropriadas para a organização da informação. A
tecnologia usada é a linguagem XML (eXtensible Markup Language) para estruturação do
conteúdo da informação, e o padrão Dublin Core para descrição de recursos eletrônicos.
Discorre sobre a evolução de linguagens de marcação – ferramentas que possibilitam que a
informação seja estruturada e legível por computador e por humanos. Mostra a evolução
ocorrida entre as linguagens SGML e HTML, culminando com o surgimento da XML.
Como resultado obtido é apresentada a ferramenta geradora de metadados, desenvolvida
sob a base tecnológica da XML, que permite estruturar e armazenar recursos eletrônicos no
repositório de informação da Agência Embrapa Pecuária de Corte.
INTRODUÇÃO
A década de 90 assistiu ao surgimento de um fenômeno de grande repercussão – a World
Wide Web, acontecimento este que mais tem contribuído para a popularização e uso da
rede mundial de computadores - Internet. A despeito de seu crescimento estrondoso, o
volume de informação publicado na Internet - atualmente, beirando a casa de meio
terabytes -, só tende a aumentar. Essa quantidade de informação, obviamente, não é
sinônimo de qualidade. Um dado recente diz que apenas 0,01% da informação que circula
na Internet é útil e aproveitável, ou seja, tem qualidade (Sant’ana, 2000). Esse crescimento
1
Técnico Especializado da Embrapa Informática Agropecuária, M.Sc. em Biblioteconomia, Puccamp,
Campinas, SP.
2
Pesquisadora da Embrapa Informática Agropecuária, M.Sc em Engenharia Elétrica – Engenharia de
Software, Unicamp, Campinas, SP.
3
Pesquisador da Embrapa Informática Agropecuária, M.Sc. em Engenharia Elétrica – Engenharia da
Computação e Automação Industrial, Unicamp, Campinas, SP.
4
Pesquisadora da Embrapa Informática Agropecuária, Mestranda em Engenharia Agrícola, Unicamp-Feagri,
Campinas, SP.
1
desordenado impõe sérias dificuldades durante a localização e recuperação da informação
desejada, porém tem fornecido combustível para o desenvolvimento de ferramentas
apropriadas à sua organização. É cada vez mais intensa a propagação e o desenvolvimento
de tecnologias da informação dedicadas a edição e publicação em formato digital, assim
como na conversão de documentos de papel em mídia eletrônica (Marcondes & Gomes,
2000).
Publicar, recuperar, trocar e integrar informação na Web exigem o emprego de
ferramentas que possibilitem que o seu conteúdo seja exibido e legível por máquina, assim
como por humanos. Páginas Web em suas mais variadas formas e tamanhos constituem-se
no suporte mais amplamente difundido de publicação Web, sendo que o recurso utilizado
para isto é a linguagem de marcação hipertexto (Hypertext Markup Language – HTML).
Através desta linguagem grande parte da publicação Web é formatada, porém, como suas
tags são fixas, sua função limita-se, apenas, a controlar aspectos relativos à aparência do
documento, como tipo, estilo, cor, tamanho de fonte, margens, tamanho de página, tabelas,
etc.
Em razão disso, aspectos importantes relacionados à representação do conteúdo da
informação na Web não são contemplados de maneira satisfatória pela HTML. A marcação
semântica, por exemplo, é o recurso que dá aos computadores a capacidade de identificar o
significado que cada elemento descritivo encerra. É este tipo de marcação que permite a
estruturação do conteúdo da informação, de forma que o mesmo seja interpretado por
máquina e se traduza em auxílio direto aos humanos na tarefa de recuperação de
informação. A ferramenta que oferece essa facilidade é a XML – eXtensible Markup
Language, uma linguagem de marcação extensível, que torna mais fácil desenvolver e
publicar na Web.
A oportunidade de acesso ilimitado à informação distribuída globalmente pela Web
requer o uso de metadados para descrição padronizada de recursos eletrônicos, visando
eficácia na sua recuperação (Miller, 1998). Metadados requerem convenções comuns sobre
semântica, sintaxe e estrutura, assim definidas: a semântica refere-se ao significado dos
metadados, e é definida pela comunidade específica na forma que melhor expressa suas
necessidades; a sintaxe orienta sobre o arranjo sistemático dos elementos de dados, e
facilita a troca e uso de metadados entre aplicações múltiplas; a estrutura pode ser vista
como um limitador formal da sintaxe, visando a representação consistente da semântica.
A XML, ferramenta desenvolvida sob os auspícios do World Wide Web, oferece
infra-estrutura que possibilita a codificação, troca e reuso de metadados estruturados. Essa
infra-estrutura possibilita a interoperabilidade através dos mecanismos que suportam a
semântica, sintaxe e estrutura.
O trabalho ora relatado é parte integrante do Projeto Agência Embrapa Pecuária de
Corte, na figura de um projeto-piloto para criação de seu website. Este trabalho, conduzido
pela Embrapa, visa o desenvolvimento de uma infra-estrutura para geração de metadados
dos recursos eletrônicos constantes do repositório de informação da Agência Embrapa
Pecuária de Corte. Este repositório será constituído de recursos eletrônicos (publicações
web) relacionados à cadeia produtiva de pecuária de corte, de variados formatos e tipos,
2
como: textos (home page, publicações periódicas, monografias, manuais, proceedings,
dicionários, teses, etc.); imagem (fotografias, pinturas, desenhos, gráficos, filmes, mapas,
etc.); som (música, discurso, narração, etc.); dados (planilhas eletrônicas, bases de dados,
dados GIS, dados estatísticos, etc.); software (programas de computador, binários
executáveis, etc.); interativo (chat, objetos de aprendizagem multimídia, realidade
virtual,etc.); evento (exposição, web conferência, web workshop, etc.) e outros.
O objetivo deste trabalho é o desenvolvimento de uma ferramenta geradora de
metadados de recursos eletrônicos com as seguintes funcionalidades: inserção de recurso;
alteração de recurso; exclusão de recurso; e, consulta a recursos catalogados.
O padrão de metadados escolhido para fazer a descrição de recursos eletrônicos é o
Dublin Core. Para a estruturação e armazenamento dos metadados, escolheu-se a
linguagem XML, basicamente, pela sua capacidade de promover a interoperabilidade dos
dados e pela sua flexibilidade ao permitir a utilização de tags próprias que melhor
expressem o conteúdo dos recursos a serem descritos.
LINGUAGENS DE MARCAÇÃO: SUA EVOLUÇÃO
SGML e HTML
O entendimento inicial da necessidade de adoção de padrão de especificação,
definição e uso de linguagens de marcação de documentos foi registrado no início dos anos
80, pelo esforço conjunto realizado pela Graphic Communications Association (GCA) e
IBM, ao formarem o American National Standards Institute Committee on Computer
Languages for the Processing of Text (Khare & Rifkin, 1997).
Dessa iniciativa surgiu a Standard Generalized Markup Language (SGML),
publicada como norma ISO 8879, em 1986, projetada para permitir validação, estruturação
e extensibilidade aos documentos. SGML foi bem sucedida no fornecimento de uma
linguagem de intercâmbio para manipular e trocar documentos textos, culminando com sua
adoção pelo CERN (The European Laboratory for Particle Physics in Switzerland). Neste
laboratório, em 1990, o inventor da World Wide Web Tim Berners-Lee, tomando um
subconjunto da SGML, dedicou-se à concepção de um idioma para aplicação hipertexto, a
chamada HTML, para complementar as folhas de estilo que ele tinha projetado para que o
seu browser pudesse entendê-las (Savola et al., 1995).
A partir de 1993, a HTML passou a ser amplamente difundida e adotada como
padrão para produzir páginas hipertexto na Web. Entretanto, a HTML resume-se em um
limitado conjunto de tags, e por isso não oferece a flexibilidade hoje exigida pelas
aplicações Web atuais. Diante dessa constatação, pesquisadores partiram em busca de outra
linguagem de marcação que pudesse oferecer mais recursos que a HTML, e que ao mesmo
tempo fosse mais usável por humanos e máquinas, do que a complexa SGML (Khare &
Rifkin, 1997).
3
XML e seu uso
Em 1996, uma equipe apoiada pelo World Wide Web Consortium passou a
trabalhar no desenvolvimento de uma linguagem de marcação que tornasse a SGML mais
simples e mantivesse seus aspectos de extensibilidade, estrutura e validação. Essa nova
linguagem deveria oferecer ainda outras facilidades não-disponíveis no HTML, como a
criação de tags próprias, com sua semântica particular, visando expressar o conteúdo da
informação e não apenas a sua aparência. A nova linguagem deveria lidar com a
incapacidade da HTML de fazer distinções entre os dados sobre a informação e informação
propriamente dita. Em outras palavras, buscava-se uma linguagem flexível o suficiente para
que informações semânticas sobre a informação publicada pudessem ser inseridas no
documento e, posteriormente, interpretadas tanto por máquinas quanto por humanos.
Esse esforço resultou no surgimento da XML, um formato de texto padronizado,
projetado especificamente para transmitir dados estruturados para aplicações Web (Khare &
Rifkin, 1997). XML foi criada para viabilizar a troca de textos, fotografias, gráficos,
imagens (metadados ou documentos completos), estruturados, através da Web, já que as
duas alternativas viáveis entre as linguagens de marcação não são práticas neste sentido:
HTML não é capaz de estruturar um documento, e SGML pode estruturar a informação,
mas é demasiado complicado implementá-la.
A XML presta-se à estruturação (descrição do conteúdo), enquanto a HTML está
voltada para a apresentação (descrição de formato) da informação. Na XML, os aspectos
relativos a formato de apresentação da informação são resolvidos pelas folhas de estilo, que
indicam como gerar reproduções formatadas no formato de apresentação escolhido.
Vantagens do XML (Light, 1999; McGrath, 1999; Khare & Rifkin, 1997): fácil de
ler, usar e implementar do que o SGML completo; XML é mais fácil de definir e validar
tipos de documentos, elaborar e gerenciar documentos definidos com SGML, e transmitir e
compartilhar documentos na Web; XML possibilita apresentação da informação textual e
multimídia (áudio e vídeo) em variadas formas; XML permite estruturar a informação de
tal forma que seja possível acessá-la independentemente do device em uso; XML possui
estrutura flexível, o que possibilita ao usuário a criação de suas próprias tags dentro de cada
documento, de forma personalizada ou de acordo com a necessidade de determinada
comunidade; esse aspecto atribui à XML níveis de precisão e detalhe, os quais não seriam
possíveis de alcançar com a HTML; XML permite que autores se concentrem na criação ao
invés da formatação de documentos Web; XML é uma tecnologia voltada para o
documento; durante a sua existência, um documento XML pode ser usado e reutilizado de
várias formas diferentes e em muitos formatos diferentes, inclusive aqueles a serem
inventados; XML pode ser aplicada à modelagem de banco de dados, tecnologia push,
automação Web, distribuição de software, publicação científica, etc.
Para gerenciar a informação de forma eficaz é necessário contar com um sistema
que permita estruturá-la logicamente, de maneira a permitir sua recuperação, troca e
integração. Nesse aspecto, dado o uso crescente do ambiente Web para tornar disponíveis
conteúdos de informação é relevante ressaltar a necessidade de padronização da descrição
4
de recursos eletrônicos visando a melhoria da eficácia dos mecanismos de busca e
recuperação e satisfação dos usuários.
CATALOGAÇÃO DE RECURSOS ELETRÔNICOS
Catalogação de recursos eletrônicos é um tema que vem sendo amplamente
discutido e defendido, principalmente, por produtores de conteúdo de informação para o
ambiente Internet. Catalogar recursos eletrônicos é tarefa imprescindível à qualificação da
informação, dado o interesse generalizado que pessoas e instituições vêm demonstrando,
cada vez mais, em publicar na Internet. Calcula-se que o número de páginas web na Internet
já se aproxima da casa dos 3 bilhões (Online..., 2000), crescendo ao ritmo de 7 milhões de
páginas ao dia. Em sua imensa maioria, esses bilhões de páginas são totalmente
desprovidos de qualquer padrão de organização e descrição, o que contribui diretamente
para a baixa eficácia e eficiência na recuperação e na conseqüente insatisfação e frustração
dos internautas.
Catalogar recursos eletrônicos significa descrevê-los de acordo com padrões,
constituindo em agregação de valor à informação; catalogar é uma forma de organizar a
informação e quanto melhor organizada mais facilmente se tornará acessível. O método
mais eficiente para dar acesso a esses recursos é a criação de catálogos e bases de dados
visando a sua recuperação on line, cujos registros podem ser incorporados através da
utilização de técnicas e procedimentos de catalogação. A catalogação é o processo de
representação dos itens de informação, com vistas a permitir o atendimento às demandas do
público quanto aos registros do conhecimento (Mey, 1995). Tal representação atua como
instrumento de acesso à informação e ao documento, além de possibilitar a sua
disseminação e recuperação, contribuindo para a agilização do processo de aquisição de
conhecimento (Pereira & Santos, 1997).
Instituições produtoras de informação em formato eletrônico na Internet estão
preocupadas cada vez mais em como preparar e tornar disponíveis seus recursos de
informação em catálogos on line, para que tenham visibilidade e possam ser acessados de
forma satisfatória.
Na Embrapa, essa preocupação também existe, sobretudo, porque seus resultados de
pesquisa já estão sendo publicados na Internet. Apesar disso, suas bases de dados, inclusive
as bibliográficas, ainda necessitam ser projetadas para descrever, armazenar e disseminar
informação eletrônica. Nessa direção, o Projeto Agência Embrapa Pecuária de Corte se
propôs a desenvolver uma ferramenta para gerar metadados, através da qual todo e qualquer
recurso eletrônico deve ser catalogado.
METADADOS
Metadados podem ser definidos como sendo: dados sobre dados; informação sobre
informação; descrição estruturada de propriedades essenciais da informação. Possibilitam a
representação da informação, criam estrutura padronizada de descrição da informação,
agregam valor à informação, e, conseqüentemente, facilitam a recuperação e acesso à
informação desejada (Gill, 2000; Gilliland-Swetland, 2000). Elementos como autor, título,
5
assunto são exemplos de metadados e podem ser usados para descrever tanto um livro em
um catálogo de uma biblioteca on line ou não, quanto para descrever uma home page, uma
base de dados ou qualquer outro recurso eletrônico em ambiente Web. Os metadados
descrevem os atributos e o conteúdo de um documento original, e se usados de forma
efetiva, viabilizam o acesso à informação precisa (Milstead & Feldman, 1999).
A qualificação da informação através de metadados é uma necessidade e visa criar
uma estrutura de descrição padronizada de documentos eletrônicos, com vistas a tornar
efetiva a recuperação de informação em meio eletrônico.
Informação em mídia eletrônica necessita de métodos apropriados de descrição, pois
possui elementos e especificidades que não são contemplados pelos métodos tradicionais de
tratamento e descrição.
DUBLIN CORE
O Dublin Core Metadata Initiative é um padrão internacional para descrição de
recursos eletrônicos de informação. Foi concebido a partir de 1994 por bibliotecários e
especialistas de conteúdo, liderados por Stuart Weibel, da Online Computer Library Center
(OCLC). Originou-se na cidade de Dublin, Ohio, Estados Unidos.
Dublin Core consiste de um conjunto de 15 (quinze) elementos metadados,
equivalentes a uma ficha catalográfica. Os elementos são: Título, Criador, Assunto,
Descrição, Publicador, Colaborador, Data, Tipo do Recurso, Formato, Identificador do
Recurso, Fonte, Idioma, Relação, Cobertura, Direitos Autorais.
Suas principais características são: 1) simplicidade na descrição de recursos; 2)
interoperabilidade semântica – promove o entendimento comum dos descritores; ajuda a
unificar padrões de descrição de conteúdos, aumentando a possibilidade de
interoperabilidade semântica entre disciplinas; 3) consenso internacional – padrão de
descrição de reconhecimento e aceitação internacional no tocante à cobertura e escopo dos
recursos; 4) extensibilidade – permite agregar outros metadados e constitui-se em
alternativa aos modelos de descrição mais elaborados, demorados e caros.
Desde 1996, Dublin Core Metadata Element Set, ou simplesmente Dublin Core,
vem se firmando como uma solução viável para descrição de recursos eletrônicos na
Internet. Existem inúmeros projetos em desenvolvimento em diversos países (América do
Norte, Europa, Ásia e Austrália) utilizando o padrão Dublin Core.
A seguir, são apontados exemplos de iniciativas pioneiras de desenvolvimento de
ferramentas para descrição de recursos eletrônicos tomando por base o Dublin Core:The
Nordic Metadata Project – primeiro projeto internacional a optar pelo uso do Dublin Core e
a desenvolver ferramentas para geração, coleta e indexação de metadados. Países
cooperantes: Finlândia, Noruega, Dinamarca, Suécia e Islândia (Hakala et al., 1998). Mais
informações podem ser obtidas em <http://linnea.helsinki.fi/meta/mnfinal.htm>The
Directory of Netherlands Online Resources (Donor) Project – projeto desenvolvido pela
Biblioteca Nacional da Holanda. Adota o padrão Dublin Core na gestão de metadados e
6
possui ferramenta automática, via Web, para gerar metadados (National ..., 1999). Outras
informações podem ser consultadas em <http://www.kb.nl/coop/donor.index-en.html>
Foundations Project Minnesota’s Gateway to Environmental Information – projeto
desenvolvido com a colaboração de Agências Ambientais do Governo do Estado de
Minnesota, Estados Unidos. Utiliza o padrão Dublin Core e tem gerador de metadados
próprio (Minnesota Department of Natural Resources, 1998). Website de informação
ambiental disponível na Internet – <http://www.bridges.state.mn.us> Reggy – The
Metadata Editor – ferramenta desenvolvida pela Distributed Systems Technology Centre,
da Austrália. Informações estão disponíveis em: <http://flare.dstc.edu.au/cgibin/reg/demo.cgi>
No Brasil, o tema Dublin Core ainda é pouco conhecido por profissionais de
informação, porém, já existem registros na literatura de contribuições que discutem a
necessidade de utilização de metadados para descrever recursos eletrônicos, bem como
sobre a adoção do padrão Dublin Core. Essas contribuições estão registradas em Souza et
al. (1997), Pereira & Santos (1997) e Souza et. al. (2000a, 2000b).
A EXPERIÊNCIA DA EMBRAPA: Agência Embrapa Pecuária de Corte
Além de estar em sintonia com as iniciativas internacionais em curso no tocante ao
uso de metadados e adoção de padrão de descrição de conteúdo de recursos eletrônicos, a
Embrapa preocupa-se também com a geração, recuperação e uso de recursos de informação
eletrônica, de forma organizada e estruturada. Nesse sentido, estudos vêm sendo realizados
na Embrapa Informática Agropecuária, desde 1998, visando: identificação de padrões de
metadados; identificação e análise de projetos de desenvolvimento de ferramentas de
geração de metadados; e, identificação e domínio de ferramentas e tecnologias que
permitam o desenvolvimento de aplicações integradas e interoperáveis, a exemplo de XML.
Esses estudos forneceram a base conceitual necessária à decisão de adotar o padrão
de metadados Dublin Core para descrição de recursos eletrônicos, bem como utilizar a
ferramenta XML para estruturação e armazenamento dos metadados descritos. A
experiência está vinculada ao projeto de criação do website “Agência Embrapa Pecuária de
Corte”, voltado para a organização e acesso à informação para a cadeia produtiva de
pecuária de corte.
FERRAMENTA EM XML PARA ARMAZENAR METADADOS DUBLIN CORE
O projeto do website Agência Embrapa Pecuária de Corte contempla uma ferramenta de
catalogação de metadados de recursos eletrônicos, apresentada nesta seção, cujas
funcionalidades compreendem a criação, alteração, exclusão e consulta de metadados
armazenados em XML.
A ferramenta de criação de metadados está baseada na versão 1.1 da recomendação de uso
do padrão “Dublin Core Metadata Element Set”, de 1999, que torna as especificações dos
elementos mais estáveis para adoção pela comunidade de publicadores de (Dublin Core...,
7
1999). Essa ferramenta incorpora atributos e qualificadores para a descrição dos elementos
Dublin Core, os quais visam ampliar o grau de especificidade dos dados a serem descritos.
Os atributos seguem o padrão para descrição de elementos metadados ISO/IEC
11179 e formam um conjunto de dez atributos: nome, identificador, versão, autoridade,
idioma, definição, obrigatoriedade, tipo de dado, ocorrência máxima e comentário.
Os qualificadores são valores atribuídos para cada um dos quinze elementos do
Dublin Core, estão descritos no atributo “comentário”, e que necessitam ser diferenciados
uns dos outros. Esses qualificadores podem ter um identificador (esquema) e/ou um valor
(modificador) e ambos servem para informar como interpretar o valor (modificador) no
próprio elemento. Os qualificadores contribuem para a melhoria da consistência, clareza
escopo das definições dos elementos metadados Dublin Core, facilitando a compreensão
pelo usuário. Veja exemplo na Tabela 1.
Tabela 1 – Exemplo de elemento Dublin Core, atributos e valores
Nome
Versão
DC
Autoridade
Idioma
Título
1.1
Dublin
Core
Metadata
Initiative
a definir
Criador
1.1
idem
Assunto
1.1
Palavraschaves
idem
Obrigatoriedade
(...)
Ocorr.
máxima
Comentário (Qualificadores)
ilimitada
Não
aplica
se Principal
Alternativo
Traduzido
Título de série
não se Opcional
aplica
ilimitada
Não
aplica
se Nome pessoal
Nome corporativo
Endereço pessoal
Endereço
corporativo
Afiliação
a definir
ilimitada
Thesagro
Requerido
Requerido
Esquema
Modificador
não se aplica
A Tabela 1 apresenta um exemplo dos elementos Título, Criador e Assunto
Palavras-chaves e alguns atributos e qualificadores. A coluna “Versão DC” indica a versão
do padrão Dublin Core que está sendo seguida; a coluna “Autoridade” o responsável por
esta versão do padrão; a coluna “Idioma” indica o idioma em que o elemento está descrito,
e; a marcação “(...)” indica que existem outros atributos.
Considerando-se a característica de extensibilidade inerente ao padrão Dublin Core
e as necessidades especificadas para o website “Agência Embrapa Pecuária de Corte”, além
dos quinze elementos metadados Dublin Core, outros quatro metadados foram
acrescentados ao conjunto: Centro de Dados, Perfil do Usuário, Acessibilidade (ou Nó da
Árvore do Conhecimento) e Upload.
O template de entrada de informações da ferramenta de criação de metadados é
apresentado na Fig. 1. Este contempla todas as informações que se deseja armazenar no
repositório, ou seja, os metadados e os seus respectivos atributos e/ou qualificadores. O
template é a parte da ferramenta que automatiza o processo de descrição de recursos
eletrônicos e torna possível o trabalho cooperativo on line, via Web, em que bibliotecários
8
de centros de dados remotos podem inserir, atualizar e excluir recursos de informação em
um mesmo repositório, no caso, o website Agência Embrapa Pecuária de Corte.
O template da Fig. 1 cria o repositório de metadados no formato XML, a partir das
regras de formação da estrutura definidas no DTD - Document Type Definition - associado.
A DTD representa uma lista de elementos (também chamada de conjunto de tags de
marcação), atributos, notações e entidades contidas no documento XML.
9
Inserção de Recurso
Inserção de Recurso
1. TÍTULO do recurso a ser descrito (requerido):
7. DA TA :
2000-07-26
A valiação econômica de técnicas de recuper
A A A A -MM-DD
Esquema:
+
Modif icador: Data da última m
Idioma do Título:
Português
8. TIPO do recurso (a natureza ou genero do conteúdo
do recurso):
Outro título (além do título principal):
Texto
Economic evaluation of dif f erent technologies
9. FORMA TO (a representação de dados do recurso):
Modif icador: Traduzido
texto/html (.htm, .html)
Idioma do outro título: Inglês
+
+
10. IDENTIFICA DOR:
2. CRIA DOR:
http://atlas.spi.embrapa.br/pab/pab.nsf/
Y okoyama, Lidia Pacheco; V iana Filho, A nton
URL
Esquema:
Modif icador: Nome pessoal
+
11. FONTE:
Criador (2):
lidia@cnpaf .embrapa.br
Texto livre
Esquema:
Modif icador: Endereço pessoal
Idioma da Fonte:
+
Português
12. IDIOMA :
3. A SSUNTO e palavras-chave (requerido)
Português
Sistema barreirao; Cultivo associado; Milho;A
+
13. RELA ÇÃ O com outros recursos:
Thesagro
Esquema:
Idioma de palavra-chave:
Português
http://atlas.spi.embrapa.br/pab/pab.nsf /FrA nual
Idioma da Relação:
Categoria do assunto (requerido):
Esquema: A GRICOLA
Idioma de categoria de assunto:
+
Idioma da Cobertura: Português
+
15. DIREITOS autorais:
O objetivo deste trabalho f oi comparar a
economicidade de algumas técnicas de
recuperação de pastagens, ao longo de
Embrapa
Esquema:
Texto livre
Idioma dos Direitos: Português
Modif icador: Texto livre
Idioma da Descrição: Português
5. PUBLICA DOR:
+
+
16. CENTRO DE DA DOS (requerido):
Embrapa Inf ormática A gropecuária
Embrapa Transf erência para Comunicação
17. Nó da Á rvore do Conhecimento:
+
1.2.1.3.2.6
+
18. Perf il do cliente:
6. COLA BORA DOR:
Modif icador: Nenhum
+
Modif icador: Nenhum
4. DESCRIÇÃ O (relato do conteúdo do recurso):
Modif icador: Nome corporativo
Português
14. COBERTURA :
Plant Production (Range and Pasture Grasse
Inglês
Esquema: URL
Modif icador: Parte de
+
+
Técnico
Pesquisador
A groindústria
Produtor rural
19. Origem para upload:
Procurar...
+
Fig. 1 – Template de geração de metadados.
A Tabela 2 apresenta uma parte da definição da estrutura do repositório na coluna
da esquerda e um exemplo de como estes elementos são armazenados em XML na coluna
10
da direita. O conjunto de regras da DTD inicia-se com a instrução de processamento
(Processing Instruction ou PI) “enconding” e indica que o conjunto de caracteres dos
documentos XML é o “Latin-1, Western Europe”, representado pelo código “ISO-8859-1”.
Em seguida, define-se que o elemento “Agencia_Informacao” é composto de um ou mais
elementos (símbolo “+”) do tipo “Unidade_de_Informacao”.
Tabela 2 – Exemplo de regras de definição de documento e documento em XML
DTD
Documento XML
<?xml version="1.0" encoding="ISO-8859-1"?> <?xml version="1.0" encoding="ISO-8859-1"?>
<Agencia_Informacao>
<!-- dtd de documentos xml de metadados da
<Unidade_de_Informacao AT_Id="ID_00032">
agencia -->
<Elementos_Dublin_Core>
<DC_Titulo DC_AT_Idioma_Titulo="pt"
<!ELEMENT Agencia_Informacao
DC_AT_Modif_Titulo="Principal">
(Unidade_de_Informacao+)>
Avaliação econômica de técnicas de
recuperação de pastagens
<!ELEMENT Unidade_de_Informacao
</DC_Titulo>
(Elementos_Dublin_Core,
<DC_Titulo DC_AT_Idioma_Titulo="en"
Centro_de_Dados,
DC_AT_Modif_Titulo="Traduzido">
Perfil_do_Cliente+,
Economic evaluation of different
Acessibilidade*)>
Technologies for pasture
Recuperation
<!ATTLIST Unidade_de Informacao
</DC_Titulo>
AT_Id ID #REQUIRED >
<DC_Criador
DC_AT_Modif_Criador="Nome_Pessoal">
<!-- *******************
Yokoyama, Lidia Pacheco;
Metadados Dublin Core
Viana Filho, Antonio;
*******************
Balbino, Luiz Carlos;
-->
Oliveira, Itamar Pereira de;
<!ELEMENT Elementos_Dublin_Core
Barcellos, Alexandre de Oliveira
(DC_Titulo+,
</DC_Criador>
DC_Criador*,
<DC_Criador
DC_Assunto,
DC_AT_Modif_Criador="Endereco_Pessoal">
DC_Descricao*,
Embrapa Arroz e Feijão –
DC_Publicador*,
Caixa Postal 179 – 74001-970 DC_Colaborador*,
Goiania, GO - Brasil –
DC_Data*,
e-mail: [email protected]
DC_Tipo,
</DC_Criador>
DC_Formato+,
...
DC_Identificador+,
</Elementos_Dublin_Core>
DC_Fonte,
<Centro_de_Dados>
DC_Idioma*,
Embrapa Informática Agropecuária
DC_Relacao*,
</Centro_de_Dados>
DC_Cobertura*,
<Perfil_do_Cliente>
DC_Direitos*)>
Técnico
</Perfil_do_Cliente>
<!ELEMENT DC_Titulo #PCDATA>
<Perfil_do_Cliente>
Pesquisador
<!ATTLIST DC_Titulo
</Perfil_do_Cliente>
DC_AT_Idioma_Titulo
<Acessibilidade>
(pt | en | es | fr | de | it |
1.2.1.3.2.6
af | ar | eo | fi | no | nl |
</Acessibilidade>
sv | la | nh | ot ) "pt"
</Unidade_de_Informacao>
<Unidade_de_Informacao>
DC_AT_Modif_Titulo
...
(Nenhum | Principal |
</Unidade_de_Informacao>
Alternativo | Traduzido |
Titulo_de_Serie)"Nenhum"
...
>
...
</Agencia_Informacao>
O elemento “Unidade_de_Informacao” é composto por um único elemento do tipo
“Elementos_Dublin_Core”, seguido por um único elemento do tipo “Centro_de Dados”,
um ou mais elementos do tipo “Perfil_do_Usuario” e zero ou mais elementos do tipo
11
“Acessibilidade” (símbolo “*”). O atributo “AT_Id” define um identificador do elemento
“Unidade_de_Informacao” que deve ser único (“# REQUIRED”).
O elemento “Elementos_Dublin_Core” é composto por:um ou mais elementos do
tipo “DC_Titulo”, zero ou mais elementos do tipo “DC_Criador”, um elemento do tipo
“DC_Assunto”, zero ou mais elementos do tipo “DC_Descrição”, zero ou mais elementos
do tipo “DC_Publicador” , zero ou mais elementos do tipo “DC_Colaborador” , zero ou
mais elementos do tipo “DC_Data”, um único elemento do tipo “DC_Tipo”, um ou mais
elementos do tipo “DC_Formato”, um ou mais elementos do tipo “DC_Identificador”, um
único elemento do tipo “DC_Fonte”, zero ou mais elementos do tipo “DC_Idioma”, zero ou
mais elementos do tipo “DC_Relacao”, zero ou mais elementos do tipo “DC_Cobertura”, e
zero ou mais elementos do tipo “DC_Direitos”
O elemento “DC_Titulo” é do tipo string (indicado por “#PCDATA”) e possui os
atributos DC_AT_Idioma_Titulo e DC_AT_Modif_Titulo com seus respectivos valores
indicados entre parênteses, e o valor default indicado entre aspas.
Na coluna direita da Tabela 2, vê-se um exemplo de metadados de um recurso
representado em documento XML, contendo metadados do recurso identificado por
“ID_00032”. Este recurso é composto por: dois títulos (tag “DC_Titulo”), sendo um
“principal” e no idioma português (representado por “pt”) e o outro “traduzido” e no idioma
inglês (representado por “en”); duas informações de criador, sendo a primeira “nome
pessoal” e a segunda “endereço pessoal”; um centro de dados; duas ocorrências de perfil de
usuário (“técnico” e “pesquisador”); e um endereço de acesso ao nó da árvore do
conhecimento, tag Acessibilidade.
O uso da XML para armazenar metadados Dublin Core está fundamentado na
semelhança dos conceitos de elemento e de extensibilidade. Tanto elemento Dublin Core
como elemento de documento XML são identificados por um conjunto de atributos. No
Dublin Core, pode-se acrescentar novos elementos, de acordo com a necessidade da
aplicação; e, na XML, pode-se acrescentar novos elementos alterando-se a regra de
formação da estrutura de documento XML.
Além disso, alguns atributos de elemento Dublin Core são referência para definição
da regra de formação da estrutura na DTD, como por exemplo, “tipo de dado”,
“obrigatoriedade” e “número máximo de ocorrências”, e outros atributos que devem ser
armazenados junto com o conteúdo do elemento, como por exemplo “idioma de título” e
“idioma de descrição”.
Os qualificadores precisam ser armazenados junto com o conteúdo do elemento
Dublin Core. Na XML, estes são representados como atributos de elemento de documento
XML.
As características apresentadas acima levam a uma representação de elementos
Dublin Core no formato XML bastante simples e intuitiva, conforme ilustrado na Tabela 2.
12
CONSIDERAÇÕES FINAIS
A tendência predominante no ambiente Web no tocante ao tratamento e organização
da informação é o estabelecimento de um arcabouço tecnológico que abrigue as iniciativas
de implantação de bibliotecas virtuais e sistemas similares, a exemplo da Agência Embrapa
Pecuária de Corte.
A incorporação de metadados por meio da XML para a estruturação da informação,
bem como a adoção do padrão Dublin Core são de grande utilidade para o estabelecimento
de tais sistemas. Este processo é facilitado ao utilizar-se a XML, pois, conforme
apresentado na seção anterior, além do mapeamento dos elementos definidos pelo padrão
Dublin Core em XML ser praticamente direto, as características de projeto dessa linguagem
permitem estender o conjunto de elementos que compõem os metadados, baseados no
padrão Dublin Core ou não.
Entretanto, no esforço de estabelecer-se um sistema de bibliotecas virtuais são
necessárias outras medidas que garantam a manutenção e atualização da ferramenta e das
bases de dados de metadados, tais como o estabelecimento de política de garantia legal de
concessão e alocação de recursos financeiros e humanos, com atribuição de
responsabilidade sobre quem e como faz.
Outro aspecto importante a ser destacado é a oportunidade do profissional
bibliotecário atuar em ações como essa, aliando o “fazer biblioteconômico” tradicional às
novas tecnologias de informação. Atribuição de metadados é uma atividade que necessita
da interferência humana, e neste caso, o bibliotecário vai estar em interação e
complementaridade com a tecnologia. Novas tecnologias para a organização da informação,
em particular na descrição de recursos eletrônicos, representam apenas o arcabouço para a
otimização de técnicas e processos já estabelecidos, como a catalogação.
Com relação a trabalhos futuros, dois são os problemas a serem abordados:
1. padronização da estrutura do conteúdo das publicações da Embrapa com a
inclusão de metadados no próprio documento e utilização de XML como forma
de armazenamento, e;
2. evolução da ferramenta de catalogação no sentido de utilizar-se a própria
definição da estrutura dos documentos como parâmetro, o que a tornaria
independente de atualizações futuras na estrutura dos documentos, incluindo
alterações nos metadados devido a evoluções do próprio padrão Dublin Core.
Espera-se que as questões abordadas e as experiências da Embrapa Informática
Agropecuária contribuam para:
1. fomentar e ampliar o debate em torno de novas tecnologias de informação, como
a linguagem XML e o padrão Dublin Core";
2. encorajar outras iniciativas de implementação de sistemas similares;
13
3. ajudar a convencer autoridades, instituições e indivíduos que o investimento em
iniciativas do gênero significa dinheiro bem aplicado.
BIBLIOGRAFIA
DISTRIBUTED SYSTEMS TECHNOLOGY CENTRE. Metadata.Net home page
[online]. [S.l.], 2000 [citado em 22 ago. 2000]. Disponível na Internet:
<http://metadata.net/>
DUBLIN CORE METADATA INITIATIVE. Dublin Core metadata element set,
version 1.1: reference description [online]. [S.l.], 1999 [citado em 29 maio 2000].
Disponível na Internet: <http://purl.org/dc/documents/rec-dces-19990702.htm>
GILL, T. Metadata and the World Wide Web [online]. In: BACA, M. Introduction to
metadata: pathways to digital information. [Los Angeles]: Getty Research Institute,
2000 [citado em 28 ago. 2000]. Disponível na Internet: <
<http://www.getty.edu/gri/standard/intrometadata/2_articles/gill/index.htm>
GILLILAND-SWETLAND, A.J. Setting the stage [online]. In: BACA, M. Introduction
to metadata: pathways to digital information. [Los Angeles]: Getty Research Institute,
2000 [citado em 28 ago. 2000]. Disponível na Internet:
<http://www.getty.edu/gri/standard/intrometadata/2_articles/index.htm>
HAKALA, J.; HANSEN, P.; HUSBY.O.; KOCH, T.; THORBORG, S. The Nordic
metadata project: final report [online]. [Helsinki]: Helsinki University Library, 1998.
KHARE, R.; RIFKIN, A. XML: a door to automated Web applications. IEEE Internet
Computing, p.78-86, July/Aug. 1997.
LIECHTI, O.; SIFERM.J.; ICHIKAWA, T. Structured graph format: XML metadata for
describing Web site structure. Computer Networks and ISDN Systems, v.30, p.1121, 1998.
LIGHT, R. Iniciando em XML. Sao Paulo: Makron Books do Brasil, 1999. 404p.
MCGRATH, S. XML aplicacoes praticas: como desenvolver aplicações de comércio
eletrônico. Rio de Janeiro: Campus, 1999. 368p.
MARCONDES, C.H.; GOMES, S.L.R. O impacto da Internet nas bibliotecas brasileiras.
Rits [online], v.2, n.2, jul. 2000 [citado em 10 jul. 2000]. Disponível na Internet:
<http://www.rits.org.br/rets/re_editorial.cfm>
MEY, E.S.A. Introdução à catalogação. Brasília: Briquet de Lemos/Livros, 1995. 123p.
MILLER, E. An introduction to the resource description framework. Bulletin of the
American Society for Information Science, p.15-19, Oct./Nov. 1998.
14
MILSTEAD, J.; FELDMAN, S. Metadata: cataloging by any other name... Online: the
leading magazine for information professionals [online], v.23, n.1, Jan. 1999 [citado em
25 maio 2000]. Disponível na Internet:
<http://www.onlineinc.com/onlinemag/OL1999/milstead1.html>
MINNESOTA DEPARTMENT OF NATURAL RESOURCES. Bridges: Minnesota's
environmental information search [online]. [S.l.], 1998 [citado em12 jul. 2000].
Disponível na Internet: <http://www.bridges.state.mn.us/index.html>
NATIONAL LIBRARY OF THE NETHERLANDS. Donor [online]. [S.l.], 1999 [citado
em 25 maio 2000]. Disponível na Internet: <http://www.kb.nl/coop/donor/indexen.html>
ONLINE COMPUTER LIBRARY CENTER. OCLC Office of Research: Web
characterization project [online]. [Dublin, Ohio]: 2000 [citado em 28 ago. 2000].
Disponível na Internet:
<http://www.oclc.org/oclc/research/projects/webstats/index.htm>
PEREIRA, A.M.; SANTOS, P.L.V.A. da C. O uso estratégico das tecnologias de
catalogação. In: SEMINÁRIO SOBRE AUTOMAÇÃO EM BIBLIOTECAS E
CENTROS DE DOCUMENTAÇÃO, 6., 1997, Águas de Lindóia, SP. Anais. [Águas
de Lindóia]: INPE / IPEN, [1997]. p.80-88.
ROSA, A. de la; SENSO, J. A. XML como medio de normalización y desarrollo
documental. Rev. Esp. Doc. Cient., v.22, n.4, p.488-504, 1999.
SANTANA, R.B. Re: Papel do bibliotecário na Internet [mensagem eletrônica]. [S.l.:
s.n.], 12 jul. 2000; 23:59:41 [citado em 18 ago. 2000]. Mensagem recebida por
<[email protected]>
SAVOLA, T.; WESTENBROEK, A.; HECK, J. Special edition using HTML.
Indianapolis, IN: Que, 1995. 673p.
SOUZA, M.I.F.; VENDRUSCULO, L.G.; MELO, G.C. Metadados para a descrição de
recursos de informação eletrônica: utilização do padrão Dublin Core. Ciência da
Informação, v.29, n.1, p.93-102, jan./abr. 2000a. Também disponível na Internet:
<http://www.ibict.br/cionline>
SOUZA, M.I.F; SANTOS, A.D. dos; OLIVEIRA, M.J. de; CINTRA, M.A.M. de U.;
VENDRUSCULO, L. Informação para Internet: uso de metadados e o padrão Dublin
Core para catalogação de recursos eletrônicos na Embrapa. In: CONGRESSO
BRASILEIRO DE BIBLIOTECONOMIA E DOCUMENTAÇÃO, 19., 2000, Porto
Alegre, RS. Anais. [Porto Alegre, 2000b]. Trabalho aceito para apresentação a ser
realizada no período de 24 a 30 set. 2000.
SOUZA, T.B. de; CATARINO, M.E.; SANTOS, P.C. dos. Metadados: catalogando dados
na Internet. Transinformação [online], Campinas, v.9, n.2, maio/ago. 1997 [citado em
29 maio 2000]. Disponível na Internet: http://www.puccamp.br/~biblio/tbsouza92.html
15
Download