DUBLIN CORE E XML: FERRAMENTAS DE GESTÃO DA INFORMAÇÃO NA WEB Marcia Izabel Fugisawa Souza1 Adriana Delfino dos Santos2 Roberto Hiroshi Higa3 Laurimar Gonçalves Vendrusculo4 RESUMO Este artigo relata trabalho conduzido na Embrapa para a criação do website Agência Embrapa Pecuária de Corte, com a finalidade de reunir, organizar e dar acesso à informação sobre a cadeia produtiva de pecuária de corte, via Internet. O website proposto será constituído de recursos eletrônicos (publicações web) relacionados à cadeia produtiva de pecuária de corte, de variados formatos e tipos, como: textos, imagens, som, software, dados, interativo, eventos, etc. Este projeto visa o desenvolvimento de uma infra-estrutura para geração de metadados de recursos eletrônicos, tendo como funcionalidades: inserção; alteração; exclusão; e, consulta a recursos catalogados. Também aborda a necessidade de desenvolvimento de ferramentas apropriadas para a organização da informação. A tecnologia usada é a linguagem XML (eXtensible Markup Language) para estruturação do conteúdo da informação, e o padrão Dublin Core para descrição de recursos eletrônicos. Discorre sobre a evolução de linguagens de marcação – ferramentas que possibilitam que a informação seja estruturada e legível por computador e por humanos. Mostra a evolução ocorrida entre as linguagens SGML e HTML, culminando com o surgimento da XML. Como resultado obtido é apresentada a ferramenta geradora de metadados, desenvolvida sob a base tecnológica da XML, que permite estruturar e armazenar recursos eletrônicos no repositório de informação da Agência Embrapa Pecuária de Corte. INTRODUÇÃO A década de 90 assistiu ao surgimento de um fenômeno de grande repercussão – a World Wide Web, acontecimento este que mais tem contribuído para a popularização e uso da rede mundial de computadores - Internet. A despeito de seu crescimento estrondoso, o volume de informação publicado na Internet - atualmente, beirando a casa de meio terabytes -, só tende a aumentar. Essa quantidade de informação, obviamente, não é sinônimo de qualidade. Um dado recente diz que apenas 0,01% da informação que circula na Internet é útil e aproveitável, ou seja, tem qualidade (Sant’ana, 2000). Esse crescimento 1 Técnico Especializado da Embrapa Informática Agropecuária, M.Sc. em Biblioteconomia, Puccamp, Campinas, SP. 2 Pesquisadora da Embrapa Informática Agropecuária, M.Sc em Engenharia Elétrica – Engenharia de Software, Unicamp, Campinas, SP. 3 Pesquisador da Embrapa Informática Agropecuária, M.Sc. em Engenharia Elétrica – Engenharia da Computação e Automação Industrial, Unicamp, Campinas, SP. 4 Pesquisadora da Embrapa Informática Agropecuária, Mestranda em Engenharia Agrícola, Unicamp-Feagri, Campinas, SP. 1 desordenado impõe sérias dificuldades durante a localização e recuperação da informação desejada, porém tem fornecido combustível para o desenvolvimento de ferramentas apropriadas à sua organização. É cada vez mais intensa a propagação e o desenvolvimento de tecnologias da informação dedicadas a edição e publicação em formato digital, assim como na conversão de documentos de papel em mídia eletrônica (Marcondes & Gomes, 2000). Publicar, recuperar, trocar e integrar informação na Web exigem o emprego de ferramentas que possibilitem que o seu conteúdo seja exibido e legível por máquina, assim como por humanos. Páginas Web em suas mais variadas formas e tamanhos constituem-se no suporte mais amplamente difundido de publicação Web, sendo que o recurso utilizado para isto é a linguagem de marcação hipertexto (Hypertext Markup Language – HTML). Através desta linguagem grande parte da publicação Web é formatada, porém, como suas tags são fixas, sua função limita-se, apenas, a controlar aspectos relativos à aparência do documento, como tipo, estilo, cor, tamanho de fonte, margens, tamanho de página, tabelas, etc. Em razão disso, aspectos importantes relacionados à representação do conteúdo da informação na Web não são contemplados de maneira satisfatória pela HTML. A marcação semântica, por exemplo, é o recurso que dá aos computadores a capacidade de identificar o significado que cada elemento descritivo encerra. É este tipo de marcação que permite a estruturação do conteúdo da informação, de forma que o mesmo seja interpretado por máquina e se traduza em auxílio direto aos humanos na tarefa de recuperação de informação. A ferramenta que oferece essa facilidade é a XML – eXtensible Markup Language, uma linguagem de marcação extensível, que torna mais fácil desenvolver e publicar na Web. A oportunidade de acesso ilimitado à informação distribuída globalmente pela Web requer o uso de metadados para descrição padronizada de recursos eletrônicos, visando eficácia na sua recuperação (Miller, 1998). Metadados requerem convenções comuns sobre semântica, sintaxe e estrutura, assim definidas: a semântica refere-se ao significado dos metadados, e é definida pela comunidade específica na forma que melhor expressa suas necessidades; a sintaxe orienta sobre o arranjo sistemático dos elementos de dados, e facilita a troca e uso de metadados entre aplicações múltiplas; a estrutura pode ser vista como um limitador formal da sintaxe, visando a representação consistente da semântica. A XML, ferramenta desenvolvida sob os auspícios do World Wide Web, oferece infra-estrutura que possibilita a codificação, troca e reuso de metadados estruturados. Essa infra-estrutura possibilita a interoperabilidade através dos mecanismos que suportam a semântica, sintaxe e estrutura. O trabalho ora relatado é parte integrante do Projeto Agência Embrapa Pecuária de Corte, na figura de um projeto-piloto para criação de seu website. Este trabalho, conduzido pela Embrapa, visa o desenvolvimento de uma infra-estrutura para geração de metadados dos recursos eletrônicos constantes do repositório de informação da Agência Embrapa Pecuária de Corte. Este repositório será constituído de recursos eletrônicos (publicações web) relacionados à cadeia produtiva de pecuária de corte, de variados formatos e tipos, 2 como: textos (home page, publicações periódicas, monografias, manuais, proceedings, dicionários, teses, etc.); imagem (fotografias, pinturas, desenhos, gráficos, filmes, mapas, etc.); som (música, discurso, narração, etc.); dados (planilhas eletrônicas, bases de dados, dados GIS, dados estatísticos, etc.); software (programas de computador, binários executáveis, etc.); interativo (chat, objetos de aprendizagem multimídia, realidade virtual,etc.); evento (exposição, web conferência, web workshop, etc.) e outros. O objetivo deste trabalho é o desenvolvimento de uma ferramenta geradora de metadados de recursos eletrônicos com as seguintes funcionalidades: inserção de recurso; alteração de recurso; exclusão de recurso; e, consulta a recursos catalogados. O padrão de metadados escolhido para fazer a descrição de recursos eletrônicos é o Dublin Core. Para a estruturação e armazenamento dos metadados, escolheu-se a linguagem XML, basicamente, pela sua capacidade de promover a interoperabilidade dos dados e pela sua flexibilidade ao permitir a utilização de tags próprias que melhor expressem o conteúdo dos recursos a serem descritos. LINGUAGENS DE MARCAÇÃO: SUA EVOLUÇÃO SGML e HTML O entendimento inicial da necessidade de adoção de padrão de especificação, definição e uso de linguagens de marcação de documentos foi registrado no início dos anos 80, pelo esforço conjunto realizado pela Graphic Communications Association (GCA) e IBM, ao formarem o American National Standards Institute Committee on Computer Languages for the Processing of Text (Khare & Rifkin, 1997). Dessa iniciativa surgiu a Standard Generalized Markup Language (SGML), publicada como norma ISO 8879, em 1986, projetada para permitir validação, estruturação e extensibilidade aos documentos. SGML foi bem sucedida no fornecimento de uma linguagem de intercâmbio para manipular e trocar documentos textos, culminando com sua adoção pelo CERN (The European Laboratory for Particle Physics in Switzerland). Neste laboratório, em 1990, o inventor da World Wide Web Tim Berners-Lee, tomando um subconjunto da SGML, dedicou-se à concepção de um idioma para aplicação hipertexto, a chamada HTML, para complementar as folhas de estilo que ele tinha projetado para que o seu browser pudesse entendê-las (Savola et al., 1995). A partir de 1993, a HTML passou a ser amplamente difundida e adotada como padrão para produzir páginas hipertexto na Web. Entretanto, a HTML resume-se em um limitado conjunto de tags, e por isso não oferece a flexibilidade hoje exigida pelas aplicações Web atuais. Diante dessa constatação, pesquisadores partiram em busca de outra linguagem de marcação que pudesse oferecer mais recursos que a HTML, e que ao mesmo tempo fosse mais usável por humanos e máquinas, do que a complexa SGML (Khare & Rifkin, 1997). 3 XML e seu uso Em 1996, uma equipe apoiada pelo World Wide Web Consortium passou a trabalhar no desenvolvimento de uma linguagem de marcação que tornasse a SGML mais simples e mantivesse seus aspectos de extensibilidade, estrutura e validação. Essa nova linguagem deveria oferecer ainda outras facilidades não-disponíveis no HTML, como a criação de tags próprias, com sua semântica particular, visando expressar o conteúdo da informação e não apenas a sua aparência. A nova linguagem deveria lidar com a incapacidade da HTML de fazer distinções entre os dados sobre a informação e informação propriamente dita. Em outras palavras, buscava-se uma linguagem flexível o suficiente para que informações semânticas sobre a informação publicada pudessem ser inseridas no documento e, posteriormente, interpretadas tanto por máquinas quanto por humanos. Esse esforço resultou no surgimento da XML, um formato de texto padronizado, projetado especificamente para transmitir dados estruturados para aplicações Web (Khare & Rifkin, 1997). XML foi criada para viabilizar a troca de textos, fotografias, gráficos, imagens (metadados ou documentos completos), estruturados, através da Web, já que as duas alternativas viáveis entre as linguagens de marcação não são práticas neste sentido: HTML não é capaz de estruturar um documento, e SGML pode estruturar a informação, mas é demasiado complicado implementá-la. A XML presta-se à estruturação (descrição do conteúdo), enquanto a HTML está voltada para a apresentação (descrição de formato) da informação. Na XML, os aspectos relativos a formato de apresentação da informação são resolvidos pelas folhas de estilo, que indicam como gerar reproduções formatadas no formato de apresentação escolhido. Vantagens do XML (Light, 1999; McGrath, 1999; Khare & Rifkin, 1997): fácil de ler, usar e implementar do que o SGML completo; XML é mais fácil de definir e validar tipos de documentos, elaborar e gerenciar documentos definidos com SGML, e transmitir e compartilhar documentos na Web; XML possibilita apresentação da informação textual e multimídia (áudio e vídeo) em variadas formas; XML permite estruturar a informação de tal forma que seja possível acessá-la independentemente do device em uso; XML possui estrutura flexível, o que possibilita ao usuário a criação de suas próprias tags dentro de cada documento, de forma personalizada ou de acordo com a necessidade de determinada comunidade; esse aspecto atribui à XML níveis de precisão e detalhe, os quais não seriam possíveis de alcançar com a HTML; XML permite que autores se concentrem na criação ao invés da formatação de documentos Web; XML é uma tecnologia voltada para o documento; durante a sua existência, um documento XML pode ser usado e reutilizado de várias formas diferentes e em muitos formatos diferentes, inclusive aqueles a serem inventados; XML pode ser aplicada à modelagem de banco de dados, tecnologia push, automação Web, distribuição de software, publicação científica, etc. Para gerenciar a informação de forma eficaz é necessário contar com um sistema que permita estruturá-la logicamente, de maneira a permitir sua recuperação, troca e integração. Nesse aspecto, dado o uso crescente do ambiente Web para tornar disponíveis conteúdos de informação é relevante ressaltar a necessidade de padronização da descrição 4 de recursos eletrônicos visando a melhoria da eficácia dos mecanismos de busca e recuperação e satisfação dos usuários. CATALOGAÇÃO DE RECURSOS ELETRÔNICOS Catalogação de recursos eletrônicos é um tema que vem sendo amplamente discutido e defendido, principalmente, por produtores de conteúdo de informação para o ambiente Internet. Catalogar recursos eletrônicos é tarefa imprescindível à qualificação da informação, dado o interesse generalizado que pessoas e instituições vêm demonstrando, cada vez mais, em publicar na Internet. Calcula-se que o número de páginas web na Internet já se aproxima da casa dos 3 bilhões (Online..., 2000), crescendo ao ritmo de 7 milhões de páginas ao dia. Em sua imensa maioria, esses bilhões de páginas são totalmente desprovidos de qualquer padrão de organização e descrição, o que contribui diretamente para a baixa eficácia e eficiência na recuperação e na conseqüente insatisfação e frustração dos internautas. Catalogar recursos eletrônicos significa descrevê-los de acordo com padrões, constituindo em agregação de valor à informação; catalogar é uma forma de organizar a informação e quanto melhor organizada mais facilmente se tornará acessível. O método mais eficiente para dar acesso a esses recursos é a criação de catálogos e bases de dados visando a sua recuperação on line, cujos registros podem ser incorporados através da utilização de técnicas e procedimentos de catalogação. A catalogação é o processo de representação dos itens de informação, com vistas a permitir o atendimento às demandas do público quanto aos registros do conhecimento (Mey, 1995). Tal representação atua como instrumento de acesso à informação e ao documento, além de possibilitar a sua disseminação e recuperação, contribuindo para a agilização do processo de aquisição de conhecimento (Pereira & Santos, 1997). Instituições produtoras de informação em formato eletrônico na Internet estão preocupadas cada vez mais em como preparar e tornar disponíveis seus recursos de informação em catálogos on line, para que tenham visibilidade e possam ser acessados de forma satisfatória. Na Embrapa, essa preocupação também existe, sobretudo, porque seus resultados de pesquisa já estão sendo publicados na Internet. Apesar disso, suas bases de dados, inclusive as bibliográficas, ainda necessitam ser projetadas para descrever, armazenar e disseminar informação eletrônica. Nessa direção, o Projeto Agência Embrapa Pecuária de Corte se propôs a desenvolver uma ferramenta para gerar metadados, através da qual todo e qualquer recurso eletrônico deve ser catalogado. METADADOS Metadados podem ser definidos como sendo: dados sobre dados; informação sobre informação; descrição estruturada de propriedades essenciais da informação. Possibilitam a representação da informação, criam estrutura padronizada de descrição da informação, agregam valor à informação, e, conseqüentemente, facilitam a recuperação e acesso à informação desejada (Gill, 2000; Gilliland-Swetland, 2000). Elementos como autor, título, 5 assunto são exemplos de metadados e podem ser usados para descrever tanto um livro em um catálogo de uma biblioteca on line ou não, quanto para descrever uma home page, uma base de dados ou qualquer outro recurso eletrônico em ambiente Web. Os metadados descrevem os atributos e o conteúdo de um documento original, e se usados de forma efetiva, viabilizam o acesso à informação precisa (Milstead & Feldman, 1999). A qualificação da informação através de metadados é uma necessidade e visa criar uma estrutura de descrição padronizada de documentos eletrônicos, com vistas a tornar efetiva a recuperação de informação em meio eletrônico. Informação em mídia eletrônica necessita de métodos apropriados de descrição, pois possui elementos e especificidades que não são contemplados pelos métodos tradicionais de tratamento e descrição. DUBLIN CORE O Dublin Core Metadata Initiative é um padrão internacional para descrição de recursos eletrônicos de informação. Foi concebido a partir de 1994 por bibliotecários e especialistas de conteúdo, liderados por Stuart Weibel, da Online Computer Library Center (OCLC). Originou-se na cidade de Dublin, Ohio, Estados Unidos. Dublin Core consiste de um conjunto de 15 (quinze) elementos metadados, equivalentes a uma ficha catalográfica. Os elementos são: Título, Criador, Assunto, Descrição, Publicador, Colaborador, Data, Tipo do Recurso, Formato, Identificador do Recurso, Fonte, Idioma, Relação, Cobertura, Direitos Autorais. Suas principais características são: 1) simplicidade na descrição de recursos; 2) interoperabilidade semântica – promove o entendimento comum dos descritores; ajuda a unificar padrões de descrição de conteúdos, aumentando a possibilidade de interoperabilidade semântica entre disciplinas; 3) consenso internacional – padrão de descrição de reconhecimento e aceitação internacional no tocante à cobertura e escopo dos recursos; 4) extensibilidade – permite agregar outros metadados e constitui-se em alternativa aos modelos de descrição mais elaborados, demorados e caros. Desde 1996, Dublin Core Metadata Element Set, ou simplesmente Dublin Core, vem se firmando como uma solução viável para descrição de recursos eletrônicos na Internet. Existem inúmeros projetos em desenvolvimento em diversos países (América do Norte, Europa, Ásia e Austrália) utilizando o padrão Dublin Core. A seguir, são apontados exemplos de iniciativas pioneiras de desenvolvimento de ferramentas para descrição de recursos eletrônicos tomando por base o Dublin Core:The Nordic Metadata Project – primeiro projeto internacional a optar pelo uso do Dublin Core e a desenvolver ferramentas para geração, coleta e indexação de metadados. Países cooperantes: Finlândia, Noruega, Dinamarca, Suécia e Islândia (Hakala et al., 1998). Mais informações podem ser obtidas em <http://linnea.helsinki.fi/meta/mnfinal.htm>The Directory of Netherlands Online Resources (Donor) Project – projeto desenvolvido pela Biblioteca Nacional da Holanda. Adota o padrão Dublin Core na gestão de metadados e 6 possui ferramenta automática, via Web, para gerar metadados (National ..., 1999). Outras informações podem ser consultadas em <http://www.kb.nl/coop/donor.index-en.html> Foundations Project Minnesota’s Gateway to Environmental Information – projeto desenvolvido com a colaboração de Agências Ambientais do Governo do Estado de Minnesota, Estados Unidos. Utiliza o padrão Dublin Core e tem gerador de metadados próprio (Minnesota Department of Natural Resources, 1998). Website de informação ambiental disponível na Internet – <http://www.bridges.state.mn.us> Reggy – The Metadata Editor – ferramenta desenvolvida pela Distributed Systems Technology Centre, da Austrália. Informações estão disponíveis em: <http://flare.dstc.edu.au/cgibin/reg/demo.cgi> No Brasil, o tema Dublin Core ainda é pouco conhecido por profissionais de informação, porém, já existem registros na literatura de contribuições que discutem a necessidade de utilização de metadados para descrever recursos eletrônicos, bem como sobre a adoção do padrão Dublin Core. Essas contribuições estão registradas em Souza et al. (1997), Pereira & Santos (1997) e Souza et. al. (2000a, 2000b). A EXPERIÊNCIA DA EMBRAPA: Agência Embrapa Pecuária de Corte Além de estar em sintonia com as iniciativas internacionais em curso no tocante ao uso de metadados e adoção de padrão de descrição de conteúdo de recursos eletrônicos, a Embrapa preocupa-se também com a geração, recuperação e uso de recursos de informação eletrônica, de forma organizada e estruturada. Nesse sentido, estudos vêm sendo realizados na Embrapa Informática Agropecuária, desde 1998, visando: identificação de padrões de metadados; identificação e análise de projetos de desenvolvimento de ferramentas de geração de metadados; e, identificação e domínio de ferramentas e tecnologias que permitam o desenvolvimento de aplicações integradas e interoperáveis, a exemplo de XML. Esses estudos forneceram a base conceitual necessária à decisão de adotar o padrão de metadados Dublin Core para descrição de recursos eletrônicos, bem como utilizar a ferramenta XML para estruturação e armazenamento dos metadados descritos. A experiência está vinculada ao projeto de criação do website “Agência Embrapa Pecuária de Corte”, voltado para a organização e acesso à informação para a cadeia produtiva de pecuária de corte. FERRAMENTA EM XML PARA ARMAZENAR METADADOS DUBLIN CORE O projeto do website Agência Embrapa Pecuária de Corte contempla uma ferramenta de catalogação de metadados de recursos eletrônicos, apresentada nesta seção, cujas funcionalidades compreendem a criação, alteração, exclusão e consulta de metadados armazenados em XML. A ferramenta de criação de metadados está baseada na versão 1.1 da recomendação de uso do padrão “Dublin Core Metadata Element Set”, de 1999, que torna as especificações dos elementos mais estáveis para adoção pela comunidade de publicadores de (Dublin Core..., 7 1999). Essa ferramenta incorpora atributos e qualificadores para a descrição dos elementos Dublin Core, os quais visam ampliar o grau de especificidade dos dados a serem descritos. Os atributos seguem o padrão para descrição de elementos metadados ISO/IEC 11179 e formam um conjunto de dez atributos: nome, identificador, versão, autoridade, idioma, definição, obrigatoriedade, tipo de dado, ocorrência máxima e comentário. Os qualificadores são valores atribuídos para cada um dos quinze elementos do Dublin Core, estão descritos no atributo “comentário”, e que necessitam ser diferenciados uns dos outros. Esses qualificadores podem ter um identificador (esquema) e/ou um valor (modificador) e ambos servem para informar como interpretar o valor (modificador) no próprio elemento. Os qualificadores contribuem para a melhoria da consistência, clareza escopo das definições dos elementos metadados Dublin Core, facilitando a compreensão pelo usuário. Veja exemplo na Tabela 1. Tabela 1 – Exemplo de elemento Dublin Core, atributos e valores Nome Versão DC Autoridade Idioma Título 1.1 Dublin Core Metadata Initiative a definir Criador 1.1 idem Assunto 1.1 Palavraschaves idem Obrigatoriedade (...) Ocorr. máxima Comentário (Qualificadores) ilimitada Não aplica se Principal Alternativo Traduzido Título de série não se Opcional aplica ilimitada Não aplica se Nome pessoal Nome corporativo Endereço pessoal Endereço corporativo Afiliação a definir ilimitada Thesagro Requerido Requerido Esquema Modificador não se aplica A Tabela 1 apresenta um exemplo dos elementos Título, Criador e Assunto Palavras-chaves e alguns atributos e qualificadores. A coluna “Versão DC” indica a versão do padrão Dublin Core que está sendo seguida; a coluna “Autoridade” o responsável por esta versão do padrão; a coluna “Idioma” indica o idioma em que o elemento está descrito, e; a marcação “(...)” indica que existem outros atributos. Considerando-se a característica de extensibilidade inerente ao padrão Dublin Core e as necessidades especificadas para o website “Agência Embrapa Pecuária de Corte”, além dos quinze elementos metadados Dublin Core, outros quatro metadados foram acrescentados ao conjunto: Centro de Dados, Perfil do Usuário, Acessibilidade (ou Nó da Árvore do Conhecimento) e Upload. O template de entrada de informações da ferramenta de criação de metadados é apresentado na Fig. 1. Este contempla todas as informações que se deseja armazenar no repositório, ou seja, os metadados e os seus respectivos atributos e/ou qualificadores. O template é a parte da ferramenta que automatiza o processo de descrição de recursos eletrônicos e torna possível o trabalho cooperativo on line, via Web, em que bibliotecários 8 de centros de dados remotos podem inserir, atualizar e excluir recursos de informação em um mesmo repositório, no caso, o website Agência Embrapa Pecuária de Corte. O template da Fig. 1 cria o repositório de metadados no formato XML, a partir das regras de formação da estrutura definidas no DTD - Document Type Definition - associado. A DTD representa uma lista de elementos (também chamada de conjunto de tags de marcação), atributos, notações e entidades contidas no documento XML. 9 Inserção de Recurso Inserção de Recurso 1. TÍTULO do recurso a ser descrito (requerido): 7. DA TA : 2000-07-26 A valiação econômica de técnicas de recuper A A A A -MM-DD Esquema: + Modif icador: Data da última m Idioma do Título: Português 8. TIPO do recurso (a natureza ou genero do conteúdo do recurso): Outro título (além do título principal): Texto Economic evaluation of dif f erent technologies 9. FORMA TO (a representação de dados do recurso): Modif icador: Traduzido texto/html (.htm, .html) Idioma do outro título: Inglês + + 10. IDENTIFICA DOR: 2. CRIA DOR: http://atlas.spi.embrapa.br/pab/pab.nsf/ Y okoyama, Lidia Pacheco; V iana Filho, A nton URL Esquema: Modif icador: Nome pessoal + 11. FONTE: Criador (2): lidia@cnpaf .embrapa.br Texto livre Esquema: Modif icador: Endereço pessoal Idioma da Fonte: + Português 12. IDIOMA : 3. A SSUNTO e palavras-chave (requerido) Português Sistema barreirao; Cultivo associado; Milho;A + 13. RELA ÇÃ O com outros recursos: Thesagro Esquema: Idioma de palavra-chave: Português http://atlas.spi.embrapa.br/pab/pab.nsf /FrA nual Idioma da Relação: Categoria do assunto (requerido): Esquema: A GRICOLA Idioma de categoria de assunto: + Idioma da Cobertura: Português + 15. DIREITOS autorais: O objetivo deste trabalho f oi comparar a economicidade de algumas técnicas de recuperação de pastagens, ao longo de Embrapa Esquema: Texto livre Idioma dos Direitos: Português Modif icador: Texto livre Idioma da Descrição: Português 5. PUBLICA DOR: + + 16. CENTRO DE DA DOS (requerido): Embrapa Inf ormática A gropecuária Embrapa Transf erência para Comunicação 17. Nó da Á rvore do Conhecimento: + 1.2.1.3.2.6 + 18. Perf il do cliente: 6. COLA BORA DOR: Modif icador: Nenhum + Modif icador: Nenhum 4. DESCRIÇÃ O (relato do conteúdo do recurso): Modif icador: Nome corporativo Português 14. COBERTURA : Plant Production (Range and Pasture Grasse Inglês Esquema: URL Modif icador: Parte de + + Técnico Pesquisador A groindústria Produtor rural 19. Origem para upload: Procurar... + Fig. 1 – Template de geração de metadados. A Tabela 2 apresenta uma parte da definição da estrutura do repositório na coluna da esquerda e um exemplo de como estes elementos são armazenados em XML na coluna 10 da direita. O conjunto de regras da DTD inicia-se com a instrução de processamento (Processing Instruction ou PI) “enconding” e indica que o conjunto de caracteres dos documentos XML é o “Latin-1, Western Europe”, representado pelo código “ISO-8859-1”. Em seguida, define-se que o elemento “Agencia_Informacao” é composto de um ou mais elementos (símbolo “+”) do tipo “Unidade_de_Informacao”. Tabela 2 – Exemplo de regras de definição de documento e documento em XML DTD Documento XML <?xml version="1.0" encoding="ISO-8859-1"?> <?xml version="1.0" encoding="ISO-8859-1"?> <Agencia_Informacao> <!-- dtd de documentos xml de metadados da <Unidade_de_Informacao AT_Id="ID_00032"> agencia --> <Elementos_Dublin_Core> <DC_Titulo DC_AT_Idioma_Titulo="pt" <!ELEMENT Agencia_Informacao DC_AT_Modif_Titulo="Principal"> (Unidade_de_Informacao+)> Avaliação econômica de técnicas de recuperação de pastagens <!ELEMENT Unidade_de_Informacao </DC_Titulo> (Elementos_Dublin_Core, <DC_Titulo DC_AT_Idioma_Titulo="en" Centro_de_Dados, DC_AT_Modif_Titulo="Traduzido"> Perfil_do_Cliente+, Economic evaluation of different Acessibilidade*)> Technologies for pasture Recuperation <!ATTLIST Unidade_de Informacao </DC_Titulo> AT_Id ID #REQUIRED > <DC_Criador DC_AT_Modif_Criador="Nome_Pessoal"> <!-- ******************* Yokoyama, Lidia Pacheco; Metadados Dublin Core Viana Filho, Antonio; ******************* Balbino, Luiz Carlos; --> Oliveira, Itamar Pereira de; <!ELEMENT Elementos_Dublin_Core Barcellos, Alexandre de Oliveira (DC_Titulo+, </DC_Criador> DC_Criador*, <DC_Criador DC_Assunto, DC_AT_Modif_Criador="Endereco_Pessoal"> DC_Descricao*, Embrapa Arroz e Feijão – DC_Publicador*, Caixa Postal 179 – 74001-970 DC_Colaborador*, Goiania, GO - Brasil – DC_Data*, e-mail: [email protected] DC_Tipo, </DC_Criador> DC_Formato+, ... DC_Identificador+, </Elementos_Dublin_Core> DC_Fonte, <Centro_de_Dados> DC_Idioma*, Embrapa Informática Agropecuária DC_Relacao*, </Centro_de_Dados> DC_Cobertura*, <Perfil_do_Cliente> DC_Direitos*)> Técnico </Perfil_do_Cliente> <!ELEMENT DC_Titulo #PCDATA> <Perfil_do_Cliente> Pesquisador <!ATTLIST DC_Titulo </Perfil_do_Cliente> DC_AT_Idioma_Titulo <Acessibilidade> (pt | en | es | fr | de | it | 1.2.1.3.2.6 af | ar | eo | fi | no | nl | </Acessibilidade> sv | la | nh | ot ) "pt" </Unidade_de_Informacao> <Unidade_de_Informacao> DC_AT_Modif_Titulo ... (Nenhum | Principal | </Unidade_de_Informacao> Alternativo | Traduzido | Titulo_de_Serie)"Nenhum" ... > ... </Agencia_Informacao> O elemento “Unidade_de_Informacao” é composto por um único elemento do tipo “Elementos_Dublin_Core”, seguido por um único elemento do tipo “Centro_de Dados”, um ou mais elementos do tipo “Perfil_do_Usuario” e zero ou mais elementos do tipo 11 “Acessibilidade” (símbolo “*”). O atributo “AT_Id” define um identificador do elemento “Unidade_de_Informacao” que deve ser único (“# REQUIRED”). O elemento “Elementos_Dublin_Core” é composto por:um ou mais elementos do tipo “DC_Titulo”, zero ou mais elementos do tipo “DC_Criador”, um elemento do tipo “DC_Assunto”, zero ou mais elementos do tipo “DC_Descrição”, zero ou mais elementos do tipo “DC_Publicador” , zero ou mais elementos do tipo “DC_Colaborador” , zero ou mais elementos do tipo “DC_Data”, um único elemento do tipo “DC_Tipo”, um ou mais elementos do tipo “DC_Formato”, um ou mais elementos do tipo “DC_Identificador”, um único elemento do tipo “DC_Fonte”, zero ou mais elementos do tipo “DC_Idioma”, zero ou mais elementos do tipo “DC_Relacao”, zero ou mais elementos do tipo “DC_Cobertura”, e zero ou mais elementos do tipo “DC_Direitos” O elemento “DC_Titulo” é do tipo string (indicado por “#PCDATA”) e possui os atributos DC_AT_Idioma_Titulo e DC_AT_Modif_Titulo com seus respectivos valores indicados entre parênteses, e o valor default indicado entre aspas. Na coluna direita da Tabela 2, vê-se um exemplo de metadados de um recurso representado em documento XML, contendo metadados do recurso identificado por “ID_00032”. Este recurso é composto por: dois títulos (tag “DC_Titulo”), sendo um “principal” e no idioma português (representado por “pt”) e o outro “traduzido” e no idioma inglês (representado por “en”); duas informações de criador, sendo a primeira “nome pessoal” e a segunda “endereço pessoal”; um centro de dados; duas ocorrências de perfil de usuário (“técnico” e “pesquisador”); e um endereço de acesso ao nó da árvore do conhecimento, tag Acessibilidade. O uso da XML para armazenar metadados Dublin Core está fundamentado na semelhança dos conceitos de elemento e de extensibilidade. Tanto elemento Dublin Core como elemento de documento XML são identificados por um conjunto de atributos. No Dublin Core, pode-se acrescentar novos elementos, de acordo com a necessidade da aplicação; e, na XML, pode-se acrescentar novos elementos alterando-se a regra de formação da estrutura de documento XML. Além disso, alguns atributos de elemento Dublin Core são referência para definição da regra de formação da estrutura na DTD, como por exemplo, “tipo de dado”, “obrigatoriedade” e “número máximo de ocorrências”, e outros atributos que devem ser armazenados junto com o conteúdo do elemento, como por exemplo “idioma de título” e “idioma de descrição”. Os qualificadores precisam ser armazenados junto com o conteúdo do elemento Dublin Core. Na XML, estes são representados como atributos de elemento de documento XML. As características apresentadas acima levam a uma representação de elementos Dublin Core no formato XML bastante simples e intuitiva, conforme ilustrado na Tabela 2. 12 CONSIDERAÇÕES FINAIS A tendência predominante no ambiente Web no tocante ao tratamento e organização da informação é o estabelecimento de um arcabouço tecnológico que abrigue as iniciativas de implantação de bibliotecas virtuais e sistemas similares, a exemplo da Agência Embrapa Pecuária de Corte. A incorporação de metadados por meio da XML para a estruturação da informação, bem como a adoção do padrão Dublin Core são de grande utilidade para o estabelecimento de tais sistemas. Este processo é facilitado ao utilizar-se a XML, pois, conforme apresentado na seção anterior, além do mapeamento dos elementos definidos pelo padrão Dublin Core em XML ser praticamente direto, as características de projeto dessa linguagem permitem estender o conjunto de elementos que compõem os metadados, baseados no padrão Dublin Core ou não. Entretanto, no esforço de estabelecer-se um sistema de bibliotecas virtuais são necessárias outras medidas que garantam a manutenção e atualização da ferramenta e das bases de dados de metadados, tais como o estabelecimento de política de garantia legal de concessão e alocação de recursos financeiros e humanos, com atribuição de responsabilidade sobre quem e como faz. Outro aspecto importante a ser destacado é a oportunidade do profissional bibliotecário atuar em ações como essa, aliando o “fazer biblioteconômico” tradicional às novas tecnologias de informação. Atribuição de metadados é uma atividade que necessita da interferência humana, e neste caso, o bibliotecário vai estar em interação e complementaridade com a tecnologia. Novas tecnologias para a organização da informação, em particular na descrição de recursos eletrônicos, representam apenas o arcabouço para a otimização de técnicas e processos já estabelecidos, como a catalogação. Com relação a trabalhos futuros, dois são os problemas a serem abordados: 1. padronização da estrutura do conteúdo das publicações da Embrapa com a inclusão de metadados no próprio documento e utilização de XML como forma de armazenamento, e; 2. evolução da ferramenta de catalogação no sentido de utilizar-se a própria definição da estrutura dos documentos como parâmetro, o que a tornaria independente de atualizações futuras na estrutura dos documentos, incluindo alterações nos metadados devido a evoluções do próprio padrão Dublin Core. Espera-se que as questões abordadas e as experiências da Embrapa Informática Agropecuária contribuam para: 1. fomentar e ampliar o debate em torno de novas tecnologias de informação, como a linguagem XML e o padrão Dublin Core"; 2. encorajar outras iniciativas de implementação de sistemas similares; 13 3. ajudar a convencer autoridades, instituições e indivíduos que o investimento em iniciativas do gênero significa dinheiro bem aplicado. BIBLIOGRAFIA DISTRIBUTED SYSTEMS TECHNOLOGY CENTRE. Metadata.Net home page [online]. [S.l.], 2000 [citado em 22 ago. 2000]. Disponível na Internet: <http://metadata.net/> DUBLIN CORE METADATA INITIATIVE. Dublin Core metadata element set, version 1.1: reference description [online]. [S.l.], 1999 [citado em 29 maio 2000]. Disponível na Internet: <http://purl.org/dc/documents/rec-dces-19990702.htm> GILL, T. Metadata and the World Wide Web [online]. In: BACA, M. Introduction to metadata: pathways to digital information. [Los Angeles]: Getty Research Institute, 2000 [citado em 28 ago. 2000]. Disponível na Internet: < <http://www.getty.edu/gri/standard/intrometadata/2_articles/gill/index.htm> GILLILAND-SWETLAND, A.J. Setting the stage [online]. In: BACA, M. Introduction to metadata: pathways to digital information. [Los Angeles]: Getty Research Institute, 2000 [citado em 28 ago. 2000]. Disponível na Internet: <http://www.getty.edu/gri/standard/intrometadata/2_articles/index.htm> HAKALA, J.; HANSEN, P.; HUSBY.O.; KOCH, T.; THORBORG, S. The Nordic metadata project: final report [online]. [Helsinki]: Helsinki University Library, 1998. KHARE, R.; RIFKIN, A. XML: a door to automated Web applications. IEEE Internet Computing, p.78-86, July/Aug. 1997. LIECHTI, O.; SIFERM.J.; ICHIKAWA, T. Structured graph format: XML metadata for describing Web site structure. Computer Networks and ISDN Systems, v.30, p.1121, 1998. LIGHT, R. Iniciando em XML. Sao Paulo: Makron Books do Brasil, 1999. 404p. MCGRATH, S. XML aplicacoes praticas: como desenvolver aplicações de comércio eletrônico. Rio de Janeiro: Campus, 1999. 368p. MARCONDES, C.H.; GOMES, S.L.R. O impacto da Internet nas bibliotecas brasileiras. Rits [online], v.2, n.2, jul. 2000 [citado em 10 jul. 2000]. Disponível na Internet: <http://www.rits.org.br/rets/re_editorial.cfm> MEY, E.S.A. Introdução à catalogação. Brasília: Briquet de Lemos/Livros, 1995. 123p. MILLER, E. An introduction to the resource description framework. Bulletin of the American Society for Information Science, p.15-19, Oct./Nov. 1998. 14 MILSTEAD, J.; FELDMAN, S. Metadata: cataloging by any other name... Online: the leading magazine for information professionals [online], v.23, n.1, Jan. 1999 [citado em 25 maio 2000]. Disponível na Internet: <http://www.onlineinc.com/onlinemag/OL1999/milstead1.html> MINNESOTA DEPARTMENT OF NATURAL RESOURCES. Bridges: Minnesota's environmental information search [online]. [S.l.], 1998 [citado em12 jul. 2000]. Disponível na Internet: <http://www.bridges.state.mn.us/index.html> NATIONAL LIBRARY OF THE NETHERLANDS. Donor [online]. [S.l.], 1999 [citado em 25 maio 2000]. Disponível na Internet: <http://www.kb.nl/coop/donor/indexen.html> ONLINE COMPUTER LIBRARY CENTER. OCLC Office of Research: Web characterization project [online]. [Dublin, Ohio]: 2000 [citado em 28 ago. 2000]. Disponível na Internet: <http://www.oclc.org/oclc/research/projects/webstats/index.htm> PEREIRA, A.M.; SANTOS, P.L.V.A. da C. O uso estratégico das tecnologias de catalogação. In: SEMINÁRIO SOBRE AUTOMAÇÃO EM BIBLIOTECAS E CENTROS DE DOCUMENTAÇÃO, 6., 1997, Águas de Lindóia, SP. Anais. [Águas de Lindóia]: INPE / IPEN, [1997]. p.80-88. ROSA, A. de la; SENSO, J. A. XML como medio de normalización y desarrollo documental. Rev. Esp. Doc. Cient., v.22, n.4, p.488-504, 1999. SANTANA, R.B. Re: Papel do bibliotecário na Internet [mensagem eletrônica]. [S.l.: s.n.], 12 jul. 2000; 23:59:41 [citado em 18 ago. 2000]. Mensagem recebida por <[email protected]> SAVOLA, T.; WESTENBROEK, A.; HECK, J. Special edition using HTML. Indianapolis, IN: Que, 1995. 673p. SOUZA, M.I.F.; VENDRUSCULO, L.G.; MELO, G.C. Metadados para a descrição de recursos de informação eletrônica: utilização do padrão Dublin Core. Ciência da Informação, v.29, n.1, p.93-102, jan./abr. 2000a. Também disponível na Internet: <http://www.ibict.br/cionline> SOUZA, M.I.F; SANTOS, A.D. dos; OLIVEIRA, M.J. de; CINTRA, M.A.M. de U.; VENDRUSCULO, L. Informação para Internet: uso de metadados e o padrão Dublin Core para catalogação de recursos eletrônicos na Embrapa. In: CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA E DOCUMENTAÇÃO, 19., 2000, Porto Alegre, RS. Anais. [Porto Alegre, 2000b]. Trabalho aceito para apresentação a ser realizada no período de 24 a 30 set. 2000. SOUZA, T.B. de; CATARINO, M.E.; SANTOS, P.C. dos. Metadados: catalogando dados na Internet. Transinformação [online], Campinas, v.9, n.2, maio/ago. 1997 [citado em 29 maio 2000]. Disponível na Internet: http://www.puccamp.br/~biblio/tbsouza92.html 15