1028 Modalidade da apresentação: Pôster APLICAÇÃO DE MODELO DE REENGENHARIA EM TESAURO APPLICATION OF REENGINEERING MODEL ON THESAURUS Benildes Coura Moreira dos Santos Maculan Gercina Ângela Borem de Oliveira Lima Resumo: Pesquisa de doutorado em andamento, com o objetivo de estudar um modelo de reengenharia de sistemas de organização do conhecimento (SOCs) para transformar um tesauro tradicional em um SOC, convergente com o meio digital. A modelagem será aplicada no tesauro brasileiro THESAGRO, dentro do recorte temático da “intensificação agropecuária”. Como fundamento teórico-contextual apresentam-se conteúdos sobre semântica, web semântica, os SOCs e seus relacionamentos semânticos, o conceito e a definição que o delimita, e sobre a teoria das valências dos verbos. A metodologia será aplicada a partir do modelo proposto por Soergel et al. (2004), que consiste no aperfeiçoamento e na explicitação formal dos relacionamentos semânticos na estrutura conceitual de um tesauro tradicional. O software para a implantação do modelo será o ETermos, que é um sistema colaborativo para gestão terminológica. Espera-se validar o modelo aplicado, demonstrando a viabilidade da conversão de um tesauro em uma estrutura formalizada, possibilitando obter interoperabilidade entre os distintos SOCs e entre diferentes sistemas de recuperação de informação (SRI). Palavras-chave: Reengenharia de tesauro. Relacionamentos semânticos. Sistemas de recuperação de informação. Sistema de organização do conhecimento. Abstract: Doctoral research in progress aiming at studying a reengineering model to convert a traditional thesaurus in a knowledge organization system (KOS), according to the digital environment. The modeling will be applied to the Brazilian THESAGRO thesaurus and the extract study is the sub-area “agricultural intensification”. The theoretical and contextual basis of this research encompass themes such as semantics, semantic web, KOS and their conceptual relationships, the concept and definition, which defines each concept, and the theory of valences of verbs. The methodology will depart from the model proposed by Soergel et al. (2004), which consists in the improvement and formal expression of the semantic relationships into the conceptual structure of a traditional thesaurus. The software for the implementation of the model will be the E-terms, which is a collaborative system for terminology management. We expect to validate the applied model, demonstrating the feasibility of the conversion of a thesaurus in a formalized structure, thus possibly enabling interoperability among different KOS and between different information retrieval systems. Keywords: Thesaurus reengineering. Semantic relationships. Information retrieval systems. Knowledge organization system. 1 INTRODUÇÃO O termo “sistema de organização do conhecimento” (SOC) é relativamente novo e é usado para nomear os instrumentos tais como os sistemas de classificação, lista de cabeçalho de assuntos, tesauros, ontologias, entre outros. Segundo Bräscher (2009), os SOC são sistemas conceituais criados para sistematizar os conceitos e suas relações, dentro de um domínio, e para 1029 auxiliar a recuperação de informações. Eles têm como objetivo controlar os processos de representação, classificação, ordenação e armazenamento dos recursos informacionais, visando a recuperação e comunicação de informações. O SOC do tipo tesauro é composto por um conjunto de termos relacionados semantica e genericamente entre si, permitindo diferentes tipos de organização (ex.: alfabética, relacional, estruturada por campos semânticos, entre outros). Apesar de possuírem uma estrutura semântica, eles ainda não são construídos de forma adequada para uso em ambiente digital. A estrutura de um tesauro geralmente é constituída por relacionamentos entre conceitos, que abrangem relações de equivalência, hierárquicas e associativas. Essa estrutura conceitual vem evoluindo (MOTTA, 1987; CAMPOS, 1995; CAMPOS; GOMES, 2003; CAMPOS, 2004, entre outros), e já há evidências de diferentes desdobramentos para cada um desses tipos de relações. Porém, os relacionamentos explicitados na estrutura do tesauro ainda não determinam a diversidade dos tipos existentes. Podemos citar, por exemplo, o caso da relação de equivalência, pois ela pode variar dependendo de uma equivalência ortográfica, total ou parcial, de uso de abreviaturas, nome fantasia ou equivalência em outro idioma. Essa situação se repete, também, para os relacionamentos hierárquicos e associativos. Nesse contexto, o objetivo desta pesquisa é aplicar um modelo de reengenharia de tesauro tradicional para torná-lo um instrumento mais formalizado, de tal forma que os relacionamentos semânticos entre os conceitos do sistema estejam identificados e explicitados para o usuário. O foco recairá, sobretudo, no apontamento dos relacionamentos associativos. 2 FUNDAMENTOS TEÓRICOS Na área da Organização do Conhecimento, Svenonius (2000) discorreu sobre a estrutura semântica usada na normalização de vocabulários controlados, que é conseguida através do estabelecimento de relacionamentos entre os termos e seus referentes. A autora recomenda que a desambiguação terminológica não deva ser realizada apenas no nível da determinação do domínio, pois isso pode limitar a compatibilidade entre distintos vocabulários. Existem diferentes semânticas para a desambiguação terminológica. Entre elas está a semântica linguística, que é uma disciplina da Linguística e estuda o significado das expressões (fonemas, morfemas, palavras, sintagmas, frases). Ela também analisa as relações de significado que essas expressões estabelecem entre si e o domínio ou o mundo. Concordamos com Katz (1982), que defende a ideia de que qualquer disciplina que se proponha a estudar significados terminológicos precisa postular sobre fenômenos semânticos: 1030 sinonímia e paráfrase; antonímia; hiperonímia/hiponímia; ambiguidade; redundância semântica; contradição; sinteticidade; fenômeno das informações implícitas (implicação ou pressuposição). Assim, ao trabalharmos no campo da Ciência da Informação na criação de instrumentos terminológicos e conceituais, é preciso buscar respaldo na Linguística para entender os fenômenos semânticos. Nos estudos sobre semântica, Santos e Cardoso (2007) destacam três grandes escolas de análise: (1) denotacionalista, (2) funcionalista e (3) pragmática. Na primeira, os símbolos substituem os objetos, pois estão unidos aos seus respectivos significantes. Na segunda, os símbolos representam uma relação, dentro da própria língua, entre diferentes objetos, no qual o significado de uma palavra ou sintagma 179 tem estreita relação com a função que desempenha dentro do texto. Já na terceira escola, da pragmática, o sentido é definido a partir do contexto. Isso é, leva-se em consideração a função significativa do símbolo, analisado em relação ao contexto real de utilização desse símbolo (SANTOS; CARDOSO, 2007). Ainda no campo da semântica, há duas distintas unidades de análise: (1) a semântica da palavra, que foca nas relações (sinonímia, antonímia, hiperonímia, hiponímia, ambiguidade lexical, polissemia, homonímia, metáfora e metonímia) de significado entre palavras ou entre morfemas180; (2) a semântica da frase, que prioriza a ambiguidade estrutural, as anomalias no arranjo das palavras na frase, as relações de paráfrase e contradição, a implicação semântica e a pressuposição (PEDROSA, 2001). Pedrosa (2001) acrescenta o plano da semântica do verbo, e aponta que há restrição na seleção semântica dos verbos. Os verbos carregam um valor semântico e compreender esse valor é importante na determinação de relacionamentos nos tesauros (SOERGEL et al., 2004). No sentido de melhor apreender esse assunto, buscamos respaldo na “Abordagem Sintático-Semântica da Oração com base na Estrutura Argumental”, também denominada de “Gramática de Valências”181 ou “Gramática de Casos”, proveniente da área da Linguística. 179 180 181 Sintagma é um segmento linguístico existente em qualquer enunciado, onde os signos ligam-se uns aos outros formando grupos, expressa em uma relação de dependência a partir de regras sintagmáticas (sequência correta de uma frase). Nessa relação há um elemento determinado e outro determinante (ou subordinado), e cada um deles constitui um sintagma. Os sintagmas nominal e verbal são os mais básicos, e ainda existem os sintagmas adjetival, adverbial e preposicional. Ex.: As margaridas (sintagma nominal) murcharam (sintagma verbal). Morfema é a menor parte significativa de uma palavra, quando a analisamos morfologicamente. Por exemplo, a palavra “sol” possui apenas um morfema; mas a palavra “insolação” terá três morfemas: in(prefixo)+sol(radical)+ação(sufixo). Neste artigo decidimos por usar o termo “Gramática de Valências” para denominar essa abordagem. 1031 Borba (1996, p. xxi) conceitua “valência verbal” como o “conjunto de relações estabelecidas entre o verbo e seus argumentos ou constituintes indispensáveis”. O autor afirma que os verbos assinalam tipos de situação, pois, em geral, uma frase designa uma situação. Para determinar a situação à qual um verbo pertence é necessário saber qual a natureza das entidades designadas por ele. Marques (2003) aponta que na Gramática de Valências o verbo é o elemento central e que sua relação com os demais elementos da frase são estudados sob o ponto de vista sintático e semântico. Dessa forma, os diversificados aspectos semânticos dos verbos podem auxiliar na determinação dos seus papéis temáticos de forma mais rigorosa, tendo um regulamento teórico de uma teoria gramatical. Esse tópico é de interesse deste estudo, uma vez que os relacionamentos dentro do tesauro serão ancorados na determinação das expressões verbais, que mantêm o sistema de conceitos consistente. A questão do conceito é estudada a partir do pensamento e estudos de autores tais como Dahlberg (1978a), Ranganathan (1967), Bakhtin (1995) e Vygotsky (1998). Dahlberg (1978a) indica o “conceito” como “unidade do conhecimento”, e esse conhecimento é constituído pelo conjunto de enunciados verdadeiros sobre um objeto e representado por uma forma verbal, que é o termo. Por outro lado, Ranganathan (1967) apresenta o “conceito” como uma “unidade do pensamento”. Por seu turno, Bakhtin (1995) aponta que não pode haver comunicação verbal desligada de uma situação concreta, acrescendo que os enunciados ou conceitos produzidos estão sempre em um contexto ou domínio social, no qual são organizados. Já Vygotsky (1998) pondera que quando se trata do pensamento verbal, os conceitos não são inatos, pois são construções culturais, criados como consequência da socialização, ou seja, são contextualizados. Na contextualização de um conceito, a definição tem um importante papel, pois permite a sua identificação e delimitação em determinado domínio. Nesse sentido, Dahlberg (1978b; 1992) apresenta a função da definição no estabelecimento de uma equivalência entre o termo-características-referente, com o propósito de delimitar o uso, em dado domínio, de um dado conceito. Essa definição é essencial na determinação das relações semânticas existentes na estrutura conceitual do tesauro, no qual os relacionamentos compõem a sua rede paradigmática e sintagmática. A rede paradigmática é constituída por relações lógicosemânticas para organização dos descritores (a priori), tais como as relações gênero/espécie, todo/parte e de oposição (homem/mulher). Já a rede sintagmática é formada pelas relações entre termos-descritores, validadas no contexto (a posteriori), numa relação funcional, que pode ocorrer entre elementos compostos ou complexos de um tesauro, para a descrição do conteúdo dos itens de informação. Os aportes sobre os relacionamentos advêm de Foskett 1032 (1973), Dahlberg (1978b), Farradane (1980), Gomes (1990), Svenonius (2000), Campos (2001), Green (2001), Moreira e Lara (2011), entre outros. 2 METODOLOGIA Soergel et al. (2004) propõem uma modelagem conceitual de reengenharia cuja principal característica é a clara separação nos níveis de conceito, de termo ou lexicalização e de string. A estrutura conceitual do modelo permite que as informações formalizadas sobre os distintos níveis sejam individualizadas, podendo ocorrer relacionamentos entre entidades do mesmo tipo (por exemplo, entre conceitos, entre strings ou entre relacionamentos), como também podem ser estabelecidas relações entre as diferentes entidades, conforme pode ser observado na FIG.1. FIGURA 1 – Modelo conceitual para transição de SOC tradicional em SOC avançado Fonte: traduzido de Soergel et al. (2004, p.11). Este modelo será aplicado no tesauro THESAGRO brasileiro, com um recorte na temática “intensificação agropecuária”. O THESAGRO é mantido pela Biblioteca Nacional de Agricultura (BINAGRI), órgão da Secretaria de Executiva do Ministério da Agricultura, Pecuária e Abastecimento. Os procedimentos na aplicação do modelo de Soergel et al. (2004) serão os seguintes: 1033 Etapa 1: Definir a estrutura do SOC avançado Nesta etapa, inicia-se com o mapeamento da estrutura conceitual do domínio, e, em seguida, determina-se o conjunto de tipos de relacionamentos que irá compor essa estrutura conceitual, a partir da identificação dos relacionamentos existentes entre as diferentes entidades. A partir do modelo, será possível identificar relacionamento entre os distintos elementos, que são tratados de forma independente: (1) conceitos; (2) termos; (3) strings; (4) notas; (5) relacionamentos. Etapa 2: Coletar a terminologia e outras informações de um ou mais SOCs Em primeiro lugar, será mapeado o conjunto de conceitos e termos que representam o domínio escolhido, ou seja, da “intensificação agropecuária”. Para esta etapa os autores recomendam que a terminologia do domínio deve ser enriquecida com a agregação de informações adquiridas de um ou mais instrumentos (sistemas de classificação, tesauros, entre outros), e na literatura (divulgação científica, índices de publicações periódicas e de resumos, teses e dissertações) de áreas correlatas. Assim, haverá a coleta de terminologia e outras informações em diferentes instrumentos, dentre os quais já foram selecionados: (1) AGROVOC, um tesauro multilíngue criado pela Organização das Nações Unidas para a Alimentação e Agricultura (FAO) e pela Comissão das Comunidades Europeias, e abarca todos os campos temáticos da agricultura, silvicultura, pesca, seguridade alimentária e domínios associados; (2) NAL THESAURUS, um tesauro produzido em colaboração entre a Biblioteca Nacional de Agricultura, e o Instituto Interamericano de Cooperação para a Agricultura, que abrange termos da agricultura para indexação do banco de dados bibliográficos; (3) THESBIO: tesauro estruturado por disciplinas e conceitos correlatos às ciências da vida, especializado em biodiversidade brasileira, com mais de 5.000 termos. Etapa 3: Aplicar a reengenharia do tesauro, por meio de um software, editor de tesauro a. tornar a informação existente mais precisa; b. adicionar novas informações. Esta etapa é considerada por Soergel et al. (2004) a etapa mais trabalhosa do modelo, que é usar um software para edição manual ou semi-automática do tesauro. Isso será realizado utilizando o software e-Termos182 (Termos Eletrônicos) que é um ambiente (web), colaborativo para gestão terminológica, desenvolvido no âmbito de uma parceria entre a Embrapa Informática Agropecuária (CNPTIA), Universidade de São Paulo (USP Campus de 182 Disponível em: <https://www.etermos.cnptia.embrapa.br/index.php>. 1034 São Carlos, SP) e Universidade Federal de São Carlos (UFSCar). Ele foi criado com base em pressupostos teóricos da linguística e possui diferentes ferramentas de análise linguística que dão suporte às tarefas de Processamento de Língua Natural (PLN). 3 RESULTADOS PARCIAIS E CONSIDERAÇÕES FINAIS Alguns resultados já podem ser observados, tais como a compilação de um corpus de termos descritores no domínio temático da intensificação agropecuária, assim como a definição para tais termos. A partir dessas definições, está sendo possível determinar os relacionamentos existentes entre conceitos, termos e strings. Com este estudo, espera-se validar o modelo aplicado, demonstrando a viabilidade da conversão de um tesauro tradicional em uma estrutura formalizada, com o intuito de obter interoperabilidade entre distintos vocabulários e entre diferentes sistemas de recuperação de informação (SRI). AGRADECIMENTOS Agradecemos apoio financeiro concedido para esta pesquisa e para o Grupo de Pesquisa MHTX através de financiamento ou chamadas por editais pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pela Fundação de Amparo à Pesquisa do estado de Minas Gerais (FAPEMIG) e pela Pró-Reitoria de Pesquisa da UFMG (PRPq). REFERÊNCIAS BAKHTIN, Mikhail. Marxismo e filosofia da linguagem. 7. ed. São Paulo: Hucitec, 1995. BORBA, Francisco da S. Uma gramática de valências para o português. São Paulo: Ática, 1996. BRÄSCHER, 2009. Tesauro, taxonomia e ontologia: uma evolução?. In: CICLO DE CONFERÊNCIAS SOBRE ORGANIZAÇÃO DA INFORMAÇÃO LEGISLATIVA E JURÍDICA. Palestra. Brasília, 2009. Disponível em: <http://projeto.lexml.gov.br/arqs/BRASCHER.pdf>. Acesso em: 19 jul. 2014. CAMPOS, Maria Luiza de A. Linguagem documentária: teorias que fundamentam sua elaboração. Rio de Janeiro: EUFF, 2001. CAMPOS, Maria Luiza de A. Linguagens documentárias: núcleo básico de conhecimento para seu estudo. Revista da Escola de Biblioteconomia UFMG, Belo Horizonte, v. 24, n. 1, p. 52-62, jan./jun. 1995. CAMPOS, Maria Luíza de A. Modelização de domínios de conhecimento: uma investigação de princípios fundamentais. Ciência da Informação, Brasília, v. 33, n. 1, p. 22-32, jan./abr. 2004. 1035 CAMPOS, Maria Luiza de A.; GOMES, Hagar Espanha. Organização de domínios de conhecimento e os princípios ranganathianos. Perspectivas em Ciência da Informação, Belo Horizonte, v. 8, n. 2, jul./dez. 2003. DAHLBERG, Ingetraud. Knowledge organization and terminology; philosophical and linguistic bases. International Classification, v. 19, n. 2, p. 65-71, 1992. DAHLBERG, Ingetraut. A referent-oriented, analytical concept theory of Interconcept. International Classification, v. 5, n. 3, p. 122-151, 1978b. DAHLBERG, Ingetraut. Teoria do conceito. Ciência da Informação, Brasília, v. 7, n. 2, p. 101-07, 1978a. FARRADANE, J. Relational Indexing: part I e part ll. Journal of Information Science, n.1, p. 267-276 e 313-324, 1980. Disponível em: <http://www.fims.uwo.ca/people/faculty/Frohmann/LIS677/Documents/Subject%20Analysis/ Farradane_1.pdf>. Acesso em: 12 jun. 2014. FOSKETT, A.C. A abordagem temática da informação. São Paulo: Polígono, 1973. GOMES, Hagar Espanha (Org.). Manual de elaboração de tesauros monolíngues. Brasília: Programa Nacional de Bibliotecas de Instituições de Ensino Superior, 1990. GREEN, Rebecca. Overview of relationship in knowledge organization. In: BEAN, Carol A.; GREEN, Rebecca (Ed.). Relationship in knowledge organization. Dordrecht: Kluwer, 2001. Chapter 1, p. 3-18. KATZ, Jerrold J. O escopo da semântica. In: DASCAL, Marcelo (Org.). Fundamentos metodológicos da linguística: semântica. Campinas: UNICAMP, 1982. v. 3, p. 43-61. MARQUES, Ana Lucia de Andrade. As relações entre verbos de movimento e complementos locativos de origem e meta com enfoque da gramática de valências. 408f. Tese (Doutorado) – Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2003. MOREIRA, Walter; LARA, Marilda L. G. de. Relações conceituais e categorias filosóficas: aportes das ontologias e da terminologia para a representação do conhecimento. In: XII Encontro Nacional de Pesquisa em Ciência da Informação, 12., 2011, Brasília, DF. Anais... Brasília: ENANCIB, 2011. MOTTA, Dilza F. da. Método relacional como nova abordagem para a construção de tesauros. 89f. 1987. Dissertação (Mestrado em Ciência da Informação), Instituto Brasileiro de Informação em Ciência e Tecnologia. Rio de Janeiro: IBICT, 1987. Disponível em: <http://www.conexaorio.com/biti/dilza/>. Acesso em: 12 jun. 2014. PEDROSA, Cleide Emília F. Recursos para uma desambiguização das “frases” veiculadas pelas revistas Veja e Isto É. In: V CONGRESSO NACIONAL DE LINGUÍSTICA E FILOLOGIA, 5., 27 a 31 de agosto de 2001, Rio de Janeiro. Anais... Rio de Janeiro: UERJ, Cadernos do CNLF, v. 5, n. 11, 2001. RANGANTHAN, S. R. Prolegomena to library classification. Bombay: Asia Publishing House, 1967. 1036 SANTOS, Diana; CARDOSO, Nuno (Ed.). Reconhecimento de entidades mencionadas em português: documentação e actas do HAREM: a primeira avaliação conjunta na área. [S./l.]: Repositório Linguateca, 2007. cap. 4, p. 43–57. SOERGEL, Dagobert et al. Reengineering thesauri for new applications: the Agrovoc example. Journal of Digital Information, v. 4, n. 4, 2004. SVENONIUS, E. The intellectual foundations of information organization. Cambridge: The MIT Press, 2000. VYGOTSKY, Lev S. Pensamento e linguagem. 2. ed. São Paulo: Martins Fontes, 1998.