Modalidade da apresentação: Pôster APLICAÇÃO DE MODELO DE

Propaganda
1028
Modalidade da apresentação: Pôster
APLICAÇÃO DE MODELO DE REENGENHARIA EM TESAURO
APPLICATION OF REENGINEERING MODEL ON THESAURUS
Benildes Coura Moreira dos Santos Maculan
Gercina Ângela Borem de Oliveira Lima
Resumo: Pesquisa de doutorado em andamento, com o objetivo de estudar um modelo de
reengenharia de sistemas de organização do conhecimento (SOCs) para transformar um
tesauro tradicional em um SOC, convergente com o meio digital. A modelagem será aplicada
no tesauro brasileiro THESAGRO, dentro do recorte temático da “intensificação
agropecuária”. Como fundamento teórico-contextual apresentam-se conteúdos sobre
semântica, web semântica, os SOCs e seus relacionamentos semânticos, o conceito e a
definição que o delimita, e sobre a teoria das valências dos verbos. A metodologia será
aplicada a partir do modelo proposto por Soergel et al. (2004), que consiste no
aperfeiçoamento e na explicitação formal dos relacionamentos semânticos na estrutura
conceitual de um tesauro tradicional. O software para a implantação do modelo será o ETermos, que é um sistema colaborativo para gestão terminológica. Espera-se validar o modelo
aplicado, demonstrando a viabilidade da conversão de um tesauro em uma estrutura
formalizada, possibilitando obter interoperabilidade entre os distintos SOCs e entre diferentes
sistemas de recuperação de informação (SRI).
Palavras-chave: Reengenharia de tesauro. Relacionamentos semânticos. Sistemas de
recuperação de informação. Sistema de organização do conhecimento.
Abstract: Doctoral research in progress aiming at studying a reengineering model to convert
a traditional thesaurus in a knowledge organization system (KOS), according to the digital
environment. The modeling will be applied to the Brazilian THESAGRO thesaurus and the
extract study is the sub-area “agricultural intensification”. The theoretical and contextual basis
of this research encompass themes such as semantics, semantic web, KOS and their
conceptual relationships, the concept and definition, which defines each concept, and the
theory of valences of verbs. The methodology will depart from the model proposed by
Soergel et al. (2004), which consists in the improvement and formal expression of the
semantic relationships into the conceptual structure of a traditional thesaurus. The software
for the implementation of the model will be the E-terms, which is a collaborative system for
terminology management. We expect to validate the applied model, demonstrating the
feasibility of the conversion of a thesaurus in a formalized structure, thus possibly enabling
interoperability among different KOS and between different information retrieval systems.
Keywords: Thesaurus reengineering. Semantic relationships. Information retrieval systems.
Knowledge organization system.
1 INTRODUÇÃO
O termo “sistema de organização do conhecimento” (SOC) é relativamente novo e é
usado para nomear os instrumentos tais como os sistemas de classificação, lista de cabeçalho
de assuntos, tesauros, ontologias, entre outros. Segundo Bräscher (2009), os SOC são sistemas
conceituais criados para sistematizar os conceitos e suas relações, dentro de um domínio, e para
1029
auxiliar a recuperação de informações. Eles têm como objetivo controlar os processos de
representação, classificação, ordenação e armazenamento dos recursos informacionais, visando a
recuperação e comunicação de informações.
O SOC do tipo tesauro é composto por um conjunto de termos relacionados semantica
e genericamente entre si, permitindo diferentes tipos de organização (ex.: alfabética,
relacional, estruturada por campos semânticos, entre outros). Apesar de possuírem uma
estrutura semântica, eles ainda não são construídos de forma adequada para uso em ambiente
digital. A estrutura de um tesauro geralmente é constituída por relacionamentos entre
conceitos, que abrangem relações de equivalência, hierárquicas e associativas. Essa estrutura
conceitual vem evoluindo (MOTTA, 1987; CAMPOS, 1995; CAMPOS; GOMES, 2003;
CAMPOS, 2004, entre outros), e já há evidências de diferentes desdobramentos para cada um
desses tipos de relações. Porém, os relacionamentos explicitados na estrutura do tesauro ainda
não determinam a diversidade dos tipos existentes. Podemos citar, por exemplo, o caso da
relação de equivalência, pois ela pode variar dependendo de uma equivalência ortográfica,
total ou parcial, de uso de abreviaturas, nome fantasia ou equivalência em outro idioma. Essa
situação se repete, também, para os relacionamentos hierárquicos e associativos.
Nesse contexto, o objetivo desta pesquisa é aplicar um modelo de reengenharia de
tesauro tradicional para torná-lo um instrumento mais formalizado, de tal forma que os
relacionamentos semânticos entre os conceitos do sistema estejam identificados e explicitados
para o usuário. O foco recairá, sobretudo, no apontamento dos relacionamentos associativos.
2 FUNDAMENTOS TEÓRICOS
Na área da Organização do Conhecimento, Svenonius (2000) discorreu sobre a
estrutura semântica usada na normalização de vocabulários controlados, que é conseguida
através do estabelecimento de relacionamentos entre os termos e seus referentes. A autora
recomenda que a desambiguação terminológica não deva ser realizada apenas no nível da
determinação do domínio, pois isso pode limitar a compatibilidade entre distintos
vocabulários.
Existem diferentes semânticas para a desambiguação terminológica. Entre elas está a
semântica linguística, que é uma disciplina da Linguística e estuda o significado das
expressões (fonemas, morfemas, palavras, sintagmas, frases). Ela também analisa as relações
de significado que essas expressões estabelecem entre si e o domínio ou o mundo.
Concordamos com Katz (1982), que defende a ideia de que qualquer disciplina que se
proponha a estudar significados terminológicos precisa postular sobre fenômenos semânticos:
1030
sinonímia e paráfrase; antonímia; hiperonímia/hiponímia;
ambiguidade; redundância
semântica; contradição; sinteticidade; fenômeno das informações implícitas (implicação ou
pressuposição). Assim, ao trabalharmos no campo da Ciência da Informação na criação de
instrumentos terminológicos e conceituais, é preciso buscar respaldo na Linguística para
entender os fenômenos semânticos.
Nos estudos sobre semântica, Santos e Cardoso (2007) destacam três grandes escolas
de análise: (1) denotacionalista, (2) funcionalista e (3) pragmática. Na primeira, os símbolos
substituem os objetos, pois estão unidos aos seus respectivos significantes. Na segunda, os
símbolos representam uma relação, dentro da própria língua, entre diferentes objetos, no qual
o significado de uma palavra ou sintagma 179 tem estreita relação com a função que
desempenha dentro do texto. Já na terceira escola, da pragmática, o sentido é definido a partir
do contexto. Isso é, leva-se em consideração a função significativa do símbolo, analisado em
relação ao contexto real de utilização desse símbolo (SANTOS; CARDOSO, 2007).
Ainda no campo da semântica, há duas distintas unidades de análise: (1) a semântica
da palavra, que foca nas relações (sinonímia, antonímia, hiperonímia, hiponímia, ambiguidade
lexical, polissemia, homonímia, metáfora e metonímia) de significado entre palavras ou entre
morfemas180; (2) a semântica da frase, que prioriza a ambiguidade estrutural, as anomalias no
arranjo das palavras na frase, as relações de paráfrase e contradição, a implicação semântica e
a pressuposição (PEDROSA, 2001). Pedrosa (2001) acrescenta o plano da semântica do
verbo, e aponta que há restrição na seleção semântica dos verbos.
Os verbos carregam um valor semântico e compreender esse valor é importante na
determinação de relacionamentos nos tesauros (SOERGEL et al., 2004). No sentido de
melhor apreender esse assunto, buscamos respaldo na “Abordagem Sintático-Semântica da
Oração com base na Estrutura Argumental”, também denominada de “Gramática de
Valências”181 ou “Gramática de Casos”, proveniente da área da Linguística.
179
180
181
Sintagma é um segmento linguístico existente em qualquer enunciado, onde os signos ligam-se
uns aos outros formando grupos, expressa em uma relação de dependência a partir de regras
sintagmáticas (sequência correta de uma frase). Nessa relação há um elemento determinado e
outro determinante (ou subordinado), e cada um deles constitui um sintagma. Os sintagmas
nominal e verbal são os mais básicos, e ainda existem os sintagmas adjetival, adverbial e
preposicional. Ex.: As margaridas (sintagma nominal) murcharam (sintagma verbal).
Morfema é a menor parte significativa de uma palavra, quando a analisamos morfologicamente.
Por exemplo, a palavra “sol” possui apenas um morfema; mas a palavra “insolação” terá três
morfemas: in(prefixo)+sol(radical)+ação(sufixo).
Neste artigo decidimos por usar o termo “Gramática de Valências” para denominar essa
abordagem.
1031
Borba (1996, p. xxi) conceitua “valência verbal” como o “conjunto de relações
estabelecidas entre o verbo e seus argumentos ou constituintes indispensáveis”. O autor
afirma que os verbos assinalam tipos de situação, pois, em geral, uma frase designa uma
situação. Para determinar a situação à qual um verbo pertence é necessário saber qual a
natureza das entidades designadas por ele. Marques (2003) aponta que na Gramática de
Valências o verbo é o elemento central e que sua relação com os demais elementos da frase
são estudados sob o ponto de vista sintático e semântico. Dessa forma, os diversificados
aspectos semânticos dos verbos podem auxiliar na determinação dos seus papéis temáticos de
forma mais rigorosa, tendo um regulamento teórico de uma teoria gramatical. Esse tópico é de
interesse deste estudo, uma vez que os relacionamentos dentro do tesauro serão ancorados na
determinação das expressões verbais, que mantêm o sistema de conceitos consistente.
A questão do conceito é estudada a partir do pensamento e estudos de autores tais
como Dahlberg (1978a), Ranganathan (1967), Bakhtin (1995) e Vygotsky (1998). Dahlberg
(1978a) indica o “conceito” como “unidade do conhecimento”, e esse conhecimento é
constituído pelo conjunto de enunciados verdadeiros sobre um objeto e representado por uma
forma verbal, que é o termo. Por outro lado, Ranganathan (1967) apresenta o “conceito” como
uma “unidade do pensamento”. Por seu turno, Bakhtin (1995) aponta que não pode haver
comunicação verbal desligada de uma situação concreta, acrescendo que os enunciados ou
conceitos produzidos estão sempre em um contexto ou domínio social, no qual são
organizados. Já Vygotsky (1998) pondera que quando se trata do pensamento verbal, os
conceitos não são inatos, pois são construções culturais, criados como consequência da
socialização, ou seja, são contextualizados.
Na contextualização de um conceito, a definição tem um importante papel, pois
permite a sua identificação e delimitação em determinado domínio. Nesse sentido, Dahlberg
(1978b; 1992) apresenta a função da definição no estabelecimento de uma equivalência entre
o termo-características-referente, com o propósito de delimitar o uso, em dado domínio, de
um dado conceito. Essa definição é essencial na determinação das relações semânticas
existentes na estrutura conceitual do tesauro, no qual os relacionamentos compõem a sua rede
paradigmática e sintagmática. A rede paradigmática é constituída por relações lógicosemânticas para organização dos descritores (a priori), tais como as relações gênero/espécie,
todo/parte e de oposição (homem/mulher). Já a rede sintagmática é formada pelas relações
entre termos-descritores, validadas no contexto (a posteriori), numa relação funcional, que
pode ocorrer entre elementos compostos ou complexos de um tesauro, para a descrição do
conteúdo dos itens de informação. Os aportes sobre os relacionamentos advêm de Foskett
1032
(1973), Dahlberg (1978b), Farradane (1980), Gomes (1990), Svenonius (2000), Campos
(2001), Green (2001), Moreira e Lara (2011), entre outros.
2 METODOLOGIA
Soergel et al. (2004) propõem uma modelagem conceitual de reengenharia cuja
principal característica é a clara separação nos níveis de conceito, de termo ou lexicalização e
de string. A estrutura conceitual do modelo permite que as informações formalizadas sobre os
distintos níveis sejam individualizadas, podendo ocorrer relacionamentos entre entidades do
mesmo tipo (por exemplo, entre conceitos, entre strings ou entre relacionamentos), como
também podem ser estabelecidas relações entre as diferentes entidades, conforme pode ser
observado na FIG.1.
FIGURA 1 – Modelo conceitual para transição de SOC tradicional em SOC avançado
Fonte: traduzido de Soergel et al. (2004, p.11).
Este modelo será aplicado no tesauro THESAGRO brasileiro, com um recorte na
temática “intensificação agropecuária”. O THESAGRO é mantido pela Biblioteca Nacional
de Agricultura (BINAGRI), órgão da Secretaria de Executiva do Ministério da Agricultura,
Pecuária e Abastecimento.
Os procedimentos na aplicação do modelo de Soergel et al. (2004) serão os seguintes:
1033
Etapa 1: Definir a estrutura do SOC avançado
Nesta etapa, inicia-se com o mapeamento da estrutura conceitual do domínio, e, em
seguida, determina-se o conjunto de tipos de relacionamentos que irá compor essa estrutura
conceitual, a partir da identificação dos relacionamentos existentes entre as diferentes
entidades. A partir do modelo, será possível identificar relacionamento entre os distintos
elementos, que são tratados de forma independente: (1) conceitos; (2) termos; (3) strings; (4)
notas; (5) relacionamentos.
Etapa 2: Coletar a terminologia e outras informações de um ou mais SOCs
Em primeiro lugar, será mapeado o conjunto de conceitos e termos que representam o
domínio escolhido, ou seja, da “intensificação agropecuária”. Para esta etapa os autores
recomendam que a terminologia do domínio deve ser enriquecida com a agregação de
informações adquiridas de um ou mais instrumentos (sistemas de classificação, tesauros, entre
outros), e na literatura (divulgação científica, índices de publicações periódicas e de resumos,
teses e dissertações) de áreas correlatas. Assim, haverá a coleta de terminologia e outras
informações em diferentes instrumentos, dentre os quais já foram selecionados: (1)
AGROVOC, um tesauro multilíngue criado pela Organização das Nações Unidas para a
Alimentação e Agricultura (FAO) e pela Comissão das Comunidades Europeias, e abarca
todos os campos temáticos da agricultura, silvicultura, pesca, seguridade alimentária e
domínios associados; (2) NAL THESAURUS, um tesauro produzido em colaboração entre a
Biblioteca Nacional de Agricultura, e o Instituto Interamericano de Cooperação para a
Agricultura, que abrange termos da agricultura para indexação do banco de dados
bibliográficos; (3) THESBIO: tesauro estruturado por disciplinas e conceitos correlatos às
ciências da vida, especializado em biodiversidade brasileira, com mais de 5.000 termos.
Etapa 3: Aplicar a reengenharia do tesauro, por meio de um software, editor de
tesauro
a. tornar a informação existente mais precisa;
b. adicionar novas informações.
Esta etapa é considerada por Soergel et al. (2004) a etapa mais trabalhosa do modelo,
que é usar um software para edição manual ou semi-automática do tesauro. Isso será realizado
utilizando o software e-Termos182 (Termos Eletrônicos) que é um ambiente (web),
colaborativo para gestão terminológica, desenvolvido no âmbito de uma parceria entre a
Embrapa Informática Agropecuária (CNPTIA), Universidade de São Paulo (USP Campus de
182
Disponível em: <https://www.etermos.cnptia.embrapa.br/index.php>.
1034
São Carlos, SP) e Universidade Federal de São Carlos (UFSCar). Ele foi criado com base em
pressupostos teóricos da linguística e possui diferentes ferramentas de análise linguística que
dão suporte às tarefas de Processamento de Língua Natural (PLN).
3 RESULTADOS PARCIAIS E CONSIDERAÇÕES FINAIS
Alguns resultados já podem ser observados, tais como a compilação de um corpus de
termos descritores no domínio temático da intensificação agropecuária, assim como a
definição para tais termos. A partir dessas definições, está sendo possível determinar os
relacionamentos existentes entre conceitos, termos e strings. Com este estudo, espera-se
validar o modelo aplicado, demonstrando a viabilidade da conversão de um tesauro
tradicional em uma estrutura formalizada, com o intuito de obter interoperabilidade entre
distintos vocabulários e entre diferentes sistemas de recuperação de informação (SRI).
AGRADECIMENTOS
Agradecemos apoio financeiro concedido para esta pesquisa e para o Grupo de
Pesquisa MHTX através de financiamento ou chamadas por editais pelo Conselho Nacional
de
Desenvolvimento
Científico
e
Tecnológico
(CNPq),
pela
Coordenação
de
Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pela Fundação de Amparo à
Pesquisa do estado de Minas Gerais (FAPEMIG) e pela Pró-Reitoria de Pesquisa da UFMG
(PRPq).
REFERÊNCIAS
BAKHTIN, Mikhail. Marxismo e filosofia da linguagem. 7. ed. São Paulo: Hucitec, 1995.
BORBA, Francisco da S. Uma gramática de valências para o português. São Paulo: Ática,
1996.
BRÄSCHER, 2009. Tesauro, taxonomia e ontologia: uma evolução?. In: CICLO DE
CONFERÊNCIAS SOBRE ORGANIZAÇÃO DA INFORMAÇÃO LEGISLATIVA E
JURÍDICA. Palestra. Brasília, 2009. Disponível em:
<http://projeto.lexml.gov.br/arqs/BRASCHER.pdf>. Acesso em: 19 jul. 2014.
CAMPOS, Maria Luiza de A. Linguagem documentária: teorias que fundamentam sua
elaboração. Rio de Janeiro: EUFF, 2001.
CAMPOS, Maria Luiza de A. Linguagens documentárias: núcleo básico de conhecimento
para seu estudo. Revista da Escola de Biblioteconomia UFMG, Belo Horizonte, v. 24, n. 1,
p. 52-62, jan./jun. 1995.
CAMPOS, Maria Luíza de A. Modelização de domínios de conhecimento: uma investigação
de princípios fundamentais. Ciência da Informação, Brasília, v. 33, n. 1, p. 22-32, jan./abr.
2004.
1035
CAMPOS, Maria Luiza de A.; GOMES, Hagar Espanha. Organização de domínios de
conhecimento e os princípios ranganathianos. Perspectivas em Ciência da Informação, Belo
Horizonte, v. 8, n. 2, jul./dez. 2003.
DAHLBERG, Ingetraud. Knowledge organization and terminology; philosophical and
linguistic bases. International Classification, v. 19, n. 2, p. 65-71, 1992.
DAHLBERG, Ingetraut. A referent-oriented, analytical concept theory of Interconcept.
International Classification, v. 5, n. 3, p. 122-151, 1978b.
DAHLBERG, Ingetraut. Teoria do conceito. Ciência da Informação, Brasília, v. 7, n. 2, p.
101-07, 1978a.
FARRADANE, J. Relational Indexing: part I e part ll. Journal of Information Science, n.1,
p. 267-276 e 313-324, 1980. Disponível em:
<http://www.fims.uwo.ca/people/faculty/Frohmann/LIS677/Documents/Subject%20Analysis/
Farradane_1.pdf>. Acesso em: 12 jun. 2014.
FOSKETT, A.C. A abordagem temática da informação. São Paulo: Polígono, 1973.
GOMES, Hagar Espanha (Org.). Manual de elaboração de tesauros monolíngues. Brasília:
Programa Nacional de Bibliotecas de Instituições de Ensino Superior, 1990.
GREEN, Rebecca. Overview of relationship in knowledge organization. In: BEAN, Carol A.;
GREEN, Rebecca (Ed.). Relationship in knowledge organization. Dordrecht: Kluwer, 2001.
Chapter 1, p. 3-18.
KATZ, Jerrold J. O escopo da semântica. In: DASCAL, Marcelo (Org.). Fundamentos
metodológicos da linguística: semântica. Campinas: UNICAMP, 1982. v. 3, p. 43-61.
MARQUES, Ana Lucia de Andrade. As relações entre verbos de movimento e
complementos locativos de origem e meta com enfoque da gramática de valências. 408f.
Tese (Doutorado) – Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2003.
MOREIRA, Walter; LARA, Marilda L. G. de. Relações conceituais e categorias filosóficas:
aportes das ontologias e da terminologia para a representação do conhecimento. In: XII
Encontro Nacional de Pesquisa em Ciência da Informação, 12., 2011, Brasília, DF. Anais...
Brasília: ENANCIB, 2011.
MOTTA, Dilza F. da. Método relacional como nova abordagem para a construção de
tesauros. 89f. 1987. Dissertação (Mestrado em Ciência da Informação), Instituto Brasileiro de
Informação em Ciência e Tecnologia. Rio de Janeiro: IBICT, 1987. Disponível em:
<http://www.conexaorio.com/biti/dilza/>. Acesso em: 12 jun. 2014.
PEDROSA, Cleide Emília F. Recursos para uma desambiguização das “frases” veiculadas
pelas revistas Veja e Isto É. In: V CONGRESSO NACIONAL DE LINGUÍSTICA E
FILOLOGIA, 5., 27 a 31 de agosto de 2001, Rio de Janeiro. Anais... Rio de Janeiro: UERJ,
Cadernos do CNLF, v. 5, n. 11, 2001.
RANGANTHAN, S. R. Prolegomena to library classification. Bombay: Asia Publishing
House, 1967.
1036
SANTOS, Diana; CARDOSO, Nuno (Ed.). Reconhecimento de entidades mencionadas em
português: documentação e actas do HAREM: a primeira avaliação conjunta na área.
[S./l.]: Repositório Linguateca, 2007. cap. 4, p. 43–57.
SOERGEL, Dagobert et al. Reengineering thesauri for new applications: the Agrovoc
example. Journal of Digital Information, v. 4, n. 4, 2004.
SVENONIUS, E. The intellectual foundations of information organization. Cambridge: The
MIT Press, 2000.
VYGOTSKY, Lev S. Pensamento e linguagem. 2. ed. São Paulo: Martins Fontes, 1998.
Download