ABSTRACT: Thispaper is an attempt to describe and to discuss the

Propaganda
ABSTRACT: This paper is an attempt to describe and to discuss the behaviour of the
phenomenon of the homonymy in tests carried out in grammar checkers, as well as the
possibility of disambiguation for some linguistic forms.
Gardner (1995:197) chamou a aten~o para certas intui~s
uma lingua possuem quando afirmou:
que os falantes de
"0 fato de termos intui~
claras sobre ideias aparentemente sem sentido como
'Ideias verdes incolores dormem furiosamente' serve de base as principais
contribuieoes de Chomsky a lingiiistica e, no que se refere a isto, a ciencia
cognitiva em urn sentido mais amplo. 0 que Chomsky conseguiu na sua
monografia, e nas inUmeras obras que se seguiram, foi chamar a aten~o para
certas propriedades das senten~ que os falantes e ouvintes normais conhecem
intuitivamente, mas que derivam de uma compreensao mais profunda da lingua
cujas propriedades podem ser explicitamente conhecidas apenas pelos lingiiistas.
(...) Ele indicou e sugeriu mecanismos subjacentes a habilidade humana para
deteetar e resolver ambigiiidades em senten~ como Flying planes can be
dangerous [Pilotar aviOespode ser perigoso ou AviOesvoando podem ser perigosos]
(...)"
.
Partindo-se de tais considera~s, poderiamos dizer que 0 falante estaria apto
a decodificar e codificar certas ambigiiidades de uma lingua natural geradas pela
polissernia e a homonirnia inconscientemente.
Uma das maiores ambi~s
de lexic6logos, lexic6grafos e lingiiistas
computacionais e a tentativa de se demarcar as fronteiras entre a polissernia e a
homonirnia, ou seja, quando urn item lexical e polissernico e quando, ao contnirio, e
homonimo. A delirnitacao do campo de a~o da significa~o de uma unidade lexical
torna-se necessaria para que se possa distinguir as unidades homonimas das
polissernicas.
Segundo Biderman (1991):
"A polissemia e urn fenomeno que ocorre no interior das redes de significa9iio do
lexica geral da lingua comurn, em virtude da economia lingilistica, com 0
reaproveitamento freqiiente de urn certo niunero de lexernas no processo de
comunica9iio. A amplia9iio do uso de uma palavra e a metaforiza9iio continua da
linguagem acarretam a freqiiencia de muitas unidades lexicais, gerando a
polissemia. Inversamente, 530 palavras homonimas as unidades lexicais em que
significantes morfofonicamente identicos tern significados diferentes".
o criterio mais utilizado para se fazer a distin9ao de urn item lexical
homonimo de urn polissemico e a verifica9iio da origem etimo16gica do mesmo, ou
seja, urn criterio diacronico. Considerando-se que, em portugues, as pesquisas
etimo16gicas de itens lexicais 530 escassas e insuficientes para que possam oferecer
seguran~ e credibilidade, no que diz respeito a origem de uma palavra, torna-se dillcil
adotar como criterio basico de identifica9iio de urn item lexical, 0 estudo diacronico do
mesmo.
o dicion3rio "Aurelio", 0 mais conhecido e utilizado por falantes da lingua
portuguesa, adotou, como recurso lexicognifico, para distinguir formas homonimas das
polissemicas, a etimologia das mesmas. Assim, somente quando a diacronia pOde
oferecer etimos diferentes para uma mesrna forma lexical, a mesma foi considerada
homonima. Tal procedimento lexicognificofez com que palavras tais como banco] e
banco2, ponto], ponto2, ponto3 e ponto4 (Cf. Biderman, 1991) fossem consideradas
polissemicas quando, na verdade, 530 homonirnas.
Dessa forma, nao sendo suficiente 0 criterio diacronico para estabelecer a
oposi9iio entre homonimia e polissemia, buscar-se-a tal diferencia9iio com base na
semantica. Desse modo, entende-se por homonimos aqueles significantes que nao
possuem nenhurn serna em comurn e por polissemicos aqueles que possuem ao menos
urn serna em comurn, por exemplo, 'manga' (parte do vestuario) I 'manga' (fruto) em
que nao temos nenhum tra90 semantico unindo os dois significantes e logo, 530
homonimos e 'boca' (cavidade na parte inferior da ca~)
I 'boca' (abertura de
garrafa) em que temos 0 tra90 'espa90 oco' pertencente aos dois significantes e,
portanto, polissemicos.
No portugues, a homonimia pode ocorrer entre categorias gramaticais
identicas: 'manga'(substantivo), entre categorias gramaticais distintas: 'abandonado'
(substantivo e a<ljetivo), 'visto'(substantivo, participio passado e preposi9iio), 'canto'
(substantivo e verbo) entre outras.
o choque homonimico entre nome/adjetivo, nomelverbo e adjetivo/participio
possui uma alta freqtiencia na lingua portuguesal. E interessante notar, porem, que nos
livros em que se encontram defini90eslestudoslpesquisa sobre a homonimia, os
exemplos de homonimos citados pelos autores 530 sempre os mesmos, a saber: '530',
'manga', 'canto', 'cabo', 'alimento', entre "poucos" outros. Assim sendo, urn
levantamento de formas homonimas existentes no portugues do Brasil faz-se cada vez
mais necessario, seja para atender lexic6logos e lexic6grafos seja para lingilistas
.
.?
computaclOllalS-.
o fenomeIfc)'da homonimia das linguas naturais tem sido motivo de vanos
empecilhos para 0 desenvolvimento do Processamento Automatico das Linguas
Naturais - PALN - em Lingiiistica Computacional para 0 qual urn dos grandes desafios
e tentar transportar para a maquina as suas delimita¢es, uma vez que a mesma nao
possui "intui¢es" interpretativas como os humanos.
o presente trabalho objetiva demonstrar tal dificuldade, atraves de exemplos
homonimicos conflitantes, em amilises de textos escritos realizadas por revisores
gramaticais existentes para a lingua portuguesa do Brasil, no caso, aquele elaborado
pelo convenio USP-Sao Carlos e Itautec-Philco S/A3.
o revisor gramatical tem por meta, atraves de uma amllise sintitica
automatica, identificar desvios lingiiisticos que fujam ao padrao da norma culta da
lingua portuguesa do Brasil em textos escritos. 0 repert6rio lexical, que e a base
lingiiistica de tal revisor, contem diversos homonimos classificados a partir de urn
criterio morfo16gico que contempla as suas vanas classifica¢es em uma mesma
entrada ou em entradas diferentes, tal como a forma "fala", categorizada como
substantivo feminino singular, presente indicativo, 3a pessoa do singular e imperativo
afirmativo, 2a pessoa do singular.
A partir de urn corpus de aproximadamente 10.000 oconencias entre textos
literanos, jornalisticos e tecnicos, foram realizados testes com 0 software visando a
qualificar a performance do mesmo e 0 tratamento dado as formas homonimas.
A ferramenta computacional assim funciona: detectada uma concordancia
indevida, ela "seleciona" a frase e interage com 0 uswirio sugerindo-lhe uma
recomen~o na qual demonstra qual 0 tipo de problema "detectado". 0 uswirio pode,
se sentir necessidade, buscar mais informa~Oesgramaticais (denominado, no arquivo,
de 'Mais informa¢es') sobre tal desvio lingiiistico. Por exemplo, em urn dos textos que
a maquina analisou foi selecionada a seguinte frase: Seus dois fundos de renda fixa
foram os que mais renderam no ano, em que 0 software oferecia a seguinte
recomenda~o: "Se 'fixa' estiver se referindo a 'fundos', verifique a concordancia de
niunero". Em tal recomen~o
nao se compreende exatamente a qual tipo de
concordancia de nUmero se refere a maquina e para tanto, buscamos 0 'Mais
informa~'
do revisor que nos ofereceu 0 seguinte informe: "Em portugues, 0 verbo
cleve concordar em nUmero e pessoa com 0 sujeito da senten~". A partir de tais
informa~ entende-se que 0 revisor considerou alexia 'fixa' como sendo uma forma
verbal, mais especificamente aquela da terceira pessoa do singular do presente do
indicativo e desse modo, sugeriu a concordancia verbal entre 'fundos' e 'fixa' ,
desconsiderando, portanto, a categoria adjetivo da mesma e a forma verbal 'foram' que
a seguia. Tal procedimento e chamado de 'falso erro', ou seja, uma interven~o
indevida realizada pelo revisor, ja que a frase nao possui nenhurn erro. De fato, trata-se
de uma ambigiiidade interpretativa da ferramenta gerada, neste caso, pela homonimia
categorial, uma vez que 'fixa' encontra-se categorizada como forma verbal do presente
do indicativo e imperativo afirmativo do verbo 'fixar' na base lingiiistica do mesmo. 0
procedimento lingiiistico-computacional utilizado para descaraeterizar e desfazer,
conseqiientemente, tal 'falso erro' foi 0 de realizar a concordancia de nUmero tanto
com alexia 'fundos' quanto com a 'renda' no interior de tal sintagma nominal;
havendo concordancia de nUmero dentro dos padrCieslingiiisticos da lingua portuguesa
com uma das duas formas 0 revisor foi induzido a nao mais acusar nenhum tipo de
desvio. Percebe-se que tal 'problema' foi sanado pontualmente, ou seja,
especificamente para este caso, mas sera que estiio eliminadas interfereneias deste tipo
por parte do corretor, satisfatoriamente, para outros contextos? Alem de existir um
ehoque homonimico em tal frase, trata-se tambem da presenca de uma lexia eomplexa,
a saber: 'fundos de renda fixa', a qual poderia ter sido levada em considera~o, pelo
revisor, como uma entrada independente e portanto, eategorizada como substantivo
masculino plural, 0 que nao teria conduzido a m3quina ao 'falso erro'.
Urn outro exemplo evidencia 0 ehoque homonimieo substantivo X adjetivo na
seguinte frase: Mataram 0 cara e deu esse problema, em que 0 revisor selecionou 0
sintagma nominal "0 eara" e recomendou: "se '0' estiver se referindo a 'eara',
verifique a concordancia de genero" e 0 'Mais informa~s'
instruiu: "0 artigo, 0
pronome, 0 numeral e 0 adjetivo determinantes devem sempre concordar em genero e
nUmero com 0 substantivo a que se referem". No repertorio lexical do revisor,
implementou-se 0 lexema 'eara' somente como forma feminina do adjetivo 'caro', uma
vez que na implementa~o automatica das informa~s gramaticais aos itens lexicais,
visando uma categoriza~ao que fosse a menos complexa possivel para se tentar evitar a
ambigiiidade gramatical, alguns criterios classificatorios para a homonimia categorial
foram criados objetivando atenuar os problemas das regras gramaticais do software.
Desse modo, certas classes gramaticais foram unidas em uma Unica categoria e assim,
para qualquer substantivo que fosse tambem adjetivo, optou-se pela segunda categoria
respectivamente, ja que a maioria dos adjetivos pode ser substantivada. 0 problema
tomou-se mais grave ainda, devido ao duplo genero que pode ter alexia 'cara'
enquanto substantivo, qual seja: feminino, significando "rosto, semblante" e
masculino, denotando "individuo". Na substantiva~o do adjetivo 'cara' a maquina nao
e capaz de atribuir-lhe 0 artigo masculino, uma vez que ela obtem a informa~o de que
tal forma e feminina, e nao the resta outra altemativa a nao ser acusar a eoncordancia
erronea. A desambigiliza~o e alcancada atraves do acrescimo da categoria substantivo
masculino, na base lingiiistica do revisor, para alexia 'cara'. 0 fato de ter-se
determinado a escolha da categoria adjetivo, na implementa~o computacional, de
todas as formas homomimas substantivo X adjetivo demonstra a insuficiencia de tal
criterio. Se, por outro lado, formas homonimas tivessem sido implementadas a partir
de um criterio lexieoestatistico, tais problemas estariam fadados a diminuirem, ou ate
mesmo a desaparecerem. Biderman (1996) tece comentilrios sobre a pesquisa realizada
pela Universidade de Lisboa, para a elabora~o de um vocabulario fundamental do
portugues, em que analisa a metodologia e os criterios adotados pelos pesquisadores
para tal empreendimento e nos declara: "A anillise dos dados revelou resultados
interessantes. Em casos de homonimia substantivo X adjetivo - amigo (substantivo) X
amigo (adjetivo); jovem (substantivo) X jovem (adjetivo); ideal (substantivo) X ideal
(adjetivo) -, a aprecia~ empirica dos dados induziria it categoriza~o como adjetivo, a
categoria primeira. Ora, a anillise dos contextos dessas e outras formas homografas
revelou que os substantivos silo mais freqiientes" .
Dessa forma, acreditamos que buscas de palavras homografas e da freqiiencia
de ocorrencia das mesmas seja urn caminho para a resolu~ao de alguns tipos de
ambigiiidade.
Pondo em relevo a face quantitativa da linguagem, Biderman (1978) ressalta
que "a freqiiencia seria uma caracteristica lao tipica do signo como os tra~s distintivos
que 0 op6em aos demais elementos do sistema". Endosso suas palavras, reiterando
mais uma vez 0 dito anteriormente em trabalho recente (Cf. Biderman, 1996:28):
"Dada a enorme extensao do lexico, uma sele¢o lexical criteriosa e baseada em
principios lexicoestatisticos apresentou-se como a melbor alternativa para
estabelecer os indices verborum das palavras mais freqiientes e usuais dentre as
centenas de milhares que constituem 0 lexico de uma lingua de civiliza~o
moderna. Dessa forma, podem-se evitar 0 empirismo e uma sele¢o vocabular com
base apenas na intui~o".
Nossos testes enfatizam, ainda, a veracidade de tais afirma~Oes na seguinte
frase em que a maquina detectou problemas: "Tivemos de importar acrilicos sem
emenda, tintas especiais e usar materiais sinteticos, como 0 corean, que tem a
aparencia de pedra, mas e perfeitamente moldiwe/", explica 0 empresario Marcos
Brochini, um dos socios da industria de moveis Positano, que desenvolve a cole~iio
em que evidencia urn problema com alexia 'tinta'; na frase, urn substantivo e no
repertorio lexical, categorizada como adjetivo. A verifica~o de tal lexia no Dicionano
de Freqiiencias do Portugues Contemporanoo (DFPC) nos revela: 120 ocorrencias do
lema 'tinta' sao categorizadas como substantivo, sendo 68 para a forma do singular e
52 para a forma do plural; a forma adjetiva de 'tinta' MO ocorreu nenhuma uma vez.
Claro esta, portanto, que alexia 'tinta' e mais freqiiente como substantivo e assim
deverciser implementada no software para a sua desambigiiiza~o. Vejam-se as frases:
"Candidato a uma vaga de gerente jinanceiro, niio jicou mais do que duas semanas
sem emprego" / "Mesmo assim, 0 tema causa polemica" / "A ventila~iio injeta
oxigenio no pulmiio por meio do controle da pressiio, jluxo e quantidade do gas,
essencial para 0 funcionamento das celulas do organismo" / "Todas as regioes
registraram queda em julho". Temos aqui problemas detectados pelo revisor que
envolvem as lexias homonimas substantivo X adjetivo, a saber: 'vaga', 'polemica',
'fluxo' e 'queda' todas categorizadas como adjetivo na base lingiiistica da maquina e
empregadas como substantivo nas frases. Para tais formas, deverci ser realizada uma
busca em corpora representativos da lingua portuguesa (variante brasileira) a fim de se
verificar qual categoria e a mais freqiiente, ja que no DFPC encontramos uma alta
freqiiencia de ocorrencia para as mesmas vincu1ada ao choque homonimico, ou seja,
MO podemos precisar qual e a categoria individual mais freqiiente sem analisa-las
contextualmente, a MO ser para alexia 'queda'. A mesma e mais freqiiente como
substantivo do que como a forma feminina do adjetivo 'quedo', como constatamos: de
315 ocorrencias da lexia 'queda', 295 sao como substantivos na forma singular e as
outras se dividem entre a forma plural e lexias complexas. Com a introd.u~o da
743
categoria substantivo, no repertorio lexical, para tais lexias, ocorreni a
desambigiiiza<;:aodas mesmas.
Em casos de homonimia substantivo X verbo, a freqiiencia das formas
tambem indicara com precisao qual e a categoria mais freqiiente. Na frase "Vou visitar
amigos e inimigos para pedir ajuda" 0 revisor detectou urn 'falso erro' devido alexia
'ajuda', que se encontra classificada no repertorio lexical como forma verbal. No
DFPC 'ajuda' consta de 569 ocorrencias como substantivo, indicando-nos claramente a
sua alta freqiiencia como tal categoria. Sendo que 0 DFPC foi elaborado com base em
urn corpus de 6 milh6es de ocomncias de palavras, a freqiiencia das lexias aqui
analisadas e considerada alta e representativa para os indices nurnericos demonstrados
anteriormente.
As considera<;:Oese os resultados aqui discutidos nos levam a inferir 0 quao
necessaria e a pesquisa sobre 0 fenomeno da homonimia de uma lingua natural. Em se
tratando de implementa<;:Oescomputacionais, acreditamos que 0 levantamento
estatistico podera resolver algumas quest6es sobre a ambigiiidade da linguagem
natural, ja que serao identificadas as combinatorias gramaticais de formas ambiguas
em corpora representativos da lingua portuguesa (UNESP-Araraquara). Dessa forma,
presume-se que poderao ser identificados os contextos lingiiisticos nos quais se
encontram as formas homografas mais freqiientes, para que entao se possa oferecer
subsidios lingiiisticos senao para a resolu<;:ao,pelo menos para 0 abrandamento, da
ambigiiidade lingiiistica.
ILevantamentos de tal foram realizados no Dicionano de Freqiiencias do Portugues
Contemporaneo de Maria Tereza Camargo Biderman, UNESP, Araraquara. 2Pesquisa
de doutorado de Claudia Zavaglia, UNESP, Araraquara, sob orienta~o de Maria
Tereza Camargo Biderman. 3Projeto realizaclo no NILC - Nucleo Interinstitucional de
Lingiiistica Computacional - USP, Sao Carlos, SP.
RESUMO: Este texto objetiva descrever e discutir 0 comportamento do fenomeno da
homonimia em testes realizados em revisores computacionais e a possibi/idade de
desambigiiiza~ao para certas formas.
BIDERMAN, M.T.C.(1991). Polissemia Versus Homonimia. Anais do XXXVIII
Seminario do GEL. Franca. -- (1978). Teoria Lingiiistica: /ingiiistica quantitativa e
computacional. Rio de Janeiro: Livros Tecnicos e Cientificos. --- (1996) Lexico e
Vocabulano Fundamental. AJfa, 0.40. Sao Paulo, GARDNER, H. (1995). A Nova
Ciencia da Mente. Sao Paulo: EDUSP.
Download