ABSTRACT: This paper is an attempt to describe and to discuss the behaviour of the phenomenon of the homonymy in tests carried out in grammar checkers, as well as the possibility of disambiguation for some linguistic forms. Gardner (1995:197) chamou a aten~o para certas intui~s uma lingua possuem quando afirmou: que os falantes de "0 fato de termos intui~ claras sobre ideias aparentemente sem sentido como 'Ideias verdes incolores dormem furiosamente' serve de base as principais contribuieoes de Chomsky a lingiiistica e, no que se refere a isto, a ciencia cognitiva em urn sentido mais amplo. 0 que Chomsky conseguiu na sua monografia, e nas inUmeras obras que se seguiram, foi chamar a aten~o para certas propriedades das senten~ que os falantes e ouvintes normais conhecem intuitivamente, mas que derivam de uma compreensao mais profunda da lingua cujas propriedades podem ser explicitamente conhecidas apenas pelos lingiiistas. (...) Ele indicou e sugeriu mecanismos subjacentes a habilidade humana para deteetar e resolver ambigiiidades em senten~ como Flying planes can be dangerous [Pilotar aviOespode ser perigoso ou AviOesvoando podem ser perigosos] (...)" . Partindo-se de tais considera~s, poderiamos dizer que 0 falante estaria apto a decodificar e codificar certas ambigiiidades de uma lingua natural geradas pela polissernia e a homonirnia inconscientemente. Uma das maiores ambi~s de lexic6logos, lexic6grafos e lingiiistas computacionais e a tentativa de se demarcar as fronteiras entre a polissernia e a homonirnia, ou seja, quando urn item lexical e polissernico e quando, ao contnirio, e homonimo. A delirnitacao do campo de a~o da significa~o de uma unidade lexical torna-se necessaria para que se possa distinguir as unidades homonimas das polissernicas. Segundo Biderman (1991): "A polissemia e urn fenomeno que ocorre no interior das redes de significa9iio do lexica geral da lingua comurn, em virtude da economia lingilistica, com 0 reaproveitamento freqiiente de urn certo niunero de lexernas no processo de comunica9iio. A amplia9iio do uso de uma palavra e a metaforiza9iio continua da linguagem acarretam a freqiiencia de muitas unidades lexicais, gerando a polissemia. Inversamente, 530 palavras homonimas as unidades lexicais em que significantes morfofonicamente identicos tern significados diferentes". o criterio mais utilizado para se fazer a distin9ao de urn item lexical homonimo de urn polissemico e a verifica9iio da origem etimo16gica do mesmo, ou seja, urn criterio diacronico. Considerando-se que, em portugues, as pesquisas etimo16gicas de itens lexicais 530 escassas e insuficientes para que possam oferecer seguran~ e credibilidade, no que diz respeito a origem de uma palavra, torna-se dillcil adotar como criterio basico de identifica9iio de urn item lexical, 0 estudo diacronico do mesmo. o dicion3rio "Aurelio", 0 mais conhecido e utilizado por falantes da lingua portuguesa, adotou, como recurso lexicognifico, para distinguir formas homonimas das polissemicas, a etimologia das mesmas. Assim, somente quando a diacronia pOde oferecer etimos diferentes para uma mesrna forma lexical, a mesma foi considerada homonima. Tal procedimento lexicognificofez com que palavras tais como banco] e banco2, ponto], ponto2, ponto3 e ponto4 (Cf. Biderman, 1991) fossem consideradas polissemicas quando, na verdade, 530 homonirnas. Dessa forma, nao sendo suficiente 0 criterio diacronico para estabelecer a oposi9iio entre homonimia e polissemia, buscar-se-a tal diferencia9iio com base na semantica. Desse modo, entende-se por homonimos aqueles significantes que nao possuem nenhurn serna em comurn e por polissemicos aqueles que possuem ao menos urn serna em comurn, por exemplo, 'manga' (parte do vestuario) I 'manga' (fruto) em que nao temos nenhum tra90 semantico unindo os dois significantes e logo, 530 homonimos e 'boca' (cavidade na parte inferior da ca~) I 'boca' (abertura de garrafa) em que temos 0 tra90 'espa90 oco' pertencente aos dois significantes e, portanto, polissemicos. No portugues, a homonimia pode ocorrer entre categorias gramaticais identicas: 'manga'(substantivo), entre categorias gramaticais distintas: 'abandonado' (substantivo e a<ljetivo), 'visto'(substantivo, participio passado e preposi9iio), 'canto' (substantivo e verbo) entre outras. o choque homonimico entre nome/adjetivo, nomelverbo e adjetivo/participio possui uma alta freqtiencia na lingua portuguesal. E interessante notar, porem, que nos livros em que se encontram defini90eslestudoslpesquisa sobre a homonimia, os exemplos de homonimos citados pelos autores 530 sempre os mesmos, a saber: '530', 'manga', 'canto', 'cabo', 'alimento', entre "poucos" outros. Assim sendo, urn levantamento de formas homonimas existentes no portugues do Brasil faz-se cada vez mais necessario, seja para atender lexic6logos e lexic6grafos seja para lingilistas . .? computaclOllalS-. o fenomeIfc)'da homonimia das linguas naturais tem sido motivo de vanos empecilhos para 0 desenvolvimento do Processamento Automatico das Linguas Naturais - PALN - em Lingiiistica Computacional para 0 qual urn dos grandes desafios e tentar transportar para a maquina as suas delimita¢es, uma vez que a mesma nao possui "intui¢es" interpretativas como os humanos. o presente trabalho objetiva demonstrar tal dificuldade, atraves de exemplos homonimicos conflitantes, em amilises de textos escritos realizadas por revisores gramaticais existentes para a lingua portuguesa do Brasil, no caso, aquele elaborado pelo convenio USP-Sao Carlos e Itautec-Philco S/A3. o revisor gramatical tem por meta, atraves de uma amllise sintitica automatica, identificar desvios lingiiisticos que fujam ao padrao da norma culta da lingua portuguesa do Brasil em textos escritos. 0 repert6rio lexical, que e a base lingiiistica de tal revisor, contem diversos homonimos classificados a partir de urn criterio morfo16gico que contempla as suas vanas classifica¢es em uma mesma entrada ou em entradas diferentes, tal como a forma "fala", categorizada como substantivo feminino singular, presente indicativo, 3a pessoa do singular e imperativo afirmativo, 2a pessoa do singular. A partir de urn corpus de aproximadamente 10.000 oconencias entre textos literanos, jornalisticos e tecnicos, foram realizados testes com 0 software visando a qualificar a performance do mesmo e 0 tratamento dado as formas homonimas. A ferramenta computacional assim funciona: detectada uma concordancia indevida, ela "seleciona" a frase e interage com 0 uswirio sugerindo-lhe uma recomen~o na qual demonstra qual 0 tipo de problema "detectado". 0 uswirio pode, se sentir necessidade, buscar mais informa~Oesgramaticais (denominado, no arquivo, de 'Mais informa¢es') sobre tal desvio lingiiistico. Por exemplo, em urn dos textos que a maquina analisou foi selecionada a seguinte frase: Seus dois fundos de renda fixa foram os que mais renderam no ano, em que 0 software oferecia a seguinte recomenda~o: "Se 'fixa' estiver se referindo a 'fundos', verifique a concordancia de niunero". Em tal recomen~o nao se compreende exatamente a qual tipo de concordancia de nUmero se refere a maquina e para tanto, buscamos 0 'Mais informa~' do revisor que nos ofereceu 0 seguinte informe: "Em portugues, 0 verbo cleve concordar em nUmero e pessoa com 0 sujeito da senten~". A partir de tais informa~ entende-se que 0 revisor considerou alexia 'fixa' como sendo uma forma verbal, mais especificamente aquela da terceira pessoa do singular do presente do indicativo e desse modo, sugeriu a concordancia verbal entre 'fundos' e 'fixa' , desconsiderando, portanto, a categoria adjetivo da mesma e a forma verbal 'foram' que a seguia. Tal procedimento e chamado de 'falso erro', ou seja, uma interven~o indevida realizada pelo revisor, ja que a frase nao possui nenhurn erro. De fato, trata-se de uma ambigiiidade interpretativa da ferramenta gerada, neste caso, pela homonimia categorial, uma vez que 'fixa' encontra-se categorizada como forma verbal do presente do indicativo e imperativo afirmativo do verbo 'fixar' na base lingiiistica do mesmo. 0 procedimento lingiiistico-computacional utilizado para descaraeterizar e desfazer, conseqiientemente, tal 'falso erro' foi 0 de realizar a concordancia de nUmero tanto com alexia 'fundos' quanto com a 'renda' no interior de tal sintagma nominal; havendo concordancia de nUmero dentro dos padrCieslingiiisticos da lingua portuguesa com uma das duas formas 0 revisor foi induzido a nao mais acusar nenhum tipo de desvio. Percebe-se que tal 'problema' foi sanado pontualmente, ou seja, especificamente para este caso, mas sera que estiio eliminadas interfereneias deste tipo por parte do corretor, satisfatoriamente, para outros contextos? Alem de existir um ehoque homonimico em tal frase, trata-se tambem da presenca de uma lexia eomplexa, a saber: 'fundos de renda fixa', a qual poderia ter sido levada em considera~o, pelo revisor, como uma entrada independente e portanto, eategorizada como substantivo masculino plural, 0 que nao teria conduzido a m3quina ao 'falso erro'. Urn outro exemplo evidencia 0 ehoque homonimieo substantivo X adjetivo na seguinte frase: Mataram 0 cara e deu esse problema, em que 0 revisor selecionou 0 sintagma nominal "0 eara" e recomendou: "se '0' estiver se referindo a 'eara', verifique a concordancia de genero" e 0 'Mais informa~s' instruiu: "0 artigo, 0 pronome, 0 numeral e 0 adjetivo determinantes devem sempre concordar em genero e nUmero com 0 substantivo a que se referem". No repertorio lexical do revisor, implementou-se 0 lexema 'eara' somente como forma feminina do adjetivo 'caro', uma vez que na implementa~o automatica das informa~s gramaticais aos itens lexicais, visando uma categoriza~ao que fosse a menos complexa possivel para se tentar evitar a ambigiiidade gramatical, alguns criterios classificatorios para a homonimia categorial foram criados objetivando atenuar os problemas das regras gramaticais do software. Desse modo, certas classes gramaticais foram unidas em uma Unica categoria e assim, para qualquer substantivo que fosse tambem adjetivo, optou-se pela segunda categoria respectivamente, ja que a maioria dos adjetivos pode ser substantivada. 0 problema tomou-se mais grave ainda, devido ao duplo genero que pode ter alexia 'cara' enquanto substantivo, qual seja: feminino, significando "rosto, semblante" e masculino, denotando "individuo". Na substantiva~o do adjetivo 'cara' a maquina nao e capaz de atribuir-lhe 0 artigo masculino, uma vez que ela obtem a informa~o de que tal forma e feminina, e nao the resta outra altemativa a nao ser acusar a eoncordancia erronea. A desambigiliza~o e alcancada atraves do acrescimo da categoria substantivo masculino, na base lingiiistica do revisor, para alexia 'cara'. 0 fato de ter-se determinado a escolha da categoria adjetivo, na implementa~o computacional, de todas as formas homomimas substantivo X adjetivo demonstra a insuficiencia de tal criterio. Se, por outro lado, formas homonimas tivessem sido implementadas a partir de um criterio lexieoestatistico, tais problemas estariam fadados a diminuirem, ou ate mesmo a desaparecerem. Biderman (1996) tece comentilrios sobre a pesquisa realizada pela Universidade de Lisboa, para a elabora~o de um vocabulario fundamental do portugues, em que analisa a metodologia e os criterios adotados pelos pesquisadores para tal empreendimento e nos declara: "A anillise dos dados revelou resultados interessantes. Em casos de homonimia substantivo X adjetivo - amigo (substantivo) X amigo (adjetivo); jovem (substantivo) X jovem (adjetivo); ideal (substantivo) X ideal (adjetivo) -, a aprecia~ empirica dos dados induziria it categoriza~o como adjetivo, a categoria primeira. Ora, a anillise dos contextos dessas e outras formas homografas revelou que os substantivos silo mais freqiientes" . Dessa forma, acreditamos que buscas de palavras homografas e da freqiiencia de ocorrencia das mesmas seja urn caminho para a resolu~ao de alguns tipos de ambigiiidade. Pondo em relevo a face quantitativa da linguagem, Biderman (1978) ressalta que "a freqiiencia seria uma caracteristica lao tipica do signo como os tra~s distintivos que 0 op6em aos demais elementos do sistema". Endosso suas palavras, reiterando mais uma vez 0 dito anteriormente em trabalho recente (Cf. Biderman, 1996:28): "Dada a enorme extensao do lexico, uma sele¢o lexical criteriosa e baseada em principios lexicoestatisticos apresentou-se como a melbor alternativa para estabelecer os indices verborum das palavras mais freqiientes e usuais dentre as centenas de milhares que constituem 0 lexico de uma lingua de civiliza~o moderna. Dessa forma, podem-se evitar 0 empirismo e uma sele¢o vocabular com base apenas na intui~o". Nossos testes enfatizam, ainda, a veracidade de tais afirma~Oes na seguinte frase em que a maquina detectou problemas: "Tivemos de importar acrilicos sem emenda, tintas especiais e usar materiais sinteticos, como 0 corean, que tem a aparencia de pedra, mas e perfeitamente moldiwe/", explica 0 empresario Marcos Brochini, um dos socios da industria de moveis Positano, que desenvolve a cole~iio em que evidencia urn problema com alexia 'tinta'; na frase, urn substantivo e no repertorio lexical, categorizada como adjetivo. A verifica~o de tal lexia no Dicionano de Freqiiencias do Portugues Contemporanoo (DFPC) nos revela: 120 ocorrencias do lema 'tinta' sao categorizadas como substantivo, sendo 68 para a forma do singular e 52 para a forma do plural; a forma adjetiva de 'tinta' MO ocorreu nenhuma uma vez. Claro esta, portanto, que alexia 'tinta' e mais freqiiente como substantivo e assim deverciser implementada no software para a sua desambigiiiza~o. Vejam-se as frases: "Candidato a uma vaga de gerente jinanceiro, niio jicou mais do que duas semanas sem emprego" / "Mesmo assim, 0 tema causa polemica" / "A ventila~iio injeta oxigenio no pulmiio por meio do controle da pressiio, jluxo e quantidade do gas, essencial para 0 funcionamento das celulas do organismo" / "Todas as regioes registraram queda em julho". Temos aqui problemas detectados pelo revisor que envolvem as lexias homonimas substantivo X adjetivo, a saber: 'vaga', 'polemica', 'fluxo' e 'queda' todas categorizadas como adjetivo na base lingiiistica da maquina e empregadas como substantivo nas frases. Para tais formas, deverci ser realizada uma busca em corpora representativos da lingua portuguesa (variante brasileira) a fim de se verificar qual categoria e a mais freqiiente, ja que no DFPC encontramos uma alta freqiiencia de ocorrencia para as mesmas vincu1ada ao choque homonimico, ou seja, MO podemos precisar qual e a categoria individual mais freqiiente sem analisa-las contextualmente, a MO ser para alexia 'queda'. A mesma e mais freqiiente como substantivo do que como a forma feminina do adjetivo 'quedo', como constatamos: de 315 ocorrencias da lexia 'queda', 295 sao como substantivos na forma singular e as outras se dividem entre a forma plural e lexias complexas. Com a introd.u~o da 743 categoria substantivo, no repertorio lexical, para tais lexias, ocorreni a desambigiiiza<;:aodas mesmas. Em casos de homonimia substantivo X verbo, a freqiiencia das formas tambem indicara com precisao qual e a categoria mais freqiiente. Na frase "Vou visitar amigos e inimigos para pedir ajuda" 0 revisor detectou urn 'falso erro' devido alexia 'ajuda', que se encontra classificada no repertorio lexical como forma verbal. No DFPC 'ajuda' consta de 569 ocorrencias como substantivo, indicando-nos claramente a sua alta freqiiencia como tal categoria. Sendo que 0 DFPC foi elaborado com base em urn corpus de 6 milh6es de ocomncias de palavras, a freqiiencia das lexias aqui analisadas e considerada alta e representativa para os indices nurnericos demonstrados anteriormente. As considera<;:Oese os resultados aqui discutidos nos levam a inferir 0 quao necessaria e a pesquisa sobre 0 fenomeno da homonimia de uma lingua natural. Em se tratando de implementa<;:Oescomputacionais, acreditamos que 0 levantamento estatistico podera resolver algumas quest6es sobre a ambigiiidade da linguagem natural, ja que serao identificadas as combinatorias gramaticais de formas ambiguas em corpora representativos da lingua portuguesa (UNESP-Araraquara). Dessa forma, presume-se que poderao ser identificados os contextos lingiiisticos nos quais se encontram as formas homografas mais freqiientes, para que entao se possa oferecer subsidios lingiiisticos senao para a resolu<;:ao,pelo menos para 0 abrandamento, da ambigiiidade lingiiistica. ILevantamentos de tal foram realizados no Dicionano de Freqiiencias do Portugues Contemporaneo de Maria Tereza Camargo Biderman, UNESP, Araraquara. 2Pesquisa de doutorado de Claudia Zavaglia, UNESP, Araraquara, sob orienta~o de Maria Tereza Camargo Biderman. 3Projeto realizaclo no NILC - Nucleo Interinstitucional de Lingiiistica Computacional - USP, Sao Carlos, SP. RESUMO: Este texto objetiva descrever e discutir 0 comportamento do fenomeno da homonimia em testes realizados em revisores computacionais e a possibi/idade de desambigiiiza~ao para certas formas. BIDERMAN, M.T.C.(1991). Polissemia Versus Homonimia. Anais do XXXVIII Seminario do GEL. Franca. -- (1978). Teoria Lingiiistica: /ingiiistica quantitativa e computacional. Rio de Janeiro: Livros Tecnicos e Cientificos. --- (1996) Lexico e Vocabulano Fundamental. AJfa, 0.40. Sao Paulo, GARDNER, H. (1995). A Nova Ciencia da Mente. Sao Paulo: EDUSP.