ANEXO 2 CORPORA UTILIZADOS, CONVENÇÕES ADOTADAS E REGRAS UTILIZADAS NO TRABALHO DE MARCAÇÃO DE ENUNCIADOS A SEREM SUBMETIDOS AO PROGRAMA SOTAQ a) Os corpora utilizados Os corpora utilizados no trabalho de marcação de enunciados para serem submetidos à atribuição automática de acentos rítmicos realizada pelo programa computacional Sotaq referem-se: (i) a 200 enunciados de Português Europeu (PE) e 200 enunciados de Português Brasileiro (PB) extraídos de textos literário dessas respectivas variedades de Português; (ii) e a enunciados extraídos de textos bíblicos traduzidos do grego (ou aramaico) respectivamente para PB e para PE. b) Regras utilizadas e convenções adotadas no trabalho de marcação As regras utilizadas na realização do trabalho de marcação1 são muito simples: I-) O rótulo de cada sílaba a precede. II-) Esses rótulos representam propriedades silábicas. As propriedades silábicas definidas no trabalho de marcação são: acento primário, fronteira inicial de palavra (lexical ou funcional), fronteira inicial de sintagma fonológico () e vogal solúvel em Português Brasileiro (vogais [i] e [] - em núcleo de sílabas não acentuadas e seguindo consoantes africadas [] e [] – que podem ser extremamente reduzidas na fala corrente. Respectivamente: 0 – sílaba desprovida das propriedades definidas acima 1 – acento primário 2 – fronteira inicial de palavra (lexical ou funcional) 4 – fronteira inicial de sintagma fonológico () ou palavra fonológica ()2 16 – vogal solúvel em Português Brasileiro III-) O número que aparece antes de cada sílaba corresponde à soma dos números correspondentes às propriedades silábicas esclarecidas acima. IV-) Pontos finais, vírgulas, pontos de exclamação e pontos de interrogação não são levados em consideração na marcação silábica. Exemplo de marcação silábica em um enunciado de Português Brasileiro: 7 Es 0 sa 3 noi 16 te 7 eu 3 ti 0 ve 6 um 3 so 0 nho.3 1 Neste trabalho de marcação dos enunciados foram consideradas as sílabas ortográficas. Para cada enunciado foram realizadas duas marcações: em Marcação silábica em enunciados de PB (), Marcação silábica em enunciados de PE(), Marcação Sotaq () – Corpus da Missa PB, e Marcação Sotaq () – Corpus da Missa PE, o rótulo 4 (explicado abaixo) indica delimitação de palavra fonológica e em Marcação silábica em enunciados de PE (),Marcação silábica em enunciados de PB (), Marcação Sotaq () – Corpus da Missa PB, e Marcação Sotaq () – Corpus da Missa PE o rótulo 4 indica delimitação de sintagma fonológico. 3 Enunciado de um texto de Português Brasileiro de João Ubaldo (A casa dos budas ditosos). 2 Considerações sobre a marcação 4 – fronteira inicial de sintagma fonológico () ou palavra fonológica (): (A) Delimitação de sintagmas fonológicos Para a marcação de fronteira inicial de sintagma fonológico () foi utilizado o algoritmo de formação de sintagma fonológico encontrado em Nespor e Vogel (1986:168): Formação de Sintagma Fonológico I. o domínio de O domínio de consiste em um C (grupo clítico) que contenha uma cabeça lexical (X) e todos os Cs do lado não recursivo até o C que contenha outra cabeça fora da projeção máxima de X. II. construção Acrescente em um de ramificação n-ária todos os Cs incluídos em uma cadeia delimitada pela definição do domínio de . Considerou-se que X = cabeça lexical / categoria lexical4. Foram considerados como categorias lexicais: (a) substantivos, (b) adjetivos, (c) verbos e (d) e advérbios longos terminados em sufixo “mente” e (e) verbos de ligação. Estes últimos são considerados como cabeça lexical somente quando consistem no verbo principal da oração. Examplos5: (a) [São Gonçalo] não existe. (b) Deve ser coisa da idade, certamente é a idade, embora, é claro, eu não me considere [velha.] (c) Conte a história, minta bastante se quiser, [diga] que é tudo verdade, e é mesmo. (d) [Antigamente] eu sonhava muito com eles. (e) Deve ser coisa da idade, certamente [é] a idade, embora, é claro, eu não me considere velha. Foram considerados como categorias funcionais6: (f) conjunções, (g) pronomes, (h) advérbios não terminados em sufixo "mente", (i) verbos auxiliares (incluindo verbos de ligação), (j) preposições e (k) artigos. Exemplos7: (f) [Mas, de fato,] eu tive um sonho. 4 Conforme Cook and Newson (1996:187), categoria lexical: classe aberta; fonologicamente independente; potencialmente acentuada; pode ter um ou mais complementos; complemento separável; ‘ conteúdo descritivo’, relacionada ao mundo ‘real’;não possui traços gramaticais; não ligada a parâmetros. 5 Enunciados extraídos de textos de Português Brasileiro. 6 Conforme Cook and Newson (1996:187), categoria funcional: classe fechada; dependente fonologicamente; geralmente não acentuada; possui um único complemento, não um argumento; complemento não separável; ‘conteúdo não descritivo', não relacionada ao mundo ‘real’; possui traços gramaticais; ligada a parâmetros. 7 Idem a nota 3. (g) Mas, de fato, [eu tive] um sonho. Explicar isso como [quem explica] a um marciano. (h) Conte a história, [minta bastante] se quiser, diga que é tudo verdade, e é mesmo. (i) [Deve ser] coisa da idade, certamente, é a idade, embora, é claro, eu não me considere velha. (j) Não vou falar mais nisso, perda [de tempo.] (k) [O magistério] da Igreja me enerva. Exemplo de aplicação do algoritmo de em um enunciado de PB8: [Os católicos] [são] [politeístas.] Neste trabalho sintagmas fonológicos são reestruturados, exceto sintagmas fonológicos constituídos por advérbios longos terminados em sufixo “mente”, sempre que houver contexto para reestruturações como definido em Nespor and Vogel (1986: 173): reestruturação (opcional) Um não ramificado, sendo o primeiro complemento de X no seu lado recursivo, é acrescentado no que contém X. Ex.: antes da reestruturação: [Os católicos] [são] [politeístas.] após a reestruturação: [Os católicos] [são politeístas.] antes da reestruturação: [Os gregos] [e os romanos] [tinham] [um deus] [menor] [para cada coisa,] [regras] [atrasadas,] [artistas] [falidos,] [transações] [impossíveis,] [dívidas] [falimentares,] [casamentos,] [músicos] [bêbedos,] [agricultores,] [criadores] [de cabra,] [tudo, tudo, tudo]. após a reestruturação: [Os gregos] [e os romanos] [tinham] [um deus menor] [para cada coisa,] [regras atrasadas,] [artistas falidos,] [transações impossíveis,] [dívidas falimentares,] [casamentos,] [músicos bêbedos,] [agricultores,] [criadores] [de cabra,] [tudo, tudo, tudo]. Casos excepcionais de não reestruturação: Além dos sintagmas fonológicos constituídos por advérbios longos terminados em sufixo "mente", sintagmas fonológicos, que são o primeiro complemento de X no seu lado recursivo, constituídos por um núcleo adjetival ramificado, após vírgula, não são acrescentados ao que contém X. Ex9.: [Os mensageiros], [instados] [a repetir] em público o que haviam dito aos comandantes, anunciaram que estava em preparação um ataque em larga escala, dos 8 Idem a nota 1. Lusitanos e dos seus vizinhos, contra a província Ulterior, para vingar enfim a traição do pretor Galba. *[Os mensageiros instados] [a repetir] em público o que haviam dito aos comandantes, anunciaram que estava em preparação um ataque em larga escala, dos Lusitanos e dos seus vizinhos, contra a província Ulterior, para vingar enfim a traição do pretor Galba.10 A filha tinha sido mandada para casa da avó, [e a criada], [cúmplice] [no adultério], fora despedida no dia seguinte. A filha tinha sido mandada para casa da avó, *[e a criada, cúmplice] [no adultério], fora despedida no dia seguinte. (B) Delimitação de palavras fonológicas Por sua vez, na delimitação das palavras fonológicas, assim como na delimitação dos sintagmas fonológicos, também foi utilizado o algoritmo de Nespor e Vogel (1986). Segundo Nespor e Vogel (1986:141-142), o algoritmo de formação de palavra fonológica é o seguinte: Domínio de A. O domínio de é Q (elemento terminal da árvore sintática) Ou B. I. O domínio de consiste em a. Um radical b. Qualquer elemento identificado pelos específicos critérios fonológicos e/ou morfológicos c. Qualquer elemento marcado com o diacrítico [+W]. Este diacrítico, que marca, cf. van der Hulst (1984:66ff), sufixos independentes fonologicamente, indica que os elementos que o carregam formam o cerne de uma palavra fonológica, do mesmo modo que prefixos ou radicais o fazem. II. Quaisquer elementos livres dentro de Q forma parte da adjacente mais próxima do radical; se nenhuma tal existe, eles formam uma constituída por eles próprios. Construção de Acrescente a uma de ramificação n-ária todos () os pés incluídos em uma seqüência delimitada pela definição do domínio de . Na delimitação das palavras fonológicas adotamos as seguintes convenções11 quanto à aplicação do respectivo algoritmo de , conforme a regra A: (a) Substantivos, adjetivos, verbos, numerais, advérbios e pronomes pessoais do caso reto foram considerados como elementos terminais da árvore sintática; 9 Enunciados extraídos de textos de Português Europeu. O asterisco (*) indica reestruturação não permitida. 11 Cabe acrescentar que adotamos as convenções (c) e (d) segundo a óptica na qual pronomes demonstrativos são considerados determinantes (elementos não terminais na árvore sintática na perspectiva de Nespor e Vogel, 1986) enquanto pronomes pessoais possessivos são considerados núcleos de sintagmas adjetivais, portanto, elementos terminais da árvore sintática na visão de Nespor e Vogel (1986). 10 (b) Artigos definidos e indefinidos, preposições, conjunções, complementizadores, pronomes relativos e pronomes pessoais do caso oblíquo (clíticos) foram considerados elementos não terminais da árvore sintática. (c) Pronomes demonstrativos foram considerados como elementos não terminais da árvore sintática, ocupando posição de especificador (D) do sintagma determinante (DP); (d) Pronomes pessoais possessivos foram considerados como elementos terminais da árvore sintática na medida em que assumimos que eles ocupam a posição de núcleo do sintagma adjetival (AdjP) na árvore sintática; Exemplo: Alguém , a quem a minha memória não consegue neste momento fazer justiça, sugeriu uma maneira de se saber quais as crenças mais profundas e íntimas de uma pessoa.12 12 Enunciado extraído de um texto literário de Português Europeu.