Introdução Em vista de analisar ritmicamente o Português Brasileiro e o Português Europeu através de textos escritos, foi analisado o banco de dados constituído de árvores probabilísticas, que foram construídas através da modelagem de textos jornalísticos dos anos de 1994 e 1995 do jornal brasileiro “Folha de São Paulo”, e do jornal português “Público”. Para a realização deste modelo, foi utilizado o pacote VLMC do software estatístico R, que aborda a teoria de Cadeias de Markov de Alcance Variável existente na sequência de códigos gerada através da codificação a qual os textos foram submetidos. Esta codificação baseia-se basicamente em identificar sílabas tônicas/átonas e início/não início de palavras prosódicas. Este relatório apresentará algumas análises descritivas sobre o banco de dados utilizado, bem como também explicará como ele foi obtido, a que processo foi submetido, visto que os textos utilizados passaram por uma análise lingüística antes de serem definidos como o banco de dados final. Será apresentado também uma breve explicação sobre o teste estatístico que será aplicado neste projeto que visa comparar as árvores do português europeu com as árvores do português brasileiro. Banco de Dados Foram selecionados ao todo 80 textos jornalísticos, sendo que 40 reportagens são do jornal “Folha de São Paulo” e outras 40 reportagens do jornal português “Público”. Cada reportagem foi selecionado realizando-se amostragem Aleatória Simples entre os 365 dias do ano. Estes textos escolhidos foram utilizados para a construção das árvores probabilísticas, que é de fato o banco de dados deste projeto. Cada texto gerou uma árvore, que foi modelada a partir do software estatístico R. Anterior ao processo de construção das árvores, houve um trabalho de limpeza dos textos e uma codificação. A codificação foi realizada utilizando o algoritmo Sílaba, que foi processado através novamente do R, transformando as sílabas e pontuação em códigos que facilitassem a análise dos textos. Seria interessante criar uma codificação que indicasse começo ou separação de palavras prosódicas, além também de não se esquecer das implicações oriundas da pontuação que traz muitas marcas para a oralidade, visto que uma frase interrogativa não é expressa da mesma maneira que uma frase exclamativa, ou afirmativa. Esses três pontos então foram considerados relevantes e em cima deles foi construída a proposta de codificação. A codificação utilizada para este projeto, nos textos jornalísticos amostrados, segue abaixo. Sejam Yt , Zt e Xt variáveis aleatórias assim definidas: i. Yt = 0 se não corresponde a início de palavra prosódica e Yt = 1 se corresponde a início de palavra prosódica; ii. Zt = 0 se corresponde a sílaba átona e Zt = 1 se corresponde a sílaba tônica; iii. Xt = 0 se (Yt,Zt)= (0,0) , ou seja, não início de palavra prosódica e sílaba átona; Xt = 1 se (Yt,Zt) = (0,1), ou seja, não início de palavra prosódica e sílaba tônica; Xt = 2 se (Yt,Zt) = (1,0), ou seja, início de palavra prosódica e sílaba átona; Xt = 3 se (Yt,Zt) = (1,1) ou seja, início de palavra prosódica e sílaba tônica; Xt = 4 corresponde a ponto final, de interrogação, de exclamação ou reticências. Veja o exemplo de como seria codificado o texto abaixo, a partir das definições que foram detalhadas acima: “. O me ni no já co meu o do ce” Yt 1 0 0 0 1 1 0 1 0 0 Zt 0 0 1 0 1 0 1 0 1 0 2 0 1 0 3 2 1 2 1 0 Xt 4 Como a codificação é baseada em sílabas tônicas de palavras prosódicas, nos “inícios de palavras” que apresenta ao longo do discurso e sobre a pontuação, algumas observações podem ser feitas. Dado que temos um código que expressa o fim de uma frase (4), o próximo código não poderá ser o mesmo que expressa fim de frase, pois não faz sentido uma frase sem conteúdo algum, apenas com a pontuação. Da mesma forma, quando aparece o código que expressa a sílaba tônica no meio de uma palavra, já se pode concluir que a próxima sílaba não será tônica, pois só existe uma sílaba tônica por palavra prosódica, e nem os códigos anteriores dentro da mesma palavra prosódica pode indicar sílaba tônica. Assim sendo, como existe esta dependência entre os códigos, existe um encadeamento entre eles, e pode-se assim utilizar a modelagem de estruturas markovianas nesta sequência de códigos. A teoria de cadeias de Markov torna-se útil calculando-se as probabilidades de transição para os códigos, por exemplo, qual é a probabilidade de que um código “1” apareça depois de outro código “1”? Neste projeto, poderá observar-se que a probabilidade de ocorrência de um determinado código não depende apenas do código anterior, e sim com k-passos anteriores. Desta forma existem k-passos anteriores que são relevantes para predizer o próximo símbolo, e este número de passos varia para cada símbolo. Estes k-passos que são relevantes para predizer o próximo símbolo são chamados de “contextos”, e são os contextos que moldam as formas das árvores obtidas a partir dos textos. São realizados testes de razão de verossimilhança sobre cada probabilidade de transição possível e as árvores obtidas são compostas de ramificações (probabilidades de transições) que são estatisticamente significantes e relevantes para predizer próximos valores. A seguir então serão apresentadas análises iniciais sobre as árvores obtidas das reportagens amostradas, bem como exemplo gráfico de contextos para facilitar a compreensão. Análises Descritivas Metodologia Será realizado neste próximo instante o teste estatístico sobre as árvores probabilísticas do português brasileiro e português europeu. O teste que será utilizado aqui é baseado em um teste do tipo Kolmogorov, onde a estrutura média que caracteriza duas amostras de populações distintas são comparadas e busca-se testar se a diferença (distância) entre essas estruturas são estatisticamente significantes para rejeitar uma igualdade de comportamento. A metodologia detalhada deste teste será apresentado no próximo relatório, bem como o resultado obtido. Considerações Finais Referências Bibliográficas - Carvalho, J.B., “Phonological conditions on Portuguese clitic placement: on syntactic evidence for stress and rhythmic pattern”, Linguistics, Vol. 27, pp. 405–435, 1989; - Frota, S. and Vigário, M., “Aspectos de prosódia comparada: ritmo e entoação no PE e no PB”, Actas do XV Encontro da Associação Portuguesa de Lingıística, Coimbra, Vol. 1, pp. 533-55, 2000; - Frota, S. and Vigário, M., “On the correlates of rhythm distinctions: the European/ Brazilian Portuguese case”, Probus, Vol. 13, pp. 247–275, 2001; - Sândalo, F., Abaurre, M. B., Mandel, A. and Galves, C., “Secondary stress in two varieties of Portuguese and the Sotaq optimality based computer program”, Probus, Vol. 18, to appear, 2006; - Ramus, F., Nespor, M. and Mehler, J., “Correlates of linguistic rhythm in the speech signal”, Cognition, Vol. 73, pp. 265–292, 1999. - Duarte, D, Galves, A., Lopes, N. and Maronna, R., “The statistical analysis of acoustic correlates of speech rhythm”, Workshop on Rhythmic patterns, parameter setting and language change, ZiF, University of Bielefeld, 2001. Can be downloaded from http://www.physik.unibielefeld.de/complexity/duarte.pdf; - Rissanen, J., “A universal data compression system”, IEEE Trans. Inform. Theory, Vol. 29, pp. 656–664, 1983; - Bühlmann, P. and Wyner, A. J., “Variable length Markov chains”, Ann. Statist., Vol. 27, pp. 480–513, 1999; - ”The R Project for Statistical Computing”, http://www.rproject.org; - Mächler, M., “The VLMC package”, 2005. Can be downloaded from http: // cran.r project. org / doc / packages/VLMC . Pdf.; - Mächler, M. and B¨uhlmann, P., “Variable length Markov chains: methodology, computing, and software”, J. Comput. Graph. Statist., Vol. 13, pp. 435–455, 2004; - Bühlmann, P., “Model selection for variable length Markov chains and tuning the context algorithm”, Ann. Inst. Statist. Math., Vol. 52, pp. 287–315, 2000; - Vigário, M. The prosodic word in European Portuguese, Mouton de Gruyter, 2003; - Kleinhenz, U. ”Domain typology at the phonology-syntax interface” in G. Matos et al. (eds) . Interfaces in Linguistic Theory, Lisboa: APL/Colibri, pp.201-220, 1997.