rel parcial me810 incompleto

Propaganda
Introdução
Em vista de analisar ritmicamente o Português Brasileiro e o Português Europeu
através de textos escritos, foi analisado o banco de dados constituído de árvores
probabilísticas, que foram construídas através da modelagem de textos jornalísticos dos
anos de 1994 e 1995 do jornal brasileiro “Folha de São Paulo”, e do jornal português
“Público”. Para a realização deste modelo, foi utilizado o pacote VLMC do software
estatístico R, que aborda a teoria de Cadeias de Markov de Alcance Variável existente na
sequência de códigos gerada através da codificação a qual os textos foram submetidos. Esta
codificação baseia-se basicamente em identificar sílabas tônicas/átonas e início/não início
de palavras prosódicas.
Este relatório apresentará algumas análises descritivas sobre o banco de dados
utilizado, bem como também explicará como ele foi obtido, a que processo foi submetido,
visto que os textos utilizados passaram por uma análise lingüística antes de serem definidos
como o banco de dados final.
Será apresentado também uma breve explicação sobre o teste estatístico que será
aplicado neste projeto que visa comparar as árvores do português europeu com as árvores
do português brasileiro.
Banco de Dados
Foram selecionados ao todo 80 textos jornalísticos, sendo que 40 reportagens são do
jornal “Folha de São Paulo” e outras 40 reportagens do jornal português “Público”. Cada
reportagem foi selecionado realizando-se amostragem Aleatória Simples entre os 365 dias
do ano. Estes textos escolhidos foram utilizados para a construção das árvores
probabilísticas, que é de fato o banco de dados deste projeto. Cada texto gerou uma árvore,
que foi modelada a partir do software estatístico R.
Anterior ao processo de construção das árvores, houve um trabalho de limpeza dos
textos e uma codificação. A codificação foi realizada utilizando o algoritmo Sílaba, que foi
processado através novamente do R, transformando as sílabas e pontuação em códigos que
facilitassem a análise dos textos.
Seria interessante criar uma codificação que indicasse começo ou separação de
palavras prosódicas, além também de não se esquecer das implicações oriundas da
pontuação que traz muitas marcas para a oralidade, visto que uma frase interrogativa não é
expressa da mesma maneira que uma frase exclamativa, ou afirmativa. Esses três pontos
então foram considerados relevantes e em cima deles foi construída a proposta de
codificação. A codificação utilizada para este projeto, nos textos jornalísticos amostrados,
segue abaixo. Sejam Yt , Zt e Xt variáveis aleatórias assim definidas:
i. Yt = 0 se não corresponde a início de palavra prosódica e Yt = 1 se corresponde
a início de palavra prosódica;
ii. Zt = 0 se corresponde a sílaba átona e Zt = 1 se corresponde a sílaba tônica;
iii. Xt = 0 se (Yt,Zt)= (0,0) , ou seja, não início de palavra prosódica e sílaba átona;
Xt = 1 se (Yt,Zt) = (0,1), ou seja, não início de palavra prosódica e sílaba tônica;
Xt = 2 se (Yt,Zt) = (1,0), ou seja, início de palavra prosódica e sílaba átona;
Xt = 3 se (Yt,Zt) = (1,1) ou seja, início de palavra prosódica e sílaba tônica;
Xt = 4 corresponde a ponto final, de interrogação, de exclamação ou reticências.
Veja o exemplo de como seria codificado o texto abaixo, a partir das definições que
foram detalhadas acima:
“.
O
me
ni
no
já
co
meu
o
do
ce”
Yt
1
0
0
0
1
1
0
1
0
0
Zt
0
0
1
0
1
0
1
0
1
0
2
0
1
0
3
2
1
2
1
0
Xt
4
Como a codificação é baseada em sílabas tônicas de palavras prosódicas, nos
“inícios de palavras” que apresenta ao longo do discurso e sobre a pontuação, algumas
observações podem ser feitas. Dado que temos um código que expressa o fim de uma frase
(4), o próximo código não poderá ser o mesmo que expressa fim de frase, pois não faz
sentido uma frase sem conteúdo algum, apenas com a pontuação. Da mesma forma, quando
aparece o código que expressa a sílaba tônica no meio de uma palavra, já se pode concluir
que a próxima sílaba não será tônica, pois só existe uma sílaba tônica por palavra
prosódica, e nem os códigos anteriores dentro da mesma palavra prosódica pode indicar
sílaba tônica.
Assim sendo, como existe esta dependência entre os códigos, existe um
encadeamento entre eles, e pode-se assim utilizar a modelagem de estruturas markovianas
nesta sequência de códigos. A teoria de cadeias de Markov torna-se útil calculando-se as
probabilidades de transição para os códigos, por exemplo, qual é a probabilidade de que um
código “1” apareça depois de outro código “1”? Neste projeto, poderá observar-se que a
probabilidade de ocorrência de um determinado código não depende apenas do código
anterior, e sim com k-passos anteriores. Desta forma existem k-passos anteriores que são
relevantes para predizer o próximo símbolo, e este número de passos varia para cada
símbolo. Estes k-passos que são relevantes para predizer o próximo símbolo são chamados
de “contextos”, e são os contextos que moldam as formas das árvores obtidas a partir dos
textos. São realizados testes de razão de verossimilhança sobre cada probabilidade de
transição possível e as árvores obtidas são compostas de ramificações (probabilidades de
transições) que são estatisticamente significantes e relevantes para predizer próximos
valores. A seguir então serão apresentadas análises iniciais sobre as árvores obtidas das
reportagens amostradas, bem como exemplo gráfico de contextos para facilitar a
compreensão.
Análises Descritivas
Metodologia
Será realizado neste próximo instante o teste estatístico sobre as árvores
probabilísticas do português brasileiro e português europeu.
O teste que será utilizado aqui é baseado em um teste do tipo Kolmogorov, onde a
estrutura média que caracteriza duas amostras de populações distintas são comparadas e
busca-se testar se a diferença (distância) entre essas estruturas são estatisticamente
significantes para rejeitar uma igualdade de comportamento.
A metodologia detalhada deste teste será apresentado no próximo relatório, bem
como o resultado obtido.
Considerações Finais
Referências Bibliográficas
- Carvalho, J.B., “Phonological conditions on Portuguese clitic placement: on syntactic
evidence for stress and rhythmic pattern”, Linguistics, Vol. 27, pp. 405–435, 1989;
- Frota, S. and Vigário, M., “Aspectos de prosódia comparada: ritmo e entoação no PE e no
PB”, Actas do XV Encontro da Associação Portuguesa de Lingıística, Coimbra, Vol. 1, pp.
533-55, 2000;
- Frota, S. and Vigário, M., “On the correlates of rhythm distinctions: the European/
Brazilian Portuguese case”, Probus, Vol. 13, pp. 247–275, 2001;
- Sândalo, F., Abaurre, M. B., Mandel, A. and Galves, C., “Secondary stress in two
varieties of Portuguese and the Sotaq optimality based computer program”, Probus, Vol.
18, to appear, 2006;
- Ramus, F., Nespor, M. and Mehler, J., “Correlates of linguistic rhythm in the speech
signal”, Cognition, Vol. 73, pp. 265–292, 1999.
- Duarte, D, Galves, A., Lopes, N. and Maronna, R., “The statistical analysis of acoustic
correlates of speech rhythm”, Workshop on Rhythmic patterns, parameter setting and
language change, ZiF, University of Bielefeld, 2001. Can be downloaded from
http://www.physik.unibielefeld.de/complexity/duarte.pdf;
- Rissanen, J., “A universal data compression system”, IEEE Trans. Inform. Theory, Vol.
29, pp. 656–664, 1983;
- Bühlmann, P. and Wyner, A. J., “Variable length Markov chains”, Ann. Statist., Vol. 27,
pp. 480–513, 1999;
- ”The R Project for Statistical Computing”, http://www.rproject.org;
- Mächler, M., “The VLMC package”, 2005. Can be downloaded from http: // cran.r project. org / doc / packages/VLMC . Pdf.;
- Mächler, M. and B¨uhlmann, P., “Variable length Markov chains: methodology,
computing, and software”, J. Comput. Graph. Statist., Vol. 13, pp. 435–455, 2004;
- Bühlmann, P., “Model selection for variable length Markov chains and tuning the context
algorithm”, Ann. Inst. Statist. Math., Vol. 52, pp. 287–315, 2000;
- Vigário, M. The prosodic word in European Portuguese, Mouton de Gruyter, 2003;
- Kleinhenz, U. ”Domain typology at the phonology-syntax interface” in G. Matos et al.
(eds) . Interfaces in Linguistic Theory, Lisboa: APL/Colibri, pp.201-220, 1997.
Download