rel parcial me810

1. Introdução
Em vista de analisar ritmicamente o Português Brasileiro e o Português Europeu
através de textos escritos, foi analisado o banco de dados constituído de árvores
probabilísticas, estas que foram construídas através de textos jornalísticos dos anos de 1994
e 1995 do jornal brasileiro “Folha de São Paulo”, e do jornal português “Público”. Para
serem criados os modelos em forma de árvores, foi utilizado o pacote VLMC do software
estatístico R, que aborda a teoria de Cadeias de Markov de Alcance Variável existente na
sequência de códigos gerada através da codificação a qual os textos foram submetidos. Esta
codificação baseia-se basicamente em identificar sílabas tônicas/átonas e início/não início
de palavras prosódicas assim como a pontuação.
Este relatório apresentará algumas análises descritivas sobre o banco de dados
utilizado, bem como também explicará como ele foi obtido, a que processo foi submetido,
visto que os textos utilizados passaram por uma análise lingüística antes de serem definidos
como o banco de dados final.
Será apresentado também uma breve explicação sobre o teste estatístico que será
aplicado neste projeto que visa comparar as árvores do português europeu com as árvores
do português brasileiro.
2. Banco de Dados
Foram selecionados ao todo 80 textos jornalísticos, sendo que 40 reportagens são do
jornal “Folha de São Paulo” e outras 40 reportagens do jornal português “Público”. Cada
reportagem foi selecionada realizando-se amostragem Aleatória Simples entre os 365 dias
do ano, para ambos os jornais nos anos de 1994 e 1995. Estes textos escolhidos foram
utilizados para a construção das árvores probabilísticas, que é de fato o banco de dados
deste projeto. Cada texto gerou uma árvore, que foi modelada a partir do software
estatístico R.
Anterior ao processo de construção das árvores, houve um trabalho de limpeza dos
textos para serem submetidos à codificação. A codificação foi realizada utilizando o
algoritmo Sílaba, que foi processado através novamente do R, transformando as sílabas e
pontuação em códigos que permitissem a análise dos textos.
Seria interessante criar uma codificação que indicasse começo ou separação de
palavras prosódicas, além também de não se esquecer das implicações oriundas da
pontuação que traz muitas marcas para a oralidade, visto que uma frase interrogativa não é
expressa da mesma maneira que uma frase exclamativa, ou afirmativa. Esses três pontos
então foram considerados relevantes e em cima deles foi construída a proposta de
codificação. A codificação utilizada para este projeto, nos textos jornalísticos amostrados,
segue abaixo. Sejam Yt , Zt e Xt variáveis aleatórias assim definidas:
i. Yt = 0 se não corresponde a início de palavra prosódica e Yt = 1 se corresponde
a início de palavra prosódica;
ii. Zt = 0 se corresponde a sílaba átona e Zt = 1 se corresponde a sílaba tônica;
iii. Xt = 0 se (Yt,Zt)= (0,0) , ou seja, não início de palavra prosódica e sílaba átona;
Xt = 1 se (Yt,Zt) = (0,1), ou seja, não início de palavra prosódica e sílaba tônica;
Xt = 2 se (Yt,Zt) = (1,0), ou seja, início de palavra prosódica e sílaba átona;
Xt = 3 se (Yt,Zt) = (1,1) ou seja, início de palavra prosódica e sílaba tônica;
Xt = 4 corresponde a ponto final, de interrogação, de exclamação ou reticências.
Veja o exemplo de como seria codificado o texto abaixo, a partir das definições que
foram detalhadas acima:
“.
O
me
ni
no
já
co
meu
o
do
ce”
Yt
1
0
0
0
1
1
0
1
0
0
Zt
0
0
1
0
1
0
1
0
1
0
2
0
1
0
3
2
1
2
1
0
Xt
4
Como a codificação é baseada em sílabas tônicas de palavras prosódicas, nos
“inícios de palavras” que apresenta ao longo do discurso e sobre a pontuação, algumas
observações podem ser feitas. Dado que temos um código que expressa o fim de uma frase
(4), o próximo código não poderá ser o mesmo que expressa fim de frase (outro símbolo 4),
pois não faz sentido uma frase sem conteúdo algum, apenas com a pontuação. Da mesma
forma, quando aparece o código que expressa a sílaba tônica no meio de uma palavra, já se
pode concluir que a próxima sílaba não será tônica, pois só existe uma sílaba tônica por
palavra prosódica, e nem os códigos anteriores dentro da mesma palavra prosódica pode
indicar sílaba tônica.
Assim sendo, como existe esta dependência entre os códigos, existe um
encadeamento entre eles, e pode-se assim utilizar a modelagem de estruturas markovianas
nesta sequência de códigos. A teoria de cadeias de Markov torna-se útil calculando-se as
probabilidades de transição para os códigos, por exemplo, qual é a probabilidade de que um
código “1” apareça depois de outro código “1”? Neste projeto, poderá observar-se que a
probabilidade de ocorrência de um determinado código não depende apenas do código
anterior, depende até de k-passos anteriores. Desta forma existem k-passos anteriores que
são relevantes para predizer o próximo símbolo, e este número de passos varia para cada
símbolo. Estes k-passos que são relevantes para predizer o próximo símbolo são chamados
de “contextos”, e são os contextos que moldam as formas das árvores obtidas a partir dos
textos. São realizados testes de razão de verossimilhança sobre cada probabilidade de
transição possível e as árvores obtidas são compostas de ramificações (probabilidades de
transições) que são estatisticamente significantes e relevantes para predizer próximos
valores. A seguir então serão apresentadas análises iniciais sobre as árvores obtidas das
reportagens amostradas, bem como exemplo gráfico de contextos para facilitar a
compreensão.
3. Análises Descritivas
Devido a grande complexidade do processo de limpeza deste banco de dados, foram
analisados até este momento todos os textos amostrados do jornal “Folha de São Paulo” e
“Público” do ano de 1994 apenas. Este projeto está sendo desenvolvido junto com
profissionais do departamento da área de Linguística, que analisaram cuidadosamente
todos os textos. Como existe uma dependência e conectividade neste grupo de trabalho, não
se pode fazer as análises sem ter a validação Lingüística de peritos, assim como não se
pode fazer análises estatísticas sobre os dados sem ter o conhecimento e as suposições
necessárias (aleatorização, amostra razoavelmente grande para utilizar o teorema central
doo limite, etc.) .
Desta forma, foram analisadas as árvores até então obtidas e observou-se:

Nas árvores do português brasileiro e do português europeu, os contextos “100”, “10”,
“20”, “30”, “1”, “2”, “3” e “4” aparecem em 100% dos textos;

O contexto “200” aparece em 30% das árvores do português brasileiro e em 45% do
português europeu;

O contexto “300” foi observado em 85% dos textos da “Folha de São Paulo e em 65%
do Público”;

Apenas nos textos do português europeu apareceu o contexto “000”, em 5% dos dados.
Foram observados em ambos os idiomas basicamente 3 tipos de árvores, como
pode-se observar abaixo:
Tipo 1:
Tipo 2:
Tipo 3
Observou-se que para as árvores do português do português brasileiro árvores do
tipo 2 apresentaram maior freqüência (55%) enquanto que para os textos do português
europeu árvores do tipo 3 apresentaram maior freqüência (40%), seguidas do tipo 2 ( 35%),
veja a tabela abaixo:
Tabela 3.1 ) Tabela de Contigência (Tipo de Árvores x Jornal)
Tipo 1
Tipo 2
Tipo 3
Folha de São Paulo
3
11
6
20
Público
5
7
8
20
Total
8
18
14
40
A partir desta tabela, podemos fazer algumas análises interessantes. Assumindo-se
que o jornal Folha de São Paulo tem distribuição Multinomial com parâmetros (p1, p2, p3,
20) e o jornal Público também tem distribuição com parâmetros Multinomial (q1, q2, q3, 20)
para o tipo de árvores que eles geram a partir dos textos amostrados, onde pi e qi indicam a
proporção de árvores do tipo i, para i = 1,2 e 3. Pode-se testar se existe igualdade ou
diferença da procedência do texto testando os parâmetros a partir do Teste de Razão de
Verossimilhança.
Os estimadores obtidos pelo método da Verossimilhança são:
p 1=
3
11
6
5
7
8
; p 2=
; p 3=
;q 1=
;q 2=
;q 3=
20
20
20
20
20
20
O interesse é testar se os parâmetros são iguais ou não, ou seja:
H 0 : p1= q1 , p2 = q 2 , p 3= q 3
H 1 : algum i tal que p i≠ qi
Sob Ho, temos uma distribuição para os dados como Multinomial, com parâmetros
(p1=8/40, p2=18/40, p3 =14/40=40).
Calculando a razão de verossimilhança,observou-se que Λ = 0, 090301, onde Λ é a
razão de verossimilhança.
2
2
Como − 2 ln Λ ~ χ 4− 2= χ 2 , então foi calculado o valor e observamos que o valor
2
da estatística do teste é χ 2= 4,809014 .
Para este valor, temos que o o p-valor está entre 0,05 e 0,1, o que não fornece tantas
evidências para se rejeitar a hipótese nula.
Entretanto esse resultado foi obtido a partir de um teste onde as árvores foram
dividas em grupos e os grupos foram testados, de certa forma este teste não é de fato o
ideal. O próximo passo é justamente realizar um teste mais poderoso, sobre todas as
árvores, e apresenta-se como uma alternativa razoável para o problema em questão.
4. Metodologia
Será realizado neste próximo instante o teste estatístico sobre as árvores
probabilísticas do português brasileiro e português europeu.
O teste que será utilizado aqui é baseado em um teste do tipo Kolmogorov, onde a
estrutura média que caracteriza duas amostras de populações distintas são comparadas e
busca-se testar se a diferença (distância) entre essas estruturas são estatisticamente
significantes para rejeitar uma igualdade de comportamento.
A metodologia detalhada deste teste será apresentado no próximo relatório, bem
como o resultado obtido.
5. Considerações Finais
A próxima etapa deste projeto, como foi dito anteriormente, será aplicar o teste
sobre as árvores e observar se há ou não diferença entre os textos do português europeu e
do português brasileiro.
Esta análise será realizada sobre os 80 textos que foram coletados, que estão em
processo de finalização de limpeza.
6. Referências Bibliográficas
- Carvalho, J.B., “Phonological conditions on Portuguese clitic placement: on syntactic
evidence for stress and rhythmic pattern”, Linguistics, Vol. 27, pp. 405–435, 1989;
- Frota, S. and Vigário, M., “Aspectos de prosódia comparada: ritmo e entoação no PE e no
PB”, Actas do XV Encontro da Associação Portuguesa de Lingıística, Coimbra, Vol. 1, pp.
533-55, 2000;
- Frota, S. and Vigário, M., “On the correlates of rhythm distinctions: the European/
Brazilian Portuguese case”, Probus, Vol. 13, pp. 247–275, 2001;
- Sândalo, F., Abaurre, M. B., Mandel, A. and Galves, C., “Secondary stress in two
varieties of Portuguese and the Sotaq optimality based computer program”, Probus, Vol.
18, to appear, 2006;
- Ramus, F., Nespor, M. and Mehler, J., “Correlates of linguistic rhythm in the speech
signal”, Cognition, Vol. 73, pp. 265–292, 1999.
- Duarte, D, Galves, A., Lopes, N. and Maronna, R., “The statistical analysis of acoustic
correlates of speech rhythm”, Workshop on Rhythmic patterns, parameter setting and
language change, ZiF, University of Bielefeld, 2001. Can be downloaded from
http://www.physik.unibielefeld.de/complexity/duarte.pdf;
- Rissanen, J., “A universal data compression system”, IEEE Trans. Inform. Theory, Vol.
29, pp. 656–664, 1983;
- Bühlmann, P. and Wyner, A. J., “Variable length Markov chains”, Ann. Statist., Vol. 27,
pp. 480–513, 1999;
- ”The R Project for Statistical Computing”, http://www.rproject.org;
- Mächler, M., “The VLMC package”, 2005. Can be downloaded from http: // cran.r project. org / doc / packages/VLMC . Pdf.;
- Mächler, M. and B¨uhlmann, P., “Variable length Markov chains: methodology,
computing, and software”, J. Comput. Graph. Statist., Vol. 13, pp. 435–455, 2004;
- Bühlmann, P., “Model selection for variable length Markov chains and tuning the context
algorithm”, Ann. Inst. Statist. Math., Vol. 52, pp. 287–315, 2000;
- Vigário, M. The prosodic word in European Portuguese, Mouton de Gruyter, 2003;
- Kleinhenz, U. ”Domain typology at the phonology-syntax interface” in G. Matos et al.
(eds) . Interfaces in Linguistic Theory, Lisboa: APL/Colibri, pp.201-220, 1997.