Instituto de Tecnologia de Massachusetts - mit

Propaganda
Instituto de Tecnologia de Massachusetts
Departamento de Engenharia Elétrica e Ciência da Computação
6.345 Reconhecimento Automático da Fala
Primavera, 2003
Publicado: 07/02/03
Devolução: 19/02/2003
Tarefa 2
Estrutura Silábica
A linguagem não é limitada apenas por um inventário de unidades básicas de som, mas
também considera as combinações permitidas para estes sons. Esta tarefa pretende dar
alguma idéia sobre estas limitações .
Para fazer isto, usaremos um software interativo chamado Crystal, que roda em estações
Linux. O Crystal é um sistema interativo que fornece várias funções para estudar e mostrar
a distribuição das limitações de um vocabulário. Para o propósito deste laboratório,
usaremos o dicionário Merriam Pocket, que contém cerca de 20.000 registros, como sendo
o vocabulário a ser trabalhado. Para iniciar o laboratório execute o comando:
%start_lab2.cmd
Propriedades Distributivas
Iniciaremos nossa investigação examinando algumas propriedades distributivas deste
vocabulário de palavras inglesas.
T1: Neste exercício, estudaremos as propriedades das palavras mais comuns da
língua inglesa. Clique em Sort by Brown Coprus Frequency (BCF)1 na janela
Search Results, que irá classificar as palavras do dicionário de acordo com seu
número de ocorrências no Brown Corpus. Estudar a contagem e as propriedades
das 15 primeiras palavras da lista.
Q1: Qual a característica comum entre as 15 palavras mais freqüentes (ex.:
número de sílabas, parte da voz, etc.)
T2: Neste exercício, estudaremos as propriedade das palavras mais freqüentes de
duas ou três sílabas na língua inglesa. Configure o Search Type para stress e
digite em .. Search String. Observe que todos os caracteres na seqüência de
pesquisa são separados por espaços. Os dois primeiros pontos equivalem a duas
silabas enquanto o terceiro ponto e o ponto de interrogação entre parênteses
equivale a uma terceira sílaba opcional.
_____________________________
1
A Brown Corpus é uma conjunto de mais de um milhão de palavras coletadas na Brown University. Esta
palavras foram tiradas de várias fontes tais como, livros, artigos , revistas, e as suas freqüências de
ocorrências foram registradas.
Q2: Quais são as mais freqüentes palavras de duas e três sílabas, e quão elevada
é sua posição no ranking dos vocábulos? Quando olhamos apenas as palavras
de duas sílabas utilizando . . como uma seqüência de pesquisa, qual sílaba tem
maior probabilidade de ser encontrada? Para a segunda parte, use S para
relacionar a sílaba mais utilizada .
T3:Neste exercício estudaremos as propriedades de distribuição dos padrões de
sílabas para o inglês. Restaure o vocbulário original clicando na janela history.
Clique em Syllables per Word na janela Statistics.
A distribuição dos padrões de sílabas no Brown Corpus é diferente daquela do
dicionário, porque algumas palavras no dicionário ocorrem mais vezes que
outras. Para atribuir pesos às palavras através da sua freqüência no Brown
Corpus clique em Weight by BCF na janela Statistics. O gráfico de sílabas por
palavra pode agora ser pesado pelas freqüências do Brown Corpus.
Q3: Isto mostra que todas as palavras no vocabulário contém oito ou menos
sílabas. Qual é o número de sílabas por palavras? Descreva a distribuição de
probabilidade para o número de sílabas por palavra mais frequente .Descreva a
distribuição de probabilidade do Número de Silábas por Palavra Qual seria a
diferença na sua resposta se as palavras fossem pesadas com as suas
freqüências do Brown Corpus?
T4: Aqui estudaremos a distribuição dos padrões mais utilizados no inglês. Clique
em Stress Patter Occurrences na janela Statistics. Veja, também, a distribuição
como pesada pelas freqüências de Brown Corpus.
Q4: Qual o mais freqüente polissílabo no padrão mais utilizado ? Como seria a
sua resposta quando as palavras são pesadas pelas suas freqüências do Brown
Corpus?
T5: Estudaremos a propriedades de distribuição de fonemas em inglês. Clique em
Phoneme Occurrences na janela Statistics. Veja, também, a distribuição
ponderada pelas freqüências de Brown Corpus.
Q5: Dos dez mais freqüentes fonemas que ocorrem no vocabulário , quais são
as formas mais comuns de produção e posição da articulação? Qual seria a sua
resposta para as palavras ponderadas através das freqüências de Brown Corpus?
Regras Fonológicas
O estudo das seqüências de sons permitidas em uma língua é chamado de fonologia. Esta
parte da tarefa mostra a você algumas das regras fonológicas do inglês.
Padrões Silábicos
O entendimento das regras fonológicas pode ser conseguido através do conhecimento da
estrutura silábica. A Figura 1 mostra um diagrama de um padrão de silábico bastante aceito
, e a Figura 2 mostra alguns exemplos.
Núcleo
Início
Coda
Afixo
Rima
Figura 1: Padrão Silábico – Fudges, “Syllables”, .J Lingüísticas, 1969.
•
•
•
•
•
•
Os ramos marcados por ° são opcionais
O núcleo deve conter um elemento aberto(não obstrutor )
A sonoridade decresce a partir do núcleo
(
O afixo contém apenas elementos orais: /s, z, t, d, θ, ð, č, j /
Apenas a última sílaba da palavra pode ter um afixo
/sp/, /st/, e /sk/ são tratados como oclusivas únicas
Início
Externo
Início
Interno
Núcleo
Coda
Interna
Coda
Externa
Afixo
1
Afixo
2
Afixo
3
Figura 2 – Exemplos de algumas sílabas
Agrupamento de Consoantes
Existe apenas um número limitado de palavras iniciais distintas e palavras finais com
agrupamento de consoantes na língua inglesa. Estudaremos suas propriedades nesta parte
do laboratório.
T6: Primeiro, restaure Search Type para phonemic. Pesquise palavras iniciais com
agrupamentos de consoantes no vocabulário original contendo pelo menos duas
consoantes, digitando C C ( C ) V . * em Search String. A parte C C ( C * )
relaciona duas ou mais consoantes, enquanto a parte V relaciona exatamente
uma vogal. Finalmente, a porção * relaciona-se com a existência ou não dos
remanentes fonemas de uma palavra qualquer.Tenha especial atenção com a
existência de agrupamentos /tk/ e /kt/.
A seguir, restaure o vocabulário original clicando sobre o mesmo na janela
history. Pesquise todos os possíveis agrupamentos de consoantes em palavras
finais presentes no vocabulário digitando * V C * na Search String. Preste,
especial, atenção quanto à existência de agrupamentos /tk/ e /kt/.
Q6: Sabemos que nenhuma palavra no dicionário contém o agrupamento de
consoantes /tkt/ ou /ktk/ (pode-se verificar isto pesquisando com . * k t k . * ou .
* k t k . * .). As duas seqüências de fonemas transcritas abaixo são possíveis?
(a) /...t k t …/
(b) /… k t k …/
Qual é a comprimento máximo de um agrupamento de consoantes na parte
inicial de uma palavra ? Com este comprimento quantos agrupamentos de
consoantes existem e quais são eles?
Agrupamento de Vogais
T7: Pesquise por palavras com duas vogais adjacentes digitando . * V V . * em
Search String. Certifique-se de restaurar o vocabulário original e de ignorar o
limite das sílabas habilitando Ignore Syllable Boundaries.
Q7: Quantas palavras possuem duas vogais em uma linha? Quantas delas tem
um schwa como segunda vogal? Quantas possuem um schwa como primeira
vogal? Utilize (ax | ix ) para relacionar ambas posições de schwa. Qual das duas
vogais adjacentes indicam a estrutura silábica das duas silabas às quais elas
pertencem?
Regras Homorgânicas
T8: A regra homorgânica de oclusiva-nasal estabelece que os agrupamentos de
oclusivas-nasais devem concordar com a posição da articulação. Verifique isto
examinando todas as ocorrências de agrupamentos de oclusivas-nasais no
vocabulário. Você pode pesquisar todas as palavras contendo seqüências de
oclusivas- nasais digitando . * NASAL STOP .* em Search String. Você pode,
também, pesquisar por mais exemplos específicos dentro do sub-vocabulário
resultante. Por exemplo, para pesquisar por palavras contendo /nd/, digite . * n d
. * em Search String; para pesquisar por palavras contendo tanto , /nd/ ou /nt/,
digite . * n ( d | t ) . * em Search String. Você desejará experimentar como
ignorar ou considerar os limites de sílabas afetam o seu resultado.
Q9: Com que freqüência a regra homorgânica de oclusiva- nasal é violada?
Tente generalizar a regra para sumarizar quando ela é quebrada?
Contrações de Vocábulos
Nesta parte investigaremos a possibilidade de uma dada palavra se tornar não ambígua
devido a palavras competidoras ( de significado semelhante) baseando-se em informações
fonéticas parciais.
T9: Em aula você tem lido algumas práticas relativas a espectrogramas. Neste
exercício, mostraremos que o uso direto do vocabulário pode ajudar em muito a
tarefa. Nas figuras 3, 4 e 5 são mostrados três espectrogramas de palavras
isoladas. Comece com uma transcrição grosseira do espectro feita a mão. Se não
puder determinar os fonemas, tente achar uma classe fonética, como um vogal,
um som nasal, fortes fricativas , oclusivas sonoras, etc. Faça uma pesquisa no
vocabulário baseado em sua hipótese parcial . Se não puder determinar uma
palavra, tente refinar a sua hipótese e pesquise novamente. O padrão pesquisado
deve ser expresso como expressões regulares, muitos exemplos das quais já
foram dados nas atividades anteriores. As classes a seguir foram definidas junto
com abreviações, ou você pode utilizar o operador OR, |, para criar classes
personalizadas. Habilite Ignore Syllable Boundaries, para que você não tenha
que explicitar específicamente os limites das sílabas.
Classe
Abreviação
Membros
Vogal
V
todas as vogais
Flexionado (Retroflexed)
R
r axr er
Fricativa
F
s sh z z f th v dh
Fricativa Forte
SF
s sh z zh
Fricativa Fraca
WF
f th v dh
Nasal
N
m n ng
Glide
G
wy
Líquid
L
lr
Semivogal
SV
lrwy
Aspirada
hh
Oclusiva
S
bdgptk
Oclusiva sonora
VS
Bdg
Oclusiva surda
US
ptk
Affricate
A
ch jh
Consoante Silábica
SC
el em en
Q9: Quais são as palavras em cada espectrograma? Qual é a hipótese
fonética parcial que você tem e que conduz a resposta com a ajuda da
pesquisa de vocábulo?
Figura 3: Palavra misteriosa nº1
Figura 4: Palavra misteriosa nº2
Figura 5: Palavra misteriosa nº3
Download