Teoria Acústica da Produção da Voz - mit

Propaganda
MIT Teoria Acústica da Produção da Voz
•
•
•
•
•
•
Resumo
Fontes do som
Função de transferência do trato vocal
– Equações de onda
– Propagação do som em um tubo acústico uniforme
Representação do trato vocal com tubos acústicos
simples.
• Estimando freqüências naturais a partir de funções de
área.
• Representação do trato vocal com múltiplos tubos
uniformes.
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
1
Estrutura Anatômica Para a Produção da Voz
MIT
Cavidade Nasal
Palato Duro
Palato Mole
Língua
Maxilar
Cartilagem da Tireóide
Cordas Vocais
Traquéia
Pulmão
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
2
MIT
Fonemas no Inglês Americano
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
3
MITLocal de Articulação Para Sons Vocais
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
4
MITFormas de Onda Vocais: Um exemplo
Two plus seven is less than ten. (Dois mais sete é menos que dez.)
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
5
MIT
Um Espectrograma Faixa Larga
Two plus seven is less than ten. (Dois mais sete é menos que dez.)
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
6
MIT Teoria Acústica da Produção da Voz
•
•
As características acústicas da voz são geralmente modeladas
como uma seqüência de fonte, filtro do trato vocal, e características
de radiação.
Pr (jΩ) = S(jΩ) T (jΩ) R(jΩ)
Para produção de vogais:
S(jΩ) = UG(jΩ)
T (jΩ) = UL(jΩ) /UG(jΩ)
R(jΩ) = Pr (jΩ) /UL(jΩ)
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
7
Fonte do Som: Vibração das Cordas Vocais
MIT
•
Modelado como a velocidade do volume gerado pela fonte na glote
(abertura entre cordas vocais), UG(jΩ)
F0 média
(Hz)
F0 mín
(Hz)
F0 máx
(Hz)
Homens
125
80
200
Mulheres
225
150
350
Crianças
300
200
500
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz
8
MIT Fonte do Som: Ruído de Turbulência
•
•
Ruído de turbulência é produzido na contrição do trato vocal.
– Ruído de Aspiração é produzido na glote,
– Ruído de Fricção é produzido acima da glote.
Modelado como séries de fontes de pressão na contrição, PS (jΩ).
•
V : Velocidade na contrição
D: Dimensão critica =
4A
π
6.345 Sistema de Reconhecimento de Voz
≈ A
Teoria Acústica da Produção de Voz
9
MIT
Equações de Onda do Trato Vocal
Defina: u(x,t) ⇒ velocidade de partícula
U(x, t) ⇒velocidade do volume (U = uA)
p(x, t) ⇒ variação da pressão do som (P = P0 + p)
ρ ⇒ densidade do ar
c ⇒ velocidade do som
• Supondo propagação de onda plana (para uma dimensão << λ), e
movimento unidimensional, pode ser provado que:
∂ 2u 1 ∂ 2u
∂u
1 ∂p
∂u
∂p
−
= 2
= 2 2 2
=ρ
−
2
x
ρ
c
∂
t
∂
∂x
c c ∂t
∂x
∂t
• Soluções no domínio do tempo e da freqüência são da forma.
 x
 x
u ( x, t ) = u +  t −  − u −  t + 
 c
 c
  x
 x 
p (x, t ) = ρc u +  t −  − u −  t + 
 c 
  c
6.345 Sistema de Reconhecimento de Voz
sx
1  − sx c
− P− e c 
u ( x, s ) =
P+ e

ρc 
p( x, s ) = P+ e
− sx
c
− P− e
sx
c
Teoria Acústica da Produção de Voz 10
MITPropagação do Som em Tubo Uniforme
•
A função de transferência do trato vocal das velocidades do volume
é:
U L ( jΩ ) U (− l , jΩ )
T ( jΩ ) =
=
(0, jΩ )
U G ( jΩ )
•
Usando as condições de contorno U (0,s)= UG(s) e P(-l, s)=0
T (S ) =
•
2
e
sl
c
+e
− sl
T ( jΩ ) =
c
(
1
cos Ω l
c
)
Os pólos da função de transferência T (jΩ) estão onde cos(Ωl/c)=0
(2πf n )l = (2n − 1) π
c
2
fn =
6.345 Sistema de Reconhecimento de Voz
c
(2n − 1)
4l
λn =
4l
(2n − 1)
n = 1, 2, ...
Teoria Acústica da Produção de Voz 11
MIT
Propagação do Some Em Um Tubo Uniforme
(continuação)
•
Para c =34.000cm/s, l =17 cm, as freqüências naturais (também
denominadas formantes) estão em 500Hz, 1.500Hz, 2.500Hz.
•
A função de transferência de um tubo sem ramos laterais, excitado de um
lado e tendo a resposta medida no outro lado, somente tem pólos.
As freqüências dos formantes terão uma largura de faixa finita quando as
perdas do trato vocal forem consideradas (ex., radiação, paredes,
viscosidade, calor).
O comprimento do trato vocal, l, corresponde a 1 λ , 3 λ , 5 λ , …, onde λi é o
4
4
4
comprimento de onda da ith freqüência natural.
•
•
6.345 Sistema de Reconhecimento de Voz
1
2
3
Teoria Acústica da Produção de Voz 12
MIT
•
Estabelecendo Padrões de Onda
Em Um Tubo Uniforme
Um tubo uniforme fechado de um lado e aberto no outro e
freqüentemente chamado de ressonador de um quarto de
comprimento de onda.
glote
6.345 Sistema de Reconhecimento de Voz
lábios
Teoria Acústica da Produção de Voz 13
MIT
Freqüências Naturais de Um Simples Tubo
Acústico
Ressonador de um quarto de
comprimento de onda
P( x, jΩ ) = 2 P+ cos
U ( x , jΩ ) = − j
Ωx
c
Ressonador de meio comprimento
de onda
Ωx
P( x, jΩ ) = − j 2 P+ sen
c
Ωx
A
2 P+ sen
ρc
c
U ( x , jΩ ) =
A Ωl
Y−l = j tg
ρc c
Y−l = − j
Al
≈ jΩ 2 = jΩC A
pc
≈−j
Al
CA = 2
ρc
fn =
c
(2n − 1)
4l
Ω l c << 1
Conformidade acústica
n = 1, 2, ...
6.345 Sistema de Reconhecimento de Voz
A
Ωl
cot g
ρc
c
A
1
=−j
Ωρl
ΩM A
MA =
fn =
A
Ωx
2 P+ cos
ρc
c
ρl
A
c
n
2l
Ω l c << 1
massa acústica
n = 1, 2, ...
Teoria Acústica da Produção de Voz 14
MITAproximando Formas Para o Trato Vocal
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 15
MIT
Estimando Freqüências Naturais de Ressonância
•
Freqüência de ressonância ocorre quando a função de impedância
(ou admitância) é igual às condições de contorno naturais (ex.:
circuito aberto).
•
Para uma aproximação com dois tubos é mais fácil resolver para
Y1+ Y2=0.
j
A1
Ωl
A
Ωl
tan 1 − j 2 cot 2 = 0
ρc
ρc
c
c
sen
Ωl1
Ωl
Ωl
Ωl
A
sen 2 − 2 cos 1 cos 2 = 0
c
c
A1
c
c
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 16
Desacoplando Aproximações Com Tubo Simples
MIT
•
•
Se nas freqüências A1 >> A2, ou A1<<A2, os tubos podem ser
desacoplados é natural que cada tubo possa ser calculado
independentemente.
Para a vogal /iy/, as freqüências formantes são obtidas a partir de:
aproximações simples
fn =
Nas baixas freqüências:
c
f =
2π
 A2 


 A1l1l 2 
1
2
c
n
2l1
1  1 
=


2π  C A1 M A2 
1
mais
fn =
c
n
2l 2
2
Esta freqüência de ressonância baixa é denominada de ressonância de Helmholtz.
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 17
MIT
Exemplo de Produção de Vogais
Formante
Real
Estimado
Formante
Real
Estimado
F1
789
972
F1
256
268
F2
1276
1093
F2
1905
1944
F3
2808
2917
F3
2917
2917
•
•
•
•
•
•
•
•
•
•
•
•
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 18
MIT Exemplo de Espectrograma de Vogal
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 19
MIT
Estimando Freqüências de Anti-Ressonância
(Zeros)
•
Zeros ocorrem em freqüências onde não existe uma saída mensurável.
•
•
Para consoantes nasais, zeros em UN ocorrem onde Y0 = ∞
Para fricativas, zeros em UL ocorrem onde a impedância atrás da fonte é
infinita (ou seja existe uma parede atrás da fonte).
•
Zeros ocorrem quando as medidas são feitas no trato vocal interno.
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 20
MIT
Produção de Consoantes
Pólos
Zeros
6.345 Sistema de Reconhecimento de Voz
Pólos
Zeros
Teoria Acústica da Produção de Voz 21
MITExemplo de Espectrograma de Consoante
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 22
MIT
Teoria da Perturbação
A
Yl ≅ − j
Ωρl
Para l pequeno
•
Considere um tubo uniforme, fechado de um lado e aberto no outro.
•
Reduzindo a área de uma pequena parte do tubo perto da abertura (onde U
é máx) tem o mesmo efeito de manter a área fixa e aumentar o
comprimento do tubo
Desde que aumentar o comprimento do tubo abaixa as freqüências
ressonantes, estreitando o tubo perto dos pontos onde U (x) é máximo em
um padrão de onda para um dado formante decresce o valor deste
formante.
•
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 23
MIT
Teoria da Perturbação (continuação)
Al
Yl ≅ jΩ 2
ρc
•
•
Para l pequeno
Reduzindo a área de uma pequena parte do tubo próxima á
extremidade fechada (onde p é máximo) tem o mesmo efeito que o
de manter a área fixa e encurtar o tubo.
Desde que encurtando o tubo irão aumentar os valores dos
formantes, estreitando o tubo nos pontos próximos onde p(x) é um
máximo na onda padrão de um dado formante irá aumentar o valor
daquele formante.
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 24
Resultados da Teoria da
MITSumário dosPerturbação
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 25
MIT Ilustração da Teoria da Perturbação
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 26
MIT Ilustração da Teoria da Perturbação
The ship was torn apart on the sharp (ref)
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 27
MIT
Ilustração da Teoria da Perturbação
(The ship was torn apart on the sh)arp reef
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 28
MITAproximação Multi-Tubo do Trato Vocal
•
Podemos representar o trato vocal como uma concatenação de N tubos
sem perdas com área constante {Ak} e de igual comprimento ∆x = l N
•
O tempo de propagação de onda através de cada tubo é:
6.345 Sistema de Reconhecimento de Voz
τ=
∆x l
=
c Nc
Teoria Acústica da Produção de Voz 29
MIT
Equações de Onda Para um Tubo Individual
•
As equações de onda para o kth tubo tem a forma
pk (x,t ) =
ρc 
x  −  x 
+
U
t
−
 +Uk t + 
k

Ak   c 
 c 
 x  − x 
Uk (x,t ) = U t −  −Uk t + 
 c
 c
+
k
• Onde χ é medido no lado esquerdo (0≤χ≤∆χ)
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 30
MIT
•
Expressões de Atualização nos
Contornos do Tubo
Podemos resolver expressões de atualização usando restrições de
continuidade nos contornos do tubo por ex., pk(Δx, t) = pk+1(0,t), e
Uk(Δx, t) = Uk+1(0,t)
U k++1 (t ) = (1 + rk )U k+ (t − τ ) + rkU k−+1 (t )
U k− (t + τ ) = −rkU k+ (t − τ ) + (1 − rk )U k−+1 (t )
A − Ak
note rk ≤ 1
rk = k +1
Ak +1 + Ak
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 31
MITModelo Digital do trato Vocal Multi-Tubo
•
•
•
Atualizações nos contornos do tubo ocorrem sincronicamente a cada 2τ
Se a excitação é limitada em faixa, entradas podem ser amostradas a cada T =2τ
Cada secção do tubo tem um atraso de z-1/2
•
A escolha de N depende da amostragem
T = 2τ = 2
•
l
Nc
⇒
N=
2l
cT
Perdas em série e em paralelo podem também ser introduzidas nas junções do tubo
– Larguras de faixa são proporcionais à razão entre energia perdida e energia
armazenada
– Energia armazenada é proporcional ao comprimento do tubo
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 32
MIT
Tarefa 1
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 33
MIT
Referências
•
Zue, 6.345 Course Notes
•
Stevens, Acoustic Phonetics, MIT Press, 1998.
•
Rabiner & Schafer, Digital Processing of Speech Signals, PrenticeHall, 1978.
6.345 Sistema de Reconhecimento de Voz
Teoria Acústica da Produção de Voz 34
Download