MIT Teoria Acústica da Produção da Voz • • • • • • Resumo Fontes do som Função de transferência do trato vocal – Equações de onda – Propagação do som em um tubo acústico uniforme Representação do trato vocal com tubos acústicos simples. • Estimando freqüências naturais a partir de funções de área. • Representação do trato vocal com múltiplos tubos uniformes. 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 1 Estrutura Anatômica Para a Produção da Voz MIT Cavidade Nasal Palato Duro Palato Mole Língua Maxilar Cartilagem da Tireóide Cordas Vocais Traquéia Pulmão 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 2 MIT Fonemas no Inglês Americano 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 3 MITLocal de Articulação Para Sons Vocais 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 4 MITFormas de Onda Vocais: Um exemplo Two plus seven is less than ten. (Dois mais sete é menos que dez.) 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 5 MIT Um Espectrograma Faixa Larga Two plus seven is less than ten. (Dois mais sete é menos que dez.) 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 6 MIT Teoria Acústica da Produção da Voz • • As características acústicas da voz são geralmente modeladas como uma seqüência de fonte, filtro do trato vocal, e características de radiação. Pr (jΩ) = S(jΩ) T (jΩ) R(jΩ) Para produção de vogais: S(jΩ) = UG(jΩ) T (jΩ) = UL(jΩ) /UG(jΩ) R(jΩ) = Pr (jΩ) /UL(jΩ) 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 7 Fonte do Som: Vibração das Cordas Vocais MIT • Modelado como a velocidade do volume gerado pela fonte na glote (abertura entre cordas vocais), UG(jΩ) F0 média (Hz) F0 mín (Hz) F0 máx (Hz) Homens 125 80 200 Mulheres 225 150 350 Crianças 300 200 500 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 8 MIT Fonte do Som: Ruído de Turbulência • • Ruído de turbulência é produzido na contrição do trato vocal. – Ruído de Aspiração é produzido na glote, – Ruído de Fricção é produzido acima da glote. Modelado como séries de fontes de pressão na contrição, PS (jΩ). • V : Velocidade na contrição D: Dimensão critica = 4A π 6.345 Sistema de Reconhecimento de Voz ≈ A Teoria Acústica da Produção de Voz 9 MIT Equações de Onda do Trato Vocal Defina: u(x,t) ⇒ velocidade de partícula U(x, t) ⇒velocidade do volume (U = uA) p(x, t) ⇒ variação da pressão do som (P = P0 + p) ρ ⇒ densidade do ar c ⇒ velocidade do som • Supondo propagação de onda plana (para uma dimensão << λ), e movimento unidimensional, pode ser provado que: ∂ 2u 1 ∂ 2u ∂u 1 ∂p ∂u ∂p − = 2 = 2 2 2 =ρ − 2 x ρ c ∂ t ∂ ∂x c c ∂t ∂x ∂t • Soluções no domínio do tempo e da freqüência são da forma. x x u ( x, t ) = u + t − − u − t + c c x x p (x, t ) = ρc u + t − − u − t + c c 6.345 Sistema de Reconhecimento de Voz sx 1 − sx c − P− e c u ( x, s ) = P+ e ρc p( x, s ) = P+ e − sx c − P− e sx c Teoria Acústica da Produção de Voz 10 MITPropagação do Som em Tubo Uniforme • A função de transferência do trato vocal das velocidades do volume é: U L ( jΩ ) U (− l , jΩ ) T ( jΩ ) = = (0, jΩ ) U G ( jΩ ) • Usando as condições de contorno U (0,s)= UG(s) e P(-l, s)=0 T (S ) = • 2 e sl c +e − sl T ( jΩ ) = c ( 1 cos Ω l c ) Os pólos da função de transferência T (jΩ) estão onde cos(Ωl/c)=0 (2πf n )l = (2n − 1) π c 2 fn = 6.345 Sistema de Reconhecimento de Voz c (2n − 1) 4l λn = 4l (2n − 1) n = 1, 2, ... Teoria Acústica da Produção de Voz 11 MIT Propagação do Some Em Um Tubo Uniforme (continuação) • Para c =34.000cm/s, l =17 cm, as freqüências naturais (também denominadas formantes) estão em 500Hz, 1.500Hz, 2.500Hz. • A função de transferência de um tubo sem ramos laterais, excitado de um lado e tendo a resposta medida no outro lado, somente tem pólos. As freqüências dos formantes terão uma largura de faixa finita quando as perdas do trato vocal forem consideradas (ex., radiação, paredes, viscosidade, calor). O comprimento do trato vocal, l, corresponde a 1 λ , 3 λ , 5 λ , …, onde λi é o 4 4 4 comprimento de onda da ith freqüência natural. • • 6.345 Sistema de Reconhecimento de Voz 1 2 3 Teoria Acústica da Produção de Voz 12 MIT • Estabelecendo Padrões de Onda Em Um Tubo Uniforme Um tubo uniforme fechado de um lado e aberto no outro e freqüentemente chamado de ressonador de um quarto de comprimento de onda. glote 6.345 Sistema de Reconhecimento de Voz lábios Teoria Acústica da Produção de Voz 13 MIT Freqüências Naturais de Um Simples Tubo Acústico Ressonador de um quarto de comprimento de onda P( x, jΩ ) = 2 P+ cos U ( x , jΩ ) = − j Ωx c Ressonador de meio comprimento de onda Ωx P( x, jΩ ) = − j 2 P+ sen c Ωx A 2 P+ sen ρc c U ( x , jΩ ) = A Ωl Y−l = j tg ρc c Y−l = − j Al ≈ jΩ 2 = jΩC A pc ≈−j Al CA = 2 ρc fn = c (2n − 1) 4l Ω l c << 1 Conformidade acústica n = 1, 2, ... 6.345 Sistema de Reconhecimento de Voz A Ωl cot g ρc c A 1 =−j Ωρl ΩM A MA = fn = A Ωx 2 P+ cos ρc c ρl A c n 2l Ω l c << 1 massa acústica n = 1, 2, ... Teoria Acústica da Produção de Voz 14 MITAproximando Formas Para o Trato Vocal 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 15 MIT Estimando Freqüências Naturais de Ressonância • Freqüência de ressonância ocorre quando a função de impedância (ou admitância) é igual às condições de contorno naturais (ex.: circuito aberto). • Para uma aproximação com dois tubos é mais fácil resolver para Y1+ Y2=0. j A1 Ωl A Ωl tan 1 − j 2 cot 2 = 0 ρc ρc c c sen Ωl1 Ωl Ωl Ωl A sen 2 − 2 cos 1 cos 2 = 0 c c A1 c c 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 16 Desacoplando Aproximações Com Tubo Simples MIT • • Se nas freqüências A1 >> A2, ou A1<<A2, os tubos podem ser desacoplados é natural que cada tubo possa ser calculado independentemente. Para a vogal /iy/, as freqüências formantes são obtidas a partir de: aproximações simples fn = Nas baixas freqüências: c f = 2π A2 A1l1l 2 1 2 c n 2l1 1 1 = 2π C A1 M A2 1 mais fn = c n 2l 2 2 Esta freqüência de ressonância baixa é denominada de ressonância de Helmholtz. 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 17 MIT Exemplo de Produção de Vogais Formante Real Estimado Formante Real Estimado F1 789 972 F1 256 268 F2 1276 1093 F2 1905 1944 F3 2808 2917 F3 2917 2917 • • • • • • • • • • • • 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 18 MIT Exemplo de Espectrograma de Vogal 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 19 MIT Estimando Freqüências de Anti-Ressonância (Zeros) • Zeros ocorrem em freqüências onde não existe uma saída mensurável. • • Para consoantes nasais, zeros em UN ocorrem onde Y0 = ∞ Para fricativas, zeros em UL ocorrem onde a impedância atrás da fonte é infinita (ou seja existe uma parede atrás da fonte). • Zeros ocorrem quando as medidas são feitas no trato vocal interno. 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 20 MIT Produção de Consoantes Pólos Zeros 6.345 Sistema de Reconhecimento de Voz Pólos Zeros Teoria Acústica da Produção de Voz 21 MITExemplo de Espectrograma de Consoante 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 22 MIT Teoria da Perturbação A Yl ≅ − j Ωρl Para l pequeno • Considere um tubo uniforme, fechado de um lado e aberto no outro. • Reduzindo a área de uma pequena parte do tubo perto da abertura (onde U é máx) tem o mesmo efeito de manter a área fixa e aumentar o comprimento do tubo Desde que aumentar o comprimento do tubo abaixa as freqüências ressonantes, estreitando o tubo perto dos pontos onde U (x) é máximo em um padrão de onda para um dado formante decresce o valor deste formante. • 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 23 MIT Teoria da Perturbação (continuação) Al Yl ≅ jΩ 2 ρc • • Para l pequeno Reduzindo a área de uma pequena parte do tubo próxima á extremidade fechada (onde p é máximo) tem o mesmo efeito que o de manter a área fixa e encurtar o tubo. Desde que encurtando o tubo irão aumentar os valores dos formantes, estreitando o tubo nos pontos próximos onde p(x) é um máximo na onda padrão de um dado formante irá aumentar o valor daquele formante. 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 24 Resultados da Teoria da MITSumário dosPerturbação 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 25 MIT Ilustração da Teoria da Perturbação 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 26 MIT Ilustração da Teoria da Perturbação The ship was torn apart on the sharp (ref) 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 27 MIT Ilustração da Teoria da Perturbação (The ship was torn apart on the sh)arp reef 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 28 MITAproximação Multi-Tubo do Trato Vocal • Podemos representar o trato vocal como uma concatenação de N tubos sem perdas com área constante {Ak} e de igual comprimento ∆x = l N • O tempo de propagação de onda através de cada tubo é: 6.345 Sistema de Reconhecimento de Voz τ= ∆x l = c Nc Teoria Acústica da Produção de Voz 29 MIT Equações de Onda Para um Tubo Individual • As equações de onda para o kth tubo tem a forma pk (x,t ) = ρc x − x + U t − +Uk t + k Ak c c x − x Uk (x,t ) = U t − −Uk t + c c + k • Onde χ é medido no lado esquerdo (0≤χ≤∆χ) 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 30 MIT • Expressões de Atualização nos Contornos do Tubo Podemos resolver expressões de atualização usando restrições de continuidade nos contornos do tubo por ex., pk(Δx, t) = pk+1(0,t), e Uk(Δx, t) = Uk+1(0,t) U k++1 (t ) = (1 + rk )U k+ (t − τ ) + rkU k−+1 (t ) U k− (t + τ ) = −rkU k+ (t − τ ) + (1 − rk )U k−+1 (t ) A − Ak note rk ≤ 1 rk = k +1 Ak +1 + Ak 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 31 MITModelo Digital do trato Vocal Multi-Tubo • • • Atualizações nos contornos do tubo ocorrem sincronicamente a cada 2τ Se a excitação é limitada em faixa, entradas podem ser amostradas a cada T =2τ Cada secção do tubo tem um atraso de z-1/2 • A escolha de N depende da amostragem T = 2τ = 2 • l Nc ⇒ N= 2l cT Perdas em série e em paralelo podem também ser introduzidas nas junções do tubo – Larguras de faixa são proporcionais à razão entre energia perdida e energia armazenada – Energia armazenada é proporcional ao comprimento do tubo 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 32 MIT Tarefa 1 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 33 MIT Referências • Zue, 6.345 Course Notes • Stevens, Acoustic Phonetics, MIT Press, 1998. • Rabiner & Schafer, Digital Processing of Speech Signals, PrenticeHall, 1978. 6.345 Sistema de Reconhecimento de Voz Teoria Acústica da Produção de Voz 34