Análise e Síntese de Voz por Predição Linear da Onda de Voz

Propaganda
Erasto Villa Branco Neto – GRR 20051241
16/06/2008
ANÁLISE E SÍNTESE DE VOZ POR PREDIÇÃO LINEAR DA ONDA DE VOZ (Resumo)
B. S. ATAL E SUZANNE L. HANAUER
INTRODUÇÃO
Propõe-se aqui um método de
análise e síntese de voz, o qual
representa a forma de onda diretamente
por seus parâmetros variantes no tempo,
diretamente relacionados com geração
do sinal. Ao contrário dos tradicionais
métodos de análise pelo conteúdo
espectral de uma curta amostra de
tempo, essa abordagem evita problemas
da análise espectral, bastante comuns no
trato de ondas de fala. Dado que a voz
humana, particularmente as vozes
infantil e feminina, apresenta lacunas no
conteúdo espectral, a predição temporal
constitui ferramenta mais precisa,
evitando a perda de variações rápidas na
entonação.
A técnica aqui descrita é
aplicável a vários problemas na
codificação e decodificação da voz.
Visando transmissão, reconhecimento e
outros tratos com dados de voz, esse
método utiliza estruturas efetivamente
portadoras de informação, tratando o
sinal sem perda de verossimilhança.
Trata-se também do modelo de
análise temporal, tal como da obtenção
de seus parâmetros. Finalmente expõe-se
a eficiência computacional e ferramentas
acústicas aplicáveis ao sinal.
I-MODELO DE REPRESENTAÇÃO
PARAMÉTRICA
O processo de modelagem do
sinal deve usar toda informação
disponível sobre a estrutura do sinal. No
caso da voz, sabe-se que a estrutura
fonadora é excitada por um fluxo
turbulento de ar, modulado por pulsos
quase periódicos oriundos das pregas
vocais. Pode-se aproximar esta função
de transferência facilmente com um
filtro linear discreto variante no tempo.
Sabe-se que para sonoridades não nasais,
a função de transferência não possui
zeros, e estas podem ser representadas
por filtros recursivos. Sons nasalados
podem ser representados por zeros no
circulo unitário e sua sonoridade é
basicamente definida pelas posições dos
pólos. O fluxo pelas cordas vocais pode,
por sua vez, ser modelado por uma
função de transferência de dois pólos no
eixo real, um deles próximo à unidade.
A relação entre o fluxo e a amplitude de
som, é estimada por um zero próximo à
unidade.
A tonicidade das pregas vocais, o
fluxo e a radiação são representados,
portanto, por único filtro recursivo. Em
termos práticos, a tonicidade pode ser
implementada como trem de pulsos, os
ruídos externos ao sistema fonador como
ruído gaussiano, e os pólos do sistema
por uma retroalimentação de uma média
móvel. Dada a natureza real do sinal, os
pólos devem ser recíprocos aos zeros do
polinômio da função de transferência.
A correta representação de um
sinal por seu modelo deve-se à correta
calibração
de
seus
coeficientes,
dependentes das condições fonadoras
supramencionadas. O vetor a de
preditores, um valor de amplitude, uma
variável booleana de presença de voz e
uma freqüência de excitação formam o
conjunto de condições necessárias à
reprodução do som em um curto período
de tempo.
II-ANÁLISE DE VOZ
II.a - Cálculo de Preditores
O cálculo dos valores preditivos,
a, usados para estimar o valor da onda
no intervalo entre os estímulos, é feito
minimizando o erro quadrático médio
entre os valores previstos e os
analisados, ordenados a partir do último
valor antes do próximo estímulo. Os
cálculos envolvidos são minimizados por
solução matricial. Caso tal procedimento
discreto resulte na ocorrência, por erro,
de um pólo fora do círculo unitário, esse
dado deve ser corrigido, em prol da
estabilidade do sistema.
II.b - Análise do Passo
Utilizam-se, dois métodos de
determinação de largura de passo entre
os estímulos vocálicos.
O primeiro submete a amostra a
um filtro passa baixas de 1 kHz , e
correlacionando sincronamente trens de
pulso com o a onda filtrada elevada ao
cubo (por razões de escala). A decisão
da presença da voz é tomada baseada na
densidade de zeros e no valor máximo
da função de correlação.
O segundo método consiste em
localizar os estímulos como regiões de
alto erro médio quadrático, utilizando-se
o método de ajuste de preditores. Nele, a
decisão sobre a presença de voz é
tomada comparando o valor do erro
médio quadrático com um valor crítico,
avaliando a adesão da curva ao modelo
matemático.
III-SÍNTESE DE VOZ
Os parâmetros necessários à
síntese de voz são: o passo de excitação,
a presença de voz, a intensidade do sinal,
e o vetor a de preditores.
O passo, modulado para a
obtenção da amplitude de onda desejada,
constrói um trem de pulsos, caso haja a
presença de voz. Caso contrário, a
modulação ocorre sobre ruído branco.
As retroalimentações quantizadas pelos
n componentes de a sintetizam os
harmônicos da fala, e um filtro passabaixas dá continuidade à forma de onda.
Os parâmetros devem ser zerados
a cada estímulo, ou a cada 10ms na
ausência de voz. O sincronismo entre os
parâmetros e os estímulos é crucial para
a estabilidade do sistema e deve ser
garantido.
IV-SIMULAÇÃO COMPUTACIONAL
DO SISTEMA
A implementação do sistema
sobre um trecho de 2s de fala, filtrado
em 5 kHz, e amostrado a 10 kHz. Testes
informais qualificaram a qualidade da
onda sintetizada como muito próxima à
da onda original, para vários trechos de
fala com vários interlocutores. Nenhuma
diferença relevante foi encontrada entre
a adequação do modelo às vozes
masculinas e femininas.
V-APLICAÇÕES
V.a - Armazenamento e Transmissão
As vantagens do sistema às
modulações tradicionais, e.g. PCM, são
notáveis. A capacidade de geração de
palavras e a eficiência de memória até
trinta vezes superior tornam-no mais
apropriado para a maior parte das
implementações computacionais.
O conjunto preditivo, composto
do vetor a de até 12 parâmetros, da
variável booleana de presença de voz, do
passo de excitação e da magnitude do
sinal, é facilmente armazenado. Por
outro lado os parâmetros requerem
constante atenção quanto a seu reflexo
na estabilidade do sistema, pois
pequenas imprecisões em seus valores
ocasionam grandes diferenças na posição
dos pólos. Valores típicos de densidade
de informação são 7,2; 4,8 e 2,4 kbits/s.
V.b - Conteúdo Espectral e Estrutura
Fica claro, à luz da análise
freqüencial, que o passo carrega a
estrutura espectral e o filtro linear
compõe
seu
conteúdo.
Essa
possibilidade de separação permite o
trato diferenciado do timbre e da
freqüência fundamental, possibilitando o
desenvolvimento
de
incontáveis
aplicações.
V.c - Análise Construtiva
O
estudo
das
variações
freqüenciais no comportamento das
cordas vocais permite o levantamento de
um padrão que pode ser computado.
Essas variações dependem, além da
própria configuração fonadora, da fonte
informação.
Freqüentemente faz-se uso da
FFT para compor a determinação das
componentes espectrais envolvidas, nas
amostras com grande quantidade de
zeros. Sem a transformada rápida, o
processo torna-se computacionalmente
oneroso e impreciso.
V.d - Reconstrução de Voz
Eventuais tratamentos acústicos
são aplicáveis ao sinal, particularmente
os
tratamentos
diferenciados
do
conteúdo e da freqüência fundamental.
Após tais tratamentos é desejável a
reconstrução do sinal de áudio, que se dá
de forma semelhante à reconstrução de
um sinal inalterado.
VI-EFICIÊNCIA COMPUTACIONAL
Com
os
computadores
disponíveis na década de 70, operações
acústicas sobre o método de predição
temporal da fala mostraram-se até dez
vezes mais eficiente do que as operações
sobre a transformada de Fourier, para a
mesma faixa de inteligibilidade. Mesmo
para o cômputo do conteúdo espectral, a
análise preditiva mostrou-se três vezes
mais
eficiente,
comparada
à
transformada rápida.
VII-CONCLUSÕES
Apresentou-se o método de
tratamento de sinais de voz modelado
por preditores temporais. Tal modelo
fundamenta-se na característica, a priori
conhecida, de preditibilidade linear das
componentes dos sinais de voz. O
tratamento no domínio do tempo evita
diversas complicações típicas do
processamento
no
domínio
da
freqüência, como a variação dos
parâmetros no tempo, e.g., em
manifestações não estacionárias ou
quasi-periódicas.
O método assimila rápidas
mudanças no conteúdo espectral,
componentes de alta freqüência, e várias
características típicas dos sinais de voz
humana. Utiliza-se de apenas um filtro
recursivo bastante simples, não requer
transformação ao domínio da freqüência.
Testes informais demonstram que a
inteligibilidade do sinal processado é,
em significância, igual à do sinal
original.
A compressibilidade dos dados e
a rapidez de processamento somam-se
aos diferenciais apresentados pelo
método. O método é, portanto, bastante
apropriado para o tratamento de dados
de voz.
Download