Erasto Villa Branco Neto – GRR 20051241 16/06/2008 ANÁLISE E SÍNTESE DE VOZ POR PREDIÇÃO LINEAR DA ONDA DE VOZ (Resumo) B. S. ATAL E SUZANNE L. HANAUER INTRODUÇÃO Propõe-se aqui um método de análise e síntese de voz, o qual representa a forma de onda diretamente por seus parâmetros variantes no tempo, diretamente relacionados com geração do sinal. Ao contrário dos tradicionais métodos de análise pelo conteúdo espectral de uma curta amostra de tempo, essa abordagem evita problemas da análise espectral, bastante comuns no trato de ondas de fala. Dado que a voz humana, particularmente as vozes infantil e feminina, apresenta lacunas no conteúdo espectral, a predição temporal constitui ferramenta mais precisa, evitando a perda de variações rápidas na entonação. A técnica aqui descrita é aplicável a vários problemas na codificação e decodificação da voz. Visando transmissão, reconhecimento e outros tratos com dados de voz, esse método utiliza estruturas efetivamente portadoras de informação, tratando o sinal sem perda de verossimilhança. Trata-se também do modelo de análise temporal, tal como da obtenção de seus parâmetros. Finalmente expõe-se a eficiência computacional e ferramentas acústicas aplicáveis ao sinal. I-MODELO DE REPRESENTAÇÃO PARAMÉTRICA O processo de modelagem do sinal deve usar toda informação disponível sobre a estrutura do sinal. No caso da voz, sabe-se que a estrutura fonadora é excitada por um fluxo turbulento de ar, modulado por pulsos quase periódicos oriundos das pregas vocais. Pode-se aproximar esta função de transferência facilmente com um filtro linear discreto variante no tempo. Sabe-se que para sonoridades não nasais, a função de transferência não possui zeros, e estas podem ser representadas por filtros recursivos. Sons nasalados podem ser representados por zeros no circulo unitário e sua sonoridade é basicamente definida pelas posições dos pólos. O fluxo pelas cordas vocais pode, por sua vez, ser modelado por uma função de transferência de dois pólos no eixo real, um deles próximo à unidade. A relação entre o fluxo e a amplitude de som, é estimada por um zero próximo à unidade. A tonicidade das pregas vocais, o fluxo e a radiação são representados, portanto, por único filtro recursivo. Em termos práticos, a tonicidade pode ser implementada como trem de pulsos, os ruídos externos ao sistema fonador como ruído gaussiano, e os pólos do sistema por uma retroalimentação de uma média móvel. Dada a natureza real do sinal, os pólos devem ser recíprocos aos zeros do polinômio da função de transferência. A correta representação de um sinal por seu modelo deve-se à correta calibração de seus coeficientes, dependentes das condições fonadoras supramencionadas. O vetor a de preditores, um valor de amplitude, uma variável booleana de presença de voz e uma freqüência de excitação formam o conjunto de condições necessárias à reprodução do som em um curto período de tempo. II-ANÁLISE DE VOZ II.a - Cálculo de Preditores O cálculo dos valores preditivos, a, usados para estimar o valor da onda no intervalo entre os estímulos, é feito minimizando o erro quadrático médio entre os valores previstos e os analisados, ordenados a partir do último valor antes do próximo estímulo. Os cálculos envolvidos são minimizados por solução matricial. Caso tal procedimento discreto resulte na ocorrência, por erro, de um pólo fora do círculo unitário, esse dado deve ser corrigido, em prol da estabilidade do sistema. II.b - Análise do Passo Utilizam-se, dois métodos de determinação de largura de passo entre os estímulos vocálicos. O primeiro submete a amostra a um filtro passa baixas de 1 kHz , e correlacionando sincronamente trens de pulso com o a onda filtrada elevada ao cubo (por razões de escala). A decisão da presença da voz é tomada baseada na densidade de zeros e no valor máximo da função de correlação. O segundo método consiste em localizar os estímulos como regiões de alto erro médio quadrático, utilizando-se o método de ajuste de preditores. Nele, a decisão sobre a presença de voz é tomada comparando o valor do erro médio quadrático com um valor crítico, avaliando a adesão da curva ao modelo matemático. III-SÍNTESE DE VOZ Os parâmetros necessários à síntese de voz são: o passo de excitação, a presença de voz, a intensidade do sinal, e o vetor a de preditores. O passo, modulado para a obtenção da amplitude de onda desejada, constrói um trem de pulsos, caso haja a presença de voz. Caso contrário, a modulação ocorre sobre ruído branco. As retroalimentações quantizadas pelos n componentes de a sintetizam os harmônicos da fala, e um filtro passabaixas dá continuidade à forma de onda. Os parâmetros devem ser zerados a cada estímulo, ou a cada 10ms na ausência de voz. O sincronismo entre os parâmetros e os estímulos é crucial para a estabilidade do sistema e deve ser garantido. IV-SIMULAÇÃO COMPUTACIONAL DO SISTEMA A implementação do sistema sobre um trecho de 2s de fala, filtrado em 5 kHz, e amostrado a 10 kHz. Testes informais qualificaram a qualidade da onda sintetizada como muito próxima à da onda original, para vários trechos de fala com vários interlocutores. Nenhuma diferença relevante foi encontrada entre a adequação do modelo às vozes masculinas e femininas. V-APLICAÇÕES V.a - Armazenamento e Transmissão As vantagens do sistema às modulações tradicionais, e.g. PCM, são notáveis. A capacidade de geração de palavras e a eficiência de memória até trinta vezes superior tornam-no mais apropriado para a maior parte das implementações computacionais. O conjunto preditivo, composto do vetor a de até 12 parâmetros, da variável booleana de presença de voz, do passo de excitação e da magnitude do sinal, é facilmente armazenado. Por outro lado os parâmetros requerem constante atenção quanto a seu reflexo na estabilidade do sistema, pois pequenas imprecisões em seus valores ocasionam grandes diferenças na posição dos pólos. Valores típicos de densidade de informação são 7,2; 4,8 e 2,4 kbits/s. V.b - Conteúdo Espectral e Estrutura Fica claro, à luz da análise freqüencial, que o passo carrega a estrutura espectral e o filtro linear compõe seu conteúdo. Essa possibilidade de separação permite o trato diferenciado do timbre e da freqüência fundamental, possibilitando o desenvolvimento de incontáveis aplicações. V.c - Análise Construtiva O estudo das variações freqüenciais no comportamento das cordas vocais permite o levantamento de um padrão que pode ser computado. Essas variações dependem, além da própria configuração fonadora, da fonte informação. Freqüentemente faz-se uso da FFT para compor a determinação das componentes espectrais envolvidas, nas amostras com grande quantidade de zeros. Sem a transformada rápida, o processo torna-se computacionalmente oneroso e impreciso. V.d - Reconstrução de Voz Eventuais tratamentos acústicos são aplicáveis ao sinal, particularmente os tratamentos diferenciados do conteúdo e da freqüência fundamental. Após tais tratamentos é desejável a reconstrução do sinal de áudio, que se dá de forma semelhante à reconstrução de um sinal inalterado. VI-EFICIÊNCIA COMPUTACIONAL Com os computadores disponíveis na década de 70, operações acústicas sobre o método de predição temporal da fala mostraram-se até dez vezes mais eficiente do que as operações sobre a transformada de Fourier, para a mesma faixa de inteligibilidade. Mesmo para o cômputo do conteúdo espectral, a análise preditiva mostrou-se três vezes mais eficiente, comparada à transformada rápida. VII-CONCLUSÕES Apresentou-se o método de tratamento de sinais de voz modelado por preditores temporais. Tal modelo fundamenta-se na característica, a priori conhecida, de preditibilidade linear das componentes dos sinais de voz. O tratamento no domínio do tempo evita diversas complicações típicas do processamento no domínio da freqüência, como a variação dos parâmetros no tempo, e.g., em manifestações não estacionárias ou quasi-periódicas. O método assimila rápidas mudanças no conteúdo espectral, componentes de alta freqüência, e várias características típicas dos sinais de voz humana. Utiliza-se de apenas um filtro recursivo bastante simples, não requer transformação ao domínio da freqüência. Testes informais demonstram que a inteligibilidade do sinal processado é, em significância, igual à do sinal original. A compressibilidade dos dados e a rapidez de processamento somam-se aos diferenciais apresentados pelo método. O método é, portanto, bastante apropriado para o tratamento de dados de voz.