URL

Psicoacústica para Compressão de Arquivos de Áudio
Teodoro Orlow Wey , Renato da Rocha Lopes (Orientador)
Departamento de Comunicações
Faculdade de Engenharia Elétrica e de Computação
Universidade Estadual de Campinas (Unicamp)
[email protected]
Resumo – Este trabalho tem como objetivo mostrar como a psicoacústica auxilia na compressão de arquivos de
áudio, mostrando os conceitos por trás da codificação de áudio.
Palavras-chave: psicoacústica, áudio, compressão, codificação.
1. Introdução
Algoritmos de compressão de áudio são usados para se obter representações digitais compactas de sinais
de áudio para efeitos de transmissão eficiente ou de armazenamento. O objetivo central é codificar o áudio
e representá-lo com um número mínimo de bits, gerando um sinal de saída de áudio fiel ao original, que
quando reproduzido não possa ser distinguido da entrada original.
2. Psicoacústica
Para obter os resultados esperados numa compressão, utiliza-se codificação perceptiva. Essa forma de
codificação combina os estudos de percepção auditiva aos algoritmos e técnicas de processamento de sinais
para obter uma compressão do arquivo. Para isso é preciso entender conceitos relacionados a audição
humana, principalmente bandas críticas e mascaramento de tons.(V.K.Madisetti, 1999)
2.1. Bandas Críticas
Uma maneira de entender como o sistema auditivo funciona é supor que ele contém um banco de filtros
de banda. Estes filtros são produzidos ao longo da membrana basilar e têm a função de aumentar a resolução
de frequência da cóclea e, assim, aumentar a capacidade de discriminar diferentes sons. Este banco de
filtros não segue uma configuração linear e a largura de banda e morfologia de cada filtro depende da sua
frequência central. A largura de banda de cada filtro auditivo é chamado a banda crítica, como mostra a
Figura 1:
Figura 1. Bandas críticas ideais do sistema auditivo humano.
2.2. Limiar de Audição
Define a intensidade mínima para que uma frequência sonora possa ouvida. A Figura 2 ilustra o limiar
absoluto de audição do ser humano.
Figura 2. Curva do limiar de audição humana.
2.3. Mascaramento
O mascaramento em frequência ocorre quando um som que normalmente poderia ser ouvido é mascarado por outro, o qual encontra-se em uma frequência próxima. Ou seja, o limiar de audição é modificado
(aumentado) na região próxima a frequência do som que causa o mascaramento, sendo que isto se deve a
limitação da percepção de frequências do ouvido humano. O mascaramento em frequência depende da
frequência em que o sinal se encontra, podendo variar de 100Hz a 4 KHz.
Figura 3. Banda crítica mascarada.
No mascaramento simultâneo, onde as duas frequências (Som tonal e Ruído) ocorrem em um mesmo
instante, é possível analisar qual a faixa de frequência será mascarada por outra. A Figura 3 exemplifica
tal fenômeno, no qual a região hachurada é a faixa de frequência mascarada por um determinado som
tonal.(Painter & Spanias, 2008)
Portanto o sinal é inaudível se o nível de pressão sonora estiver abaixo do limiar determinado pelo som
mascarador, como mostra a Figura 4:
Figura 4. Efeito do mascaramento no limiar de audição.
2.4. Compressão de Áudio
A compressão de áudio consiste em eliminar informações redundantes, gerando arquivos menores. A
partir de um modelo psicoacústico, como o usado, por exemplo, pelo algoritmo de compressão MP3, podese rejeitar componentes sonoras que exercem pouca influência sobre a percepção humana, diminuindo consideravelmente o espaço de armazenamento, sendo possível transmitir e manipular o arquivo comprimido
de maneira mais econômica e viável para a demanda tecnológica atual.
Referências
Painter, T., & Spanias, A. (2008). Perceptual coding of digital audio. In Proceeedings ieee (pp. 472–474).
V.K.Madisetti. (1999). Digital signal processing handbook. CRC Press.