Psicoacústica para Compressão de Arquivos de Áudio Teodoro Orlow Wey , Renato da Rocha Lopes (Orientador) Departamento de Comunicações Faculdade de Engenharia Elétrica e de Computação Universidade Estadual de Campinas (Unicamp) [email protected] Resumo – Este trabalho tem como objetivo mostrar como a psicoacústica auxilia na compressão de arquivos de áudio, mostrando os conceitos por trás da codificação de áudio. Palavras-chave: psicoacústica, áudio, compressão, codificação. 1. Introdução Algoritmos de compressão de áudio são usados para se obter representações digitais compactas de sinais de áudio para efeitos de transmissão eficiente ou de armazenamento. O objetivo central é codificar o áudio e representá-lo com um número mínimo de bits, gerando um sinal de saída de áudio fiel ao original, que quando reproduzido não possa ser distinguido da entrada original. 2. Psicoacústica Para obter os resultados esperados numa compressão, utiliza-se codificação perceptiva. Essa forma de codificação combina os estudos de percepção auditiva aos algoritmos e técnicas de processamento de sinais para obter uma compressão do arquivo. Para isso é preciso entender conceitos relacionados a audição humana, principalmente bandas críticas e mascaramento de tons.(V.K.Madisetti, 1999) 2.1. Bandas Críticas Uma maneira de entender como o sistema auditivo funciona é supor que ele contém um banco de filtros de banda. Estes filtros são produzidos ao longo da membrana basilar e têm a função de aumentar a resolução de frequência da cóclea e, assim, aumentar a capacidade de discriminar diferentes sons. Este banco de filtros não segue uma configuração linear e a largura de banda e morfologia de cada filtro depende da sua frequência central. A largura de banda de cada filtro auditivo é chamado a banda crítica, como mostra a Figura 1: Figura 1. Bandas críticas ideais do sistema auditivo humano. 2.2. Limiar de Audição Define a intensidade mínima para que uma frequência sonora possa ouvida. A Figura 2 ilustra o limiar absoluto de audição do ser humano. Figura 2. Curva do limiar de audição humana. 2.3. Mascaramento O mascaramento em frequência ocorre quando um som que normalmente poderia ser ouvido é mascarado por outro, o qual encontra-se em uma frequência próxima. Ou seja, o limiar de audição é modificado (aumentado) na região próxima a frequência do som que causa o mascaramento, sendo que isto se deve a limitação da percepção de frequências do ouvido humano. O mascaramento em frequência depende da frequência em que o sinal se encontra, podendo variar de 100Hz a 4 KHz. Figura 3. Banda crítica mascarada. No mascaramento simultâneo, onde as duas frequências (Som tonal e Ruído) ocorrem em um mesmo instante, é possível analisar qual a faixa de frequência será mascarada por outra. A Figura 3 exemplifica tal fenômeno, no qual a região hachurada é a faixa de frequência mascarada por um determinado som tonal.(Painter & Spanias, 2008) Portanto o sinal é inaudível se o nível de pressão sonora estiver abaixo do limiar determinado pelo som mascarador, como mostra a Figura 4: Figura 4. Efeito do mascaramento no limiar de audição. 2.4. Compressão de Áudio A compressão de áudio consiste em eliminar informações redundantes, gerando arquivos menores. A partir de um modelo psicoacústico, como o usado, por exemplo, pelo algoritmo de compressão MP3, podese rejeitar componentes sonoras que exercem pouca influência sobre a percepção humana, diminuindo consideravelmente o espaço de armazenamento, sendo possível transmitir e manipular o arquivo comprimido de maneira mais econômica e viável para a demanda tecnológica atual. Referências Painter, T., & Spanias, A. (2008). Perceptual coding of digital audio. In Proceeedings ieee (pp. 472–474). V.K.Madisetti. (1999). Digital signal processing handbook. CRC Press.