Mecanismo de busca semântica de áudio Anderson Dorow [email protected] Orientador: Aurélio Faustino Hoppe Roteiro • • • • • • • • Introdução Objetivos Solução proposta Desenvolvimento Resultados Conclusão Extensões Demonstração Introdução • Mecanismos de busca convencionais – baseado em texto – representar áudio é difícil • diferentes pontos de vista • Proposta – mecanismo de busca semântica de áudio Objetivos • gravar trechos de áudio • gerar um modelo de representação do áudio (audio fingerprint) • implementar técnicas de similaridade para recuperar áudios em uma base de dados multimídia (áudio) Trabalhos correlatos características / trabalhos relacionados utiliza reprodução humana da música, baseada na memória do usuário, como entrada de pesquisas utiliza trecho de uma gravação musical como entrada de pesquisas resultados da busca aceitam variações na música (como velocidade) bons resultados de pesquisa na presença de ruídos Kline e Glinert (2003) Izumitami e Kashino (2008) Wang (2003) X - - - X X - X - - - X utilização de Audio fingerprints para a representação do áudio utilização de sequências (que possuem características do áudio) para representação do áudio solução de código livre (implementação de referência) - - X X X - - - - possibilidade de base colaborativa - - - Solução proposta Captura de áudio • Formato – 44100hz, 8 bits, mono (1 canal) • Microfone – Java Sound API • Arquivo (MP3) – Java Sound API – MP3SPI for Java Sound – Harmonic Transformação entre domínios • Utilizada a transformada de Fourier – FFT • Aplicado a cada 2048 bytes (~50ms) • Imagem explicativa... (exemplo de stream de audio – dominio do tempo – e amplitudes da frequencia do audio – dominio da frequencia) Geração de audio fingerprints • Seleção de picos de amplitude • Gravação do fingerprints na base Busca de audio fingerprints • Pesquisa no repositório através dos hashes • Criação de relações entre áudio e audio fingerprints que tiveram correspondências com a pesquisa realizada Técnica de similaridade 1 • Total de resultados – contagem de resultados da busca – grau de similaridade: 8 Técnica de similaridade 2 • Acertos únicos (base) – contagem de fingerprints da base que tiveram alguma relação com o trecho – grau de similaridade: 5 Técnica de similaridade 3 • Acertos únicos (trecho) – contagem de fingerprints do trecho que tiveram alguma relação com áudio da base – grau de similaridade: 4 Técnica de similaridade 4 • Maior subsequência crescente de tempo – maior sequência de tempo que se pode formar com as relações de fingerprints – grau de similaridade: 3 Técnica de similaridade 5 • Sequência de variações comuns de tempo – contagem da maior quantidade de similaridades pareadas em uma janela de tempo – grau de similaridade: 3 Experimentos • Foram realizados 3 experimentos • Cenário: – montagem de um repositório de áudios – reprodução de um trecho de áudio por um tempo determinado – submissão como entrada da busca Experimento 1 • Objetivo – analisar a eficiência das técnicas de similaridade implementadas • Ambiente – 10 áudios (3 são versões da mesma música) – trechos de busca com 5, 15 e 30 segundos • Como atender? – as 3 músicas devem ter maior pontuação que as outras Resultados - Experimento 1 • Eficiência em relação ao tamanho do trecho Resultados - Experimento 1 • Eficiência entre as técnicas de similaridade – Valor alto não representa maior eficiência Resultados - Experimento 1 • Relações espalhadas Grau de similaridade: 4 • Relações agrupadas Grau de similaridade: 3 Experimento 2 • Objetivo – analisar a corretude do resultado, a partir de uma busca com poucos ruídos • Ambiente – 85 áudios (cada um uma música diferente) – trechos de busca com 5, 15 e 30 segundos • Como atender? – 5 pesquisas – verificar a porcentagem de vezes que a música correta tem maior pontuação Resultados - Experimento 2 • Comparação percentual Experimento 3 • Objetivo – analisar a corretude do resultado, a partir de uma busca com muitos ruídos • Ambiente – 85 áudios (cada um uma música diferente) – trechos de busca com 5, 15 e 30 segundos • Como atender? – 5 pesquisas – verificar a porcentagem de vezes que a música correta tem maior pontuação Resultados - Experimento 3 • Comparação percentual Conclusão • audio fingerprints – baseado em hash (bom desempenho) • técnicas de similaridade – bons resultados (inclusive com ruídos) • limitações – variações do áudio Extensões • estudo e implementação de novas técnicas de similaridade • testar e implementar a identificação de outros tipos de áudio, além de músicas • disponibilizar para plataformas móveis Demonstração Perguntas? Obrigado. Mecanismo de busca semântica de áudio Anderson Dorow [email protected] Orientador: Aurélio Faustino Hoppe