Audio fingerprints

Propaganda
Mecanismo de busca
semântica de áudio
Anderson Dorow
[email protected]
Orientador: Aurélio Faustino Hoppe
Roteiro
•
•
•
•
•
•
•
•
Introdução
Objetivos
Solução proposta
Desenvolvimento
Resultados
Conclusão
Extensões
Demonstração
Introdução
• Mecanismos de busca convencionais
– baseado em texto
– representar áudio é difícil
• diferentes pontos de vista
• Proposta
– mecanismo de busca semântica de áudio
Objetivos
• gravar trechos de áudio
• gerar um modelo de representação do
áudio (audio fingerprint)
• implementar técnicas de similaridade para
recuperar áudios em uma base de dados
multimídia (áudio)
Trabalhos correlatos
características / trabalhos relacionados
utiliza reprodução humana da música, baseada na
memória do usuário, como entrada de pesquisas
utiliza trecho de uma gravação musical como
entrada de pesquisas
resultados da busca aceitam variações na música
(como velocidade)
bons resultados de pesquisa na presença de ruídos
Kline e
Glinert (2003)
Izumitami e
Kashino (2008)
Wang (2003)
X
-
-
-
X
X
-
X
-
-
-
X
utilização de Audio fingerprints para a
representação do áudio
utilização de sequências (que possuem
características do áudio) para representação do
áudio
solução de código livre (implementação de
referência)
-
-
X
X
X
-
-
-
-
possibilidade de base colaborativa
-
-
-
Solução proposta
Captura de áudio
• Formato
– 44100hz, 8 bits, mono (1 canal)
• Microfone
– Java Sound API
• Arquivo (MP3)
– Java Sound API
– MP3SPI for Java Sound
– Harmonic
Transformação entre domínios
• Utilizada a transformada de Fourier
– FFT
• Aplicado a cada 2048 bytes (~50ms)
• Imagem explicativa... (exemplo de stream
de audio – dominio do tempo – e
amplitudes da frequencia do audio –
dominio da frequencia)
Geração de audio fingerprints
• Seleção de picos de amplitude
• Gravação do fingerprints na base
Busca de audio fingerprints
• Pesquisa no repositório através dos
hashes
• Criação de relações entre áudio e audio
fingerprints que tiveram correspondências
com a pesquisa realizada
Técnica de similaridade 1
• Total de resultados
– contagem de resultados da busca
– grau de similaridade: 8
Técnica de similaridade 2
• Acertos únicos (base)
– contagem de fingerprints da base que tiveram
alguma relação com o trecho
– grau de similaridade: 5
Técnica de similaridade 3
• Acertos únicos (trecho)
– contagem de fingerprints do trecho que tiveram
alguma relação com áudio da base
– grau de similaridade: 4
Técnica de similaridade 4
• Maior subsequência crescente de tempo
– maior sequência de tempo que se pode
formar com as relações de fingerprints
– grau de similaridade: 3
Técnica de similaridade 5
• Sequência de variações comuns de tempo
– contagem da maior quantidade de similaridades
pareadas em uma janela de tempo
– grau de similaridade: 3
Experimentos
• Foram realizados 3 experimentos
• Cenário:
– montagem de um repositório de áudios
– reprodução de um trecho de áudio por um
tempo determinado
– submissão como entrada da busca
Experimento 1
• Objetivo
– analisar a eficiência das técnicas de
similaridade implementadas
• Ambiente
– 10 áudios (3 são versões da mesma música)
– trechos de busca com 5, 15 e 30 segundos
• Como atender?
– as 3 músicas devem ter maior pontuação
que as outras
Resultados - Experimento 1
• Eficiência em relação ao tamanho do trecho
Resultados - Experimento 1
• Eficiência entre as técnicas de similaridade
– Valor alto não representa maior eficiência
Resultados - Experimento 1
• Relações espalhadas
Grau de
similaridade: 4
• Relações agrupadas
Grau de
similaridade: 3
Experimento 2
• Objetivo
– analisar a corretude do resultado, a partir de
uma busca com poucos ruídos
• Ambiente
– 85 áudios (cada um uma música diferente)
– trechos de busca com 5, 15 e 30 segundos
• Como atender?
– 5 pesquisas
– verificar a porcentagem de vezes que a
música correta tem maior pontuação
Resultados - Experimento 2
• Comparação percentual
Experimento 3
• Objetivo
– analisar a corretude do resultado, a partir de
uma busca com muitos ruídos
• Ambiente
– 85 áudios (cada um uma música diferente)
– trechos de busca com 5, 15 e 30 segundos
• Como atender?
– 5 pesquisas
– verificar a porcentagem de vezes que a
música correta tem maior pontuação
Resultados - Experimento 3
• Comparação percentual
Conclusão
• audio fingerprints
– baseado em hash (bom desempenho)
• técnicas de similaridade
– bons resultados (inclusive com ruídos)
• limitações
– variações do áudio
Extensões
• estudo e implementação de novas
técnicas de similaridade
• testar e implementar a identificação de
outros tipos de áudio, além de músicas
• disponibilizar para plataformas móveis
Demonstração
Perguntas?
Obrigado.
Mecanismo de busca
semântica de áudio
Anderson Dorow
[email protected]
Orientador: Aurélio Faustino Hoppe
Download