Sistemas de Conversão Texto-Fala: estado da arte, aplicações, arquitectura e desafios Daniela Braga e Miguel Sales Dias [email protected], [email protected] Escola de Verão, Faculdade de Letras da Universidade do Porto 2 de Julho de 2009 Sumário • Parte I – Parte teórica – – – – – – – Processamento da Fala – o que é? Aplicações do processamento da fala Sistemas de síntese de fala – um pouco de história Estado da arte actual dos sistemas de síntese de fala Alguns key-players importantes Arquitectura de um sistema de síntese de fala Principais desafios na construção do sistema: selecção da voz, controlo de qualidade, desenvolvimento e implementação de regras linguísticas, teste do sistema – Metodologias e processos de teste – Principais desafios e problemas actuais • Parte II – Parte prática 2 Processamento da Fala: o que é? Processamento da Fala Síntese da Fala Texto Reconhecimento de Voz Texto Processamento da Fala: uma área interdisciplinar Linguística Matemática Informática Ciências da Fala Terapia da Fala Engenharia Medicina 4 Sistemas de síntese e reconhecimento de voz: aplicações ORIENTAÇÃO E NAVEGAÇÃO • • Sistemas de voz aplicados a navegação por GPS instalado em viaturas, para que as orientações visuais sejam acompanhadas por informações auditivas. Vantagens: maior segurança na navegação em automóvel. ENSINO • e-learning com interfaces de voz; tele-escola complementada com sistemas visuais em que uma face é animada em sincronismo com a voz , permitindo escolher a voz e a face do orador; ensino de línguas estrangeiras. • Vantagens: ensino mais agradável, mais eficaz; aumento da motivação; possibilidade de repetição. Sistemas de síntese e reconhecimento de voz: aplicações SISTEMAS DE COMANDO E CONSULTA • • Controlo de sistemas por voz, aplicados por exemplo a casas inteligentes (domótica), cadeiras de rodas que obedecem a comandos como recuar/avançar, anterior/seguinte, etc. por voz. Vantagens: comodidade, rapidez na execução de tarefas. Sistemas de síntese e reconhecimento de voz: aplicações TELECOMUNICAÇÕES • • Sistemas de execução da chamada por indicação do nome ou do número do destinatário*; leitura de SMS por voz (útil a cegos) com a possibilidade de utilizar a voz do remetente; reconhecimento da voz**. Vantagens: *rapidez nos comandos e na comunicação; **redução da informação a transmitir libertando largura de banda. Vodafone Say Net Sistemas de síntese e reconhecimento de voz: aplicações QUIOSQUES DIGITAIS E MULTIMÉDIA • • e-commerce com diversas aplicações: venda de bilhetes para espectáculos, viagens, alimentos, livros; quiosques digitais com informações turísticas ou de localização, listas telefónicas, etc. • • • • • e-banking e-books leitura de páginas web leitura de e-mail E-cards • Vantagens: facilitar o acesso à informação a pessoas com necessidade especiais (invisuais ou pessoas com deficiências de visão); agilizar a consulta de produtos e de informações. Projectos terminados no MLDC: Exchange 14 • http://blogs.msdn.com/tagarela/archive/2007/02/28/bemvindos.aspx Exchange 14 • Microsoft: TTS em 26 línguas Herena Helle Heloísa Hélia 10 SR no Windows 7 • Reconhecimento de Voz: Comando e Controlo e Ditado 11 Projectos terminados no MLDC • Voice command: http://soapbox.msn.com/video.aspx?vi d=945afe25-90de-4b7d-ac07116e286a3c06&wa=wsignin1.0 • Media Center controlled by speech: http://soapbox.msn.com/video.aspx?vid=945afe25-90de-4b7d-ac07116e286a3c06&wa=wsignin1.0 Cronologia • Até ao final dos anos 80 - técnicas de primeira geração – síntese por formantes – síntese articulatória • Desde finais dos anos 90 - técnicas de segunda geração – síntese por concatenação – Síntese por HMMs 13 Técnicas de primeira geração • • • • • • • • • • • • 1.VODER, by Homer Dudley, 1939 (synthesizing speech by electrical means) 2.Pattern playback by F. Cooper (1951) 3.Pat (Parametric artificial talker), by Walter Lawrence (1953) 4.OVE I (Orator Verbis Electris) formant synthesizer, by Gunnar Fant (1953) 5.Pat formant synthesizer (1962) by Walter Lawrence 6.OVE II by Gunnar Fant (1962) 7.Comparison between synthesized and natural voices, by Jonh Holmes (1961, 1973) 8.Voice morphing D. Klatt (1987) 9.DAVO (Dynamic Analog of the VOcal tract) articulatory syntheziser, by George Rosen (1958) 10.Linear Prediction Analysis and Re-synthesis, by Texas Instruments (1980) 11.first full TTS: Umeda et al (1968) 12.MIT MITalk (Allen, Hunnicut, Klatt), 1979 14 TTS modernos de segunda geração • Commercial TTS (normally concatenative): – Loquendo http://www.loquendo.com/en/index.htm – Nuance (formerly Scansoft) http://www.nuance.com/realspeak/languages/ – IBM http://www.research.ibm.com/tts/ – Acapela http://www.elan.fr/ – AT&T Labs http://www.research.att.com/viewProject.cfm?prjID=315 – Cepstral http://www.cepstral.com/ 15 Alguns key-players importantes • Na Europa: – Institute of Phonetic Sciences, University of Amsterdam, Holanda, onde o Praat foi desenvolvido; – KTH – The Royal Institute of Technology, Suécia, activo na área da Fonologia, onde Gunnar Fant, um dos nomes históricos da Síntese da Fala e da Fonologia, é Professor Emérito; activo ainda na área da Síntese Multi-modal; – Department of Phonetics and Linguistics, University Colledge of London, Reino Unido, autores do SFS; – Laboratoire de Parole et Langage, Université de Provence, laboratório activo na área da Prosódia, dirigido por Daniel Hirts, autor do INTSINT; – University of Edimburgh, Reino Unido, onde Alan Black e Paul Taylor desenvolveram o Festival; 16 Alguns key-players importantes • Nos Estados Unidos da América: – Language Technologies Institute, Conergie Mellon University, onde se desenvolve o projecto Festvox, responsável por iniciativas de avaliação de sistemas de síntese da fala, os Blizzard Challenges, entre outras; – University of Colorado, at Boulder (Daniel Jurafsky é um dos grandes nomes) – MIT - Massachusetts Institute of Technology, Estados Unidos, onde se desenvolveu o DAVO, um dos primeiros sintetizadores articulatórios (1958) e o MITTalk, em 1979, um dos primeiros sintetizadores baseados em dicionários (Allen et al., 1987) e o Klattalk, em 1983; 17 Alguns key-players importantes • Na Ásia: – Nagoya Institute of Technology, onde Keiichi Tokuda e o seu grupo desenvolveram o HTS, considerado o novo paradigma nas técnicas de síntese; – ATR – Advanced Telecommunications Research Institute International, Japão, um dos maiores centros de desenvolvimento estatais do Japão; – Microsoft Research Asia – Speech Technology Group, em Pequim, China, onde tecnologias de ponta estão a ser desenvolvidas. 18 Arquitectura geral dos sistemas de síntese de fala 1 • Analisador morfossintáctico • Desambiguador de homógrafos 2 • Leitor de estrangeirismos • Conversor grafema-fone 3 • Marcador de tonicidade • Divisor silábico Base de dados de voz Texto Análise do texto Análise fonética Geração prosódica Motor de síntese Voz sintética Separador de frases Separador de palavras Normalizador de texto Dependente da língua Front-end Geração de entoação, durações,intensidade Determinação do foco Geração de emoções Back-end Agnóstico da 19 língua Estado da arte • 3 abordagens principais para o front-end – Baseada em regras: mais robustos, requerem menos memória, requerem conhecimento linguístico muito especializado – Baseada em modelos estatísticos: podem ser muito robustos, requerem muita memória, quando falham pode ser desastroso – Modelos híbridos: preferíveis • 2 paradigmas actuais para o back-end: – Síntese por HTS – Síntese por Selecção de Unidades • Futuro: – Melhoramentos do HTS – RUS – técnica que combina síntese por concatenação e HMMs 20 Arquitectura TTS no MLDC Lexicon TTS runtime engine Recording Wave process Prosody modelling Acoustic models LTS rules Voice Font TESTS Alignment Font compiling Data Studio (Script & recording review, prosody annotation) Voice talent selection Polyphony resolution Phoneme table Script Generation TN rules Text Analysis Raw text corpus 21 Principais desafios na construção de um TTS • Selecção do locutor • Controlo de qualidade da gravação e das waves • Parte linguística do front-end: – – – – Obtenção de recursos linguísticos (clean text) Normalização de texto Desambiguação de homógrafos Expansão do léxico 22 Selecção do locutor • Sabemos que grande parte do sucesso de um TTS está dependente da escolha do locutor • Problemas: – Que requisitos deve ter um locutor? – Que parâmetros devemos avaliar? – Esses requisitos estão relacionados com a tecnologia? Estão dependentes do cenário de aplicação? 23 Parte linguística: Normalização de texto Baseado em dicionário Baseado em regras Conversor de símbolos e caracteres especiais Expansor de abreviaturas Leitor de siglas e acrónimos Conversor de numerais (cardinais, ordinais, datas, tempo,etc.) Baseado em dicionário Baseado em regras 24 Parte linguística: Desambiguação de homógrafos Analisador morfossintáctico Homographdo type Identificador tipo identification de homógrafo Biblioteca de homógrafos Texto Biblioteca de classes fechadas Biblioteca de morfemas Biblioteca de lemas ≠ classe gramatical = classe gramatical Biblioteca de verbos irregulares Tipos 1-16 Tipos 17-24 Biblioteca de combinatórias lexicais restritas Biblioteca de wordnets Biblioteca de exp. impessoais Análise morfossintáctica Análise semântica Parte linguística:Desambiguação de homógrafos Tipo 1 2 3 4 Alternância vocálica e classe gramatical diferente [e] nome / [E] verbo [o] nome / [O] verbo Homógrafo Tipo aceno, acerto, apelo, aperto, apreço, arrepelo, começo, concerto, conserto, desemprego, desespero, emprego, enredo, erro, esmero, espeto, flagelo, gelo, governo, interesse, interesses, modelo, pego, peso, pena, penas rego, remo, selo, testo, zelo abono, aborto, acordo, adorno, aforro, almoço, arrojo, arroto, choco, choro, conforto, consolo, contorno, controlo, coro, desgosto, despojo, destroço, encosto, endosso, esforço, estorvo, folgo, gosto, jogo, logro, namoro, olho, piloto, reforço, rodo, rogo, rolo, sopro, suborno, sufoco, toco, toldo, topo, torno, troco, troço desses, deste, destes 6 [o] nome/ [O] verbo [e] verbo / [E] nome [e] contractção/ [E] verbo [o] verbo/ [O] adv 7 [e] Adj., nome/ [E] verbo seco, seca, secas 8 [o] Adj., nome/ [O] verbo boto 9 [e] Dem. / [E] Adj., nome este 5 10 11 12 13 14 15 16 [e] verbo / [E] Adj., nome [o] Prep./ [O] verbo [@] verbo/ [E] nome [o] Adj./ [O] nome [o] nome/ [O] nome/ [O] verbo [e] Prep./ [e] nome/ [E]verbo [e] nome/ [E] verbo/ nome[E] rola, rolha, soma colher, meta Alternância vocálica e mesma classe gramatical Homógrafo 17 [e] nome / [E] nome besta, bestas 18 [e] nome / [E] nome sede, sedes 19 [e] nome / [E] nome medo, medos 20 [e] nome / [E] nome, verbo termos 21 [o] nome/ [O] nome cor 22 [o] nome/ [O] nome lobo, lobos 23 [o] nome/ [O] nome bola, bolas 24 [@] verbo/ [E] verbo pregar fora leste sobre pegada rota, rotas, tola, tolas corte, cortes, forma, formas, molho, soco cerca pega, pegas 26 Expansão do léxico: Divisor silábico Input: palavra ortográfica Definição de vogal, glide, consoante, etc. Definição de casos e operações Busca das vogais de cada palavra e análise da sua vizinhança Regras de divisão silábica Output: palavra ortográfica dividida em sílabas 27 Expansão do léxico: marcador de sílaba tónica 28 Descrição dos tipos de testes • Módulos de Front-end: sentence separator, word breaker, text normalization, pronunciation (homograph ambiguity resolution, LTS conversion); • Funcionalidade do back-end: testes de compliance, performance e BVT (Build Verification Tests); • Teste da qualidade da voz sintética: testes de compreensão e MOS (Mean Opinion Score) tests. • Testes de usabilidade 29 Hot topics (principais desafios e problemas actuais) • Melhoramentos no HTS: menos ruído metálico,menos nº de waves para o treino • Boa utilização dos parâmetros prosódicos no treino do back-end • Síntese expressiva e de emoções • Síntese multi-língua • Síntese multi-modal ou síntese audio-visual • Voice transformation, conversion • Front-end • Avaliação – the Blizzard Challenges • Novas APPs 30 www.microsoft.com/portugal/mldc Daniela Braga Program Manager Lead [email protected]