Tecnologia Texto > Fala

Propaganda
Sistemas de Conversão Texto-Fala:
estado da arte, aplicações,
arquitectura e desafios
Daniela Braga e Miguel Sales Dias
[email protected], [email protected]
Escola de Verão, Faculdade de Letras da Universidade do Porto
2 de Julho de 2009
Sumário
• Parte I – Parte teórica
–
–
–
–
–
–
–
Processamento da Fala – o que é?
Aplicações do processamento da fala
Sistemas de síntese de fala – um pouco de história
Estado da arte actual dos sistemas de síntese de fala
Alguns key-players importantes
Arquitectura de um sistema de síntese de fala
Principais desafios na construção do sistema: selecção da voz,
controlo de qualidade, desenvolvimento e implementação de
regras linguísticas, teste do sistema
– Metodologias e processos de teste
– Principais desafios e problemas actuais
• Parte II – Parte prática
2
Processamento da Fala:
o que é?
Processamento da Fala
Síntese da Fala
Texto
Reconhecimento de Voz
Texto
Processamento da Fala: uma
área interdisciplinar
Linguística
Matemática
Informática
Ciências
da Fala
Terapia
da Fala
Engenharia
Medicina
4
Sistemas de síntese e
reconhecimento de voz: aplicações
ORIENTAÇÃO E NAVEGAÇÃO
•
•
Sistemas de voz aplicados a navegação por GPS
instalado em viaturas, para que as orientações
visuais sejam acompanhadas por informações
auditivas.
Vantagens: maior segurança na navegação em
automóvel.
ENSINO
• e-learning com interfaces de voz; tele-escola
complementada com sistemas visuais em que uma
face é animada em sincronismo com a voz ,
permitindo escolher a voz e a face do orador; ensino
de línguas estrangeiras.
• Vantagens: ensino mais agradável, mais eficaz;
aumento da motivação; possibilidade de repetição.
Sistemas de síntese e
reconhecimento de voz: aplicações
SISTEMAS DE COMANDO E CONSULTA
•
•
Controlo de sistemas por voz, aplicados por exemplo a casas inteligentes
(domótica), cadeiras de rodas que obedecem a comandos como
recuar/avançar, anterior/seguinte, etc. por voz.
Vantagens: comodidade, rapidez na execução de tarefas.
Sistemas de síntese e
reconhecimento de voz: aplicações
TELECOMUNICAÇÕES
•
•
Sistemas de execução da chamada por indicação do nome ou do número
do destinatário*; leitura de SMS por voz (útil a cegos) com a possibilidade
de utilizar a voz do remetente; reconhecimento da voz**.
Vantagens: *rapidez nos comandos e na comunicação; **redução da
informação a transmitir libertando largura de banda.
Vodafone Say Net
Sistemas de síntese e
reconhecimento de voz: aplicações
QUIOSQUES DIGITAIS E MULTIMÉDIA
•
•
e-commerce com diversas aplicações: venda de
bilhetes para espectáculos, viagens, alimentos,
livros;
quiosques digitais com informações turísticas ou de
localização, listas telefónicas, etc.
•
•
•
•
•
e-banking
e-books
leitura de páginas web
leitura de e-mail
E-cards
•
Vantagens: facilitar o acesso à informação a
pessoas com necessidade especiais (invisuais ou
pessoas com deficiências de visão); agilizar a
consulta de produtos e de informações.
Projectos terminados no
MLDC: Exchange 14
• http://blogs.msdn.com/tagarela/archive/2007/02/28/bemvindos.aspx
Exchange 14
• Microsoft: TTS em 26 línguas
Herena
Helle
Heloísa
Hélia
10
SR no Windows 7
• Reconhecimento de Voz: Comando e Controlo e Ditado
11
Projectos terminados no
MLDC
• Voice command:
http://soapbox.msn.com/video.aspx?vi
d=945afe25-90de-4b7d-ac07116e286a3c06&wa=wsignin1.0
• Media Center controlled by speech:
http://soapbox.msn.com/video.aspx?vid=945afe25-90de-4b7d-ac07116e286a3c06&wa=wsignin1.0
Cronologia
• Até ao final dos anos 80 - técnicas de primeira geração
– síntese por formantes
– síntese articulatória
• Desde finais dos anos 90 - técnicas de segunda geração
– síntese por concatenação
– Síntese por HMMs
13
Técnicas de primeira geração
•
•
•
•
•
•
•
•
•
•
•
•
1.VODER, by Homer Dudley, 1939 (synthesizing speech by electrical
means)
2.Pattern playback by F. Cooper (1951)
3.Pat (Parametric artificial talker), by Walter Lawrence (1953)
4.OVE I (Orator Verbis Electris) formant synthesizer, by Gunnar Fant (1953)
5.Pat formant synthesizer (1962) by Walter Lawrence
6.OVE II by Gunnar Fant (1962)
7.Comparison between synthesized and natural voices, by Jonh Holmes
(1961, 1973)
8.Voice morphing D. Klatt (1987)
9.DAVO (Dynamic Analog of the VOcal tract) articulatory syntheziser, by
George Rosen (1958)
10.Linear Prediction Analysis and Re-synthesis, by Texas Instruments
(1980)
11.first full TTS: Umeda et al (1968)
12.MIT MITalk (Allen, Hunnicut, Klatt), 1979
14
TTS modernos de segunda geração
• Commercial TTS (normally concatenative):
– Loquendo
http://www.loquendo.com/en/index.htm
– Nuance (formerly Scansoft)
http://www.nuance.com/realspeak/languages/
– IBM
http://www.research.ibm.com/tts/
– Acapela
http://www.elan.fr/
– AT&T Labs
http://www.research.att.com/viewProject.cfm?prjID=315
– Cepstral
http://www.cepstral.com/
15
Alguns key-players importantes
• Na Europa:
– Institute of Phonetic Sciences, University of Amsterdam,
Holanda, onde o Praat foi desenvolvido;
– KTH – The Royal Institute of Technology, Suécia, activo na área
da Fonologia, onde Gunnar Fant, um dos nomes históricos da
Síntese da Fala e da Fonologia, é Professor Emérito; activo
ainda na área da Síntese Multi-modal;
– Department of Phonetics and Linguistics, University Colledge of
London, Reino Unido, autores do SFS;
– Laboratoire de Parole et Langage, Université de Provence,
laboratório activo na área da Prosódia, dirigido por Daniel Hirts,
autor do INTSINT;
– University of Edimburgh, Reino Unido, onde Alan Black e Paul
Taylor desenvolveram o Festival;
16
Alguns key-players importantes
• Nos Estados Unidos da América:
– Language Technologies Institute, Conergie Mellon University,
onde se desenvolve o projecto Festvox, responsável por
iniciativas de avaliação de sistemas de síntese da fala, os
Blizzard Challenges, entre outras;
– University of Colorado, at Boulder (Daniel Jurafsky é um dos
grandes nomes)
– MIT - Massachusetts Institute of Technology, Estados Unidos,
onde se desenvolveu o DAVO, um dos primeiros sintetizadores
articulatórios (1958) e o MITTalk, em 1979, um dos primeiros
sintetizadores baseados em dicionários (Allen et al., 1987) e o
Klattalk, em 1983;
17
Alguns key-players importantes
• Na Ásia:
– Nagoya Institute of Technology, onde Keiichi Tokuda e o seu
grupo desenvolveram o HTS, considerado o novo paradigma
nas técnicas de síntese;
– ATR – Advanced Telecommunications Research Institute
International, Japão, um dos maiores centros de
desenvolvimento estatais do Japão;
– Microsoft Research Asia – Speech Technology Group, em
Pequim, China, onde tecnologias de ponta estão a ser
desenvolvidas.
18
Arquitectura geral dos
sistemas de síntese de fala
1
• Analisador morfossintáctico
• Desambiguador de homógrafos
2
• Leitor de estrangeirismos
• Conversor grafema-fone
3
• Marcador de tonicidade
• Divisor silábico
Base
de
dados
de voz
Texto
Análise
do texto
Análise
fonética
Geração
prosódica
Motor de
síntese
Voz sintética
Separador de
frases
Separador de
palavras
Normalizador de
texto
Dependente
da língua
Front-end
Geração de entoação,
durações,intensidade
Determinação do
foco
Geração de emoções
Back-end
Agnóstico da
19
língua
Estado da arte
• 3 abordagens principais para o front-end
– Baseada em regras: mais robustos, requerem menos memória,
requerem conhecimento linguístico muito especializado
– Baseada em modelos estatísticos: podem ser muito robustos,
requerem muita memória, quando falham pode ser desastroso
– Modelos híbridos: preferíveis
• 2 paradigmas actuais para o back-end:
– Síntese por HTS
– Síntese por Selecção de Unidades
• Futuro:
– Melhoramentos do HTS
– RUS – técnica que combina síntese por concatenação e HMMs
20
Arquitectura TTS no MLDC
Lexicon
TTS runtime
engine
Recording
Wave process
Prosody
modelling
Acoustic
models
LTS rules
Voice
Font
TESTS
Alignment
Font compiling
Data Studio (Script & recording review, prosody
annotation)
Voice talent
selection
Polyphony
resolution
Phoneme
table
Script
Generation
TN rules
Text Analysis
Raw text
corpus
21
Principais desafios na
construção de um TTS
• Selecção do locutor
• Controlo de qualidade da gravação e das waves
• Parte linguística do front-end:
–
–
–
–
Obtenção de recursos linguísticos (clean text)
Normalização de texto
Desambiguação de homógrafos
Expansão do léxico
22
Selecção do locutor
• Sabemos que grande parte do sucesso de um TTS está
dependente da escolha do locutor
• Problemas:
– Que requisitos deve ter um locutor?
– Que parâmetros devemos avaliar?
– Esses requisitos estão relacionados com a tecnologia? Estão
dependentes do cenário de aplicação?
23
Parte linguística: Normalização de
texto
Baseado
em
dicionário
Baseado
em regras
Conversor de
símbolos e
caracteres
especiais
Expansor de
abreviaturas
Leitor de
siglas e
acrónimos
Conversor de
numerais
(cardinais,
ordinais,
datas,
tempo,etc.)
Baseado em
dicionário
Baseado
em regras
24
Parte linguística: Desambiguação
de homógrafos
Analisador
morfossintáctico
Homographdo
type
Identificador
tipo
identification
de
homógrafo
Biblioteca de
homógrafos
Texto
Biblioteca de
classes fechadas
Biblioteca de
morfemas
Biblioteca de
lemas
≠ classe
gramatical
= classe
gramatical
Biblioteca de
verbos irregulares
Tipos 1-16
Tipos 17-24
Biblioteca de
combinatórias
lexicais restritas
Biblioteca de
wordnets
Biblioteca de exp.
impessoais
Análise morfossintáctica
Análise semântica
Parte linguística:Desambiguação
de homógrafos
Tipo
1
2
3
4
Alternância vocálica e
classe gramatical
diferente
[e] nome / [E] verbo
[o] nome / [O] verbo
Homógrafo
Tipo
aceno, acerto, apelo, aperto, apreço,
arrepelo, começo, concerto, conserto,
desemprego, desespero, emprego, enredo,
erro, esmero, espeto, flagelo, gelo, governo,
interesse, interesses, modelo, pego, peso,
pena, penas rego, remo, selo, testo, zelo
abono, aborto, acordo, adorno, aforro,
almoço, arrojo, arroto, choco, choro, conforto,
consolo, contorno, controlo, coro, desgosto,
despojo, destroço, encosto, endosso, esforço,
estorvo, folgo, gosto, jogo, logro, namoro,
olho, piloto, reforço, rodo, rogo, rolo, sopro,
suborno, sufoco, toco, toldo, topo, torno,
troco, troço
desses, deste, destes
6
[o] nome/ [O] verbo
[e] verbo / [E] nome
[e] contractção/ [E]
verbo
[o] verbo/ [O] adv
7
[e] Adj., nome/ [E] verbo
seco, seca, secas
8
[o] Adj., nome/ [O] verbo
boto
9
[e] Dem. / [E] Adj., nome
este
5
10
11
12
13
14
15
16
[e] verbo / [E] Adj.,
nome
[o] Prep./ [O] verbo
[@] verbo/ [E] nome
[o] Adj./ [O] nome
[o] nome/ [O] nome/ [O]
verbo
[e] Prep./ [e] nome/
[E]verbo
[e] nome/ [E] verbo/
nome[E]
rola, rolha, soma
colher, meta
Alternância vocálica e
mesma classe gramatical
Homógrafo
17
[e] nome / [E] nome
besta, bestas
18
[e] nome / [E] nome
sede, sedes
19
[e] nome / [E] nome
medo, medos
20
[e] nome / [E] nome, verbo
termos
21
[o] nome/ [O] nome
cor
22
[o] nome/ [O] nome
lobo, lobos
23
[o] nome/ [O] nome
bola, bolas
24
[@] verbo/ [E] verbo
pregar
fora
leste
sobre
pegada
rota, rotas, tola, tolas
corte, cortes, forma, formas, molho, soco
cerca
pega, pegas
26
Expansão do léxico: Divisor
silábico
Input:
palavra
ortográfica
Definição de
vogal, glide,
consoante,
etc.
Definição de
casos e
operações
Busca das
vogais de
cada palavra
e análise da
sua
vizinhança
Regras de
divisão
silábica
Output:
palavra
ortográfica
dividida em
sílabas
27
Expansão do léxico: marcador
de sílaba tónica
28
Descrição dos tipos de testes
• Módulos de Front-end: sentence separator, word
breaker, text normalization, pronunciation (homograph
ambiguity resolution, LTS conversion);
• Funcionalidade do back-end: testes de compliance,
performance e BVT (Build Verification Tests);
• Teste da qualidade da voz sintética: testes de
compreensão e MOS (Mean Opinion Score) tests.
• Testes de usabilidade
29
Hot topics (principais desafios
e problemas actuais)
• Melhoramentos no HTS: menos ruído metálico,menos nº
de waves para o treino
• Boa utilização dos parâmetros prosódicos no treino do
back-end
• Síntese expressiva e de emoções
• Síntese multi-língua
• Síntese multi-modal ou síntese audio-visual
• Voice transformation, conversion
• Front-end
• Avaliação – the Blizzard Challenges
• Novas APPs
30
www.microsoft.com/portugal/mldc
Daniela Braga
Program Manager Lead
[email protected]
Download