Sistemas Conversacionais - mit

Propaganda
MIT
Sistemas Conversacionais*: Avanços e Desafios
•
•
•
•
•
•
Introdução
Entendimento da voz
– Entendimento Linguagem Natural
– Resolução Discurso
– Modelamento Diálogo
Problemas no desenvolvimento
Progresso Recente
Desafios futuros
Resumo
* AKA sistema de linguagem falada ou sistema de diálogo
falado veja artigo do Zue e Glass (2000).
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
1
MIT
A premissa
Todos
querem
informação
Mesmo quando
estiverem em
movimento
De North America
Commerce Net
Dispositivos
devem ser
pequenos
Precisam novas
interfaces
Voz é isto!
A interface
deve ser fácil
de usar
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
2
MITO que são sistemas conversacionais?
•
Sistema s que podem se comunicar com o usuário através de um
paradigma conversacional, ou seja eles podem:
– Entender entradas verbais, usando
• Reconhecimento de voz
• Entendimento da Linguagem (no contexto)
– Verbalizar resposta, usando
• Geração de Linguagem
• Síntese da voz
– Se engajar em diálogo com o usuário durante a iteração
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
3
MIT
•
Definindo o Contexto
Sistemas conversacionais diferem no grau com que humanos ou
computadores tomam a iniciativa.
Iniciativa
Computador
•Humano toma
completamente o
•controle
•Computador totalmente
passivo
•Computador mantém forte
controle
•Humano é muito restrito
Diálogo Direto
Humano
Diálogo com
iniciativa mista
6.345 Sistema de Reconhecimento de Voz
Diálogo de
forma livre
Sistemas Conversacionais
4
MIT
A natureza das iterações de iniciativa mista
(Um exemplo Humano-Humano)
……..
C: Yeah, [um] Estou procurando pelo cinema Buford.
A: OK, você quer conhecer o que é mostrado lá ou ... interrupção,
sobreposição
C: Sim por favor. confirmação
A: Esta procurando por um filme em particular? esclarecimento
C: [um] O que esta mostrando.
A: OK, um momento. Canal de volta
……..
A: Eles estão mostrando A Troll In Central Park.
C: Não. Inferência
A: Frankenstein. ellipsis
C: Que tempo é este ? co-referência
A: Sete vinte e nove cinqüenta.
C: OK, um outro qualquer?
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
5
MIT
Estudo das iterações humano-humano podem conduzir a boas
idéias para a construção de sistemas humano máquina
•
•
Mais de 1.000 diálogos em muitos domínios (Flammia ‘98)
Algumas lições apreendidas (acerca de clientes):
– Mais de 80% das sentenças são de 12 palavras ou menos
– Maioria das sentenças curtas são confirmações e comunicações
no canal de volta
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
6
MITEstratégias do Gerenciamento do Diálogo
•
•
Diálogos Dirigidos podem ser implementados como um gráfico
dirigido entre estados do diálogo
– Conexões entre estados são predefinidas
– O usuário é guiado através do gráfico pela maquina
– Diálogos Dirigidos têm sido utilizados com sucesso
comercialmente
Diálogos Iniciativa - Mista são possíveis quando as transições de
estado são determinadas dinamicamente
– Transições podem ser determinadas, por ex. por valores de
variável no formato E
– Usuários têm a flexibilidade
de especificar restrições de
qualquer ordem
– Sistemas podem voltar ao diálogo dirigido se desejarem
– Diálogos de Iniciativa – Mista principalmente protótipos de
pesquisa
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
7
MIT
Exemplo do Sistema MIT’s Mercury para Planejamento de Viagens
•
•
Novo usuário chamando o sistema Mercury para planejamento de vôos
Ilustração de problemas técnicos:
– Volta para o diálogo dirigido quando necessário (por ex., password)
– Entendimento de correções no meio do fluxo (por ex., “no Wednesday”)
– Solicitação de informações necessárias aos usuários
– Confirmação do entendimento de conceitos ao usuário
– Resumo de múltiplos resultados do banco de dados
– Permissão de negociação com o usuário
– Articulação da documentação pertinente
– Entendimento de fragmentos no contexto (por ex., “4:45”)
– Entendimento de datas relativas (por ex., “A Terça Feira seguinte”)
– Quantificação da satisfação do usuário (por ex., questionário)
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
8
MIT
Componentes de um sistema conversacional
Sentenças
Síntese da
voz
Voz
Gráficos e
Tabelas
Geração de
Linguagem
Banco de
Dados
Gerenciamento
do Diálogo
Contexto do
Discurso
Representação
do significado
Significado
Reconhecimento
da voz
Palavras
Entendimento da
Linguagem
Hoje
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais
9
MIT
Componentes do Processamento da Linguagem Natural
•
•
•
•
Entendimento:
– Distribua a pergunta de entrada em uma representação do
significado, a ser interpretado por ações apropriadas do domínio
de aplicação
– Selecione o melhor candidato a partir das hipóteses propostas
pelo reconhecedor
Resolução Discurso
– Interprete cada pergunta no contexto do diálogo precedente
Gerenciamento do Diálogo
– Planejar ações na presença de condições esperadas e não
esperadas; compor respostas.
Geração
– Parafrasear perguntas de usuários na mesma linguagem ou em
linguagens diferentes.
– Compor sentenças bem formadas para falar o (seqüência de) o
quadro de respostas preparado pelo gerente do diálogo.
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 10
MIT
Processamento da Entrada: Entendimento
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 11
MIT
Passos típicos na transformação da pergunta do usuário
•
•
•
•
Distribuição
– Estabelece organização sintática e
conteúdo semântico
Translação para um quadro semântico
– Produz representação do significado
identificando componentes relevantes
e seus relacionamentos
Incorporação do contexto do discurso
– Trata com fragmentos, referências a
nomes, etc.
Translação para um banco de dados de
perguntas
– Produz string formatada em SQL
para acessar o banco de dados
Hipóteses do
Reconhecedor
Produz
árvore de
distribuição
Árvore
Distribuída
Gera
quadro
Semântica
no quadro
Incorpora
contexto
Produz banco
de dados de
perguntas
Quadro no
contexto
SQL
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 12
MIT Entendimento da Linguagem Natural
Alguns nós sintáticos carregam
etiquetas semânticas para criar
quadros semânticos.
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 13
MITExemplo de Regras Livres do Contexto
•
•
•
•
Mostre os vôos de Boston a Denver
Sentença
→
(mostrar -clause verdade -clause …)
mostrar-clause→
mostre objeto - direto
objeto-direto →
[determinador] (vôo-event viagem-event …)
vôo-event
→
vôo [de ] [para]
de -place
→
a partir de uma cidade
para-place →
para uma cidade
mostrar
→
mostre para mim
mostre para mim
→
por favor] mostre [me]
uma cidade
→
(boston dallas denver …)
determinador
→
(a the)
...
Contexto livre : o lado esquerdo da regra é um único símbolo
Colchete []: opcional
Parêntesis ( ): alternantes.
Palavras terminais em itálico
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 14
MIT
•
•
•
•
O que faz a análise difícil?
Deve realizar uma ampla cobertura de sentenças bem formadas no
domínio
Não deveria permitir sentenças mal formadas, por ex.,
– que restaurante você conhece acerca de qualquer banco?
Evitar ambigüidade na distribuição (distribuição redundante)
Manter a eficiência
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 15
MITEntendimento de Palavras no Contexto
•
Diferenças sutis podem levar a interpretações completamente
diferentes
– Is there a six A.M. flight? ( Tem um vôo para as seis A.M?)
– Are there six A.A. flights?( Tem seis vôos A.A?)
– Is there a flight six?( Tem um vôo seis?)
– Is there a flight at six (Têm um vôo as seis?)
“seis ” pode ser :
– Um tempo
– Uma contagem
– Um número de vôo
•
•
A possibilidade de reconhecimento de erros torna difícil se apoiar
em características como o artigo “a” ou a pluralidade de “flights.”
Além disso, análise sintática/ semântica insuficientes pode levar a
grandes mal entendidos
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 16
MIT
Múltiplos papéis para a análise da linguagem natural no contexto
da linguagem falada
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 17
MIT
Contrastando modelos de linguagem para reconhecimento da voz
e entendimento da linguagem
Modelos de linguagem estatísticos (por ex, n-gramas) usados para
reconhecimento de voz não são apropriados para aplicações de
entendimento de voz, pois eles não fornecem uma representação do
significado.
Sistemas de processamento baseados em textos de linguagem natural
não são convenientes para aplicações de entendimento de voz, pois
tipicamente supõem que:
– Contornos da palavra são conhecidos com certeza
– Todas as palavras são conhecidas com certeza
– Sentenças são bem formadas
– Restrições não são necessárias
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 18
MIT Entendimento da Linguagem Falada
•
Entradas faladas diferem significativamente do texto
– Falsos inícios
– Pausas preenchidas
– Construções não gramaticais
– Reconhecimento de erros
•
Precisamos projetar componentes da linguagem natural que podem
limitar o espaço de pesquisa do reconhecedor e responder
apropriadamente mesmo quando a voz de entrada não é totalmente
entendida
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 19
MIT
Alguns Programas Governamentais Relacionados á
Voz
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 20
MIT
O programa U.S. DARPA-SLS (1990-1995)
•
•
•
•
•
A comunidade adotou uma tarefa comum (Serviço de Informações
de Viagens Aéreas - Air Travel Information Service, ou ATIS) para
desenvolver tecnologia de ponta
Usuários poderiam verbalmente perguntar a um banco de dados
estático por informações de viagens aéreas f
– 11 cidades na América do Norte (ATIS-2)
– Expansão para 46 cidades em 1993 (ATIS-3)
– Maior parte da informação sobre vôos e tarifas
Todos os sistemas podiam trabalhar com voz contínua de pessoas
desconhecidas (vocabulário com ~2.000 palavras)
Foi desenvolvida infra-estrutura para desenvolvimento de tecnologia
e avaliação
Cinco avaliações anuais foram feitas
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 21
MIT Status da Coleção de Dados no ATIS
•
•
•
•
Mais de 25,000 sentenças foram coletadas (provenientes da AT&T, BBN,
CMU, MIT, NIST, e SRI)
Cerca de 80% dos dados (voz e registros de programas de rádio) foram
distribuídos para os sistemas de treinamento e desenvolvimento
Mais de 11.000 das sentenças de treinamento foram ligadas com respostas
de “referência” em um banco de dados
Cerca 40% dos dados vieram do ATIS-3 (mais cidades)
Conjunto de
dados
Classe A
%
Classe D
%
Classe X
%
ATIS-2
43
33
24
ATIS-3
49
33
18
– A: Perguntas independentes do contexto
– D:Perguntas dependentes do contexto
– X:Perguntas sem resposta
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 22
MIT
Avaliação do SLS usando especificação de respostas comuns
(Common Answer Specification - CAS)
Saída do banco
de dados
Resposta de
referência
Comparação
Pontuação
•
•
A avaliação é automática (ou seja, fácil); uma vez que tenhamos:
– Princípios de interpretação(por ex., “olho vermelho”)
– Dados propriamente anotados, e
– Comparador
Mas isso é caro, e não endereça importantes problemas de
pesquisa tais como modelamento do diálogo e utilidade do sistema
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 23
MIT
Estado da Arte (o domínio ATIS)
•
•
•
•
•
•
•
6.345 Sistema de Reconhecimento de Voz
Taxa de erro de palavras (também
sentenças) (ER) de voz espontânea
se aproxima da voz de leitura
Entendimento com ER <10% com
entrada texto (leitura); não requer uma
completa análise NL
ER para entrada de voz somente é
~2-3% maior que a entrada texto
Muito mais sentenças entendidas do
que corretamente reconhecidas
Na maioria dos casos, ER diminui á
metade a cada dois anos
Desempenho em tempo real é obtido
utilizando estações de trabalho de alto
processamento
Resultados somente para perguntas
possíveis de responder
Sistemas Conversacionais 24
MIT
Exemplo de algumas sentenças que o sistema pode
processar
•
Eu gostaria de ir de SAINT PAUL para SAN JOSE segunda-feira de
manhã de SAN JOSE para HOUSTON terça-feira de manhã e de
HOUSTON para SAINT PAUL na quarta feira de manhã.
•
[UM] Eu gostaria de achar quais vôos na sexta-feira, 11 de junho
saem de SAINT PETERSBURG <para > M- para M- MILWAUKEE
e depois de MILWAUKEE para TACOMA. Obrigado.
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 25
MIT
Difícil, mas são sentenças reais
•
Gostaria de encontrar um vôo a partir de Pittsburgh para Boston na
quarta-feira e tenho que estar em Boston a uma hora e portanto
gostaria de sair daqui às 11 horas.
•
Irei repetir o que eu disse antes no cenário 3 Gostaria um vôo 727
de Washington DC para Atlanta Georgia. Eu gostaria de ter esse
vôo entre às 9 da manhã até às 2 da tarde se puder ter um vôo
neste intervalo de tempo gostaria de ir na sexta-feira.
•
Estou perguntando ao banco de dados acerca de um vôo de
primeira classe com origem em Atalanta e destino Boston está bem
qualquer preço.
Não podemos esperar que qualquer sistema de linguagem natural seja
hábil em entender e analisar totalmente todas estas sentenças.
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 26
MIT
Perspectiva histórica dos principais atores que se
empenharam no ATIS
•
•
•
•
CMU: Gramática estritamente semântica, informação sintática na
sua maioria ignorada
MIT: Regras de Gramática para intercalar categorias sintáticas e
semânticas
BBN, SRI:
– Sistemas iniciais usaram gramáticas sintáticas baseadas na
unificação, com regras semânticas em paralelo
– Ambos os lugares tem agora uma gramática estritamente
semântica também B
– SRI combina duas saídas em um sistema; BBN tem sistemas
separados competindo
ATT, BBN, IBM: Procedimento estocástico usando HMM
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 27
MIT
•
•
•
•
•
Procedimento da CMU
Gramática consiste de ~70 conceitos semânticos autônomos (por
ex .,Local de partida)
Cada conceito é realizado como um conjunto de possíveis
seqüências de classes de palavra, por ex.,
Local de partida ⇒ [DE ] [LOC]
Que são especificadas através de redes de transição recursivas
(recursive transition networks -RTNs)
Quadro semântico é uma estrutura plana de pares de valores chave
definidos pelos conceitos
A estrutura sintática é ignorada
Reconhecedor somente reproduz uma única teoria
Exemplo
okay the next uh uh (i’m going to need) a (from denver) (about two
o’clock) and (go to atlanta)
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 28
MIT
•
•
Procedimento do MIT
TINA FOI PROJETADA PARA ENETENDIMENTO DA VOZ
– Regras gramaticais intermix sintaxe e semântica
– Probabilidades são treinadas a partir das sentenças do usuário
– A árvore é convertida para um quadro semântico que encapsula
o significado
TINA melhora sua cobertura através de uma estratégia de análise
robusta
– Sentenças que não passam pela análise são sujeitas uma
estratégia de análise fragmentada
– Quando tudo falhar, a única saída é localizar a palavra
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 29
MIT
•
Procedimento Estocástico
Escolha entre todos os possíveis significados aquele que maximiza:
P (M | S ) =
•
•
P(S | M )P(M )
P(S )
Técnicas HMM têm sido utilizadas para determinar o significado das
sentenças (ATT, BBN, IBM)
Resultados promissores têm sido obtidos, mas uma grande quantidade de
dados anotados é necessária para o treinamento
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 30
MITIntegração SR/NL via N-melhor Interface
• N-Melhor reordenação tem sido usada como mecanismo para aplicar
restrições que em termos de cálculos são caras.
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 31
MITAlguns Problemas Relativos a Pesquisa
•
•
Um algoritmo A* é freqüentemente usados para construir as melhores N sentenças hipotizadas
f*(p) = g(p) + h*(p)
onde :
– f*(p) é a pontuação estimada do melhor caminho contendo o caminho
parcial p
– g(p) é a pontuação do início ao fim do caminho parcial p, e
– h*(p) é a pontuação estimada da melhor extensão da pontuação de p
Questões:
– Como a informação na lista dos N-melhores pode capturada mais
efetivamente?
– Quais são algumas escolhas computacionalmente eficientes de
h*(p), mesmo não admissíveis?
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 32
MIT
•
•
•
Integração Estreita SR/NL
Análise de linguagem naturais pode fornecer restrições de longa
distância que os n-gramas não podem
Exemplos:
– What is the flight serves dinner?
– What meals does flight two serve dinner?
Questão: Como podemos projetar sistemas que irão tomar
vantagem de tais restrições?
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 33
MITAlternativas Para a N-Melhores Interfaces
•
Introduzindo mais cedo as restrições NL, podemos potencialmente
reduzir a computação enquanto melhoramos o desempenho.
•
Integração antecipada pode também remover a necessidade de um
modelo estatístico de linguagem que pode ser difícil de ser obtido
para algumas aplicações
A medida que o vocabulário cresce, devemos iniciar a explorar
estratégias de pesquisa alternativas
– Pesquisa Paralela
– Pesquisa rápida para reduzir lista de palavras candidatas
•
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 34
MIT
Gerando n-gramas a Partir de Árvores Aglomeradas
•
NLU pode ajudar a gerar uma classe consistente classe n-gram
•
O desenvolvedor identifica categoria de aglomerados de classes ngrama
Sistema etiqueta palavras com as etiquetas das classes associadas
•
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 35
MIT
Alguns Experimentos SR/NL Associados
(domínio ATIS)
•
•
•
MIT (Goddeau, 1992)
– Análise Probabilística LR.
– A* pesquisa integrado no reconhecedor.
– Precisão de reconhecimento obtida comparável com a N-melhor
reordenação, mas com considerável melhor eficiência.
CMU (Ward, 1993)
– Modela seqüências usando o conceito semântico através de trigramas,
e seqüências de palavras terminais através de bigramas.
– A* procura integrada no reconhecedor.
– Entendimento reduzido (CAS) erro 10%.
•SRI (Moore, 1995)
– Modela fragmentos expressivos através de trigramas, e classes de
palavras através de 4 gramas.
– A pontuação NL é adicionada a pontuação básica do reconhecimento.
– Obtém-se ~15% de redução de palavras em erro
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 36
MIT
Fenômeno Típico Discurso em Sistemas
Conversacionais
•
Referência Dêitica (apontamento verbal) e anafórica:
1. Show me the restaurants in Cambridge.
2. What is the phone number of the third one?
3. How do I get there from the nearest subway stop?
•
Elipses:
1. When does flight twenty two arrive in Dallas?
2. What is the departure time ( )?
•
Fragmentos:
1. What is the weather today in Denver?
2. How about Salt Lake City?
•
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 37
MIT
Módulos Internos Discurso do MIT
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 38
MIT
Diferentes Papéis do Gerenciamento do
Diálogo
•
Pré-Recuperação: Entrada ambígua ⇒ Pergunta única ao DB
(reconhecimento de erros)
(informação insuficiente)
•
Pós-Recuperação: Múltiplos pedidos ao DB ⇒ Resposta Única
Ajuda o usuário a
diminuir as escolhas
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 39
MIT
Múltiplos Papéis do Modelamento do Diálogo
•
•
•
•
Nossa definição: Para cada rodada, preparando o lado da conversação do
sistema, incluindo respostas e clarificações
Resolver ambigüidades
– Retirada ambígua do DB (por ex.: London, England ou London,
Kentucky)
– Considerações pragmáticas (por ex.: demasiados vôos para falar)
Informar e guiar o usuário
– Sugerir subseqüente sub-objetivo (por ex., a que hora?)
– Oferecer assistência ao diálogo dependente do contexto a pedido
– Prover alternativas plausíveis quando é pedida informação não
disponível
– Iniciar clarificação de sub-diálogos para confirmação
Influenciar outros componentes do sistema
– Ajustar modelo de linguagem devido ao contexto do diálogo
– Ajustar a história do discurso devido ao pragmatismo (por ex., New
York)
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 40
MIT
•
Uma Estratégia Atrativa
Conduzir P&D da tecnologia da linguagem humana no contexto de
domínios reais de aplicação
– Nos forçar a:
• confrontar problemas técnicos críticos (por ex., rejeição, problema
com nova palavra) e
• estabelecer prioridades (por ex., melhores capacidades técnicas de
casamento com aplicações úteis)
– – Prover uma rica e continua fonte de dados úteis
• dados reais de usuários reais são inestimáveis
– Demonstrar a utilidade da tecnologia
– Facilitar a transferência de tecnologia
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 41
MITCiclo de Desenvolvimento do Sistema
Capacidades
NL limitadas
Reconhecimento
da voz
Coleta de
dados
Coleta de
dados
Capacidades
NL expandidas
Avaliação do
desempenho
Refinamento do sistema
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 42
MIT
•
•
•
•
Coleta de Dados
Desenvolvimento de sistemas é um problema da galinha & ovo
Coleção de dados tem evoluído consideravelmente
– Wizard-based → sistema baseado na coleta de dados
– Implantação no laboratório → implantação púbica
– 100s de usuários → milhares → milhões
Dados de usuários reais resolvendo problemas reais aceleram o
desenvolvimento tecnológico
– Significantemente diferente do ambiente de laboratório
– Mostra fraquezas, permite avaliação contínua
– Mas, requer sistemas fornecendo informação real!
Expandir a base de dados irá requerer treinamento não
supervisionado ou adaptação a dados não etiquetados
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 43
MIT
•
•
•
Dados vs Desempenho
(Domínio Meteorológico)
Avaliações longitudinais mostram melhorias
Coletando dados reais melhora o desempenho:
– Permite incremento da complexidade e melhora a robustez dos
modelos de linguagem acústicos
– Melhor casamento que condições de gravação em laboratório
Usuários se apresentam em todas as formas
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 44
MIT
•
•
•
•
Análise do erro ASR
(Domínio Meteorológico)
ERs masculinos são melhores que os femininos (1,5x) e crianças
(2x)
Forte acento estrangeiro perguntas for a do domínio são difíceis
Usuários experientes são 5x melhores que os novos
Taxa de erro de entendimento é consistentemente menor que a
SER
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 45
MITExemplo de Sistemas de Diálogo Falado
•
Implantação em larga escala de alguns sistemas de diálogo
– por ex.: CSELT, Nuance, Philips, SpeechWorks
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 46
MIT
•
•
•
•
•
Exemplo de Sistema de Diálogo
Vocabulários têm tipicamente 1.000 de palavras
Sistemas amplamente implantados tendem a ser mais conservativos
Diálogos dirigidos têm menos palavras por sentença
Média de palavras mais baixa devido a mais confirmações
Conversação humano-humano usa mais palavras
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 47
MIT
Alguns problemas de pesquisa no reconhecimento da
voz
•
•
•
•
Espalhamento da robustez para ambientes & vozes
– Condições do canal:
• Faixa larga → telefone → celular
• Faixa larga → microfone arrays (cancelamento de eco)
– Fenômeno conversacional voz
– Variação da voz (nativo → não-nativo)
Conhecendo o que você não conhece
– Confiança na pontuação (sentença & palavra)
– Detecção de palavras fora do vocabulário & adição
Além de palavras n-gramas?
– Fornecer cobertura, restrição, e uma plataforma para
entendimento
Outros desafios:
– Adaptação (longo-termo → termo curto)
– Modelamento da linguagem e acústico independente do domínio
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 48
MIT
Problemas de pesquisa no entendimento da linguagem
•
•
•
Variedade de modelos explorados para obter entendimento robusto
– Gramáticas completar com retorno a analise robusta (por ex: Seneff)
– Gramáticas semânticas, procedimentos baseados no formato (por ex.:,
Ward)
– Modelos estocásticos voz-significado (por ex.: Miller, Levin et al.)
– Trabalho em andamento na aquisição automática da gramática (por ex.:
Roukos et al., Kuhn et al.)
Mecanismos de Interface
– Dois estágios N-melhor / palavra-gráfico vs. pesquisa associada
– Como obter entendimento durante a decodificação?
Desafios em andamento:
– Entendimento da linguagem independente do domínio
– Os procedimentos atuais operam com tarefas mais complexas ou mais
gerais do entendimento?
– Integração de entrada multimodal em um único ambiente de
entendimento (por ex.: Cohen, Flanagan, Waibel)
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 49
MIT
Alguns problemas de pesquisa em diálogos
•
•
•
•
•
Modelar conversações humano-humano?
– São diálogos humano-humano um bom modelo para sistemas?
– Se for, como estruturar nosso sistema para prover o mesmo tipo de
interação encontrado na conversação humano-humano?
Estratégias de implementação:
– Dirigido vs iniciativa–mista com retorno (por ex.: Lamel et al.)
– Conhecimento automático das estratégias de diálogo (por ex.: Levin et
al.)
Manuseio de fenômenos no diálogo
– Interrupções, anáfora, elipses
– Interrupções (atropelamentos de palavras) podem incrementar a
complexidade do discurso
Agente de modelagem de fenômenos no diálogo
– Canal de volta (por ex.: N. Ward)
Outros problemas:
– Detecção e recuperação de erros (por ex.: Walker et al.)
– Casar capacidades com expectativas
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 50
MIT
•
•
•
•
Conclusões
Sistemas para diálogo falado são necessários devido a:
– Miniaturização de computadores
– Aumento de conectividade
– Desejo humano da comunicação
Para serem realmente úteis estas interfaces devem ser
conversacionais por natureza
– Incorporar competência lingüística, tanto na entrada como na
saída
– Ajudar pessoas para resolver eficientemente problemas
Sistemas com capacidade limitada estão emergindo
Muita pesquisa deve ainda ser feita
6.345 Sistema de Reconhecimento de Voz
Sistemas Conversacionais 51
Download