MIT Sistemas Conversacionais*: Avanços e Desafios • • • • • • Introdução Entendimento da voz – Entendimento Linguagem Natural – Resolução Discurso – Modelamento Diálogo Problemas no desenvolvimento Progresso Recente Desafios futuros Resumo * AKA sistema de linguagem falada ou sistema de diálogo falado veja artigo do Zue e Glass (2000). 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 1 MIT A premissa Todos querem informação Mesmo quando estiverem em movimento De North America Commerce Net Dispositivos devem ser pequenos Precisam novas interfaces Voz é isto! A interface deve ser fácil de usar 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 2 MITO que são sistemas conversacionais? • Sistema s que podem se comunicar com o usuário através de um paradigma conversacional, ou seja eles podem: – Entender entradas verbais, usando • Reconhecimento de voz • Entendimento da Linguagem (no contexto) – Verbalizar resposta, usando • Geração de Linguagem • Síntese da voz – Se engajar em diálogo com o usuário durante a iteração 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 3 MIT • Definindo o Contexto Sistemas conversacionais diferem no grau com que humanos ou computadores tomam a iniciativa. Iniciativa Computador •Humano toma completamente o •controle •Computador totalmente passivo •Computador mantém forte controle •Humano é muito restrito Diálogo Direto Humano Diálogo com iniciativa mista 6.345 Sistema de Reconhecimento de Voz Diálogo de forma livre Sistemas Conversacionais 4 MIT A natureza das iterações de iniciativa mista (Um exemplo Humano-Humano) …….. C: Yeah, [um] Estou procurando pelo cinema Buford. A: OK, você quer conhecer o que é mostrado lá ou ... interrupção, sobreposição C: Sim por favor. confirmação A: Esta procurando por um filme em particular? esclarecimento C: [um] O que esta mostrando. A: OK, um momento. Canal de volta …….. A: Eles estão mostrando A Troll In Central Park. C: Não. Inferência A: Frankenstein. ellipsis C: Que tempo é este ? co-referência A: Sete vinte e nove cinqüenta. C: OK, um outro qualquer? 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 5 MIT Estudo das iterações humano-humano podem conduzir a boas idéias para a construção de sistemas humano máquina • • Mais de 1.000 diálogos em muitos domínios (Flammia ‘98) Algumas lições apreendidas (acerca de clientes): – Mais de 80% das sentenças são de 12 palavras ou menos – Maioria das sentenças curtas são confirmações e comunicações no canal de volta 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 6 MITEstratégias do Gerenciamento do Diálogo • • Diálogos Dirigidos podem ser implementados como um gráfico dirigido entre estados do diálogo – Conexões entre estados são predefinidas – O usuário é guiado através do gráfico pela maquina – Diálogos Dirigidos têm sido utilizados com sucesso comercialmente Diálogos Iniciativa - Mista são possíveis quando as transições de estado são determinadas dinamicamente – Transições podem ser determinadas, por ex. por valores de variável no formato E – Usuários têm a flexibilidade de especificar restrições de qualquer ordem – Sistemas podem voltar ao diálogo dirigido se desejarem – Diálogos de Iniciativa – Mista principalmente protótipos de pesquisa 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 7 MIT Exemplo do Sistema MIT’s Mercury para Planejamento de Viagens • • Novo usuário chamando o sistema Mercury para planejamento de vôos Ilustração de problemas técnicos: – Volta para o diálogo dirigido quando necessário (por ex., password) – Entendimento de correções no meio do fluxo (por ex., “no Wednesday”) – Solicitação de informações necessárias aos usuários – Confirmação do entendimento de conceitos ao usuário – Resumo de múltiplos resultados do banco de dados – Permissão de negociação com o usuário – Articulação da documentação pertinente – Entendimento de fragmentos no contexto (por ex., “4:45”) – Entendimento de datas relativas (por ex., “A Terça Feira seguinte”) – Quantificação da satisfação do usuário (por ex., questionário) 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 8 MIT Componentes de um sistema conversacional Sentenças Síntese da voz Voz Gráficos e Tabelas Geração de Linguagem Banco de Dados Gerenciamento do Diálogo Contexto do Discurso Representação do significado Significado Reconhecimento da voz Palavras Entendimento da Linguagem Hoje 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 9 MIT Componentes do Processamento da Linguagem Natural • • • • Entendimento: – Distribua a pergunta de entrada em uma representação do significado, a ser interpretado por ações apropriadas do domínio de aplicação – Selecione o melhor candidato a partir das hipóteses propostas pelo reconhecedor Resolução Discurso – Interprete cada pergunta no contexto do diálogo precedente Gerenciamento do Diálogo – Planejar ações na presença de condições esperadas e não esperadas; compor respostas. Geração – Parafrasear perguntas de usuários na mesma linguagem ou em linguagens diferentes. – Compor sentenças bem formadas para falar o (seqüência de) o quadro de respostas preparado pelo gerente do diálogo. 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 10 MIT Processamento da Entrada: Entendimento 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 11 MIT Passos típicos na transformação da pergunta do usuário • • • • Distribuição – Estabelece organização sintática e conteúdo semântico Translação para um quadro semântico – Produz representação do significado identificando componentes relevantes e seus relacionamentos Incorporação do contexto do discurso – Trata com fragmentos, referências a nomes, etc. Translação para um banco de dados de perguntas – Produz string formatada em SQL para acessar o banco de dados Hipóteses do Reconhecedor Produz árvore de distribuição Árvore Distribuída Gera quadro Semântica no quadro Incorpora contexto Produz banco de dados de perguntas Quadro no contexto SQL 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 12 MIT Entendimento da Linguagem Natural Alguns nós sintáticos carregam etiquetas semânticas para criar quadros semânticos. 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 13 MITExemplo de Regras Livres do Contexto • • • • Mostre os vôos de Boston a Denver Sentença → (mostrar -clause verdade -clause …) mostrar-clause→ mostre objeto - direto objeto-direto → [determinador] (vôo-event viagem-event …) vôo-event → vôo [de ] [para] de -place → a partir de uma cidade para-place → para uma cidade mostrar → mostre para mim mostre para mim → por favor] mostre [me] uma cidade → (boston dallas denver …) determinador → (a the) ... Contexto livre : o lado esquerdo da regra é um único símbolo Colchete []: opcional Parêntesis ( ): alternantes. Palavras terminais em itálico 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 14 MIT • • • • O que faz a análise difícil? Deve realizar uma ampla cobertura de sentenças bem formadas no domínio Não deveria permitir sentenças mal formadas, por ex., – que restaurante você conhece acerca de qualquer banco? Evitar ambigüidade na distribuição (distribuição redundante) Manter a eficiência 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 15 MITEntendimento de Palavras no Contexto • Diferenças sutis podem levar a interpretações completamente diferentes – Is there a six A.M. flight? ( Tem um vôo para as seis A.M?) – Are there six A.A. flights?( Tem seis vôos A.A?) – Is there a flight six?( Tem um vôo seis?) – Is there a flight at six (Têm um vôo as seis?) “seis ” pode ser : – Um tempo – Uma contagem – Um número de vôo • • A possibilidade de reconhecimento de erros torna difícil se apoiar em características como o artigo “a” ou a pluralidade de “flights.” Além disso, análise sintática/ semântica insuficientes pode levar a grandes mal entendidos 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 16 MIT Múltiplos papéis para a análise da linguagem natural no contexto da linguagem falada 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 17 MIT Contrastando modelos de linguagem para reconhecimento da voz e entendimento da linguagem Modelos de linguagem estatísticos (por ex, n-gramas) usados para reconhecimento de voz não são apropriados para aplicações de entendimento de voz, pois eles não fornecem uma representação do significado. Sistemas de processamento baseados em textos de linguagem natural não são convenientes para aplicações de entendimento de voz, pois tipicamente supõem que: – Contornos da palavra são conhecidos com certeza – Todas as palavras são conhecidas com certeza – Sentenças são bem formadas – Restrições não são necessárias 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 18 MIT Entendimento da Linguagem Falada • Entradas faladas diferem significativamente do texto – Falsos inícios – Pausas preenchidas – Construções não gramaticais – Reconhecimento de erros • Precisamos projetar componentes da linguagem natural que podem limitar o espaço de pesquisa do reconhecedor e responder apropriadamente mesmo quando a voz de entrada não é totalmente entendida 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 19 MIT Alguns Programas Governamentais Relacionados á Voz 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 20 MIT O programa U.S. DARPA-SLS (1990-1995) • • • • • A comunidade adotou uma tarefa comum (Serviço de Informações de Viagens Aéreas - Air Travel Information Service, ou ATIS) para desenvolver tecnologia de ponta Usuários poderiam verbalmente perguntar a um banco de dados estático por informações de viagens aéreas f – 11 cidades na América do Norte (ATIS-2) – Expansão para 46 cidades em 1993 (ATIS-3) – Maior parte da informação sobre vôos e tarifas Todos os sistemas podiam trabalhar com voz contínua de pessoas desconhecidas (vocabulário com ~2.000 palavras) Foi desenvolvida infra-estrutura para desenvolvimento de tecnologia e avaliação Cinco avaliações anuais foram feitas 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 21 MIT Status da Coleção de Dados no ATIS • • • • Mais de 25,000 sentenças foram coletadas (provenientes da AT&T, BBN, CMU, MIT, NIST, e SRI) Cerca de 80% dos dados (voz e registros de programas de rádio) foram distribuídos para os sistemas de treinamento e desenvolvimento Mais de 11.000 das sentenças de treinamento foram ligadas com respostas de “referência” em um banco de dados Cerca 40% dos dados vieram do ATIS-3 (mais cidades) Conjunto de dados Classe A % Classe D % Classe X % ATIS-2 43 33 24 ATIS-3 49 33 18 – A: Perguntas independentes do contexto – D:Perguntas dependentes do contexto – X:Perguntas sem resposta 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 22 MIT Avaliação do SLS usando especificação de respostas comuns (Common Answer Specification - CAS) Saída do banco de dados Resposta de referência Comparação Pontuação • • A avaliação é automática (ou seja, fácil); uma vez que tenhamos: – Princípios de interpretação(por ex., “olho vermelho”) – Dados propriamente anotados, e – Comparador Mas isso é caro, e não endereça importantes problemas de pesquisa tais como modelamento do diálogo e utilidade do sistema 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 23 MIT Estado da Arte (o domínio ATIS) • • • • • • • 6.345 Sistema de Reconhecimento de Voz Taxa de erro de palavras (também sentenças) (ER) de voz espontânea se aproxima da voz de leitura Entendimento com ER <10% com entrada texto (leitura); não requer uma completa análise NL ER para entrada de voz somente é ~2-3% maior que a entrada texto Muito mais sentenças entendidas do que corretamente reconhecidas Na maioria dos casos, ER diminui á metade a cada dois anos Desempenho em tempo real é obtido utilizando estações de trabalho de alto processamento Resultados somente para perguntas possíveis de responder Sistemas Conversacionais 24 MIT Exemplo de algumas sentenças que o sistema pode processar • Eu gostaria de ir de SAINT PAUL para SAN JOSE segunda-feira de manhã de SAN JOSE para HOUSTON terça-feira de manhã e de HOUSTON para SAINT PAUL na quarta feira de manhã. • [UM] Eu gostaria de achar quais vôos na sexta-feira, 11 de junho saem de SAINT PETERSBURG <para > M- para M- MILWAUKEE e depois de MILWAUKEE para TACOMA. Obrigado. 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 25 MIT Difícil, mas são sentenças reais • Gostaria de encontrar um vôo a partir de Pittsburgh para Boston na quarta-feira e tenho que estar em Boston a uma hora e portanto gostaria de sair daqui às 11 horas. • Irei repetir o que eu disse antes no cenário 3 Gostaria um vôo 727 de Washington DC para Atlanta Georgia. Eu gostaria de ter esse vôo entre às 9 da manhã até às 2 da tarde se puder ter um vôo neste intervalo de tempo gostaria de ir na sexta-feira. • Estou perguntando ao banco de dados acerca de um vôo de primeira classe com origem em Atalanta e destino Boston está bem qualquer preço. Não podemos esperar que qualquer sistema de linguagem natural seja hábil em entender e analisar totalmente todas estas sentenças. 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 26 MIT Perspectiva histórica dos principais atores que se empenharam no ATIS • • • • CMU: Gramática estritamente semântica, informação sintática na sua maioria ignorada MIT: Regras de Gramática para intercalar categorias sintáticas e semânticas BBN, SRI: – Sistemas iniciais usaram gramáticas sintáticas baseadas na unificação, com regras semânticas em paralelo – Ambos os lugares tem agora uma gramática estritamente semântica também B – SRI combina duas saídas em um sistema; BBN tem sistemas separados competindo ATT, BBN, IBM: Procedimento estocástico usando HMM 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 27 MIT • • • • • Procedimento da CMU Gramática consiste de ~70 conceitos semânticos autônomos (por ex .,Local de partida) Cada conceito é realizado como um conjunto de possíveis seqüências de classes de palavra, por ex., Local de partida ⇒ [DE ] [LOC] Que são especificadas através de redes de transição recursivas (recursive transition networks -RTNs) Quadro semântico é uma estrutura plana de pares de valores chave definidos pelos conceitos A estrutura sintática é ignorada Reconhecedor somente reproduz uma única teoria Exemplo okay the next uh uh (i’m going to need) a (from denver) (about two o’clock) and (go to atlanta) 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 28 MIT • • Procedimento do MIT TINA FOI PROJETADA PARA ENETENDIMENTO DA VOZ – Regras gramaticais intermix sintaxe e semântica – Probabilidades são treinadas a partir das sentenças do usuário – A árvore é convertida para um quadro semântico que encapsula o significado TINA melhora sua cobertura através de uma estratégia de análise robusta – Sentenças que não passam pela análise são sujeitas uma estratégia de análise fragmentada – Quando tudo falhar, a única saída é localizar a palavra 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 29 MIT • Procedimento Estocástico Escolha entre todos os possíveis significados aquele que maximiza: P (M | S ) = • • P(S | M )P(M ) P(S ) Técnicas HMM têm sido utilizadas para determinar o significado das sentenças (ATT, BBN, IBM) Resultados promissores têm sido obtidos, mas uma grande quantidade de dados anotados é necessária para o treinamento 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 30 MITIntegração SR/NL via N-melhor Interface • N-Melhor reordenação tem sido usada como mecanismo para aplicar restrições que em termos de cálculos são caras. 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 31 MITAlguns Problemas Relativos a Pesquisa • • Um algoritmo A* é freqüentemente usados para construir as melhores N sentenças hipotizadas f*(p) = g(p) + h*(p) onde : – f*(p) é a pontuação estimada do melhor caminho contendo o caminho parcial p – g(p) é a pontuação do início ao fim do caminho parcial p, e – h*(p) é a pontuação estimada da melhor extensão da pontuação de p Questões: – Como a informação na lista dos N-melhores pode capturada mais efetivamente? – Quais são algumas escolhas computacionalmente eficientes de h*(p), mesmo não admissíveis? 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 32 MIT • • • Integração Estreita SR/NL Análise de linguagem naturais pode fornecer restrições de longa distância que os n-gramas não podem Exemplos: – What is the flight serves dinner? – What meals does flight two serve dinner? Questão: Como podemos projetar sistemas que irão tomar vantagem de tais restrições? 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 33 MITAlternativas Para a N-Melhores Interfaces • Introduzindo mais cedo as restrições NL, podemos potencialmente reduzir a computação enquanto melhoramos o desempenho. • Integração antecipada pode também remover a necessidade de um modelo estatístico de linguagem que pode ser difícil de ser obtido para algumas aplicações A medida que o vocabulário cresce, devemos iniciar a explorar estratégias de pesquisa alternativas – Pesquisa Paralela – Pesquisa rápida para reduzir lista de palavras candidatas • 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 34 MIT Gerando n-gramas a Partir de Árvores Aglomeradas • NLU pode ajudar a gerar uma classe consistente classe n-gram • O desenvolvedor identifica categoria de aglomerados de classes ngrama Sistema etiqueta palavras com as etiquetas das classes associadas • 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 35 MIT Alguns Experimentos SR/NL Associados (domínio ATIS) • • • MIT (Goddeau, 1992) – Análise Probabilística LR. – A* pesquisa integrado no reconhecedor. – Precisão de reconhecimento obtida comparável com a N-melhor reordenação, mas com considerável melhor eficiência. CMU (Ward, 1993) – Modela seqüências usando o conceito semântico através de trigramas, e seqüências de palavras terminais através de bigramas. – A* procura integrada no reconhecedor. – Entendimento reduzido (CAS) erro 10%. •SRI (Moore, 1995) – Modela fragmentos expressivos através de trigramas, e classes de palavras através de 4 gramas. – A pontuação NL é adicionada a pontuação básica do reconhecimento. – Obtém-se ~15% de redução de palavras em erro 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 36 MIT Fenômeno Típico Discurso em Sistemas Conversacionais • Referência Dêitica (apontamento verbal) e anafórica: 1. Show me the restaurants in Cambridge. 2. What is the phone number of the third one? 3. How do I get there from the nearest subway stop? • Elipses: 1. When does flight twenty two arrive in Dallas? 2. What is the departure time ( )? • Fragmentos: 1. What is the weather today in Denver? 2. How about Salt Lake City? • 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 37 MIT Módulos Internos Discurso do MIT 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 38 MIT Diferentes Papéis do Gerenciamento do Diálogo • Pré-Recuperação: Entrada ambígua ⇒ Pergunta única ao DB (reconhecimento de erros) (informação insuficiente) • Pós-Recuperação: Múltiplos pedidos ao DB ⇒ Resposta Única Ajuda o usuário a diminuir as escolhas 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 39 MIT Múltiplos Papéis do Modelamento do Diálogo • • • • Nossa definição: Para cada rodada, preparando o lado da conversação do sistema, incluindo respostas e clarificações Resolver ambigüidades – Retirada ambígua do DB (por ex.: London, England ou London, Kentucky) – Considerações pragmáticas (por ex.: demasiados vôos para falar) Informar e guiar o usuário – Sugerir subseqüente sub-objetivo (por ex., a que hora?) – Oferecer assistência ao diálogo dependente do contexto a pedido – Prover alternativas plausíveis quando é pedida informação não disponível – Iniciar clarificação de sub-diálogos para confirmação Influenciar outros componentes do sistema – Ajustar modelo de linguagem devido ao contexto do diálogo – Ajustar a história do discurso devido ao pragmatismo (por ex., New York) 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 40 MIT • Uma Estratégia Atrativa Conduzir P&D da tecnologia da linguagem humana no contexto de domínios reais de aplicação – Nos forçar a: • confrontar problemas técnicos críticos (por ex., rejeição, problema com nova palavra) e • estabelecer prioridades (por ex., melhores capacidades técnicas de casamento com aplicações úteis) – – Prover uma rica e continua fonte de dados úteis • dados reais de usuários reais são inestimáveis – Demonstrar a utilidade da tecnologia – Facilitar a transferência de tecnologia 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 41 MITCiclo de Desenvolvimento do Sistema Capacidades NL limitadas Reconhecimento da voz Coleta de dados Coleta de dados Capacidades NL expandidas Avaliação do desempenho Refinamento do sistema 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 42 MIT • • • • Coleta de Dados Desenvolvimento de sistemas é um problema da galinha & ovo Coleção de dados tem evoluído consideravelmente – Wizard-based → sistema baseado na coleta de dados – Implantação no laboratório → implantação púbica – 100s de usuários → milhares → milhões Dados de usuários reais resolvendo problemas reais aceleram o desenvolvimento tecnológico – Significantemente diferente do ambiente de laboratório – Mostra fraquezas, permite avaliação contínua – Mas, requer sistemas fornecendo informação real! Expandir a base de dados irá requerer treinamento não supervisionado ou adaptação a dados não etiquetados 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 43 MIT • • • Dados vs Desempenho (Domínio Meteorológico) Avaliações longitudinais mostram melhorias Coletando dados reais melhora o desempenho: – Permite incremento da complexidade e melhora a robustez dos modelos de linguagem acústicos – Melhor casamento que condições de gravação em laboratório Usuários se apresentam em todas as formas 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 44 MIT • • • • Análise do erro ASR (Domínio Meteorológico) ERs masculinos são melhores que os femininos (1,5x) e crianças (2x) Forte acento estrangeiro perguntas for a do domínio são difíceis Usuários experientes são 5x melhores que os novos Taxa de erro de entendimento é consistentemente menor que a SER 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 45 MITExemplo de Sistemas de Diálogo Falado • Implantação em larga escala de alguns sistemas de diálogo – por ex.: CSELT, Nuance, Philips, SpeechWorks 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 46 MIT • • • • • Exemplo de Sistema de Diálogo Vocabulários têm tipicamente 1.000 de palavras Sistemas amplamente implantados tendem a ser mais conservativos Diálogos dirigidos têm menos palavras por sentença Média de palavras mais baixa devido a mais confirmações Conversação humano-humano usa mais palavras 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 47 MIT Alguns problemas de pesquisa no reconhecimento da voz • • • • Espalhamento da robustez para ambientes & vozes – Condições do canal: • Faixa larga → telefone → celular • Faixa larga → microfone arrays (cancelamento de eco) – Fenômeno conversacional voz – Variação da voz (nativo → não-nativo) Conhecendo o que você não conhece – Confiança na pontuação (sentença & palavra) – Detecção de palavras fora do vocabulário & adição Além de palavras n-gramas? – Fornecer cobertura, restrição, e uma plataforma para entendimento Outros desafios: – Adaptação (longo-termo → termo curto) – Modelamento da linguagem e acústico independente do domínio 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 48 MIT Problemas de pesquisa no entendimento da linguagem • • • Variedade de modelos explorados para obter entendimento robusto – Gramáticas completar com retorno a analise robusta (por ex: Seneff) – Gramáticas semânticas, procedimentos baseados no formato (por ex.:, Ward) – Modelos estocásticos voz-significado (por ex.: Miller, Levin et al.) – Trabalho em andamento na aquisição automática da gramática (por ex.: Roukos et al., Kuhn et al.) Mecanismos de Interface – Dois estágios N-melhor / palavra-gráfico vs. pesquisa associada – Como obter entendimento durante a decodificação? Desafios em andamento: – Entendimento da linguagem independente do domínio – Os procedimentos atuais operam com tarefas mais complexas ou mais gerais do entendimento? – Integração de entrada multimodal em um único ambiente de entendimento (por ex.: Cohen, Flanagan, Waibel) 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 49 MIT Alguns problemas de pesquisa em diálogos • • • • • Modelar conversações humano-humano? – São diálogos humano-humano um bom modelo para sistemas? – Se for, como estruturar nosso sistema para prover o mesmo tipo de interação encontrado na conversação humano-humano? Estratégias de implementação: – Dirigido vs iniciativa–mista com retorno (por ex.: Lamel et al.) – Conhecimento automático das estratégias de diálogo (por ex.: Levin et al.) Manuseio de fenômenos no diálogo – Interrupções, anáfora, elipses – Interrupções (atropelamentos de palavras) podem incrementar a complexidade do discurso Agente de modelagem de fenômenos no diálogo – Canal de volta (por ex.: N. Ward) Outros problemas: – Detecção e recuperação de erros (por ex.: Walker et al.) – Casar capacidades com expectativas 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 50 MIT • • • • Conclusões Sistemas para diálogo falado são necessários devido a: – Miniaturização de computadores – Aumento de conectividade – Desejo humano da comunicação Para serem realmente úteis estas interfaces devem ser conversacionais por natureza – Incorporar competência lingüística, tanto na entrada como na saída – Ajudar pessoas para resolver eficientemente problemas Sistemas com capacidade limitada estão emergindo Muita pesquisa deve ainda ser feita 6.345 Sistema de Reconhecimento de Voz Sistemas Conversacionais 51