Avaliação de Corretores Gramaticais Quanto aos Critérios Gerais de Avaliação: (1) Adequação (adequacy evaluation): considera-se o contexto de uso, de acordo com o usuário-alvo. - Tempo de resposta; Forma de interação; Adequação do diagnóstico e das sugestões; Etc. NILC - Brasil Avaliação de Corretores Gramaticais (2) Diagnóstico (diagnostic evaluation): Visa identificar limitações, erros e deficiências: feita por desenvolvedores. - Nível computacional: o sistema roda? trava? - Nível operacional: ordem das sugestões - Nível ling.-computacional: (a) Em que medida o sistema intervém adequadamente? - % de verdadeiros positivos (intervém corretamente) % de verdadeiros negativos (não intervém quando não deveria) % de falsos positivos (intervém quando não deveria) % de falsos negativos (não intervém quando deveria) NILC - Brasil Avaliação de Corretores Gramaticais (b) Quais as causas dos falsos positivos e falsos negativos? - limitações do parser e/ou tagger e/ou dicionário? ambiguidade léxica ou sintática? falta de consenso quanto à norma? falta de informação semântica? limitações de abrangência (tipo de erro não tratado?) NILC - Brasil Avaliação de Corretores Gramaticais (3) Desempenho (performance evaluation): avaliação dos custos computacionais de processamento: uso de memória e tempo de execução versus recursos e técnicas utilizadas. NILC - Brasil Avaliação de Corretores Gramaticais Recursos para o Diagnóstico: - Corpus anotado de sentenças com e sem erros, que seja representativo, autêntico e balanceado quanto à frequência dos erros. - Tagset para a marcação do corpus. - Ferramenta para avaliação automática. Desafios: - Construção do corpus marcado; - Análise qualitativa das causas de mau desempenho. NILC - Brasil Avaliação de Corretores Gramaticais Desafios para a Avaliação Conjunta: - Definição do tagset: dependente do conjunto de erros tratados; - Construção do corpus: balanceamento depende da frequência relativa, da tipologia e gênero textual (diferenças no caso de Brasil e Portugal?) NILC - Brasil Avaliação de Corretores Gramaticais Avaliação do ReGra (Office 2000 e XP): Corpus etiquetado e formado de 11.624 sentenças reunidas de forma aleatória; 2.626 (22,5%) apresentam pelo menos um desvio em relação à norma-padrão da língua portuguesa, de acordo com a tipologia de problemas proposta pela ferramenta. NILC - Brasil