HAREM 2.0 Proposta Luís Sarmento e Cristina Mota • • • • • Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação Objectivos (Reconhecemos a importância do HAREM para o desenvolvimento na área em português) • Abrir a discussão à comunidade relativamente ao futuro do REM • Estabelecer um roteiro com objectivos em termos de extracção de informação • Propor um conjunto de extensões e de alterações que nos parecem realistas e alcançáveis no prazo de um ano Pista Robusta 1 • Descrição – Detecção e Classificação de EM em textos sem capitalização • Motivações – Permitir REM sobre texto que não possui originalmente informação acerca da grafia ou a grafia é irregular: • gerado por um reconhecedor de voz • mails, blogs, etc. – Obrigar à definição/caracterização de EM sem recorrer ao uso da capitalização • [m|M]inistro dos Negócios Estrangeiros • [c|C]onstante de Planck Pista Robusta 1 [Implicações] • Levanta imensos problemas na determinação da delimitação das EM, sendo necessário caracterizar com maior precisão a tarefa • A identificação terá de ser mais inteligente – análise do contexto muito mais importante – utilização de certos recursos lexicais para “identificar” inícios / fins… – Poderá diluir a diferença entre “Identificar” e “Classificar” Pista Robusta 2 • Descrição – Teste dos sistemas em várias colecções datadas de forma diferente mas do mesmo género e domínio • Motivação – Verificar de que forma os sistemas se comportam quando expostos a variações na dimensão temporal – Ajudar a testar a importância da actualização (ou não) dos almanaques ou das regras Pista Robusta 2 [Problemas] • Será que a definição actual das tarefas é apropriada à realidade de outras épocas? • Como isolar o impacto prático das variações no eixo tempo? • Como garantir que a colecção permite isolar o factor tempo? Tarefas • • • • • Identificação Classificação Semântica Classificação Morfológica Papel semântico Extra: Capitalização (Pista Robusta) Tarefa Extra [Capitalização] • Descrição – Corrigir/uniformizar a capitalização de entidades mencionadas em textos sem capitalização • Motivação – Tarefa essencial de pós-processamento em sistemas de reconhecimento de fala, como por exemplo sistemas de ditado e legendagem Tarefa “Alargada” • Descrição: – Marcação de todas as menções a uma entidade, sejam, nomes próprios, nominais ou pronominais • Ergónimos, nacionalidades, “categorias”: – – – – • … <Diana Santos>, {investigadora portuguesa}… A {multinacional americana} <Microsoft>… A <Fundação Oriente> ... porque nesta {instituição} ... <Pauleta> afirma ... até porque a equipa nao {o} apoiou. Motivações: – Estes elementos são muito importante para: • Extracção de Informação (factoides, definições) • RAP: a resposta pode não ser uma EM mas algo muito relacionado e “fácil” de marcar – Preparação para uma futura tarefa [Harem 3.0] que inclua a detecção de coreferência – Aguçar o apetite para tarefas de “chunking” Mas não é complicado? • Em certos casos não, porque pode já estar incluído na regra de classificação da EM: • … <Diana Santos>, {investigadora portuguesa}… • Noutros casos é porque as categorias podem ser abertas… mas pode ser muito interessante começar a produzir corpora com toda esta marcação Tarefa “3 em 1” • Até agora considerou-se 2 tipos de marcação: – Morfológica – Semântica (2 níveis: classe e tipo) • Durante a discussão das regras houve bastante polémica acerca da filosofia da marcação • Mas pensamos que toda a gente concordará a vantagem de marcar as entidades como elas são “mencionadas” – O HAREM foi mais longe que outras avaliações Tarefa “3 em 1” • Contudo, houve na nossa opinião uma mistura de dois factores na marcação semântica: – Classificação & Papel Semântico • “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” – Como deve ser marcado semanticamente “Portugal”? – ORG? Segundo as regras do HAREM sim… – Depreende-se que “Portugal” está a substituir “Governo Português” que é uma Organização mas este salto ontológico é “arriscado” • Porque… Porque… • Qual será a pergunta natural?… 1. “Quem acusou Bruxelas de ser parcial…?” 2. “Que país acusou Bruxelas de ser parcial…?” • “Portugal, o país produtor de Vinho do Porto, acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” Então… • Porque não decompor a classificação semântica em dois eixos: 1. Classificação semântica “intrínsica” 2. Papel Semântico • • “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” Portugal: 1. GEOPOL::País (não arrisco dizer LOC ou ORG) 2. Papel: Agente Um esclarecimento • Note-se que não há “perda” da noção de “forma de menção”: ainda estamos a falar de “entidades mencionadas” • Pode haver vários papéis: – “agente” – “paciente” / “objecto”… • Podem ser acrescentados / especializados há medida que se torne interessantes Implicações… • Pode levar a ter que repensar a estrutura de classificação do HAREM • Pode ser que se resolvam algumas “ambiguidades”… e que se criem outras? • Permite olhar para a marcação de uma forma mais rica. • Obriga a uma análise mais profunda, provavelmente implica análise sintáctica e semântica Metodologia de Avaliação • Várias Colecções Douradas – pretende-se analisar a consitência do resultado de cada em sistema em diversas colecções cujas propriedades são neste momento complexas de caracterizar e que portanto podem ter idiossincrasia especificias – Será que os sistemas apresentam oscilações significativas em diferentes colecções.