ppt - Linguateca

Propaganda
HAREM 2.0
Proposta
Luís Sarmento e Cristina Mota
•
•
•
•
•
Objectivos
Pistas
Tarefas
Constituição das colecções de trabalho
Metodologia de avaliação
Objectivos
(Reconhecemos a importância do HAREM
para o desenvolvimento na área em português)
• Abrir a discussão à comunidade
relativamente ao futuro do REM
• Estabelecer um roteiro com objectivos em
termos de extracção de informação
• Propor um conjunto de extensões e de
alterações que nos parecem realistas e
alcançáveis no prazo de um ano
Pista Robusta 1
• Descrição
– Detecção e Classificação de EM em textos sem
capitalização
• Motivações
– Permitir REM sobre texto que não possui originalmente
informação acerca da grafia ou a grafia é irregular:
• gerado por um reconhecedor de voz
• mails, blogs, etc.
– Obrigar à definição/caracterização de EM sem recorrer
ao uso da capitalização
• [m|M]inistro dos Negócios Estrangeiros
• [c|C]onstante de Planck
Pista Robusta 1 [Implicações]
• Levanta imensos problemas na determinação da
delimitação das EM, sendo necessário caracterizar
com maior precisão a tarefa
• A identificação terá de ser mais inteligente
– análise do contexto muito mais importante
– utilização de certos recursos lexicais para “identificar”
inícios / fins…
– Poderá diluir a diferença entre “Identificar” e
“Classificar”
Pista Robusta 2
• Descrição
– Teste dos sistemas em várias colecções datadas de
forma diferente mas do mesmo género e domínio
• Motivação
– Verificar de que forma os sistemas se comportam
quando expostos a variações na dimensão temporal
– Ajudar a testar a importância da actualização (ou não)
dos almanaques ou das regras
Pista Robusta 2 [Problemas]
• Será que a definição actual das tarefas é
apropriada à realidade de outras épocas?
• Como isolar o impacto prático das variações
no eixo tempo?
• Como garantir que a colecção permite isolar
o factor tempo?
Tarefas
•
•
•
•
•
Identificação
Classificação Semântica
Classificação Morfológica
Papel semântico
Extra: Capitalização (Pista Robusta)
Tarefa Extra [Capitalização]
• Descrição
– Corrigir/uniformizar a capitalização de entidades
mencionadas em textos sem capitalização
• Motivação
– Tarefa essencial de pós-processamento em sistemas de
reconhecimento de fala, como por exemplo sistemas de
ditado e legendagem
Tarefa “Alargada”
•
Descrição:
– Marcação de todas as menções a uma entidade, sejam, nomes próprios, nominais ou
pronominais
• Ergónimos, nacionalidades, “categorias”:
–
–
–
–
•
… <Diana Santos>, {investigadora portuguesa}…
A {multinacional americana} <Microsoft>…
A <Fundação Oriente> ... porque nesta {instituição} ...
<Pauleta> afirma ... até porque a equipa nao {o} apoiou.
Motivações:
– Estes elementos são muito importante para:
• Extracção de Informação (factoides, definições)
• RAP: a resposta pode não ser uma EM mas algo muito relacionado e “fácil” de marcar
– Preparação para uma futura tarefa [Harem 3.0] que inclua a detecção de coreferência
– Aguçar o apetite para tarefas de “chunking”
Mas não é complicado?
• Em certos casos não, porque pode já estar incluído na
regra de classificação da EM:
• … <Diana Santos>, {investigadora portuguesa}…
• Noutros casos é porque as categorias podem ser
abertas… mas pode ser muito interessante começar a
produzir corpora com toda esta marcação
Tarefa “3 em 1”
• Até agora considerou-se 2 tipos de marcação:
– Morfológica
– Semântica (2 níveis: classe e tipo)
• Durante a discussão das regras houve bastante
polémica acerca da filosofia da marcação
• Mas pensamos que toda a gente concordará a
vantagem de marcar as entidades como elas são
“mencionadas”
– O HAREM foi mais longe que outras avaliações
Tarefa “3 em 1”
• Contudo, houve na nossa opinião uma mistura de dois
factores na marcação semântica:
– Classificação & Papel Semântico
• “Portugal acusa Bruxelas de ser parcial na atribuição
de verbas aos países membros”
– Como deve ser marcado semanticamente “Portugal”?
– ORG? Segundo as regras do HAREM sim…
– Depreende-se que “Portugal” está a substituir “Governo
Português” que é uma Organização mas este salto ontológico
é “arriscado”
• Porque…
Porque…
•
Qual será a pergunta natural?…
1. “Quem acusou Bruxelas de ser parcial…?”
2. “Que país acusou Bruxelas de ser parcial…?”
•
“Portugal, o país produtor de Vinho do Porto,
acusa Bruxelas de ser parcial na atribuição de
verbas aos países membros”
Então…
•
Porque não decompor a classificação semântica
em dois eixos:
1. Classificação semântica “intrínsica”
2. Papel Semântico
•
•
“Portugal acusa Bruxelas de ser parcial na
atribuição de verbas aos países membros”
Portugal:
1. GEOPOL::País (não arrisco dizer LOC ou ORG)
2. Papel: Agente
Um esclarecimento
• Note-se que não há “perda” da noção de
“forma de menção”: ainda estamos a falar
de “entidades mencionadas”
• Pode haver vários papéis:
– “agente”
– “paciente” / “objecto”…
• Podem ser acrescentados / especializados há
medida que se torne interessantes
Implicações…
• Pode levar a ter que repensar a estrutura de
classificação do HAREM
• Pode ser que se resolvam algumas
“ambiguidades”… e que se criem outras?
• Permite olhar para a marcação de uma forma mais
rica.
• Obriga a uma análise mais profunda,
provavelmente implica análise sintáctica e
semântica
Metodologia de Avaliação
• Várias Colecções Douradas
– pretende-se analisar a consitência do resultado de cada
em sistema em diversas colecções cujas propriedades
são neste momento complexas de caracterizar e que
portanto podem ter idiossincrasia especificias
– Será que os sistemas apresentam oscilações
significativas em diferentes colecções.
Download