Slides - Linguateca

Propaganda
Cortex Intelligence:
Encontro HAREM
15 de Julho de 2006
1
Agenda
1
O CORTEX
Importantes Informações
2
ARQUITETURA
 Macro Módulos
3
EXEMPLOS
Versões
2
Agenda
1
O CORTEX
Importantes Informações
2
ARQUITETURA
 Macro Módulos
3
EXEMPLOS
Versões
3
Informações Importantes sobre o Cortex
• Desenvolvido totalmente em Java.
• É um sistema dinâmico, cibernético e
evolucionário.
– Dinâmico porque varia com o tempo.
– Cibernético porque é auto-controlado e
retroalimentado.
– Evolucionário porque trata os lexemas como
genes da linguagem. Eles concorrem entre si
pelo uso e morrem pelo desuso.
4
Informações Importantes sobre o Cortex
• Baseado em modelos cognitivos,
linguísticos e estatísticos.
– Cognitivos porque utiliza estratégias
inspiradas na psicologia cognitiva.
– Linguísticos porque utiliza morfologia,
semântica e sintaxe.
– Estatísticos porque utiliza frequência para
calcular probabilidades condicionais.
5
Informações Importantes sobre o Cortex
• Utiliza léxico.
• Aprende automaticamente novos lexemas ou
novos usos para os lexemas.
• Fácil de incorporar informações de domínio
manualmente.
• Fácil de incorporar tesauros de conhecimento
(gazetter).
• Dependente de língua.
• Modelo não-supervisionado.
• Não necessita de corpus anotado.
6
Ontologia Pré-definida
As setas indicam os pré-requisitos.
Compostos
Funcionais
Substantivo
Verbo
Qualificador
Det
Números
Nomes Próprios
Data
Pessoa
Geografia
Organização
Ex. Os nomes próprios utilizam a informação da categoria verbo.
7
Aprendizado não-Supervisionado
Animação ilustrando o comportamento do Cortex no tempo.
texto
Lexemas Iniciais
texto
texto
Leitura
Atuais Lexemas
Fluxo contínuo de textos sendo consumidos/processados.
8
Evolução do Aprendizado Lexical
Ontologia
Nomes Próprios
Verbo
Substantivo
* Note que no início o Cortex aprendeu muitos verbos e, com o tempo,
novos verbos (previamente desconhecidos) se tornam mais raros.
9
Agenda
1
O CORTEX
Importantes Informações
2
ARQUITETURA
 Macro Módulos
3
EXEMPLOS
Versões
10
Pipeline
Cortex
Tradicional
texto
XML
texto
XML
Sequência de Processamento
Independente
Processamento Colaborativo
11
Macro Modelos
• Baseado na distinção entre Princípios e
Parâmetros de Chomsky.
• Requer uma ontologia de conhecimento dos
textos como, por exemplo, a do HAREM.
• Três grandes módulos.
– O primeiro com algoritmos independentes de língua.
– O segundo com algoritmos dependentes da língua
escrita e o terceiro com interfaces de ajuste fino.
– A interface do terceiro módulo pode ser utilizada para
inserir regras manualmente usando a API do Cortex.
12
Macro Módulos
Cortex Intelligence’s Entity Recognition
4
Local
Domain
Legends
2
Language
Domain
1
Universal
Rules Manager
Medical
Context
Domain
Law
3
Business
Advanced Development Stage
Portuguese
Intermediary Development Stage
Initial Development Stage
Planned, but not initiated
English
Principles Engine
13
Conceptual Foundations
Cortex Entity Extractor
6
Entity Classification
5
Entity Recognition
4
Lexicon
3
Pattern Recognition
2
Tokenizer
Textual Documents
1
Coleção Dourada
Lexicon
Usage
Commments
• Entity Classification
High quality lexemes, labeled and
classified. Known lexemes are
updated and new lexemes are inserted
on lexicon.
• Entity Recognition
Probability estimation of word groups
(lexemes) are recognized by a rulebased system and lexicon verification.
• Guessing Part-Of-Speech
The first layer groups tokenstream on
words discarding only whitespace
character.
14
Dinamic System
Tokenizer
Grouping
Structure
Coreference
Tagging
RAM
HD
Lexicon
Lexicon
Knowledge Base
15
Dois tipos de Processamento
Tempo Real (100 ms/página)
Modo Aprendizado (1 s/página)
16
Agenda
1
O CORTEX
Importantes Informações
2
ARQUITETURA
 Macro Módulos
3
EXEMPLOS
Versões
17
Exemplos
REM e CEM em Notícias
Pessoas
18
Exemplos
19
Exemplos de Saída XML
20
O que mudou da Versão 1.0 para a 1.1?
• Interface que permite a especificação das tags
de saída.
– Pode-se utilizar a opção de não rotular determinadas
categorias da ontologia.
– Isso foi útil para diminuir a sobre-geração do Cortex.
• Melhor resolução de correferências utilizando
probabilidade.
• Maior acúmulo de cohecimento semântico e
sintático dos textos lidos desde 2005.
21
Idealizador
Christian Nunes
:: Coordenador de P&D
Área de Pesquisa: Mineração de Textos
Doutorando – ICA/ELE/PUC-Rio
Bacharel em Psicologia – PUC-Rio
MSc – Estatística, Otimização e Controle (SAD) – ELE/PUC-Rio
Engenheiro de Sistemas de Apoio à Decisão – SAD – PUC-Rio
Experiência Profissional em DataMining
22
Cortex Intelligence
www.cortex-intelligence.com
[email protected]
Tel: (21) 3114 - 1801
Fax: (21) 3114 – 1805
Rua Marquês de São Vicente, 225
Gávea, Rio de Janeiro, RJ
22451-041
23
Download