Cortex Intelligence: Encontro HAREM 15 de Julho de 2006 1 Agenda 1 O CORTEX Importantes Informações 2 ARQUITETURA Macro Módulos 3 EXEMPLOS Versões 2 Agenda 1 O CORTEX Importantes Informações 2 ARQUITETURA Macro Módulos 3 EXEMPLOS Versões 3 Informações Importantes sobre o Cortex • Desenvolvido totalmente em Java. • É um sistema dinâmico, cibernético e evolucionário. – Dinâmico porque varia com o tempo. – Cibernético porque é auto-controlado e retroalimentado. – Evolucionário porque trata os lexemas como genes da linguagem. Eles concorrem entre si pelo uso e morrem pelo desuso. 4 Informações Importantes sobre o Cortex • Baseado em modelos cognitivos, linguísticos e estatísticos. – Cognitivos porque utiliza estratégias inspiradas na psicologia cognitiva. – Linguísticos porque utiliza morfologia, semântica e sintaxe. – Estatísticos porque utiliza frequência para calcular probabilidades condicionais. 5 Informações Importantes sobre o Cortex • Utiliza léxico. • Aprende automaticamente novos lexemas ou novos usos para os lexemas. • Fácil de incorporar informações de domínio manualmente. • Fácil de incorporar tesauros de conhecimento (gazetter). • Dependente de língua. • Modelo não-supervisionado. • Não necessita de corpus anotado. 6 Ontologia Pré-definida As setas indicam os pré-requisitos. Compostos Funcionais Substantivo Verbo Qualificador Det Números Nomes Próprios Data Pessoa Geografia Organização Ex. Os nomes próprios utilizam a informação da categoria verbo. 7 Aprendizado não-Supervisionado Animação ilustrando o comportamento do Cortex no tempo. texto Lexemas Iniciais texto texto Leitura Atuais Lexemas Fluxo contínuo de textos sendo consumidos/processados. 8 Evolução do Aprendizado Lexical Ontologia Nomes Próprios Verbo Substantivo * Note que no início o Cortex aprendeu muitos verbos e, com o tempo, novos verbos (previamente desconhecidos) se tornam mais raros. 9 Agenda 1 O CORTEX Importantes Informações 2 ARQUITETURA Macro Módulos 3 EXEMPLOS Versões 10 Pipeline Cortex Tradicional texto XML texto XML Sequência de Processamento Independente Processamento Colaborativo 11 Macro Modelos • Baseado na distinção entre Princípios e Parâmetros de Chomsky. • Requer uma ontologia de conhecimento dos textos como, por exemplo, a do HAREM. • Três grandes módulos. – O primeiro com algoritmos independentes de língua. – O segundo com algoritmos dependentes da língua escrita e o terceiro com interfaces de ajuste fino. – A interface do terceiro módulo pode ser utilizada para inserir regras manualmente usando a API do Cortex. 12 Macro Módulos Cortex Intelligence’s Entity Recognition 4 Local Domain Legends 2 Language Domain 1 Universal Rules Manager Medical Context Domain Law 3 Business Advanced Development Stage Portuguese Intermediary Development Stage Initial Development Stage Planned, but not initiated English Principles Engine 13 Conceptual Foundations Cortex Entity Extractor 6 Entity Classification 5 Entity Recognition 4 Lexicon 3 Pattern Recognition 2 Tokenizer Textual Documents 1 Coleção Dourada Lexicon Usage Commments • Entity Classification High quality lexemes, labeled and classified. Known lexemes are updated and new lexemes are inserted on lexicon. • Entity Recognition Probability estimation of word groups (lexemes) are recognized by a rulebased system and lexicon verification. • Guessing Part-Of-Speech The first layer groups tokenstream on words discarding only whitespace character. 14 Dinamic System Tokenizer Grouping Structure Coreference Tagging RAM HD Lexicon Lexicon Knowledge Base 15 Dois tipos de Processamento Tempo Real (100 ms/página) Modo Aprendizado (1 s/página) 16 Agenda 1 O CORTEX Importantes Informações 2 ARQUITETURA Macro Módulos 3 EXEMPLOS Versões 17 Exemplos REM e CEM em Notícias Pessoas 18 Exemplos 19 Exemplos de Saída XML 20 O que mudou da Versão 1.0 para a 1.1? • Interface que permite a especificação das tags de saída. – Pode-se utilizar a opção de não rotular determinadas categorias da ontologia. – Isso foi útil para diminuir a sobre-geração do Cortex. • Melhor resolução de correferências utilizando probabilidade. • Maior acúmulo de cohecimento semântico e sintático dos textos lidos desde 2005. 21 Idealizador Christian Nunes :: Coordenador de P&D Área de Pesquisa: Mineração de Textos Doutorando – ICA/ELE/PUC-Rio Bacharel em Psicologia – PUC-Rio MSc – Estatística, Otimização e Controle (SAD) – ELE/PUC-Rio Engenheiro de Sistemas de Apoio à Decisão – SAD – PUC-Rio Experiência Profissional em DataMining 22 Cortex Intelligence www.cortex-intelligence.com [email protected] Tel: (21) 3114 - 1801 Fax: (21) 3114 – 1805 Rua Marquês de São Vicente, 225 Gávea, Rio de Janeiro, RJ 22451-041 23