Corpógrafo – presente e futuro

Propaganda
Criando corpora pessoais
Corpógrafo – presente e
futuro
Belinda Maia
PRESENTE
Corpógrafo

Um conjunto de ferramentas que
permitem:
• Criar corpora
• Analisar corpora
• Extrair e catalogar itens linguísticos
• Armazenar o material estudado
• Exportar os resultados
Corpógrafo

Versão online:
• Tem todas as funções
• Cada pessoa ou grupo trabalha num espaço
•

próprio
O trabalho de cada espaço é privado
Versão descarregável
• Tem de pedir licenças para certas funções
• Não compatível com Windows
Criar corpora





Colecção de textos
Limpeza de formatação – e.g. .doc, .pdf, .ps,
.html
Fraseamento do texto
Dicionário
Registo de metadata
•
•
•
Referências bibliográficas, fontes, etc
Classificação - ‘medium’, género, domínio
Língua
Criar corpora






Organização – e reorganização - de
textos em corpora
Registo de metadata
Relacionar corpora
Alinhamento de textos paralelos
Criação de corpora paralelos
Exportação de corpora
Analisar corpora




Concordância frase – frase inteira
Concordância Janela – até 15 átomos
de cada lado
Concordância KWIC – até 15 átomos ou
100 caráteres
N-grams – até 15 – ordem alfabética /
frequência
Concordâncias

Pode ver

Em concordância janela – pode
reorganizar por colunas à esquerda ou
direita
• Metadata do texto fonte
• Estatísticas do átomo / frase no corpus
• Outra forma de concordância
Tipos de pesquisa


Por expressões regulares MySQL
Por PoS NooJ – em Francês, Inglês ou
Português
• Utiliza dicionários etiquetados

Por sequências de expressões regulares
ou gramáticas NooJ
Centro de conhecimento

Bases de dados terminológicas

Bases de dados fraseológicas
• Objectivo original – extracção de terminologia
• Objectivo mais recente – permitir extracção e
classificação de
• Itens do léxico geral
• Expressões multi-palavras
Bases de dados terminólogicas




BDs - multilingual
Ferramentas:
• n-gram com filtros para extracção de ‘candidatos a
termos’
• Possibilidade de pesquisar definições e relações
semânticas
• Escolha de termos > traz metadata do corpus
Dados terminológicos – registo de informação
Material multimedia
Informação em BD

Geração de estatísticas dos termos

Ferramenta para ‘bootstrapping’ textos a
partir de termos escolhidos
Concordância de corpora comparáveis
Criação de relações semânticas pelo
pesquisador


• Frequência
• Co-ocurrência em textos
BDs Fraseológicas





Algumas funções iguais ou semelhantes às
BDs terminológicas
MAS
Pesquisa com gramáticas NooJ – resultados >
BD
Relações discursivos (Rhetorical Structure
Theory)
Possibilidade de criar classificações do
investigador
Exportação de dados


Exportação de corpora
Exportação de BDs
FUTURO
Funcionamento




Acelerar processamento
Tornar possível manuseamento de maior
quantidade de dados
Permitir mais interacção entre áreas
privadas quando desejado
Criar possibilidade de projectos em
grupo mais sofisticados
Textos e corpora




Ferramenta para ‘bootstrapping’ de textos na
Net na área de ‘uploading’ textos
Criar possibilidades de aceitar mais tipos de
ficheiros - .docx, ppt, pptx, etc
Criar possibilidade de utilizar Corpografo com
línguas como polaco, russo, grego, e até árabe
e chinês etc
Melhorar sistema de limpeza de textos
Listas do léxico


Actualmente podemos criar um
‘dicionário’ de cada texto ou corpus
Criar
• ‘standard wordlists’ para comparação
• + sistema estatística relacionado
• Etiquetagem PoS automática +
ferramentas de correcção
Pesquisa de corpora



My SQL - aumentar possibilidades com
mais exemplos e tutorial próprio – para
linguístas 
Possibilidades de utilizar vários
sistemas (semi-)automáticos de
anotação
Integração de uma ferramenta que
permite ao utilizador criar a sua
própria anotação
Outras Ideias



Aumentar possibilidades de criar relações
•
•
Sintácticos
Semânticos
Criar possibilidades de visualizar as
relações estabelecidos
Usar métodos estatísticos para criar ‘word
clouds’ para futuro estudo e análise por
linguístas > melhores ferramentas para
data mining
Aproveitar





Wordnet – original e em PT
Framenet – original e em PT
Outros maneiras ‘linguísticas’ de analisar
a linguagem
……
Sistemas informáticos > word clouds
Por exemplo

http://news.bbc.co.uk/2/hi/americas/7
813432.stm

What words did George Bush use
most during this eight-year
presidency?
Wortschatz –
Univ. Leipzig

http://corpora.informatik.unileipzig.de/?dict=uk
• Computational
• Linguistics
• Artificial
• Intelligence
Download