Indexação Automática e Etiquetadores parte do

Propaganda
Indexação Automática e
Etiquetadores parte do discurso
(POS tagger)
Equipe: Camila Oliveira
Celson Farias
Maxwell Francisco
Linguistica Computacional
 Originada em meados de 1950
 Buscam desenvolver sistemas com capacidade de
reconhecer e produzir informação apresentada em
linguagem natural.
 Preocupam-se diretamente com o estudo da linguagem
voltado para a construção de softwares e sistemas
computacionais específicos, como tradutores
automáticos, chatterbots, parsers, reconhecedores
automáticos de voz, geradores automáticos de resumos
etc.
Indexação automática
 Na indexação automática, segundo Santos e Ribeiro
(2003), um programa de computador, adotando
critérios de freqüência, extrai palavras, expressões ou
radicais de palavras do texto para representar o seu
conteúdo como um todo.
 Lancaster (2004, p. 286-290) define dois tipos
diferentes de indexação automática. A indexação por
extração automática e a indexação por atribuição
automática.
Indexação na Recuperação da informação
Etiquetadores Parte do Discurso (POS
tagger)
 Sistemas que exercem a função de percorrer
todo o texto etiquetando todas as palavras
segundo sua categoria gramatical,
 Envolve uma análise da palavra segundo o
contexto que a mesma se encontra, como por
exemplo, definir a sua relação com as palavras
adjacentes em uma frase ou em um parágrafo.
Exemplo do POS tagger
 "O meu tio é português" e observe os resultados
para as ferramentas etiquetadoras em questão:
 I) TreeTagger: "o/DET meu/ADJ tio/NOM é/V
português/ADJ"
 II) Ogma: "o/AD meu/PS tio/SU é/VB
português/AJ"
Conclusão
 As ferramentas de etiquetas POS juntamente
com suas ferramentas auxiliadoras vieram
também para aprimorar a Lingüística
Computacional no que diz respeito à indexação,
armazenamento e recuperação de informações,
pois, um dos fatores que dificultava esse
processo, é a ambigüidade dos termos.
Download