CitationFinder: Um Sistema Baseado em

Propaganda
CitationFinder: Um Sistema Baseado em Conhecimento para
Classificação de Páginas de Publicações na Web
Mariana Lara Neves, Flávia de Almeida Barros
Centro de Informática - Universidade Federal de Pernambuco
Caixa Postal 7851 – 50.732-970 - Recife - PE - Brazil
{mln, fab}@cin.ufpe.br
http://www.cin.ufpe.br/{~mln, ~fab}
Abstract. This regularity allows the automatic identification of such pages by
computational systems based on domain knowledge. The work presented here
describes the CitationFinder, a knowledge-based system for the automatic
classification of Web pages which contain citations of technical and scientific
publications. The systems counts on a knowledge base of production rules with
associated certainty factors, to improve the system's precision. This knowledge
base was constructed by analyzing a corpus of 1.000 pages. The system's
performance was very satisfactory: 88,6% precision and 97% recall for a test
corpus of 300 pages.
Resumo. Este trabalho descreve um sistema baseado em conhecimento para a
classificação automática de páginas Web contendo citações de publicações
técnicas e científicas, o CitationFinder. O sistema conta com uma base de
regras de produção com fatores de certeza associados, a fim de melhorar a
precisão dos resultados. Esta base foi construída a partir da análise de um
corpus de 1.000 páginas Web. O desempenho do sistema foi bastante
satisfatório: 88,6% de precisão e 97% de cobertura para um corpus de teste
de 300 páginas.
1. Introdução
O aumento vertiginoso, nas últimas duas décadas, da quantidade de repositórios de
documentos digitalizados, tais como bibliotecas digitais, Intranets e a Internet, facilitou
imensamente o rápido acesso a informações atualizadas sobre os mais diversos assuntos.
Contudo, este crescimento descontrolado e desordenado trouxe problemas inexistentes
nos antigos sistemas para armazenamento e recuperação de informação. Uma
dificuldade séria a se enfrentar é a localização de documentos relevantes na Internet (em
especial, na World Wide Web). Como sabemos, a precisão dos sistemas de busca
existentes (e.g., Radix , Altavista ) não é muito boa, levando o usuário, algumas vezes, a
perder horas para localizar documentos de seu interesse.
Para facilitar as buscas, uma solução seria a adoção de hierarquias de classes, de
forma que os documentos indexados pelos engenhos de busca estivessem associados a
uma ou mais classes pré-fixadas, como é o caso das bibliotecas digitais. Até o momento,
contudo, tal solução não se mostrou viável, devido a [Barros et al. 1998]: imensa
quantidade de assuntos presentes nas páginas Web; dificuldade em se identificar
automaticamente a(s) classe(s) de cada documento, falta de uma hierarquia geral de
consenso.
Contudo, é possível a identificação de classes (domínios) de documentos na
Web que exibem alguma regularidade no formato e no conteúdo apresentados,
possibilitando, ainda que árdua, a tarefa de classificá-los automaticamente. Exemplos
desses domínios são: páginas de hotéis, de restaurantes, de universidades, de chamadas
de conferências, de produção científica, entre outras.
Este trabalho apresenta um sistema para a classificação automática de páginas
Web contendo citações de publicações técnicas e científicas, o CitationFinder [Neves
2001]. Páginas recuperadas a partir de consultas a engenhos de busca existentes na Web
são classificadas e armazenadas em um banco de dados, ficando disponíveis para acesso
via Web. A escolha deste domínio deveu-se, principalmente, a três fatores: (1) existe
uma grande quantidade desse tipo de página na Web, o que demonstra o interesse dos
usuários pelo tópico; (2) essas páginas exibem alguma regularidade no seu formato de
apresentação dos dados, o que possibilita o seu reconhecimento automático.
O sistema foi implementado como um plug-in para engenhos de busca, a fim de
não duplicar esforços na indexação dos documentos disponíveis na Web. O classificador
foi construído com base em técnicas da Inteligência Artificial Simbólica, contando com
uma base de regras de produção com fatores de certeza associados, a fim de melhorar a
precisão dos resultados. A base de conhecimento foi construída a partir de um corpus de
1000 documentos coletados e etiquetados manualmente.
O sistema construído possui diversas vantagens, como a portabilidade,
modularidade, extensibilidade (reusabilidade) e facilidade de uso. O protótipo foi
implementado em Java e a base de regras é executada pela máquina de inferência
JEOPS [Figueira Filho & Ramalho 2000], implementada também em Java. O
CitationFinder apresentou resultados muito satisfatórios: 88,6% de precisão e 97% de
cobertura. De moda a melhor avaliar os resultados, foram realizados experimentos
comparativos com três algoritmos de aprendizagem de máquina (Árvores de Decisão,
Regras de Indução e Naive Bayes).Os resultados obtidos com estes algoritmos foram
equivalentes ou inferiores às taxas obtidas com o CitationFinder, o que comprova a
eficiência da abordagem adotada.
A próxima seção descreve alguns trabalhos relacionados, seguida da seção 3 que
apresenta, de forma sucinta, o estado da arte em classificação automática de texto. A
seção 4 apresenta o sistema CitationFinder, seguida da seção 5, com detalhes de
implementação do protótipo. A seção 6 mostra a avaliação do protótipo e descreve os
experimentos com aprendizagem de máquina, detalhando os resultados obtidos em cada
abordagem. Finalmente, a seção 7 traz conclusões e indicações de trabalhos futuros.
2. Trabalhos Relacionados
Apesar da grande demanda, poucos são os sistemas disponíveis na Internet que lidam
com publicações científicas. Foram identificados quatro sistemas para este fim: o
WebFind [Monge & Elkan 1996], o Cora [McCallum et al. 2000], o CiteSeer [Bollacker
et al. 1998] e o CiFi [Loke et al. 1996].
O WebFind é um sistema para localização na Internet de documentos científicos
a partir dos nomes dos autores. Ele utiliza duas fontes externas de informação: o
MELVYL, um serviço de biblioteca da Universidade de Califórnia e o NetFind, um
serviço que oferece o provedor de Internet e o endereço eletrônico do autor. Primeiro, o
usuário informa o artigo desejado (por uma combinação dos nomes dos autores,
palavras do título, etc.), então o WebFind faz uma consulta ao INSPEC para recuperar a
afiliação institucional do(s) autor(es), e finalmente usa o NetFind para localizar o
endereço na Internet desta afiliação. Uma vez que o servidor foi identificado, WebFind
segue os links até o artigo desejado seja localizado. A principal desvantagem do
WebFind é que ele só cobre documentos cujas as afiliações de autores estejam presentes
no banco de dados de MELVYL.
O Cora é um engenho de busca específico para a localização de produção
científica da área de Ciência da Computação. Ele utiliza um robô que percorre a Web a
partir das páginas dos departamentos e laboratórios de Ciência da Computação, e coleta
todos os documentos no formato Postscript. Estes documentos são analisados para a
extração de informação (título, nomes de autores e afiliações, resumo e referências).
Cada referência individual é isolada e todas as citações para o mesmo artigos e são
associadas ao mesmo. Os documentos coletados são classificados sob uma hierarquia de
categorias da Ciência da Computação, e são armazenados em um banco de dados
específico, disponível por para busca por palavras-chave. O sistema é limitado à área da
Ciência da Computação e aos arquivos dos artigos, ignorando aquelas citações que não
contêm um link para o arquivo correspondente.
O CiteSeer consiste em três componentes principais: um agente para
automaticamente localizar e coletar publicações no formato Postscript ou HTML por
meio de consultas aos engenhos de busca tradicionais; um parser para a extração de
algumas informações (URL, cabeçalho, resumo, introdução, citações) dos documentos
carregados; e uma interface de acesso à base de dados do sistema. Adicionalmente, este
sistema agrupa citações para um mesmo artigo e tenta localizar documentos
relacionados ao mesmo assunto. Diferentemente do Cora, o CiteSeer permite não só a
busca por documentos que possuem seu respectivo arquivo, mas também pelas citações
que aparecem nesses documentos, mesmo que o sistema não possua o arquivo desta
citação em sua base.
O CiFi utiliza um agente inteligente para a busca de citação de publicações na
área de Ciência da Computação. O usuário tem que informar o autor e o título do artigo
e então o CiFi executa quatro estratégias alternativas: procura a versão em HTML do
artigo (por meio de consulta ao Lycos); procura a página pessoal do autor (também
através do Lycos); procura a página do departamento de Ciência da Computação do
autor; ou procura arquivos de relatório técnicos (o Unified Computer Science Technical
Reports e o Networked Computer Science Technical Reports Library ). A principal
desvantagem do CiFi é que ele requer o título e o autor do artigo, não permitindo a
busca por documentos relacionados a um determinado assunto, sendo ainda limitado à
área da Ciência da Computação.
3. Classificação Automática de Documentos
Duas são as técnicas existentes para a construção de classificadores: a criação manual
de sistemas baseados em conhecimento, ou por aprendizagem automática. Em geral, os
sistemas baseados em conhecimento são compostos de dois elementos principais: uma
base de conhecimento e um motor de inferência [Russell & Norvig 1995].
Vários são os experimentos e sistemas de classificação de documentos baseados
em técnicas de aprendizagem, como por exemplo: as árvores de decisão [Lewis &
Ringuette 1994], e a aprendizagem de regras [Apté et al. 1994]. A aprendizagem
Bayesiana também já foi aplicada à classificação de documentos [McCallum et al.
2000], assim como as Redes Neurais Artificiais [Wiener et al. 1995].
Dentre as abordagens de aprendizagem de máquina, a indução de regras é uma
das mais aplicadas à tarefa de classificação de documentos, devido a sua boa precisão.
As regras (manual ou automaticamente construídas) possuem vantagens potenciais,
como melhor capacidade de explanação, um modelo teórico mais forte e o fato de não
serem mutuamente excludentes (como ocorre nas árvores de decisão).
4. CitationFinder
Esta seção apresenta detalhes sobre o CitationFinder, um sistema para meta-busca e
classificação de páginas Web de citações de publicações. Como já comentado, trata-se
de um sistema baseado em conhecimento construído manualmente. A escolha da
abordagem baseada em conhecimento deveu-se, principalmente, a dois aspectos: (1)
trabalhos anteriores na área de classificação de documentos mostravam que os sistemas
baseados em conhecimento [Hayes & Weinstein 1990] conseguiam obter resultados
superiores aos de sistemas construídos automaticamente por aprendizagem [Lewis &
Ringuette 1994; Wiener et al. 1995; Apté et al. 1994]; e (2) a consideração de relações
estruturais (ordem de palavras, localização de termos em tags específicas) é mais
facilmente implementada por meio de regras escritas manualmente, uma vez que a
aprendizagem automática dessas características só é possível por meio da lógica de
primeira ordem, que demanda o uso de algoritmos de ordem exponencial [Zucker &
Ganascia 1998].
O CitationFinder objetiva a busca de páginas Web de publicação, isto é, páginas
HTML que contenham citações de publicações, independente da presença ou não de
seus respectivos arquivos (Postscript ou PDF) e da área de pesquisa relacionada. Todo o
processamentos dos documentos é feito off-line, de modo que o único processo on-line é
a busca na sua base de índices. A fim de evitar o trabalho e o custo de indexar a Web
diretamente, o CitationFinder realiza "meta buscas" através de engenhos de busca
disponíveis (e.g., Yahoo, Radix). Assim sendo, o classificador executa consultas
baseadas em palavras-chave do domínio, e classifica as páginas eletrônicas (em HTML)
retornadas (cf. Figura 1), armazenando-as em uma base de índices específica, e,
portanto, devolvendo ao usuário apenas as páginas que contêm citações de publicações
(cf. Figura 2).
Web
Consulta
Engenhos de Busca
tradicionais
Base de Índices
Específica
Busca por
palavras-chave do domínio
CitationFinder
URLs reconhecidas
positivamente
)LJXUD$UTXLWHWXUDJHUDOGDVROXomRDGRWDGD
Como todo sistema baseado em conhecimento, a construção do CitationFinder
seguiu quatro etapas de desenvolvimento [Turban 1992]: aquisição de conhecimento,
formalização da base de conhecimento, implementação e testes (validação). Veremos a
seguir detalhes sobre as três primeiras etapas de desenvolvimento.
4.1 Aquisição do Conhecimento
A aquisição do conhecimento necessária para a construção das bases de conhecimento
foi realizada com base em um corpus de 1000 páginas eletrônicas, sendo 700 positivas
(páginas de publicação) e 300 negativas. Este corpus foi manualmente coletado através
da análise de páginas retornadas por meta-buscas a engenhos de busca disponíveis na
Web. Em seguida, foi feita uma análise das páginas selecionadas, a fim de
identificarem-se suas regularidades (que permitiriam a identificação automática de tais
páginas).
A principal característica identificada foi a presença de blocos de citação,
geralmente dispostos como uma lista numerada ou não (cf. Figura 2). Casos onde os
blocos de citações estão separados apenas por parágrafos também são bastante
encontrados, e, menos freqüentemente, encontram-se blocos inseridos em uma tabela,
onde cada linha corresponde a um bloco.
)LJXUD ([HPSOR GH XPD SiJLQD GH SXEOLFDomR FRP EORFRV GH FLWDo}HV
DSUHVHQWDGRVVREDIRUPDGHXPDOLVWDQXPHUDGD
4.2 Formalização e Implementação das Bases de Conhecimento
O processamento das páginas no CitationFinder pode ser feito em duas etapas, sendo a
primeira obrigatória e a segunda opcional (ver seção 4). As bases de conhecimento do
sistema foram formalizadas e implementadas como um conjunto de regras de produção.
Este conhecimento adquirido norteou a construção de três bases de conhecimento:
1. uma base de fatos composta por um dicionário de termos do domínio e padrões
sintáticos;
2. uma base de regras para o reconhecimento dos blocos de citação (primeira etapa de
processamento);
3. uma base de regras (com fatores de certeza associados) para a verificação de termos
específicos em grupos de palavras (segunda etapa de processamento).
Dicionário do Domínio
O dicionário de termos do domínio é utilizado nas duas etapas de
reconhecimento das páginas, e constitui peça essencial de conhecimento do domínio.
Através da observação dos exemplos coletados, foram definidas 11 classes de palavras
indicativas de termos usualmente encontrados em páginas de publicações [Neves 2001]:
Geral, Trabalho Impresso, Iniciais, Arquivo, Editora, Data, Volume da Edição, Número
da Edição, Intervalo de Páginas, Localidade e Tipo de Evento.
O dicionário do domínio foi escrito apenas para as línguas portuguesa e inglesa,
com exceção dos nomes de localidades, que foram escritos também na língua de origem
da localidade. Além dessas 11 classes, 6 padrões de termos são verificados, isto é,
cadeias geralmente formadas por uma composição de caracteres específicos e
algarismos: Arquivo (e.g., 1.5MB), Data (e.g., 11-fev-98), Número da Edição (e.g.,
no60), Páginas da Publicação (e.g., pp228-233), Tipo de Evento (e.g., AAAI'90) e
Volume da Edição (e.g., vol60, v22). Estes padrões são tão importantes para o
reconhecimento das páginas quanto as palavras listadas no dicionário do domínio, e por
isso, também podem ser considerados como parte da base de fatos.
Bases de Regras
Como já comentado, duas são as etapas de processamento do sistema, cada uma
com sua base de regras construída para fins específicos. A primeira etapa é responsável
pelo reconhecimento das páginas de publicações através da identificação de cada bloco
de citação isoladamente. Esses blocos podem ser reconhecidos por regras que utilizam
combinações das possíveis cadeias que compõem uma citação (cf. Figura 3).
SE
houver uma cadeia de Tipo de Evento
E houver uma cadeia de Intervalo de Páginas
E houver uma cadeia de Data
ENTÃO o texto é uma citação
)LJXUD([HPSORGHUHJUDSDUDRUHFRQKHFLPHQWRGHXPEORFRGHFLWDomR
A segunda etapa de classificação é responsável pela identificação de termos do
dicionário em grupos de textos, definidos a partir das tags do documento [Neves 2001].
A verificação desses termos é realizada por meio de um conjunto de regras específicas
(cf. Figura 4) que contabilizam quantas palavras de uma mesma classe do dicionário do
domínio estão presentes em cada grupo de texto considerado. Diferentemente das regras
da primeira etapa, essas regras têm fatores de certeza (positivos ou negativos)
associados, que indicam a chance da página ser classificada como positiva. O valor
final obtido pela combinação dos fatores em cada regra disparada é comparado a um
limiar, de modo a efetuar uma decisão binária de classificação.
SE
a freqüência da classe Geral no grupo
Especial for de 1 a 20
ENTÃO o documento é positivo (0.83)
)LJXUD([HPSORGHUHJUDSDUDDFODVVLILFDomRGHGRFXPHQWRV
5. Protótipo Implementado
Como comentado, o reconhecimento das páginas no sistema CitationFinder é realizado
em duas etapas, cuja arquitetura é apresentada na Figura 5. A primeira etapa classifica a
página pelo reconhecimento da presença de blocos de citação. As páginas classificadas
como negativas nesta etapa são passadas para a etapa 2. Aqui temos páginas que não
contêm qualquer citação, sendo de fato negativas, e páginas onde as citações não estão
organizadas em blocos característicos do domínio. Esta etapa tenta, portanto, identificar
as páginas que possuem citações em formatos diversos.
JEOPS
documento
HTML
ƒ
ƒ
ƒ
Isolamento
dos blocos de
citações
Base de
Regras 1
Dicionário
do domínio
Classificador
-
_
_
_
__
_
_
_
Separação
dos grupos
de texto
Base de
Regras 2
Dicionário
do domínio
+
limiar
Base de
Índices
Classificador
+
)LJXUD$UTXLWHWXUDGDVVXDVHWDSDVGHSURFHVVDPHQWRGR&LWDWLRQ)LQGHU
Primeiramente, um parser é responsável pela identificação e pelo isolamento dos
trechos de texto relevantes contidos no documento. Uma estrutura em forma de árvore é
construída a partir da página HTML de acordo com as tags identificadas. A partir daí, o
sistema tenta isolar os blocos de citações, observando as tags identificadores de listas
(numeradas ou não), tabelas, e em último caso, parágrafos. Em seguida, é efetuada uma
verificação dos termos do dicionário do domínio e dos padrões sintáticos, não havendo a
necessidade de uma separação de cada cadeia que compõe o bloco de citação.
Tampouco há a necessidade de se diferenciar termos pertencentes a uma mesma classe
do dicionário do domínio ou a um mesmo padrão. O reconhecimento final da página é
realizado por meio de regras que verificam algumas combinações de cadeias de uma
citação (cf. seção 4.2), e se classificada positivamente, sua URL é enviada a uma base
de índices. Se classificada negativamente, a páginas será processada pela segunda etapa
do sistema.
Embora a maioria das páginas de publicações seja satisfatoriamente reconhecida
na primeira etapa de processamento (91% dos exemplos positivos na fase de
construção), algumas páginas contêm citações compostas de poucas cadeias que
necessitariam de regras muito gerais. A segunda fase do sistema CitationFinder visa
aumentar a cobertura do sistema, por meio da identificação de termos do dicionário do
domínio em alguns grupos de texto do documento. Esses seis grupos de textos (Título,
Comum, Especial, Lista, Tabela e Link) são criados pelo parser da segunda fase do
sistema, a partir da natureza das tags em que o texto se encontra [Neves 2001]. Em
seguida, é realizada uma verificação da presença dos termos do dicionário nos grupos
considerados por meio de um conjunto de regras específicas (cf. seção 4.2).
Analogamente ao que ocorre na primeira etapa, se classificada positivamente, a página
será armazenada na base de índices, senão será classificada como negativa e descartada
pelo sistema.
Todo o conhecimento utilizado para a classificação dos documentos está contido
no dicionário do domínio, e nas bases de regras. Implementadas como regras JEOPS
(Java Embedded Object Production System) [Figueira Filho & Ramalho 2000], as
regras de produção estão agrupadas em diferentes módulos, portanto, são de fácil
compreensão, manutenção e extensão. O JEOPS é um motor de inferência para sistemas
baseados em regras de produção de primeira ordem, facilitando a criação de aplicativos
Java voltados à área de Inteligência Artificial.
6. Avaliação do Sistema
O CitationFinder foi avaliado com um corpus de teste composto por 300 páginas, sendo
200 positivas e 100 negativas. Vale frisar que este corpus é diferente do usado na
construção do sistema, a fim de permitir uma avaliação mais realista do sistema
construído. O desempenho foi medido através do cálculo dos parâmetros de precisão,
cobertura e F-Measure [van Rijsbergen 1979]. Para o corpus usado na construção do
CitationFinder (cf. Figura 6a), foram obtidos os valores de 91,1%, 96,7% e 93,8% para
os parâmetros de precisão, cobertura e F-Measure, respectivamente. Para o corpus de
teste (cf. Figura 6b), foram obtidos os valores de 88,6%, 97,0% e 92,6% para os
mesmos parâmetros anteriores.
Página
Positiva
Página
Negativa
677
66
23
234
Classificada
positivamente
Classificada
negativamente
(a)
Classificada
positivamente
Classificada
negativamente
Página
Positiva
Página
Negativa
194
25
6
75
(b)
)LJXUD0DWUL]HVGHFRQWLQJrQFLDSDUDRVcorporaGHDTXLVLomRDHGHWHVWHE
Experimentos adicionais com algoritmos de aprendizagem foram realizados
visando uma comparação entre o desempenho do sistema CitationFinder e de
classificadores construídos automaticamente. Foram testadas três abordagens: árvore de
decisão, indutor de regras, e a técnica Naive Bayes. Esses classificadores foram
construídos com o uso da ferramenta Weka (Waikato Environment for Knowledge
Analysis), desenvolvida pela University of Waikato da Nova Zelândia.
Os experimentos foram realizados com os mesmos corpora utilizados na
construção e teste do CitationFinder. Um pré-processamento dos documentos foi
realizado pela exclusão de palavras irrelevantes [Neves 2001] e eliminação de símbolos
e sinais de pontuação. A seleção dos termos a serem considerados nesses experimentos
foi realizada de acordo com três diferentes técnicas: pela medida da entropia [Maron
1961], pelo coeficiente de correlação [Ng et al. 1997] e pela técnica do χ2 [Ng et al.
1997]. O número de características adotado foram de 50, 100, 150 e 200, visando a
obtenção da melhor configuração para cada um dos três classificadores considerados.
Os valores obtidos (cf. Figura 7) mostram que o CitationFinder e os
experimentos com Indução de Regras e Naive Bayes obtiveram resultados muito
próximos, de acordo com o parâmetro do F-Measure. O bom resultado obtido pelo
CitationFinder se deve à qualidade do conhecimento obtido durante a fase de aquisição,
representado por meio de um dicionário do domínio e de bases de regras específicas
para o reconhecimento de páginas de citação. Suas maiores vantagens em relação ao
experimento de melhor desempenho (Indução de Regras) são modularidade,
extensibilidade e facilidade de uso.
Indução de Regras
Árvores de Decisão
Naive Bayes
CitationFinder
Precisão
Cobertura
F-Measure
95%
87%
93%
88,6%
92%
90%
91%
97%
93,5%
88,5%
92%
92,6%
)LJXUD&RPSDUDomRGRGHVHPSHQKRGDVDERUGDJHQVXWLOL]DGDV
7. Considerações Finais
Este trabalho apresentou o sistema CitationFinder, construído para a classificação de
páginas de citações de publicação na Web. Trata-se de um sistema baseado em
conhecimento que dispõe de um dicionário de termos do domínio e de duas bases de
regras de produção para auxiliar a tarefa de classificação. As bases de conhecimento
foram manualmente construídas através da análise detalhada de um corpus de 1000
documentos.
As maiores contribuições deste trabalho foram: (1) a coleta de um corpus de
900 páginas de citações de publicações e 400 páginas negativas; (2) a criação de um
dicionário do domínio e regras de produção para a classificação das páginas; (3) a
criação de um sistema original, sem equivalente na literatura disponível; e (4) a
realização de experimentos comparativos com aprendizagem.
Algumas extensões a este trabalho poderiam ser efetuadas de modo a torná-lo
ainda mais eficiente: (1) o reconhecimento de nomes próprios; (2) a coleta de novas
páginas e extensão das bases de regras e do dicionário do domínio; (3) a busca
automática de nomes próprios e de localidades (em sites geográficos); e (4) a integração
do CitationFinder com o sistema ProdExt [Nunes 2000], cujo objetivo é o
preenchimento automático de banco de dados específicos de produção científica.
Referências Bibliográficas
Apté, C.; Damerau, F. & Weiss, S. (1994) “Automated Learning of Decision Rules for
Text Categorization”. ACM Transactions on Information Systems, Vol. 12(3), pp.
233-151.
Barros, F. A. Gonçalves, P. F. & Santos, T. L. V. L. (1998) “Providing Context to Web
Searches: the Use of Ontologies to Enhance Web Search Engines' Accuracy”. In
Journal of the Brazilian Computer Society. Vol. 5(2), pp. 45-55.
Bollacker, K. D.; Lawrence, S. & Giles, L. (1998) “CiteSeer: An Autonomous Web
Agent for Automatic Retrieval and Identification of Interesting Publications”. Proc.
of the 2nd International Conference on Autonomous Agents. ACM Press, New York,
pp. 116-123.
Figueira Filho, C. S. & Ramalho, G. L. (2000) “JEOPS - The Java Embedded Object
Production System”. Lecture Notes in Artificial Intelligence, n.1952, Advances in
Artificial Intelligence, pp. 53-62.
Hayes, P. J. & Weinstein, S. P. (1990) “Construe-TIS: A System for Content-Based
Indexing of a Database of News Stories”. Second Annual Conference on Innovative
Applications of Artificial Intelligence, pp. 48-64.
Lewis, D. D. & Ringuette, M. (1994) “A Comparison of Two Learning Algorithms for
Text Categorization”. In Third Annual Symposium on Document Analysis and
Information Retrieval, pp. 81-93.
Loke, S. W.; Davison, A. & Sterling, L. (1996) “CiFi: An Intelligent Agent for Citation
Finding on the World-Wide Web”. In: Foo N, Goebel R (eds) Lecture Notes on
Artificial Intelligence Series, no. 1114. Springer-Verlag, London, pp. 580-591
Maron, M. E. (1961) “Automatic Indexing: An Experimental Inquiry”. Journal of ACM,
Vol. 8, pp. 404-417.
McCallum, A. K.; Nigam, K.; Rennie, J. & Seymore, K. (2000) “Automating the
Construction of Internet Portals with Machine Learning”. Information Retrieval
Journal, Vol. 3, pp. 127-163.
Monge, A. E. & Elkan, C. P. (1996) “The WebFind Tool for Finding Scientific Papers
over the World Wide Web”. Proceedings of the Third International Congress on
Computer Science Research, Tijuana, Mexico.
Neves, M. L. (2001) “CitationFinder: Um Sistema de Meta-busca e Classificação de
Páginas de Publicações na Web”. Dissertação de Mestrado, Centro de Informática,
UFPE. (http://www.cin.ufpe.br/~mln/)
Ng, H. T.; Goh, W. B. & Low, K. L. (1997) “Feature Selection, Perceptron learning and
a Usability Case Study for Text Categorization”. Proceedings of SIGIR-97, 20th
ACM International Conference on Research and Development in Information
Retrieval, pp. 67-73, Philadelphia, PA, USA.
Nunes, C. C. R. (2000) “ProdExt: Um Wrapper para Extração de Produção Técnica e
Científica de Páginas Eletrônicas”. Dissertação de Mestrado, Centro de Informática,
UFPE.
Russell, S. & Norvig, P. (1995) Artificial Intelligence: A Modern Approach. Prentice
Hall.
van Rijsbergen, C. J. (1979) Information Retrieval. Department of Computer Science,
University of Glasgow.
Turban, E. (1992) Expert Systems and Applied Artificial Intelligence. Macmillan Pub.
Co.
Wiener, E.; Pedersen, J. O. & Weigend, A. S. (1995) “A Neural Network Approach to
Topic Spotting”. In Proceedings of the 4th Symposium on Document Analysis and
Information Retrieval, pp. 317-332, Las Vegas, NV, USA, April 24-26.
Zucker, J. -D, & Ganascia, J. -G. (1996) “Changes of Representation for Efficient
Learning in Structural Domains”. In International Conference in Machine Learning,
Bary, Italie: Morgan Kauffman.
Download