Desenvolvimento de um WebCrawler para obtenção de - Unifal-MG

Propaganda
Seminário de Iniciação Científica da UNIFAL-MG – Edição 2012
Desenvolvimento de um WebCrawler para obtenção de conteúdo
matemático à partir de bibliotecas digitais
Daniel Fernandes Rey¹, Flavio Barbieri Gonzaga²
¹[email protected], ²[email protected]
Laboratório de Redes de computadores e Sistemas distribuídos – LaReS, Instituto de Ciências Exatas – ICEX.
Palavras-chave: WebCrawler, Bibliotecas Digitais, Busca e Recuperação de Informação.
2.
3.
4.
5.
Robô recebe endereço da lista;
Robô se conecta e baixa a página;
Robô grava a página no HD;
Algoritmo de extração dos links é executado
na página baixada;
6. Links extraídos são inseridos na lista de
páginas a baixar, voltando ao passo 2.
Introdução
O funcionamento de uma ferramenta de busca
passa pela obtenção e armazenamento do conteúdo
das páginas localmente. Esse é o motivo do
resultado ser obtido de maneira tão rápida. A parte
da ferramenta que realiza a ação de recuperar o
conteúdo da Internet e armazenar localmente de
forma navegável é denominada WebCrawler [1].
O presente trabalho é parte de um projeto do LaReS
(Laboratório de Redes de computadores e Sistemas
distribuídos) cujo objetivo é a construção de uma
ferramenta de busca para equações matemáticas,
conteúdo esse ainda não obtido de forma eficaz [2].
Esse trabalho exibe então a arquitetura do
WebCrawler, chamado LaReSBot.
Metodologia
No desenvolvimento do LaReSBot foi usada a
linguagem Python. A escolha da linguagem foi em
virtude da mesma já possuir muitos pacotes com
funcionalidades prontas para se trabalhar com a
Internet, como por exemplo, o BeautifulSoup [3].
A anatomia do LaReSBot é exibida na Figura 1.
Resultados e discussão
A implementação do WebCrawler tratou dos
seguintes aspectos relacionados ao download:
 Profundidade máxima interna e externa;
 Controle da velocidade de download;
 Lista de extensões e palavras proibidas;
Ao término dessa etapa, o LaReSBot foi capaz de
fazer o download completo da biblioteca DLMF
(Digital Library of Mathematical Functions), e
armazenar localmente, preservando a navegação
offline entre os links. Esta biblioteca foi o desafio
inicial, em virtude de tentativas com o HTTrack, um
WebCrawler de código aberto, terem falhado.
Conclusões
Após a realização do trabalho, conseguimos dar
um primeiro passo rumo ao objetivo, que é a
construção de uma ferramenta de busca específica
para esse conteúdo. Mais trabalhos relacionados já
estão em progresso no LaReS.
Agradecimentos
Aos nossos familiares, pelo apoio durante a
realização desse trabalho e à UNIFAL pela
realização do evento e pela bolsa PROBIC.
Referências bibliográficas
[1]
Figura 1: Funcionamento do LaReSBot.
Os passos executados na obtenção de uma
biblioteca são os seguintes:
1. Página inicial é inserida na lista de páginas
a baixar;
Brin, S. and Page, L. (1998). The anatomy of a large-scale
hypertextual web search engine. In WWW7: Proceedings of the seventh
international conference on World Wide Web 7, pages 107–117,
Amsterdam, The Netherlands, Elsevier Science Publishers B. V.
[2]
Youssef, A. “Roles of Math Search in Mathematics”, Lecture Notes
in Computer Science - Mathematical Knowledge Management, v. 4108,
pp. 2–16, 2006.
[3]
http://www.crummy.com/software/BeautifulSoup/, acesso em
25/09/2012.
Download