Seminário de Iniciação Científica da UNIFAL-MG – Edição 2012 Desenvolvimento de um WebCrawler para obtenção de conteúdo matemático à partir de bibliotecas digitais Daniel Fernandes Rey¹, Flavio Barbieri Gonzaga² ¹[email protected], ²[email protected] Laboratório de Redes de computadores e Sistemas distribuídos – LaReS, Instituto de Ciências Exatas – ICEX. Palavras-chave: WebCrawler, Bibliotecas Digitais, Busca e Recuperação de Informação. 2. 3. 4. 5. Robô recebe endereço da lista; Robô se conecta e baixa a página; Robô grava a página no HD; Algoritmo de extração dos links é executado na página baixada; 6. Links extraídos são inseridos na lista de páginas a baixar, voltando ao passo 2. Introdução O funcionamento de uma ferramenta de busca passa pela obtenção e armazenamento do conteúdo das páginas localmente. Esse é o motivo do resultado ser obtido de maneira tão rápida. A parte da ferramenta que realiza a ação de recuperar o conteúdo da Internet e armazenar localmente de forma navegável é denominada WebCrawler [1]. O presente trabalho é parte de um projeto do LaReS (Laboratório de Redes de computadores e Sistemas distribuídos) cujo objetivo é a construção de uma ferramenta de busca para equações matemáticas, conteúdo esse ainda não obtido de forma eficaz [2]. Esse trabalho exibe então a arquitetura do WebCrawler, chamado LaReSBot. Metodologia No desenvolvimento do LaReSBot foi usada a linguagem Python. A escolha da linguagem foi em virtude da mesma já possuir muitos pacotes com funcionalidades prontas para se trabalhar com a Internet, como por exemplo, o BeautifulSoup [3]. A anatomia do LaReSBot é exibida na Figura 1. Resultados e discussão A implementação do WebCrawler tratou dos seguintes aspectos relacionados ao download: Profundidade máxima interna e externa; Controle da velocidade de download; Lista de extensões e palavras proibidas; Ao término dessa etapa, o LaReSBot foi capaz de fazer o download completo da biblioteca DLMF (Digital Library of Mathematical Functions), e armazenar localmente, preservando a navegação offline entre os links. Esta biblioteca foi o desafio inicial, em virtude de tentativas com o HTTrack, um WebCrawler de código aberto, terem falhado. Conclusões Após a realização do trabalho, conseguimos dar um primeiro passo rumo ao objetivo, que é a construção de uma ferramenta de busca específica para esse conteúdo. Mais trabalhos relacionados já estão em progresso no LaReS. Agradecimentos Aos nossos familiares, pelo apoio durante a realização desse trabalho e à UNIFAL pela realização do evento e pela bolsa PROBIC. Referências bibliográficas [1] Figura 1: Funcionamento do LaReSBot. Os passos executados na obtenção de uma biblioteca são os seguintes: 1. Página inicial é inserida na lista de páginas a baixar; Brin, S. and Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. In WWW7: Proceedings of the seventh international conference on World Wide Web 7, pages 107–117, Amsterdam, The Netherlands, Elsevier Science Publishers B. V. [2] Youssef, A. “Roles of Math Search in Mathematics”, Lecture Notes in Computer Science - Mathematical Knowledge Management, v. 4108, pp. 2–16, 2006. [3] http://www.crummy.com/software/BeautifulSoup/, acesso em 25/09/2012.