UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE ARTES E COMUNICAÇÃO DEPARTAMENTO DE CIÊNCIA DA INFORMAÇÃO CURSO DE BIBLIOTECONOMIA CÍNTHIA MARIA SILVA DE HOLANDA INDEXAÇÃO AUTOMÁTICA DE CONTEÚDOS NA WEB: análise de sites relacionados à Biblioteconomia RECIFE 2010 CÍNTHIA MARIA SILVA DE HOLANDA INDEXAÇÃO AUTOMÁTICA DE CONTEÚDOS NA WEB: análise de sites relacionados à Biblioteconomia Trabalho de Conclusão de Curso apresentado ao Departamento de Ciência da Informação da Universidade Federal de Pernambuco, como requisito para obtenção do título de Bacharel em Biblioteconomia. Orientador: Profº. Mascarenhas e Silva RECIFE 2010 Drº. Fábio H722i Holanda, Cínthia Maria Silva de. Indexação automática de conteúdos na Web: análise de sites relacionados à Biblioteconomia / Cínthia Maria Silva de Holanda. – Recife: O autor, 2010. 97 folhas. Trabalho de Conclusão de Curso - TCC – Universidade Federal de Pernambuco. CAC. Ciência da Informação, 2010. Inclui Bibliografia. 1. Recuperação da informação. 2. Indexação automática. 3. Mecanismos de busca. 4. Google. I. Título. UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE ARTES E COMUNICAÇÃO DEPARTAMENTO DE CIÊNCIA DA INFORMAÇÃO CURSO DE GRADUAÇÃO EM BIBLIOTECONOMIA CÍNTHIA MARIA SILVA DE HOLANDA INDEXAÇÃO AUTOMÁTICA DE CONTEÚDOS NA WEB: análise de sites relacionados à Biblioteconomia Este Trabalho de Conclusão de Curso foi aprovado pela banca examinadora do curso de Graduação em Biblioteconomia constituída pelos seguintes professores: Profº Fábio Mascarenhas e Silva Orientador Profº. Murilo Artur Araújo da Silveira Profº. Luciane Paula Vital Aprovado em: Recife, 13 de dezembro de 2010. Aos meus pais (Adilma e Genival), minhas irmãs (Gabrielle e Glauce) e minha tia (Gilvani Holanda - memoriam), dedico este trabalho. in AGRADECIMENTOS Aos meus pais, Adilma Holanda e Genival Holanda por me proporcionarem a oportunidade de estudar e obter a minha formação, obrigada pela dedicação como genitores. Em especial a minha mãe por ter ficado ao meu lado em todos os momentos, por rezar por mim todos os dias, por ter me entendido em várias ocasiões, por ter me protegido e por todo o amor que me ofereceu desde a minha gestão. As minhas irmãs Gabrielle Holanda (Gaby) e Glauce Holanda (Gal), por saber que mesmo com os atropelos, ficaremos unidas para defender a nossa família. A Amanda Gânimo (D. Cantora), uma pessoa mais que especial, por todos esses anos de amizade, apoio, felicidades, tristezas, sorrisos, viagens e etc., por todos os cuidados dedicados a mim, por ser essa pessoa que aponta os meus defeitos e que sabe dizer quando estou errada, enfim, por fazer parte da minha vida e por me deixar fazer parte da sua. A Michele Sant’ana (Boyzinha), muito mais que amiga, uma irmã, uma das poucas pessoas que sabe realmente quem sou, por todas as conversas, brigas, risadas, choros, festas, “danones”, etc., etc. Nem lembro mais o tempo que nos conhecemos, parece que você sempre esteve por perto... A minha tia Gilvani Holanda (in memoriam), por ter me apoiado e confiado em mim, pelos conselhos, puxões de orelha e ensinamentos desde criança até meu ingresso na Universidade. Sempre me lembrarei das nossas conversas... Ao professor Murilo Silveira, muito mais que um professor, por ter me proporcionado oportunidades e por toda ajuda ao longo da graduação. Sou sua fã! Ao professor Fábio Mascarenhas, meu orientador, por todos os conselhos, observações, contribuições e correções minuciosas para que este trabalho ficasse pronto e por ser fã de rock and roll. A Sirleida Mendes, pela ajuda oferecida antes mesmo do ingresso à universidade e pelo incentivo para que eu cursasse biblioteconomia. A Equipe Ação Mariana Bandeira (Mari), Kleiton Predo e Janypaula Melo (Janypaul rs), por ser uma tradição desde 2007.1, por todos os quatro anos de trabalhos, seminários, apresentações, estudos, etc. Agradeço pela amizade e espero que perdure após a graduação. A todos que fazem parte do grupo Ócio Digital Amanda (Baby), Amélia (Mamis), Ana Cecília (Donana), Charlene (Xaxá), Ênio (Duh), Jonatan (Jon), Marcelo (Meu bom), Pietro, Rafael (Rafinha rs), Silla, Thiago (Coração) e Túlio (Tutu), por proporcionarem tarde de risos, brigas, alegrias e por fazerem parte dessa história. Aos meus amigos de infância, adolescência, baladas, universidade e afins: Bruno Amorim (Nuno), Wladson Vasconcelos (Wlad), Dayane Rijo (Day), Wagner Beethoven, Edilane Maria (Edy), Suênnia Brito (Suh), Renata Melo (Iata), Ada Melo, Amanda Deodato, Juliete Calazans, Darcy Gomes (Paixão), Silvia de Paula (Silvinha) e Tâmara Cristina. E a todos que participaram, direta ou indiretamente, da minha formação acadêmica e pessoal. “...que seja doce” Caio Fernando Abreu RESUMO Na atualidade várias ferramentas foram criadas para a recuperação da informação no ambiente Web, bem como para a disponibilização de conteúdos. As características destas ferramentas influenciam no modelo de indexação utilizado e na forma que os assuntos serão recuperados. Dessa forma, este trabalho identifica algumas estratégias e procedimentos que os usuários podem adotar ao disponibilizar conteúdos no ambiente Web para posterior recuperação no motor Google. A partir de um levantamento teórico, este estudo explana conceitos da indexação manual, chegando à abordagem da indexação automática, apresentando caráter exploratório, cujo delineamento é definido com base em assuntos relacionados a fontes de informações na Internet, diretórios e motores de buscas. Os resultados podem possibilitar a remodelagem das home pages, de modo a melhorar a recuperação, promovendo o desenvolvimento dos métodos que o Google considera relevante no momento da indexação das páginas, bem como proporcionar estudos futuros baseados nas ferramentas de recuperação na Web. Palavras-chave: Recuperação da informação. Indexação automática. Mecanismos de busca. Google. ABSTRACT Currently several tools have been created for information retrieval in the Web environment as well as to the availability of content. The characteristics of these tools influence the indexing model used and the way the issues will be recovered. Thus, this work identifies some strategies and procedures that users can adopt to make content available in the Web environment for later retrieval engine Google.From a theoretical approach, this study explains the concepts of manual indexing, reaching approach to automatic indexing, with exploratory, whose design is defined based on subjects related to information sources on the Internet, directories and search engines.The results help to remodel the home pages in order to improve recovery, promoting the development of methods that Google considers when indexing relevant pages as well as providing future studies based on the recovery tools on the Web. Keywords: Information retrieval. Automatic indexing. Search engines. Google. LISTA DE ILUSTRAÇÕES FIGURA 1 SISTEMA DE COMUNICAÇÃO NÃO-HIERÁRQUICA p. 22 FIGURA 2 COMPONENTES DE UM SISTEMA DE RECUPERAÇÃO DA p. 32 INFORMAÇÃO FIGURA 3 PESQUISA DO TERMO “SEDE” NO GOOGLE p. 43 FIGURA 4 PESQUISA SOBRE CULINÁRIA CHINESA p. 47 FIGURA 5 PESQUISA SOBRE CULINÁRIA ITALIANA p. 47 FIGURA 6 TAG TITLE p. 49 FIGURA 7 TOPO DA PÁGINA p. 50 FIGURA 8 SITE DO BOL p. 52 FIGURA 9 HTML DO SITE DO BOL - META KEYWORDS p. 53 FIGURA 10 CÁLCULO DO PAGERANK p. 57 FIGURA 11 BUSCA EXATA REALIZADA NO GOOGLE p. 59 FIGURA 12 IMAGEM EXTRAÍDA DA HOME PAGE DO EXTRALIBRIS p. 65 CONCURSOS FIGURA 13 CÓDIGO FONTE - EXTRALIBRIS CONCURSOS p. 66 FIGURA 14 IMAGEM EXTRAÍDA DA HOME PAGE DO CFB p. 67 FIGURA 15 IMAGEM EXTRAÍDA DA HOME PAGE DO BSF p. 69 FIGURA 16 META TAG DESCRIPTION - BSF p. 69 FIGURA 17 IMAGEM EXTRAÍDA DA HOME PAGE DO BITI p. 71 FIGURA 18 META TAGS DESCRIPTION - BITI p. 71 FIGURA 19 IMAGEM EXTRAÍDA DA HOME PAGE DA FEBAB p. 74 FIGURA 20 IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA DIGITAL DE p. 75 BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO FIGURA 21 TAG TITLE REVISTA DIGITAL DE BIBLIOTECONOMIA E p. 76 CIÊNCIA DA INFORMAÇÃO FIGURA 22 META TAG DESCRIPTION - REVISTA DIGITAL BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO FIGURA 23 DESCRIÇÃO DA REVISTA DIGITAL DE BIBLIOTECONOMIA E p. 76 CIÊNCIA DA INFORMAÇÃO DE p. 76 FIGURA 24 IMAGEM EXTRAÍDA DA HOME PAGE DOS PERIÓDICOS UFSC p. 78 FIGURA 25 META TAGS DESCRIPTION E KEYWORDS - PERIÓDICOS UFSC p. 79 FIGURA 26 META TAG DESCRIPTION - WEB LIBRARIAN p. 79 FIGURA 27 IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA CIÊNCIA DA p. 81 INFORMAÇÃO FIGURA 28 IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA ABC p. 83 LISTA DE GRÁFICOS GRÁFICO 1 PERCENTUAL - TAG TITLE p. 87 GRÁFICO 2 PERCENTAGEM META TAG DESCRIPTION p. 88 GRÁFICO 3 PERCENTAGEM META TAG KEYWORDS p. 88 LISTA DE QUADROS QUADRO 1 EVOLUÇÃO DA INTERNET E WEB p. 25 QUADRO 2 QUADRO COMPARATIVO DA EVOLUÇÃO DA INTERNET p. 26 QUADRO 3 EVOLUÇÃO DA WEB p. 28 QUADRO 4 DIFERENÇAS ENTRE DIRETÓRIOS E MOTORES DE BUSCA p. 44 QUADRO 5 MÉTODOS DE REFINAMENTO DA PESQUISA NO MOTOR p. 60 GOOGLE QUADRO 6 PALAVRAS-CHAVE CONCURSOS QUADRO 7 PALAVRAS-CHAVE RELACIONADAS AO CONSELHO FEDERAL p. 68 DE BIBLIOTECONOMIA QUADRO 8 POSIÇÃO DOS RESULTADOS - BSF p. 70 QUADRO 9 POSIÇÃO DOS RESULTADOS - BITI p. 73 QUADRO 10 PALAVRAS-CHAVE RELACIONADAS AO BITI p. 73 QUADRO 11 PALAVRAS-CHAVE RELACIONADAS A FEBAB p. 75 QUADRO 12 POSIÇÃO DOS RESULTADOS - REVISTA DIGITAL BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO QUADRO 13 PALAVRAS-CHAVE RELACIONADAS A REVISTA DIGITAL DE p. 78 BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO QUADRO 14 PALAVRAS-CHAVE RELACIONADAS AOS PERIÓDICOS UFSC p. 79 QUADRO 15 POSIÇÃO DOS RESULTADOS – WEB LIBRARIAN p. 81 QUADRO 16 PALAVRAS-CHAVE RELACIONADAS À WEB LIBRARIAN p. 81 QUADRO 17 POSIÇÃO DOS INFORMAÇÃO QUADRO 18 PALAVRAS-CHAVE RELACIONADAS À REVISTA CIÊNCIA DA p. 83 INFORMAÇÃO QUADRO 19 POSIÇÃO DOS RESULTADOS – REVISTA ABC p. 85 QUADRO 20 PALAVRAS-CHAVE RELACIONADAS À REVISTA ABC p. 85 QUADRO 21 QUADRO EXPLICATIVO – ANÁLISE DOS SITES p. 86 QUADRO 22 QUADRO PERCENTUAL DA RELEVÂNCIA OU NÃO RELEVÂNCIA p. 86 DOS CRITÉRIOS RELACIONADAS RESULTADOS – AO REVISTA EXTRALIBRIS p. 67 CIÊNCIA DE p. 77 DA p. 83 LISTA DE SIGLAS AI Arquitetura da Informação ALIWEB Archie-Like Indexing on the Web ARPA Advanced Research Projects Angency BBN Bolt, Beranek e Newman BITI Biblioteconomia, Informação & Tecnologia da Informação BSF Bibliotecários sem fronteiras CERN Conseil Europene pour la Recherche Nucleare CFB Conselho Federal de Biblioteconomia EUA Estados Unidos da América FEBAB Federação Brasileira de Associações de Bibliotecários, Cientistas da Informação e Instituições HTTP Protocolo de Transferência de Hipertexto IBICT Instituto Brasileiro de Informação em Ciência e Tecnologia IP Internet Protocol KWIC Key word in context NASA National Aeronautics and Space Administration NLS OnLine System NSF National Science Foundation RI Recuperação da Informação TCP Transmission Control Protocol W3C World Wide Web Consortium WWW World Wide Web SUMÁRIO 1 INTRODUÇÃO 2 UM BREVE HISTÓRICO DA EVOLUÇÃO E DO SURGIMENTO DA p. 20 INTERNET E DA WEB 2.1 A Web como fonte de informação p. 28 3 COMO OS MECANISMOS DE BUSCA INDEXAM A WEB? p. 31 3.1 Recuperação da Informação p. 31 3.1.1 Recuperação da Informação na Internet p. 33 3.2 Indexação: conceitos p. 35 3.3 Diretórios de Busca e Motores de Busca p. 38 3.4 Métodos de indexação na Web dos mecanismos de busca p. 44 4 O GOOGLE p. 54 4.1 Como o Google indexa? p. 55 4.2 Métodos de recuperação no Google p. 58 5 ANÁLISE DOS SITES p. 61 5.1 Procedimentos metodológicos p. 61 5.2 Análise dos dados p. 85 6 CONSIDERAÇÕES FINAIS p. 89 REFERÊNCIAS p. 17 p. 91 17 1 INTRODUÇÃO Não se pode negar a influência considerável da tecnologia nos processos de indexação, armazenamento e recuperação da informação. Por volta do século XX, depois da segunda grande Guerra Mundial, um fenômeno ficou conhecido como “explosão documental”, em razão da produção em massa de todo tipo de registro informacional (BIBLIOTECA, 2007). As tecnologias de informação surgiram, então, nesse processo, como tentativa de organizar documentos contidos em sistemas analógicos. Visto que, por meio dela os usuários teriam a capacidade de encontrar, identificar, selecionar e obter a informação desejada, elaborando meios que permitissem o acesso, “principalmente em uma sociedade onde a explosão documental atingiu seu ápice e os usuários sozinhos não conseguem obter as informações desejadas” (MAIMONE; SILVEIRA, 2007, p. 55). A Internet (rede mundial de computadores), hoje mundialmente conhecida, nasceu durante a guerra fria como arma estratégica e com finalidades militares, sendo uma forma de comunicação entre as forças armadas norte-americanas. Em 1957 a antiga União Soviética lançou o primeiro satélite, o Sputnik, e como reação ao avanço da tecnologia russa, os EUA (Estados Unidos), em outubro do mesmo ano, divulgam a criação da Advanced Research Projects Angency (ARPA), que tinha como objetivo central a pesquisa e o desenvolvimento de tecnologia para aplicações militares. Posteriormente a ARPA se une a universidades, institutos de pesquisa e à empresa Bolt, Beranek e Newman (BBN), passando a ser chamada, a partir dia 1ª de dezembro de 1969, de ARPANET. A ARPANET era uma estrutura de comunicação que utilizava a rede telefônica normal para conectar a rede de computadores. Durante o período compreendido entre as décadas de 1970 e 1980, a Internet ganha mais uma característica além da militar, passando a ser um importante meio de comunicação acadêmica, oferecendo a troca de estudos entre os pesquisadores em formato de arquivos pré-estabelecidos, mas essa comunicação se limitava às Universidades e pessoas que dominassem o sistema da rede. Com desenvolvimento da Internet, foi exigido um ambiente que tornasse a “navegação” mais interativa, interligando conhecimentos de forma mais fácil à compreensão, ou seja, depois da criação e uso contínuo da Internet sentiu-se 18 necessidade da existência de um sistema que tornasse mais fácil o compartilhamento de documentos. Com isso, no ano de 1991, Tim Berners-Lee apresenta ao mundo resultados de estudos iniciados no ano de 1989, a Web. A ideia tornou a Internet mais dinâmica, transformando-a em uma ferramenta popular considerada uma fonte valorosa de informação, disponibilizando textos, imagens, sons, fotos, vídeos, músicas, animação, multimídia, etc. Com a revolução provocada pela Internet e, consequentemente, o surgimento da Web, a troca de informações tomou diretrizes que não foram traçadas por outro meio de comunicação, pois se tornou um dos principais mecanismos de disseminação da informação. Desse modo, cotidianamente o número de páginas disponíveis aumenta, chegando a estimativa do surgimento de 320 milhões de endereços por semana, mas somente 20% desse conteúdo estará online dentro do prazo de um ano, o que demonstra a dinâmica existente em termos de crescimento e de mudanças na Web (BRAND; FARIA, 2006), refletindo consideravelmente nas formas de se buscar a informação no ambiente virtual. Diante desse emaranhado de dados e informações, muitos indivíduos passaram a considerar a Web como sendo a extensão da biblioteca, favorecido pela facilidade de acesso e pelo tempo real que a informação pode ser disponibilizada. Toda essa disponibilização exige uma lógica organizacional, onde as informações possam ser recuperadas de modo a responder as necessidades exigidas. Essa infinidade de dados e informações ocasiona extremas dificuldades no julgamento da credibilidade da informação recuperada, visto que a Internet muitas vezes oferece fontes não confiáveis, necessitando da aplicação ou estabelecimentos de filtros de qualidades. Atualmente, há motores de busca que estão sendo desenvolvidos com o propósito de auxiliar a recuperação da informação na Web e as características destas ferramentas, influenciam diretamente no resultado final da pesquisa. Nesse contexto, a empresa Google é fundada, tendo como objetivo principal dos seus fundadores, Larry Page e Sergey Brin, organizar as informações do mundo todo e torná-las acessíveis e úteis em caráter universal. Desde então, a empresa vem estudando e fornecendo abordagens para a recuperação mais precisa da informação, sendo o principal mecanismo de pesquisa no ambiente Web nos dias atuais. 19 Mesmo usando técnicas sofisticadas para indexar conteúdos e recuperando páginas que sejam tanto importantes como relevantes à busca, é possível usar alguns artifícios para facilitar a recuperação de conteúdos através das buscas realizadas no Google. Mas será que as informações disponibilizadas pelos usuários são facilmente recuperadas pelo sistema Google? Existem formas para que uma página seja recuperada com mais facilidade assim que solicitada a pesquisa? Desse modo, o objetivo deste trabalho é identificar algumas estratégias e procedimentos que os usuários podem adotar ao disponibilizar conteúdos no ambiente Web para que sejam, posteriormente, recuperados de forma mais precisa quando buscados através do motor Google. Para que fosse colhida uma amostra significativa e não aleatória, foram analisados sites relacionados a assuntos de Biblioteconomia. A partir dessas considerações, este trabalho se justifica na medida em que proporcionará reflexões ao modelo de indexação utilizado pelo Google, o que pode contribuir ou despertar interesse sobre o assunto, visto que, na Internet há variadas formas de acesso e disponibilização de documentos e, através deste estudo, será possível reconhecer as potencialidades de recuperação dos sites quando buscados pelo Google. Dessa forma, os usuários, possivelmente, ao submeterem conteúdos, utilizarão métodos que o Google considera relevante no momento da indexação das páginas. Propõe-se, ainda, significativa relevância no campo da recuperação da informação, uma vez que representa a possibilidade de contribuição teórica ao trabalho realizado na Internet, baseado nas ferramentas de recuperação da informação no ambiente Web, o que possibilitará pesquisas posteriores na área. Com base nesse raciocínio, este estudo se explica, ainda, como um esforço preliminar para obtenção de conhecimento da necessidade de se conhecer melhor as variáveis que a profissão de bibliotecário pode apresentar, ou seja, pesquisas ligadas a tecnologias e não só vinculadas à estrutura física da unidade de informação. 20 2 UM BREVE HISTÓRICO DA EVOLUÇÃO E DO SURGIMENTO DA INTERNET E DA WEB O surgimento da Internet e da Web (World Wide Web ou WWW) alavancou novos conceitos na organização, disponibilização e recuperação da informação. Se antes os indivíduos transmitiam dados através de carta, telefone, televisão, rádio e outros meios de comunicação, hoje, além dos meios antigos, a sociedade utiliza novos elementos, que além de serem mais rápidos, também oferecem recursos mais interativos. Segundo Balan (2006, p. 3), a Web e a Internet se tornaram para a vida moderna “tão essencial quanto a energia elétrica, telefone, geladeira, fogão e outras tecnologias a serviço do homem”. As chamadas “tecnologias da informação” surgiram devido ao fenômeno da explosão informacional verificado a partir do início da segunda metade do século XX, servindo de suporte para a criação da rede mundial de computadores. A interface gráfica da Internet, a World Wide Web, surge em 1991, mas desde então vem se desenvolvendo com rapidez, visto que tenta abranger todos os serviços atualmente demandados (VIANA, 1996). A Web atual comporta e oferece suporte ao uso de correio eletrônico, comunicação instantânea, compartilhamento de arquivos e etc., devido a estrutura amigável e de fácil compreensão apresentada. Em outras palavras, a WWW visa ofertar formas gráficas à Internet, ou seja, a Internet seria uma forma estrutural que proporciona apoio ao ambiente Web, permitindo o acesso a informações e a transferência de dados. [...] talvez essa configuração e essa dinâmica sejam responsáveis pela grande aceitação [...] alcançada nos nossos dias, se prestando a tornar o ambiente computacional mais amigável e interativo. A Internet [...] começou realmente a se popularizar depois que a WWW (World Wide Web) foi desenvolvida. A rede das redes (a Internet) utiliza uma linguagem de rede (hipertexto), onde suas potencialidades têm melhores condições de ser exploradas. As informações são recuperadas, não através de um processo hierárquico linear, fechado, mas por associação. Podemos dizer que o sucesso dessa linguagem se deva justamente ao fato de tentar reproduzir o modo pelo qual a mente humana funciona. (REZENDE, 2000, p. 15). Apesar de serem usadas como sinônimos há um conceito próprio para a 21 Internet e Web, como também existe uma história para cada uma. Na realidade, a WWW ou World Wide Web (que quer dizer algo como “teia de alcance mundial”, em inglês) é um espaço que permite a troca de informações multimídia (texto, som, gráficos e vídeo) através da estrutura da internet. É uma das formas de utilização da Rede, assim como o e-mail (correio eletrônico), o FTP (File Transfer Protocol) ou outros menos conhecidos atualmente. (MONTEIRO, 2001, p. 29). A Internet surgiu em meados dos anos 60 nos Estados Unidos. O termo foi cunhado com base na expressão inglesa “INTERaction or INTERconnection between computer NETworks” (PINHO, 2003, p.41), que seria algo como: “Interação ou interconexão entre redes de computadores”. Mas a sua criação teve como finalidade o desenvolvimento de mais uma arma de comunicação militar e se deve exatamente à [...] reação do governo norte-americano ao Projeto Sputnik da antiga União das Repúblicas Socialistas Soviéticas (URSS), capitaniadas pela Rússia, durante a guerra fria, em 1957. O nascimento da Internet está diretamente relacionado ao trabalho de peritos militares norte-americanos que desenvolveram a ARPANET, rede da Agência de Investigação de Projetos Avançados dos Estados Unidos, durante a disputa do poder mundial com a URSS [...] Iniciada com objetivos militares, propondo uma sobrevivência aos elementos partícipes por não estarem conectados de modo hierárquico, característica marcante daquele setor, a disposição em rede permitia a não ameaça ao cabeça do programa, caso fosse atacada. Era crucial que a arquitetura do sistema fosse diferente daquela apresentada pela rede de telefonia norte-americana. (ABREU, 2009). Com esse pensamento, o Departamento de Defesa, composto por um grupo de programadores e engenheiros eletrônicos contratados, idealizaram e desenvolveram um novo conceito de comunicação, onde uma rede transmitiria as mensagens. Através dessa rede, as mensagens passariam divididas em pequenos fragmentos, que posteriormente foram chamados de “pacotes”. Dessa forma, as informações seriam transportadas com agilidade, flexibilidade e com tolerância a erros, “em uma rede onde cada computador seria apenas um ponto (ou “nó”) que, se impossibilitado de operar, não interromperia o fluxo das informações” (MONTEIRO, 2001, p. 27). Em outras palavras, “o sistema seria composto de interconexões com todos os pontos e dos pontos entre si. É como uma esfera, na 22 qual cada nódulo está conectado com todos os outros e ainda com o central por múltiplos links” (PINHO, 2003, p. 22). Como demonstra a Figura 1: FIGURA 1 - SISTEMA DE COMUNICAÇÃO NÃO-HIERÁRQUICA Fonte: PINHO, JB. (2003, p. 24) A Internet passou, então, a existir por haver uma necessidade de compartilhar e receber Informações, ou seja, nasceu do interesse antigo de um sistema que oferecesse a transferências de mensagens, independentemente da distância entre o remetente e o destinatário, que apresentasse respostas momentâneas e seguras. Diante disso, mais tarde, quando a Internet já era usada com finalidades também acadêmicas, foi percebida a dificuldade de comunicação proporcionada, pois além dos problemas de gerenciamento, a Internet não oferecia uma interface gráfica amigável, o que dificultava a sua utilização plena, por tais razões surgiu a Web. Tim Berners-Lee, um físico, foi o idealizador da Web que se conhece hoje, embora a Internet tenha surgido no ano de 1969, a história da Web só começou a ser realmente traçada no princípio da década de 90, com exatidão no ano de 1991. Juntamente com o Laboratory for Particle Physics, também conhecido como Conseil Europene pour la Recherche Nucleare (CERN), Tim Berners-Lee criou um protocolo com base em hipertexto, Protocolo de Transferência de Hipertexto (HTTP), ou seja, ele inventou um protocolo que comportasse a publicação de documentos em formato não linear, permitindo que o leitor avançasse instantaneamente de um documento eletrônico para outro, o que torna possível a conexão dos conteúdos (FREOA, 2005). Segundo Pinho (2003), a Web provavelmente é a parte mais importante da Internet, pois é, fundamentalmente, um modo de 23 organização da informação e dos artigos que estão em rede. Berners-Lee não foi o criador do hipertexto, ele apenas moldou concepções anteriores, estabelecidas por outros estudiosos, para desenvolver a WWW. A ideia central do funcionamento do hipertexto, onde há “associação, ligação, vínculo entre pensamentos, conceitos, textos, compartilhados a partir de um mesmo contexto físico-temporal” (REZENDE, 2000, p. 2), se moldou no ano de 1945 por Vannevar Bush, um matemático e físico renomado, mas o termo “hipertexto” só passou a ser usado no princípio da década de 1960, quando foi denominado por Ted Nelson, um filósofo e sociólogo. Os pensamentos estabelecidos por Bush não podiam ser colocados em prática, uma vez que a época não fornecia um aparato tecnológico às projeções sonhadas, fazendo com que se tornassem meras utopias. Bush acreditava no desenvolvimento informacional e previa que no futuro seria exigida uma forma de interligar conhecimentos, com esse pensamento, entendia que a época não era condizente com o que planejava e afirmava que “o somatório das experiências humanas tem se expandido numa proporção incrível, mas os meios que usamos para nos movimentar através do labirinto formado pelos itens mais importantes, são os mesmos utilizados no tempo das caravelas” (BUSH, 1945 apud REZENDE, 2000, p. 6). Embora Bush seja denominado como o idealizador do Hipertexto, Silva (2003) explica que alguns estudiosos já haviam concebido a proposta central de assimilação rápida e fácil de conteúdos e que os conceitos apresentados por Bush não eram inéditos. Para fazer tais afirmações, Silva (2003) toma como base, estudos anteriores aos realizados por Bush, tais estudos estariam integrados a associação de conteúdos, recuperação de dados em microfichas e cooptação de conhecimentos, dos cientistas H. G. Wells, Emanuel Goldberg e Paul Otlet respectivamente. Mas vale ressaltar que “Bush faz parte da construção da história do hipertexto, da Internet e da própria Ciência da informação, mas, pelos registros obtidos, não há subsídios que o qualifiquem como um marco isolado” (SILVA, 2003, p. 47). Segundo Balan (2006, p. 3), Berners-Lee é considerado o “pai” da Web, pois além de criar e desenvolver o projeto, defendeu o conceito de que a Web seria capaz de tecer “uma rede extensa de conhecimento humano, podendo ainda, por 24 meio do processamento via máquina, inferir novos conhecimentos”. Até a criação da Web, a Internet só conectava os principais computadores, formando uma rede que permitia a comunicação entre si e limitada a usos não comerciais, pois o patrocínio e o sustento do projeto eram provenientes do governo dos Estados Unidos, fornecido por três grandes agências governamentais: o National Science Foundation (NSF), o National Aeronautics and Space Administration (NASA) e o U. S. Department of Energy (FREOA, 2005). Apesar de facilitar as operações estabelecidas na Internet, a Web elaborada por Berners-Lee não se parecia nada com a que se tem hoje, não era possível o uso do mouse e o sistema também não trabalhava com imagens, apenas texto. Até o desenvolvimento de programas navegadores, ou browsers, para as plataformas Windows e Macintosh, o acesso à Internet através da interface Web era restrito apenas a supercomputadores. A chegada da Web aos computadores pessoais (PCs) só ocorreu com o lançamento da versão do navegador Mosaic do NCSA (National Center for Supercomputing Applications) em 1993. Desde então, uma multidão de outras empresas, notadamente a Netscape com o seu Netscape Navigator e, com algum tempo de atraso, a Microsoft com o Internet Explorer, desenvolveram também programas de navegação similares. (BAX, 1998, p. 7). A partir do livro “Weaving the Web: the original design and ultimate destiny of the World Wide Web", de Tim Berners-Lee, Bastos (2006) elaborou uma síntese chamada “Breve história da World Wide Web” e com base nesse texto, foi possível organizar o Quadro 1 que tenta resumir um pouco a evolução da tecnologia de comunicação digital. Através desse quadro, será possível compendiar um pouco os acontecimentos ocorridos, passando pelo protótipo do sistema Memex (aparelho leitor de microfilmes e que incorpora mídias de áudio e imagem) até o ano de 1994, quando é criado o primeiro site que apresentava como base o procedimento desenvolvido no sistema WWW. 25 ANO 1945 1960 1960 1969 1971 1974 1978 1980 1989 09/1990 10/1990 11/1990 11/1990 03/1991 02/1992 1992 1992 03/1993 04/1993 1994 1994 10/1994 ACONTECIMENTO Vannevar Bush descreve um sistema chamado “Memex” que permite fazer e seguir links entre documentos armazenados em microfilme Doug Engelbart produz um sistema chamado “oNLine System” (NLS) que permite fazer e seguir links em documentos de texto. Para tornar o sistema mais prático inventa o mouse Ted Nelson fala pela primeira vez no termo “hypertext” É criada a ARPAnet. Primeiros computadores ligados entre si Ray Tomlinson inventa o e-mail para trocar mensagens através da rede Vint Cerf e Bob Kahn publicam “A Protocol for Packet Network Interconnection”, o qual especifica o “Transmission Control Protocol (TCP) TCP é dividido em TCP (Transmission Control Protocol) e IP (Internet Protocol) Tim Berners-Lee (a trabalhar no CERN) escreve um programa chamado “Enquire-Within-Upon-Everything”, que permite estabelecer links entre diversos nós. Cada nó tem um título Tim Berners-Lee escreve “Information Management: A Proposal”. O documento é posto a circular pelo CERN Mike Sendall (o chefe de Tim Berners-Lee) dá luz verde para o projeto da Web avançar. Tim Berners-Lee começa a trabalhar na implementação de um “browser + editor” usando o ambiente NeXTStep. Chama o programa de “WorldWideWeb” Primeiro servidor web: nxoc01.cern.ch (mais tarde fica: info.cern.ch); Primeira página web: http://nxoc01.cern.ch/hypertext/WWW/TheProject.html Nicola Pellow (uma estudante) ajuda Tim Berners-Lee e começa a trabalhar numa implementação de um browser que corre sob a linha de comandos Browser em linha de comando é posto no ar para computadores vax, rs6000, e sun4 Browser em linha de comando é anunciado em vários newsgroups e mailing lists Alguns estudantes na universidade de Helsinkia escrevem um browser chamado “Erwise” com interface gráfica e correndo sobre X-Windows Pei Wei (estudante em UC Berkeley) escreve browser “ViolaWWW” para UNIX (este browser já permitia applets) Marc Andreesen e Eric Bina (estudantes na Universidade de Illinois) escrevem o browser “Mosaic”, que corre em diversas plataformas (UNIX, MAC, Windows). A grande vantagem do Mosaic foi a sua fácil instalação. Permitiu também a inclusão de imagens sem ser numa janela separada CERN permite que qualquer pessoa possa utilizar o código e o protocolo da Web (HTTP) de graça. Marc Andreesen deixa o NCSA em Illinois e juntamente com Jim Clark (fundador da Silicon Graphics) criam a Netscape Corporations Começam a aparecer os primeiros ISPs Criado o World Wide Web Consortium (W3C) QUADRO 1 - EVOLUÇÃO DA INTERNET E WEB FONTE: ADAPTADO DE BASTOS (2006) 26 Desde então o ambiente Web passou por diversas transformações para se tornar cada vez mais interativo, o que fez, em 1995, devido ao grande número de usuários, que a Internet passasse a ser administrada por instituições nãogovernamentais (MONTEIRO, 2001). Essa fácil aceitação se deve a capacidade associativa estabelecida, visto que a Web apresenta habilidades de integrar um determinado elemento (palavra, frase, imagem e etc.) de um documento a outro localizado no mesmo sistema ou afastado por milhares de quilômetros (BAX, 1998). O usuário, antes só receptor e disponibilizador de documentos pré-estabelecidos, passou a interagir com as informações contidas nesses documentos e a compartilhar cada vez mais dados. Segundo Breve (2002), a Web foi inicialmente concebida com o intuito de compartilhar informações científicas entre alguns poucos cientistas. O conteúdo era estático e apenas textual, não havia imagens, sons, animações ou conteúdo gerado dinamicamente para cada usuário, a interação era limitada, a navegabilidade era fácil, alto desempenho era desejável, mas não essencial, os sites eram desenvolvidos por apenas uma pessoa ou um pequeno grupo. (BREVE, 2002, p. 4). Hoje os usuários vem utilizando uma Internet mais amigável, diferente da que foi ofertada em 1969, dessa maneira, depois de alguns entendimentos sobre a história da Internet e Web, foi possível organizar o Quadro 2, que torna possível visualizar, sucintamente, as principais características apresentadas pela Internet em sua criação e nos dias atuais. Internet sem a Web (Criação) Sem uso do mouse Não existiam domínios Navegação através da digitação de códigos criptografados Somente textos Utilizada apenas pelas universidades e organismos oficiais, ou seja, acesso apenas a redes restritas Acesso somente de pessoas que conheciam os códigos Internet com a Web (Dias atuais) Aceita uso do mouse Uso de domínios (.com, .net, .org, .info, .biz, e etc.) Navegação através de mouse sobre hipertexto Textos, imagens, gráficos, animações e sons Utilizado por qualquer pessoa que tenha acesso à rede Não necessita que as pessoas conheçam os códigos QUADRO 2 - QUADRO COMPARATIVO DA EVOLUÇÃO DA INTERNET Nos atuais dias, novos termos vem surgindo para designar a evolução da Web, como a Web 2.0, por exemplo. A Web 2.0 seria a segunda geração, onde as 27 formas de publicação, compartilhamento e organização vem se desenvolvendo de forma a ser cada vez mais interativa e cooperativa. Curty (2008, p. 55), explica que a Web 2.0 é [...] uma web mais social, pois envolve mais pessoas; mais colaborativa, porque todos são partícipes potenciais e tem condição de se envolver mais densamente; mais apreensível, pois desmistifica que conhecimentos técnicos sejam necessários para a interação; uma Web que se importa menos com a tecnologia de informação e mais com pessoas, conteúdo e acesso. Na Web 2.0 são os usuários quem controlam seus dados, não dependendo de softwares, mas sim de conexão com a rede. Aquino (2007, p. 6) diz que os novos formatos que a Web 2.0 permitem [...] a visualização dos ideais de Bush e Ted Nelson, ou seja, o hipertexto é a forma utilizada para a representação, organização e recuperação das informações e é construído de forma coletiva, já que os usuários possuem a liberdade de interferir no conteúdo informacional. Já existe uma evolução para a Web 2.0, a Web 3.0 ou Web Semântica, que seria, segundo Curty (2008, p. 75), a extensão da internet atual “em que se busca atribuir à informação significado definido de forma a integrar computadores e pessoas”. A Web 3.0 seria a tentativa de organização das informações armazenadas no ambiente Web, independentemente da forma que apresente (texto, som, imagem, gráficos, etc.). Essas denominações “2.0” ou “3.0” são apenas qualificações atribuídas às evoluções dos programas de computadores, mas vem sendo usadas para designar as novas faces da Web. Para Curty (2008) a evolução da Web até a versão 3.0 seria descrita conforme o Quadro 3: 28 Evolução Web 1.0 Período 1990-2000 Web 2.0 2000-2010 Web 3.0 2005-2020 Serviços/Recursos Portais, mecanismos de busca websites, bases de dados Características Publicação na Web controlada por poucos, complicada e tecnologias de alto custo Blogs, wikis, RSS, Publicação na Web conexões via disponível para muitos, celular, redes maior amplitude e sociais, acesso à conexão bookmarks, mensagens instantâneas Mash ups, busca Integração uniforme, semântica Second projeção por persona; Life e avatares, onipresença/ubiqüidade tesauros e virtual taxonomia QUADRO 3 - EVOLUÇÃO DA WEB FONTE: CURTY, R. G. (2008. p. 53-78) A evolução contínua da Web, segundo Berners-Lee (1999 apud SÁ; BERTOCCHI, 2006, p. 34), não se trata de uma nova fase, apenas uma atualização dos conceitos, reaplicações e princípios estabelecidos na criação. A evolução realmente se deve ao espaço interativo que a Web se tornou, a colaboração entre as pessoas e a tecnologia disponível. Se na criação Tim Berners-Lee tivesse disponível o aparato tecnológico atual, a Web teria traçado outros rumos, pois a Internet de hoje é demonstrada pelo planejamento apresentado no final da década de 80. 2.1 A Web como fonte de informação As fontes de informações compreendem diversas formas e variados tipos de materiais, por isso Cunha (2001) alega que o conceito principal de “fonte de informação” é muito extenso, [...] pois pode abranger desde ao contato pessoal, as publicações impressas até as bases ou bancos de dados online. Observa-se nas situações de busca e recuperação de informação que algumas fontes tem predominância sobre outras, segundo o comportamento e a competência informacional do seu público usuário. (FUJINO; JACOMINI, 2007, p. 80). 29 Esses materiais abrangem os manuscritos e publicações impressas, além de objetos, como amostras minerais, obras de arte ou peças museológicas. Cunha (2001) afirma que as fontes de informação podem ser divididas em três categorias, são elas: fontes primárias, fontes secundárias e fontes terciárias. Bueno (2009, p. 71), através de análises conceituais de Campello (1993), Campos (1993), Souza (1997) e Cunha (2001), conceitua as categorias proposta por Cunha (2001) da seguinte forma: As fontes primárias são os documentos que geram análises para posterior criação de informações e servem para aprofundar o conhecimento de um tema. São aquelas que contêm informações originais. As fontes secundárias são as obras nas quais as informações já foram elaboradas, ou seja, representam a informação processada e organizada. São os documentos estruturados segundo padrões rigorosos. As fontes terciárias tem a mesma função de guiar o usuário para as fontes primária e secundárias. São os documentos que exercem a função indicativa, auxiliando o pesquisador a encontrar um dado. Com os avanços tecnológicos, as formas de acesso às informações mudaram consideravelmente, se antes os indivíduos procuravam as bibliotecas e os centros educacionais, com objetivo de realizar uma pesquisa, na atualidade a Internet é usada como primeira fonte de busca a informação, visto que proporciona acesso imediato aos interesses dos usuários sobre um determinado assunto. Isso se deve a procura por respostas mais instantâneas e a forma mais fácil de se obter informação no ambiente Web. A Internet, como foi dito anteriormente, surgiu com fins militares, servindo, posteriormente, a propósitos científicos e acadêmicos, e agora vem se popularizando e revolucionando o acesso à informação. Teixeira e Schiel (1997) afirmam que a Internet alcançou esse patamar das fontes de informações, por colocar a informação ao alcance de todos, a qualquer pessoa, tornando-se uma biblioteca “cibernética universal”. Entende-se que as ferramentas disponibilizadas na Web são, sem sombra de dúvidas, uma das melhores formas de se obter informação, por ser um ambiente colaborativo e de fácil acesso. Segundo Tomaél, Alcará e Silva (2008, p. 3), a Internet vem sendo considerada uma fonte valorosa de informação que subsidia – com seus recursos – desde pesquisas de alta tecnologia até estudantes do 30 ensino fundamental. Os recursos possibilitam a interação com diversas formas de produção, sejam elas constituídas por textos, imagens, sons, fotos, vídeos, músicas, animação, multimídia, etc., que alcançam o usuário e o envolvem num espaço informacional com fins múltiplos: trabalhar, estudar, pesquisar, divertir-se, etc. A Web, como fonte de informação, se tornou um artifício indispensável no cotidiano. Através das ferramentas disponíveis, há a possibilidade de se chegar à informação com facilidade e agilidade. Garcia (1997 apud BLATTMANN; FACHIN; RADOS, 1999, p. 10) diz que essa facilidade e rapidez no acesso à informação, estimula os usuários a terem uma visão de outras realidades culturais, bem como aumentar a comunicação interpessoal, interação e integração com outros alunos e professores, enriquecendo os conhecimentos de forma individual e entre grupos. Para Noguti (2000, p. 31) “a informação é transmitida através das fontes, partindo sempre de uma pessoa ou um grupo de pessoas”. Percebe-se, nesse sentido, que a informação pode ser transmitida de várias formas (som, escrita, imagem, pintura, fotografias, gráficos, etc.), sendo iniciada a transmissão em um ponto e chegando a outro. Segundo Fujino e Jacomini (2007, p. 73), quando uma transmissão acontece, tomando como exemplo a forma escrita, o “outro meio também passa a compartilhar este poder de ser uma fonte de informação. Assim, essas fontes se sobrepõem, pois a mesma informação tem a característica de poder ser transmitida de uma fonte à outra”. Dessa forma, a Web pode ser considerada como uma fonte de informação, pois oferece as características fundamentais de transmissão e acesso. 31 3 COMO OS MECANISMOS DE BUSCA INDEXAM A WEB? A Web se tornou um ambiente democrático e uma ferramenta popular de simples acesso à informação, onde qualquer indivíduo, com ingresso a rede, pode buscar ou disponibilizar o conteúdo desejado. Dados comprovam que 88% dos usuários utilizam os mecanismos de busca para soluções em variadas áreas (NIELSEN; LORANGER, 2007). Isso se deve ao aumento considerável do número de páginas online, ficando praticamente impossível o conhecimento de todos os sites existentes. Os mecanismos de buscas surgiram, então, nesse contexto, como intermédio entre usuários e estoques de informação. A Recuperação da Informação (RI) pode ser minimamente conceituada como a realização da organização e armazenamento da informação para torná-la acessível. A Indexação seria a inclusão de documentos em um determinado sistema, identificando-os através da determinação do assunto (descritores) para a representação posterior. Partindo dessas ideias, nesta seção explicar-se-á como os mecanismos de busca indexam as páginas disponíveis na Web, mas antes será feita uma revisão de literatura que abarcará conceitos de Recuperação da Informação e de Indexação (enfatizando a Indexação Automática e do entendimento dos Diretórios de Busca e Motores de Busca), para posteriormente analisar as estratégias recomendadas para que a página seja melhor indexada pelos mecanismos de busca. 3.1 Recuperação da Informação Segundo Saracevic (1996), a expressão “recuperação da informação” foi definida por Calvin Mooers como sendo o englobamento dos aspectos intelectuais da descrição de informações e suas especificidades para a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da operação. Neste contexto, são estudadas técnicas de digitalização de objetos originados de fontes heterogêneas, técnicas de armazenamento, processos de busca, recuperação e apresentação de forma amigável das informações, sendo a 32 indexação, ainda, a principal ferramenta para recuperação (CARDOSO, 2000). O sistema de recuperação da informação deve responder às demandas dos usuários com tempo de respostas aceitáveis, mas para que isso aconteça, é preciso que os documentos sejam submetidos a um tratamento prévio que permita “a extração dos descritores e sua estruturação com vistas a um acesso rápido às informações” (MAIA; SOUZA, 2010, p. 156). Segundo Teixeira e Schiel (1997) a recuperação da informação compreende basicamente três etapas: indexar, armazenar e recuperar. A Figura 2, elaborada por Borsato et al (2006), tenta exemplificar o real processo de RI, onde a recuperação de informação é apresentada por meio da compreensão de processos e da produção de artefatos, que realizam tarefas, tais como: a indexação, a recuperação, a interface entre um usuário e um sistema de busca. FIGURA 2 - COMPONENTES DE UM SISTEMA DE RECUPERAÇÃO DA INFORMAÇÃO FONTE: BORSATO EL AL (2006, p. 33) Na recuperação da informação o principal desafio é tentar entender a necessidade de informação do usuário e posteriormente atender, de forma precisa e rápida, o que foi solicitado. Na RI a unidade básica de acesso à informação é a palavra (conhecida também como palavra-chave ou termo), pois a partir desta unidade diversos modelos podem ser desenvolvidos “com o intuito de facilitar o 33 acesso à informação e melhorar a precisão do resultado de uma consulta ou busca” (BORSATO et al, 2006, p. 1). Segundo Barreto (1996), as medidas que são tradicionalmente aceitas na avaliação do rendimento operacional dos estoques informacionais são a Revocação e a Precisão. A Revocação seria a habilidade do estoque de informação em proporcionar itens relevantes para o receptor e a Precisão seria a capacidade do estoque de informação em reter itens de informação não relevantes para o receptor, em outras palavras, a Revocação mede a proporção de documentos relevantes recuperados e a Precisão mede quantos documentos relevantes foram recuperados 3.1.1 Recuperação da Informação na Internet Segundo Lancaster (2004), a recuperação da informação na Internet tem recursos informacionais diferentes dos utilizados para os registros bibliográficos. Entretanto, há também algumas semelhanças. A rede mundial de computadores utiliza: URL, nome do site, quaisquer metadados incluídos nos sites, páginas de conteúdo (onde os termos que ali ocorrem podem ser considerados um tanto análogos aos termos de indexação de registros bibliográficos convencionais) e todo o texto encontrado no site, e os registros bibliográficos utilizam: título, número de classificação (às vezes), termos de indexação, texto de resumo (embora a quantidade de texto no site possa ser consideravelmente maior). A diferença entre a recuperação na Internet e a realizada na maioria dos registros bibliográficos, seria a existência de apontadores (hipertextos) para outros sites, nos quais os termos dos vínculos são também pesquisáveis. Neste sentindo, um site não é uma unidade independente (como um registro bibliográfico comum), mas um nó de uma rede. De acordo com Mercado (2002), a Internet faz parte da globalização e é um meio de comunicação fácil, barata e difundida, sendo uma ferramenta poderosa que reúne amplo número de informações que não fazem parte de livros. É o que permite acesso remoto às bases de dados e informações que seriam difíceis de encontrar. Mercado (2002, p. 193) atribui alguns problemas com a recuperação da informação na Internet: 34 a) Confusão entre informação e conhecimento – temos muitos dados, muitas informações disponíveis. Conhecer é integrar a informação no nosso referencial, no nosso paradigma, apropriando-a, tornando-a significativa para nós. O conhecimento não se passa, o conhecimento se cria, se constrói; b) Facilidade de dispersão - muitos usuários se perdem no emaranhado de possibilidades de navegação. Não procuram o que está combinado deixando-se arrastar para áreas de interesse pessoal. É fácil perder tempo com informações pouco significativas, ficando na periferia dos assuntos, sem aprofundá-los, sem integrá-los num paradigma consistente. Conhecer se dá ao filtrar, selecionar, comparar, avaliar, sintetizar, contextualizar o que é mais relevante, significativo; c) Perde-se muito tempo na rede – onde mais se percebe é ao observar a variedade de listas de discussão sobre qualquer tipo de assunto banal. Dificuldade de se achar respostas corretas e confiáveis em pouco tempo, sem precisar passar horas abrindo todos os sites oferecidos pelo serviço de busca; d) Impaciência – de muitos usuários por mudar de um endereço a outro. Essa impaciência os leva a aprofundar pouco as possibilidades que há em casa página encontrada. É difícil avaliar rapidamente o valor de cada página, porque há muita semelhança estética na sua apresentação: copiam-se os mesmo sites, os mesmos gráficos, animações, links; e) Conciliar os diferentes tempos dos usuários – uns respondem imediatamente. Outros demoram mais, são mais lentos. A lentidão pode permitir um maior aprofundamento. Na pesquisa individual esses ritmos diferentes podem ser respeitados. Nos projetos de grupo, isso depende muito do coordenador e do respeito entre seus membros. Nesse sentido, Lancaster (2004, p. 341), visando as dificuldades de recuperação da informação no ambiente Web, tenta relacionar algumas opções para “refinar” a busca através do emprego de: 35 1. Lógica booleana, inclusive recursos de encaixamento (uso de símbolos para refinamento da busca, exemplos: and, and not, or); 2. Truncamento (omissão de uma parte essencial do texto. O truncamento não é automático; ou seja, para obter plurais ou outras variações no termo, deve-se incluir no término das palavras o caractere asterisco (*) ― após uma raiz de pelo menos três letras); 3. Busca por expressões (busca feita pela frase apresentada. Destina-se a informação relacionada a um conceito dado, por exemplo, numa busca sobre “transporte público” será recuperado informações sobre ônibus e metrô); 4. Proximidade de palavras (a distância máxima entre os dois termos da busca, os termos serão recuperados imediatamente juntos, um ao outro); 5. Buscas por campos (isto é, poder limitar a busca a um campo especificado no registro, como título ou URL); 6. Vínculos de hipertexto (isto é, buscar páginas vinculadas a determinado URL); 7. Busca por imagens (capacidade de procurar apenas páginas que contenham imagens); 8. Consulta por exemplo (capacidade de encontrar registros semelhantes a um registro já conhecido como interessante). 3.2 Indexação: conceitos fundamentais O objetivo principal da indexação é assegurar a recuperação de qualquer documento ou informação no momento em que houver solicitação em um sistema de informações. Para Cintra (1983), a indexação é definida como a tradução de um documento em termos documentários, isto é, em descritores, cabeçalhos de assunto, termos-chave, que têm por função expressar o conteúdo do documento. A indexação assim é definida como uma “tradução lexical” das unidades lexicais da língua em que está escrito o documento, para unidades lexicais de uma linguagem documentária. Ou seja, a indexação é a operação que consiste em descrever e caracterizar um documento com o auxilio de representações dos conceitos 36 contidos nesses documentos, isto é, em transcrever para linguagem documental os conceitos depois de terem sido extraídos dos documentos por meio de uma análise dos mesmos. A indexação permite uma pesquisa eficaz das informações contidas no acervo documental. (RIBEIRO, 2006, p. 1). A indexação conduz ao registro dos conceitos contidos num documento de uma forma organizada e facilmente acessível, mediante a constituição de instrumentos de pesquisa documental, como índices e catálogos alfabéticos. A informação de um documento é representada, então, por um conjunto de conceitos ou combinações de conceitos e, a linguagem de indexação seria a transformação dos conceitos selecionados em termos ou símbolos para a representação da informação em um determinado sistema. Para Lancaster (2004), a indexação seria um processo subjetivo em vez de objetivo, onde duas ou mais pessoas possivelmente divergirão sobre o conteúdo informacional do documento a ser indexado, havendo prováveis decisões contrárias à indexação em momentos diferentes. Ainda de acordo com Lancaster (2004), a indexação pode se referir a coerência, coerência interindexadores e coerência intra-indexar. A coerência na indexação refere-se à extensão com que existe concordância quanto aos termos a serem usados para indexar um documento. A coerência interindexadores refere-se à concordância entre indexadores, enquanto a coerência intra-indexador refere-se à extensão com que um indexador é coerente consigo mesmo. (LANCASTER, 2004, p. 60). Conforme Lima (2003), a indexação é o procedimento intelectual que envolve atividades cognitivas a compreensão e a composição da representação da informação, ou seja, a indexação necessita da utilização de uma estrutura de linguagem própria para definir a formação de categorias. O processo de indexação pode ser dividido em três etapas: análise do documento e estabelecimento do seu assunto: onde se observa explicitamente a base cognitiva; identificação dos principais conceitos do documento: onde são utilizados o intelecto do indexador e o seu conhecimento prévio armazenado na memória, que é comprometido pelas suas representações possuidoras de forte carga emotiva, influenciando as suas decisões, uma vez que percepção, emoção, atitudes, linguagem e desenvolvimento mental são considerados no estudo da formação de conceitos; tradução destes conceitos em termos de uma linguagem de indexação: que envolve a interpretação do conteúdo 37 do texto. (LIMA, 2003, p. 80). Segundo Lancaster (2004), há dimensões da indexação: a Exaustividade, a Seletiva e a Especificidade. A exaustividade é quando se atribui mais termo a indexação, a seletiva é quando menos termos são incluídos e a especificidade se refere ao conceito da segunda dimensão da indexação – quando um documento precisa ser indexado com o termo mais específico que o compreenda integralmente. A indexação exaustiva implica o emprego de termos em número suficiente para abranger o conteúdo temático do documento de modo bastante completo. A indexação seletiva, por outro lado, implica o emprego de uma qualidade muito menor de termos, a fim de abranger somente o conteúdo temático principal do documento. Quanto mais termos forem utilizados para indexar um documento mais acessível ele se tornará e, provavelmente, mais será recuperado. (LANCASTER, 2004, p. 23). Através da indexação é possível se obter um aproveitamento muito melhor no processo de busca e Recuperação da Informação, uma vez que, o elemento principal/fundamental estabelecido é a representação do conteúdo dos documentos (ARAÚJO JÚNIOR, 2007). Em síntese, indexar seria a substituição do texto de um documento por uma descrição do conteúdo tratado, com o objetivo de expor do que se trata. Segundo Bruzinga, Maculan e Lima (2007), existem pelo menos duas formas para se fazer a análise do conteúdo semântico de um documento: indexação manual e indexação automática. A indexação manual ou controlada seria a seleção cuidadosa da terminologia empregada, realizada por um indexador que escolhe um conjunto de termos para representar o conteúdo de um documento. Na segunda forma de indexação, a chamada automática, cada palavra presente no texto tem a capacidade de estabelecer uma entrada no índice, sendo desempenhada por um sistema computacional. Castro (2001) afirma que vários estudiosos são defensores da indexação automática e que criticam consideravelmente a indexação manual. O autor coloca, ainda, que esse tipo de indexação é subjetiva, lenta, custosa e, geralmente, inconstante e de custo alto. O princípio da indexação automática remonta aos últimos anos da 38 década de 50, quando Luhn apresentou o índice KWIC (key word in context), no qual as palavras do título que servem de entradas no índice são identificadas automaticamente a partir da eliminação das palavras não significativas, por comparação com uma lista de palavras vazias de significado, estabelecida previamente. A idéia de condensar um texto até reduzi-lo unicamente aos termos realmente significativos é, por outro lado, muito mais antiga, e todos nós a temos aplicado quando redigimos o texto de um telegrama ou de um telex. (ROBREDO, 1991, p. 130). A indexação automática pode ser dividida em indexação por extração automática e indexação por atribuição automática. A indexação automática por extração é aquela que, por métodos estatísticos, pode extrair palavras com certo grau de ocorrência em um documento. Este processo pode consistir em grande subsídio para um indexador identificar possíveis descritores no texto avaliado (indexação semi-automática), ou anunciar um termo a ser modificado para virar um descritor. A indexação automática por atribuição é a que mais se aproxima ao processo de indexação humana, pois são atribuídos outros conceitos aos termos escolhidos, na maioria das vezes, vinculados a um vocabulário controlado, o que oferece a termos repetidos detectados por um sistema, novos termos relacionados e paralelos, acrescentando novos valores à indexação automática realizada no primeiro momento (LANCASTER, 2004). 3.3 Diretórios de busca e motores de busca da Web Os diretórios e motores de busca são sistemas desenvolvidos para facilitar a busca e, posteriormente, a recuperação das informações disponibilizadas no ambiente Web. Segundo Yamaoka (2003), os diretórios surgiram logo após a criação da WWW, tendo como objetivo fundamental melhorar a localização das informações, mas devido ao crescimento e a dificuldade de manter atualizadas as listas de endereços das páginas da Web, percebeu-se a necessidade de desenvolverse métodos automáticos, surgindo então os motores de busca que localizam as páginas através da indexação não humana. Desta forma, a diferença básica entre os diretórios e os motores de busca é que os diretórios são compilados por pessoas, enquanto os mecanismos de busca são automatizados. A seguir serão explicados, de que forma pormenorizada, as características 39 dos diretórios e motores de busca. a) Diretórios de Busca Os diretórios de busca são listas de assuntos organizadas em categorias, geralmente com uma estrutura hierárquica (árvore), formados por extensos bancos de sites que arranjam as informações por assunto, o que permite a busca em categorias e subcategorias. Ao utilizar diretórios de assuntos, observa-se que existem 2 tipos básicos: acadêmicos e comerciais, onde os interesses podem variar deste o uso intensificado, monitorado, selecionado, etc. Geralmente os diretórios acadêmicos preocupam-se em selecionar links pela qualidade do site. Portanto, o diretório de assuntos é um serviço que oferece uma coleção de links dos recursos Internet submetidos pelo site, criadores ou avaliadores e organizados em categorias de assuntos (áreas específicas). Os diretórios utilizam critérios de seleção para os links a serem incluídos. Cabe mencionar que nenhum diretório de busca tem categorizada todas as informações existentes na Web e, gradativamente surgem novas iniciativas compilando informações em áreas especializadas do conhecimento e direcionados a determinado público-alvo (crianças, pesquisadores, organizações não-governamentais, etc.). (BLATTMANN; FACHIN; RADOS, 1999, p. 19). Nos diretórios os usuários optam por um tópico e passam a percorrer a síntese de classificação, clicando com o mouse nas diferentes divisões e subdivisões, adentrando em um grau cada vez mais particular até atingir à categoria almejada. Os catálogos são recomendados para pesquisas de assuntos amplos, uma vez que seu raio de compreensão é menor e, desta maneira, possibilita uma filtragem mais eficaz no resultado da busca (BARROS, 2002). Por demandarem um processo manual de indexação, os diretórios compreendem um universo mais restrito da Web, quando confrontados com os motores de busca fundamentados em palavras. b) Motores de Busca Os motores de busca são, na atualidade, os artifícios mais usados para se recuperar informação na Internet, dada a diversidade apresentada de conteúdos e, consequentemente, o grande volume de páginas disponíveis. Graças as formas que 40 os motores de busca utilizam para indexar páginas da Web, é possível a realização da pesquisa e, posteriormente, o acesso a informação de forma mais hábil. A indexação automática de páginas da Web é fundamental para recuperação de informações, pois através dela é possível estabelecer critérios para redução da quantidade dos resultados da pesquisa, tornando os itens recuperados mais relevantes. A indexação automática feita pelos mecanismos de busca é objeto de estudo de várias áreas, mas vale ressaltar que se trata de um assunto diretamente ligado aos profissionais da computação. Entretanto na atualidade vem se exigindo o estabelecimento de uma ponte entre a Ciência da Informação e Ciência da Computação, para que esses profissionais possam organizar dados e informações de forma a otimizar os resultados da recuperação (ROBREDO, 2005). Segundo Robredo (2005), os motores de busca surgiram na década de 1970 e desde a sua criação, vem tendo como objetivo a busca de conteúdos que satisfaçam a critérios específicos. O ALIWEB (Archie-Like Indexing on the Web) e o Harvest1 são exemplos das primeiras tentativas para criar motores de busca baseados em palavras-chave, mas o primeiro dos motores baseados em robôs2 foi o WebCrawler, lançado em abril de 1994 (CENDÓN, 2001). Todos os motores atuais utilizam o método de robôs, composto por quatro componentes: “um robô, que localiza e busca documentos na Web; um indexador, que extrai a informação dos documentos e constrói a base de dados; o motor de busca propriamente dito; a interface, que é utilizada pelos usuários” (CENDÓN, 2001, p. 41). A expressão “motor de busca” refere-se geralmente ao aplicativo capaz de buscar informações na Web, observando-se que existem outros tipos de motores que pesquisam via Internet (ou Intranet) em bancos de dados corporativos ou privados que possuem seus próprios motores de busca. Esses seriam “os grandes bancos de dados, altamente especializados, que somente podem ser acessados 1 O ALIWEB e o Harvest utilizavam tecnologias diferentes das atuais. Os robôs, também chamados de aranhas (spiders), agentes, viajantes (wanderers), rastejadores (crawlers) ou vermes (worms), são programas que o computador hospedeiro da ferramenta de busca lança regularmente na Internet, na tentativa de obter dados sobre o maior número possível de documentos para integrá-los, posteriormente, à sua base de dados. Existem várias estratégias que os robôs podem utilizar para se locomoverem de um documento a outro, utilizando-se dos links existentes nas páginas da Web. Geralmente, eles iniciam a busca a partir de sites conhecidos, especialmente daqueles que possuem muitos links, recuperam a sua home page e, sistematicamente, seguem os linksencontrados nesta página inicial. Usam algoritmos próprios para determinar que linksdevem seguir. Por exemplo, alguns recuperam os documentos da hierarquia superior de um grande número de servidores (abordagem breadth-first), enquanto outros capturam todos os documentos em links de um mesmo servidor (abordagem depth-first) (CENDÓN, 2001, p. 41). 2 41 mediante assinatura” (ROBREDO, 2005, p. 333)3. O Motor de busca é uma espécie de catálogo mágico. Mas diferente dos livros de referências comuns, nos quais está acessível a informação que alguém organizou e registrou, o catálogo do motor de busca está em branco, como um livro vazio. Ao se realizar uma consulta, a lista de ocorrência de assunto é criada em poucos segundos por meio do trabalho de um conjunto de softwares de computador conhecidos como spiders (aranhas), que vasculham toda a Web em busca das ocorrências de um determinado assunto em uma página. Ao encontrar uma página com muitos links, os spiders embrenha-se por eles, conseguindo, inclusive, vasculhar os diretórios internos – desde que eles sejam públicos, ou seja, tenham permissão de leitura para usuários – dos sites nos quais estão trabalhando. Motores de busca muito refinados são capazes de saber exatamente que atualizações houve em um site usando esse método de scanner. (CARMONA, 2006, p. 9). Ao contrário dos diretórios, os motores não organizam hierarquicamente as páginas dos sites; os diretórios se preocupam menos com a seletividade que com a abrangência de suas bases de dados, procurando reunir o maior número admissível de recursos através do uso de softwares (robôs). Como suas bases de dados são extremamente amplas, tendo a capacidade de organizar centenas de milhões de itens, os motores de busca permitem que os usuários localizem os itens desejados mediante buscas por palavras-chave, ou, às vezes, em linguagem natural (CENDÓN, 2001). Os robôs modernizam um índice cotidianamente, sendo determinado como arquivo invertido. Esse arquivo invertido é constituído por três conjuntos: [...] o conjunto das palavras indexadas, o conjunto dos endereços das páginas visitadas pelo robô e um conjunto composto por relacionamentos binários entre uma palavra do conjunto de palavras e um endereço do conjunto de endereços, em que cada relacionamento indica que a página do referido endereço contém a referida palavra. (ROCHA, 2004, p. 110). Neste conjunto, os motores de busca trabalham com algoritmos para indexar as informações que podem ser recuperadas através do ambiente Web. Esses algoritmos fazem com que as páginas, consideradas mais relevantes, estejam no início da lista do resultado da busca, de forma que determinem a relevância. Segundo Costa e Silva (2001, p. 2), é traçado um ranking de recuperação da informação que envolve três tipos de algoritmos: conteúdo, estrutura de links e 3 Neste estudo só será analisado o motor de busca Google. 42 interação. Conteúdo: analisam toda a informação que se pode extrair do próprio documento, como por exemplo, títulos e texto. Procura-se em geral a conjugação entre os termos das pesquisas e os termos dos conteúdos; estrutura de links: analisam a interligação entre as diversas páginas na WWW, que pode ser vista como um grafo, sendo as páginas os nós e os links as suas arestas. Esta estrutura pode servir para inferir estimativas da importância relativa das páginas; interação: analisam a informação obtida a partir do registro das interações dos utilizadores com o motor de busca. Robredo (2005) afirma que o alicerce do funcionamento dos motores de busca, tem como base alguns ou vários princípios, que apresentam características especificas, tais como: Armazenam informações sobre grandes quantidades de páginas Web recuperadas na rede, cujo conteúdo é analisado e as páginas indexadas pelo título, cabeçalhos e metadados, e os dados sobre as páginas armazenados em bases de dados indexadas (arquivos invertidos, por exemplo), para utilização em pesquisas posteriores; As palavras-chave utilizadas pelo usuários em suas perguntas são comparadas com as entradas das bases de dados indexadas, para seleciona as páginas pertinentes; ordenam as páginas recuperadas segundo critérios de maior ou menos relevância que variam, naturalmente, de um motor e busca a outro. Um critério pode ser a coincidência das páginas encontradas em pesquisas recentes como resposta a perguntas com palavras-chave-semelhantes. (ROBREDO, 2005, p. 334). A Internet tem sido de grande valia na busca por informações, mas a recuperação de conteúdos através dos motores de busca, embora haja evolução contínua da tecnologia, ainda apresenta resultados não tão satisfatórios, principalmente se a consulta for muito complexa. Nos sistemas genéricos, como os buscadores comuns na Internet, não são raras as respostas sem relevância ao interesse real do usuário, pois não consideram o contexto específico (AMORIM; CHERIAF, 2007). Apesar da incontestável utilidade dos buscadores online, as páginas “boas” e as páginas “ruins” se misturam e apresentam resultados dúbios. A grande problemática seria que os usuários normalmente só consideram a(s) primeira(s) páginas(s) como relevante(s) não aprofundando ou refinando a pesquisa (ROBREDO, 2005). Loh, Wives e Frainer (1997) corroboram com a ideia de Robredo (2005), 43 considerando, ainda, os usuários inexperientes ou leigos, tanto no assunto que procuram quanto na utilização da ferramenta em si, ou seja, alguns usuários, pelo não conhecimento das ferramentas de refinamento, fazem pesquisas que podem retornar muitos documentos sem ter a certeza de que a informação desejada se encontra em algum deles, em outras palavras, nos motores de busca, por exemplo, a palavra “sede” pode ser tanto a vontade de beber (1), como o local onde funciona uma organização (2), conforme a Figura 3. 1 2 FIGURA 3 – PESQUISA DO TERMO “SEDE” NO GOOGLE Alguns motores também não permitem a busca através de propriedades atribuídas ao documento (ROCHA, 2004). Isto acontece porque a técnica de indexação é baseada, geralmente, na presença de termos nos documentos. Assim, podem ser retornados documentos que contêm as palavras fornecidas, mas que se referem a outro contexto, devido à possibilidade das palavras terem vários significados diferentes, ou outros documentos relevantes para o assunto escolhido poderão deixar de ser recuperados justamente porque não possuem os termos fornecidos no momento da busca. O Quadro 4 aponta algumas das diferenças apresentadas entre os diretórios e motores de busca. 44 Diretório de busca Contém apontadores para sites. Organizado por categorias, temáticas hierárquicas Procuram apenas entre as descrições dos sites Permite encontrar rapidamente listas de links sobre um determinado tema Atualização manual Atualização demorada. Ao longo do tempo algumas páginas referenciadas desaparecem, apresentando resposta de links inválidos Motor de busca Recolhe automaticamente páginas da Web e constrói um índice de assuntos Localiza qualquer tipo de informação, não contextualizado por categorias Pesquisa realizada em todo conteúdo das páginas Inicia a recolha de informações partindo das listas de links dos diretórios Atualização automática Atualização rápida. Elimina URLs inválidos. QUADRO 4 – DIFERENÇAS ENTRE DIRETÓRIOS E MOTORES DE BUSCA 3.4 Os métodos de indexação na Web pelos mecanismos de busca A Arquitetura da Informação (AI) é conceituada como a técnica de projetar e edificar ambientes “virtuais”. É um campo que abrange a verificação, o diagnóstico, a concepção e a implementação de sites. Esta definição, ainda no contexto da Web, compreende a organização, a navegação, a representação e a estrutura de busca. O objetivo da AI é fazer com que os usuários localizem e gerenciem a informação de forma eficaz, ou seja, é a arte e ciência de estruturar o conhecimento (tecnicamente, dados) e definir as interações com os usuários [...] tem como freqüência seu foco voltado para a usabilidade dos sites. Assim, quando se fala de arquitetura da informação em ambientes Web cabe distinguir dois focos de atenção: um a estruturação dos documentos a serem publicados na Internet e de seu conteúdo , com vista à exploração de suas informações de um ponto de vista temático, e o outro a facilidade de uso e eficiência na satisfação das necessidades exigências do usuário, ou seja, a usabilidade do site.”(ROBREDO, 2005, p. 316). A AI seria um dos modos para que os mecanismos de busca tratem determinadas páginas relevantes, ou seja, quando um site é colocado na Internet, é preciso estabelecer algumas formas para que ele seja tratado com importância pelos motores de busca e, posteriormente, indexado. 45 Um motor de busca é uma aplicação informática que encontra informações contidas nos sites. Todos desempenham três funções chave: procurar informações por palavras; constituir um índice e indexá-las ao local onde foram encontradas; permitir ao cibernauta conjugar várias palavras que estejam nesse índice, de forma a criar novas combinações. Para além de procurarem nos cabeçalhos, URL, nos títulos e nos textos, utilizam os metadados dos sites para „perceberem‟ se essas páginas interessam ou não para a busca que está a ser efetuada. Os metadados (meta tags) são etiquetas de informação que um dono de site define como sendo um resumo do seu site e que estabelece como é que este deve ser indexado. (TAVARES et al, 2009, p. 890). Segundo Tavares et al (2009, p. 891), os motores de busca são compostos por cinco componentes principais: o crawler, o repositório, o indexador, o ordenador e o apresentador: O crawler – descobre e recolhe automaticamente conteúdos da Web, seguindo links4 contidos nas páginas. O repositório – armazena as páginas recolhidas de modo a que possam ser indexados e mostradas em cache5. O indexador – extrai as palavras dos conteúdos Web e cria um índice invertido6. O ordenador – ordena as páginas que contenham os termos pesquisados por um utilizador de modo a que as mais relevantes sejam apresentadas nos primeiros lugares. O apresentador – gerencia a interface de utilização do motor de busca. Estabelece os termos pesquisados pelos utilizadores. Apresenta os resultados 4 apontador, ligação de hipertexto, referência. É uma palavra, um texto, uma expressão ou uma imagem que permite acesso imediato à outra parte de um conteúdo ou a outro site. 5 cópia arquivada. Funcionalidade de um motor de busca que permite ao utilizador visualizar uma página mesmo que esta já não esteja disponível no seu site de origem. 6 Índice invertido - Armazena uma lista de ocorrência de cada critério atômico de busca, tipicamente em forma de uma tabela hash ou de uma árvore binária. 46 da pesquisa na forma de links para as páginas. Os buscadores não podem vasculhar toda a Internet sempre que um usuário realizar uma pesquisa, e desse modo, são criados bancos de dados para cada termo disponibilizado, recuperando as páginas que estão associadas as palavras utilizadas na busca. Periodicamente esses bancos de dados são renovados, eliminando os sites inválidos e atualizando as mudanças realizadas. Conforme dito anteriormente, o ambiente Web vem dispondo de um largo número de páginas disponíveis e do recebimento contínuo de informações, o que acarreta problemas na recuperação de informações, que Ribeiro e Vidotto (2009) chamam de “acúmulo informacional”. Esse acúmulo gera caos na recuperação das informações, uma vez que não dispõem de uma forma estruturada e selecionada na hora do planejamento e da criação do site. Com grandes volumes de dados, a aplicação na arquitetura das bases de algum tipo de „clusterização7‟ dos critérios de busca pode render bons resultados no que diz respeito à velocidade de resposta. Qualquer que seja o modelo de arquitetura dos dados nas bases e o sistema de gerenciamento, [...] sempre será necessário para obter resultados satisfatórios na pesquisa, que os termos (ou linguagens) utilizados na formulação das perguntas sejam coerentes com os utilizados para representar o conteúdo e definir os pontos de acesso aos registros da base. Daí a necessidade de utilizar algum tipo de normatização dos processos de indexação e de formulação das perguntas. (ROBREDO, 2005, p. 310). Robredo (2005) indaga sobre a indexação na Web e averigua que existem variadas formas de interpretação, ou até mesmo, aplicação, afirmando, ainda, que esse tipo de indexação levará a um entendimento diferenciado dos “processos de catalogação, classificação e indexação, com seus aspectos sintáticos, semânticos e taxonômicos” (ROBREDO, 2005, p. 314). Um ponto principal que pode ser apresentado é o fato que os mecanismos de busca não indexarem os sites em si, mas sim os conteúdos das páginas que os compõem. Isso significa que uma página de um determinado site pode estar entre os primeiros resultados de uma busca, 7 “clusterização é a classificação não-supervisionada de dados, formando agrupamentos ou clusters. Ela representa uma das principais etapas de processos de análise de dados, denominada análise de clusters. A análise de clusters envolve, portanto, a organização de um conjunto de padrões (usualmente representados na forma de vetores de atributos ou pontos em um espaço multidimensional – espaço de atributos) em clusters, de acordo com alguma medida de similaridade”. (MOSCATO; ZUBEN, 2002). 47 como pode estar entre os últimos em outra consulta. Pode-se exemplificar essa afirmação através de uma busca simples no Google sobre “culinária chinesa” e “culinária italiana”, tendo como referência o site “Muito Mais Receitas8”. Ao se buscar por “culinária chinesa” o site aparece em segundo lugar, já ao se pesquisar por “culinária italiana” o site aparece em sétimo lugar (Figura 4 e Figura 5). Dessa maneira, a otimização9 dos sites deve ser realizada por cada página, muito embora, o conjunto de todas elas também tem alta relevância (FELIPINI, 2010, p. 9). FIGURA 4 – PESQUISA SOBRE CULINÁRIA CHINESA FIGURA 5 - PESQUISA SOBRE CULINÁRIA ITALIANA 8 www.muitomaisreceitas.com.br. Otimização é o uso de técnicas para que um site apareça no topo do ranking dos resultados de pesquisas. 9 48 Campos e Bax (2000) apresentam os principais fatores analisados pelos mecanismos de busca no momento da indexação de uma página e que devem, portanto, ser considerados no momento de se disponibilizar conteúdos na Web. Segundo os autores, o documento deve estar estruturado através das palavraschave, das meta tags 10 e de conhecimentos de HTML11. A utilização do HTML faz com que os motores de busca entendam melhor as páginas dos sites, sendo capazes de indexar o conteúdo de forma mais eficaz. Os outros tipos de linguagem de programação, tais como Java script, Flash e arquivos de imagens, não são identificadas no momento da busca, por isso o HTML é mais indicado na constituição de um site, mas isso não exclui a possibilidade de utilização dos outros tipos de linguagens, basta que haja a combinação, tendo como base a estrutura HTML. O grande problema dos mecanismos de busca com as outras linguagens de programação é que eles não conseguem lidar com os erros de programação, não alcançando entendimento com códigos que contenham falhas. Em outras palavras, uma página que não estiver estruturada com uma configuração precisa, será ignorada pelos motores de busca. Campos e Bax (2000) ressaltam ainda que os processos de indexação aplicados a páginas da Web, dependem do preparo prévio dos conteúdos a serem indexados e que essa tarefa deve ser realizada por especialistas. De acordo com Felipini (2010), ao se disponibilizar um conteúdo na Web é de fundamental importância saber quais palavras utilizar e em qual local do site essas palavras estarão localizadas: Nome do site (nome do domínio): A escolha do nome influencia na colocação que o site ficará. Por exemplo: Se o nome do site for “Livros”, o endereço “www.livros.com.br” terá mais chance de ser recuperado em relação ao endereço “www.seboonline.com.br”. Isso se deve ao fato dos 10 São linhas de código HTML, ou "etiquetas", que, entre outras coisas, descrevem o conteúdo de um site para os mecanismos de busca. É nelas que se é inserido as palavras-chaves. 11 Html (HyperText Markup Language) – é uma linguagem de marcação utilizada para produzir páginas na Web, para serem interpretados por navegadores. É o código usado para transformar qualquer documento comum em documento accessível e disponibilizável à rede mundial de computadores e navegável por meio das ferramentas de busca de conteúdos na Internet. 49 buscadores darem preferência à existência da palavra-chave no endereço da página. Título do site: O título da página é o destaque dado ao conteúdo que está sendo disponibilizado. Segundo Campos e Bax (2000), os mecanismos de busca consideram o título o local mais importante para determinar o assunto tratado. A lógica seria a seguinte: “se a palavra-chave está presente no título é porque o conteúdo da página está relacionado com a busca que está sendo efetuada e, portanto, a página é relevante” (FELLIPINI, 2010, p. 22). O título do site aparece da seguinte maneira no código HTML: <title>Nome do site</title>. A Figura 6 exemplifica o título apresentado tanto na home page do site como no código HTML da tag title. FIGURA 6 - TAG TITLE Topo da página: Os mecanismos de busca observam, também, se as palavras-chave estão localizadas no início da página, ou seja, cabeçalhos e/ou primeiros parágrafos. Os buscadores são programados para tentar chegar perto dos interesses dos usuários, desse modo, “consideram que uma página relevante para um determinado assunto conterá palavras relacionadas com este assunto desde o seu começo” (CAMPOS; BAX, 2000), Figura 7. 50 FIGURA 7 – TOPO DA PÁGINA Frequência: Ao se pesquisar na Internet, tendo como ferramenta um motor de busca, os termos digitados serão considerados como palavras-chave. Essas palavras-chave obedecem a uma frequência que determinada ranking dos resultados, ou seja, entre uma página que tenha a palavra-chave pesquisada repetida por dez vezes e outra consta o termo repetido quinze vezes, a última possivelmente será recuperada com mais facilidade. Meta Tags Os meta tags12 são parâmetros que descrevem uma página para que os buscadores a recuperem. Meta Tags são comandos implementados no código das páginas web para passar instruções aos sites de busca. É possível dizer aos robôs quais páginas devem ou não ser indexadas, qual a descrição da página a ser exibida na tela de resultados ou simplesmente informar qual a pessoa responsável pelo desenvolvimento da página. Na verdade, é possível criar qualquer tipo de meta tag a caráter de documentação, que simplesmente serão ignorados pelos robôs. Os meta tags ficam “escondidos” de nossos olhos quando visualizamos as páginas em nossos browsers. O jeito mais fácil de visualizá-los é exibindo o código fonte13 da página. No Internet Explorer, basta 12 Alguns motores atribuem maior relevância às páginas que contêm os termos de busca nos meta tags de descrição ou nos meta tags de palavra-chave. Este método pressupõe que os autores utilizarão criteriosamente estes tags, o que pode não ocorrer. Alguns autores podem utilizar estes meta tags para chamar atenção sobre suas páginas, utilizando termos que não correspondem ao seu conteúdo (CENDÓN, 2001, p. 45). 13 Código Fonte é o conjugado de palavras ou símbolos armazenados de forma coordenada, contendo códigos em linguagem de programação, para serem compilados ou interpretados por um 51 clicar com o botão direito em alguma área livre da página e escolher a opção “View Source” ou “exibir Fonte”. (TEIXEIRA, 2010, grifo da autora). Muitos mecanismos de busca consideram as informações contidas nos meta tags tanto no momento que indexam uma determinada página, quanto quando calculam a relevância para efeito de classificação. O HTML admite que sejam especificados metadados em um conteúdo, ou seja, informações a respeito de um documento além do seu conteúdo, por meio do tag <META>. Esta tag tem a capacidade de ser empregada para adicionar pares nome/valor que descrevem características do documento, como por exemplo, o autor, uma lista de palavraschave, etc. Estas informações são invisíveis em um browser e, consequentemente ao visitante da página. De acordo com Campos e Bax (2000), os principais meta tags são description e keywords, que serão explicados a seguir. O Meta Description (descrição do conteúdo) O meta tag description é usado para adicionar uma descrição do conteúdo da página dentro do HTML. Esta descrição é utilizada pelos mecanismos de busca que suportam meta tags no momento em que eles apresentam a página como fruto de uma pesquisa. Caso a página não tenha o meta tag description, os mecanismos empregam as primeiras linhas de documento como uma descrição da página. Isto pode ser um problema para páginas que não possuem nenhum texto, como as constituídas somente por figuras ou as que possuem somente a definição de um frameset. Estas páginas não terão descrição quando aparecerem em algum resultado de pesquisa. Páginas que possuem os problemas referentes ao uso de tabelas ou JavaScript descritos anteriormente terão uma descrição confusa, constituída por estes textos que aparecem no topo da página. (CAMPOS; BAX, 2000). Exemplo: O site “Bol14” contém a seguinte descrição no código fonte: computador e se tornar passível de execução. 14 www.bol.com.br 52 <meta name="Description" content="O BOL (Brasil Online) é um serviço de e-mail grátis pioneiro no país. O portal traz ainda bate-papo (chat), notícias e fotos em tempo real e plataformas interativas." /> E o seguinte resultado, buscando pelo site Bol através do buscador Google: FIGURA 8 – SITE DO BOL Pode-se perceber que a descrição apresentada é a mesma, o que comprova que os buscadores utilizam as informações contidas nos meta tags. O Meta Keywords (palavras-chave) O meta keywords é utilizado para apontar as palavras-chave associadas à página. Essas palavras são separadas por vírgulas. O meta keywords deve ser explorado para incluir todas as palavraschave que tenham alguma relação com a página, mesmo as que não aparecem no seu corpo. O meta pode ser utilizado para incluir sinônimos de palavras chave, plurais irregulares (por exemplo, “person” e “people”), palavras chave menos importantes, combinações de palavras para formar frases, etc. (CAMPOS; BAX, 2000). Exemplo: Meta Keywords apresentados pelo site Bol: 53 FIGURA 9 - HTML DO SITE DO BOL - META KEYWORDS 54 4 O GOOGLE A empresa Google emprega como missão básica a seguinte frase: “organizar as informações do mundo todo e torná-las acessíveis e úteis em caráter universal” (GOOGLE Informações corporativas, 2010); e é isso que a organização vem fazendo desde a sua criação, passando por sistemas básicos até os mais complexos para melhor atender a necessidade informacional dos usuários. Larry Page e Sergey Brin são os fundadores do Google e estudiosos do ramo da tecnologia da recuperação da informação, que desenvolveram um novo conceito quando o assunto é pesquisa na Web. Através de um pequeno programa, elaborado quando ainda eram estudantes de doutorado em Ciência da Computação, os dois aprimoraram conhecimentos e mais tarde construíram o maior mecanismo de busca utilizado no mundo. Em 1995, Larry Page e Sergey Brin, se conhecem na Universidade de Stanford e em 1996 já tinham desenvolvido o “BackRub”, um sistema de busca que só funcionava nos servidores da universidade. Com o passar dos meses, Page e Brin decidem que o “BackRub” precisa de um novo nome, depois de algumas discussões e baseados no termo "Googol" (termo matemático para o número representado pelo numeral 1 seguido de 100 zero) eles decidem usar a nome “Google”. O uso do termo reflete a missão estabelecida pela corporação de organizar uma quantidade aparentemente infinita de informações na Web (GOOGLE Informações corporativas, 2010). O Google foi fundado no ano de 1998, com exatidão no dia 4 de setembro de 1998. No início era uma ferramenta usada apenas por empresas privadas e era um serviço pago, mas em 19 de agosto de 2004, a ferramenta Google deixa de ser um sistema particular, passando a ser um sistema totalmente livre a acessos. Com isso, Brin e Page lucraram algo em torno de US$ 10 bilhões por cada ação no ano de 2005. A lógica central dessa transição foi os estímulos externos de outras empresas à implantação de propagandas na Web. Se antes um empresário investia milhões de dólares em propagandas televisivas e impressas, passaram a entender que era mais lógico direcionar aos indivíduos os seus produtos “no momento em que eles mais precisam: ao buscar informações” (VISE; MALSEED, 2007, p. 12). 55 Segundo Sá e Bertocchi (2006), o Google destacou-se no ano de 2006, quando teve a oportunidade de consagrar a predominância de acessos a motores de busca na WWW. Essa popularidade é causada pela oferta de serviços oferecidos pelo Google, dentre os quais se destacam o Gmail, o Google Docs, o Google News, o Google Earth, o Google Prints, o Google Vídeos (incluindo a aquisição do YouTube), entre outros. Conforme dito anteriormente, o Google passou a ser gratuito e o lucro da empresa passou a girar em torno das propagandas realizadas quando haviam respostas às informações solicitadas. Segundo os proprietários a corporação em si não tem como foco a geração excessiva de dinheiro, o que os fundadores querem mesmo é pensar primeiramente em maneiras de resolver problemas, “somente depois, se possível, eles se preocupam em transformá-los em dinheiro” (VISE; MALSEED, 2007, p. 14). Uma curiosa característica do empreendimento Google são as oportunidades oferecidas aos funcionários. Os empregados podem usar 20% do tempo diário de trabalho para trabalharem em projetos particulares, não necessitando prestar contas das atividades desenvolvidas. Um exemplo que pode ser citado é do Orkut, uma rede de relacionamentos criada por um dos engenheiros do Google no seu tempo vago. Tudo porque o engenheiro Orkut Buyukkokten, que tinha problemas de relacionamentos na Universidade de Stanford, achava que a forma mais fácil de ser fazer amigos é por meio de amigos de amigos (BARBOSA, 2009). 4.1 Como o Google indexa? O Google é um índice composto por dados extraídos da Web, que está continuamente sendo atualizado. Essas atualizações são feitas através do “Googlebot”, um rastreio algorítmico: “os programas de computador determinam quais os Web sites que devem ser rastreados, com que frequência e quantas páginas de cada Web site devem ser analisados” (GOOGLE, 2010). Googlebot é o robô de rastreamento da Web do Google (também chamado de "indexador"). O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google. É usado um grande conjunto de 56 computadores para buscar (ou "rastrear") bilhões de páginas na web. O Googlebot usa um processo de algoritmos: programas de computador que determinam quais sites devem ser rastreados, com que frequência e quantas páginas devem ser buscadas em cada site. O processo de rastreamento do Googlebot começa com uma lista de URLs de páginas web, gerada a partir de processos anteriores de rastreamento e aumentada com dados dos Sitemaps15 fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links (SRC e HREF) de cada página e os inclui na sua lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google. (GOOGLE central do webmaster, 2010). Após o rastreio, o Googlebot processa todas as páginas e as reúne em um gigantesco índice, organizado pelas palavras encontradas com as suas respectivas localizações. Além disso, as informações que compõem o conteúdo são processadas e incluídas nos principais atributos e tags de conteúdo, como tags Title e atributos ALT16. O Googlebot, apesar da eficiência no rastreio e processamento dos conteúdos inclusos nas páginas, não pode processar todos os tipos de conteúdos, como por exemplo, as páginas que contém arquivos de mídias elaboradas ou páginas dinâmicas. O grande negócio do Google é um mecanismo chamado de PageRank. O PageRank é uma fórmula matemática desenvolvida na Universidade de Stanford, nos Estados Unidos, que rastreia os sites em busca dos link gerados. Baseados nas análises de citações, os então acadêmicos Larry Page e Sergey Brin começaram a observar os resultados de pesquisa na Web e perceberam que os links apontavam para Webpages para frente, mas não registravam as conexões para trás. Ademais, pensaram que, além de conseguir um gráfico das conexões, poderiam também levantar a importância de quem se conectava a quem, pelo „impacto‟ das citações, pela autoridade ou pelo eixo. Assim foi criado o PageRank, um algoritmo que conta, tanto o número de conexões em determinado site quanto o número de conexões em cada um dos sites interligados, da seguinte maneira: 15 Os Sitemaps são uma forma de informar ao Google sobre páginas de um site que, de alguma forma, talvez não possa ser encontrado. Resumidamente, um Sitemap de XML (geralmente chamado de Sitemap, com S maiúsculo) é uma lista das páginas de um site. Criar e enviar um Sitemap ajuda a garantir que o Google tenha conhecimento de todas as páginas de um site, incluindo URLs que não seriam habitualmente encontrados por meio do processo normal de rastreamento do Google. (GOOGLE central do webmaster, 2010). 16 O atributo alt é definido, para um conjunto de tags, como algo que tem a finalidade de permitir ao autor da página fornecer um texto equivalente para o objeto incluso, como por exemplo, a descrição de uma imagem. 57 autoridade: muitas outras páginas apontam para ela, isto é, ela é muito citada; eixo: ela aponta para muitas outras, ou seja, ela cita muitas páginas. (MONTEIRO, 2008, p. 113). O funcionamento ocorre da seguinte forma: o usuário realiza uma pesquisa na página principal do Google e as máquinas fazem uma busca no índice das páginas que correspondem e retornam os resultados que “parecem” ser os mais relevantes. Essa relevância é julgada por mais de duzentos fatores, mas é o PageRank que ministra toda a protuberância dos resultados. Em palavras mais simples, para cada link gerado de uma página em outro site é adicionado um PageRank ao site “linkado”, mas nem todos os links são iguais, o sistema identifica spams e outras ameaças ao resultado da pesquisa. (GOOGLE Central do Webmaster, 2010). O PageRank seria o modo que o Google utiliza para ordenar a importância que cada página tem na Internet. Em outra palavras, seria a contagem de votos para cada espaço gerado no banco de páginas do PageRank, conforme a Figura 10. FIGURA 10 – CÁLCULO DO PAGERANK FONTE: BORSATO ET AL(2006, p. 33) O Google utiliza também os denominados spiders ou crawlers, que indexam a informação coletada nos servidores centrais localizados no Googlepex em Mountain View, Califórnia. O princípio de ordenação das páginas parte da premissa de que as boas páginas tem mais links externos que apontam para elas do que as menos „autorizadas‟. Isto permite ao Google ordenar os resultados de acordo com o número de sites com links apontando para as páginas encontradas. Trata-se de um princípio semelhante 58 ao utilizado na análise de co-citações, bem conhecido em bibliotemetria e informetria. (ROBREDO, 2005, p. 334). Os métodos utilizados pelo Google giram em torno da identificação exata de textos para encontrar páginas que sejam tanto importantes como relevantes para a busca, recuperando apenas as páginas que incluam todos os termos utilizados na busca. Por exemplo, quando o Google analisa uma página, ele verifica o que as outras páginas que estão vinculadas à mesma tem a dizer sobre ela, preferindo as páginas nas quais os termos de busca estejam próximos entre si. O Google também ignora palavras e caracteres comuns, conhecidos como palavras descartáveis, descartando automaticamente termos como "http" e ".com", assim como dígitos ou letras isoladas, pois raramente ajudam na busca e podem torná-la consideravelmente mais lenta. Segundo a empresa, refinar ou estreitar a pesquisa consiste no simples fato de se adicionar ou não palavras aos termos que já foram incorporados a busca. “Ao adicionar mais palavras, seus resultados conterão um subconjunto específico das páginas retornadas pela sua consulta original” (GOOGLE Central de Ajuda do Google, 2010). Tudo isso melhora o resultado da pesquisa que em média, dependendo dos fatores de conexão, dura algo em torno de 5 segundos (MONTEIRO, 2008, p. 119). 4.2 Métodos de recuperação no Google O Google é um dos sites de busca mais utilizados em toda Internet. A apresentação do Google chama a atenção por sua simplicidade e por dispor de várias ferramentas para que haja uma resposta mais clara da pesquisa solicitada. Alguns pontos devem ser esclarecidos com relação à busca que o Google realiza: O Google pesquisa apenas páginas que correspondem exatamente ao texto escrito, desconsiderando acentos gráficos; O Google não diferencia as letras maiúsculas e minúsculas, a pesquisa é feita independente da forma que está escrita, ou seja, o Google considera todas as letras em minúsculo. Pode-se citar como exemplo a expressão “Competência Informacional”, ser for escrita “COMPETÊNCIA INFORMACIONAL”, “cOMPETÊNCIA iNFORMACIONAL” ou “CoMpEtÊnCiA InFoRmAcIoNaL” o Google vai considerar 59 como “competencia informacional”. O Google dispõe de vários recursos para que haja um refinamento na recuperação da informação, entre eles a busca pela frase exata, onde os termos são colocados entre aspas ou ligados por hífens entre as palavras. Por exemplo, ao se buscar a frase de uma música, se pode obter o link de acesso a música completa, conforme a Figura 11. FIGURA 11 – BUSCA EXATA REALIZADA NO GOOGLE Com o buscador Google também é possível expandir uma pesquisa, incluindo ou retirando termos da recuperação. O Google ignora as stop words17 que são palavras comuns, preposições, artigos, advérbios (ex: onde, o(s), a(s), como) e outros dígitos e letras que diminuem a velocidade da pesquisa. Se uma palavra comum for essencial para obter os resultados que se deseja, será possível incluí-la inserindo um sinal de "+" antes do termo escolhido. O Google pesquisa cada termo separadamente (se não estiver entre aspas) e ao se colocar o sinal de “+” na frente de uma palavra, o Google fará a pesquisa da forma que a palavra está escrita sem variações. Na pesquisa no Google, também é possível a busca de um ou outro termo; a exclusão de uma palavra; a busca por domínio e no título da página; a pesquisa por sinônimos ou palavras similares, por tipos específicos de arquivos e em um site característico, além de operações matemáticas. O Quadro 5 aponta todas essas 17 Stop words (ou palavras de parada) são palavras que podem ser consideradas irrelevantes para o conjunto de resultados a ser exibido em uma busca realizada em um motor de busca. 60 funções, tendo como exemplo os termos “Ciência da Informação”. Pesquisa Exata Filtrar Resultado Busca Alternativa Procurar num Site Buscar por tipo de arquivo Combinar Informações Buscando pelo URL Buscando pelo Texto Buscando Conceitos Palavras Chaves Cache Titulo EXEMPLO “Ciência da Informação” Ciência -Informação Ciência OR Informação Informação site:www.ufpe.br/dci Informação filetype:PDF DESCRIÇÃO Procura pela ocorrência EXATA (com as palavras agrupadas) de “Ciência da Informação” Filtra o resultado removendo todos os que possuem Informação como resultado. Localiza sites que possuam “Ciência” ou “Informação” Procura por “Informação” no site www.ufpe.br/dci Procura a palavra Informação em arquivos com extensão PDF filetype:PDF site:www.ufpe.br/dci inurl:ciência Procura por arquivos de extensão PDF no site da www.ufpe.br/dci Procura por “ciência” no URL de um site específico intext:ciência Procura pelo texto “ciência” no conteúdo do site define:Ciência da Buscará sites que definem “Ciência da Informação Informação” keyword:ciência Procura na META TAG do site por “ciência” isto algumas vezes podem ser mais funcional. Cache:www.ufpe.br/dci Vê a página “www.ufpe.br/dci” em cache. intitle: Ciência Procura páginas que tenham “ciência” Informação e/ou “informação” no título da página. QUADRO 5 – MÉTODOS DE REFINAMENTO DA PESQUISA NO MOTOR GOOGLE 61 5 ANÁLISE DOS SITES Após apresentar e discutir questões teóricas, tais como: o surgimento da Web e da Internet, a utilização da Web como fonte de informação, como os mecanismos de busca indexam, assim como, a história e construção da empresa Google. Apresentar-se-á a análise realizada no buscador Google, onde foram avaliados sites, buscando analisar se os mesmos adotaram estratégias que proporcionaram melhor recuperação por buscadores na Web. 5.1 Procedimentos metodológicos Serão tomadas como fundamento as indagações levantadas ao longo da discussão teórica deste trabalho, com ênfase na seção 3 deste trabalho. A análise dos sites objetivou identificar as melhores estratégias para se disponibilizar conteúdos, considerando que possam ser melhor indexados e consequentemente melhor recuperados pelos motores de busca, sobretudo pelo o Google. Sabe-se que os buscadores indexam isoladamente cada página que constitui os sites, contudo as home pages18 de cada site foram analisadas como um todo. Esta pesquisa é de caráter exploratório, uma vez que “as pesquisas exploratórias tem como principal finalidade desenvolver, esclarecer e modificar conceitos e ideias, tendo em vista a formulação de problemas mais precisos ou hipóteses pesquisáveis para estudos posteriores” (GIL, 2009, p. 27), Muitas vezes as pesquisas exploratórias constituem a primeira etapa de uma investigação mais ampla. Quando o tema escolhido é bastante genérico, tornam-se necessários seu esclarecimento e delimitação, o que exige revisão de literatura, discussão com especialistas e outros procedimentos. O produto final deste processo passa a ser um problema mais esclarecido, passível de investigação mediante procedimentos mais sistematizados. (GIL, 2009, p. 27). Concordando com Gil (2009), a priori, neste trabalho, realizou-se um 18 Página de entrada ou página principal de um site. É nesta página que estão os links para as demais páginas do site. 62 levantamento teórico, com base em assuntos relacionados a fontes de informações na Internet, diretórios e motores de buscas, indexação, indexação no ambiente Web, com a finalidade de se fazer uma análise sobre o tema em questão. Ainda de acordo com Gil (2009), o delineamento aplicado neste trabalho é do tipo Levantamento, uma vez em que não foram analisados todos os sites recuperados pelo Google e, sim os dez primeiros resultados, ou seja, foi selecionada uma amostra como objeto de investigação. Gil (2009, p. 90), define Universo ou População, na pesquisa social, como sendo “um conjunto definido de elementos que possuem determinadas características” e Amostra como sendo “um subconjunto do universo ou da população, por meio do qual se estabelecem ou se estimam as características desse universo ou população” (GIL, 2009, p. 92). Dessa forma, o tipo de amostra utilizada neste trabalho é a por conglomerados, pois “é a mais indicada em situações em que é bastante difícil a identificação de seus elementos” (GIL, 2009, p. 93), em outras palavras, esse tipo de amostra foi o mais indicado para este trabalho, pelo fato do grande número de sites (apesar do grande número, não é infinito) que compõem a Internet e por isso só será utilizada uma pequena parte desse universo. A amostra foi designada da seguinte forma: buscou-se no Google o termo “biblioteconomia” e foram encontrados aproximadamente 1.690.000 páginas19. Para limitar a amostra, foram considerados os dez primeiros resultados, eliminando-se as páginas que tratavam de definições da palavra, como por exemplo, páginas do Wikipédia20, páginas de blogs (com domínios do tipo blogspot), páginas de faculdades e universidades, páginas do twitter21, páginas de oportunidades de emprego, páginas dos conselhos regionais de biblioteconomia (o conselho federal será considerado) e páginas de guias de estudantes prévestibulandos. Feito isso, os sites foram classificados de A a J, de acordo com a sequência do resultado, chegando-se a seguinte ordem: 19 Busca realizada no dia 26 de outubro de 2010, às 11h43min. A Wikipédia é uma enciclopédia multilíngue online livre colaborativa, ou seja, escrita internacionalmente por várias pessoas comuns de diversas regiões do mundo, todas elas voluntárias. 21 Twitter é uma rede social e servidor para microblogging que permite aos usuários enviar e receber atualizações pessoais de outros contatos (em textos de até 140 caracteres, conhecidos como "tweets"), por meio do website do serviço, por SMS e por softwares específicos de gerenciamento. 20 63 Site A - Extralibris Concursos: notícias e análises de concursos públicos na área de biblioteconomia22; Site B - Conselho Federal de Biblioteconomia23; Site C - Bibliotecários Sem Fronteiras: Biblioteconomia Pop24; Site D - BITI - Biblioteconomia, Informação & Tecnologia da Informação25; Site E - FEBAB - Federação Brasileira de Associações de Bibliotecários, Cientistas da Informação e Instituições26 Site F - Revista Digital de Biblioteconomia e Ciência da Informação27; Site G - Periódicos UFSC28; Site H - Web Librarian: redes sociais arquitetura da informação, internet móvel, biblioteconomia e ciência da informação29; Site I - Revista Ciência da Informação30; Site J - Revista ACB31. Os sites foram analisados a partir dos campos da tag title e das Meta Tags Description e Keywords, visíveis apenas no “Código Fonte” de cada página. Para exibição do Código fonte32, foi necessário seguir os seguintes passos: um clique com o botão direito do mouse na área da página (que não contenha links, imagens, gráficos e etc.) e escolher o subitem “Código fonte”; ou através da barra de navegação na opção “Exibir” no subitem “Código fonte”; ou através das teclas de atalho “Ctrl+U”. O código fonte será exibido no programa “bloco de notas33”. Ao se identificar a tag title e as meta tags description e keywords foi feito um diagnóstico do conteúdo de cada uma, em relação às técnicas de otimização de busca que foram observadas no capítulo 3 deste mesmo trabalho, de modo que: 22 http://extralibris.org/concursos/ http://www.cfb.org.br/ 24 http://bsf.org.br/ 25 http://www.conexaorio.com/biti/ 26 http://www.febab.org.br/ 27 http://www.sbu.unicamp.br/seer 28 http://www.periodicos.ufsc.br 29 http://wl.blog.br/ 30 http://www.ibict.br/cienciadainformacao 31 http://revista.acbsc.org.br 32 Apresenta as informações da página na codificação de HTML 33 O Bloco de notas é um editor de textos básico que pode ser utilizado para criar documentos simples. O uso mais comum do Bloco de notas é exibir ou editar arquivos de texto (.txt), mas muitos usuários o consideram uma ferramenta simples para criar páginas da Web. 23 64 O conteúdo da tag title foi comparado com o título apresentado na home page do site; Na meta tag description buscou-se perceber se o site está sendo descrito através de um breve resumo do seu conteúdo com clareza; As palavras-chave encontradas na meta tag keywords foram testadas no Google, de forma, a saber, em qual posição o site apareceu com a utilização de cada termo. Nas home pages que não possuíam palavras-chave na meta tag keyword, foram selecionadas alguns possíveis termos que poderiam ser usados na recuperação. Os critérios usados para a escolha dos termos sugeridos foram básicos, utilizando-se de siglas, termos contidos no título da página, possíveis expressões do conteúdo e etc. Cada palavra-chave estava associada com o teor das páginas, de forma que cada home page fosse identificada claramente com o termo buscado. Tanto as palavras contidas na meta tag keywords quanto às sugestões, foram colocadas numa tabela com a sua respectiva colocação na recuperação no Google, considerando até os 50 primeiros resultados. Por fim, foram relatadas as observações feitas de cada site através de um quadro comparativo, onde todos os critérios foram julgados de acordo com três classificações: Consta de forma adequada, Consta de forma inadequada e Não consta Site A - EXTRALIBRIS CONCURSOS De acordo com o site, o Extralibris Concursos nasceu em agosto de 2006, tendo como principal objetivo promover a aprendizagem colaborativa em biblioteconomia, tendo como base os concursos realizados na área. 65 FIGURA 12 – IMAGEM EXTRAÍDA DA HOME PAGE DO EXTRALIBRIS CONCURSOS Tag title O blog utiliza o seguinte texto no título assim que a página é carregada: “Extralibris Concursos: notícias e análises de concursos públicos na área de biblioteconomia” e o seguinte na tag title: “Biblioteconomia para Concursos”. Como foi dito anteriormente, Segundo Campos e Bax (2000), os mecanismos de busca consideram o título o local mais importante para determinar o assunto tratado, logo, o título considerado será o que estiver no código fonte. Meta tag description e keywords A meta tag description não foi preenchida, ou seja, não foi utilizada a funcionalidade da meta tag (como pode ser observado na Figura 13). Essa meta tag é avaliada como importante, uma vez que, é usada pela maioria dos motores de busca para oferecer um pequeno conteúdo sobre a página. 66 FIGURA 13 - CÓDIGO FONTE - EXTRALIBRIS CONCURSOS Meta tag keyword As palavras-chaves utilizadas na meta keywords do Extralibris Concursos foram: concursos e trt21 (Figura 13). Os termos “concursos” e “trt21” foram pesquisados no Google para saber em qual posição o site do Extralibris Concursos é recuperado, o resultado da busca mostrou que a home page aparece nas posições 55ª e 141ª respectivamente, mostrando que os termos atribuídos na constituição da página não ajudam na recuperação, interferindo diretamente na indexação feita pelo Google34. Isso pode ser explicado pelo fato da maioria dos motores de busca considerarem com mais relevância os sites que possuem mais de 4 palavras-chave. O Quadro 6 apresenta palavras-chaves que Fo ram testadas no Google e que contribuirão para a recuperação da mesma. Esses termos seriam sugestões para melhor representar a página no Código Fonte, e consequentemente, para os motores de busca. 34 Busca realizada no dia 27 de outubro de 2010, às 16h28min. 67 PALAVRAS-CHAVE extralibris extralibris concursos concurso biblioteconomia bibliotecário concurso comentários prova biblioteconomia gustavo henn blog blog concurso bibliotecário POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 2º lugar 1º lugar 1º lugar 1º lugar 1º lugar 1º lugar 1º lugar QUADRO 6 - PALAVRAS-CHAVE RELACIONADAS AO EXTRALIBRIS CONCURSOS Site B - CONSELHO FEDERAL DE BIBLIOTECONOMIA O Site do Conselho Federal de Biblioteconomia tem como função disponibilizar o acesso aos órgãos regulamentadores e de fiscalização da profissão de Bibliotecário, bem como os demais órgãos representativos da Biblioteconomia no Brasil e no exterior. Dessa maneira o portal permite o acesso aos sites de interesse do profissional da informação. Tag title Na home page do CFB o título é o mesmo utilizado na tag title, conforme a Figura 14: FIGURA 14 – IMAGEM EXTRAÍDA DA HOME PAGE DO CFB 68 Meta tags description e keywords O CFB não utiliza as meta tags description e keywords, o que não é recomendável, pois como foi dito anteriormente, os motores de busca consideram as duas meta tags para indexar conteúdos de uma página. Segundo Engelmann (2006, p. 71), a prática da não utilização das meta tags, por intencionalidade ou descuido, deve influenciar de forma negativa a otimização dos resultados de busca, por dois motivos. Primeiro porque os spiders não terão essas meta tags como referência para fazer suas buscas e, segundo, porque a equipe que atualiza o site não tem referência dos termos que precisam receber ênfase na construção de textos, títulos e outras etapas já citadas, as quais são relevantes para otimização. Foram feitos alguns testes no buscador Google, com palavras que poderiam ser consideradas “chave” para o site do Conselho Federal de Biblioteconomia, (Quadro 7): PALAVRAS-CHAVE conselho federal de biblioteconomia cfb bibliotecário conselho sistema cfb biblioteconomia conselho legislação biblioteconomia POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 1º lugar 1º lugar 1º lugar 1º lugar 1º lugar 17º lugar QUADRO 7 - PALAVRAS-CHAVE RELACIONADAS AO CONSELHO FEDERAL DE BIBLIOTECONOMIA Site C - BIBLIOTECÁRIOS SEM FRONTEIRAS O Bibliotecários sem fronteiras é um blog criado para compartilhamento de assuntos diretamente ligados a biblioteconomia, instituído no ano de 2002. 69 FIGURA 15 – IMAGEM EXTRAÍDA DA HOME PAGE DO BSF Tag title Na tag title o blog utilizou “Bibliotecários Sem Fronteiras - Biblioteconomia Pop”, o que pode ser considerado como favorável pelos motores de busca, pelo fato de conter duas palavras-chave que fazem parte da meta tag keywords são elas: “bibliotecários” e “biblioteconomia”. Como já dito anteriormente, os mecanismos de busca consideram o título o local mais importante de se determinar o assunto tratado na página. Meta tag description A meta tag descrição é composta da seguinte frase: “Olá! Tiago, Moreno, Diego e Vivi são bibliotecários. Aqui eles falam e mostram tudo sobre biblioteconomia, bibliotecas e afins" (Figura 16). FIGURA 16 - META TAG DESCRIPTION - BSF 70 A descrição não está de acordo, pois deveriam conter informações relevantes sobre o conteúdo da página, ao invés disso, é formada pela primeira frase da home page, como pode ser observado no topo da Figura 15. Meta tag keyword A meta tag keyword dos BSF é composta de quatro palavras-chave, o bastante para que a página seja considerada pelos motores de busca. O importante não é a quantidade de palavras-chaves e sim a qualidade que cada uma exerce na hora busca no Google. Partindo deste pressuposto, cada palavra foi testada no Google, para saber em qual colocação a página apareceria nos resultados (Quadro 8). PALAVRAS-CHAVE biblioteconomia bibliotecários bibliotecária biblioteca POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO GOOGLE 7º lugar 1º lugar 1º lugar Não apareceu nos 50 primeiros resultados QUADRO 8 - POSIÇÃO DOS RESULTADOS - BSF A relevância das palavras-chave utilizada pelo BSF é positiva, dos quatro temos utilizados, três constam entre os dez primeiros resultados. Dessa forma, não serão feitas sugestões de termos para serem atribuídos como palavras-chave. Site D - BITI - BIBLIOTECONOMIA, INFORMAÇÃO & TECNOLOGIA DA INFORMAÇÃO O site do BITI não apresenta uma descrição clara da sua proposta, e aparentemente se propõe a ser um espaço que disponibiliza artigos, manuais, livros online, teses e dissertações na área de Biblioteconomia e Ciência da Informação. 71 FIGURA 17 – IMAGEM EXTRAÍDA DA HOME PAGE DO BITI Tag title A tag title apresenta o mesmo título exposto na home page do site BITI (Figura 17): “BITI - Biblioteconomia, Informação & Tecnologia da Informação”. Sendo assim, percebe-se que o título apresenta relevância ao conteúdo da página. Meta tag description A meta tag description apresenta a seguinte descrição: “BITI – Estudos de informação, documentação e informação, biblioteconomia e tecnologia da informação. Por Hagar Espanha Gomes”, Figura 18. FIGURA 18 - META TAGS DESCRIPTION - BITI Vale ressaltar que três palavras-chave, que são recuperadas dentre os 10 primeiros resultados, estão contidas na meta tag description, são elas: 72 “documentação”, “biblioteconomia” e “Hagar Espanha Gomes”, sendo a 1ª, a 9ª e a 1ª respectivamente. Meta tag keyword Segundo Pinho (2003, p. 104), a meta tag de palavras-chave pede “o desenvolvimento de termos que melhor reflitam o conteúdo, sendo evitados os que sejam muito comuns, pois nos resultados de uma busca elas vão fazer o site figurar junto com centenas de outros endereços”. Partindo deste pressuposto, constatouse que a meta keywords contém muitas palavras-chaves e caracteres. Dessa forma, a página não se torna de fácil recuperação; a home page do BITI apresenta ao todo 47 palavras-chaves e na identificação da posição de todos os termos, foi constatado que entre as 47 palavras, 10 assumiram posições antes dos 50 primeiros resultados e que em meio a esses 10 termos, apenas 5 ficaram dentre as 10 primeiras posições, conforme o Quadro 9. PALAVRAS-CHAVE indexacao documentacao ciencia da informacao classificacao terminologia biblioteconomia catalogacao tesauro bibliografia referencia bibliografica forma referencia citacao Hagar Espanha Gomes Conexao Rio estudo informacao universidade faculdade tecnologia da informacao HTML publicacao cientifica POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO GOOGLE 6º lugar 1º lugar Não apareceu nos 50 primeiros resultados 37º lugar Não apareceu nos 50 primeiros resultados 9º lugar 26º lugar 47º lugar Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados 18º lugar 1º lugar 2º lugar Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados 27º lugar Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados 73 periodico eletronico eletronico jornal revista artigo mensagem convencao tipografia contribuicao quadro de aviso lista de discussao documento independente indice catalogo norma dicionario ensaio frase expressao glossario atlas manual vade-mecum resenha resumo Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados QUADRO 9 - POSIÇÃO DOS RESULTADOS - BITI Por não ter apresentado palavras-chaves com resultados positivos, alguns termos foram testados como sugestão para compor o Código Fonte da página. Os critérios utilizados para a escolha desses termos levam em consideração os assuntos tratados na página, título da página, siglas, primeiros parágrafos e etc (Quadro 10). PALAVRAS-CHAVE biti Biblioteconomia, Informação e Tecnologia da Informação estudos de Informação, documentação biblioteconomia Biblioteconomia e o Exercício Profissional QUADRO 10 - PALAVRAS-CHAVE RELACIONADAS AO BITI POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 1º lugar 1º lugar 1º lugar 2º lugar 74 Site E - FEBAB - FEDERAÇÃO BRASILEIRA DE ASSOCIAÇÕES DE BIBLIOTECÁRIOS, CIENTISTAS DA INFORMAÇÃO E INSTITUIÇÕES De acordo com informações contidas no site, o espaço tem como função promover as bibliotecas e os profissionais de biblioteconomia, oferecendo informações sobre o conselho federal e os conselhos regionais, cadastro de bibliotecas, promoção de eventos e etc. FIGURA 19 - IMAGEM EXTRAÍDA DA HOME PAGE DA FEBAB Tag title A tag title está composta de forma negativa, segundo os aspectos de recuperação, sendo formada apenas pela sigla do site “FEBAB”, seria mais interessante se a sigla fosse completada pela frase que completa seu sentido, ou seja: “FEBAB - Federação Brasileira de Associações de Bibliotecários, Cientistas da Informação e Instituições”. 75 Meta tags description e keywords As meta tags description e keywords não estão fazendo parte do código fonte da página; sugere-se o uso das duas meta tags, uma vez que ambas são consideradas pelos motores de busca na hora da indexação. O Quadro 11 apresenta sugestões de termos que poderiam ser usados na composição da página e suas respectivas posições no buscador Google. PALAVRAS-CHAVE FEBAB federação brasileira bibliotecário federação biblioteconomia associações bibliotecários POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 1º lugar 1º lugar 1º lugar 1º lugar QUADRO 11 - PALAVRAS-CHAVE RELACIONADAS A FEBAB Site F - REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO Segundo o site, a Revista Digital de Biblioteconomia e Ciência da Informação (RDBCI) é uma publicação oficial do Sistema de Bibliotecas da UNICAMP (SBU). Foi lançada no dia 13 de setembro de 2003. O Periódico Científico publica artigos inéditos, relatos de experiência, pesquisas em andamento e resenhas. Compreende as áreas da Biblioteconomia, Ciência da Informação e áreas afins e é editado por bibliotecários do Sistema de Bibliotecas da Universidade Estadual de Campinas (SBU). FIGURA 20 - IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO 76 Tag title O título apresentadona tag title e na home page são iguais, favorecendo a recuperação e gerando relevância ao conteúdo à home page (Figura 19 e Figura 20, respectivamente). FIGURA 21 - TAG TITLE REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO Meta tag description A meta tag description apresenta um descrição extensa, com exatamente 518 caracteres (Figura 21). Segundo Pinho (2003, p. 104) “a descrição do site pode conter algumas palavras-chave, mas deve ser redigida com até 160 caracteres, o máximo que a maioria dos mecanismos de busca vão exibir”, nesse contexto, a descrição apresentada na home page da Revista Digital de Biblioteconomia e Ciência da Informação, não será exibida por completa, ou seja, quando o usuário fizer a pesquisa no Google, boa parte na descrição não será visualizada abaixo do link do site (Figura 22). FIGURA 22 - META TAG DESCRIPTION - REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO 77 FIGURA 23 - DESCRIÇÃO DA REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO Meta tag keyword As palavras-chave devem ser relacionadas ao conteúdo da página, no entanto, a home page da Revista Digital de Biblioteconomia e Ciência da Informação, apresenta palavras-chave de pouca relevância ao site. Isso foi comprovado através da busca de cada termo no Google, Quadro 12. PALAVRAS-CHAVE Biblioteconomia Ciência da Informação Gestão da Informação Administração da Informação Arquivologia Revista Digital Periódico Eletrônico POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO GOOGLE 15º lugar 6º lugar Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados 9º lugar Não apareceu nos 50 primeiros resultados QUADRO 12 - POSIÇÃO DOS RESULTADOS - REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO Por não apresentar palavras-chaves que estejam de acordo com a página, elaborou-se o Quadro 13, onde foram relacionados alguns termos sugeridos para melhor descrever a página no Código Fonte. 78 PALAVRAS-CHAVE rdbci revista digital de biblioteconomia e ciência da informação revista biblioteconomia ciência da informação revista POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 2º lugar 1º lugar 4º lugar 7º lugar QUADRO 13 - PALAVRAS-CHAVE RELACIONADAS A REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO Site G - PERIÓDICOS UFSC A missão do site dos periódicos UFSC é promover o acesso, visibilidade e pesquisa das publicações científicas periódicas vinculadas aos programas de pósgraduação, graduação, núcleos de pesquisas e laboratórios reconhecidos oficialmente pela Universidade Federal de Santa Catarina FIGURA 24 - IMAGEM EXTRAÍDA DA HOME PAGE DOS PERIÓDICOS UFSC Tag title Consta no Código Fonte da home page, na tag title: “<title>Sobre o Portal</title>”. O que não proporciona valor semântico ao site diante dos 79 motores de busca. Fica evidente no desenvolvimento da página que o título não foi colocado no código fonte. Meta tags description e keywords As meta tags description e keywords não estão adicionadas (Figura 24). Sabe-se que essas meta tags são de fundamental importância para que os motores de busca indexem a página. FIGURA 25 - META TAGS DESCRIPTION E KEYWORDS - PERIÓDICOS UFSC Como a home page não possui palavras-chave, foram testados alguns termos para saber a relevância que teria para o Google, Quadro 14. PALAVRAS-CHAVE periódicos ufsc revista ufsc portal ufsc editoração ufsc POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 1º lugar 1º lugar 2º lugar 2º lugar QUADRO 14 - PALAVRAS-CHAVE RELACIONADAS AOS PERIÓDICOS UFSC Site H - WEB LIBRARIAN: REDES SOCIAIS ARQUITETURA DA INFORMAÇÃO, INTERNET MÓVEL, BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO O Web Librarian é um blog que está relacionado à biblioteconomia, tendo como principais estudos as redes sociais, arquitetura de informação e internet móvel. Tag title A home page utiliza o título “Web Librarian: redes sociais, arquitetura de 80 informação, internet móvel, biblioteconomia e ciência da informação”. A utilização é considerada apropriada por representar a ideia do que trata o site, proporcionando boa proeminência nos motores de busca. Meta tag description A meta tag description aparentemente não contém erros. Percebe-se que na construção da página, houve a preocupação de descrever, de forma mais clara, o conteúdo (Figura 24). FIGURA 26 - META TAG DESCRIPTION - WEB LIBRARIAN Meta tag keyword A meta tag keywords contém muitas palavras-chave, 29 no total, desfavorecendo o processo de recuperação. Foi constatado que entre as 29 palavras, apenas 3 constavam entre os 50 primeiros resultados no Google e entre estes 3 termos, nenhum constou entre os 10 primeiros resultados, demonstrando que não há necessidade de adotar-se várias palavras-chaves, ou seja, deve-se privilegiar os termos que melhor representem o conteúdo do site, Quadro 15. PALAVRAS-CHAVE Biblioteconomia librarianship arquitetura de informacao information architecture IA usabilidade usability UX internet mobilidade mobility Internet móvel POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO GOOGLE 27º lugar Não apareceu nos 50 primeiros resultados 30º lugar Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados 81 Comunicacao ciencia da informação information science Gestão do conhecimento knowledge management KM web redes sociais social media Twitter Facebook YouTube bibliotecas digitais digital libraries libraries Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu Não apareceu nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados 41º lugar nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados nos 50 primeiros resultados QUADRO 15 - POSIÇÃO DOS RESULTADOS – WEB LIBRARIAN Mesmo estando com a meta tag keywords composta, os termos relacionados não apresentaram resultados satisfatórios na busca realizada no Google. Dessa forma, alguns termos foram testados para melhor representar a home page (Quadro 16). PALAVRAS-CHAVE web librarian redes sociais arquitetura da informação blog biblioteconomia internet móvel biblioteconomia POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 1º lugar 3º lugar 4º lugar 1º lugar QUADRO 16 - PALAVRAS-CHAVE RELACIONADAS À WEB LIBRARIAN Site I - REVISTA CIÊNCIA DA INFORMAÇÃO Segundo o site, a revista Ciência da Informação é uma publicação quadrimestral de trabalhos inéditos relacionados com a ciência da informação ou que apresentem resultados de estudos e pesquisas sobre as atividades do setor de informação em ciência e tecnologia. 82 FIGURA 27 - IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA CIÊNCIA DA INFORMAÇÃO Tag title A tag title é composta apenas por “Ciência da Informação”. Sugere-se que seja usado “Revista Ciência da Informação” ou “Periódico Ciência da Informação”. Meta tag description “Revista Ciência da Informação, do Instituto Brasileiro de Informação em Ciência e Tecnologia - IBICT" é o que está contido na meta tag descrição. Percebese que a descrição explica o conteúdo da página, mas outras informações poderiam se acrescentadas, tais como: a temática da revista, a periodicidade e o tempo de existência. Meta tag keywords A home page escolheu as seguintes palavras-chave para compor a meta tag keywords: “ciência da informação; tecnologia; ibict; periódico ténico-científico”. Os termos não apresentam-se relevantes, uma vez que a página adotou 4 termos, desses apenas um constou entre os 50 primeiros resultados (Quadro 17). 83 PALAVRAS-CHAVE ciência da Informação tecnologia ibict periódico ténico-científico POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO GOOGLE 1º lugar Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados Não apareceu nos 50 primeiros resultados QUADRO 17 - POSIÇÃO DOS RESULTADOS – REVISTA CIÊNCIA DA INFORMAÇÃO Da mesma forma que algumas páginas analisadas anteriormente, a página da Revista Ciência da Informação também usou de forma negativa a meta tag de palavras-chaves, atribuindo termos que não geram protuberância a página. Dessa forma foram feitos alguns testes com palavras consideradas fundamentas na descrição do site (Quadro 18). PALAVRAS-CHAVE revista ciência da informação sistema eletrônico ciência da informação revista eletrônica ciência da informação biblioteconomia revista POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 1º lugar 3º lugar 4º lugar 4º lugar QUADRO 18 - PALAVRAS-CHAVE RELACIONADAS À REVISTA CIÊNCIA DA INFORMAÇÃO Site J – REVISTA ACB A Revista ACB: Biblioteconomia em Santa Catarina é uma publicação semestral de trabalhos inéditos relacionados na área da biblioteconomia e ciência da informação, abrangendo especificamente a biblioteconomia, ciência da informação, arquivística e documentação, ou textos que apresentem resultados de estudos e pesquisas sobre atividades relacionadas ao movimento associativo. 84 FIGURA 28 - IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA ABC Tag title A home page tem o título “Revista ACB” tanto no layout da página como no código fonte. A recuperação do título tem um alto índice de relevância para os motores de busca, uma vez que explica o conteúdo do site. Meta tag description A descrição apresentada no código fonte é “Revista ACB: Biblioteconomia em Santa Catarina”. A descrição parece ser uma extensão do título e não resume com clareza o conteúdo da página. Meta tag keyword A meta tag keywords apresenta 4 palavras-chave: “Revista ACB; Biblioteconomia; Ciência da Informação; Bibliotecas; Bibliotecas Escolares”. Todos os termos foram testados na busca do Google e os resultados apresentados não foram satisfatórios, pois apenas com 1 deles o site apareceu entre os 10 primeiros resultados na busca feito no Google (Quadro 19). 85 PALAVRAS-CHAVE Revista ACB Ciência da Informação Biblioteconomia Bibliotecas Escolares POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO GOOGLE 1º lugar Não apareceu nos 50 primeiros resultados 40º lugar Não apareceu nos 50 primeiros resultados QUADRO 19 - POSIÇÃO DOS RESULTADOS – REVISTA ABC Por ter apresentado apenas uma das palavras-chave entre os 10 primeiros resultados, foram testados termos associados à página e que apresentavam relação com o conteúdo (Quadro 20). PALAVRAS-CHAVE movimento associativo de bibliotecários edições de biblioteconomia revista biblioteconomia periódico ciência da informação POSIÇÃO DOS TERMOS TESTADOS COMO PALAVRAS-CHAVES SUGERIDAS 4º lugar 3º lugar 5º lugar 2º lugar TABELA 20 - PALAVRAS-CHAVE RELACIONADAS À REVISTA ABC 5.2 Análise dos dados Após a análise das dez home pages foi possível elaborar um quadro explicativo para apresentar, em síntese, os critérios utilizados pelo motor de busca Google considerados no momento da indexação. Percebeu-se que a tag title e as meta tags description e keywords constam (de forma adequada ou inadequada) ou não na constituição das home pages (Quadro 21). 86 Critérios Tag title Site A B C D E F G H I J Meta tags Description Keywords Não consta Consta de forma inadequada Não consta Não consta Consta de forma inadequada Consta de forma adequada Consta de forma adequada Consta de forma adequada Consta de forma inadequada Consta de forma adequada Não consta Consta de forma inadequada Consta de forma adequada Não consta Consta de forma adequada Consta de forma inadequada Não consta Consta de forma inadequada Não consta Consta de forma inadequada Não consta Consta de forma adequada Consta de forma inadequada Consta de forma adequada Consta de forma adequada Consta de forma adequada Consta de forma inadequada Consta de forma inadequada Consta de forma inadequada Consta de forma inadequada QUADRO 21 – QUADRO EXPLICATIVO – ANÁLISE DOS SITES O Quadro 21 serviu como base para a elaboração do Quadro 22, onde estão representadas as incidências dos itens analisados. Em seguida serão apresentados gráficos com a finalidade de demonstrar graficamente as porcentagens encontradas. Critérios Relevância Consta de forma adequada Consta de forma inadequada Não consta Tag title Meta tags Description Keywords 60% 30% 10% 30% 10% 30% 40% 60% 30% QUADRO 22 – QUADRO PERCENTUAL DA RELEVÂNCIA OU NÃO RELEVÂNCIA DOS CRITÉRIOS O Gráfico 1 mostra que a tag title, em 30% dos sites analisados, consta de forma inadequada, em 10% não consta e em 60% está composta de forma adequada. O alto índice de composição da tag title, possivelmente, se deve ao falo da relevância que a tag proporciona no momento da indexação feita pelo Google. 87 Segundo Costa (2007) a tag title é de extrema importância para os motores de busca e que deve ser, preferencialmente, constituída de forma mais elucidativa possível. GRÁFICO 1 - PERCENTUAL - TAG TITLE A meta tag description não constou em 40% dos sites. Em apenas 30% das páginas a meta tag foi inserida sem restrições (Gráfico 2). Não se entende essa percentagem, uma vez que, como diz Miygusku (2007), a meta tag descrição é a mais externa, o que delimita a definição do conteúdo da página. Uma das razões para o uso negativo pode ser explicado pelo desconhecimento da funcionalidade existente das meta tags. 88 GRÁFICO 2 - PERCENTAGEM META TAG DESCRIPTION As palavras-chave também não foram usadas corretamente. Segundo o Gráfico 3, 60% das páginas analisadas adotaram a meta tag de palavras-chaves de forma inadequada e 30% não adotaram, totalizando 90%. Tal situação gera irrelevância para os motores de busca, no caso deste trabalho, para o motor de busca Google. GRÁFICO 3 - PERCENTAGEM META TAG KEYWORDS 89 6 CONSIDERAÇÕES FINAIS A Biblioteconomia estuda várias formas de disponibilizar informações aos usuários, o que faz pensar que os profissionais da área vão sempre procurar estruturar conteúdos de forma mais facilitada à recuperação. Os bibliotecários exercem para muitos indivíduos apenas o papel de mero arrumador de livros e estão extremamente ligados a esse modo tradicional estabelecido como definição da profissão. Atualmente esses profissionais vem redesenhando vários conceitos estabelecidos com relação ao ofício, flexibilizando o ingresso em vários ramos e estabelecendo respeito entre as outras profissões. A informação como objeto de trabalho dos bibliotecários tem a sua natureza maleável, o que permite que outros produtos sejam criados ou extraídos, como por exemplo, espaços na Web ou livros digitais. Essa flexibilidade e o poder que a informação apresenta, produz/exige uma série de mudanças para que chegue ao usuário de forma mais simples possível. A Internet e a Web estão no cotidiano das formas de acesso e/ou divulgação da informação. Com isso vários profissionais tem buscado um uso cada vez mais intenso das tecnologias disponíveis. Ao considerar a implantação das novas tecnologias e entender que são poderosas ferramentas de divulgação da informação, o bibliotecário, de certa forma, apresenta as novas vertentes que a profissão pode adotar. Nesse ambiente, o objetivo deste trabalho foi realizar um estudo sobre as estratégias que os usuários podem utilizar ao disponibilizar conteúdos no ambiente Web para que sejam indexados pelo Google e, posteriormente, recuperados de forma mais precisa quando buscados. Os sites analisados foram escolhidos conforme condições explicadas anteriormente, focando em espaços relacionados a assuntos de Biblioteconomia. Após a revisão teórica foi possível identificar que ainda que fossem páginas relacionadas aos profissionais da informação, não houve a devida preocupação em estruturar os conteúdos seguindo os critérios estabelecidos por mecanismos de busca como o Google usa para indexar páginas. Para se chegar a essa conclusão, analisou-se três itens fundamentais na constituição de uma página na Web: a tag 90 title e as meta tags description e keywords. A tag title apresentou um índice de 60% de uma relevância na categoria “Consta de forma adequada”. Possivelmente o indicador se deve ao fato de que no momento da criação da página os usuários geralmente atribuem um título ao conteúdo disponibilizado. Desse modo, após a análise das páginas percebe-se que apesar de todas as home pages estarem ligadas a assuntos de biblioteconomia, bem como os seus respectivos responsáveis serem profissionais da informação, que nenhuma delas teve os três critérios estudados classificados como “Consta de forma adequada”. Não se entende os principais problemas de otimização encontrados nos sites, uma vez que são a composição do código fonte da página e que são visíveis pelos spiders dos motores de busca. Apesar de o bibliotecário estar vinculado a uma imagem antiquada, as mudanças econômicas, políticas e sociais conseqüências da globalização, influenciaram e vem influenciando no comportamento dos profissionais, o que exige mudanças de paradigmas em suas habilidades. O fato de algumas páginas da Web estarem arranjadas de forma ambígua, isto pode ser explicado de diversas maneiras, como: a formação profissional (o estudo de práticas antigas, sem abordar conceitos atuais), o manuseio de ferramentas computacionais por pessoas que não tenham conhecimento e a falta de atualização profissional, etc. Sugere-se, então, que os sites analisados refaçam as configurações estabelecidas com a finalidade de serem considerados pelo Google quando o conteúdo da página for cabível a pesquisa realizada. Para que essa situação mude é preciso um reforço maior no que diz respeito à constituição do código HTML da página, de forma que seja favorável a recuperação. Ao concluir este trabalho, fica claro que o campo de estudo da indexação feita pelos motores de busca para posterior recuperação é embrionário e induz a novos estudos. Partindo dessa premissa, as reflexões aqui desempenhadas tem como finalidade ampliar a discussão sobre a necessidade de se haver preocupação com a forma que as informações estão sendo disponibilizadas no ambiente Web e de agir como instrumento capaz de sugerir estudos futuros na área que permitam um enfoque mais extenso da natureza da indexação automática. Propiciando, ainda, uma concepção mais aprofundada dos métodos/compreensões, oriundas da Ciência da Computação, que a Ciência da Informação deve agregar. 91 REFERÊNCIAS ABREU, K. C. K. História e usos da Internet. Biblioteca on-line de Ciência da Comunicação, 2009. Disponível em: <http://www.bocc.uff.br/pag/abreu-karenhistoria-e-usos-da-internet.pdf>. Acesso em: 03 set. 2010. AMORIM, S. R. L.; CHERIAF, M. Sistema de indexação e recuperação de informação em construção baseado em ontologia. In: Encontro de Tecnologia de Informação e Comunicação na Construção Civil, 3., 2007, Porto Alegre. Anais eletrônicos... Porto Alegre: ISAEC, 2007. Disponível em: <http://www6.ufrgs.br/norie/tic2007/artigos/A1115.pdf>. Acesso em: 13 jun. 2010. AQUINI, M. C. Hipertexto 2.0, folksonomia e memória coletiva: um estudo das tags na organização da Web. E-Compós, ago. 2007. Disponível em: <http://www.compos.org.br/seer/index.php/e-compos/article/view/165/166>. Acesso em: 10 set. 2010. ARAÚJO JÚNIOR, R. H. Precisão no processo de busca e recuperação da informação. Brasília: Thesaurus, 2007. 175 p. BALAN, W. C. Tim Berners-Lee: o pai da Internet. 2006. Trabalho apresentado como requisito parcial para aprovação na Disciplina Cibercomunicação I, Comunicação Social, Universidade Metodista de São Paulo, São Paulo, 2006. Disponível em: <http://www.willians.pro.br/textos_publicados/tim_berners_lee_o_pai_da_interne t.doc>. Acesso em: 31 ago. 2010. BARBOSA, A. S. N. Orkut: o espaço que possibilita a Visibilidade e a Imortalidade. In: CONGRESSO BRASILEIRO DE CIÊNCIAS DA COMUNICAÇÃO, 32., 2009, Curitiba. Anais eletrônicos... Curitiba: Intercom, 2009. Disponível em: <http://www.intercom.org.br/ premios/2009/AlineBarbosa.pdf>. Acesso em: 13 maio 2010. BARROS, P. P. Possibilidades educativas da Internet. 2002. 70 f. Trabalho de Conclusão de Curso (Especialização) – Faculdade de Educação – FACED, Universidade Federal do Ceará, Fortaleza, 2002. Disponível em: <https://www.multimeios.ufc.br/arquivos/pc/monografias/Monografia_Priscila.pdf >. Acesso em: 14 set. 2010. BARRETO, A. A. A eficiência técnica e econômica e a viabilidade de produtos e 92 serviços de informação. Ciência da Informação, v. 25, n. 3, 1996. Disponível em: <http://revista.ibict.br/index.php/ciinf/article/download/466/425>. Acesso em: 05 out. 2010. BASTOS, J. Breve história da World Wide Web. Gambelas, PT: DEEI, 2006. 8 p. Disponível em: <http://intranet.deei.fct.ualg.pt/ADI/web-history.pdf?q=ADI/webhistory.pdf>. Acesso em: 02 set. 2010. BAX, M. P. As bibliotecas na Web e vice-versa. Perspectivas em Ciência da Informação, Belo Horizonte, v. 3, n. 1, p. 5-20, jan./jun. 1998. Disponível em: < http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/14/375>. Acesso em: 02 set. 2010. BIBLIOTECA Virtual do Governo do Estado de São Paulo. História da biblioteca e do bibliotecário no mundo e no Brasil. São Paulo: Biblioteca Virtual de São Paulo, 2007. Disponível em: <http://www.bibliotecavirtual.sp.gov/br/especial/docs/200703hIstoriadabiblio teca.pdf>. Acessado em: 30 abr. 2010. BLATTMANN, U.; FACHIN, G. R. B.; RADOS, G. J. V. Recuperação da informação eletrônica pela Internet. Revista ABC, v. 4, n. 4, p. 9-27, 1999. Disponível em: <http://revista.acbsc.org.br/index.php/racb/article/view/376/454>. Acesso em: 12 set. 2010. BORSATO, G. G. et al. Recuperação de informação em situações de urgênciaemergência no atendimento pré-hospitalar. Revista Eletrônica de Sistemas de Informação, v. 5, n. 3, 2006. Disponível em: <http://revistas.facecla.com.br/index.php/reinfo/article/view/549/434>. Acesso em: 13 jun. 2010. BRAND, G. B; FARIA, T. G. GOGETIT: Um método de indexação Web baseado em redes peer-to-peer. In: WORKSHOP DE REDES PEER-TO-PEER, 2., 2006, Curitiba. Anais eletrônicos… Curitiba: BDBComp, 2006. Disponível em: < http://www.lbd.dcc.ufmg.br:8080/colecoes/wp2p/2006/st1_2.pdf>. Acesso em: 13 de maio 2010. BREVE, F. A. Engenharia para a Web. São Paulo: UFSCar, 2002. 25 p. Disponível em: <http://fabricio.skooterweb.com/trabalhos/engenharia_web.pdf>. Acesso em: 30 ago. 2010. BRUZINGA, G. S.; MACULA, B. C. M. S.; LIMA, G. A. B. O. Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertações. In: ENCONTRO 93 NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO - ENANCIB, 8., 2007, Salvador. Anais eletrônicos... Salvador: ENANCIB, 2007. Disponível em: <http://www.enancib.ppgci.ufba.br/artigos/GT2--117.pdf>. Acesso em: 14 set. 2010. BUENO, S. B. Utilização de recursos informacionais na educação. Perspectivas em Ciência da Informação, v.14, n. 1, p. 66-76, jan./abr. 2009. Disponível em: <http://www.scielo.br/pdf/pci/v14n1/v14n1a06.pdf>. Acesso em: 14 set. 2010. CAMPOS, F; BAX, M. P. Como os mecanismos de busca da web indexam páginas HTML. In: CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA E DOCUMENTAÇÃO, 2000, Rio Grande do Sul. Anais eletrônicos... Rio Grande do Sul: FEBAB, 2000. Disponível em: <http://www.bax.com.br/research/publications/ComoMaquinasBuscaIndexamPagin asWeb.pdf>. Acesso em: 17 set. 2010. CARMONA, T. Segredos do Google. São Paulo: Direrati Books, 2006. 128 p. CARSODO, O. N. P. Recuperação de informação. Inforcomp, v. 2, n. 1, p. 33-38, 2000. Disponível em: <http://www.dcc.ufla.br/infocomp/artigos/v2.1/art07.pdf>. Acesso em: 13 jun. 2010. CASTRO, A. indexação manual versus indexação automática: estudo comparativo preliminar da eficiência de recuperação da informação na internet. Usina de Letras, 2001. Disponível em: <http://www.usinadeletras.com.br/exibelotexto.php?cod=172&cat=Teses_Monolog os&vinda=S>. Acesso em: 14 set. 2010. CENDÓN, B. V. Ferramentas de busca na Web. Ciência da Informação, Brasília, v. 30, n. 1, p. 39-49, 2001. Disponível em: <http://www.scielo.br/pdf/ci/v30n1/a06v30n1.pdf>. Acesso em: 20 out. 2010. CINTRA, A. M. M. Elementos de lingüística para estudos de indexação. Ciência da Informação, Brasília, v. 12, n. 1, p. 5-22, 1983. Disponível em: <http://revista.ibict.br/index.php/ciinf/article/view/1526/1144>. Acesso em: 13 jun. 2010. COSTA, C. J. Desenvolvimento para web. Lisboa, PT: Lusocredito, 2007. 660 p. COSTA, M.; SILVA, M. J. Ranking do motor de busca tumba. In: CONFERÊNCIA DE REDES DE COMPUTADORES, 4., 2001, Covilhão, PT. Anais eletrônicos... Covilhão, PT: CRC, 2001. Disponível em: 94 <http://www.fccn.pt/crc2001/pdf/artigos/crc2001_211_a25vf.pdf>. Acesso em: 09 set. 2010. CUNHA, M. B. Para saber mais: fontes de informação em ciência e tecnologia. Brasília: Briquet de Lemos, 2001. CURTY, R. G. Web 2.0: plataforma para o conhecimento coletivo. In: TOMAÉL, M. I. (Org.). Fontes de Informação na Internet. Londrina: EDUEL, 2008. p. 53-78. ENGELMANN, F. Web marketing no webdesign: a influência do marketing de otimização de busca (mob) na comunicação digital. 96 f. Trabalho de Conclusão de Curso (Curso de Comunicação Social – Habilitação Publicidade e Propaganda)– Instituto de Ciências Sociais Aplicadas, Centro Universitário Feevale, Novo Hamburgo, 2006. Disponível em: <http://ged.feevale.br/bibvirtual/Monografia/MonografiaFelipeEngelmann.pdf>. Acesso em: 29 out. 2010. FELIPINI, D. Sites de busca: como trazer milhares de visitantes para sua loja virtual. São Paulo: ABCcommerce, 2010. 54 p. Disponível em: <http://pareaki.com/E-Commerce/abc-busca/abc-busca.pdf>. Acesso em: 11 out. 2010. FREOA, W. A mensagem publicitária na Internet: a imagem refletida da gratificação. In: CONGRESSO BRASILEIRO DE CIÊNCIAS DA COMUNICAÇÃO, 28., 2005, Rio de Janeiro. Anais eletrônicos... Rio de Janeiro: Intercom, 2005. Disponível em: <http://galaxy.intercom.org.br:8180/dspace/bitstream/1904/17461/1/R10491.pdf>. Acesso em: 30 ago. 2010. FUJINO, A.; JACOMINI, D. D. Produtos e serviços de informação na sociedade do conhecimento: da identificação ao uso. In: GIANNASI-KAIMEN, M. J.; CARELLI, A. E. (Orgs.). Recursos informacionais para compartilhamento da informação: redesenhando acesso, disponibilidade e uso. Rio de Janeiro: E-papers, 2007. p. 7397. GIL, A. C. Métodos e técnicas de pesquisa social. São Paulo: Atlas, 2009. GOOGLE Central do Webmaster. Ajuda das Ferramentas do Google para Webmasters. Disponível em: <http://www.google.com/support/Webmasters/bin/anSwer.py?answer=70897 &hl=pt-BR#2>. Acesso em: 13 maio 2010. 95 GOOGLE Informações corporativas. Visão geral da empresa. Disponível em: <http://www.google.com.br/corporate/>. Acesso em: Acesso em: 13 maio 2010. GOOGLE. Tire o máximo partido do seu conteúdo: um manual para editores da web. 24 p. LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet de Lemos, 2004. 452 p. LIMA, G. A. B. Interfaces entre ciência da informação e ciência cognitiva. Ciência da Informação, Brasília, v. 32, n. 1, p. 77-87, 2003. LOH, S.; WIVES, L. K.; FRAINER, A. S. Uma abordagem para busca contextual de documentos na internet. Revista de Informática Teórica e Aplicada – RITA, Porto Alegre, v. 4, 1997. Disponível em: <http://www.leandro.wives.nom.br/ptbr/publicacoes/RITA.pdf>. Acesso em: 13 jun. 2010. MAIA, L. C.; SOUZA, R. R. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, v. 15, n. 1, p. 154-172, jan./abr. 2010. Disponível em: <http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/viewFile/875/717>. Acesso em: 10 set. 2010. MAIMONE, G. D.; SILVEIRA, N. C. Cognição humana e os Paradigmas da Ciência da Informação. Revista Eletrônica Informação e Cognição, v. 6, n. 1, p. 55-67, 2007. Disponível em: <http://74.125.155.132/scholar?q=cache:wbSAYzFzQ4J:scholar.google.com/ +explos%C3%A3o+documental&hl=pt-BR&as_sdt=2000>.Acesso em: 16 jun. 2010. MARCONDES, C. H.; SAYAO, L. F. Documentos digitais e novas formas de cooperação entre sistemas de informação em C&T. Ciência da Informação, Brasília, v. 31, n. 3, 2002. Disponível em: <http://www.scielo.br/Scielo.php?script=sci_arttext&pid=S010019652002000 300005&lng=en&nrm=iso>. Acesso em: 30 abr. 2010. MERCADO, L. P. L. A Internet como ambiente de pesquisa na escola. In: MERCADO, L. P. L. (Org.). Novas tecnologias na educação: reflexões sobre a prática. Maceió: EDUFAL, 2002. p. 191-204. MIYAGUSKU, R. Crie sites arrasadores. São Paulo: Digerati Books, 2007. 128 p. 96 MORAES, R. A.; DIAS, A. C.; FIORENTI, L. M. R. A As tecnologias da informação e comunicação na educação: perspectivas de Freire e Bakhtin. UNIrevista, São Leopoldo, v. 1, n. 3, 2006. Disponível em: <http://www.alaic.net/ponencias/UNIrev_Moraes_e_outros.pdf>. Acesso em: 07 set. 2010. MONTEIRO, L. A Internet como meio de comunicação: possibilidades e limitações. In: CONGRESSO BRASILEIRO DA COMUNICAÇÃO, 24., 2001, Campo Grande. Anais eletrônicos... Campo Grande: Intercom, 2001. Disponível em; <http://www.jack.eti.br/www/arquivos/documentos/trabalhos/fae/Trabalho_Red es_Adinarte_26032008.pdf>. Acesso em: 29 ago. 2010. MONTEIRO, S. D. Os mecanismo de busca: a guisa de uma tipologia das múltiplas sintaxes. In: TOMAÉL, M. I. (Org.). Fontes de informação na Internet. Londrina: EDUEL, 2008. p. 97-122. MOSCATO, M.; ZUBEN, V. Uma visão geral de clusterização de dados. São Paulo: DCA/FEEC/Unicamp, 2000. Disponível em: <ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia368_02/topico5_02.pdf>. Acesso: 09 out. 2010. NIELSEN. J; LORANGER, H. Usabilidade na Web: projetando Websites com qualidade. Rio de Janeiro: Elsevier, 2007. 406 p. NOGUTI, V. Fontes de informação e sua utilização em processos decisórios não estruturados. 2000. 174 f. Dissertação (Mestrado em Administração)- Faculdade de Economia, Administração e Contabilidade. Universidade de São Paulo, São Paulo, 2000. Disponível em: < http://worldcat.org/oclc/55920028>. Acesso em: 05 out. 2010. PINHO, J. B. Jornalismo na Internet: planejamento e produção da informação online. 3. ed. São Paulo: Summus, 2003. 282 p. (Coleção Novas Buscas em Comunicação, 71). REZENDE, A. M. G. Hipertexto: tramas e trilhas de um conceito contemporâneo. Informação & Sociedade: estudos, João Pessoa, v. 10, n. 1, p. 13-33, 2000. Disponível em: <http://dci2.ccsa.ufpb.br:8080/jspui/handle/123456789/574>. Acesso em: 30 ago. 2010. RIBEIRO, J. Classificação/indexação. Sistemas de informação: arquivos. 2006. Disponível em: 97 <http://joaquim_ribeiro.web.simplesnet.pt/Arquivo/pdf/class_index_pdf.pdf>. Acesso em: 13 jun. 2010. RIBEIRO, O. B.; VIDOTTI, S. A. B. G. Otimização do acesso à informação científica: discussão sobre a aplicação de elementos da arquitetura da informação em repositórios digitais. Biblios, Rio Grande, v. 23, n. 2, p. 105-116, 2009. Disponível em: <http://www.seer.furg.br/ojs/index.php/biblos/article/view/1309/593>. Acesso em: 11 out. 2010. ROBREDO, J. Documentação de hoje e de amanhã: uma abordagem revisitada e contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas, documentárias, arquivísticas e museológicas. 4. ed. Brasília: Edição do autor, 2005. 409 p. ROBREDO, J. Indexação automática de textos: uma abordagem otimizada e simples. Ciência da Informação, Brasília, v. 20, n. 2, p. 130-136, jul./dez. 1991. Disponível em: <http://revista.ibict.br/index.php/ciinf/article/view/1349/976>. Acesso em: 10 set. 2010. ROCHA, R. P. Metadados, Web semântica, categorização automática: combinando esforços humanos e computacionais para a descoberta e uso dos recursos da Web. Em Questão, Porto Alegre, v. 10, n. 1, p. 109-121, jan./jun. 2004. Disponível em: <http://seer.ufrgs.br/index.php/EmQuestao/article/view/86/1127>. Acesso em: 14 set. 2010. SÁ, A.; BERTOCCHI, D. A Web 2.0 no ano de 2006. In: PINTO, M; FIDALGO, J. (Coord.). Anuário 2006: a comunicação e os medias em análise. Minho, PT: Projecto Mediasticópio: Centro de Estudos de comunicação e Sociedade: Instituto de Ciências Sociais: Universidade do Minho, 2006. p. 33-43. Disponível em: <http://www.lasics.uminho.pt/ojs/index.php/anu ario2006/article/view/380/356>. Acesso em: 02 set. 2010. SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspectiva em Ciências da Informação, Belo Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996. Disponível em: <http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/viewFile/235/22>. Acesso em: 13 jun. 2010. SILVA, F. M. Um estudo das contribuições do hipertexto para o fluxo da informação em meio eletrônico. 2003. 105 f. Dissertação (Mestrado em Ciência da Informação)- Pontifícia Universidade Católica de Campinas, Campinas, 2000. Disponível em: <http://www.bibliotecadigital.puccampinas.edu.br/tde_busca/arquivo.php?codArquivo=6>. Acesso em: 03 out. 2010 98 TAVARES, T. et al. Os Motores de busca numa perspectiva cognitiva. In: CONFERÊNCIA INTERNACIONAL DE TIC NA EDUCAÇÃO, 6., 2009, Braga. Anais eletrônicos... Braga: Universidade do Ninho, 2009. Disponível em: <http://repositorium.sdum.uminho.pt/bitstream/1822/9856/1/challenges_09_mot ores.pdf>. Acesso em: 11 out. 2010. TEIXEIRA, C. M. S; SCHIEL, U. A Internet e seu impacto nos processos de recuperação da informação. Ciência da Informação, Brasília, v. 26, n. 1, jan/abr. 1997. Disponível em: <http://www.scielo.br/scielo.php?pid=S010019651997000100009&script=sci_arttex t&tlng=en<. Acesso em: 06 set. 2010. TEIXEIRA, R. S. O uso ilícito dos Meta-Tags e a lesão ao Direito da Concorrência: a normatização cível dos instrumentos utilizados pelos motores de busca no meio virtual. Âmbito Jurídico, n. 73, 2010. Disponível em: <http://www.ambitojuridico.com.br/pdfsGerados/artigos/7198.pdf>. Acesso em: 11 out. 2010. TOMAÉL, M. I.; ALCARÁ, A. R.; SILVA, T. E. Fontes de informação na internet: critérios de qualidade. In: TOMAÉL, M. I. (Org.). Fontes de informação na Internet. Londrina: EDUEL, 2008. p. 3-30. VIANA, M. M. M. A Internet e o bibliotecário: a adaptação de habilidades profissionais frente aos novos serviços. Porto Alegre: UFRGS, 1996. 11 p. Disponível em: <http://www8.fgv.br/bibliodata/geral/docs/060704.pdf>. Acesso em: 30 ago. 2010. VISE, D. A.; MALSEED, M. Google: a história de negócio de mídia e tecnologia de maior sucesso dos nossos tempos. Rio de Janeiro: Rocco, 2007. 349 p.