Atividade - A Busca de Informação na Web Prof. José Adolfo de Campos Baseado em textos da University Libraries, University at Albany - http://library.albany.edu/internet 1. Introdução Um dos grandes problemas para a preparação de aulas e a realização de pesquisas é a busca e identificação de informações relevantes e confiáveis nos assuntos a serem abordados. Este problema não é novo e já era percebido antes do advento da Web, que introduziu alguns novos elementos na questão. De modo geral, os principais aspectos na busca e identificação de informações são a credibilidade da fonte de informação e as características da informação desejada, que podem ser explicitadas através da relevância dentro do tema, da exatidão dos dados, da atualização e do nível de profundidade e abrangência (figura 1). Figura 1 - Busca de Informações Em tempos não muito distantes, a pesquisa das informações necessárias era feita através da leitura de livros e periódicos em bibliotecas, especializadas ou não. Esta etapa era sempre trabalhosa e algumas vezes tediosa. Dado o estado precário da maioria das bibliotecas brasileiras, freqüentemente livros e periódicos citados em publicações não eram encontrados, deixando lacunas dificilmente preenchidas. Por vezes, à parte de pesquisa bibliográfica se alongava durante meses, dependente da obtenção de cópias de artigos em bibliotecas no exterior ou mesmo aguardando a importação de livros. Com o advento da Web, a busca e identificação de referências bibliográficas passaram a ser muito mais ágeis, permitindo a obtenção das mesmas em questão de dias ou mesmo horas. Certamente esta agilidade não é uma regra geral e, em algumas áreas científicas ou assuntos ela é bem mais lerda. Entretanto, se por um lado a Web trouxe agilidade na obtenção de artigos e encomendas de livros, por outro também trouxe o problema da informação em excesso, da informação sem credibilidade e da informação inútil e sem precisão (especialmente importante em áreas científicas e educacionais). Um livro ou artigo publicado em periódico reconhecido significa que os textos passaram por uma revisão feita por especialistas no assunto e, portanto, assume-se que as informações ai contidas têm credibilidade (existem algumas exceções). A Web, sendo um meio sem censura prévia e que apresenta enorme facilidade para a publicação de materiais por qualquer pessoa com um mínimo de conhecimento em informática, traz consigo o problema da credibilidade das informações apresentadas em "homepages". Além disso, dada à facilidade de publicação, existe muita duplicação 1 de informações, sem o cuidado com a coerência e com a autenticidade do texto original, causando um excesso de informações errôneas e inúteis, que poluem o ambiente e dificultam a garimpagem das informações verdadeiramente relevantes. Neste texto, pretende-se chamar a atenção para os aspectos mais relevantes da busca e identificação de informações especialmente na Web, e apresentar um roteiro (figura 2) dos cuidados que devem ter os futuros pesquisadores e professores nas suas pesquisas usando a Internet. Além disso, serão apresentadas algumas informações básicas sobre a Internet, a Web e serão discutidos os processos de realização de pesquisas na Web, envolvendo mecanismos de buscas de 1 a e 2a gerações e buscas especiais na "Deep Web". Figura 2 - Roteiro para Busca de Informações 2. A Internet e seus Componentes A Internet (net para os iniciados) é uma rede constituída de milhares de redes de computadores que se comunicam usando o conjunto de protocolos TCP/IP (Transmission Control Protocol / Internet Protocol). Os protocolos são conjuntos de regras que permitem a comunicação entre máquinas na Internet. Ninguém controla a Internet. Atualmente estima-se que existam cerca de 500 milhões de computadores conectados a Internet. Os nós desta rede são controlados por empresas particulares. A internet é um veículo de transporte da informação armazenada em arquivos e documentos em um computador. Ela não contém a informação, apenas transporta de um computador para outro, como se fosse um ônibus transportando passageiros. Os computadores na Internet usam a arquitetura Cliente/Servidor. A máquina Servidora fornece arquivos e serviços à máquina local do Cliente (usuário). O usuário da Internet tem acesso a uma variedade de serviços, geralmente identificados por diferentes protocolos de acesso aos computadores, tais como: 2.1 E-MAIL (Electronic mail) 2 Este serviço permite a troca de mensagens entre os usuários locais e outros situados em todas as partes do mundo. Cada usuário tem uma caixa de correspondência para a qual as mensagens são dirigidas. As mensagens trocadas através da Internet podem chegar ao destinatário em questão de segundos. Arquivos eletrônicos podem ser enviados para o endereço de correspondência de uma pessoa. Os arquivos não-ASCII (conhecidos como arquivos binários), que podem ser anexados ao email, são chamados de anexos MIME (Multimedia Internet Mail Extension). Os boletins eletrônicos são e-mails unidirecionais, geralmente contendo notícias sobre tópicos específicos, enviados do servidor para a caixa de correspondência dos subscritores do boletim. Listas de Discussão são formadas quando uma comunidade de indivíduos participa de discussões sobre tópicos específicos usando o e-mail. Quando as Listas de Discussão sobre um assunto são administrados por programas de software, elas são chamadas de Grupos de Discussão. O mais comum dos programas de administração chama-se Listserv, mas o Majordomo e o Listproc também são comumente usados. Quando o usuário se inscreve num grupo de discussão, as mensagens dos outros subscritores são enviadas automaticamente para a sua caixa postal. Os principais programas usados para e-mail são o Eudora, o Netscape Messenger e o Microsoft Outlook Express. 2.2 TELNET ou Conexão Remota Este serviço permite o seu computador se conectar com outros computadores na Internet, usando-os como se estivesse lá, para acessar bases de dados, catálogos de bibliotecas, serviços de "chat", rodar programas e muito mais. O Telnet só permite textos. Para usar o Telnet é preciso conhecer o endereço do computador servidor na Internet. O endereço pode ser constituído por palavras (locis.loc.gov) ou números (140.147.254.3). Alguns serviços requerem que o usuário se conecte a uma porta específica do computador remoto (telnet nri.reston.va.us 185). 2.3 FTP (File Transfer Protocol) Este serviço permite transferir rapidamente arquivos entre computadores. A opção FTP Anonymous permite aos usuários transferir arquivos de milhares de computadores na Internet para o seu computador pessoal. Existem muitos programas para facilitar o FTP (WS_FTP for Windows é um dos mais usados). Também se pode conseguir arquivos ftp através de mecanismos de buscas tais como o FtpFind (http://www.ftpfind.com/). 2.4 USENET É um sistema de boletim eletrônico em que milhões de usuários trocam informação sobre uma vasta gama de assuntos. Na USENET as mensagens são armazenadas em computadores centrais e os usuários devem se conectar a estes computadores para ler ou “baixar” as mensagens colocadas pelos participantes deste grupo. Os fóruns de discussão USENET são chamados de Newsgroups, sendo controlados por administradores que podem censurar as mensagens, desligando pessoas que não se enquadram dentro dos padrões exigidos. Os Newsreaders são programas específicos para ler as mensagens. 2.5 CHAT e Mensagens Instantâneas Os programas de CHAT permitem aos usuários da Internet se comunicarem em tempo real através da digitação de textos no computador. Algumas vezes eles são incluídos como um serviço de um "Web site", onde os usuários podem se conectar em "salas de chat" para trocar comentários e informações. O IRC (Internet Relay Chat) é um serviço que permite aos participantes se comunicarem entre si através de milhares de canais. Estes canais são usualmente baseados em tópicos específicos. Para acessar o IRC os usuários deve usar um programa de software IRC, geralmente o MIRC. As Mensagens Instantâneas são uma variação do Chat, na qual o usuário na Web pode contatar um outro usuário que está ativo e iniciar uma conversação através da digitação de textos. Os programas mais famosos deste tipo são o ICQ, o MSN e o AIM. 3 2.6 WWW (World Wide Web ou Web) A Web é um sistema de servidores da Internet que suporta Hipertextos para acessar diversos protocolos, usando uma única interface. Hipertexto é um documento contendo palavras que conectam a outros documentos. Quase todos os protocolos disponíveis na internet são acessáveis através da Web: e-mail, FTP, Telnet, Usenet e o HTTP (HyperText Transfer Protocol). A produção de hipertextos para Web é feita através da criação de documentos com uma linguagem chamada de HTML (HyperText Markup Language). Além de textos e figuras, gráficos e multimídia podem ser incorporados dentro de um documento HTML. A Web consiste de arquivos, chamados de páginas ou "homepages", contendo "links" para documentos e recursos através da internet. 3. O Mundo da Web e os Protocolos disponíveis A World Wide Web foi desenvolvida em 1989 por Tim Berners-Lee do CERN (European Particle Physics Lab). O propósito inicial foi usar o hipertexto para facilitar a comunicação entre os membros do CERN. Além do hipertexto, a Web começou a incorporar gráficos, vídeos e sons. Quase todos os protocolos disponíveis na Internet podem ser usados na Web: a) E-mail (Simple Mail Transport Protocol ou SMTP) Distribui mensagens eletrônicas e arquivos para uma ou mais caixas de correspondência eletrônicas. b) Telnet (Telnet Protocol) Facilita a conexão com um computador para a execução de comandos. c) FTP (File Transfer Protocol) Transfere arquivos texto ou binários entre o servidor FTP e o cliente. d) Usenet (Network News Transfer Protocol ou NNTP) Distribui textos Usenet derivados de discussões de tópicos nos newsgroups. e) HTTP (HyperText Transfer Protocol) Transmite hipertextos através de redes de computadores. Este é o protocolo usado na Web. Ainda existem outros protocolos disponíveis na Web, como o VoIP (Voice over Internet Protocol), que permite aos usuários fazerem chamadas telefônicas usando a Web. A Web proporciona uma interface simples para acessar todos esses protocolos. 3.1 Hipertexto Um documento Hipertexto pode conter palavras ou gráficos que sirvam de links para outros documentos, imagens, vídeos e sons. A produção de um Hipertexto na Web é feita criando-se documentos com uma linguagem chamada de HyperText Markup Language (HTML). A linguagem HTML está em constante evolução para incorporar novas facilidades. 3.2 Páginas da Web A Web constitui-se de arquivos chamados de páginas ou “homepages”, contendo links para documentos e recursos através da Internet. As páginas HTML têm nomes geralmente com extensão htm ou html. O acesso às páginas Web pode ser feito por: 1. Entrando num endereço internet e vendo a página diretamente; 2. Passear através das páginas e selecionar links para se mover de uma página a outra; 3. Procurar através de diretórios de assuntos ligados a coleções organizadas de páginas Web; 4. Entrar com uma frase ou palavra num mecanismo de busca para obter sobre o tópico escolhido. 3.3 Recuperando documentos na Web: Endereços na Internet O URL (Uniform Resource Locator) especifica um endereço internet de um arquivo armazenado num computador hospedeiro conectado à Internet. Cada arquivo na internet, 4 independentemente do protocolo de acesso, tem um único URL. Os programas de software usam este endereço para visualizar este arquivo que está num diretório do computador hospedeiro. Os URLs são endereços numéricos, chamados de endereço IP (Internet Protocol), tais como os números telefônicos. Para facilitar a memorização usamos endereços alfanuméricos que são convertidos nos endereços numéricos reais usando-se o DNS (Internet Domain Name System). O formato padrão do URL é protocolo://hospedeiro/diretório/nome do arquivo. Tomemos como exemplo o endereço http://www.ufrj.br/ov/index.html A estrutura deste endereço é: Protocolo: http Nome do computador hospedeiro: www.ufrj Nome do domínio: br Nome do diretório: ov Nome do arquivo: index.html Os nomes de domínio mais comuns nos Estados Unidos são: com Empreendimento comercial edu Instituição educacional gov Instituição governamental mil Instituição militar net Provedor de acesso à rede org Organizações sem fins lucrativos Para países que não os Estados Unidos, acrescenta-se o código de duas letras para designar os países (ISO 3166). Por exemplo, .br para o Brasil, .uk para o Reino Unido, .pt para Portugal, etc. Assim, um endereço de domínio de uma instituição do governo brasileiro teria o nome de domínio gov.br. Em novembro de 2000, a ICANN (Internet Corporation for Assigned Names and Numbers) aprovou novos nomes de domínio. À proporção que a Web evolui, as URLs se tornam cada vez mais complexas, especialmente quando é o caso de recuperar informações de bases de dados. 3.4 Como Acessar a World Wide Web: Os Browsers Os programas de software usados na Web para acessar e visualizar as páginas Web são chamados de Browsers (Navegadores). Existem dois tipos de browsers: os gráficos, cujos principais são o Microsoft Internet Explorer, o Netscape Communicator, o Opera e o Firefox; e browser para textos cujo único é o Lynx. Programas de software podem ser configurados para rodar no browser de modo a ampliar as suas capacidades. Quando o browser encontra um arquivo de som, imagem ou vídeo, ele encaminha os dados para outros programas, chamados de plug-ins, para rodar ou mostrar o arquivo. Os browsers normalmente vêm com um pequeno conjunto de plug-ins para tratar conteúdo multimídia. Plug-ins adicionais podem ser conseguidos em diversos sites especializados. A Microsoft desenvolveu uma tecnologia que torna os plug-ins menos necessários - ActiveX. O ActiveX permite incorporar objetos animados, dados e código de computador nas páginas Web. Por exemplo, o ActiveX permite ver mundos tri-dimensionais VRML sem o uso do plug-in VRML. Hoje a Web permite uma experiência diversificada de multimídia, de linguagens de programação e de comunicação em tempo real. A Web se tornou um meio de transmissão onde é possível ouvir áudio e vídeo tanto pré-registrado quanto ao vivo. Para contornar a necessidade de se baixar todo o conteúdo de uma apresentação para ouvi-la ou visualizá-la, apareceu o tipo "streaming". No "streaming" os arquivos de áudio e vídeo estão sendo executados à proporção que são baixados da Web. Os plug-ins Windows Media Player, RealPlayer e QuickTime executam arquivos de áudio e vídeo "streaming". Os plug-ins Shockwave e Flash também permitem a 5 implementação de visualização multimídia combinando gráficos, animação e som. Outro aspecto da multimídia são as câmeras de vídeo (chamadas de Live Cam) que enviam seus dados em tempo real para o servidor. O uso de linguagens de programação tem expandido as capacidades da Web. Um programa em CGI (Common Gateway Interface) é desenhado para aceitar e retornar dados que atendem a especificação CGI. Um uso comum para um "script" CGI é para processar um formulário eletrônico numa página Web. O ASP (Active Server Page), desenvolvido pela Microsoft, é um ambiente de programação que processa "scripts" num servidor Web, em vez de no browser, para gerar páginas HTML que serão enviadas ao browser. O Java é uma linguagem de programação, desenvolvida pela Sun Microsystems, que cria programas executáveis independente da plataforma, isto é, rodam igualmente em PC, Macintosh, Unix, etc. Os Java Applets são pequenos programas, chamados a partir de uma página HTML, que podem ser baixados de um servidor Web e rodar em um browser compatível com Java. O JavaScript é uma linguagem de programação criada pela Netscape Communications, onde pequenos programas escritos nesta linguagem podem estar incorporados dentro de uma página HTML ou chamados externamente para ampliar as capacidades de uma página. Entre os exemplos de aplicação podemos citar calendários e relógios em tempo real, menus "drop-down" e interações com o mouse. O JScript é uma linguagem semelhante desenvolvida pela Microsoft. O VRML (Virtual Reality Modeling Language) permite a criação de mundos tridimensionais, que podem ser anexados a páginas Web e mostrados com um visualizador VRML. Um dos aspectos mais interessantes é a opção de entrar no mundo e controlar seus movimentos dentro do mundo. O XML (Extensible Markup Language) é uma linguagem de estrutura de dados e troca, que permitem aos desenvolvedores separar forma do conteúdo. A Web também oferece a oportunidade das pessoas conversarem e colaborarem em tempo real. Os instrumentos para uma colaboração em tempo real incluem áudio (conversação telefônica via Web), vídeo (visão da sua platéia), transferência de arquivos (enviar e receber de volta arquivos entre participantes), chat (textos em tempo real), quadro branco (desenhar e salvar imagens numa tela compartilhada), compartilhamento de documentos e aplicativos (ver e usar programas numa outra máquina), visitar a Web colaborativamente (isto é, ver páginas Web juntos). Exemplos de programas para colaboração são o NetMeeting da Microsoft e o Netscape Conference. 4. Realizando Pesquisas na Internet A internet não é um catálogo de uma biblioteca em que todos os itens disponíveis estão identificados e podem ser recuperados através de um simples catálogo. Ninguém conhece o número de arquivos individuais existentes na internet, mas estima-se que passam de 10 bilhões, número que cresce continuamente. A internet é um meio de autopublicação, o que significa que qualquer pessoa, com um mínimo de conhecimentos, é capaz de publicar textos. Assim, é necessário muito cuidado com as informações obtidas, porque existe informação altamente qualificada, mas existem também informações erradas e sem nenhum valor científico. Os endereços na internet mudam freqüentemente e os "websites" podem desaparecer sem aviso. Uma das maneiras mais eficientes de realizar pesquisas na internet é usar a Web, porque ela inclui a maioria dos protocolos da internet. 4.1 Como encontrar Informação na Internet Existem várias maneiras para acessar a informação na internet: Ir diretamente ao Site se você tem o Endereço Se você conhece o endereço de internet do site que quer visitar, use o browser para acessá-lo e, eventualmente explorar os links sugeridos pelo site para ampliar a informação. Por exemplo, a "homepage" do Observatório Nacional é http://www.on.br . Explorar um Diretório de Assuntos 6 Quando quer ver sites muitas vezes recomendados por especialistas ou para responder a questões mais gerais de exploração de um tópico, use um diretório de assuntos. Um diretório de assuntos é um serviço que oferece uma coleção de links de recursos da internet submetido pelos criadores/avaliadores do site e organizado em categorias de assuntos. Existem dois tipos básicos de diretórios: diretórios acadêmicos e profissionais. Use o diretório apropriado às suas necessidades. Por exemplo, um diretório de assuntos de Astronomia é a Biblioteca Virtual de Astronomia ( http://www.prossiga.br/astronomia). Outro exemplo de diretório acadêmico é o INFOMINE (http://infomine.ucr.edu). Podemos citar o Yahoo ( http://www.yahoo.com) como portal comercial. Os diretórios de assuntos diferem muito na seletividade, indo desde os comerciais tipo Yahoo, que não avalia cuidadosamente o conteúdo submetido, até os tipo INFOMINE (da Universidade da Califórnia) que selecionam somente fontes consideradas de interesse para a comunidade acadêmica e de pesquisa. Fazer uma pesquisa usando um Mecanismo de Buscas da Web O mecanismo de buscas na Internet permite ao usuário entrar com palavras-chave relacionadas a um tópico e recuperar informação sobre sites da internet que contém aquelas palavras-chave. Existem mecanismos de buscas disponíveis para diversos protocolos da internet. Muitos mecanismos de buscas compilam uma base de dados abrangendo múltiplos protocolos, incluindo HTTP, FTP e Usenet. Eles também podem buscar arquivos de multimídia na "Deep Web", que são acessáveis em pesquisas separadas. Um mecanismo de buscas da Web é constituído por três componentes: Spider (Aranha): Programa que atravessa a Web de link em link, identificando e lendo páginas. Index (Índice): Uma base de dados contendo uma cópia de cada página Web visitada pelo programa Spider. Search engine mechanism (Motor de busca): Programa que permite aos usuários questionar a base de dados e que normalmente retorna resultados em ordem de relevância. Lembre-se que a ação do programa Spider é indiscriminada, onde os dados coletados podem estar desatualizados, imprecisos ou incompletos. A ordenação dos sites apresentada ao usuário depende do mecanismo de buscas. Os mecanismos de 1a geração usavam a ordenação por termo. Uma evolução é a ordenação segundo conceitos, palavras-chave, site, links e popularidade. Não se impressione por um número excessivamente elevado de sites obtidos em resposta a uma pesquisa bem formulada. Muitas vezes um grande número de páginas de um mesmo site são apresentadas. Alguns mecanismos como o AltaVista e o AlltheWeb evitam este problema através de uma técnica chamada de agrupamento de resultados (results grouping), onde todos os resultados de um site são apresentados juntos. Se você obtiver um pequeno número de sites como resultado da sua busca, adote uma ou mais das seguintes estratégias: a) retire os conceitos menos importantes da busca; b) use um vocabulário mais geral; c) use mecanismos de busca tipo Meta, que pesquisam simultaneamente em vários mecanismos de busca. ATENÇÃO: Existe vida além do Google. Explorar a informação armazenada em bases de dados na Web, conhecida como "Deep Web" O conceito de "Deep Web" (Web Profunda ou Invisível) é relativamente recente e refere-se ao conteúdo que está armazenado em bases de dados acessáveis pela Web, mas não disponíveis via mecanismo de buscas, isto é, seu conteúdo é invisível aos mecanismos de buscas. Normalmente numerosas informações são armazenadas em bases de dados, tais como notícias, listas de empregos, vôos comerciais, informações científicas sobre objetos e fenômenos, etc. Este conteúdo é acessável somente através de perguntas (query) feitas no site que gerencia a base de dados. Outros conteúdos não vistos pelos programas Spider são os arquivos não textuais, tipo arquivos de multimídia, arquivos gráficos e documentos em formatos não padronizados (Pdf, Word). O Google é uma exceção porque ele indexa imagens e arquivos em PDF, Word. 7 A melhor maneira de acessar informação na Web Invisível é procurar nas próprias bases de dados. Abaixo se encontram listados alguns sites que coletam conteúdo da Deep Web: Deep Web Research (http://www.deepwebresearch.info/) CompletePlanet (http://aip.completeplanet.com/) Juntar-se a um Grupo de Discussão (e-mail) ou a Usenet (newsgroup) Existem milhares de grupos de discussão e newsgroups sobre uma variedade enorme de tópicos. Nestes grupos pode-se fazer perguntas a especialistas e/ou ler as respostas às perguntas que outros fizeram. Estes grupos fornecem uma boa maneira de se manter atualizado com o que está sendo discutido na internet sobre a área de seu assunto. Os grupos de discussão algumas vezes estão associados com instituições acadêmicas. Os grupos de discussão são controlados através de programas, cujos mais comuns são o Listserv, Majordomo e Listproc. Para acessar os newsgroups da Usenet precisamos de programas "newsreader". Geralmente os browsers oferecem programas newsreader. 4.2 Selecionando uma Ferramenta para sua Pesquisa É importante que você pense sobre a informação desejada antes de selecionar uma ferramenta de pesquisa. Para ajudar nesta tarefa, a tabela abaixo lista diferentes tipos de questões, necessidades de informação e preferências. Tipos de Questões Exemplos O tópico é geral Deseja ver uma coleção de sites selecionados por especialistas Deseja um número limitado de resultados com alta qualidade. Deseja resultados organizados em aglomerados de conceitos em lugar de uma longa lista de resultados. Deseja fazer uma pesquisa em profundidade que inclui a exploração de vários sub-tópicos. Deseja uma melhor compreensão do escopo de seu tópico. Não está familiarizado com o tópico. Tópico limitado no escopo Procura por um site específico/fato/indivíduo/evento, etc. Tópico consiste de mais do que um conceito Tópico é obscuro Procura por um domínio específico, tipo de arquivo, local geográfico, etc. Procura por termos de busca apropriados Os termos de busca são ambíguos Procura por uma informação que muda dinamicamente. O que usar Pesquisar sobre drogas Pesquisar discriminação sobre Pesquisar sobre discriminação por idade Pesquisar sobre direitos civis na Turquia Procurar pelo site da Sociedade Astronômica Brasileira Procurar por informação sobre Getúlio Vargas Que termos de busca deveria usar para investigar meu tópico? Quero aprender sobre pontes? Pesquisar o preço das ações da Microsoft na Diretórios de Assuntos, especialmente acadêmicos e profissionais. Algumas questões gerais podem ser ajudadas pelo grupo de opções abaixo. Mecanismos de busca de aglomerados de conceitos: Accumo, iBoogie, Infonetware, Query Server, Clusty Mecanismos de busca que oferecem pesquisas em documentos semelhantes na lista de resultados ou fornecem lista de tópicos alternativos: AltaVista, Google, Ixquick, Ask. Mecanismos de Ordenação por pares: Google, Ask Mecanismos de busca gerais Mecanismos de busca Meta: Fazzle, Ixquick Mecanismos de busca criando Tesauro: SurfWax Fontes da Deep Web: 8 Procura por uma informação muito recente. Procura por arquivos não-textuais tais como softwares, gráficos, multimídia, documentos no formato em PDF, etc. Procura por informações usualmente armazenadas em bases de dados tais como diretórios, livro de telefones, etc. bolsa Procurar notícias de ontem Ver uma foto do World Trade Center Lista de astrônomos no Rio de Janeiro Pesquisar as leis da Califórnia sobre crimes por computador Mecanismos de busca especializados: FindSounds.com, NewsLibrary Mecanismos de busca com buscas especializadas: AltaVista, IceRocket Mecanismos de busca gerais: buscas por palavras-chave podem revelar um site relevante com uma base de dados acessável Diretórios de assuntos: buscas por palavras-chave podem revelar um site relevante com uma base de dados acessável Coleções de bases de dados na Web: Turbo10 5. Escolha de Mecanismos de Busca Tipos de Arquivo e Campos Se você procura por ... Escolha ... Áudio e Musica Formato do arquivo Localização Geográfica Data da última modificação Domínio/Site/URL Imagens Linguagem Multimídia & Vídeo Título da Página/URL Linguagem de Programação/Extensão do arquivo AllTheWeb | AltaVista | Dogpile | Fazzle | FindSounds.com | Lycos Music Downloads | Lycos Multimedia Search | Singingfish AllTheWeb Advanced Search | AOL Advanced Search | MSN Search Advanced Search | Yahoo Advanced Web Search AllTheWeb Advanced | HotBot Advanced Search | MSN Search Advanced Search | Yahoo Advanced Web Search AllTheWeb Advanced Search | Altavista Advanced Web Search | Google Advanced Search | HotBot Advanced Search | Teoma Advanced Search | Yahoo Advanced Web Search AltaVista | AllTheWeb Advanced Search | AOL Advanced Search | Google Advanced Search | HotBot Advanced Search | Lycos Advanced Search | MSN Search Advanced Search | SearchEdu.com | Teoma Advanced Search | | Yahoo Advanced Web Search AllTheWeb | AltaVista | The Amazing Picture Machine | Ditto | Dogpile | Fazzle | Google Image Search | Ixquick | Mamma | MSN Search Advanced Search | Picsearch | Yahoo AllTheWeb | AltaVista More Precision | AOL Advanced Search | Google Language Tools | HotBot Advanced Search | iBoogie | Lycos Advanced Search | MSN Search Advanced Search | MSN Search beta | Teoma Advanced Search All TheWeb | AltaVista | Dogpile | Fazzle | IceRocket | Singingfish | Yahoo Video Search AOL Advanced Search | Fazzle | Google | Teoma Advanced Search | Yahoo Advanced Web Search HotBot Advanced Search | MSN Search Advanced Search Procura Lógica Se você quer usar ... Operadores Booleanos Lógica Booleana total com parênteses, p.ex., comportamento e (gatos ou felinos) Escolha ... AltaVista | AllTheWeb Advanced Search | Dogpile | Google [OR somente] | Ixquick AllTheWeb Advanced Search | AltaVista Advanced Web Search | Exalead | Ixquick | MSN Search 9 Booleano implícito +/- Lógica Booleana usando terminologia de pesquisa de forma Pesquisa de proximidade A maioria dos mecanismos oferece esta opção As opções mais avançadas oferecem isto: AllTheWeb Advanced Search | AltaVista Advanced Web Search AOL Advanced Search | Google Advanced Search | HotBot Advanced Search | Lycos Advanced Search | Metor | MonkeySweat | MSN Search Advanced Search | Teoma Advanced Search Exalead | Google [por default] | Ixquick Opções de Busca Se você quer ... Escolha ... Termos de busca alternativos SurfWax AlltheWeb Advanced Web Search | AltaVista Advanced Web Search | AOL Search Advanced Search | Google Advanced Search | IceRocket Advanced Search | Lycos Advanced Search | MSN Search Builder | Teoma Advanced Search | Yahoo Advanced Web Search Um formulário para o usuário preencher Pesquisa por documentos similares àquele nos resultados existentes Recupera resultados em pesquisas relacionadas Uma frase exata com citações Truncamento Páginas de tradução recuperadas como resultados de pesquisa ou qualquer texto ou página Web para linguagem selecionadas Múltiplas ferramentas de pesquisa buscadas simultaneamente com os registros duplicados removidos Google AltaVista | Ixquick | Lycos | Teoma A maioria dos mecanismos oferece esta opção AltaVista | Ixquick | MSN Search Advanced Search Babel Fish Chubba | Clusty | Copernic | Don Pedro | FastSeeks | Fazzle | Ithaki | Ixquick | Mamma | MetaCrawler | ProFusion | Query Server | SurfWax | more... Resultados de Pesquisa Se você quer ... Escolha ... Resultados baseados em número de links para páginas Web Resultados baseados nas seleções por outros buscadores ou ordenação por mecanismos/diretórios Resultados aglomerados por conceito e/ou tipo de site (uma lista horizontal de resultados em complemento a uma simples lista vertical) Resultados com imagens reduzidas dos sites obtidos Aglomeração de resultados dentro de uma citação por site com a opção de ver todos Resultados nos formato gráfico Buscas armazenadas no site e notificação de novos resultados Buscas armazenadas por um serviço de busca para repetidas pesquisas A9 | Alexa Web Search | AltaVista | Google | Google Web Directory | Teoma [Muitos mecanismos de busca usam esta tecnologia para ordenar os seus resultados] Alexa Web Search | AOL Search | Ixquick | Teoma | ZapMeta Accumo | All 4 One MetaSearch | Clusty | Don Busca | Exalead | iBoogie | Infonetware | metaEUREEKA | Kartoo | KillerInfo | Mooter | Teoma | Turbo10 | Ujiko | Vivisimo Don Busca | Exalead | IceRocket AllTheWeb | AltaVista Kartoo | Mooter | Ujiko Google Alert | Karnak | TracerLock Copernic Buscas Especializadas Se você quer buscar... A Deep Web Blogs Escolha... Complete Planet | Google | Search.Com | Turbo10 [Muitos mecanismos de busca de sites oferecem pesquisas na Deep Web. Veja Ixquick e InfoGrid] Blogdex | Blogdigger | Bloglines | BlogPulse | Bloogz | Clusty | Daypop | Feedster | Globe of Blogs | Google Blog Search | IceRocket | Popdex | Technorati 10 Arquivos em sites FTP (texto, multimídia, software, etc.) Páginas salvadas localmente Notícias (múltiplas fontes buscadas simultaneamente) Usenet newsgroup - mensagens Análise do Site Diretórios mantidos profissionalmente Diretórios mantidos por voluntários Artigos ou livros publicados FileIndexer.com | FileWatcher.org | Ftpsearchengines.com | Oth Net Furl | Spurl.net AlltheWeb: News | AltaVista - News | FindNews.org | Google News Alerts | InfoGrid | NewsNow | NewsTrove.com | Pandia Newsfinder | RocketNews | Topix.net | The WorldNews Network Ithaki | Google Groups GoLexa About | Academic Info | BUBL LINK | INFOMINE | Librarians' Index to the Internet | Resource Discovery Network | Scout Report Archives | Virtual Learning Resources Center | WWW Virtual Library | more... JoeAnt | Open Directory Project (DMOZ) Scholar 6. Usos da Web para a Astronomia Basicamente pode-se usar a Web para encontrar informações em três grandes áreas: a) Educação/Ensino; b) Ciência/Pesquisa; c) Divulgação/Extensão. Na área de Educação pode-se obter informações sobre cursos de graduação e pós-graduação em Astronomia presenciais ou mesmo fazer tais cursos à distância. Exemplos de cursos nas áreas de Astronomia e Astrofísica que podem ser feitos à distância são mostrados nos endereços: http://programs.gradschools.com/distance/astronomy_astrophysics.html e http://www.universities.com/On-Campus/Bachelor_degree_Physical_Sciences_Astronomy.html. Existe uma infinidade de cursos livres (http://astro.if.ufrgs.br/) ou de extensão que estão disponibilizados através da Web. Os professores podem ter acesso a varias experiências didáticas cuja execução pode ser feita através da Web ou não. Coletâneas de oficinas de astronomia para diversos níveis de escolaridade (p.ex.: http://btc.montana.edu/ceres/), desde o jardim de infância até o nível universitário, estão disponíveis, além de animações e applets que ajudam a explicar certos conceitos astronômicos (http://www.astro.ubc.ca/~scharein/a311/Sim.html). Recentemente, a tecnologia tornou simples o controle de telescópios à distância, permitindo que alunos possam obter imagens de objetos astronômicos a milhares quilômetros de distância de onde se encontra o telescópio. Estes telescópios remotamente comandados estão disponíveis para experimentos com estudantes desde o nível fundamental (p.ex.: http://www.handsonuniverse.org). Além disso, existem inúmeros programas educacionais com licenças “freeware” ou “shareware” que podem ser baixados através de uma simples operação de ftp. Estes programas são de jogos educacionais (p.ex. http://quest.arc.nasa.gov/), simulações de fenômenos (p.ex. http://www.gettysburg.edu/academics/physics/clea/ CLEAsoft_overview.html) e realização de cálculos astronômicos (p.ex. http://www.edu-observatory.org/eo/algorithms.html). Para auxiliar na Pesquisa, os astrônomos podem consultar bases de dados observacionais sobre objetos específicos (p.ex. http://adc.gsfc.nasa.gov/), bases contendo textos completos de artigos científicos na área de astronomia (p.ex. http://adsabs.harvard.edu/), ter acesso a programas computacionais científicos de amplo uso na comunidade astronômica (p.ex. http://iraf.noao.edu/) e, mesmo, realizar observações à distância comandando telescópios de grande porte, localizados em observatórios profissionais, que estão milhares de quilômetros de distância (p.ex. http://phobos.physics.uiowa.edu/) Finalmente, uma área não menos importante é a divulgação das informações científicas para estudantes, professores e público em geral. Várias revistas de divulgação de astronomia têm versões eletrônicas de suas edições em papel (p.ex. http://skyandtelescope.com/Default.asp), além de seções com a divulgação de notícias sobre pesquisas, eventos e observações astronômicas. Existem verdadeiras agências de notícias especializadas na divulgação de informações astronômicas (p.ex. http://www.sciencedaily.com/news/space_time.htm). Para esclarecer a curiosidade sobre objetos e fenômenos da Astronomia existem inúmeros sites com informação de qualidade, disponibilizados por organizações e institutos especializados (p.ex. http://www.noveplanetas.hpg.ig.com.br/ nineplanets.html, http://hubblesite.org/). Para perguntas mais específicas, alguns observatórios e institutos põem a disposição um serviço de utilidade pública em que os astrônomos e especialistas respondem à dúvidas (p.ex. http://www.on.br/pergunte_astro/). 11 7. Bibliografia University Libraries, University http://library.albany.edu/internet at Albany (2004), “Internet Tutorials”, disponível em 12