A Busca da Informação na Web

Propaganda
Atividade - A Busca de Informação na Web
Prof. José Adolfo de Campos
Baseado em textos da University Libraries, University at Albany - http://library.albany.edu/internet
1. Introdução
Um dos grandes problemas para a preparação de aulas e a realização de pesquisas é a
busca e identificação de informações relevantes e confiáveis nos assuntos a serem abordados. Este
problema não é novo e já era percebido antes do advento da Web, que introduziu alguns novos
elementos na questão.
De modo geral, os principais aspectos na busca e identificação de informações são a
credibilidade da fonte de informação e as características da informação desejada, que podem ser
explicitadas através da relevância dentro do tema, da exatidão dos dados, da atualização e do nível de
profundidade e abrangência (figura 1).
Figura 1 - Busca de Informações
Em tempos não muito distantes, a pesquisa das informações necessárias era feita através da
leitura de livros e periódicos em bibliotecas, especializadas ou não. Esta etapa era sempre trabalhosa
e algumas vezes tediosa.
Dado o estado precário da maioria das bibliotecas brasileiras,
freqüentemente livros e periódicos citados em publicações não eram encontrados, deixando lacunas
dificilmente preenchidas. Por vezes, à parte de pesquisa bibliográfica se alongava durante meses,
dependente da obtenção de cópias de artigos em bibliotecas no exterior ou mesmo aguardando a
importação de livros.
Com o advento da Web, a busca e identificação de referências bibliográficas passaram a ser
muito mais ágeis, permitindo a obtenção das mesmas em questão de dias ou mesmo horas.
Certamente esta agilidade não é uma regra geral e, em algumas áreas científicas ou assuntos ela é
bem mais lerda. Entretanto, se por um lado a Web trouxe agilidade na obtenção de artigos e
encomendas de livros, por outro também trouxe o problema da informação em excesso, da
informação sem credibilidade e da informação inútil e sem precisão (especialmente importante em
áreas científicas e educacionais).
Um livro ou artigo publicado em periódico reconhecido significa que os textos passaram por
uma revisão feita por especialistas no assunto e, portanto, assume-se que as informações ai contidas
têm credibilidade (existem algumas exceções). A Web, sendo um meio sem censura prévia e que
apresenta enorme facilidade para a publicação de materiais por qualquer pessoa com um mínimo de
conhecimento em informática, traz consigo o problema da credibilidade das informações
apresentadas em "homepages". Além disso, dada à facilidade de publicação, existe muita duplicação
1
de informações, sem o cuidado com a coerência e com a autenticidade do texto original, causando um
excesso de informações errôneas e inúteis, que poluem o ambiente e dificultam a garimpagem das
informações verdadeiramente relevantes.
Neste texto, pretende-se chamar a atenção para os aspectos mais relevantes da busca e
identificação de informações especialmente na Web, e apresentar um roteiro (figura 2) dos cuidados
que devem ter os futuros pesquisadores e professores nas suas pesquisas usando a Internet. Além
disso, serão apresentadas algumas informações básicas sobre a Internet, a Web e serão discutidos
os processos de realização de pesquisas na Web, envolvendo mecanismos de buscas de 1 a e 2a
gerações e buscas especiais na "Deep Web".
Figura 2 - Roteiro para Busca de Informações
2. A Internet e seus Componentes
A Internet (net para os iniciados) é uma rede constituída de milhares de redes de
computadores que se comunicam usando o conjunto de protocolos TCP/IP (Transmission Control
Protocol / Internet Protocol). Os protocolos são conjuntos de regras que permitem a comunicação
entre máquinas na Internet. Ninguém controla a Internet. Atualmente estima-se que existam cerca de
500 milhões de computadores conectados a Internet. Os nós desta rede são controlados por
empresas particulares.
A internet é um veículo de transporte da informação armazenada em arquivos e documentos
em um computador. Ela não contém a informação, apenas transporta de um computador para outro,
como se fosse um ônibus transportando passageiros. Os computadores na Internet usam a
arquitetura Cliente/Servidor. A máquina Servidora fornece arquivos e serviços à máquina local do
Cliente (usuário). O usuário da Internet tem acesso a uma variedade de serviços, geralmente
identificados por diferentes protocolos de acesso aos computadores, tais como:
2.1 E-MAIL (Electronic mail)
2
Este serviço permite a troca de mensagens entre os usuários locais e outros situados em
todas as partes do mundo. Cada usuário tem uma caixa de correspondência para a qual as
mensagens são dirigidas. As mensagens trocadas através da Internet podem chegar ao destinatário
em questão de segundos.
Arquivos eletrônicos podem ser enviados para o endereço de
correspondência de uma pessoa.
Os arquivos não-ASCII (conhecidos como arquivos binários), que podem ser anexados ao email, são chamados de anexos MIME (Multimedia Internet Mail Extension).
Os boletins eletrônicos são e-mails unidirecionais, geralmente contendo notícias sobre tópicos
específicos, enviados do servidor para a caixa de correspondência dos subscritores do boletim.
Listas de Discussão são formadas quando uma comunidade de indivíduos participa de
discussões sobre tópicos específicos usando o e-mail. Quando as Listas de Discussão sobre um
assunto são administrados por programas de software, elas são chamadas de Grupos de Discussão.
O mais comum dos programas de administração chama-se Listserv, mas o Majordomo e o Listproc
também são comumente usados. Quando o usuário se inscreve num grupo de discussão, as
mensagens dos outros subscritores são enviadas automaticamente para a sua caixa postal.
Os principais programas usados para e-mail são o Eudora, o Netscape Messenger e o
Microsoft Outlook Express.
2.2 TELNET ou Conexão Remota
Este serviço permite o seu computador se conectar com outros computadores na Internet,
usando-os como se estivesse lá, para acessar bases de dados, catálogos de bibliotecas, serviços de
"chat", rodar programas e muito mais. O Telnet só permite textos. Para usar o Telnet é preciso
conhecer o endereço do computador servidor na Internet. O endereço pode ser constituído por
palavras (locis.loc.gov) ou números (140.147.254.3). Alguns serviços requerem que o usuário se
conecte a uma porta específica do computador remoto (telnet nri.reston.va.us 185).
2.3 FTP (File Transfer Protocol)
Este serviço permite transferir rapidamente arquivos entre computadores. A opção FTP
Anonymous permite aos usuários transferir arquivos de milhares de computadores na Internet para o
seu computador pessoal. Existem muitos programas para facilitar o FTP (WS_FTP for Windows é um
dos mais usados). Também se pode conseguir arquivos ftp através de mecanismos de buscas tais
como o FtpFind (http://www.ftpfind.com/).
2.4 USENET
É um sistema de boletim eletrônico em que milhões de usuários trocam informação sobre
uma vasta gama de assuntos. Na USENET as mensagens são armazenadas em computadores
centrais e os usuários devem se conectar a estes computadores para ler ou “baixar” as mensagens
colocadas pelos participantes deste grupo.
Os fóruns de discussão USENET são chamados de Newsgroups, sendo controlados por
administradores que podem censurar as mensagens, desligando pessoas que não se enquadram
dentro dos padrões exigidos. Os Newsreaders são programas específicos para ler as mensagens.
2.5 CHAT e Mensagens Instantâneas
Os programas de CHAT permitem aos usuários da Internet se comunicarem em tempo real
através da digitação de textos no computador. Algumas vezes eles são incluídos como um serviço de
um "Web site", onde os usuários podem se conectar em "salas de chat" para trocar comentários e
informações.
O IRC (Internet Relay Chat) é um serviço que permite aos participantes se comunicarem entre
si através de milhares de canais. Estes canais são usualmente baseados em tópicos específicos.
Para acessar o IRC os usuários deve usar um programa de software IRC, geralmente o MIRC.
As Mensagens Instantâneas são uma variação do Chat, na qual o usuário na Web pode
contatar um outro usuário que está ativo e iniciar uma conversação através da digitação de textos. Os
programas mais famosos deste tipo são o ICQ, o MSN e o AIM.
3
2.6 WWW (World Wide Web ou Web)
A Web é um sistema de servidores da Internet que suporta Hipertextos para acessar
diversos protocolos, usando uma única interface. Hipertexto é um documento contendo palavras que
conectam a outros documentos. Quase todos os protocolos disponíveis na internet são acessáveis
através da Web: e-mail, FTP, Telnet, Usenet e o HTTP (HyperText Transfer Protocol).
A produção de hipertextos para Web é feita através da criação de documentos com uma
linguagem chamada de HTML (HyperText Markup Language). Além de textos e figuras, gráficos e
multimídia podem ser incorporados dentro de um documento HTML.
A Web consiste de arquivos, chamados de páginas ou "homepages", contendo "links" para
documentos e recursos através da internet.
3. O Mundo da Web e os Protocolos disponíveis
A World Wide Web foi desenvolvida em 1989 por Tim Berners-Lee do CERN (European
Particle Physics Lab). O propósito inicial foi usar o hipertexto para facilitar a comunicação entre os
membros do CERN. Além do hipertexto, a Web começou a incorporar gráficos, vídeos e sons.
Quase todos os protocolos disponíveis na Internet podem ser usados na Web:
a) E-mail (Simple Mail Transport Protocol ou SMTP)
Distribui mensagens eletrônicas e arquivos para uma ou mais caixas de correspondência eletrônicas.
b) Telnet (Telnet Protocol)
Facilita a conexão com um computador para a execução de comandos.
c) FTP (File Transfer Protocol)
Transfere arquivos texto ou binários entre o servidor FTP e o cliente.
d) Usenet (Network News Transfer Protocol ou NNTP)
Distribui textos Usenet derivados de discussões de tópicos nos newsgroups.
e) HTTP (HyperText Transfer Protocol)
Transmite hipertextos através de redes de computadores. Este é o protocolo usado na Web.
Ainda existem outros protocolos disponíveis na Web, como o VoIP (Voice over Internet
Protocol), que permite aos usuários fazerem chamadas telefônicas usando a Web. A Web
proporciona uma interface simples para acessar todos esses protocolos.
3.1 Hipertexto
Um documento Hipertexto pode conter palavras ou gráficos que sirvam de links para outros
documentos, imagens, vídeos e sons. A produção de um Hipertexto na Web é feita criando-se
documentos com uma linguagem chamada de HyperText Markup Language (HTML). A linguagem
HTML está em constante evolução para incorporar novas facilidades.
3.2 Páginas da Web
A Web constitui-se de arquivos chamados de páginas ou “homepages”, contendo links para
documentos e recursos através da Internet. As páginas HTML têm nomes geralmente com extensão
htm ou html. O acesso às páginas Web pode ser feito por:
1. Entrando num endereço internet e vendo a página diretamente;
2. Passear através das páginas e selecionar links para se mover de uma página a outra;
3. Procurar através de diretórios de assuntos ligados a coleções organizadas de páginas Web;
4. Entrar com uma frase ou palavra num mecanismo de busca para obter sobre o tópico escolhido.
3.3 Recuperando documentos na Web: Endereços na Internet
O URL (Uniform Resource Locator) especifica um endereço internet de um arquivo
armazenado num computador hospedeiro conectado à Internet.
Cada arquivo na internet,
4
independentemente do protocolo de acesso, tem um único URL. Os programas de software usam
este endereço para visualizar este arquivo que está num diretório do computador hospedeiro. Os
URLs são endereços numéricos, chamados de endereço IP (Internet Protocol), tais como os números
telefônicos. Para facilitar a memorização usamos endereços alfanuméricos que são convertidos nos
endereços numéricos reais usando-se o DNS (Internet Domain Name System).
O formato padrão do URL é protocolo://hospedeiro/diretório/nome do arquivo.
Tomemos como exemplo o endereço http://www.ufrj.br/ov/index.html
A estrutura deste endereço é:
Protocolo: http
Nome do computador hospedeiro: www.ufrj
Nome do domínio: br
Nome do diretório: ov
Nome do arquivo: index.html
Os nomes de domínio mais comuns nos Estados Unidos são:
com
Empreendimento comercial
edu
Instituição educacional
gov
Instituição governamental
mil
Instituição militar
net
Provedor de acesso à rede
org
Organizações sem fins lucrativos
Para países que não os Estados Unidos, acrescenta-se o código de duas letras para designar
os países (ISO 3166). Por exemplo, .br para o Brasil, .uk para o Reino Unido, .pt para Portugal, etc.
Assim, um endereço de domínio de uma instituição do governo brasileiro teria o nome de domínio
gov.br.
Em novembro de 2000, a ICANN (Internet Corporation for Assigned Names and Numbers)
aprovou novos nomes de domínio. À proporção que a Web evolui, as URLs se tornam cada vez mais
complexas, especialmente quando é o caso de recuperar informações de bases de dados.
3.4 Como Acessar a World Wide Web: Os Browsers
Os programas de software usados na Web para acessar e visualizar as páginas Web são
chamados de Browsers (Navegadores). Existem dois tipos de browsers: os gráficos, cujos principais
são o Microsoft Internet Explorer, o Netscape Communicator, o Opera e o Firefox; e browser para
textos cujo único é o Lynx.
Programas de software podem ser configurados para rodar no browser de modo a ampliar as
suas capacidades. Quando o browser encontra um arquivo de som, imagem ou vídeo, ele encaminha
os dados para outros programas, chamados de plug-ins, para rodar ou mostrar o arquivo. Os
browsers normalmente vêm com um pequeno conjunto de plug-ins para tratar conteúdo multimídia.
Plug-ins adicionais podem ser conseguidos em diversos sites especializados.
A Microsoft desenvolveu uma tecnologia que torna os plug-ins menos necessários - ActiveX.
O ActiveX permite incorporar objetos animados, dados e código de computador nas páginas Web.
Por exemplo, o ActiveX permite ver mundos tri-dimensionais VRML sem o uso do plug-in VRML.
Hoje a Web permite uma experiência diversificada de multimídia, de linguagens de
programação e de comunicação em tempo real. A Web se tornou um meio de transmissão onde é
possível ouvir áudio e vídeo tanto pré-registrado quanto ao vivo. Para contornar a necessidade de se
baixar todo o conteúdo de uma apresentação para ouvi-la ou visualizá-la, apareceu o tipo
"streaming". No "streaming" os arquivos de áudio e vídeo estão sendo executados à proporção que
são baixados da Web. Os plug-ins Windows Media Player, RealPlayer e QuickTime executam
arquivos de áudio e vídeo "streaming". Os plug-ins Shockwave e Flash também permitem a
5
implementação de visualização multimídia combinando gráficos, animação e som. Outro aspecto da
multimídia são as câmeras de vídeo (chamadas de Live Cam) que enviam seus dados em tempo real
para o servidor.
O uso de linguagens de programação tem expandido as capacidades da Web. Um programa
em CGI (Common Gateway Interface) é desenhado para aceitar e retornar dados que atendem a
especificação CGI. Um uso comum para um "script" CGI é para processar um formulário eletrônico
numa página Web.
O ASP (Active Server Page), desenvolvido pela Microsoft, é um ambiente de programação
que processa "scripts" num servidor Web, em vez de no browser, para gerar páginas HTML que serão
enviadas ao browser.
O Java é uma linguagem de programação, desenvolvida pela Sun Microsystems, que cria
programas executáveis independente da plataforma, isto é, rodam igualmente em PC, Macintosh,
Unix, etc. Os Java Applets são pequenos programas, chamados a partir de uma página HTML, que
podem ser baixados de um servidor Web e rodar em um browser compatível com Java.
O JavaScript é uma linguagem de programação criada pela Netscape Communications, onde
pequenos programas escritos nesta linguagem podem estar incorporados dentro de uma página
HTML ou chamados externamente para ampliar as capacidades de uma página. Entre os exemplos
de aplicação podemos citar calendários e relógios em tempo real, menus "drop-down" e interações
com o mouse. O JScript é uma linguagem semelhante desenvolvida pela Microsoft.
O VRML (Virtual Reality Modeling Language) permite a criação de mundos tridimensionais,
que podem ser anexados a páginas Web e mostrados com um visualizador VRML. Um dos aspectos
mais interessantes é a opção de entrar no mundo e controlar seus movimentos dentro do mundo.
O XML (Extensible Markup Language) é uma linguagem de estrutura de dados e troca, que
permitem aos desenvolvedores separar forma do conteúdo.
A Web também oferece a oportunidade das pessoas conversarem e colaborarem em tempo
real. Os instrumentos para uma colaboração em tempo real incluem áudio (conversação telefônica
via Web), vídeo (visão da sua platéia), transferência de arquivos (enviar e receber de volta arquivos
entre participantes), chat (textos em tempo real), quadro branco (desenhar e salvar imagens numa
tela compartilhada), compartilhamento de documentos e aplicativos (ver e usar programas numa
outra máquina), visitar a Web colaborativamente (isto é, ver páginas Web juntos). Exemplos de
programas para colaboração são o NetMeeting da Microsoft e o Netscape Conference.
4. Realizando Pesquisas na Internet
A internet não é um catálogo de uma biblioteca em que todos os itens disponíveis estão
identificados e podem ser recuperados através de um simples catálogo. Ninguém conhece o número
de arquivos individuais existentes na internet, mas estima-se que passam de 10 bilhões, número que
cresce continuamente.
A internet é um meio de autopublicação, o que significa que qualquer pessoa, com um mínimo
de conhecimentos, é capaz de publicar textos. Assim, é necessário muito cuidado com as
informações obtidas, porque existe informação altamente qualificada, mas existem também
informações erradas e sem nenhum valor científico.
Os endereços na internet mudam freqüentemente e os "websites" podem desaparecer sem
aviso. Uma das maneiras mais eficientes de realizar pesquisas na internet é usar a Web, porque ela
inclui a maioria dos protocolos da internet.
4.1 Como encontrar Informação na Internet
Existem várias maneiras para acessar a informação na internet:

Ir diretamente ao Site se você tem o Endereço
Se você conhece o endereço de internet do site que quer visitar, use o browser para acessá-lo e,
eventualmente explorar os links sugeridos pelo site para ampliar a informação. Por exemplo, a
"homepage" do Observatório Nacional é http://www.on.br .

Explorar um Diretório de Assuntos
6
Quando quer ver sites muitas vezes recomendados por especialistas ou para responder a
questões mais gerais de exploração de um tópico, use um diretório de assuntos. Um diretório
de assuntos é um serviço que oferece uma coleção de links de recursos da internet submetido
pelos criadores/avaliadores do site e organizado em categorias de assuntos. Existem dois tipos
básicos de diretórios: diretórios acadêmicos e profissionais. Use o diretório apropriado às suas
necessidades. Por exemplo, um diretório de assuntos de Astronomia é a Biblioteca Virtual de
Astronomia ( http://www.prossiga.br/astronomia). Outro exemplo de diretório acadêmico é o
INFOMINE (http://infomine.ucr.edu). Podemos citar o Yahoo ( http://www.yahoo.com) como portal
comercial.
Os diretórios de assuntos diferem muito na seletividade, indo desde os comerciais tipo Yahoo, que
não avalia cuidadosamente o conteúdo submetido, até os tipo INFOMINE (da Universidade da
Califórnia) que selecionam somente fontes consideradas de interesse para a comunidade
acadêmica e de pesquisa.

Fazer uma pesquisa usando um Mecanismo de Buscas da Web
O mecanismo de buscas na Internet permite ao usuário entrar com palavras-chave relacionadas
a um tópico e recuperar informação sobre sites da internet que contém aquelas palavras-chave.
Existem mecanismos de buscas disponíveis para diversos protocolos da internet. Muitos
mecanismos de buscas compilam uma base de dados abrangendo múltiplos protocolos, incluindo
HTTP, FTP e Usenet. Eles também podem buscar arquivos de multimídia na "Deep Web", que
são acessáveis em pesquisas separadas.
Um mecanismo de buscas da Web é constituído por três componentes:

Spider (Aranha): Programa que atravessa a Web de link em link, identificando e lendo
páginas.

Index (Índice): Uma base de dados contendo uma cópia de cada página Web visitada pelo
programa Spider.

Search engine mechanism (Motor de busca): Programa que permite aos usuários questionar
a base de dados e que normalmente retorna resultados em ordem de relevância.
Lembre-se que a ação do programa Spider é indiscriminada, onde os dados coletados podem
estar desatualizados, imprecisos ou incompletos.
A ordenação dos sites apresentada ao usuário depende do mecanismo de buscas. Os
mecanismos de 1a geração usavam a ordenação por termo. Uma evolução é a ordenação
segundo conceitos, palavras-chave, site, links e popularidade.
Não se impressione por um número excessivamente elevado de sites obtidos em resposta a uma
pesquisa bem formulada. Muitas vezes um grande número de páginas de um mesmo site são
apresentadas. Alguns mecanismos como o AltaVista e o AlltheWeb evitam este problema através
de uma técnica chamada de agrupamento de resultados (results grouping), onde todos os
resultados de um site são apresentados juntos.
Se você obtiver um pequeno número de sites como resultado da sua busca, adote uma ou mais
das seguintes estratégias: a) retire os conceitos menos importantes da busca; b) use um
vocabulário mais geral; c) use mecanismos de busca tipo Meta, que pesquisam simultaneamente
em vários mecanismos de busca.
ATENÇÃO: Existe vida além do Google.

Explorar a informação armazenada em bases de dados na Web, conhecida como "Deep Web"
O conceito de "Deep Web" (Web Profunda ou Invisível) é relativamente recente e refere-se ao
conteúdo que está armazenado em bases de dados acessáveis pela Web, mas não disponíveis
via mecanismo de buscas, isto é, seu conteúdo é invisível aos mecanismos de buscas.
Normalmente numerosas informações são armazenadas em bases de dados, tais como notícias,
listas de empregos, vôos comerciais, informações científicas sobre objetos e fenômenos, etc.
Este conteúdo é acessável somente através de perguntas (query) feitas no site que gerencia a
base de dados. Outros conteúdos não vistos pelos programas Spider são os arquivos não
textuais, tipo arquivos de multimídia, arquivos gráficos e documentos em formatos não
padronizados (Pdf, Word). O Google é uma exceção porque ele indexa imagens e arquivos em
PDF, Word.
7
A melhor maneira de acessar informação na Web Invisível é procurar nas próprias bases de
dados. Abaixo se encontram listados alguns sites que coletam conteúdo da Deep Web:


Deep Web Research (http://www.deepwebresearch.info/)

CompletePlanet (http://aip.completeplanet.com/)
Juntar-se a um Grupo de Discussão (e-mail) ou a Usenet (newsgroup)
Existem milhares de grupos de discussão e newsgroups sobre uma variedade enorme de tópicos.
Nestes grupos pode-se fazer perguntas a especialistas e/ou ler as respostas às perguntas que
outros fizeram. Estes grupos fornecem uma boa maneira de se manter atualizado com o que está
sendo discutido na internet sobre a área de seu assunto. Os grupos de discussão algumas vezes
estão associados com instituições acadêmicas.
Os grupos de discussão são controlados através de programas, cujos mais comuns são o
Listserv, Majordomo e Listproc. Para acessar os newsgroups da Usenet precisamos de
programas "newsreader". Geralmente os browsers oferecem programas newsreader.
4.2 Selecionando uma Ferramenta para sua Pesquisa
É importante que você pense sobre a informação desejada antes de selecionar uma
ferramenta de pesquisa. Para ajudar nesta tarefa, a tabela abaixo lista diferentes tipos de questões,
necessidades de informação e preferências.
Tipos de Questões















Exemplos
O tópico é geral
Deseja ver uma coleção de sites
selecionados por especialistas
Deseja um número limitado de
resultados com alta qualidade.

Deseja resultados organizados em
aglomerados de conceitos em
lugar de uma longa lista de
resultados.
Deseja fazer uma pesquisa em
profundidade
que
inclui
a
exploração de vários sub-tópicos.
Deseja uma melhor compreensão
do escopo de seu tópico.
Não está familiarizado com o
tópico.

Tópico limitado no escopo
Procura por um site
específico/fato/indivíduo/evento,
etc.
Tópico consiste de mais do que um
conceito
Tópico é obscuro
Procura por um domínio específico,
tipo de arquivo, local geográfico,
etc.

Procura por termos de busca
apropriados
Os termos de busca são ambíguos

Procura por uma informação que
muda dinamicamente.

O que usar
Pesquisar sobre drogas


Pesquisar
discriminação
sobre






Pesquisar sobre
discriminação por idade
Pesquisar sobre direitos
civis na Turquia
Procurar pelo site da
Sociedade Astronômica
Brasileira
Procurar por informação
sobre Getúlio Vargas

Que termos de busca
deveria usar para
investigar meu tópico?
Quero aprender sobre
pontes?

Pesquisar o preço das
ações da Microsoft na


Diretórios
de
Assuntos,
especialmente
acadêmicos
e
profissionais.
Algumas questões gerais podem
ser ajudadas pelo grupo de opções
abaixo.
Mecanismos
de
busca
de
aglomerados
de
conceitos:
Accumo, iBoogie, Infonetware,
Query Server, Clusty
Mecanismos
de
busca
que
oferecem
pesquisas
em
documentos semelhantes na lista
de resultados ou fornecem lista de
tópicos
alternativos:
AltaVista,
Google, Ixquick, Ask.
Mecanismos de Ordenação por
pares: Google, Ask
Mecanismos de busca gerais
Mecanismos de busca Meta:
Fazzle, Ixquick
Mecanismos de busca criando
Tesauro: SurfWax
Fontes da Deep Web:
8



Procura por uma informação muito
recente.
Procura por arquivos não-textuais
tais como softwares, gráficos,
multimídia, documentos no formato
em PDF, etc.
Procura por informações
usualmente armazenadas em
bases de dados tais como
diretórios, livro de telefones, etc.




bolsa
Procurar notícias de
ontem
Ver uma foto do World
Trade Center
Lista de astrônomos no
Rio de Janeiro
Pesquisar as leis da
Califórnia sobre crimes
por computador





Mecanismos de busca
especializados: FindSounds.com,
NewsLibrary
Mecanismos de busca com buscas
especializadas: AltaVista,
IceRocket
Mecanismos de busca gerais:
buscas por palavras-chave podem
revelar um site relevante com uma
base de dados acessável
Diretórios de assuntos: buscas por
palavras-chave podem revelar um
site relevante com uma base de
dados acessável
Coleções de bases de dados na
Web: Turbo10
5. Escolha de Mecanismos de Busca
Tipos de Arquivo e Campos
Se você procura por ...
Escolha ...
Áudio e Musica
Formato do arquivo
Localização Geográfica
Data da última modificação
Domínio/Site/URL
Imagens
Linguagem
Multimídia & Vídeo
Título da Página/URL
Linguagem de Programação/Extensão do arquivo
AllTheWeb | AltaVista | Dogpile | Fazzle | FindSounds.com
| Lycos Music Downloads | Lycos Multimedia Search |
Singingfish
AllTheWeb Advanced Search | AOL Advanced Search |
MSN Search Advanced Search | Yahoo Advanced Web
Search
AllTheWeb Advanced | HotBot Advanced Search | MSN
Search Advanced Search | Yahoo Advanced Web Search
AllTheWeb Advanced Search | Altavista Advanced Web
Search | Google Advanced Search | HotBot Advanced
Search | Teoma Advanced Search | Yahoo Advanced Web
Search
AltaVista | AllTheWeb Advanced Search | AOL Advanced
Search | Google Advanced Search | HotBot Advanced
Search | Lycos Advanced Search | MSN Search Advanced
Search | SearchEdu.com | Teoma Advanced Search | |
Yahoo Advanced Web Search
AllTheWeb | AltaVista | The Amazing Picture Machine |
Ditto | Dogpile | Fazzle | Google Image Search | Ixquick |
Mamma | MSN Search Advanced Search | Picsearch | Yahoo
AllTheWeb | AltaVista More Precision | AOL Advanced
Search | Google Language Tools | HotBot Advanced
Search | iBoogie | Lycos Advanced Search | MSN Search
Advanced Search | MSN Search beta | Teoma Advanced
Search
All TheWeb | AltaVista | Dogpile | Fazzle | IceRocket |
Singingfish | Yahoo Video Search
AOL Advanced Search | Fazzle | Google | Teoma Advanced Search | Yahoo Advanced Web Search
HotBot Advanced Search | MSN Search Advanced Search
Procura Lógica
Se você quer usar ...
Operadores Booleanos
Lógica Booleana total com parênteses, p.ex.,
comportamento e (gatos ou felinos)
Escolha ...
AltaVista | AllTheWeb Advanced Search | Dogpile |
Google [OR somente] | Ixquick
AllTheWeb Advanced Search | AltaVista Advanced Web
Search | Exalead | Ixquick | MSN Search
9
Booleano implícito +/-
Lógica Booleana usando terminologia de pesquisa
de forma
Pesquisa de proximidade
A maioria dos mecanismos oferece esta opção
As opções mais avançadas oferecem isto:
AllTheWeb Advanced Search | AltaVista Advanced Web
Search AOL Advanced Search | Google Advanced Search
| HotBot Advanced Search | Lycos Advanced Search | Metor | MonkeySweat | MSN Search Advanced Search | Teoma Advanced Search
Exalead | Google [por default] | Ixquick
Opções de Busca
Se você quer ...
Escolha ...
Termos de busca alternativos
SurfWax
AlltheWeb Advanced Web Search | AltaVista Advanced
Web Search | AOL Search Advanced Search | Google Advanced Search | IceRocket Advanced Search | Lycos Advanced Search | MSN Search Builder | Teoma Advanced
Search | Yahoo Advanced Web Search
Um formulário para o usuário preencher
Pesquisa por documentos similares àquele nos
resultados existentes
Recupera resultados em pesquisas relacionadas
Uma frase exata com citações
Truncamento
Páginas de tradução recuperadas como resultados
de pesquisa ou qualquer texto ou página Web para
linguagem selecionadas
Múltiplas ferramentas de pesquisa buscadas
simultaneamente com os registros duplicados
removidos
Google
AltaVista | Ixquick | Lycos | Teoma
A maioria dos mecanismos oferece esta opção
AltaVista | Ixquick | MSN Search Advanced Search
Babel Fish
Chubba | Clusty | Copernic | Don Pedro | FastSeeks |
Fazzle | Ithaki | Ixquick | Mamma | MetaCrawler |
ProFusion | Query Server | SurfWax | more...
Resultados de Pesquisa
Se você quer ...
Escolha ...
Resultados baseados em número de links para
páginas Web
Resultados baseados nas seleções por outros
buscadores ou ordenação por
mecanismos/diretórios
Resultados aglomerados por conceito e/ou tipo de
site (uma lista horizontal de resultados em
complemento a uma simples lista vertical)
Resultados com imagens reduzidas dos sites
obtidos
Aglomeração de resultados dentro de uma citação
por site com a opção de ver todos
Resultados nos formato gráfico
Buscas armazenadas no site e notificação de
novos resultados
Buscas armazenadas por um serviço de busca
para repetidas pesquisas
A9 | Alexa Web Search | AltaVista | Google | Google Web
Directory | Teoma
[Muitos mecanismos de busca usam esta tecnologia para
ordenar os seus resultados]
Alexa Web Search | AOL Search | Ixquick | Teoma |
ZapMeta
Accumo | All 4 One MetaSearch | Clusty | Don Busca |
Exalead | iBoogie | Infonetware | metaEUREEKA | Kartoo |
KillerInfo | Mooter | Teoma | Turbo10 | Ujiko | Vivisimo
Don Busca | Exalead | IceRocket
AllTheWeb | AltaVista
Kartoo | Mooter | Ujiko
Google Alert | Karnak | TracerLock
Copernic
Buscas Especializadas
Se você quer buscar...
A Deep Web
Blogs
Escolha...
Complete Planet | Google | Search.Com | Turbo10
[Muitos mecanismos de busca de sites oferecem
pesquisas na Deep Web. Veja Ixquick e InfoGrid]
Blogdex | Blogdigger | Bloglines | BlogPulse | Bloogz |
Clusty | Daypop | Feedster | Globe of Blogs | Google Blog
Search | IceRocket | Popdex | Technorati
10
Arquivos em sites FTP (texto, multimídia, software,
etc.)
Páginas salvadas localmente
Notícias (múltiplas fontes buscadas
simultaneamente)
Usenet newsgroup - mensagens
Análise do Site
Diretórios mantidos profissionalmente
Diretórios mantidos por voluntários
Artigos ou livros publicados
FileIndexer.com | FileWatcher.org | Ftpsearchengines.com
| Oth Net
Furl | Spurl.net
AlltheWeb: News | AltaVista - News | FindNews.org |
Google News Alerts | InfoGrid | NewsNow |
NewsTrove.com | Pandia Newsfinder | RocketNews |
Topix.net | The WorldNews Network
Ithaki | Google Groups
GoLexa
About | Academic Info | BUBL LINK | INFOMINE | Librarians' Index to the Internet | Resource Discovery Network |
Scout Report Archives | Virtual Learning Resources Center | WWW Virtual Library | more...
JoeAnt | Open Directory Project (DMOZ)
Scholar
6. Usos da Web para a Astronomia
Basicamente pode-se usar a Web para encontrar informações em três grandes áreas: a)
Educação/Ensino; b) Ciência/Pesquisa; c) Divulgação/Extensão.
Na área de Educação pode-se obter informações sobre cursos de graduação e pós-graduação em
Astronomia presenciais ou mesmo fazer tais cursos à distância. Exemplos de cursos nas áreas de
Astronomia e Astrofísica que podem ser feitos à distância são mostrados nos endereços:
http://programs.gradschools.com/distance/astronomy_astrophysics.html
e
http://www.universities.com/On-Campus/Bachelor_degree_Physical_Sciences_Astronomy.html. Existe
uma infinidade de cursos livres (http://astro.if.ufrgs.br/) ou de extensão que estão disponibilizados
através da Web. Os professores podem ter acesso a varias experiências didáticas cuja execução
pode ser feita através da Web ou não. Coletâneas de oficinas de astronomia para diversos níveis de
escolaridade (p.ex.: http://btc.montana.edu/ceres/), desde o jardim de infância até o nível universitário,
estão disponíveis, além de animações e applets que ajudam a explicar certos conceitos astronômicos
(http://www.astro.ubc.ca/~scharein/a311/Sim.html). Recentemente, a tecnologia tornou simples o
controle de telescópios à distância, permitindo que alunos possam obter imagens de objetos
astronômicos a milhares quilômetros de distância de onde se encontra o telescópio. Estes telescópios
remotamente comandados estão disponíveis para experimentos com estudantes desde o nível
fundamental (p.ex.: http://www.handsonuniverse.org). Além disso, existem inúmeros programas
educacionais com licenças “freeware” ou “shareware” que podem ser baixados através de uma
simples operação de ftp.
Estes programas são de jogos educacionais (p.ex.
http://quest.arc.nasa.gov/),
simulações
de
fenômenos
(p.ex.
http://www.gettysburg.edu/academics/physics/clea/ CLEAsoft_overview.html) e realização de cálculos
astronômicos (p.ex. http://www.edu-observatory.org/eo/algorithms.html).
Para auxiliar na Pesquisa, os astrônomos podem consultar bases de dados observacionais
sobre objetos específicos (p.ex. http://adc.gsfc.nasa.gov/), bases contendo textos completos de
artigos científicos na área de astronomia (p.ex. http://adsabs.harvard.edu/), ter acesso a programas
computacionais científicos de amplo uso na comunidade astronômica (p.ex. http://iraf.noao.edu/) e,
mesmo, realizar observações à distância comandando telescópios de grande porte, localizados em
observatórios profissionais, que estão milhares de quilômetros de distância (p.ex.
http://phobos.physics.uiowa.edu/)
Finalmente, uma área não menos importante é a divulgação das informações científicas para
estudantes, professores e público em geral. Várias revistas de divulgação de astronomia têm versões
eletrônicas de suas edições em papel (p.ex. http://skyandtelescope.com/Default.asp), além de seções
com a divulgação de notícias sobre pesquisas, eventos e observações astronômicas. Existem
verdadeiras agências de notícias especializadas na divulgação de informações astronômicas (p.ex.
http://www.sciencedaily.com/news/space_time.htm). Para esclarecer a curiosidade sobre objetos e
fenômenos da Astronomia existem inúmeros sites com informação de qualidade, disponibilizados por
organizações e institutos especializados (p.ex. http://www.noveplanetas.hpg.ig.com.br/ nineplanets.html, http://hubblesite.org/). Para perguntas mais específicas, alguns observatórios e institutos
põem a disposição um serviço de utilidade pública em que os astrônomos e especialistas respondem
à dúvidas (p.ex. http://www.on.br/pergunte_astro/).
11
7. Bibliografia
University Libraries, University
http://library.albany.edu/internet
at
Albany
(2004),
“Internet
Tutorials”,
disponível
em
12
Download