2 - Recuperação da Informação: 2.1. Conceitos 2.1.1

DESENVOLVIMENTO WEB I - 7122
2 - Recuperação da Informação:
2.1. Conceitos
2.1.1 - Conceitos de Informação e Comunicação:
Já
vimos
que
Informação
é
o
resultado
do
processamento,
manipulação e organização de dados, de tal forma que represente uma
modificação no conhecimento do sistema (pessoa, animal ou máquina) que a
recebe.
Num sentido mais amplo, informação é a qualidade da mensagem que
um emissor envia para um ou mais receptores. Informação é sempre sobre
alguma coisa. Vista desta maneira, a informação não tem de ser precisa. Ela
pode ser verdadeira ou mentirosa, ou apenas um som (como o de uma
impressão em impressora matricial). Todavia, em termos gerais, quanto maior
a quantidade de informação na mensagem recebida, mais precisa ela é.
Comunicação é a forma como as pessoas se relacionam entre si,
dividindo e trocando experiências, idéias, sentimentos, informações,
modificando mutuamente a sociedade onde estão inseridas. Sem a
comunicação, cada um de nós seria um mundo isolado. Comunicar é tornar
comum, podendo ser um ato de mão única, como TRANSMITIR (um emissor
transmite uma informação a um receptor), ou de mão dupla, como
COMPARTILHAR (emissores e receptores constroem o saber, a informação, e
a transmitem). Comunicação é a representação de uma realidade. Serve para
partilhar emoção, sentimento, informação.
2.1.2. Conceitos de Armazenamento, Indexação e Recuperação da
Informação:
Armazenamento: De forma geral, armazenamento é o ato ou efeito
de armazenar, guardar, juntar qualquer coisa em algum lugar de forma que
seja possível resgatá-la, consultá-la, usá-la ou consumi-la posteriormente.
- 13 -
DESENVOLVIMENTO WEB I - 7122
Na informática, chamamos de armazenamento o ato de armazenar
informações (documentos) em algum dispositivo físico. Um dispositivo de
armazenamento é um hardware capaz de armazenar uma quantidade
considerável de informação (memórias secundárias).
Indexação (originalmente chamada de catalogação) é a mais antiga
das técnicas para identificação de conteúdo de itens para permitir a sua
recuperação. O objetivo da catalogação é propiciar pontos de acesso a uma
coleção que pode ser esperada ou é bastante utilizada pelo usuário da
informação.
Recuperação de Informação ou Information Retrieval (RI ou IR) lida
com a representação, armazenamento, organização e acesso a itens de
informação (documentos). A representação e a organização da informação
devem dar ao usuário de um Sistema de Recuperação de Informação (SRI)
um acesso fácil a informação de seu interesse.
2.2. Estratégias de Busca
Os modelos clássicos de recuperação de informação apresentam
estratégias de busca de documentos relevantes para uma consulta. Tanto a
consulta feita pelo usuário, quanto os documentos que compõem a coleção a
ser pesquisada, são representados pelos seus termos.
A pesquisa através do banco de dados de um site de indexação envolve
a criação de uma consulta que será submetida ao site. A consulta pode ser
bem simples, contendo apenas uma palavra, ou complexa, quando será
necessário utilizar algum operador lógico booleano.
2.2.1. Operadores Lógicos (Álgebra Booleana)
AND (E)
As palavras ou termos unidos pelo “AND” devem aparecer em todas as
páginas pesquisadas.
- 14 -
DESENVOLVIMENTO WEB I - 7122
Alguns sites substituem o operador “AND” pelo operador “+”.
A maioria dos sites considera um “AND” implícito separando as palavras,
ou seja, todas as palavras especificadas devem aparecer nas páginas
pesquisadas.
Ex: futebol brasileiro
Existe um AND implícito nesta pesquisa, ou seja, futebol AND brasileiro
OR (OU)
Pelo menos uma das palavras especificadas devem aparecer nas
páginas pesquisadas.
Ex: futebol OR brasileiro
Podem aparecer páginas com, por exemplo, “folclore brasileiro”, sem a
palavra futebol.
NOT (NÃO)
As palavras que seguem o operador “NOT” não devem aparecer nas
páginas pesquisadas.
Alguns sites substituem o operador “NOT” pelo operador “-”.
Ex: futebol NOT argentino
Não aparecerão páginas com a palavra “argentino”, ou seja, estamos
refinando uma busca simplesmente com a palavra “futebol” onde poderiam
aparecer páginas de “futebol argentino”. Usando o operador NOT estas
páginas não aparecem na pesquisa.
Alguns sites permitem utilizar operadores especiais que permitem
considerar a posição por proximidade das palavras:
NEAR
Uma das palavras deve estar a uma distância máxima de outra, por
exemplo, antes das próximas 10 palavras.
- 15 -
DESENVOLVIMENTO WEB I - 7122
Ex: “futebol brasileiro” NEAR “arte”
A palavra ”arte” deve aparecer próxima a palavra “futebol brasileiro”
“” (ASPAS)
A maioria dos sites utiliza as aspas como forma de associar palavras
para formar uma expressão
Ex: “futebol brasileiro” AND ronaldo
As palavras “futebol” e “brasileiro” deve aparecer como uma expressão.
Google
O Google, além de permitir operadores booleanos, possui uma série de
operadores especiais que permitem restringir ainda mais as pesquisas. Os
operadores especiais são sempre seguidos de “:”, como por exemplo:
futebol site:www.globo.com
allintext:
A pesquisa será feita apenas no texto das páginas. Deve aparecer no
início da consulta.
Ex: allintext:futebol brasileiro
allintitle:
A pesquisa será feita apenas no título das páginas. Deve aparecer no
início da consulta.
Ex: allintitle:futebol brasilieiro
filetype:suffix
A pesquisa será feita apenas em arquivos com terminação “suffix”, por
exemplo, “filetype:pdf”, onde serão considerados apenas arquivos PDF.
Ex: “futebol brasileiro” filetype:pdf
- 16 -
DESENVOLVIMENTO WEB I - 7122
link:URL
Serão pesquisadas as páginas que apontam para a URL.
Ex: link:www.terra.com.br
flamengo link:www.terra.com.br => ficarão no topo da busca todas
as páginas do site www.terra.com.br que possuem a palavra flamengo
2.2.2. Técnicas de Busca
As Máquinas de Pesquisa da Internet são baseadas na indexação de
palavras dos sites, assim o processo de construção do banco de dados
pesquisa começa com a busca das páginas e termina com a indexação das
palavras.
Antes da Máquina de Pesquisa poder dizer onde determinado
documento está, ele precisa ser encontrado. Para encontrar informações nas
centenas de milhares de páginas WEB existentes, as Máquinas de Pesquisa
empregam um software especial chamado “Robô” ou “Spider” (Aranha), para
construir uma lista de todas as palavras encontradas nos sites. O processo de
construir uma lista de palavras de sites é chamado de “Web Crawling”, algo
como, “Rastejamento Web”. Entretanto, para construir e manter uma lista
atualizada de palavras, os Robôs de busca devem olhar uma grande
quantidade de páginas.
Como os robôs pesquisam a Internet? Usualmente, o ponto de partida é
uma lista de servidores muito utilizados e páginas de Internet bem populares.
O Robô começa com uma página bem popular, indexando as palavras desta
página e seguindo recursivamente todos os links das páginas. Desta maneira,
o sistema de busca começará a navegar pela WEB, seguindo o “vento” dos
links, passando pelas partes mais navegadas da WEB.
- 17 -
DESENVOLVIMENTO WEB I - 7122
O site Google iniciou como um site de pesquisa acadêmico, se
transformando rapidamente no maior site de pesquisa do mundo. Quando um
Robô do Google olha uma página HTML, ele considera 2 aspectos:
• As palavras na página;
• A posição da palavra na página.
Palavras que ocorrem no Título, nos Sub-Títulos ou nos META TAGS
HTML e em outras posições de relativa importância são marcadas para terem
uma maior consideração durante as pesquisas dos usuários. O Robô do Google
foi escrito para considerar todas as palavras da página.
Outros Robôs podem ter diferentes abordagens. Estas abordagens
usualmente tentam fazer o Robô operar mais rápido, o usuário pesquisar mais
rapidamente, ou ambos. Por exemplo, alguns robôs consideram as palavras do
Título, Sub-Título e Links além das 100 palavras mais usadas na página e
todas as palavras usadas nas 20 primeiras linhas da página. O site Lycos usa
uma abordagem parecida com esta. Outros sistemas, como o AltaVista, vão na
direção contrária, indexando cada palavra da página incluindo artigos e
palavras curtas.
2.2.3. Armazenamento de Documentos na Internet
Atualmente existem vários repositórios de arquivos disponíveis na
nuvem (Internet). Este é um dos serviços disponibilizados pela Cloud
Computing (Computação nas Nuvens). Um dos mais usados atualmente é o
Dropbox.
O Dropbox é um dos serviços mais simples e eficientes quando o
assunto é sincronização de arquivos entre dispositivos diferentes, sejam eles
computadores de mesa, notebooks, tablets ou smartphones. Por meio do
Dropbox você armazena arquivos numa espécie de “caixa mágica” que pode
ser acessada de qualquer lugar, de qualquer sistema operacional e de
- 18 -
DESENVOLVIMENTO WEB I - 7122
praticamente qualquer equipamento que acesse a internet. Além disso,
quando você instala o Dropbox no computador, ele cria uma pasta específica,
igual a todas as outras do sistema, na qual é preciso apenas arrastar arquivos
para sincronizar e compartilhar. Assim você tem “nas nuvens” documentos e
informações que precisa usar sempre ou então que quer compartilhar com
outros usuários. O Dropbox disponibiliza 2 GB de espaço gratuitamente,
podendo chegar a até 18 GB (500 MB por indicação).
O Windows OneDrive (antigo Windows Live SkyDrive) é o serviço online
da Microsoft para armazenar arquivos. Ele funciona integrado ao Windows Live
e é necessário possuir uma conta para acessar (que é a mesma do seu
Hotmail, por exemplo). Um dos grandes destaques do serviço está no espaço
disponibilizado. O Windows OneDrive atualmente conta com 30 GB disponível
para você armazenar os seus arquivos.
Existem ainda outros serviços, como por exemplo o gaveta.net
(http://www.gaveta.net/). O Gaveta.net é um espaço de armazenamento
virtual para os seus arquivos pessoais. É grátis e disponibiliza até 10GB
(gigabytes) de espaço privado e encriptado. Com 10GB terá espaço suficiente
para guardar os seus Documentos, Fotos, Músicas, Vídeos...
2.3. Ferramentas de Busca
2.3.1. Máquinas de Pesquisa
As Máquinas de Pesquisa (Search Engines) são sites construídos com
base em dados coletados através de programas de computador escritos
especificamente para esta finalidade. São baseados em técnicas de busca e
indexação das palavras contidas no site. As suas características são:
• Construídos com base em programas de computador, chamados
“robôs”, sem interferência humana;
- 19 -
DESENVOLVIMENTO WEB I - 7122
• Os resultados não são organizados por categorias de assunto, mas sim
através de um ranking calculado através de um algoritmo específico;
• Os sites são indexados com base nas palavras contidas em suas
páginas;
• Não são avaliados no que diz respeito ao conteúdo, isso cabe ao usuário
fazer;
• As pesquisas são realizadas com base em palavras, buscando palavras
específicas ou combinações de palavras nas páginas do site;
• A extensão da busca e indexação alcança grande parte da Web,
podendo ser enorme.
Exemplos:
Google
(http://www.google.com),
AltaVista
(http://www.altavista.com), Cadê (http://cade.search.yahoo.com/)
2.3.2. Diretórios de Assunto
Os Diretórios de Assuntos (Subject Directories) são sites construídos
com base em dados organizados e avaliados manualmente por pessoas.
As suas características são:
• Construídos pela seleção humana manual, não por computadores ou
programas robôs;
• São organizados em categorias hierárquicas de assuntos, divididos em
páginas, porém os assuntos não são padronizados e variam muito em
função do objetivo do site em questão;
• Eles NUNCA se referem ao conteúdo indexado do site, ou seja, a
pesquisa pode ser feita apenas através do conceito bem geral
“assunto”;
• A extensão é bem menor que nas Máquinas de Pesquisa, porém mais
específica;
• Alguns sites oferecem comentários a respeito dos sites indexados.
- 20 -
DESENVOLVIMENTO WEB I - 7122
Exemplos:
Yahoo
(http://dir.yahoo.com),
Open
Directory
(http://dmoz.org)
2.3.3. Internet “Invisível”
É verdade que existe de “tudo” na internet. Mas existem muitos
conteúdos que já são difíceis de encontrar, se é que será possível encontrálos. Eles constituem o que já foi chamado de “web invisível” ou “deep web”
(web profunda), mas que poderia também ser chamado de “internet invisível”,
já que nem todas as informações circulam puramente no protocolo HTTP, da
WEB. Ou seja: apenas o seu navegador de internet não é suficiente para ver
esses sites.
Um exemplo que ficou conhecido é o site Silk Road, descoberto na
metade de 2011. O site vendia drogas de todo tipo para vários lugares do
mundo. O endereço do site era ianxz6zefk72ulzz.onion e só podia ser
acessado por internautas que estivessem usando o programa The Onion
Router – Tor (por isso o final “.onion”). Para complicar um pouco mais, o site
usava o sistema de pagamento BitCoin, um tipo de “moeda criptográfica”.
- 21 -
DESENVOLVIMENTO WEB I - 7122
Com um endereço desses e tantos requerimentos, o site evidentemente
não estava preocupado com marketing.
De forma semelhante, existem muitas outras comunidades fechadas na
internet. Sites que mudam de forma quando códigos são inseridos no lugar
certo, sites de compartilhamento de arquivos escondidos em páginas que mais
parecem a Wikipedia. Sites que exigem cadastro, mas a função de cadastro
está sempre desativada.
Essas são páginas que intencionalmente escondem seu propósito
verdadeiro e ficam eternamente restritas. Não existe uma receita para ter
acesso.
2.3.4. Diretórios de Softwares e Componentes
Existem na Web vários sites específicos para realização de download de
softwares Freeware (software gratuito – programa de computador cuja
utilização não implica o pagamento de licenças de uso) e Sharewere
(programa de computador disponibilizado gratuitamente, porém com algum
tipo de limitação).
Entre
os
mais
acessados
(http://www.baixaki.com.br/)
e
temos
o
o
famoso
Baixaki
Superdownloads
(http://www.superdownloads.com.br/).
Além de softwares, podemos baixar também vários componentes tais
como drivers e Services Packs.
2.3.5. Tradução na Internet
Algumas estatísticas dizem que cerca de 80% de todo o conteúdo da
Internet é apresentado em inglês. Então, como aproveitar toda essa ampla
gama de informações?
- 22 -
DESENVOLVIMENTO WEB I - 7122
Felizmente existem vários sites que ajudam na tradução. Os tradutores
instantâneos podem traduzir tanto pequenos textos como páginas da Internet,
"online", sendo que alguns deles suportam vários idiomas.
É importante notar que são úteis apenas para captar o contexto. Jamais
para boas traduções. Se o usuário não conhecer praticamente nada do idioma
original, eles podem ajudar muito, mas o resultado gerado nunca é um
documento final traduzido.
Uma das principais ferramentas de tradução disponíveis na WEB é o
Google Tradutor (http://translate.google.com.br/). O Google Tradutor é um
serviço de tradução gratuito que fornece traduções instantâneas em 80
idiomas (Setembro/2014). Ele pode traduzir palavras, frases e páginas da web
em qualquer combinação dos idiomas aceitos.
O Google tradutor passou a exibir definições das palavras traduzidas
juntamente com a tradução. E ao se clicar sobre a palavra traduzida será
apresentada traduções alternativas.
Existem outros tradutores grátis disponíveis na internet:
• http://www.bing.com/translator/?cc=br => O tradutor do Bing é
capaz de traduzir textos ou páginas inteiras da Internet (basta
inserir a url da página desejada).
• http://www.worldlingo.com/ => tradutor de textos e sites.
• http://imtranslator.com/ => traduz bate papo do MSN, ICQ e
outros mensageiros instantâneos para você conversar com seus
amigos mesmo que em outra língua.
- 23 -