DESENVOLVIMENTO WEB I - 7122 2 - Recuperação da Informação: 2.1. Conceitos 2.1.1 - Conceitos de Informação e Comunicação: Já vimos que Informação é o resultado do processamento, manipulação e organização de dados, de tal forma que represente uma modificação no conhecimento do sistema (pessoa, animal ou máquina) que a recebe. Num sentido mais amplo, informação é a qualidade da mensagem que um emissor envia para um ou mais receptores. Informação é sempre sobre alguma coisa. Vista desta maneira, a informação não tem de ser precisa. Ela pode ser verdadeira ou mentirosa, ou apenas um som (como o de uma impressão em impressora matricial). Todavia, em termos gerais, quanto maior a quantidade de informação na mensagem recebida, mais precisa ela é. Comunicação é a forma como as pessoas se relacionam entre si, dividindo e trocando experiências, idéias, sentimentos, informações, modificando mutuamente a sociedade onde estão inseridas. Sem a comunicação, cada um de nós seria um mundo isolado. Comunicar é tornar comum, podendo ser um ato de mão única, como TRANSMITIR (um emissor transmite uma informação a um receptor), ou de mão dupla, como COMPARTILHAR (emissores e receptores constroem o saber, a informação, e a transmitem). Comunicação é a representação de uma realidade. Serve para partilhar emoção, sentimento, informação. 2.1.2. Conceitos de Armazenamento, Indexação e Recuperação da Informação: Armazenamento: De forma geral, armazenamento é o ato ou efeito de armazenar, guardar, juntar qualquer coisa em algum lugar de forma que seja possível resgatá-la, consultá-la, usá-la ou consumi-la posteriormente. - 13 - DESENVOLVIMENTO WEB I - 7122 Na informática, chamamos de armazenamento o ato de armazenar informações (documentos) em algum dispositivo físico. Um dispositivo de armazenamento é um hardware capaz de armazenar uma quantidade considerável de informação (memórias secundárias). Indexação (originalmente chamada de catalogação) é a mais antiga das técnicas para identificação de conteúdo de itens para permitir a sua recuperação. O objetivo da catalogação é propiciar pontos de acesso a uma coleção que pode ser esperada ou é bastante utilizada pelo usuário da informação. Recuperação de Informação ou Information Retrieval (RI ou IR) lida com a representação, armazenamento, organização e acesso a itens de informação (documentos). A representação e a organização da informação devem dar ao usuário de um Sistema de Recuperação de Informação (SRI) um acesso fácil a informação de seu interesse. 2.2. Estratégias de Busca Os modelos clássicos de recuperação de informação apresentam estratégias de busca de documentos relevantes para uma consulta. Tanto a consulta feita pelo usuário, quanto os documentos que compõem a coleção a ser pesquisada, são representados pelos seus termos. A pesquisa através do banco de dados de um site de indexação envolve a criação de uma consulta que será submetida ao site. A consulta pode ser bem simples, contendo apenas uma palavra, ou complexa, quando será necessário utilizar algum operador lógico booleano. 2.2.1. Operadores Lógicos (Álgebra Booleana) AND (E) As palavras ou termos unidos pelo “AND” devem aparecer em todas as páginas pesquisadas. - 14 - DESENVOLVIMENTO WEB I - 7122 Alguns sites substituem o operador “AND” pelo operador “+”. A maioria dos sites considera um “AND” implícito separando as palavras, ou seja, todas as palavras especificadas devem aparecer nas páginas pesquisadas. Ex: futebol brasileiro Existe um AND implícito nesta pesquisa, ou seja, futebol AND brasileiro OR (OU) Pelo menos uma das palavras especificadas devem aparecer nas páginas pesquisadas. Ex: futebol OR brasileiro Podem aparecer páginas com, por exemplo, “folclore brasileiro”, sem a palavra futebol. NOT (NÃO) As palavras que seguem o operador “NOT” não devem aparecer nas páginas pesquisadas. Alguns sites substituem o operador “NOT” pelo operador “-”. Ex: futebol NOT argentino Não aparecerão páginas com a palavra “argentino”, ou seja, estamos refinando uma busca simplesmente com a palavra “futebol” onde poderiam aparecer páginas de “futebol argentino”. Usando o operador NOT estas páginas não aparecem na pesquisa. Alguns sites permitem utilizar operadores especiais que permitem considerar a posição por proximidade das palavras: NEAR Uma das palavras deve estar a uma distância máxima de outra, por exemplo, antes das próximas 10 palavras. - 15 - DESENVOLVIMENTO WEB I - 7122 Ex: “futebol brasileiro” NEAR “arte” A palavra ”arte” deve aparecer próxima a palavra “futebol brasileiro” “” (ASPAS) A maioria dos sites utiliza as aspas como forma de associar palavras para formar uma expressão Ex: “futebol brasileiro” AND ronaldo As palavras “futebol” e “brasileiro” deve aparecer como uma expressão. Google O Google, além de permitir operadores booleanos, possui uma série de operadores especiais que permitem restringir ainda mais as pesquisas. Os operadores especiais são sempre seguidos de “:”, como por exemplo: futebol site:www.globo.com allintext: A pesquisa será feita apenas no texto das páginas. Deve aparecer no início da consulta. Ex: allintext:futebol brasileiro allintitle: A pesquisa será feita apenas no título das páginas. Deve aparecer no início da consulta. Ex: allintitle:futebol brasilieiro filetype:suffix A pesquisa será feita apenas em arquivos com terminação “suffix”, por exemplo, “filetype:pdf”, onde serão considerados apenas arquivos PDF. Ex: “futebol brasileiro” filetype:pdf - 16 - DESENVOLVIMENTO WEB I - 7122 link:URL Serão pesquisadas as páginas que apontam para a URL. Ex: link:www.terra.com.br flamengo link:www.terra.com.br => ficarão no topo da busca todas as páginas do site www.terra.com.br que possuem a palavra flamengo 2.2.2. Técnicas de Busca As Máquinas de Pesquisa da Internet são baseadas na indexação de palavras dos sites, assim o processo de construção do banco de dados pesquisa começa com a busca das páginas e termina com a indexação das palavras. Antes da Máquina de Pesquisa poder dizer onde determinado documento está, ele precisa ser encontrado. Para encontrar informações nas centenas de milhares de páginas WEB existentes, as Máquinas de Pesquisa empregam um software especial chamado “Robô” ou “Spider” (Aranha), para construir uma lista de todas as palavras encontradas nos sites. O processo de construir uma lista de palavras de sites é chamado de “Web Crawling”, algo como, “Rastejamento Web”. Entretanto, para construir e manter uma lista atualizada de palavras, os Robôs de busca devem olhar uma grande quantidade de páginas. Como os robôs pesquisam a Internet? Usualmente, o ponto de partida é uma lista de servidores muito utilizados e páginas de Internet bem populares. O Robô começa com uma página bem popular, indexando as palavras desta página e seguindo recursivamente todos os links das páginas. Desta maneira, o sistema de busca começará a navegar pela WEB, seguindo o “vento” dos links, passando pelas partes mais navegadas da WEB. - 17 - DESENVOLVIMENTO WEB I - 7122 O site Google iniciou como um site de pesquisa acadêmico, se transformando rapidamente no maior site de pesquisa do mundo. Quando um Robô do Google olha uma página HTML, ele considera 2 aspectos: • As palavras na página; • A posição da palavra na página. Palavras que ocorrem no Título, nos Sub-Títulos ou nos META TAGS HTML e em outras posições de relativa importância são marcadas para terem uma maior consideração durante as pesquisas dos usuários. O Robô do Google foi escrito para considerar todas as palavras da página. Outros Robôs podem ter diferentes abordagens. Estas abordagens usualmente tentam fazer o Robô operar mais rápido, o usuário pesquisar mais rapidamente, ou ambos. Por exemplo, alguns robôs consideram as palavras do Título, Sub-Título e Links além das 100 palavras mais usadas na página e todas as palavras usadas nas 20 primeiras linhas da página. O site Lycos usa uma abordagem parecida com esta. Outros sistemas, como o AltaVista, vão na direção contrária, indexando cada palavra da página incluindo artigos e palavras curtas. 2.2.3. Armazenamento de Documentos na Internet Atualmente existem vários repositórios de arquivos disponíveis na nuvem (Internet). Este é um dos serviços disponibilizados pela Cloud Computing (Computação nas Nuvens). Um dos mais usados atualmente é o Dropbox. O Dropbox é um dos serviços mais simples e eficientes quando o assunto é sincronização de arquivos entre dispositivos diferentes, sejam eles computadores de mesa, notebooks, tablets ou smartphones. Por meio do Dropbox você armazena arquivos numa espécie de “caixa mágica” que pode ser acessada de qualquer lugar, de qualquer sistema operacional e de - 18 - DESENVOLVIMENTO WEB I - 7122 praticamente qualquer equipamento que acesse a internet. Além disso, quando você instala o Dropbox no computador, ele cria uma pasta específica, igual a todas as outras do sistema, na qual é preciso apenas arrastar arquivos para sincronizar e compartilhar. Assim você tem “nas nuvens” documentos e informações que precisa usar sempre ou então que quer compartilhar com outros usuários. O Dropbox disponibiliza 2 GB de espaço gratuitamente, podendo chegar a até 18 GB (500 MB por indicação). O Windows OneDrive (antigo Windows Live SkyDrive) é o serviço online da Microsoft para armazenar arquivos. Ele funciona integrado ao Windows Live e é necessário possuir uma conta para acessar (que é a mesma do seu Hotmail, por exemplo). Um dos grandes destaques do serviço está no espaço disponibilizado. O Windows OneDrive atualmente conta com 30 GB disponível para você armazenar os seus arquivos. Existem ainda outros serviços, como por exemplo o gaveta.net (http://www.gaveta.net/). O Gaveta.net é um espaço de armazenamento virtual para os seus arquivos pessoais. É grátis e disponibiliza até 10GB (gigabytes) de espaço privado e encriptado. Com 10GB terá espaço suficiente para guardar os seus Documentos, Fotos, Músicas, Vídeos... 2.3. Ferramentas de Busca 2.3.1. Máquinas de Pesquisa As Máquinas de Pesquisa (Search Engines) são sites construídos com base em dados coletados através de programas de computador escritos especificamente para esta finalidade. São baseados em técnicas de busca e indexação das palavras contidas no site. As suas características são: • Construídos com base em programas de computador, chamados “robôs”, sem interferência humana; - 19 - DESENVOLVIMENTO WEB I - 7122 • Os resultados não são organizados por categorias de assunto, mas sim através de um ranking calculado através de um algoritmo específico; • Os sites são indexados com base nas palavras contidas em suas páginas; • Não são avaliados no que diz respeito ao conteúdo, isso cabe ao usuário fazer; • As pesquisas são realizadas com base em palavras, buscando palavras específicas ou combinações de palavras nas páginas do site; • A extensão da busca e indexação alcança grande parte da Web, podendo ser enorme. Exemplos: Google (http://www.google.com), AltaVista (http://www.altavista.com), Cadê (http://cade.search.yahoo.com/) 2.3.2. Diretórios de Assunto Os Diretórios de Assuntos (Subject Directories) são sites construídos com base em dados organizados e avaliados manualmente por pessoas. As suas características são: • Construídos pela seleção humana manual, não por computadores ou programas robôs; • São organizados em categorias hierárquicas de assuntos, divididos em páginas, porém os assuntos não são padronizados e variam muito em função do objetivo do site em questão; • Eles NUNCA se referem ao conteúdo indexado do site, ou seja, a pesquisa pode ser feita apenas através do conceito bem geral “assunto”; • A extensão é bem menor que nas Máquinas de Pesquisa, porém mais específica; • Alguns sites oferecem comentários a respeito dos sites indexados. - 20 - DESENVOLVIMENTO WEB I - 7122 Exemplos: Yahoo (http://dir.yahoo.com), Open Directory (http://dmoz.org) 2.3.3. Internet “Invisível” É verdade que existe de “tudo” na internet. Mas existem muitos conteúdos que já são difíceis de encontrar, se é que será possível encontrálos. Eles constituem o que já foi chamado de “web invisível” ou “deep web” (web profunda), mas que poderia também ser chamado de “internet invisível”, já que nem todas as informações circulam puramente no protocolo HTTP, da WEB. Ou seja: apenas o seu navegador de internet não é suficiente para ver esses sites. Um exemplo que ficou conhecido é o site Silk Road, descoberto na metade de 2011. O site vendia drogas de todo tipo para vários lugares do mundo. O endereço do site era ianxz6zefk72ulzz.onion e só podia ser acessado por internautas que estivessem usando o programa The Onion Router – Tor (por isso o final “.onion”). Para complicar um pouco mais, o site usava o sistema de pagamento BitCoin, um tipo de “moeda criptográfica”. - 21 - DESENVOLVIMENTO WEB I - 7122 Com um endereço desses e tantos requerimentos, o site evidentemente não estava preocupado com marketing. De forma semelhante, existem muitas outras comunidades fechadas na internet. Sites que mudam de forma quando códigos são inseridos no lugar certo, sites de compartilhamento de arquivos escondidos em páginas que mais parecem a Wikipedia. Sites que exigem cadastro, mas a função de cadastro está sempre desativada. Essas são páginas que intencionalmente escondem seu propósito verdadeiro e ficam eternamente restritas. Não existe uma receita para ter acesso. 2.3.4. Diretórios de Softwares e Componentes Existem na Web vários sites específicos para realização de download de softwares Freeware (software gratuito – programa de computador cuja utilização não implica o pagamento de licenças de uso) e Sharewere (programa de computador disponibilizado gratuitamente, porém com algum tipo de limitação). Entre os mais acessados (http://www.baixaki.com.br/) e temos o o famoso Baixaki Superdownloads (http://www.superdownloads.com.br/). Além de softwares, podemos baixar também vários componentes tais como drivers e Services Packs. 2.3.5. Tradução na Internet Algumas estatísticas dizem que cerca de 80% de todo o conteúdo da Internet é apresentado em inglês. Então, como aproveitar toda essa ampla gama de informações? - 22 - DESENVOLVIMENTO WEB I - 7122 Felizmente existem vários sites que ajudam na tradução. Os tradutores instantâneos podem traduzir tanto pequenos textos como páginas da Internet, "online", sendo que alguns deles suportam vários idiomas. É importante notar que são úteis apenas para captar o contexto. Jamais para boas traduções. Se o usuário não conhecer praticamente nada do idioma original, eles podem ajudar muito, mas o resultado gerado nunca é um documento final traduzido. Uma das principais ferramentas de tradução disponíveis na WEB é o Google Tradutor (http://translate.google.com.br/). O Google Tradutor é um serviço de tradução gratuito que fornece traduções instantâneas em 80 idiomas (Setembro/2014). Ele pode traduzir palavras, frases e páginas da web em qualquer combinação dos idiomas aceitos. O Google tradutor passou a exibir definições das palavras traduzidas juntamente com a tradução. E ao se clicar sobre a palavra traduzida será apresentada traduções alternativas. Existem outros tradutores grátis disponíveis na internet: • http://www.bing.com/translator/?cc=br => O tradutor do Bing é capaz de traduzir textos ou páginas inteiras da Internet (basta inserir a url da página desejada). • http://www.worldlingo.com/ => tradutor de textos e sites. • http://imtranslator.com/ => traduz bate papo do MSN, ICQ e outros mensageiros instantâneos para você conversar com seus amigos mesmo que em outra língua. - 23 -