Como funciona o mecanismo de busca do Google®?

Como funciona o mecanismo de busca do
Google®?
Quando alguém faz uma pesquisa, na verdade não está procurando em
toda a internet, mas sim num índice que o Google cria com os sites que ele
conseguiu achar. Para fazer esse índice, que funciona como uma biblioteca em
constante expansão, os engenheiros usam programas chamados indexadores
(ou spiders, aranha em inglês). Os spiders começam buscando algumas
páginas, depois seguem os links dessas páginas e buscam aquelas para as
quais elas direcionam, e depois os links, e depois as direções, e assim
sucessivamente, até grande parte da web ser indexada. O resultado são
bilhões de páginas armazenadas em milhões de máquinas. Quando alguém
tecla uma pesquisa no site do Google, o software busca no índice para
encontrar o que inclui os termos digitados. E aí está a primeira coisa que ele
ignora: tudo o que não foi indexado por seus spiders.
Mas quais os critérios para algo ser selecionado ou não? Bem, alguns
sites simplesmente não querem ser encontrados por qualquer pessoa. Um tal
de arquivo robots.txt, quando adicionado ao site, funciona como filtro para os
robôs buscadores. Os webmasters podem, com ele, controlar as permissões de
acesso a determinadas páginas. Outra forma de não entrar para a lista é
o Google não conseguir encontrar nenhum link que aponte para o site.
O segundo motivo de ignorância googleiana é a lei. Tudo que viola as leis
nacionais e internacionais não aparecerá na busca. O que é protegido por
copyright, como músicas e filmes, além de outras ilegalidades mais sinistras
como pornografia infantil, pode até ser encontrado, mas será ignorado na
apresentação dos resultados, com exceção de alguns deslizes.
O terceiro é o que viola os padrões da web. Existe um regulamento,
mantido pela The World Wide Web Consortium – ou apenas W3C – que diz
como a web deve ser e se comportar. Se não está nos padrões, ou se está fora
da web, não existe para o Google. Nessa categoria está a já famosa Deep
Web, aquele canto obscuro da internet. ele até consegue ler um arquivo, mas
não entende, somente pela imagem, o que há na foto. É por isso que, mesmo
quando indexada, uma imagem pode não ser apresentada como resultado de
pesquisa sem uma legenda correspondente. Quer testar? Procure por discreto
no Google Images. Já aviso que é NSPT (Não é Seguro Para o Trabalho) ou,
como vocês aprendizes teclam, NSFW.
(Ah, websites com spam, malwares ou com vírus ficam de fora das buscas
também.)
Fonte: http://super.abril.com.br/blogs/oraculo/o-que-o-google-ignora-quando-faz-buscas-na-internet/
Fonte
imagem:
https://i.kinja-img.com/gawker-media/image/upload/s--pEKSmwzm-/c_scale,fl_progressive,q_80,w_800/1414228815325188681.jpg