REBOLINHO: Só o que ele quer

Quando alguém faz uma pesquisa no Google, na verdade não está procurando na internet toda, mas sim num índice que o Google cria com os sites que ele conseguiu achar. Esse índice funciona como uma biblioteca que está em expansão segundo a segundo. Os engenheiros usam programas indexadores - os chamados spiders - Os spiders começam buscando algumas páginas, depois seguem os links e aí buscam aquelas para as que direcionam, e finalmente os links. Dos links eles dão a direção para a sua conexão e assim sucessivamente, até uma grande parte da web ser encontrada e indexada. Daí você já sabe, os resultados são páginas armazenadas em milhões de máquinas. Quando alguém tecla uma pesquisa no site do Google, o software busca no índice para encontrar o que inclui os termos digitados. E aí está a primeira coisa que ele ignora: tudo o que não foi indexado por seus spiders. Mas o Google conta quais são os critérios para alguma coisa ser selecionada ou não? Não, não conta, até porque alguns sites simplesmente não querem ser encontrados por qualquer pessoa. Um arquivo chamado robots.txt, quando é adicionado ao site, funciona como filtro para os robôs do Google e de outros sites de busca. Usando ele os Webmasters podem controlar as permissões de acesso as páginas que eles quiserem. Outra forma de não entrar para a lista é " esconder " do Google os links que apontem para o site. Outro motivo para os motores de busca não acharem são as leis : Tudo que viola as leis nacionais e internacionais não aparecerá na busca. Também o que é protegido por copyright, como músicas e filmes, além de outras ilegalidades mais sinistras como pornografia infantil pode até ser encontrado, mas na hora de aparecer nos resultados fica fora. E tem mais, se a busca violar os padrões da web, aí nada feito. Existe um regulamento, mantido pela The World Wide Web Consortium – ou apenas W3C – que diz como a web deve ser e como deve se comportar. Se não está nos padrões, ou se está fora da web, não existe para o Google. Nessa categoria está a já famosa Deep Web, aquela internet que vende até drogas e tem vários caminhos estranhos para ser acessada. Resumindo : O Google não entende a cabeça da gente, e muito menos tem sentimentos. Ele não é sensível e por isso não é capaz de ver o que está em imagens sem uma legenda correspondente por exemplo. Bom, ele até consegue ler um arquivo, mas não vai entender só porque ele tem uma imagem. É por isso que, mesmo quando é indexada pelos motores uma imagem pode não ser apresentada como resultado porque ela não tem uma legenda correspondente. Ah, já ia esquecendo : websites comprovados com spam, malwares ou com vírus ficam de fora das buscas também.