O que é Googlebot

Googlebot, A Internet e o Seu Site

Muita gente se pergunta: mas afinal como o Google consegue saber de todos os sites que existem na internet ? Todos os dias centenas de milhares de sites saem e entram no ar na Internet, como é possivel acompanhar isso tudo ? Como o Google obtem as informações do meu site para poder comparar com os outros sites e decidir qual é o melhor e que vai aparecer na frente ? A resposta para estas 3 peguntas é a mesma: Googlebot !!!

Antes de explicar o que é o Googlebot e o que ele faz, um conceito que deve ser entendido é o de Crawler ou Web Crawler. Crawlers são programas que são desenvolvidos basicamente para navegar na Internet automaticamente. Eles podem ter muitas funções desde ajudar as search engines entrando e testando os sites ( e consequentemente o trabalho de otimização de sites realizado ) até navegar pela rede para roubar informações. Nesse sentido, o Googlebot é que um programa que foi desenvolvido pela Google para rodar a internet seguindos os links entre os sites e lendo tudo o que ele encontra pela frente. Diariamente, milhões de cópias do Googlebot rodando em toneladas de hardware vasculhando a internet de cabo a rabo procurando por atualizações nos sites ( inclusive no seu site ou blog ! ). Sempre que você entra no Google e faz uma pesquisa são os resultados gerados através do trabalho do Googlebot que você vê.

O Funcionamento do Googlebot

O Googlebot basicamente atua vasculhando a internet em 3 fases:

Fase I: Rastreamento: Nessa fase inicial o Googlebot inicia a sua jornada partindo de algum ponto aleatório da internet ( geralmente a partir dos registros de algum grande diretório de sites como o DMoz ) e ele vai navegando, seguindo os links, entrando e saindo sempre anotando cada vez que um site é encontrado. Pode ser que os sites encontrados já estejam registrados no índice do Google, nesse caso o Googlebot ao invés de cadastrar os dados do site no índice ele simplesmente dá uma vasculhada para ver se houveram alterações.

Fase II: Indexação: Agora que o Googlebot já identificou os sites e recolheu as informações sobre eles, chegou a hora de ele processar estas informações. Na fase da indexação os sites anteriormente lidos são agora avaliados segundo uma série de critérios e testes que analizam o nível de SEO e o Googlebot decide então quais deles são os mais relevantes para cada keyword. É nessa fase que são decididos quais são os melhores sites e que eles são separados. Outra curiosidade interessante que é nessa fase também que o Googlebot realiza os testes de black hat no seu site. Se alguma irregularidade for encontrada no seu site ao invés de ele ser marcado como sendo um dos melhores ele é marcado com um site “ladrão” e é punido. Entre as punições podemos ter desde a perda de pontos que vão fazer o seu site cair no ranking até a desindexação onde o seu site é literalmente “expulso” do Google não aparecendo mais nos resultados de nenhuma pesquisa.

Fase III: Publicação: Publicar é a terceira e ultima atribuição do Googlebot. Publicação nada mais é que a exibição dos resultados quando você faz alguma pesquisa. Sempre que você escreve alguma keyword na caixa de pesquisa e clica em “Pesquisa Google” ou aperta enter, o Googlebot então visita o indice dos melhores sites que ele montou na Fase II, busca os resultados e monta eles para você

O que é o Googlebot?

Googlebot é o robô de rastreamento da web do Google (também chamado de "indexador"). O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google.

Nós usamos um grande conjunto de computadores para buscar (ou "rastrear") bilhões de páginas na web. O Googlebot usa um processo de algoritmos: programas de computador que determinam quais sites devem ser rastreados, com que frequência e quantas páginas devem ser buscadas em cada site.

O processo de rastreamento do Googlebot começa com uma lista de URLs de páginas web, gerada a partir de processos anteriores de rastreamento e aumentada com dados dos Sitemaps fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links (SRC e HREF) de cada página e os inclui na sua lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google.

Para webmasters: Googlebot e o seu site

Como o Googlebot acessa o seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos na rede, é possível que a taxa pareça ser um pouco mais elevada por curtos períodos. Em geral, o Googlebot deve fazer download de apenas uma cópia de cada página por vez. Se você notar que o Googlebot está fazendo download de uma página várias vezes, é porque o rastreador provavelmente foi interrompido e reiniciado.

O Googlebot foi desenvolvido para ser distribuído em várias máquinas para melhorar o desempenho e a escala conforme a web cresce. Além disso, para diminuir o uso de largura de banda, executamos muitos rastreadores nas máquinas localizadas perto dos sites que estão sendo indexados na rede. Desse modo, os seus registros podem mostrar visitas de diversas máquinas no google.com, todas com o Googlebot user-agent. Nosso objetivo é rastrear o maior número possível de páginas em seu site a cada visita, sem sobrecarregar a largura de banda do servidor. Solicite uma alteração na taxa de rastreamento.

Como bloquear o Googlebot no conteúdo do seu site

É quase impossível manter um servidor web em sigilo não publicando links para ele. Assim que alguém segue um link do seu servidor "secreto" para outro servidor web, o seu URL "secreto" pode aparecer na tag de referência e pode ser armazenado e publicado pelo outro servidor web em seu registro de referência. De modo similar, a web possui muitos links desatualizados e corrompidos. Sempre que alguém publica um link incorreto para o seu site ou não consegue atualizar links para refletir as alterações no seu servidor, o Googlebot tenta fazer download de um link incorreto do seu site.

Se desejar impedir que o Googlebot rastreie conteúdo no seu site, você terá várias opções, incluindo o uso do robots.txt para bloquear o acesso a arquivos e diretórios do seu servidor.

Depois que o seu arquivo robots.txt for criado, levará algum tempo para que o Googlebot descubra as alterações. Se o Googlebot ainda estiver rastreando conteúdo que foi bloqueado no robots.txt, verifique se o robots.txt está no local correto. Ele deve estar no diretório principal do servidor (por exemplo, www.meuhost.com/robots.txt). Colocar o arquivo em um subdiretório não terá nenhum efeito.

Se você quiser apenas evitar as mensagens de erro "arquivo não encontrado" no registro do seu servidor web, crie um arquivo vazio chamado robots.txt. Se você quiser impedir que o Googlebot siga qualquer link de uma página do seu site, use a meta tag nofollow. Para impedir que o Googlebot siga um link individual, adicione o atributo rel="nofollow" ao link propriamente dito.

Veja mais algumas dicas:

Teste se seu robots.txt está funcionando como esperado. A ferramenta Testar robots.txt na Ferramentas do Google para webmasters mostra exatamente como o Googlebot interpretará o conteúdo do seu arquivo robots.txt. O user-agent do Google é (propício o suficiente) Googlebot.
A ferramenta Buscar como o Googlebot nas Ferramentas do Google para webmasters ajuda você a entender exatamente como seu site aparece no Googlebot. Isso pode ser muito útil para a solução de problemas com o conteúdo ou relevância do seu site nos resultados de pesquisa.
Como verificar se o seu site pode ser rastreado

O Googlebot encontra sites seguindo os links de todas as páginas. A página de erros de rastreamento nas Ferramentas do Google para webmasters relaciona todos os problemas encontrados pelo Googlebot ao rastrear o seu site. Recomendamos que você revise esses erros de rastreamento regularmente para identificar problemas no site.

Se o seu arquivo robots.txt estiver funcionando conforme o esperado, mas o seu site não estiver obtendo tráfego, veja alguns possíveis motivos que explicam por que o seu conteúdo não tem um bom desempenho na pesquisa.

Problemas com criadores de spam e outros user-agents

Os endereços IP usados pelo Googlebot mudam de tempos em tempos. A melhor maneira de identificar os acessos pelo Googlebot é por meio do user-agent (Googlebot). Você pode verificar se o robô que está acessando o seu servidor é realmente o Googlebot usando uma busca DNS inversa.

O Googlebot e todos os robôs de mecanismos de pesquisa confiáveis respeitarão as instruções do robots.txt, mas alguns criminosos e criadores de spam não farão isso. Denuncie spam para o Google.

O Google tem vários outros user-agents, incluindo o Feedfetcher (user-agent Feedfetcher-Google). Como as solicitações do Feedfetcher resultam da ação explícita de usuários humanos que adicionaram os feeds à sua página inicial do Google ou ao Google Reader, e não de rastreadores automáticos, o Feedfetcher não segue as instruções do robots.txt. Você pode impedir que o Feedfetcher rastreie o seu site configurando o seu servidor para exibir uma mensagem 404, 410 ou outra mensagem de status de erro para o user-agent Feedfetcher-Google

Revista Virtual

Pages

22 de julho de 2010