HostGator » Portal de Suporte

 

Categoria:

Como usar os robots.txt

Qual é a finalidade do arquivo Robots?

Quando uma ferramenta rastreia (indexa) seu site, a primeira coisa que a maioria deles olha é para o seu arquivo robots.txt. Há algumas exceções para isso, no entanto. Esse arquivo informa aos motores de busca o que deve e não deve indexar (guardar e disponibilizar como resultados de pesquisa para o público). Também pode indicar a localização do seu Sitemap XML. O motor de busca, em seguida, envia o seu "bot" ou "robot" ou "spider" para rastrear o seu site, conforme indicado no arquivo robots.txt (ou não enviá-lo, se você disse que não poderia).

O bot do Google é chamado Googlebot. Já o bot do Bing, da Microsoft, é chamado Bingbot. Muitas outras ferramentas de busca, como Excite, Lycos, Alexa, Ask Jeeves, entre outros, também têm os seus próprios robôs. A maioria dos bots são de ferramentas de busca, embora, por vezes, outros sites enviem bots por razões diversas. Por exemplo, alguns sites podem pedir para você colocar um código no seu site e, em seguida, eles enviam um bot para ver se você realmente colocou o código.

Para onde o robots.txt vai?

O arquivo robots.txt pertence a pasta document root.

Você pode simplesmente criar um arquivo em branco e nomeá-lo como robots.txt. Isso reduzirá os erros do site e permitirá que as ferramentas de busca classifiquem todo o conteúdo do seu site.

Bloqueio robots e ferramentas de busca a partir de crawling

Se você quiser que os bots parem de entrar em seu site e que as ferramentas de busca parem de classificar você, use este código:

#Code to not allow any search engines!
User-agent: *
Disallow: /

Você também pode impedir os robots de rastrearem parte do seu site, permitindo-lhes rastrear outras seções. O exemplo a seguir iria solicitar às ferramentas de busca e robots que não rastreiem a pasta cgi-bin, a pasta tmp, a pasta de lixo eletrônico e tudo que estiver nessas pastas do seu site.

# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /backup/ 

No exemplo acima, http://www.seudominio.com.br/backup/index.html poderia ser uma das URLs bloqueadas, mas http://www.seudominio.com.br/index.html e http://www.seudominio.com.br/diretorio/ seriam rastreáveis.

Tenha em mente que o arquivo robot.txt funciona como um sinal de "entrada proibida". Ele diz o que você quer que eles rastreiem em seu site ou não. Na verdade, ele não bloqueia o acesso. Bots legítimos honrarão diretamente sobre o que podem visitar ou não. Bots trapaceiros podem simplesmente ignorar robots.txt.

Como explicado abaixo, você deve utilizar as ferramentas de webmaster para Bingbot e Googlebot, uma vez que não respeitem o arquivo robots.txt. 

Google e Bing

Google e Bing não honram o padrão robots.txt. Você pode criar contas de Google e Bing Webmaster e configurar seus domínios para ter um menor atraso de rastreamento. Leia a posição oficial da Google a respeito do arquivo robots.txt. Você deve utilizar as ferramentas para webmasters do Google para definir a maioria dos parâmetros para GoogleBot.

Mesmo assim, recomendamos que utilize a configuração de um arquivo robots.txt. Isto reduzirá a taxa de rastreadores iniciando solicitações em seu site, além de reduzir os recursos que necessita a partir do sistema, permitindo o funcionamento correto do tráfego.

Para reduzir o tráfego de rastreadores como Yandex ou Baidu, por exemplo, recomendamos que utilize o arquivo .htaccess.

Para mais detalhes sobre esses tópicos, utilize os seguintes links como referência:

Artigos Relacionados


Última atualização: 20-02-2014 09:13
Autor: : Percio Andrade
Revisão: 1.2

Categorias

Links Importantes

Envolva-se

  • Formas de Pagamento
  • Visa, Master, Dinners, Boleto e PayPal