Arquivo robots.txt

Arquivo robots.txt

O arquivo robots.txt nada mais é que um arquivo inserido na raiz do site, com a finalidade de informar os spiders , as páginas do site que não deseja que sejam indexadas.

Comandos que utilizam o arquivo robots.txt são chamados de Robots Exclusion Protocol, um acordo universal para que exista um pequeno conjunto de comandos que podem ser usados para indicar o acesso ao site por seção e tipos específicos de rastreadores da Web (como rastreadores de dispositivos móveis vs. computadores).

É necessário que o arquivo robots.txt seja salvo com um arquivo de texto simples, como bloco de notas, e sua nomeação precisa ser feita com letras minúsculas desta forma: robost.txt

O arquivo robots.txt é a porta de entrada para os buscadores como Google, Bing e Yahoo. Ou seja, ele é o primeiro arquivo que os buscadores procuram em um determinado site. Sendo seu webmaster que vai decidir o que o robô pode ou não ver em seu site.

O arquivo robots.txt mais simples utiliza duas palavras-chave:

  • User-agent (agente de usuário)
  • Disallow(bloquear).

Sua aplicação é feita da seguinte forma:

user-agent: *

disallow: /

User-agente

São robôs dos mecanismos de pesquisas ou softwares(programas) rastreadores da internet

desaprovar

É um comando utilizado, para que o User-agent não acesse uma URL específica (inclua a quantidade de linha de permissão quer achar necessário)

Outros comandos:

Diretiva Allow

Funciona de formar contrária ao Dissalow, permitindo o acesso ao diretótios de páginas. Ele pode ser usado para substituir parcialmente ou completamente a directiva Dissalow, o mesmo só pode ser suportado pelo Google, Ask e Yahoo!,

Mapa do Site

Indica que existe um mapa do site XML.

Crawl-delay (retardo de rastreamento)

Informa o robô o número de segundos de espera entre casa página, Pode ser útil nos casos em que é necessário reduzir a carda do servidor

Formas de utilizar o arquivo robots.txt

  • Evita que certas páginas e diretórios em seu site, sejam acessíveis para os motores de busca
  • Impedir a indexação de conteúdo duplicado em seu site, tais como cópias de prova ou versões para impressão, ou ordens de classificação para catálogos de produtos
  • Indica a localizado do XML do site

Existem fatores que precisamos ter em mente sobre robots.txt

  • Alguns robôs ignoram as instruções contidas neste arquivo.
  • O arquivo é público, o que significa que qualquer um pode ver apenas digitando o nome do domínio mais /robots.txt  Ex: www.nomedodominio/robots.txt

Portando, caso pretenda utilizar o arquivo robots.txt, para esconder informações privadas, procure outra alternativa.

Acessos

É importante tomar muito cuidado caso ache necessário fazer alterações no arquivo robots.txt
Existem diversas alternativas para gerar o arquivo robots.txt de forma automática, como o RobotsGenerator

E se você quiser mais informações sobre o robots.txt pode encontrar nas páginas a seguir:

Ajuda do Google para robots.txt
robotstxt.org

Deixe uma resposta

Fechar Menu