Os motores de busca da web, como o Google, Yahoo e o Bing, são programas desenhados para procurar palavras-chave em documentos e páginas mantidos em servidores web. Esses documentos são as páginas de sites hospedados nesses servidores. As técnicas SEO robots ajudam a evitar que determinadas páginas sejam achadas pelos mecanismos de busca.

Nessas pesquisas, os motores de busca podem, eventualmente, acessar informações de documentos sem conteúdo relevante ou armazenados em pastas igualmente irrelevantes para o público comum.

Para evitar estes casos, usamos técnicas SEO robots através de um arquivo “robots.txt” para funcionar como filtro para os robôs (motores de busca), de modo que os programadores web controlem permissões de acesso a determinados arquivos e diretórios de sites.

Os arquivos “robots.txt” controlam quais informações de um site devem ou não serem indexadas por sites de busca. Este arquivo deve ser colocado na raiz do site, no host.

Sintaxes do robots.txt

Os arquivos robots.txt criam regras de acesso para os robots e possuem sintaxe própria. Os principais comandos são:

User-agentLista quais robôs devem seguir as regras indicadas no arquivo robots.txt.

» Google: User-agent: Googlebot
» Google Imagens: User-agent: Googlebot-images
» Google Adwords: User-agent: Adsbot-Google
» Google Adsense: User-agent: Mediapartners-Google
» Yahoo: User-agent: Slurp
» Bing: User-agent: Bingbot
» Todos os mecanismos: User-agent: * (ou não incluir o comando user-agent)

DisallowOrienta os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice.

» Disallow: /prod – orienta aos robots a não indexarem pastas ou arquivos que comecem com “prod”;
» Disallow: /prod/ – orienta aos robots a não indexarem conteúdo dentro da pasta “prod”;
» Disallow: teste.html – orienta aos robots a não indexarem conteúdo da página teste.html.

AllowOrienta aos robots qual diretório ou página deve ter o conteúdo indexado.

» Disallow: /passwords
» Allow: /passwords/confidential

SitemapFunção que permite pelo robots.txt a indicação do caminho e nome do sitemap em formato XML do site.

» Sitemap: http://www.google.com/hostednews/sitemap_index.xml
» Sitemap: http://www.google.com/sitemaps_webmasters.xml
» Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
» Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
» Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml
» Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
» Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Exemplos de robots:

Google: www.google.com.br/robots.txt
Facebook: www.facebook.com/robots.txt
Twitter: https://twitter.com/robots.txt
Criandobits: www.criandobits.com.br/robots.txt

Só devemos ter cuidado para não incluir informações confidenciais dentro dos arquivos robots.txt, pois os mesmos são de fácil acesso.

Dúvidas ou sugestões? Deixem nos comentários! Para mais dicas, acesse o nosso canal no YouTube:
https://youtube.com/criandobits

Tags:

Quer receber GRÁTIS o e-book "Como Formatar um Computador em 5 Minutos"?

Não enviamos spam. Seu e-mail está 100% seguro!

Sobre o Autor

Bene Silva Júnior
Bene Silva Júnior

Bacharel em Sistemas de Informação pelo Instituto Paulista de Pesquisa e Ensino IPEP. Apaixonado por tecnologias e games do tempo da vovó!

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *