Os motores de busca da web, como o Google, Yahoo e o Bing, são programas desenhados para procurar palavras-chave em documentos e páginas mantidos em servidores web. Esses documentos são as páginas de sites hospedados nesses servidores. As técnicas SEO robots ajudam a evitar que determinadas páginas sejam achadas pelos mecanismos de busca.
Nessas pesquisas, os motores de busca podem, eventualmente, acessar informações de documentos sem conteúdo relevante ou armazenados em pastas igualmente irrelevantes para o público comum.
Para evitar estes casos, usamos técnicas SEO robots através de um arquivo “robots.txt” para funcionar como filtro para os robôs (motores de busca), de modo que os programadores web controlem permissões de acesso a determinados arquivos e diretórios de sites.
Os arquivos “robots.txt” controlam quais informações de um site devem ou não serem indexadas por sites de busca. Este arquivo deve ser colocado na raiz do site, no host.
Sintaxes do robots.txt
Os arquivos robots.txt criam regras de acesso para os robots e possuem sintaxe própria. Os principais comandos são:
User-agent | Lista quais robôs devem seguir as regras indicadas no arquivo robots.txt. |
» Google: User-agent: Googlebot
» Google Imagens: User-agent: Googlebot-images
» Google Adwords: User-agent: Adsbot-Google
» Google Adsense: User-agent: Mediapartners-Google
» Yahoo: User-agent: Slurp
» Bing: User-agent: Bingbot
» Todos os mecanismos: User-agent: * (ou não incluir o comando user-agent)
Disallow | Orienta os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice. |
» Disallow: /prod – orienta aos robots a não indexarem pastas ou arquivos que comecem com “prod”;
» Disallow: /prod/ – orienta aos robots a não indexarem conteúdo dentro da pasta “prod”;
» Disallow: teste.html – orienta aos robots a não indexarem conteúdo da página teste.html.
Allow | Orienta aos robots qual diretório ou página deve ter o conteúdo indexado. |
» Disallow: /passwords
» Allow: /passwords/confidential
Sitemap | Função que permite pelo robots.txt a indicação do caminho e nome do sitemap em formato XML do site. |
» Sitemap: http://www.google.com/hostednews/sitemap_index.xml
» Sitemap: http://www.google.com/sitemaps_webmasters.xml
» Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
» Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
» Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml
» Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
» Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml
Exemplos de robots:
Google: www.google.com.br/robots.txt
Facebook: www.facebook.com/robots.txt
Twitter: https://twitter.com/robots.txt
Criandobits: www.criandobits.com.br/robots.txt
Só devemos ter cuidado para não incluir informações confidenciais dentro dos arquivos robots.txt, pois os mesmos são de fácil acesso.
Dúvidas ou sugestões? Deixem nos comentários! Para mais dicas, acesse o nosso canal no YouTube:
https://youtube.com/criandobits
Quer receber GRÁTIS o e-book "Como Formatar um Computador em 5 Minutos"?
Sobre o Autor
0 Comentários