CriandoBits
Identifique-se Entrar Esqueceu a senha? Esqueci minha senha

Programação - Técnicas SEO - robots

Por Benedito Silva Júnior - publicado em 02/08/2016


Os motores de busca da web, como o Google, Yahoo e o Bing, são programas desenhados para procurar palavras-chave em documentos e páginas mantidos em servidores web. Esses documentos são as páginas de sites hospedados nesses servidores.

Nessas pesquisas, os motores de busca podem, eventualmente, acessar informações de documentos sem conteúdo relevante ou armazenados em pastas igualmente irrelevantes para o público comum. Para evitar estes casos, podemos usar um arquivo "robots.txt" para funcionar como filtro para os robôs (motores de busca), de modo que os programadores web controlem permissões de acesso a determinados arquivos e diretórios de sites.

Os arquivos "robots.txt" controlam quais informações de um site devem ou não serem indexadas por sites de busca. Este arquivo deve ser colocado na raiz do site, no host.

Sintaxes do robots.txt

Os arquivos robots.txt criam regras de acesso para os robots e possuem sintaxe própria. Os principais comandos são:

User-agentLista quais robôs devem seguir as regras indicadas no arquivo robots.txt.

» Google: User-agent: Googlebot
» Google Imagens: User-agent: Googlebot-images
» Google Adwords: User-agent: Adsbot-Google
» Google Adsense: User-agent: Mediapartners-Google
» Yahoo: User-agent: Slurp
» Bing: User-agent: Bingbot
» Todos os mecanismos: User-agent: * (ou não incluir o comando user-agent)

DisallowOrienta os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice.

» Disallow: /prod - orienta aos robots a não indexarem pastas ou arquivos que comecem com "prod";
» Disallow: /prod/ - orienta aos robots a não indexarem conteúdo dentro da pasta "prod";
» Disallow: teste.html - orienta aos robots a não indexarem conteúdo da página teste.html.

AllowOrienta aos robots qual diretório ou página deve ter o conteúdo indexado.

» Disallow: /passwords
» Allow: /passwords/confidential

SitemapFunção que permite pelo robots.txt a indicação do caminho e nome do sitemap em formato XML do site.

» Sitemap: http://www.google.com/hostednews/sitemap_index.xml
» Sitemap: http://www.google.com/sitemaps_webmasters.xml
» Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
» Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
» Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml
» Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
» Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Exemplos de robots:

Google: www.google.com.br/robots.txt
Facebook: www.facebook.com/robots.txt
Twitter: https://twitter.com/robots.txt
Criandobits: www.criandobits.com.br/robots.txt

Só devemos ter cuidado para não incluir informações confidenciais dentro dos arquivos robots.txt, pois os mesmos são de fácil acesso.


 
Voltar a página anteriorVoltarSubir ao topo desta páginaTopo