最新消息:2015年国内顶级SEO培训课程,现在开始报名,实战派SEO讲师、顶级的SEO教程,前十名送蜘蛛池!联系QQ:55816657!

robots文件你有吗?

SEO培训教程 seotech 1697浏览 0评论

作为一个合格的seo相信你对robots文件不会陌生的,一个网站是由拥有自己的robots文件很重要。

搜索引擎的蜘蛛在爬行你的网站时,首先就会查看你网站的目录下是不是有一个名为robots.txt的纯文本格式的文件。robots文件的主要作用是告诉搜索引擎的蜘蛛禁止抓取自己网站中的某些内容或者指定要抓取某些内容。如我们seo技术的网站中robots文件的位置是:http://www.seojishu.org/robots.txt

robots文件只有在禁止搜索引擎蜘蛛抓取网站某些内容时才会有意义,相信每个网站中都会有自己或多或少的页面是没必要让蜘蛛抓取的。如果你不对自己的网站设定robots文件,那么就意味着,你允许蜘蛛抓取你网站中所有的内容。如果你觉得你的网站确实没有什么不让蜘蛛抓取的,可以随便抓,那么也建议你在网站的目录中建立一个空的 robots.txt文件。这样方便以后的调用和应急,也做到网站的完善。

最简单的robots文件的格式如下:

User-agent:*

Disallow:/

这个最简单的robots文件的意义是禁止所有搜索引擎抓取网站内的任何内容,也就是说任何一个搜索引擎的蜘蛛对你网站内的任何页面都保持无视的状态,不会进行抓取,相信这么做的站长不多。

其中User-agent:下面制定的规则是针对某个搜索引擎的蜘蛛。上面的通配符*代表的意义是指所有的搜索引擎蜘蛛。

如果你想针对百度蜘蛛启用禁止抓取那么这个指令的格式是:

User-agent:Baiduspider

而google的则是:

User-agent:Googlebot

指令中的Disallow:是来告诉搜索引擎蜘蛛不要对某个目录或者文件进行抓取的。

Disallow:所禁止的内容必须分开写,也就是一个文件加一个Disallow:不能在一个指令后面加入多个文件。如果你想让所有的搜索引擎抓取你网站中所有的内容,那么你的robots文件如下:

User-agent:*

Disallow:

robots文件中还会出现Allow:的指令,这个指令是要告诉蜘蛛必须抓取哪些文件,这是文件是咱们网站中的重点。Allow的指令单独写没有什么意义,当Allow和Disallow指令配合写的时候才会具有实际的意义,来告诉蜘蛛某个目录下哪些文件需要抓取,哪些文件不需要抓取。

在robots文件中还会出现通配符$的意义是匹配URL的结尾,如

User-agent:*

Disallow: .jpg$

所代表的意义是禁止搜索引擎抓取网站中所有以.jpg结尾的文件。

而通配符*所代表的意义是告诉搜索引擎蜘蛛匹配任何一段字符。如

User-agent:*

Disallow:* .jpg

就是禁止蜘蛛抓取所有的jpg格式的文件。

在robots文件中的Sitemaps是来告诉蜘蛛我们网站的网站地图所在位置的,其格式如下:

Sitemaps:<地图位置>

以上就是robots文件中所包含的主要元素,让蜘蛛在爬行我们网站的时候最轻松,也就更加乐意爬行我们的网站了,就像人与人之间一样,你对我好,我也对你好,都是相互的。建立一个robots文件是十分有必要的。

本文来自小鸡seo技术博客转载请注明出处(小鸡seo技术 http://www.seojishu.org)

转载请注明:小鸡SEO技术培训【让你掌握SEO顶级技术】 » robots文件你有吗?

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址