做好seo你要明白搜索引擎的爬行和抓取

搜索引擎的爬行和抓取是通过蜘蛛来进行的，每个搜索引擎都有自己相应的蜘蛛机器人。搜索引擎的蜘蛛爬行页面的方式和普通用户访问网站的方法是类似的。搜索引擎蜘蛛向页面发起访问请求后，服务器会返回相应的html代码，蜘蛛就把这些代码存入页面的原始数据库中。同时为了提高自身爬行和抓取的速度，搜索引擎会散布多个蜘蛛进行爬行。

蜘蛛每当访问一个网站的时候都会先爬行网站的robots文件，通过对robots文件进行分析哪些是需要爬行和抓取的，哪些是禁止爬行和抓取的。蜘蛛不会爬行抓取那些被咱们禁止的页面。

不同的搜索引擎蜘蛛都有自己的名称，站长可以通过网站的日志分析各个搜索引擎蜘蛛对网站的爬行情况。

搜索引擎蜘蛛为了能抓取到更多的页面，会跟踪页面上的链接，进行一个页面一个页面的爬行，就好像是蜘蛛在蜘蛛网上爬行，这也是蜘蛛这一称谓的来源。蜘蛛的爬行策略分为两种，一种是深度优先，一种是广度优先。

蜘蛛会跟踪页面上的链接逐个深入的进行爬行，直到爬行到无连接的页面为止就会返回原始的页面跟踪下一条链接进行上述的爬行。这就是深度优先。

同一个页面具有多个链接的时候，蜘蛛首先会对这些链接全部爬行一边然后才会对第二层的链接进行爬行。这就是广度优先。

蜘蛛在爬行的时候一般都是深度优先和广度优先结合使用的，这样可以爬行更多的网站，同时也会给予内页一部分爬行。

一般影响蜘蛛爬行深度的因素有以下几种：

网站和网页的权重，权重越高的蜘蛛爬行深度就越深，同时收录也就越高；
页面更新的速度，如果页面长期不更新，蜘蛛会慢慢的降低对该页面的爬行深度；
导入链接的质量，相对而言质量高的导入链接蜘蛛爬行的深度也就越深；
页面距离首页的距离，距离首页越远被爬行的机会就越少。

转载请注明：小鸡SEO技术培训【让你掌握SEO顶级技术】 » 做好seo你要明白搜索引擎的爬行和抓取

与本文相关的文章

Hi，您需要填写昵称和邮箱！