做网站优化是一定要对搜索引擎蜘蛛抓取有一定的了解,通过分析网站日志可以了解蜘蛛抓取频次、时间、路径等,主要针对哪一类搜索引擎优化就分析哪一种搜索引擎蜘蛛日志,在具体分析蜘蛛访问日志时,抓取量、耗时、路径是其中非常重要的,下面对于搜索引擎蜘蛛作简单介绍:
1、抓取的深度和广度
百度的抓取广度要比谷歌优越一些,而谷歌蜘蛛的抓取深度明显要高于百度,百度每个蜘蛛平均才看两个页面,因此,很多数据量稍大点的网站经常会出现这个情况,谷歌收录比较多,而百度收录非常少,针对这一点,做百度收录量的时候,如果数据量较大,内页的随机文章调用这一块一定要做好,至于如何随机,自己发挥吧。
2、错误链接的抓取
蜘蛛返回404状态码的抓取页面,从图中的标注可以看出,即使网站没有死链,蜘蛛仍然会抓取一部分死链,百度蜘蛛喜欢抓取一半URL然后就被勾引到别的地方,而谷歌也有htm后缀抓成html的情况,针对这一点,无论你的站有没有死链,尽量都去给加上404错误页面,因为,不管你有木有死链,蜘蛛都会抓到。
3、对新站的抓取
根据以前观察几个新站日志的发现,百度蜘蛛对一个新站一般前列天会疯狂抓取,然后会沉寂一段时间,而谷歌比较老实,喜欢按部就班一点一点来,越来越多。
搜索引擎蜘蛛如何抓取内容
1.爬取率:既定时间内网站被蜘蛛获取的页面数量。
2.爬取频率:搜索引擎多久对网站或单个网页发起一次新的爬行。
3.爬取深度:一个蜘蛛从开始位置可以点击到多深。
4.爬取饱和度:寥寥无几页面被获取的数量。
5.爬取优先:那些页面更常作为蜘蛛的入口。
6.爬取冗余度:网站一般被多少蜘蛛同时爬取。
7.爬取mapping:蜘蛛爬取路径还原。