当前位置:首页 >  站长 >  搜索优化 >  正文

影响百度爬虫对网站抓取量的因素

 2017-11-22 14:15  来源: 焦大seo   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

影响百度爬虫对网站抓取量的因素有哪些?

虚子雨SEO首先介绍一下百度爬虫抓取量,其实就是百度爬虫对站点一天抓取网页的数量,从百度内部透露来说,一般会抓两种网页,其中一个是这个站点产生新的网页,一般 中小型站当天就可以完成,大型网站可能完成不了,另一种是百度以前抓过的网页,它是需要更新的,比如一个站点已经被百度收录了5w,那么百度会给出一个时 间段,比如30天,然后平均一下,每天到这个站点上面抓5W/30的这样一个数字,但是具体的量,百度有自己的一套算法公式来计算。

影响百度抓取量的因素。

1.站点安全

对于中小型站点,在安全技术上比较薄弱,被黑被篡改的现象非常常见,一般被黑有常见几种情况,一种是主域被黑,一种是标题被篡改,还有一种是在页面里面加 了很多的外链。一般主域被黑就是被劫持,就是主域被进行301的跳转到指定的网站,而如果在百度那边发现跳转后的是一些垃圾站,那么你这个站点抓取量会里 面降低。

2.内容质量

如果抓取了10万条,而只有100条建库了,那么抓取量还会降下来,因为百度会认为抓取的网页比例很低,那么就没必要去抓取更多,所以要"宁缺毋滥",特别要注意在建站的时候一定要注意质量,不要采集一些内容,这是一种潜在的隐患。

3.站点响应速度

①网页的大小会影响抓取,百度建议网页的大小在1M以内,当然类似大的门户网站,如新浪另说。

②代码质量、机器的性能及带宽,这个不多说,后续笔者会单独拿出一篇文章讲解,请实时关注“营销小能手”。

4.同ip上面主域的数量

百度抓取都是按照ip进行去抓取的,比如在一个ip上一天抓取了1000w个页面,而在这个站点上有40W的站点,那么平均下来抓取每个站点的数量会分的 很少,所以在选择服务商的时候,要看一看同ip上面有没有大站,如果有大站的话,可能会被分得的抓取量会很少因为流量都跑大站上面去了。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
爬虫
百度爬虫

相关文章

  • 浅谈百度爬虫的HTTP状态码返回机制

    HTTP状态码我们都很熟悉,SEO工作中我们也需要迎合百度蜘蛛对常见的HTTP返回码来做相关调整,下面我们就来浅谈百度爬虫的HTTP状态码返回机制

  • 爬虫有哪些分类?白话说说SEO好朋友爬虫

    本文大纲:1、爬虫是什么?反爬虫又是什么?2、爬虫有哪些分类?3、爬中流程与搜索引擎工作流程4、http/https协议与状态码5、robots协议爬虫是什么?反爬虫又是什么?这里的爬虫不是我们生活中的爬虫,如蜘蛛。这里的爬虫更多指的是网络爬虫,即我们叫它网页蜘蛛或网络机器人。当然,在SEO里,叫网

    标签:
    百度爬虫
  • 百度爬虫是什么

    百度爬虫是一种网络机器人,它可以根据一定的规则,在各个网站爬行,对访问过的网页、图片、视频等内容进行收集整理,分类建立数据库,呈现在搜索引擎上,让用户通过搜索某些关键字,就可以看到企业网站的网页、图片、视频等。

    标签:
    百度爬虫
  • 搜索引擎蜘蛛(爬虫)工作过程及原理

    搜索引擎蜘蛛首先会抓取网页信息,把抓取到的信息存放到搜索引擎临时数据库中,接着搜索引擎会根据自身的甄别原则分析信息价值,有价值的信息保留下来,没有价值的信息进行删除处理。

  • 淘宝客程序发展 淘宝联盟爬虫的注意点

    淘宝网现在已经发展的十分成熟,也衍生了淘宝客这个行业,在此之前也是经历了很多很多的阶段才有今天的成绩,通过不断改进和迎合客户的需求和互联网的发展,一次又一次的更新才让人们看到今天的淘宝网。那么淘宝客程序经历了哪些过程呢?

热门排行

信息推荐