当前位置:首页 >  站长 >  搜索优化 >  正文

SEO案例:浅析爬虫的不重复抓取策略

 2015-03-31 17:51  来源: A5专栏   我来投稿 撤稿纠错

  域名预订/竞价,好“米”不错过

不重复抓取?有很多初学者可能会觉得。爬虫不是有深度优先和广度优先两种抓取策略吗?你这怎么又多出来一个不重复抓取策略呢?其实我这几天有不止一次听到了有人说要在不同页面增加同一页面链接,才能保证收录。我想真能保证吗?涉及收录问题的不止是抓没抓吧?也从而延伸出今天的这篇文章,不重复抓取策略,以说明在一定时间内的爬虫抓取是有这样规则的,当然还有很多其他的规则策略,以后有机会再说,例如优先抓取策略、网页重访策略等等。

回归正题,不重复抓取,就需要去判断是否重复。那么就需要记住之前的抓取行为,我们举一个简单的例子。你在我的QQ群(9060800)里看到我发了一个URL链接,然后你是先看到了我发的这个链接,然后才会点击并在浏览器打开看到具体内容。这个等于爬虫看到了后才会进行抓取。那怎么记录呢?我们下面看一张图:

如上图,假设这是一个网页上所有的链接,当爬虫爬取这个页面的链接时就全部发现了。当然爬取(理解为发现链接)与抓取(理解为抓取网页)是同步进行的。一个发现了就告诉了另外一个,然后前面的继续爬,后面的继续抓。抓取完了就存起来,并标记上,如上图,我们发现第2条记录和第6条记录是重复的。那么当爬虫抓取第二条后,又爬取到了第6条就发现这条信息已经抓取过了,那么就不再抓取了。爬虫不是尽可能抓更多的东西吗?为什么还要判断重复的呢?

其实,我们可以想一下。互联网有多少网站又有多少网页呢?赵彦刚是真没查证过,但这个量级应该大的惊人了。而本身搜索引擎的爬取和抓取都是需要执行一段代码或一个函数。执行一次就代表着要耗费一丁点资源。如果抓取的重复量级达到百亿级别又会让爬虫做多少的无用功?耗费搜索引擎多大的成本?这成本就是钱,降低成本就是减少支出。当然不重复抓取不光体现在这里,但这个是最显而易见的。你要知道的就是类似于内容详情页的热门推荐、相关文章、随机推荐、最新文章的重复度有多大?是不是所有页面都一样?如果都一样,那么可以适当调整下,在不影响网站本身的用户体验前提下,去适当做一些调整。毕竟网站是给用户看的,搜索引擎只是获取流量的一个重要入口,一种营销较为重要的途径!

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • 个人做网站,一年可以赚多少钱?聊卖站

    今天,有一些圈外的朋友来咨询我做网站变现的事情,问我:贺老师,我要是做一个网站,一年可以赚多少钱?我用2张图片,来解答这个问题:做一个网站,一年可以赚多少钱?取决于如何做这个站点,能把它带到什么样的地步!有人半年可以赚24个W,但是也有人,一年只赚2000块:是什么问题,导致了如此悬殊的一个差距呢?

  • 微信问一问是什么,有什么优势、怎么结合搜一搜SEO做排名引流?

    前言:这是白杨SEO原创第457篇。为什么想到写这个?因为两个月前微信刚上线内测我就发了一个问一问视频,现在基本算全开放了,所以想让做SEO,流量,甚至想玩普通人都知道这个新渠道,希望对大家做品宣和搞流量有帮助。文章大纲:1、微信问一问是什么?入口在哪?2、做微信问一问有什么好处?3、微信问一问怎么

    标签:
    seo优化
  • 企业做SEO优化的重要性和意义?网站为何要做优化?

    很多大小型企业都有自己的网站,那么企业做网站是干嘛呢?有什么作用?我的理解是,您首先是希望为了能够在百度、360、搜狗等搜索引擎中得到展现,让更多的用户通过网上搜索看到公司企业正在做什么,企业形象背景以及口碑如何,最终目的是为了营销,为了推广我们的品牌,让更多的需求客户通过网络,通过百度、360等搜

  • 如何用人工智能创作结合SEO以知乎为例获取百度搜索流量?

    使用大致流程如下:1、确定自己业务的主要关键词2、确定想要的流量(百度搜索来的还是知乎站内)3、确定自己想用知乎文章为主还是问答为主4、挖掘用户需求的关键词5、用ChatGPT或平替产品生成文字内容6、生成的内容优化修改,用来写文章或者做回答7、布局SEO的用户需求关键词在标题和内容里8、置入引流信

    标签:
    seo优化
  • 最接地气的SEO指南 让新入行的你少走一大段弯路

    老贺是2005年开始做网站的,那时候我们国内的网站并不多,但是每天分享知识的人却不少,整天混迹在A5站长网、站长之家、落伍者上面,不断的充实自己,不过信息良莠不齐,也走了很多的弯路。之后在实践、实战中有了技能,在2008年的时候,老贺开始对外搞SEO,就这样一晃十多年过去了。今天这篇文章,老贺只写一

热门排行

信息推荐