网站推广是网站运营中非常重要的一部分,而对网站进行搜索引擎优化是网站推广中相对比较廉价的一种方式,同时也是最常见的一种方式,绝大多数网站都注重这个方面。因为百度是全球最大的中文搜索引擎,也是占据国内绝大多数份额的产品,所以很多网站注重的也几乎就是百度,可以说百度的一举一动都影响着无数网站的命运,因此也有数以万计的人去分析研究百度的规律。
众所周知,百度近一年来好像没有消停过,我们可以认为是应对黑马选手奇虎挑战而进行的,但是不管怎么样,这些动作已经做出来了。比如针对外链作弊的绿萝算法,这个算法后来还有了升级版本;针对垃圾页面的石榴算法以及鼓励原创知识的原创星火计划。同时也上线了很多站长使用的工具,比如页面测评、索引量查询、拒绝外链等等。
然而就在今天我自己上网的时候发现了一个现象,而这个现象就是跟百度的原创计划相关的,我想有必要跟大家分享一下,一者可以让还不知道这个信息的朋友知道,二者让更多的人去分析思考可能就会得出更加客观的答案。
今天在搜索热点新闻的时候,其中一个结果吸引了我,我看到这个结果是指向到中国新闻网的,大家都知道这个网站是国家级的权威新闻网站,其中的很多稿件都是原创的,所以这样的网站收录结果中出现百度的原创标示也不足为奇。然而大家都清楚现在的百度原创标示中有作者、来源、发表时间等,就是其中作者结果引起了我的注意,我发现在百度搜索结果中的作者名称是汉字的全拼,而在最终内页中却是写着责任编辑然后加上一个编辑的名字,有的甚至连责任编辑都没有写上去,也就是说整个页面都没有出现作者的信息,但百度搜索结果当中却出现了作者信息,而且还是名字的全拼字母。
我开始还以为是百度自己知道把抓取到的内页信息去分析,然后把汉字转换为对应的拼音,但有的页面我们搜索整个页面的文字都没有看到汉字姓名,也没有看到拼音姓名。然后我就想到了是不是这些信息是不给普通用户看,而是基于某个规则给百度看呢。于是我就看了一下中国新闻某个页面的前端源代码。我查找一下,发现其中果然包含了汉字拼音,而且还有作者中文姓名,然后还有文章的地址、所属类目、在论坛的相关讨论数量、发表时间、标题、文章ID号等等。
而且我同时也发现所有的input中的tpye的属性值都是hidden,而这个只要大家稍微熟悉一点网页编程就知道是隐藏的意思,也就解释了难怪我们在页面查找不到拼音。然而在源代码的注释中写着“表情字段开始”着实让人摸不着头脑。为了探个究竟我也发现了其他的网站也有类似的现象,我看了一下凤凰网的某个页面的前端源代码跟百度收录这个页面为原创结果后,也有了类似的结果,只是这里用的是display:none;而已。
相比上述两个比较权威网站的源代码,我们可以知道虽然两者在标记作者信息采用的参数命名等方面有不同,但也有很多相通的地方,那就是都在页面代码中标记出作者的信息,而且相关的参数名称都与作者或者编辑的意思相关,同时这些信息也是在用户面前隐藏起来的。
大家已经知道的是,要在百度搜索结果中出现原创标示,首先网站是一些权威的大网站,我们草根做的小网站是不可能被标示的,无论我们的内容有多么好都不可能被标示,被标示的只会是转载这样内容的大网站。当然我们也知道另外也需要我们是这样内容的原创作者或者比较先转载小网站的。
但通过上面中国新闻网和凤凰网,我又有了新的发现,或者说发现了两种可能,那就是那些大网站内页源代码中出现的那些标记作者信息的代码。可能是百度跟他们有合作,也就是内容共享,告诉他们在设计页面的时候留下这样一个标;也有可能是他们自己知道只要自己的网站符合百度进行标示的要求,然后这些标记会增加被标记的几率;我想几乎不可能是百度单方面加上去的,因为网站可不是百度随便能改的。
说到这里,我觉得要跟大家谈一谈我眼中的这个百度原创计划了,虽然是一个很老的话题了,但我觉得在这里还是要结合我新的发现来说一说。就说这个实例中出现的那些东西吧,我们就当做出现那些标记再加上原创的内容就能被标示为原创,那也没有多少人知道这种标记的规则,我想如果真是这样的话百度一个号称为了互联网良性发展的公司应该会在其站长平台说明这些问题。很显然,根本的问题不是这个标记,要不然我也可能马上实现自己的搜索结果中出现百度原创标示。所以说,对于草根站长百度原创确实不像其自称的那样美好,因为在现实当中互联网的大多数内容都是由中小型网站创造的,那些被标记为原创内容的大网站中的大多数内容都是转载的,我想这样不会因为有了原创计划来激发大家的创造内容的激情,反而可能起到相反的效果。
我们不能因为这样残酷的现实而去放弃,而是积极去面对这些挑战。只有脚踏实地地去做,只要当我们有了一定的规模后,百度等那些巨头认为跟我们合作有一定必要的时候,我们也可以写一封邮件申请内容合作了!
本文来源:(由玫瑰情人网原创,转载请注明出处!)
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!