不靠谱
包子馅不靠谱,
包子馅的报道更不靠谱
韩国队不靠谱
日本队也不靠谱
中国队掉链子靠谱
17tech说吕博望的报告不靠谱
吕博望说CNNIC的报告不靠谱
雅虎觉得艾瑞报告不靠谱
搜狗觉得易观报告的不靠谱
百度说,你们都不靠谱,我来做报告
这是我在上一篇文章《谁的话不靠谱》的结尾。
最近不靠谱的事情太多,不靠谱的人也太多。不过,吕伯望的报告就因为四舍五入产生了0.1%的误差,遭遇质疑,笔者看来颇有些冤枉;而他在第一次IT龙门阵上所演示的CNNIC的报告的缺陷,倒有几分道理。之后的几份搜索报告(艾瑞和易观)也因调查结果大相径庭而遭遇了质疑,看来搜索报告还真没有多少靠谱的。
百度却是真的开始作报告了。最近百度新开辟了二级频道:百度数据研究中心(data.baidu.com),其中有六个行业的报告可供了下载,分别是银行行业、基金行业、网络游戏、汽车业、化妆品和家电业。
大型网站网络调查优势
我对大网站涉足咨询行业还是有些信心,他们至少能在数据源的样本数量上能得到充分的保证,照理说应该比较靠谱。吕伯望在回答我关于调查成本的问题时表示,电话调查虽然相对入户调查成本大大降低,但也因此产生了一些误差,调查受资金限制而产生了一些误差。在我看来,CNNIC只要把中国有多少上网人口调查出来即可,其他关于互联网用户更深入的调查完全可以通过网络问卷的方式完成。网络调查成本极低,而调查样本可以大大增加,数据的准确性也有了保证。因此,大型网站在数据收集方面拥有一定的优势。
百度的报告靠谱么?
百度虽然一下子编制了6本报告,人们却没有看到相关网络调查表,那么百度是通过什么方法获得数据的呢?笔者打开了其中的一份报告,关于调查方法是这样描述的:
搜索引擎能采集用户主动需求的文字表达(即关键词查询),因此对用户真实需求的把握较之门户网站更占优势。通过 Cookie 跟踪,能把关键词与具体的需求挂上钩。我们假设每一个Cookie 代表一个潜在消费者(在技术上和统计学上是成立的,同时技术后台可屏蔽掉多个用户使用的 Cookie,如网吧 Cookie),那么该 Cookie 在一定时间内的关键词集合能全面反映他(她)关注的信息。我们对这些信息进行系统编码、清理和分析,把不同 Cookie 检索的关键词进行交叉分析,发现网民搜索的群体行为,最后整合成行业报告。
原来百度是依靠用户的cookie和对关键词的整理分析生成的报告。那么百度的报告靠谱么?
从采样数量看,百度是中国流量最高的网站,每天访问人次数以亿计,百度的报告称采样的数量达到了百万数量级。可见,从调查用户的数量上看的确非常可观。
但从调查方法上看,笔者认为还是存在一定的漏洞。
其一、百度的技术后台“屏蔽掉多个用户的cookie”,那么意味着,网吧用户的统计被剔除掉。但国内网民在网吧上网的比例有1/3强,绝对数量巨大。去掉这些信息会导致结果出现偏差,这在网络游戏上的结果上最为 明显。
其二、国内上网用户还普遍存在一个家庭多个用户的情形,如夫妻共用一台电脑,家庭共用一台电脑的情形(笔者认为这些也比较普遍);
其三、某些用户使用多台电脑,例如笔者办公和家庭就使用不同的电脑,按照百度的统计口径,这些用户的数据被重复计算了,而这正是统计学所忌讳的。
其四、百度所有用户的调查结果是基于百度搜索用户的。非搜索引擎用户或者非百度用户,就难以统计进去,这部分用户的比例保守估计也在1/3左右(根据CNNIC的搜索引擎数据)。
因此,百度的报告正如CNNIC的报告一样,在计算方法上还存在一定的漏洞,尽管庞大的采样数据能够弥补其中一些不足。笔者认为百度的报告只具有一定参考意义,并不能完全反映行业全貌。
当然,笔者更关心的是百度是如何利用我们的cookie来制作报告的,百度是不是动了我们的cookie,动了我们的蛋糕。
百度,请别动我的蛋糕
Cookie,英文指就着牛奶一起吃的点心,我直接翻译为“蛋糕”。在因特网内,“cookie”这个字有了完全不同的意思。“cookie”是小量信息,由网络服务器发送出来以存储在网络浏览器上,从而下次这位独一无二的访客又回到该网络服务器时,可从该浏览器读回此信息。
Cookie可以保持登录信息到用户下次与服务器的会话,换句话说,下次访问同一网站时,用户会发现不必输入用户名和密码就已经登录了。我们在登录论坛的时候就经常发现这种情形。
百度的报告编制说明中,特意提到了Cookie:
通过“关键词组合”判断各个 Cookie 代表的个人信息,比如性别倾向、收入范围、行业领域的相关喜好,我们对各种需求有一个“群”的把握,比如刚毕业(21-23 岁)的女性的总体消费特征。
但百度不以具体用户的个人信息作为分析对象,一个 Cookie 只是收集需求(关键词)的桥梁,它代表的人其实是一个与实际需求相联系的虚拟人,我们完全不知道他(她)是谁,也没有联系方式,但通过他们的检索轨迹,我们可以知道他(她)的需求。
看来cookie在百度的报告中是十分关键的一环。它居然能让百度不利用传统的市场调查问卷,仅凭对用户cookie的分析,就能够收集各种个人信息:通过人们的检索轨迹,而得到用户的需求资料,最后形成报告。
百度所利用的cookie数据应该有以下两种:
第一种是大多数情况下,人们并不是登录百度就进行搜索的,由于没有录入帐号和密码,百度就没法通过用户ID和密码来区分调查个体(所谓的虚拟人),为了能够区分,百度不得不记录用户的一些电脑信息,如内网IP,操作系统信息,浏览器信息等等,否则就无法区分不同的用户。
第二种在用户登录的情况下(贴吧、知道博客等产品)使用搜索引擎,百度通过cookie记录下用户的ID和其他信息来区分不同对象。而这类用户信息在百度的数据库中可能更加详细,其中包括用户向网站提供的年龄、性别、职业等等非常全面的信息。
只有在完成此步以后,百度才有可能对收集到的人们检索轨迹进行归类,分析得到结果,否则,就只有一堆关键词,没有任何意义。
显而易见,无论是哪种方式,百度都是在利用用户的cookie和隐私获得了报告结果。这也就不难理解,为什么百度没有作一份调查问卷却能获得百万数量调查样本,百度在利用我们的cookie和隐私,百度通过我们的小蛋糕(cookie)完成了他们的大蛋糕(报告)。
百度已经动了我们的蛋糕!百度正在动我们的蛋糕!
微软公司07年7月23日宣布,用户的IP地址和其他与网络搜索相关的识别数据,包括用户身份证号码、出生日期和居住地址等资料,将在18个月后永久删除。此外,微软还承诺,将把搜索关键字与账户资料分开存储
雅虎和aol将删除cookie的时间缩短为13个月,GOOGLE将删除cookie的时间缩短为一年半,搜索引擎保留用户敏感数据的时间也在不断缩短。大型网络公司隐私保护正在不断加强。
百度却在大多数人不知情的前提下(关于通过cookie收集资料,只有在报告中提及),利用我们的cookie,关键词检索记录制作了一份份行业报告。与那些大型网站和他的搜索同行相比,百度实在应该反思一下。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!