相空间

2007-06-11

没法盲测

上周,正望咨询发布了《2007年中文搜索质量盲测评估报告》,随后评估报告的评估报告就不断地涌现。其中一些极度弱智的评估当然没有什么评论的价值,但也有一些评论,却是切中要害。

比如且听风吟提出的问题:“在数千万计的搜索引擎用户中选取“2740人”作为分层抽样样本,误差之大可想而知”。正望的这份评估报告只选择了不到3000人的样本量,相对于搜索引擎用户群体而言,样本量太小,另一方面,正望在免费公开的材料中,也没有提到抽样的方法。这两个因素直接导致整个采样丧失其统计学意义。且听风吟所指出的,正是这份盲测评估报告的致命伤。

小子不才,也发现了盲测的一个致命伤,这个致命伤甚至从根本上否定了中文搜索引擎盲测存在的意义。我在这里玩了几下之后发现,只要有百度参与,真正的盲测就根本不可能实现。如果参与盲测的用户愿意,按照我提供的方法,他可以很轻松地从并列的若干种搜索结果中找出百度所提供的结果,然后根据自己的偏好做出有倾向性的选择。

下图是我尝试的结果:

百度 谷歌 搜索引擎盲测

区分百度结果的方法很简单,那就是使用疾病的名字作为关键词搜索,如果搜索结果中前三位全部是医院、诊所或者药物的信息,那么这一组搜索结果一定是百度提供的,反之,如果搜索结果中前三位有至少一条是关于疾病本身的信息,那么这一组搜索结果一定不是百度提供的。

我在上面十次测试中使用的关键词分别是:

强直性脊柱炎抑郁症牛皮癣股骨头坏死系统性红斑狼疮脊髓灰质炎过敏性哮喘乙肝糖尿病脱发

大量广告信息挤占搜索结果固然会造成搜索体验的急剧下降,在这种情况下,盲测用户选择百度对手的搜索结果也是一种必然,但是当我们讨论盲测评估作为一种统计手段的有效性的时候,就不能不考虑“伪盲测”对统计结果的影响了。 如果评估者希望消除“伪盲测”对测评结果的影响,唯一可行的办法是限定关键词的范围,将盲测限定在那些没有商业价值,广告竞争不激烈的关键词,但是限定关键词的范围,又会将测评者的影响引入到评估结果中。

由此,我得出的结论是,任何有百度参与的搜索引擎用户体验盲测,都是没有统计意义的。 





评论

  • 百度是搜索引擎吗?广告发布器而已。
    snowyowls 回复 disfrane 说:
    哈哈,这话说的,太刻薄了哈~,套句戏词,不愿意吃你拔啦开啊拔啦开还有那大呛盘呢!
    (2007-06-11 22:26:37)
    disfrane | http://disfrane.blogbus.com 发表于 2007-06-11 22:19:36。

发表评论

姓 名
E-mail
地 址