神奇数字87.53的真相

BTChina的被封引出了一系列有趣的故事。现在我们来回顾一下,政府一个“得民心”的举动,是如何遭到大量网民的大肆调侃的。

从10日中午起,一条消息在人人网、Twitter、新浪微博受到大规模围观并引发大量的转发:“国家统计局称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。”与此同时,有两个不同的数字——83.xx%和94.xx%——以同样的方式小范围地转发传播着。人人网的童鞋们纷纷表示不解。有童鞋要求国家统计局公开调查数据,有部分童鞋对牛逼的小数部分0.53表示理解。而在两个微博客网站中,消息经过一轮转发后,因为热文程序的抓取和发布,令更多的人知晓并参与到转发消息的行列中,造成这条信息在微博客圈内广泛流传。网友纷纷质疑统计局的工作能力。

10日晚,李笑来老师在自己的博客发布了一篇文章,再度引爆了网友的质疑情绪。文中没有添加和引用任何个人或网友的评论,只是通过使用搜索引擎,列出了一大串出现过87.53这个数字的新闻。经过年中“工资被增长”事件之后,人们对国家统计工作开始采取不信任的态度。李老师的此文一出,当即引爆了网友对国家统计工作的强烈质疑。有网友愤愤地,(国家统计局的)这帮人现在连抄作业的基本原则都忘了。有心思慎密的网友戏谑道,87.53这个数字原本应为87.6543,但因为一些众所周知的原因删去了其中两个数字。当然也有网友表示反对意见,指出通过利用分数逼近的方法,可以推论出多个分数都能约等于87.53%,因此87.53%在政府公布数据中多次出现,仅为巧合。其后有网友列举出84.62也在搜索引擎收录到的政府公布数据中多次出现

11日凌晨,一条信息开始在Twitter上转发传播:“刚才关于统计局的消息仅是为博大家一笑,由于没有写好,导致大家理解偏差。我在此道歉,并希望大家转发本贴,仅为辟谣。”作者是ID为yhog的Twitter用户。而后来经过多方消息综合,证实yhog即为“国家统计局称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。”的原作者。作者在后来表示,87.53%的消息,原意只是写个段子让网友笑一笑,没想到最后竟发展成一股谣言。

然而一波未平,一波又起。在道歉之后,yhog发布了一条真实的新闻:“有关部门称,在某地调查的100人中,支持冬季阳光长跑的家长占97.38%。”同样的笑点让网友再一次为之疯狂。但是,这个消息很快就得到平息。

关于“100人中支持冬季长跑的占97.38%”的消息,原始出处是新华网引自大河网-大河报的一篇报道。报道中指出,其调查问卷共发放100份,有效回收100份;调查显示,在对运动项目的兴趣方面,跑步、羽毛球、篮球、乒乓球很受学生青睐,其比例分别是58.17%、58%、45.69%、42.18%,而选择足球的仅有15.29%,选择其他的有13.18%;在调查长跑活动给学生带来的好处时,92.79%的学生认为强健了自己的身体,79.44%的学生认为磨炼了自己的意志力,认为能缓解压力和促进学习进步的学生分别有60.46%和49.38%。

网友luosheng对上述这一大堆无法理解的两位小数作了统计学上的解释——在计算样本容量的时候要考虑一个置信区间的问题,也就是说调查了100个人,但是并不认为这100个人都是认真作答的,因此会在样本容量上再乘上一个置信度。在luosheng推荐的维基百科链接中,我们可以了解到,统计学上有一个概念,叫“置信区间”。

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信空间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50% , 60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之五。

也就是说,新华网引述的报道中,调查得出的带有两位小数的数字,并非原本回收到的问卷中表示赞同或支持的直观统计结果,而是直观统计结果乘上数据可信程度之后得出的“可以相信”的统计数据。又因为数据可信程度一般采用95%或98%甚至99%等置信水平,因此,统计数据出现两位小数并不出奇。网友也无需大惊小怪。

本文原文地址:http://momentago.cn/blog/2009/12/truth-of-magical-number-8753.html

我的推特Twitter:@ChrisicGong


学术文,兼关于“置信区间”部分的更新

之前我在上面写到的关于“置信区间”的说法是错误的。带有小数的百分比(比如我们熟悉的87.53%)并非所谓“直观统计结果乘上数据可信程度”之后得出的数字(单纯的“乘上”这个概念是错误的)。更有可能的是,87.53%是一个估计区间的上界。以下转发一段应该算容易理解的专业讨论(原帖)。

基于参数估计的角度

这个案例是统计推断问题。通常很少计算某个统计量的点估计值,而是在控制两类错误的条件下,计算它的估计区间的上下界。例如我们可以用90%的概率推断,比率落在81.47%~87.53%中(只是描述问题,并无数据依据),然后有时会根据问题背景,将估计值用区间上界或下界表示。在本案例中,0.53们认为“支持”是他们想要的结果,不排除取上界的可能。

还有一种情况,考虑分层抽样中的总体特征的估计,可以理解成加权估计,前提是0.53们了解并使用了分层抽样的方法。例如男性比例为p,女性比例为1-p,其中男性支持的占男性的比例为R1,女性支持度为R2,这样最终的比率为R1p+R2(1-p),同样可能出现很多位小数。

12月24日更新:一些有趣的定律——隐匿的神奇数字87.53

相关文章:

87.53%是如何炼成的

87.53%发生后的一些八卦事

我猜你还会喜欢看:

  1. 87.53%的再后续
  2. 87.53的后续事儿
  3. 有求必拜
  4. 墙和反墙
  5. 【劲爆国产游戏】中国互联网:《内战2009》《上船2012》
  6. 饭否还能饭否吗?
  7. 警察叔叔偷懒了
  8. 重庆公安和史密斯

    • 庄隽
    • 十二月 11th, 2009

    哦~~置信区间~~~~这个上课听过~~

    如果verycd被封,许多网友都会很伤心的!

      • Chrisic
      • 十二月 11th, 2009

      VeryCD创始人黄一孟似乎和几个有关部门的关系还可以,应该还没那么容易被封。

    • yhog
    • 十二月 11th, 2009

    我就是YHOG.
    关于统计局的消息仅是为博大家一笑,由于没有写好,导致大家理解偏差。我在此道歉,并希望大家RT本推,仅为辟谣。

    我的推文明显是个段子。中华人民共和国国家统计局,是中华人民共和国国务院,专责全国统计和国民经济核算的直属机构。与统计是否支持BTCHINA必定无关。

      • Chrisic
      • 十二月 11th, 2009

      完全理解你的感受。
      最开始看到消息的时候第一反应是笑,当即知道此为取笑之意。
      因为我也学过统计,样本容量只有100实在算不上什么科学统计。统计局不可能干这种傻事。
      不过句子简洁有力,难免受RT的欢迎。如果将“统计局”换成“新华网”之类的五毛网,恐怕真实度会更高。呵呵。

    • Yu
    • 十二月 12th, 2009

    都说了是博大家一笑了,何必再拿没学好的知识来出丑?置信区间是个区间,87.53只是个数字。。

      • Chrisic
      • 十二月 12th, 2009

      对于看帖的和统计学不太认识的大众来说,这仅仅意味着乘了一个系数,管它是安全系数还是难度系数。
      但的确有过这样的疑问,只是懒得去厘清是置信水平还是假设检验还是抽样误差的问题。统计的课本要假期才有时间碰。

    • Emile Lam
    • 十二月 12th, 2009

    其实就是按正态分布为标准来推测事件发生的概率而已,建议你加上正态分布的3σ法则可能会清晰些。

    《How to lie with statistics》,统计老师在课堂上推荐了这本书。

    纯数字没什么意义,有意义的是为什么用这种统计方法和普罗大众看了统计结果后的第一反应。

    官方的调查结果都是为下一步行动“塑造”个合法性理由而已,这种把戏自古就有,大众不必惊讶。

    我奇怪的倒是人家发明统计是希望用数学工具排除现象中各种偏差,从而尽量准确陈述事实;可当统计有了一定权威之后,又被人当成招摇撞骗的幌子……

      • Chrisic
      • 十二月 12th, 2009

      正正是地方政府开始与民争利批地抢钱的这几年,各种统计数字的面目开始在中国发生变化。
      互联网上的民众甚至早就不再惊讶,只是几十页的网易跟帖的影响力无法抵及一页新华网代表的民意。

      ps:Emile你在后面加上统计学分析吧。我好久没碰统计学课本了……

  1. 十二月 12th, 2009
    应用来源:赵金海的
  2. 十二月 17th, 2009
想要在评论时显示头像?点此设置>