87.53%的再后续
给一位与我走过
很多大街小巷的人
一、前言
博主刚刚写了关于“87.53%”这个数据的两篇文章,令网站流量“大增”,实属不易,但原文中关于统计学的有些说明尚未表达清楚,受刚刚所托,在这里作补充说明,如果那位读者对内容有质疑,欢迎指正。
二、关于“87.53%”的来龙去脉
从事情的发生顺序来看,大致如下:推友yhog,在微博上发布了一条关于封杀BT的民意调查消息:“国家统计局称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。”——在网络流传开来后,引起大众对于统计局的质疑:100人的比率调查为何会出现“0.53%”这个尾数?——刚刚撰文解释:统计学中有置信区间,计算时会出现小数,并且这条信息只是yhog的一个玩笑而已。
三、对于抽样调查的进一步说明
以上就是时间的大致过程,刚刚因为网站的流量大增曾兴奋得难以入睡,望刚刚以后再接再厉。对于抽样的目的和具体的数据处理,在这里作进一步说明。
我们先假设统计局真的有做过这样一个调查,对网民进行随机抽样,样本容量为100人,调查目的就是关于“是否赞成封杀BT网站”,这称作比率调查。在统计学上,抽样调查的目的是通过抽取样本进行调查,避免了耗费大量人力物力的普查,根据抽样结果来推断总体的情况。为什么统计学家会认为抽样调查可以有一定的程度来代表总体的情况呢?而且抽样结果和总体的实际情况之间有误差啊?因为他们相信当抽样是独立随机而且样本充分大的时候,样本平均情况与总体平均情况之间的误差可以有很大把握控制在给定的要求之内,理论依据就是“大数定理”(知道),在此不详细说明了,而统计学家又认为,当样本容量趋向无穷大时,样本的平均情况服从正态分布,可以推出总体也服从正态分布,反之亦然。这两个前提条件就是抽样调查的重要理论依据,而众多网友质疑的“0.53%”是来源于对原始数据的进一步处理,也与这两个理论有关。
为了从抽样数据中得出更接近总体情况的真实参数,必须要计算出样本状况与总体之间的误差,常用的方法是:样本调查结果的离散程度,即样本数据之间的差异程度越大,那么产生误差的可能性就越大,而测定离散程度的数学工具是方差,统计学上用样本平均数的标准差来反映总体的误差程度,在比率调查中,误差的计算公式为:
p为某现象在样本中的比率,n为样本容量
举例,假如有20个网民支持封杀BT,那么比率p=20%,误差为4%,这个4%其实是一个估计值,可靠性如何单凭这个估计值难以回答,而我们的目的是想知道样本数据有多大把握来表示总体,也就是这个计算出来的误差是否可信,于是就有了原文所说的置信区间。置信区间是给予调查者对于抽样精确度和把握程度而计算出来,基本原理是这样:根据正态分布规律,总体情况的均值为正态分布的中心,呈钟型对称分布,样本也是基于这个前提。

在上图中,可见 p-μ至p+μ处的图形面积占正态分布总面积的68.27%,如果将抽样结果变成一个区间,如支持封杀的网民有16%~24%,则理论上有68.27%的把握认为总体网民的真实意见在这16%~24%之间;而将误差扩大一倍,即12%~28%则有95.45%的把握,往往精度越高,把握度就越低。这误差控制了抽样的精度和信度,在进行抽样之前,统计者会习惯上提出一定的把握程度,例如95%的把握机率,就是1.96倍的误差,或给出一个误差的精确度,如误差小于2%,结合历史上的误差数据,通过相关公式来推算调查多少个单位就取得精度和信度的平衡,公式在此就恕不列出了。
因为统计时为了加大把握而设计了一个认为的误差范围,而得出的误差极有可能不是整数, 这就是抽样原始数据的大致处理过程,也不难理解出现“87.53%”其实是可能的。以上就是我对原文作出的统计学补充,欢迎指正。
四、个人评论
继续我的假设,如果统计局真的有做过这个调查,得出87.53%的封杀BT支持率,那么质疑为何会出现“0.53%”的大众就完全有可能被反将一军了,统计局完全可以用完整的抽样调查操作过程去反驳。即使有民众继续怀疑样本选择是否有偏差——谁知道那100人是否都是文化部的官员?统计局也可以用保护隐私为由,不公开受访者资料。
我们常说“被XX”,工资“被增长”、环境“被改善”等等,很多官方结论看似下得有理有据、科学性十足,但普罗大众就是感到结论与现实感受严重不符,却又无从反驳,只好用网络语言来宣泄郁闷了。官方结论的权威在于有科学依据,而科学依据所需的技术手段掌握在学者手里,政客多是门外汉,可对于如何利用学者和技术,他们可不陌生,普罗大众很多时候也只有“被告知”的份了。有些有社会责任的学者甘愿成为公共知识分子,向民众普及学术内容,希望民众不至于常常被愚弄,然而在高度分工的社会之下,很难要求方舟子去批评法律政制,让梁文道做医药打假,但生活中不乏各类综合性的问题,很多公共知识分子分析评论时也难免会陷入盲人摸象的困境。我很佩服韩寒自小就有自觉的公民意识,可作为一个批评家的话,专业知识正是韩寒的短板。
所以网络让我们获得更多不同领域的资源,不同专业的学者也可以在网上讨论交换意见。虽说深造很难,但在网上获得一些入门的专业知识还是可以的,换句话说,因为有网络,想通过垄断技术来忽悠别人已经不太容易了。反过来想,就不难明白为什么要大规模封杀BT、搞GFW和进行评论审核了。
五、后记
统计学老师放下狠话:GDUBS统计学历史上的最高及格率是68%,两小时的考试时间是不大够的。“我虽不信哥,也不想挂科。”本人的低产也是因为被论文、考试折磨得焦头烂额,假期会有所改观。还是那句,因为这篇补充文主要是出于说明需要,很多细节只是带过而已,欢迎熟悉统计专业的读者批评指正。
我猜你还会喜欢看:


沙发!好文~走出象牙塔的社会学,鼓掌鼓掌!
ps.期待你们的团队在新年里有新进展啊!
谢谢,多谢helen的支持鼓励,我会继续努力,现阶段是尽力争取统计学考试不挂科
“国家统计局称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。”和“国家统计局称,根据他们随100位网友的机调查显示,有87.53%的网友支持封杀BTchina。”,这两种表达是有区别的吧。
麻烦说明清楚,谢谢
不好意思,我想说的是:“国家统计局称,在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina。”原文这句话中百分比显然是针对100这个样本说的,因此小数点不可能。而换成“国家统计局称,根据他们随机100位网友的调查显示,有87.53%的网友支持封杀BTchina。”这句话是由样本推广至总体,那么根据统计学误差调整出现小数点是不足为奇的。但网民质疑的是第一句话,而不是第二句,因此你通篇解释是否有点打中自己立的靶的嫌疑。
我承认写文章的时候的确有纰漏,谢谢koko的质疑。首先,这条消息是推友yhog杜撰的,如果在正规的统计调查中,统计局几乎不会出现这种漏洞。其次,正如koko你所言,网民看到这条消息后,普遍质疑的应该是原始数据为何会出现小数,假设这条消息是成立,且按照统计方法来操作,我的说明给这个小数的出现提供一种解释:样本是可以推导出总体,计算过程中会出现小数。再次,写此文的目的是为了补充之前博主刚刚的文章,将抽样调查的目的和大概方法说一遍,如有疑问欢迎继续指正。
忽悠,你就继续忽悠吧,搞这么复杂?统计学都出来了?你的选项是什么?有那么多项吗?不就赞成不赞成吗?况且,你已经说明了“随机”,如果真的做了这样的调查,为什么还要随机?直接取调查结果不就得了吗?
外行同学,你莫激动。「87.53事件」过了这么久,大家都清楚「100人里的87.53%赞成率」只是网友用来开玩笑的段子。
如果你能明白这一点,那么我相信你就不会再认为EmileLam同学的这篇文章是忽悠文。这篇文章的立意前提是,假设这个调查真的做了出来,同时填答中没有漏答等情况。文章旨在讲解,百分比小数点后的赞成率,在统计学上是如何实现的。
这个87.53%只是推友yhog的玩笑话,谁知被广大网友当真了,事情的来龙去脉,请看另外两篇相关文章。
我不是说真的有这个统计数据,也不是为统计局辩护(何况根本没有做过这个统计),而是说,大家质疑的小数点部分,那个0.53%,如果按照正规的调查步骤,统计学上是有可能出现的。因为“随机抽样”在统计学上的实际意义,就是为了从样本的意见中推算出总体的趋势,虽然选项只有两个,但是公布出来的结果不一定是原始的抽样调查结果,而可能是经过一系列推算后,对总体趋势的预测结果。
100人当中不可能会有87.53%的支持率,我相信统计局是不可能发布这条消息,但就是一条笑话都可以让那么多人信以为真。仅仅靠第一反应来看问题是不够的,还要有专业知识。
文章看来还是要再说清楚一些才好。谢谢 外行 同学的意见