很有意思的“正态分布”解释
想要了解更多数据分析的内容,可以看作者主页 https://www.zhihu.com/column/houzi
假设你老妈挺操心你单身狗的生活,怕你孤独而死。为了给你寻找优质的相亲对象,就把你的照片放到了相亲网站上。
艾玛,这可好一下子吸引来200多个人留言,要与你“私定终身”。
老妈可谓是王母娘娘下凡,为了提高筛选效率,于是乎就建了一个微信群,让所有人报一下自己准确的身高。
幸亏老妈当年干过些简单的数据统计工作。她以5厘米为单位,数一数每一段5厘米各有多少人。接着用身高为横轴,人数为纵轴,画了下面这张图。
仔细看这张图,你和老妈发现一个惊人的秘密:这张图形状是中间高,两边低,长得像一只倒扣的钟。
实际上人的身高就是符合正态分布的。
2017年我国18岁及以上成年男性平均身高167.1cm。
那么根据身高是正态分布,我们就可以快速的知道大部分男性的身高是集中在平均值,有小部分人的身高要么比平均值身高略高,要么略低。
神奇的地方在于,不管是人的身高,手臂长度,肺活量,还是他们的考试成绩,都符合正态分布。
这要从发明这个东东的人说起。
维多利亚时期的学者Francis Galton对数据分布很着迷,他制造了一台可以产生“数据分布”的装置。他发现这种形状适用于用于很多数据,他将其命名为“正态分布”(The Normal Distribution)。
正态的英文单词是“normal”,意思是“常见的,典型的”, 主要是因为这种分布能恰当代表多种多样的数据类型。
1)员工绩效
大部分员工的业绩,都是一般的,做得特别好的非常少,做得特别差的也不多见。这就是为什么绩效管理领域,会用“活力曲线”来考核业绩。
什么是“活力曲线”呢?
员工流失率太高显然不好。据计算,招聘的过程花费,大概是这名员工年薪的50%。过高的员工流失率,意味着失控的招聘成本。离职的业绩损失,大概是这名员工年薪的30%-400%。过高的员工流失率,更意味着巨大的业绩损失。
员工流失率太低也不好。极低的员工流失率,通常来自对低绩效的容忍。允许绩效差的员工留在团队,损失的不仅是工资,而是本应获得的业绩。另外,绩效差的员工通常更不愿离开,因为他可能找不到另一份工作。为了安全,他会想办法挤走绩效好的人,你的团队会越来越没有战斗力。
通用电气前CEO杰克·韦尔奇认为,大家很容易认识到员工流失率太高的问题,却很难认识到流失率太低的危害,所以,他提出了著名的“末位淘汰制”(也叫“活力曲线”),他把员工分为:
这个制度,被认为是给通用电气带来无限活力的法宝之一。
所以,以后上班别偷懒,小心被老板裁掉。害怕吧?
2)产品质量
大部分产品的质量,都是平庸的,真正的好产品非常少,但烂到骨子里的产品也不多见。这就是为什么质量管理领域,会用6个标准差来排除掉不合格的产品。
3)快速找到停车位
根据《华尔街日报》的报道,美国人甚至连在购物商场停车都呈现出正态分布,正对着商场入口的地方停车数量最多,也就是正态曲线的“峰值”,在入口左右两侧的停车数量逐渐变少,即曲线两端下滑的“尾巴”。
你知道这个规律后,下次停车直接选择上次入口两端车少的地方进入,找到停车位的概率就很多了。
4)智商
大部分人的智商是正常的,只有少数像爱伊斯坦老爷子这样的才会智商发飙。
5)预测数据的位置
正态分布的一个神奇的地方:可以大概估算出数据的位置。
我们先从一个例子开始。
假如你选对了个人商业模式,成功开了一家公司,员工有几百早上做地铁去公司上班。
你公司可以看做下面图中的中间位置。有的人坐3站地铁可以到公司,有的人坐2站可以到公司,还有很多人住的比较近,坐1站地铁就到公司了。这里的几站地就是表示你离公司还有多远的距离。
上面这个图其实就是下面的正态分布图
中间的那条线代表平均值(例子中公司的位置)。
标准差是表示数据的波动大小。
1个标准差表示距离平均值1个标准差的位置(例子中距离公司1站地),同样的,
2个标准差,3个表示距离平均值2个标准差的位置,
3个标准表示距离平均值3个标准差的位置。
知道这3个标准差于平均值的距离,有什么用呢?
这个用处可大了去了。
正态分布的“美”,好比迈克尔·乔丹在球场上的力量、灵巧和优雅,它来自于一个事实,那就是我们通过上面这个图就能够清楚地知道:
有68.2%数值位于平均值1个标准差的范围之内
有95.4%的数值位于2个标准差的范围以内
还有99.7%的数值位于3个标准差的范围以内
这听上去似乎挺傻的,但事实上这就是统计学的基础之一。
这也是正态分布最厉害的“杀手锏”,正是这个特点才有了统计概率里的武器 中心极限定理 。
一个典型的例子就是,每一次SAT考试(被称为美国高考)都是经过精心设计,以得到一个平均分为500分、标准差为100的成绩的正态分布。
这样就会保证公平性,让大部分人可以通过考试,而少部分人通不过考试。
我们回到一开始提出的问题:
正态分布是商业界最常见的一种分布。
当影响结果(或者成功)的因素特别多,没有哪个因素可以完全左右结果时,这个结果通常就呈现正态分布。
很多事物,都可以用正态分布曲线表示,或者辅助思考,比如,科技创新接受度,基本上就符合正态分布……
人群中的个体若是按能力划分的话,分布大致应该符合正态分布曲线的样子:
其中有一个“鸿沟”,是想说明有很多人能力增长到一定程度,就会遇到无法跨越的鸿沟。
你去公司上班打工的商业模式,也是符合正态分布的。
即大部分是处于中间平均位置的,既不能大富大贵,也不会穷到沦落街头。而成为公司高管是少数人可以做到的事情。因为你的 “边际成本”不为零。
什么叫“边际成本”?
边际成本,它指的是企业生产产品时,每多生产一个,需要额外产生的成本。
你可以简单理解为,边际成本就是:
你做一件事,每多一份产出,需要多付出的代价。
所以去公司上班并不是一个边际成本为零的收入。你每多赚一块钱的工资收入,你就得多付出相应的劳动。工资收入不仅边际成本不为零,很多时候,它的边际成本是增加的。
边际成本增加的意思就是,你得没日没夜的加班,你得牺牲很多和家人朋友相处的时间,你才可能实现工资收入的增长,比如拿到年终奖。
我们常说企业要转型,传统企业要升级,要增加高新科技企业的数量。升级和转型的根本,其实就是要把成本结构从递增,改成更有效率的递减,甚至接近于零。
“边际成本”越高的行业,越是分散市场,符合正态分布:赚大钱的人少,亏大钱的也少,大部分人都趋向赚取平均利润。
回到一开始提出的问题上来:为什么你很努力的上班,却还是当不了公司高管?
答案就很简单了,因为你选择的上班领工资是正态分布的个人商业模式, 大部分 人不可能成为高管。
所以,你选择的上班领工资是正态分布的个人商业模式,大部分人不可能成为高管。
注意,我这里说的是“大部分”,意外着是从总体的角度来看问题。
如果你说身边的某某就是高管,不好意思,你是从特殊样本来看问题。