高斯正态分布
正态分布,一般都只会讲公式,怎么证明的就不提了。我遇到这家伙有两个地方:一个是高中数学课上;一个是本科《误差理论和测量平差》课上。找点资料,想自己推到一下如何得到高斯正态分布的公式。
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian Distribution)。我习惯合起来叫 高斯正态分布 。(刚好和Linux Distribution: linux发行版 的英文单词一样)
期望(平均数):μ
标准差 ,
方差 为。
当 和 时候称为: 标准正态分布 。
matlab绘制正态分布概率密度函数图像的命令为normpdf,normpdf函数的调用格式为normpdf(x,mu,sigma),其中mu为0,sigma为1时,为标准正态分布。
在高斯分布中有三个数学符号,先来解释这个三个数学符号的含义,然后再说明这个公式的推导思路和推导方法。
三个符号 在数学上分别叫做平均值(又称数学期望),标准差,自然数。即:
平均值(又称数学期望):
标准差:
自然数:
对于数据:
平均数:
语言解释: 平均数 就是所有数加起来的和除以数据个数n。
数学的含义是:数据中间位置的具体数值。
详细说明方差方差和标准差之前,先复习一下关于 勾股定理 (在西方又称 毕达哥拉斯定理 )和 平面两点间距离公式 。
在直角三角形中,对于边长a,b,c有如下关系:
即
在平面坐标系x-o-y下对任意两点 间的距离D有:
通过勾股定理和平面两点间距离公式可以看出,型如
表示的含义为两个之间的距离。数值越小,证明两个之间越近。
一组数据,平均数是这个数据的中心,那么就可以用其他数据到平均数的距离来衡量数据和平均数的远近关系。即这组数据是聚拢一些呢,还是分散一些呢。
方差
因为距离D是需要开方的,所以 方差的含义是距离的平方 。对开方后的方差称为标准差 。
假设有两组数据:
说明两组数据的中间值数值一样,且都为零。平均值可以谅解为此数组中的中心位置。
即 说明:
A组数据之间的距离较小,数据较聚拢;
B组数据之间的距离较大,数据较分散;
从 欧拉公式看出,把字母e定义成自然数,和欧拉是有直接关系的。倒不太相信百科里说的 欧拉选这个字母的原因,不太可能是因为这是他自己名字Euler的首字母,因为他是个很谦虚的人,总是恰当地肯定他人的工作。
其实从这个公式还是不太能看出来e=2.71828,一开始谁会想到这个式子就极限就是自然数e呢。
但我们可以从对数和指数的关系来联系e是怎么来的。
利用对数运算性质中的化平方为相乘的特性,我们知道自然数在对数运算中是最常用的底数。
对于对数运算:
对于指数求导
那么如果 就好了,a等于多少,才会使得 呢?
恰巧a等于自然数e的时候,lne=1.
于是,可以将a=e带入指数求导公式:
对函数求导后依旧是其本身,这是一个很好的性质。
е主要出现在涉及增长的地方,比如说经济增长、人口增长、放射性衰变等,可以说е代表了自然率之美。
比如某个市人口为120万人,每年的人口增长率为20%:
一年后人口:100万+100万x20%=100万(1+20%)=120万
两年后人口:120万+120万x20%=120万(1+20%)=100万(1+20%)(1+20%)=
三年后人口:=
四年后人口:=
X年后人口:=
当人口增长率不可能一直保持20%,因为生存空间有限,增长率应该是随着时间而降低的。假设增长率和时间X成反比,即增长率为
那么上述人口增长的数学模型可以抽象为:
当我们想知道很多年后的人口增长,即时间X趋向无穷 的人口时候即可得极限:
为什么正态分布如此常见
为什么数据科学家都钟情于最常见的正态分布?