如何判断一组数据是否符合正态分布
展开全部
方法和详细的操作步骤如下:
1、第一步,新建Excel文档,见下图,转到下面的步骤。
2、第二步,执行完上面的操作之后,输入x轴值(计算分布度),例如区间[-1,1],间隔为0.1,见下图,转到下面的步骤。
3、第三步,执行完上面的操作之后,由AVERAGE函数计算的平均值为0,见下图,转到下面的步骤。
4、第四步,执行完上面的操作之后,选择函数STDEV并计算标准偏差,见下图,转到下面的步骤。
5、第五步,执行完上面的操作之后,选择正态分布函数NORMDIST并计算返回概率密度分布值,见下图,转到下面的步骤。
6、第六步,执行完上面的操作之后,选择“图表”-->“折线图”选项,然后完成分布图,见下图。这样,就解决了这个问题了。
展开全部
在前面的文章中讲过,很多模型的假设条件都是数据是服从正态分布的。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。
描述统计方法
描述统计就是用描述的数字或图表来判断数据是否符合正态分布。常用的方法有Q-Q图、P-P图、直方图、茎叶图。
1. Q-Q图
此Q-Q非用于聊天的QQ,Q是quantile的缩写,即分位数。 分位数就是将数据从小到大排序,然后切成100份,看不同位置处的值。比如中位数,就是中间位置的值。
Q-Q图的x轴为分位数,y轴为分位数对应的样本值。x-y是散点图的形式,通过散点图可以拟合出一条直线, 如果这条直线是从左下角到右上角的一条直线,则可以判断数据符合正态分布,否则则不可以。
拟合出来的这条直线和正态分布之间有什么关系呢?为什么可以根据这条直线来判断数据是否符合正态分布呢。
我们先来想一下正态分布的特征,正态分布的x轴为样本值,从左到右x是逐渐增大的,y轴是每个样本值对应的出现的概率。概率值先上升后下降,且在中间位置达到最高。
可以把Q-Q图中的y轴理解成正态分布中的x轴, 如果拟合出来的直线是45度,可以保证中位数两边的数值分布是一样的,即正态分布中基于中位数左右对称。
在Python中可以使用如下代码来绘制Q-Q图:
from scipy import stats fig = plt.figure res = stats.probplot(x, plot=plt) plt.show
与Q-Q图类似的是P-P图,两者的区别是前者的y轴是具体的分位数对应的样本值,而后者是累计概率。
2. 直方图
直方图分为两种,一种是频率分布直方图,一种是频数分布直方图。频数就是样本值出现的次数,频率是某个值出现的次数与所有样本值出现总次数的比值。
在Python中我们可以使用如下代码来绘制频数分布直方图:
importmatplotlib.pyplot asplt plt.hist(x,bins = 10)
可以使用如下代码来绘制频率分布直方图:
importseaborn assns sns.distplot(x)
与直方图类似的还有茎叶图,茎叶图是类似于表格形式去表示每个值出现的频次。
统计检验方法
讲完了描述统计的方法,我们来看一下统计检验的方法。统计检验的方法主要有SW检验、KS检验、AD检验、W检验。
SW检验中的S就是偏度,W就是峰度,峰度和偏度与正态的关系我们在前面的文章有讲过,没看过的同学可以去看看:你到底偏哪边的?
1. KS检验
KS检验是基于样本累积分布函数来进行判断的。可以用于判断某个样本集是否符合某个已知分布,也可以用于检验两个样本之间的显著性差异。
如果是判断某个样本是否符合某个已知分布,比如正态分布,则需要先计算出标准正态分布的累计分布函数,然后在计算样本集的累计分布函数。两个函数之间在不同的取值处会有不同的差值。我们只需要找出来差值最大的那个点D。然后基于样本集的样本数和显著性水平找到差值边界值(类似于t检验的边界值)。判断边界值和D的关系, 如果D小于边界值,则可以认为样本的分布符合已知分布,否则不可以。
PDF( probability density function):概率密度函数
描述统计方法
描述统计就是用描述的数字或图表来判断数据是否符合正态分布。常用的方法有Q-Q图、P-P图、直方图、茎叶图。
1. Q-Q图
此Q-Q非用于聊天的QQ,Q是quantile的缩写,即分位数。 分位数就是将数据从小到大排序,然后切成100份,看不同位置处的值。比如中位数,就是中间位置的值。
Q-Q图的x轴为分位数,y轴为分位数对应的样本值。x-y是散点图的形式,通过散点图可以拟合出一条直线, 如果这条直线是从左下角到右上角的一条直线,则可以判断数据符合正态分布,否则则不可以。
拟合出来的这条直线和正态分布之间有什么关系呢?为什么可以根据这条直线来判断数据是否符合正态分布呢。
我们先来想一下正态分布的特征,正态分布的x轴为样本值,从左到右x是逐渐增大的,y轴是每个样本值对应的出现的概率。概率值先上升后下降,且在中间位置达到最高。
可以把Q-Q图中的y轴理解成正态分布中的x轴, 如果拟合出来的直线是45度,可以保证中位数两边的数值分布是一样的,即正态分布中基于中位数左右对称。
在Python中可以使用如下代码来绘制Q-Q图:
from scipy import stats fig = plt.figure res = stats.probplot(x, plot=plt) plt.show
与Q-Q图类似的是P-P图,两者的区别是前者的y轴是具体的分位数对应的样本值,而后者是累计概率。
2. 直方图
直方图分为两种,一种是频率分布直方图,一种是频数分布直方图。频数就是样本值出现的次数,频率是某个值出现的次数与所有样本值出现总次数的比值。
在Python中我们可以使用如下代码来绘制频数分布直方图:
importmatplotlib.pyplot asplt plt.hist(x,bins = 10)
可以使用如下代码来绘制频率分布直方图:
importseaborn assns sns.distplot(x)
与直方图类似的还有茎叶图,茎叶图是类似于表格形式去表示每个值出现的频次。
统计检验方法
讲完了描述统计的方法,我们来看一下统计检验的方法。统计检验的方法主要有SW检验、KS检验、AD检验、W检验。
SW检验中的S就是偏度,W就是峰度,峰度和偏度与正态的关系我们在前面的文章有讲过,没看过的同学可以去看看:你到底偏哪边的?
1. KS检验
KS检验是基于样本累积分布函数来进行判断的。可以用于判断某个样本集是否符合某个已知分布,也可以用于检验两个样本之间的显著性差异。
如果是判断某个样本是否符合某个已知分布,比如正态分布,则需要先计算出标准正态分布的累计分布函数,然后在计算样本集的累计分布函数。两个函数之间在不同的取值处会有不同的差值。我们只需要找出来差值最大的那个点D。然后基于样本集的样本数和显著性水平找到差值边界值(类似于t检验的边界值)。判断边界值和D的关系, 如果D小于边界值,则可以认为样本的分布符合已知分布,否则不可以。
PDF( probability density function):概率密度函数
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
用minitab,点“统计”,“正态性检验”,看P值,如果大于0.05,是正态分布,如果没有就不是。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
2017-09-18
展开全部
一般是画出频率直方图,看它是否符合正态分布曲线,如果差不多即为满足。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
正态性检验:判断总体是否服从正态分布的检验
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询