数据分析1-描述性统计分析

 我来答
世纪网络17
2022-06-23 · TA获得超过5931个赞
知道小有建树答主
回答量:2426
采纳率:100%
帮助的人:140万
展开全部

通过根据随机变量的分布状况、可以分为 离散概率 连续概率

我们通常用集中趋势、离散程度、分布形态去描述一组样本数据。

将一组计量资料按观察值大小分为不同组段,然后将各观察值归纳到各组段中,最后清点各组段的 观察值 个数(称 频数 ),以表格形式表示之,称为频数分布表又称"频次分布表",简称“ 频数表 ”

转化为频次直方图

用途

在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。

根据应用场景又可以分为
算术平均数 使用场景十分广泛、很容易受极值影响

对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的 平均数 作为中位数

在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的 数值 ,叫众数,有时众数在一组数中有好几个。用 M 表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。

众数算出来是销售最常用的,代表销售的最多

在统计学上描述观测值偏离中心 位置 的趋势,反映了所有观测值偏离中心的分布情况

极差 又称范围误差或 全距 (Range),以R表示,是用来表示统计资料中的 变异量数 (measures of variation),其 最大值 与最小值之间的 差距 ,即最大值减最小值后所得之数据.

variance)是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量。概率论中方差用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的 平均数 。在许多实际问题中,研究方差即偏离程度有着重要意义。

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。 因此方差越大,数据的波动越大;方差越小,数据的波动就越小

标准差 ,中文环境中又常称 均方差 ,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同

由于 方差 是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。

在统计学中样本的均差多是除以自由度n,它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

当标准差来描述本组样本离散程度时,分母为n,当标准差通过样本来描述总体离散情况时,分母选用n-1

变异系数:当需要比较两组数据 离散程度 大小的时候,如果两组数据的测量尺度相差太大,或者数据 量纲 的不同,直接使用 标准差 来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据 平均数 的比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差、标准差和 方差 一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。

变异系数的计算公式为:变异系数 C·V =( 标准偏差 SD / 平均值Mean )× 100%
在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。

四分位数( Quartile )是指在统计学中把所有 数值 由小到大排列并分成四等份,处于三个分割点位置的 数值 。多应用于统计学中的 箱线图 绘制。

第一四分位数 (Q1) ,又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2) ,又称“ 中位数 ”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3) ,又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称 四分位距 (InterQuartile Range,IQR)

"盒式图"或叫" 盒须图 ""箱形图"boxplot(也称箱须图(Box-whiskerPlot)须图又称为箱形图,其绘制须使用常用的 统计量 ,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。

我一般用户 峰值 偏度 来描述分布的形态

表征 概率 密度分布曲线在 平均值 处 峰值 高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。

峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本 标准差 。 正态分布 的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的 正态性

表征 概率 分布密度曲线相对于 平均值 不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。

两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左 偏态 ,此时数据位于 均值 左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上 偏离 正态分布 时,可用偏离来检验分布的 正态性 。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
美林数据技术股份有限公司
2020-10-29 广告
Tempo大数据分析平台,是一款面向企业用户的数据分析与应用工具,为用户提供报表设计、可视化分析、机器学习、文本分析等自助式数据分析与探索。平台基于大数据架构,集数据接入、数据分析探索、成果管理与应用为一体,面向企业全民用户提供从数据到业务... 点击进入详情页
本回答由美林数据技术股份有限公司提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式