数据的描述性统计

 我来答

1个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

舒适还明净的海鸥i
2022-07-02 · TA获得超过1.7万个赞

知道小有建树答主

回答量：380

采纳率：0%

帮助的人：68.9万

我也去答题访问个人页

关注

展开全部

在实际工作中，对于刚接手的数据集，在正式处理需求前，除了需要梳理清楚数据上报及转发环节，还需要对数据集进行质量评估和了解数据集的描述性统计特征。在很多公司里，数据分析师「触手可及」的便是数据开发工程师处理过后的数据，在上述环节中，分析师尤其需要重点关注数据集的描述性统计特征，了解不同类型的数据的集中、离散和分布程度，以便在业务提数时，补充合理的筛选条件，避免计算出来的指标有误导性。

所有的结构化数据都可以从三个维度进行描述，这三个维度就是：

寻找反映数据集某一特征的代表值或中心值，表明所研究的对象在一定的条件下的共同性质和一般水平。

概念：对于数据集合，将所有的数值按照它们的大小，从高到低进行排序，如果数据集合包含的数值个数是奇数，那么排在最中间的数值就是该数据集合的中位数，如果数据集合的数值为偶数，那么取最中间两个数值的算术平均值作为中位数。
应用：中位数能够避免数据的平均水平受到异常值的影响，因此在做数据分析时，不仅要计算算数平均数，也计算中位数，若两个数字差距很大，就用中位数作为平均数。

概念：数据集合中出现次数最多的数值。
应用：众数真正的价值在于类别型数据，用于统计各类别的数量。

概念：数据集合中最大值与最小值的差值，表示整个数据集合能够覆盖的数值距离。
应用：极差虽能表示数据集合的波动大小，但没有提供两个极值以外的数值的信息，且对极值非常敏感，不太可靠，需要结合其他离散程度描述指标来描述数据集合的离散程度。

概念：数据集合的所有数值与平均值的偏差（取绝对值）之和，除以数值个数。

概念：描述数值与均值的偏离程度的指标。方差是各个数据分别与其平均数之差的平方的和的平均数。而标准差则是方差的算术平方根。
应用：方差/标准差值越大，代表大部分数值和其平均值之间的差异较大，数据离散程度也就越大。在处理风险评估模型时，一个数据的波动性，说明它涵盖的信息量越大，信息量越大，不可知的因素越多，因此风险会更大。

概念：从数据总体中随机抽取一定数量的样本数值，然后用样本数值的方差和标准差来估计总体的方差和标准差。

总体方差公式的分母就是数据集合的总数量 N，而样本方差公式的分母却是 n-1，即抽取样本量 n 减去 1。主要是因为用样本方差估计总体方差总有一定的偏差所在。

概念：数据集合的标准差与算术平均值的比值。
应用：无单位指标，不仅可以说明同类事物的相对离散程度，也可以说明不同类型事物的相对离散程度。

概念：对于数据集合，将所有的数值按照它们的大小，从高到低进行排序，排在四分之一位置的数值即为第一四分位数 Q1，以此类推，分别有有第二、三、四四分位数，Q2，Q3，Q4。四分位极差等于第一四分位数与第三四分位数的差值（Q3-Q1），这个差值区间包含了整个数据集合 50% 的数据值。

概率
概念：度量随机事件中某一个结果发生的可能性大小的数值。

1）古典概率法：事件结果数目已知，且每种结果对应的发生概率相等。
2）统计概率法：需要统计过往事件发生的结果频数来确定。
3）主观概率法：分析者对预测事件发生的概率做出主观估计。

概率分布
概率分布是指事件的不同结果对应的发生概率所构成的分布，可以利用二维坐标进行形象的解释。

二项分布的试验结果只有两个（成功和失败，0 和 1），而多项分布的试验结果则多于两个，多项分布试验的特点如下：

假设某个多项分布试验有 k 个结果，每种结果发生的概率分别为 p1，p2…，pk（概率之和为 1）现在进行 n 次多项分布试验，假设观测结果为 a1 的次数为 x1 次，结果为 a2 的次数为 x2 次，…，结果为 ak 的次数为 xk（n=x1+x2+…+xk），多么多项分布的联合概率函数为：

而二项分布中，只有和（记为 q）两种概率，因此二项分布的概率函数为：

上述公式里，P(X=x) 表示特定事件的概率，在实际工作中，常结合数学期望一起使用。

数学期望

数学期望是对随机变量中心位置的一种度量，是试验中每次可能结果的乘以其结果的总和。

假设一等奖成本 1000 元，二等奖成本 500 元，三等奖成本 100 元，欢迎下次再来当然没钱，而用户参加一次抽奖需要 10 元。我们将概率问题转换成运营方的收益和成本计算期望

下面从公司角度分析活动的盈亏成本：

A 方案的数学期望：

B 方案的数学期望：

A 方案能否期望没抽奖运营方亏损 110 元，B 方案则是亏损 150 元。

而从用户的角度分析活动的收益成本：

A 方案的数学期望：

B 方案的数学期望：

在二项/多项分布试验中，每次试验结果的发生概率是不变的，而超几何分布试验结果的概率会随着每一次试验的发生而改变（无放回抽样）。

假设有限数据总体包含 N 个数值，其中符合要求的个案数量为 m 个，如果从该数据总体中抽取 n 个个案，其中有 k 个是符合要求个案的概率计算公式为：

基于过去某个随机事件在单位时间内的平均发生次数，预测该随机事件在未来同样单位时间内发生不同次数的的概率。

根据随机事件发生一次的平均等待时间来推断某个时间段内，随机事件发生的概率。

是古典概率分布的连续形式，是指随机事件的可能结果是连续型数据变量，但所有的变量对应的概率都相等。

正态分布的数据特点：

偏态分布的数据有什么特点？

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

数据的描述性统计

其他类似问题

为你推荐：