数据的描述性统计
在实际工作中,对于刚接手的数据集,在正式处理需求前,除了需要梳理清楚数据上报及转发环节,还需要对数据集进行质量评估和了解数据集的描述性统计特征。在很多公司里,数据分析师「触手可及」的便是数据开发工程师处理过后的数据,在上述环节中,分析师尤其需要重点关注数据集的描述性统计特征,了解不同类型的数据的集中、离散和分布程度,以便在业务提数时,补充合理的筛选条件,避免计算出来的指标有误导性。
所有的结构化数据都可以从三个维度进行描述,这三个维度就是:
寻找反映数据集某一特征的代表值或中心值,表明所研究的对象在一定的条件下的共同性质和一般水平。
概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,如果数据集合包含的数值个数是奇数,那么排在最中间的数值就是该数据集合的中位数,如果数据集合的数值为偶数,那么取最中间两个数值的算术平均值作为中位数。
应用:中位数能够避免数据的平均水平受到异常值的影响,因此在做数据分析时,不仅要计算算数平均数,也计算中位数,若两个数字差距很大,就用中位数作为平均数。
概念:数据集合中出现次数最多的数值。
应用:众数真正的价值在于类别型数据,用于统计各类别的数量。
概念:数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。
应用:极差虽能表示数据集合的波动大小,但没有提供两个极值以外的数值的信息,且对极值非常敏感,不太可靠,需要结合其他离散程度描述指标来描述数据集合的离散程度。
概念:数据集合的所有数值与平均值的偏差(取绝对值)之和,除以数值个数。
概念:描述数值与均值的偏离程度的指标。方差是各个数据分别与其平均数之差的平方的和的平均数。而标准差则是方差的算术平方根。
应用:方差/标准差值越大,代表大部分数值和其平均值之间的差异较大,数据离散程度也就越大。在处理风险评估模型时,一个数据的波动性,说明它涵盖的信息量越大,信息量越大,不可知的因素越多,因此风险会更大。
概念:从数据总体中随机抽取一定数量的样本数值,然后用样本数值的方差和标准差来估计总体的方差和标准差。
总体方差公式的分母就是数据集合的总数量 N,而样本方差公式的分母却是 n-1,即抽取样本量 n 减去 1。主要是因为用样本方差估计总体方差总有一定的偏差所在。
概念:数据集合的标准差与算术平均值的比值。
应用:无单位指标,不仅可以说明同类事物的相对离散程度,也可以说明不同类型事物的相对离散程度。
概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,排在四分之一位置的数值即为第一四分位数 Q1,以此类推,分别有有第二、三、四四分位数,Q2,Q3,Q4。四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合 50% 的数据值。
概率
概念:度量随机事件中某一个结果发生的可能性大小的数值。
1)古典概率法:事件结果数目已知,且每种结果对应的发生概率相等。
2)统计概率法:需要统计过往事件发生的结果频数来确定。
3)主观概率法:分析者对预测事件发生的概率做出主观估计。
概率分布
概率分布是指事件的不同结果对应的发生概率所构成的分布,可以利用二维坐标进行形象的解释。
二项分布的试验结果只有两个(成功和失败,0 和 1),而多项分布的试验结果则多于两个,多项分布试验的特点如下:
假设某个多项分布试验有 k 个结果,每种结果发生的概率分别为 p1,p2…,pk(概率之和为 1)现在进行 n 次多项分布试验,假设观测结果为 a1 的次数为 x1 次,结果为 a2 的次数为 x2 次,…,结果为 ak 的次数为 xk(n=x1+x2+…+xk),多么多项分布的联合概率函数为:
而二项分布中,只有 和 (记为 q)两种概率,因此二项分布的概率函数为:
上述公式里,P(X=x) 表示特定事件的概率,在实际工作中,常结合数学期望一起使用。
数学期望
数学期望是对随机变量中心位置的一种度量,是试验中每次可能结果的乘以其结果的总和。
假设一等奖成本 1000 元,二等奖成本 500 元,三等奖成本 100 元,欢迎下次再来当然没钱,而用户参加一次抽奖需要 10 元。我们将概率问题转换成运营方的收益和成本计算期望
下面从公司角度分析活动的盈亏成本:
A 方案的数学期望:
B 方案的数学期望:
A 方案能否期望没抽奖运营方亏损 110 元,B 方案则是亏损 150 元。
而从用户的角度分析活动的收益成本:
A 方案的数学期望:
B 方案的数学期望:
在二项/多项分布试验中,每次试验结果的发生概率是不变的,而超几何分布试验结果的概率会随着每一次试验的发生而改变(无放回抽样)。
假设有限数据总体包含 N 个数值,其中符合要求的个案数量为 m 个,如果从该数据总体中抽取 n 个个案,其中有 k 个是符合要求个案的概率计算公式为:
基于过去某个随机事件在单位时间内的平均发生次数,预测该随机事件在未来同样单位时间内发生不同次数的的概率。
根据随机事件发生一次的平均等待时间来推断某个时间段内,随机事件发生的概率。
是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,但所有的变量对应的概率都相等。
正态分布的数据特点:
偏态分布的数据有什么特点?