一组数据的分布特征可以从哪几个方面进行测度
数据的分布特征可以从偏态与峰度测度、离散程度测度、集中趋势的测度这三个方面测度和描述。
偏态是指非对称分布的偏斜状态。样本的峰度和正态分布相比较而言,若峰度大于三,峰的形状比较尖,比正态分布峰要陡峭,反之亦然。离散程度指的是通过随机地观测变量各个取值之间的差异程度。集中趋势表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。
集中趋势又称“数据的中心位置”、“集中量数”等。就变量数列而言,由于整个变量数列是以平均数为中心而上下波动的,所以平均数反映了总体分布的集中趋势,它是表明总体分布的一个重要特征值。
根据变量数列的平均数,就可以了解所研究总体的集中趋势和一般特征。集中趋势是用来描述舆论现象的重要统计分析指标。
常用的有平均数、中位数和众数等,它们在不同类型的分布数列中有不同的测定方法。
相对而言,其中集中趋势又称“数据的中心位置”、“集中量数”等。它是一组数据的代表值,集中趋势的概念就是平均数的概念,它能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。
分布特征
分布特征是从一个侧面反映分布的性状即分布的形状特点和其他一些特性。在这样的意义上,样本分布与总体分布除n与N以及抽样调查与全面调查的区别外并无二致,所以我们以下有时对样本分布与总体分布并不进行严格区分。
借助这些特征,我们可以方便了解、描述一个分布,并把这一分布与其他分布加以比较。描述分布及其特征就是所谓描述统计的任务和内容。
数据的来源
1、源于企业内部,如交易、运营、财务、人力等部门产生的自有数据。
2、源于三方数据,如网络数据、通信数据、信用数据、客户数据等。
3、源于采集数据,如通过传感器、图像视频、社交媒体、物联网等途径接收到的数据。