3个回答
展开全部
基本问题
1.简述统计数据的基本分类
统计数据有三种基本分类。一是按其采用的计量尺度不同,统计数据可以分为分类数据、顺序数据、数值型数据;二是按其收集方法不同,统计数据可以分为观测数据和实验数据;三是按被描述的对象和时间的关系不同,统计数据可以分为截面数据、时间序列数据和混合数据
2.总体和样本的概念及特点
(1)总体就是根据一定目的确定的所要研究事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体,简称为总体。总体具有以下三个特点:①同质性,是指构成总体的个别事物在某个方面(或某一点上)必须具有相同的性质,这是构成总体的必要条件。②变异性,是指构成总体的个别事物除了至少在某一个方面具有相同的性质以外,其他方面应该存在差异,这是进行统计研究的前提。③大量性,是指构成总体的个别事物要求足够的多,这是探究客观事物规律性的基础。
(2)样本:从全及总体中抽取出来,作为代表这一总体的部分单位组成的集合体称为样本。
样本有以下显著的特点:其一,构成样本的单位必须取自全及总体内部,不允许总体外部的单位参加抽样过程;其二,从一个全及总体中可以抽取许多个样本;其三,样本具有代表性;其四,样本具有客观性。从圆清返全部总体中抽取样本,必须排除主观因素的影响。
3.简述抽样调查的概念和特点
概念:抽样调查是按照随机原则从被研究的总体中抽取一部分单位组成样本,根据样本的调查结果对总体的数量特征作出具有一定可靠程度的推断的一种统计调查方式。
特点:①从总体中随机抽取样本单位;②抽样调查的目的是根据样本的数量特征推断总体的数量特征;③抽样误差可以事先计算并且加以控制。
4.简述在设计问卷中,设计问题顺序时应遵守的原则
①问题的顺序安排应注意逻辑性;②问题的顺序安排应注意兴趣;③问题的顺序安排应注意先易后难;④开放性橘饥问题一般放在最后。
5.简述数据分组应注意的问题
① 保持组内单位的同质性和组间单位的差异性;②统计分组要符合穷举性原则;③统计分组要符合互斥性原则。
6.什么是集中趋势和离中趋势,分别有哪些测度指标
(1)集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的 代表值或中心值。
取得集中趋势代表值的方法通常有两种:一是从一组数据(即各个变量值)中抽象出具有一般水平的量,这个量不是某一个具体变量值,但又要反映这些数据的一般水平,这种正汪平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。二是先将一组数据的变量值按一定顺序排列,然后取某一位置的变量值来反映这些数据的一般水平,把这个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数等形式。
1.简述统计数据的基本分类
统计数据有三种基本分类。一是按其采用的计量尺度不同,统计数据可以分为分类数据、顺序数据、数值型数据;二是按其收集方法不同,统计数据可以分为观测数据和实验数据;三是按被描述的对象和时间的关系不同,统计数据可以分为截面数据、时间序列数据和混合数据
2.总体和样本的概念及特点
(1)总体就是根据一定目的确定的所要研究事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体,简称为总体。总体具有以下三个特点:①同质性,是指构成总体的个别事物在某个方面(或某一点上)必须具有相同的性质,这是构成总体的必要条件。②变异性,是指构成总体的个别事物除了至少在某一个方面具有相同的性质以外,其他方面应该存在差异,这是进行统计研究的前提。③大量性,是指构成总体的个别事物要求足够的多,这是探究客观事物规律性的基础。
(2)样本:从全及总体中抽取出来,作为代表这一总体的部分单位组成的集合体称为样本。
样本有以下显著的特点:其一,构成样本的单位必须取自全及总体内部,不允许总体外部的单位参加抽样过程;其二,从一个全及总体中可以抽取许多个样本;其三,样本具有代表性;其四,样本具有客观性。从圆清返全部总体中抽取样本,必须排除主观因素的影响。
3.简述抽样调查的概念和特点
概念:抽样调查是按照随机原则从被研究的总体中抽取一部分单位组成样本,根据样本的调查结果对总体的数量特征作出具有一定可靠程度的推断的一种统计调查方式。
特点:①从总体中随机抽取样本单位;②抽样调查的目的是根据样本的数量特征推断总体的数量特征;③抽样误差可以事先计算并且加以控制。
4.简述在设计问卷中,设计问题顺序时应遵守的原则
①问题的顺序安排应注意逻辑性;②问题的顺序安排应注意兴趣;③问题的顺序安排应注意先易后难;④开放性橘饥问题一般放在最后。
5.简述数据分组应注意的问题
① 保持组内单位的同质性和组间单位的差异性;②统计分组要符合穷举性原则;③统计分组要符合互斥性原则。
6.什么是集中趋势和离中趋势,分别有哪些测度指标
(1)集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的 代表值或中心值。
取得集中趋势代表值的方法通常有两种:一是从一组数据(即各个变量值)中抽象出具有一般水平的量,这个量不是某一个具体变量值,但又要反映这些数据的一般水平,这种正汪平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。二是先将一组数据的变量值按一定顺序排列,然后取某一位置的变量值来反映这些数据的一般水平,把这个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数等形式。
展开全部
1. 变量之间关系可以分为两类:
函数关系:反映了事务之间某种确定性关系。
相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;
2. 为什么要对相关系数进行显著性检验?
实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。
当样本数较少,相关系数就很大。当笑模改样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;
改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;
3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小;
4. 多重共线性与统计假设检验傻傻分不清?
多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相碰判关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。
一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提多重共线性。
5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法码孝;
6. 什么样的模型才是一个好模型?
在测试集表现与预测集相当,说明模型没有过度拟合:在训练集上表现完美,在测试集上一塌糊涂;原因:模型过于刚性:“极尽历史规律,考虑随机误差”;拟合精度不能作为衡量模型方法的标准;
一个好的模型:只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了“容错空间”,预测误差可能减小!
7. 假设检验显著性水平的两种理解:
显著性水平:通过小概率准则来理解,在假设检验时先确定一个小概率标准----显著性水平;用 表示;凡出现概率小于显著性水平的事件称小概率事件;
通过两类错误理解: 为拒绝域面积
8. 中心极限定律与大数定理:
大数定理正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;
中心极限定理正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。
函数关系:反映了事务之间某种确定性关系。
相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;
2. 为什么要对相关系数进行显著性检验?
实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。
当样本数较少,相关系数就很大。当笑模改样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;
改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;
3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小;
4. 多重共线性与统计假设检验傻傻分不清?
多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相碰判关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。
一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提多重共线性。
5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法码孝;
6. 什么样的模型才是一个好模型?
在测试集表现与预测集相当,说明模型没有过度拟合:在训练集上表现完美,在测试集上一塌糊涂;原因:模型过于刚性:“极尽历史规律,考虑随机误差”;拟合精度不能作为衡量模型方法的标准;
一个好的模型:只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了“容错空间”,预测误差可能减小!
7. 假设检验显著性水平的两种理解:
显著性水平:通过小概率准则来理解,在假设检验时先确定一个小概率标准----显著性水平;用 表示;凡出现概率小于显著性水平的事件称小概率事件;
通过两类错误理解: 为拒绝域面积
8. 中心极限定律与大数定理:
大数定理正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;
中心极限定理正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
统旦手计学的英文statistics最早源于现代拉丁文Statisticum Collegium(国会)、意大利文Statista(国民或政治家)以及德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。十九世纪,统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问脊迟租题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方樱兆法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问脊迟租题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方樱兆法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询