统计学基本概念
1个回答
展开全部
1.变异(variation):是社会和生物医学中的普遍现象。
2.总体(population):根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体。
3.样本(sample):从总体中随机抽取的部分研究对象。
4.随机抽样(random sampling):为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。
5.参数(parameter):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数。
6.统计量(statistic):样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 s。 参数附近波动的随机变量 。
7.频率(frequency):样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。
8.概率(probability):随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
9.小概率事件:P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。
10.随机误差 (random error):随机误差受测量精确度限制,重复测量获得的实际测量值往往并不能稳定在同一值,而是无方向性地围绕某一个数值左右波动,这种误差称为随机误差 。
11.系统误差 (systematic error):也叫偏倚(bias) , 是测量仪器或人为因素等导致的实际测量值与真实值之差。
12.准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。
13.可靠度(reliabiliy):也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。
14.相关系数(correlation coefficient):又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1 r 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
15.决定系数(coefficient of determination) :回归平方和与总平方和之比。取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
16.偏回归系数:
17.剩余标准差( Root MSE ):反映了回归方程的精度,其值越小说明回归效果越好。
18.复相关系数(multiple correlation coefficient):
19.偏相关系数(partial correlation coefficient):
20.优势比:
-不能以构成比代率
-计算相对数分母不宜太小
如果例数较少会使相对数波动较大。
-正确计算合计率
-注意资料的可比性
(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。
(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。
-样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。
标准化法
当两组资料内部构成不同,且各小组率亦明显不同时,不能直接比较两个合计率,而须采用统一的标准校正后方能比较,这种采用统一的内部构成,然后计算标准化率的方法,称为标准化法。
标准化法的基本思想
采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。
-编制原则
◆重点突出,简单明了
◆主谓分明,层次清楚
◆数据准确、可靠,文字和线条尽量从简
-结构
▲标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
▲标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。
▲线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
▲数字:用阿拉伯数字表示。 无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。
▲备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
1.统计表不一定是唯一的,同一份数据经过标目重排或分解组合,可以根据需要构造不同形式的统计表。
2.避免内容混杂,表达不清,结构混乱。若标目层次多于四个以上,统计表就会变得繁冗,尽量少用。
-统计图的制作原则
▲必须根据资料的性质、分析目的选用适当的统计图,由于统计图不能精确地显示数据大小,所以经常需要与统计表一起使用。
▲一个图一般只表达一个中心内容,表达一个主题,即一个统计指标。
▲绘制图形应注意准确、美观,图线粗细应用适当,定点准确,不同事物用不同线条(实线、虚线、点线)或颜色表示,给人以清晰的印象。
-统计图的结构
▲标题:其作用是简明扼要地说明资料的内容、时间和地点,一般位于图的下方中央位置并编号,便于说明。
▲图域:即制图空间,除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。
▲标目:分为纵标目和横标目,表示纵轴和横轴数字刻度的意义,一般有度量衡单位。
▲图例:对图中不同颜色或图案代表的指标注释。图例通常放在横标目与标题之间,如果图域部分有较大空间,也可以放在图域中。
▲刻度:即纵轴与横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右。绘图时按照统计指标数值的大小,适当选择坐标原点和刻度的间隔。
区别:
1.意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。
2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。
3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。
相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。
联系:1. r与b值可相互换算;
(一)处理因素( treatment factor )
(二)受试对象( subject )
(三)实验效应( experimental effect )
(一)随机化原则(randomization)
(二)对照原则 (control)
(三)重复原则 (replication)
(1)完全随机实验设计
将观察单位完全随机地分配到实验组与对照组或几个对比组中去。
(2)配对实验设计
1.同源配对:同一受试对象用两种不同的实验方法;受试对象自身实验前后的对比 。
2.非同源配对:将具有相同条件的实验对象配成对子。
(3)随机区组实验设计
1.将多方面条件相近的受试对象配成一组,称作一个区组(block)。
2.每个区组的受试对象个数 取决于 对比组组数。
3.每个区组的受试对象被随机地分配到各对比组中。
(4)交叉设计
每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。
各种抽样方法的抽样误差顺序:
分层≤系统≤单纯≤整群
实验设计,调查设计
2.总体(population):根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体。
3.样本(sample):从总体中随机抽取的部分研究对象。
4.随机抽样(random sampling):为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。
5.参数(parameter):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数。
6.统计量(statistic):样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 s。 参数附近波动的随机变量 。
7.频率(frequency):样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。
8.概率(probability):随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
9.小概率事件:P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。
10.随机误差 (random error):随机误差受测量精确度限制,重复测量获得的实际测量值往往并不能稳定在同一值,而是无方向性地围绕某一个数值左右波动,这种误差称为随机误差 。
11.系统误差 (systematic error):也叫偏倚(bias) , 是测量仪器或人为因素等导致的实际测量值与真实值之差。
12.准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。
13.可靠度(reliabiliy):也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。
14.相关系数(correlation coefficient):又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1 r 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
15.决定系数(coefficient of determination) :回归平方和与总平方和之比。取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
16.偏回归系数:
17.剩余标准差( Root MSE ):反映了回归方程的精度,其值越小说明回归效果越好。
18.复相关系数(multiple correlation coefficient):
19.偏相关系数(partial correlation coefficient):
20.优势比:
-不能以构成比代率
-计算相对数分母不宜太小
如果例数较少会使相对数波动较大。
-正确计算合计率
-注意资料的可比性
(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。
(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。
-样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。
标准化法
当两组资料内部构成不同,且各小组率亦明显不同时,不能直接比较两个合计率,而须采用统一的标准校正后方能比较,这种采用统一的内部构成,然后计算标准化率的方法,称为标准化法。
标准化法的基本思想
采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。
-编制原则
◆重点突出,简单明了
◆主谓分明,层次清楚
◆数据准确、可靠,文字和线条尽量从简
-结构
▲标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
▲标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。
▲线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
▲数字:用阿拉伯数字表示。 无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。
▲备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
1.统计表不一定是唯一的,同一份数据经过标目重排或分解组合,可以根据需要构造不同形式的统计表。
2.避免内容混杂,表达不清,结构混乱。若标目层次多于四个以上,统计表就会变得繁冗,尽量少用。
-统计图的制作原则
▲必须根据资料的性质、分析目的选用适当的统计图,由于统计图不能精确地显示数据大小,所以经常需要与统计表一起使用。
▲一个图一般只表达一个中心内容,表达一个主题,即一个统计指标。
▲绘制图形应注意准确、美观,图线粗细应用适当,定点准确,不同事物用不同线条(实线、虚线、点线)或颜色表示,给人以清晰的印象。
-统计图的结构
▲标题:其作用是简明扼要地说明资料的内容、时间和地点,一般位于图的下方中央位置并编号,便于说明。
▲图域:即制图空间,除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。
▲标目:分为纵标目和横标目,表示纵轴和横轴数字刻度的意义,一般有度量衡单位。
▲图例:对图中不同颜色或图案代表的指标注释。图例通常放在横标目与标题之间,如果图域部分有较大空间,也可以放在图域中。
▲刻度:即纵轴与横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右。绘图时按照统计指标数值的大小,适当选择坐标原点和刻度的间隔。
区别:
1.意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。
2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。
3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。
相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。
联系:1. r与b值可相互换算;
(一)处理因素( treatment factor )
(二)受试对象( subject )
(三)实验效应( experimental effect )
(一)随机化原则(randomization)
(二)对照原则 (control)
(三)重复原则 (replication)
(1)完全随机实验设计
将观察单位完全随机地分配到实验组与对照组或几个对比组中去。
(2)配对实验设计
1.同源配对:同一受试对象用两种不同的实验方法;受试对象自身实验前后的对比 。
2.非同源配对:将具有相同条件的实验对象配成对子。
(3)随机区组实验设计
1.将多方面条件相近的受试对象配成一组,称作一个区组(block)。
2.每个区组的受试对象个数 取决于 对比组组数。
3.每个区组的受试对象被随机地分配到各对比组中。
(4)交叉设计
每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。
各种抽样方法的抽样误差顺序:
分层≤系统≤单纯≤整群
实验设计,调查设计
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询