使用Excel来进行数据处理
数据处理就是把,杂乱无章的数据,经过科学的系统的整理之后,变成我们所需要的数据的一个过程叫数据处理。
1、数据清洗
有四种处理重复值的方法
1.函数法
COUNTIF(你需要检查的区域,你指定的条件)对区域中满足指定条件的单元格进行计数
条件可以为,数字,字符串或者文本,例如:32、‘23’,‘>32’,'apple'
2.高级筛选法
选择要筛选的区域--》数据选项卡--》排序和筛选--》高级--》高级筛选--》将筛选结果复制到其他位置,在勾选选择不重复的记录,点击确定
3.条件格式法
(excel2010以后才能使用) 开始--》条件格式--》突出显示单元格规则--》重复值(重复值被标为不同的颜色)
4.数据透视表法
插入选项卡,新建数据透视表--》选择区域--》选择重复数据--透视表存放位置--》现有工作表--》指定为重复数据
--》将你要查重的字段拖至标签--》在拖至区域汇总
找到重复数据之后,我们需要剔除重复数据,那么剔除重复数据,有哪几种方法呢?
1.通过菜单栏操作删除重复项
选择要检查的区域,数据--》删除重复项--》选择要删除的列--》确定
2.通过排序删除重复项
选择单元格--》排序和筛选--》降序--》前面是重复项,删除
3.通过筛选删除重复列 (有点复杂)
选择单元格--》排序和筛选--》筛选--》在列标签中单击下拉菜单,按照你的筛选条件--》确定
在这里说明一件事,如果缺失值过多,说明数据收集有问题,可以接受的缺失值是在10%以下
1.定位输入
这里使用定位输入对缺失值的处理有四种
1..使用样本统计量的值代替缺失值。最常见的是使用平均值来代替缺失值
2.使用统计模型的值代替缺失值(回归模型 判别模型,需要专业的数据软件)
3.删除有缺失值的记录,会导致样本数量减少
4.将有缺失值的记录保留,在分析时候记得排除
实际中,使用第一种是比较常见的,我们采用定位一次,替换全部的方法(使用enter+Ctrl)
2.查找和替换
当缺失值以错误的标识符出现时候,可以使用
开始--》编辑--》查找和替换
或者
Ctrl+G(定位)ctrl+f(查找) ctrl+h(替换)
逻辑错误一般有两种
1.输入不符合要求
2.信息录入错误
一般情况下IF函数+特定的逻辑条件可以解决大部分问题
EG :IF(COUNTIF(B3:H3,'<>0')>3,'错误',‘正确’)
含义是:当B3:H3区域里,出现不等于0 的数,大于三个,显示正确,小于三个显示错误
利用条件格式标记错误
开始--》条件格式--》突出显示条件规则--》其他规则--》设置显示规则--》设置显示颜色
EG = OR(B3=1,B3=0)=FALSE
含义是:当函数参数,任意一个为真是,返回true
AND(参数1,参数2.。。。)当所有参数都为真时,才返回true
2、数据转化
我们这里说另外一种,就是将多重录入转换为二分法,即省时,又省力
假设有这样的数据
这里数据的转换函数为:=IF(ISNUMBER(HLOOKUP(1,B5:D5,1,0))1,0)
HLOOKUP 含义:在B5:D5区域中寻找1,找到该数值,就返回该数值所在的第一行的信息,精确匹配,如果没找打。就返回#N/A
IDNUMBER含义:判断是否为数字,是就返回true,不是就返回false
3、数据提取
保留原数据中某些字段的部分信息,组合成一个新的字段,可以是字段的部分信息--字段分列,也可以是几个字段合并为一个新的字段---字段合并,还可以是将原数据表中没有但是其他数据表的信息匹配过来----字段匹配
1.字段分列
两种方法
2.字段合并
也是有两种方法
TEXT函数:使用连接运算符连接数字和文本时候。控制数字的显示方式
EG :=A3&“迟到比例为”&TEXT(B3,“0%”)
3.字段匹配 (提取不同表格所需要的信息)
打开两个表--》找到你需要提取的信息,输入公式=VLOOKUP(B2[员工职位表.xlsx]Sheetxx$xx,3,0),第二个参数不需要手动录取,直选选中区域即可
VLOOKUP函数 :查找与匹配,在表格首列查找指定的数据,并返回指定的数据所在的行中的指定的列所处的单元
VLOOKUP匹配函数的使用 :(要在表格第一列查找的值,包含数据的单元格区域,可以使用绝对区域或区域名称的引用,希望返回匹配值的序列号,1,返回第二个参数第一列的值,依次类推,近似匹配1,还是相似匹配0,一般为0)
出现错误标识#N/A
1.函数第二个参数的第一列的值可能不是要查找的值
2.数据存在空格(可以使用TRIM函数批量删除)3.
数据类型或格式不一致,转为一致即可
4、数据计算
1.简单计算
加、减、乘、除
有时候数据表中的字段不能直接提取,但是可以通过计算的来
可以通过字段的 + - * / 的来
=B2+D3
如果求D2:D7之间的所有和
编辑选项卡--》自动求和--》求和--》Enter(还可以求平均数,最大值,最小值,计数等功能)
2.函数计算
5.数据分组
主要使用VLOOKUP函数实现
准备数据,确定分组的范围和标准(阈值是分组范围中的最低值)--》输入函数VLOOKUP(A2, 2: 12,2),并复制公式到你需要的地方
因为VLOOKUP最后一次参数省略,默认是近似匹配
6.数据抽样
问卷调查两种方式,普查和抽样(一般使用抽样)
RAND函数(),返回0~1随机值,但是保持函数编辑状态不变,按下F9,生成的随机数永远保存,且不反回新的值
如果要返回大于1的整数,写法就 类似Java里的random函数
取整数=INT(RAND(*10+60))整数的60~70随机数
随机完记得去重,如果样本不够,继续随机就好,直到满足要求