如何利用Excel做数据分析
展开全部
Excel是日常工作中最常用的工具,如果不考虑性能和数据量的话,可以应付绝大部分的分析工作。数据分析的最终目的是解决我们生活和工作中遇到的问题,明确的问题为数据分析提供了目标和方向。
Excel数据分析步骤分为:明确问题-理解数据-清洗数据-数据分析或构建模型-数据可视化。
一、明确问题
以上篇文章中提到的淘宝和天猫婴儿用品数据为数据集来进行数据分析。
1、在一级分类商品中,哪个商品销量最好,在此分类下,哪个子分类最受欢迎?
2、不同季度对用户购买行为有什么影响?
2、不同年龄对用户购买行为有什么影响?
3、不同性别对用户购买行为有什么影响?
二、理解数据
参考 沐沐:描述统计分析 理解数据集部分
三、数据清洗
数据清洗步骤为:选择子集-列名重命名-删除重复值-缺失值处理-一致化处理-数据排序-异常值处理。
1、选择子集
有时候原始数据量过大,有时候并不需要全部字段,我们可以将不需要用到的字段进行隐藏,为了保证数据的完整性,尽量不要删除数据。从问题中我们可以发现购买商品表中的商品属性对于我们分析数据没什么帮助,可以将其隐藏(选中商品属性列-右击-选择隐藏)。
2、列名重命名
我们可以将原始数据集的英文字段改成中文字段,方便阅读和理解,双击列名直接修改即可。
3、删除重复值
从购买商品表和婴儿信息表示中可知,如果全部字段重复,我们才认为数据是有重复的,从操作来看,是没有重复值的。
4、缺失值处理
可以看总共有多少行数据,然后鼠标选中列来看缺少多少数值。如果有缺失值,我们可以用定位找到缺失值(选中列-F5-定位条件-空值)。未找到缺失值。
5、一致化处理
对数据列的数据格式进行统一处理。数据中的购买时间列和出生日期列为常规格式,我们需要转换为日期类型(选中列-右击-设置单元格格式-日期),然后再选中列-分列-下一步-下一步-列数据格式:日期:YMD-完成。
6、数据排序
我们通过对购买次数列进行降序排序,发现用户‘2288344467’在2014年11月13日购买了10000份的‘50018831’二级分类、‘50014815’一级分类商品。
7、异常值处理
通过数据透视表没有每列数据中的异常值。
至此,我们已经得到分析问题的数据了,下一步,利用Excel中的数据透视、函数和分析工具来进行数据分析来解决我们的业务问题了。
1、在一级分类商品中,哪个商品销量最好,在此分类下,哪个子分类最受欢迎?
将商品一级分类放在行标签,值为购买数量的求和项,得出最受欢迎的一级商品为28,购买数量为28545。
在此分类下,即在一级分类28商品下,最受欢迎的是哪类二级商品?
2、季度对用户购买行为有什么影响?即看每个季度销量怎么样?
从数据透视结果来看,我们发现,12-14年的第四季度在该年的销售量都是最高的。
3、不同年龄对用户购买行为有什么影响?
在分析这个问题之前,我们需要将一级分类商品和二级分类商品用Vlookup函数V到婴儿信息表中,然后计算出婴儿的年龄。
根据计算出的数据透视出来各年龄段的购买量为:从透视表中我们可以看出4岁以前的婴儿为主要用户群体。
从婴儿不同年龄段购买二级商品数量来看,各年龄段最受用户欢迎的二级商品如下图所示:
4、不同性别对用户购买行为有什么影响?
我们可以看出男婴儿和女婴儿的人数相差小,但是女婴儿的购买数量将近是男婴儿的两倍。
最受男女婴儿欢迎的二级分类商品的TOP5
此外,我们还可以看出最受男女婴儿欢迎的二级分类商品TOP5。
Excel数据分析步骤分为:明确问题-理解数据-清洗数据-数据分析或构建模型-数据可视化。
一、明确问题
以上篇文章中提到的淘宝和天猫婴儿用品数据为数据集来进行数据分析。
1、在一级分类商品中,哪个商品销量最好,在此分类下,哪个子分类最受欢迎?
2、不同季度对用户购买行为有什么影响?
2、不同年龄对用户购买行为有什么影响?
3、不同性别对用户购买行为有什么影响?
二、理解数据
参考 沐沐:描述统计分析 理解数据集部分
三、数据清洗
数据清洗步骤为:选择子集-列名重命名-删除重复值-缺失值处理-一致化处理-数据排序-异常值处理。
1、选择子集
有时候原始数据量过大,有时候并不需要全部字段,我们可以将不需要用到的字段进行隐藏,为了保证数据的完整性,尽量不要删除数据。从问题中我们可以发现购买商品表中的商品属性对于我们分析数据没什么帮助,可以将其隐藏(选中商品属性列-右击-选择隐藏)。
2、列名重命名
我们可以将原始数据集的英文字段改成中文字段,方便阅读和理解,双击列名直接修改即可。
3、删除重复值
从购买商品表和婴儿信息表示中可知,如果全部字段重复,我们才认为数据是有重复的,从操作来看,是没有重复值的。
4、缺失值处理
可以看总共有多少行数据,然后鼠标选中列来看缺少多少数值。如果有缺失值,我们可以用定位找到缺失值(选中列-F5-定位条件-空值)。未找到缺失值。
5、一致化处理
对数据列的数据格式进行统一处理。数据中的购买时间列和出生日期列为常规格式,我们需要转换为日期类型(选中列-右击-设置单元格格式-日期),然后再选中列-分列-下一步-下一步-列数据格式:日期:YMD-完成。
6、数据排序
我们通过对购买次数列进行降序排序,发现用户‘2288344467’在2014年11月13日购买了10000份的‘50018831’二级分类、‘50014815’一级分类商品。
7、异常值处理
通过数据透视表没有每列数据中的异常值。
至此,我们已经得到分析问题的数据了,下一步,利用Excel中的数据透视、函数和分析工具来进行数据分析来解决我们的业务问题了。
1、在一级分类商品中,哪个商品销量最好,在此分类下,哪个子分类最受欢迎?
将商品一级分类放在行标签,值为购买数量的求和项,得出最受欢迎的一级商品为28,购买数量为28545。
在此分类下,即在一级分类28商品下,最受欢迎的是哪类二级商品?
2、季度对用户购买行为有什么影响?即看每个季度销量怎么样?
从数据透视结果来看,我们发现,12-14年的第四季度在该年的销售量都是最高的。
3、不同年龄对用户购买行为有什么影响?
在分析这个问题之前,我们需要将一级分类商品和二级分类商品用Vlookup函数V到婴儿信息表中,然后计算出婴儿的年龄。
根据计算出的数据透视出来各年龄段的购买量为:从透视表中我们可以看出4岁以前的婴儿为主要用户群体。
从婴儿不同年龄段购买二级商品数量来看,各年龄段最受用户欢迎的二级商品如下图所示:
4、不同性别对用户购买行为有什么影响?
我们可以看出男婴儿和女婴儿的人数相差小,但是女婴儿的购买数量将近是男婴儿的两倍。
最受男女婴儿欢迎的二级分类商品的TOP5
此外,我们还可以看出最受男女婴儿欢迎的二级分类商品TOP5。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询