如何进行大数据分析及处理?
大数据分析及处理,“大”只是体现在数据量大,数据结构复杂,原理其实还是数据分析。
数据处理正好是数据分析流程中的一环,所以本文将重点围绕数据分析展开。
数据分析的基本流程包括:明确目的、采集、清洗、分析、呈现、形成报告 6个环节。
一、 明确分析目的和内容
数据分析的三大作用,主要是现状分析、原因分析和预测分析。什么时候需要开展什么样的数据分析,需要根据我们需求和目的来确定。
数据分析的目的越明确,分析就越有价值。
目的明确之后,需要梳理思路,搭建分析框架,把分析的目的分解成若干不同的分析要点,然后根据分析要点确定指标和方法。而分析框架的体系化有助于让分析结果更具有说服力。
1.分析框架的体系化
不同行业因其业务差异,所需的分析框架是不同的。以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能尽量确保数据分析维度的完整性,结果的有效性及正确性。
营销方面的理论模型有:4P、用户使用行为、STP理论、SWOT等。
管理方面的理论模型有:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
以下列举几个常用的:
4P营销理论:分析公司的整体营运情况,包括产品(product)、价格(price)、渠道(place)、促销(promotion)四大要素。
用户行为理论:主要用于网站流量分析,如回访者、新访者、流失率等,在众多指标中选择一些适用的。
PEST分析法:用于对宏观环境的分析,包括政治(political)、经济(economic)、社会(social)和技术(technological)四方面。
5W2H分析法:何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何就(How)、何价(How much)。
逻辑树分析法:把问题的所有子问题分层罗列。
二、 数据收集
数据收集部分通常可以分为两类。
第一类是直接能获取的数据,通常是内部数据,即从自己的数据库里取。
第二类是外部数据,需要进行加工整理。
比如百度指数、阿里指数、新浪微舆情。以及通过爬虫自己去爬。
三、 数据处理
清洗数据(筛选、清除、补充、纠正)的目的无非是从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。清洗后、保存下来真正有价值、有条理的数据,为后续的分析环节减少障碍。
四、 数据分析
这个环节需要一些分析方法,用来判断数据间的关系,以下列举一些常见的分析方法:描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等;
此处重点说相对难一点的:
1.相关分析:
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。
2.方差分析:
用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。
造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
3.回归分析:
回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。
回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
4.聚类分析:
聚类主要解决的是在“物以类聚、人以群分”,比如以地理位置分群,北京、上海、成都等;比如按用户使用设备分群,可分为iPhone用户、Android用户。
聚类的大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。
常用的算法k-means、分层、FCM等。
5.判别分析:
从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。
常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。注意事项:
a. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;
b. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);
c. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。
6.主成分与因子分析:
主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,将变量表示成为各因子的线性组合,从而把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)。
7.时间序列分析:
经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。
五、 数据展现
这个环节可以说是数据分析的最后一环,之前分析完成的数据可以通过各类图表进行展现,这样会更加直观。
比如这是用Yonghong Z-suite做的一个保险行业的数据分析展现图,其中各个图表的标题就是该公司所关注的关键指标。这些关键指标在第一环节(明确目标)的时候就会确立出来,之后从其数据库提取数据进行分析,那么“城市放款金额排名”就是聚类分析的其中一种形式。最后呈现出的整个仪表盘,可以很清楚的体现出整个公司的业务情况。
其实关于大数据的分析和处理可以借助BI(商业智能)工具去完成,从数据收集到数据展现,都可以在一个平台上去完成。做的比较好的有 Tableau(国外)、Yonghong Z-suite(国内),而且上文中提到的类似于回归分析、聚类分析的算法也可以在此类产品中去找到。
总的来说,大数据分析及处理不是一个一蹴而就的过程,在此方法论的基础上,要根据自己的业务进行调整,最终的目的是以数据驱动,为企业带来增长。
从数据源接入,到数据采集、数据处理,再到数据分析和挖掘,打通数据生命周期的各个环节,实现数据填报、处理、分析一体化,为用户提供一站式数据服务。既能支持对分析表进行数据回填设置,又能完成数据融合,提升数据质量,服务数据分析。
2019-10-17
广告 您可能关注的内容 |