如何进行大数据分析及处理?

 我来答
小康爷1028
2020-04-11
知道答主
回答量:1
采纳率:0%
帮助的人:620
展开全部
应该与城市规划、GIS数据、居民生活消费等数据有关吧,可以试着做做
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
秒懂百科
2020-10-21 · TA获得超过5.9万个赞
知道大有可为答主
回答量:25.3万
采纳率:88%
帮助的人:1.2亿
展开全部
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
百度网友d98bae7
2018-04-20 · TA获得超过145个赞
知道答主
回答量:38
采纳率:66%
帮助的人:24万
展开全部

大数据分析及处理,“大”只是体现在数据量大,数据结构复杂,原理其实还是数据分析。

数据处理正好是数据分析流程中的一环,所以本文将重点围绕数据分析展开。

数据分析的基本流程包括:明确目的、采集、清洗、分析、呈现、形成报告 6个环节。

一、    明确分析目的和内容

数据分析的三大作用,主要是现状分析、原因分析和预测分析。什么时候需要开展什么样的数据分析,需要根据我们需求和目的来确定。

数据分析的目的越明确,分析就越有价值。

目的明确之后,需要梳理思路,搭建分析框架,把分析的目的分解成若干不同的分析要点,然后根据分析要点确定指标和方法。而分析框架的体系化有助于让分析结果更具有说服力。

1.分析框架的体系化

不同行业因其业务差异,所需的分析框架是不同的。以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能尽量确保数据分析维度的完整性,结果的有效性及正确性。

营销方面的理论模型有:4P、用户使用行为、STP理论、SWOT等。

管理方面的理论模型有:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。

以下列举几个常用的:

4P营销理论:分析公司的整体营运情况,包括产品(product)、价格(price)、渠道(place)、促销(promotion)四大要素。

用户行为理论:主要用于网站流量分析,如回访者、新访者、流失率等,在众多指标中选择一些适用的。

PEST分析法:用于对宏观环境的分析,包括政治(political)、经济(economic)、社会(social)和技术(technological)四方面。

5W2H分析法:何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何就(How)、何价(How much)。

逻辑树分析法:把问题的所有子问题分层罗列。

二、    数据收集

数据收集部分通常可以分为两类。

第一类是直接能获取的数据,通常是内部数据,即从自己的数据库里取。

第二类是外部数据,需要进行加工整理。

比如百度指数、阿里指数、新浪微舆情。以及通过爬虫自己去爬。

三、    数据处理

清洗数据(筛选、清除、补充、纠正)的目的无非是从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。清洗后、保存下来真正有价值、有条理的数据,为后续的分析环节减少障碍。

四、    数据分析

这个环节需要一些分析方法,用来判断数据间的关系,以下列举一些常见的分析方法:描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等;

此处重点说相对难一点的:

1.相关分析:

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

2.方差分析:

用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。

造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

3.回归分析:

回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。

回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

4.聚类分析:

聚类主要解决的是在“物以类聚、人以群分”,比如以地理位置分群,北京、上海、成都等;比如按用户使用设备分群,可分为iPhone用户、Android用户。

聚类的大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。

常用的算法k-means、分层、FCM等。

5.判别分析:

从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。

常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。注意事项:

a. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;

b. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);

c. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

6.主成分与因子分析:

主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,将变量表示成为各因子的线性组合,从而把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)。

7.时间序列分析:

经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。

五、    数据展现

这个环节可以说是数据分析的最后一环,之前分析完成的数据可以通过各类图表进行展现,这样会更加直观。

比如这是用Yonghong Z-suite做的一个保险行业的数据分析展现图,其中各个图表的标题就是该公司所关注的关键指标。这些关键指标在第一环节(明确目标)的时候就会确立出来,之后从其数据库提取数据进行分析,那么“城市放款金额排名”就是聚类分析的其中一种形式。最后呈现出的整个仪表盘,可以很清楚的体现出整个公司的业务情况。

其实关于大数据的分析和处理可以借助BI(商业智能)工具去完成,从数据收集到数据展现,都可以在一个平台上去完成。做的比较好的有 Tableau(国外)、Yonghong Z-suite(国内),而且上文中提到的类似于回归分析、聚类分析的算法也可以在此类产品中去找到。

总的来说,大数据分析及处理不是一个一蹴而就的过程,在此方法论的基础上,要根据自己的业务进行调整,最终的目的是以数据驱动,为企业带来增长。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
宋懵懵的数据生活
2020-02-23 · 超过13用户采纳过TA的回答
知道答主
回答量:172
采纳率:66%
帮助的人:13.1万
展开全部
进行大数据分析及处理,一个好用的数据分析工具不能少,这里可以给你推荐一个一站式数据分析平台——亿信华辰的ABI,它打通数据生命周期各环节
从数据源接入,到数据采集、数据处理,再到数据分析和挖掘,打通数据生命周期的各个环节,实现数据填报、处理、分析一体化,为用户提供一站式数据服务。既能支持对分析表进行数据回填设置,又能完成数据融合,提升数据质量,服务数据分析。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
匿名用户
2019-10-17
展开全部
要就是通过数据去解决企业实际遇到的问题,包括根据数据分析的原因和结果推理以及预测未来进行制定方案、对调研搜集到的各种产品数据的整理、对资料进行分类和汇总。具体的实例可以去阿里云大学官网做一些Clouder,增加对Python在项目中的使用场景理解,或者九道门商业大数据分析实验室官网,学习数据库、数据建模等大数据实例分析。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式