如何进行大数据分析及处理？

 我来答

23个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

小康爷1028
2020-04-11

知道答主

回答量：1

采纳率：0%

帮助的人：620

我也去答题访问个人页

关注

展开全部

应该与城市规划、GIS数据、居民生活消费等数据有关吧，可以试着做做

已赞过 已踩过<

评论收起

秒懂百科
2020-10-21 · TA获得超过5.9万个赞

知道大有可为答主

回答量：25.3万

采纳率：88%

帮助的人：1.2亿

我也去答题访问个人页

关注

展开全部

已赞过 已踩过<

评论收起

百度网友d98bae7
2018-04-20 · TA获得超过145个赞

知道答主

回答量：38

采纳率：66%

帮助的人：24万

我也去答题访问个人页

关注

展开全部

大数据分析及处理，“大”只是体现在数据量大，数据结构复杂，原理其实还是数据分析。

数据处理正好是数据分析流程中的一环，所以本文将重点围绕数据分析展开。

数据分析的基本流程包括：明确目的、采集、清洗、分析、呈现、形成报告 6个环节。

一、明确分析目的和内容

数据分析的三大作用，主要是现状分析、原因分析和预测分析。什么时候需要开展什么样的数据分析，需要根据我们需求和目的来确定。

数据分析的目的越明确，分析就越有价值。

目的明确之后，需要梳理思路，搭建分析框架，把分析的目的分解成若干不同的分析要点，然后根据分析要点确定指标和方法。而分析框架的体系化有助于让分析结果更具有说服力。

1.分析框架的体系化

不同行业因其业务差异，所需的分析框架是不同的。以营销、管理等理论为指导，结合实际业务情况，搭建分析框架，这样才能尽量确保数据分析维度的完整性，结果的有效性及正确性。

营销方面的理论模型有：4P、用户使用行为、STP理论、SWOT等。

管理方面的理论模型有：PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。

以下列举几个常用的：

4P营销理论：分析公司的整体营运情况，包括产品（product）、价格（price）、渠道（place）、促销（promotion）四大要素。

用户行为理论：主要用于网站流量分析，如回访者、新访者、流失率等，在众多指标中选择一些适用的。

PEST分析法：用于对宏观环境的分析，包括政治（political）、经济（economic）、社会（social）和技术（technological）四方面。

5W2H分析法：何因（Why）、何事（What）、何人（Who）、何时（When）、何地（Where）、如何就（How）、何价（How much）。

逻辑树分析法：把问题的所有子问题分层罗列。

二、数据收集

数据收集部分通常可以分为两类。

第一类是直接能获取的数据，通常是内部数据，即从自己的数据库里取。

第二类是外部数据，需要进行加工整理。

比如百度指数、阿里指数、新浪微舆情。以及通过爬虫自己去爬。

三、数据处理

清洗数据（筛选、清除、补充、纠正）的目的无非是从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。清洗后、保存下来真正有价值、有条理的数据，为后续的分析环节减少障碍。

四、数据分析

这个环节需要一些分析方法，用来判断数据间的关系，以下列举一些常见的分析方法：描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等；

此处重点说相对难一点的：

1.相关分析：

相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。

在回归分析中，所关心的是一个随机变量Y对另一个（或一组）随机变量X的依赖关系的函数形式。而在相关分析中，所讨论的变量的地位一样，分析侧重于随机变量之间的种种相关特征。例如，以X、Y分别记小学生的数学与语文成绩，感兴趣的是二者的关系如何，而不在于由X去预测Y。

2.方差分析：

用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。

造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

3.回归分析：

回归主要的种类有：线性回归，曲线回归，二元logistic回归，多元logistic回归。

回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。一般来说，回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据；如果能够很好的拟合，则可以根据自变量作进一步预测。

4.聚类分析：

聚类主要解决的是在“物以类聚、人以群分”，比如以地理位置分群，北京、上海、成都等；比如按用户使用设备分群，可分为iPhone用户、Android用户。

聚类的大致的思路是这样的：首先确定选择哪些指标对用户进行聚类；然后在选择的指标上计算用户彼此间的距离，距离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都有相应的取值，可以看作多维空间中的一个点，用户彼此间的距离就可理解为两者之间的直线距离。）；最后聚类方法把彼此距离比较短的用户聚为一类，类与类之间的距离相对比较长。

常用的算法k-means、分层、FCM等。

5.判别分析：

从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）。

常用判别方法：最大似然法，距离判别法，Fisher判别法，Bayes判别法，逐步判别法等。注意事项：

a. 判别分析的基本条件：分组类型在两组以上，解释变量必须是可测的；

b. 每个解释变量不能是其它解释变量的线性组合（比如出现多重共线性情况时，判别权重会出现问题）；

c. 各解释变量之间服从多元正态分布（不符合时，可使用Logistic回归替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差异时，判别函数不相同）。相对而言，即使判别函数违反上述适用条件，也很稳健，对结果影响不大。应用领域：对客户进行信用预测，寻找潜在客户（是否为消费者，公司是否成功，学生是否被录用等等），临床上用于鉴别诊断。

6.主成分与因子分析：

主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，将变量表示成为各因子的线性组合，从而把一些具有错综复杂关系的变量归结为少数几个综合因子。（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）。

7.时间序列分析：

经典的统计分析都假定数据序列具有独立性，而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。例如，记录了某地区第一个月，第二个月，……，第N个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。

五、数据展现

这个环节可以说是数据分析的最后一环，之前分析完成的数据可以通过各类图表进行展现，这样会更加直观。

比如这是用Yonghong Z-suite做的一个保险行业的数据分析展现图，其中各个图表的标题就是该公司所关注的关键指标。这些关键指标在第一环节（明确目标）的时候就会确立出来，之后从其数据库提取数据进行分析，那么“城市放款金额排名”就是聚类分析的其中一种形式。最后呈现出的整个仪表盘，可以很清楚的体现出整个公司的业务情况。

其实关于大数据的分析和处理可以借助BI（商业智能）工具去完成，从数据收集到数据展现，都可以在一个平台上去完成。做的比较好的有 Tableau（国外）、Yonghong Z-suite（国内），而且上文中提到的类似于回归分析、聚类分析的算法也可以在此类产品中去找到。

总的来说，大数据分析及处理不是一个一蹴而就的过程，在此方法论的基础上，要根据自己的业务进行调整，最终的目的是以数据驱动，为企业带来增长。

已赞过 已踩过<

评论收起

宋懵懵的数据生活
2020-02-23 · 超过13用户采纳过TA的回答

知道答主

回答量：172

采纳率：66%

帮助的人：13.1万

我也去答题访问个人页

关注

展开全部

进行大数据分析及处理，一个好用的数据分析工具不能少，这里可以给你推荐一个一站式数据分析平台——亿信华辰的ABI，它打通数据生命周期各环节
从数据源接入，到数据采集、数据处理，再到数据分析和挖掘，打通数据生命周期的各个环节，实现数据填报、处理、分析一体化，为用户提供一站式数据服务。既能支持对分析表进行数据回填设置，又能完成数据融合，提升数据质量，服务数据分析。

已赞过 已踩过<

评论收起

匿名用户
2019-10-17

展开全部

要就是通过数据去解决企业实际遇到的问题，包括根据数据分析的原因和结果推理以及预测未来进行制定方案、对调研搜集到的各种产品数据的整理、对资料进行分类和汇总。具体的实例可以去阿里云大学官网做一些Clouder，增加对Python在项目中的使用场景理解，或者九道门商业大数据分析实验室官网，学习数据库、数据建模等大数据实例分析。