目前大数据实时分析平台可以应用在哪些场景？

 我来答

1个回答

#合辑# 面试问优缺点怎么回答最加分？

ma...6@163.com
2020-03-27

知道答主

回答量：4

采纳率：100%

帮助的人：2607

我也去答题访问个人页

关注

展开全部

PetaBase-V作为Vertica基于亿信分析产品的定制版，提供面向大数据的实时分析服务，采用无共享大规模并行架构（MPP），可线性扩展集群的计算能力和数据处理容量，基于列式数据库技术，使 PetaBase-V 拥有高性能、高扩展性、高压缩率、高健壮性等特点，可完美解决报表计算慢和明细数据查询等性能问题。
大数据平台主要是解决对海量多样化的数据源进行数据采集、数据存储，数据分析和数据处理，并提供满足日渐增长的扩展性要求。大数据平台的应用场景，大致可分为如下几个：
场景一：舆情分析
有的客户需要做舆情分析，要求所有数据存放若干年，舆情数据每日数据量可能超百万，年数据量可达到几十亿的数据。而且爬虫爬过来的数据是舆情，通过大数据技术进行分词之后得到的可能是大段的网友评论，客户往往要求对舆情进行查询，做全文本搜索，并要求响应时间控制在秒级。爬虫将数据爬到大数据平台的Kafka里，在里面做流处理，去重去噪做语音分析，写到ElasticSearch里。大数据的一个特点是多数据源，大数据平台能根据不同的场景选择不同的数据源。
场景二：商业智能应用
BI产品主要针对数据集进行的数据分析以聚合运算为主，比如求合、求平均数、求同比、求环比、求其他的平方差或之类的标准方差。大数据平台既能满足大数据量的水平可伸缩，又能满足高性能的聚合运算。同时平台提供高效的列式存储，可以有效满足商业问题分析需求。
场景三：企业级大数据平台：
从业务的角度看，细分为查询检索、数据挖掘、统计分析、深度分析，其中深度分析分为机器学习和神经网络。
从技术的角度看，细分为Batch、SQL、流式处理、machine learning、Deep learning。
企业的数据一部分来自于本身的业务数据，比如：MySQL、oracle等，还有一部分是大量的事件。数据源不同，处理的方式也不一样。传统的技术手段很难全面覆盖。采用大数据实时分析平台，那么，基于日志数据源，就用事件写入kafka；如果是针对MySQL、oracle等传统rdbms，就用Sqoop，写入HDFS里，并建立Hive的集群。还可以存一份数据在云端。有一部分业务就是对数据合并后放入HDFS做大量的业务查询和业务统计。这时希望用SQL的方式进行查询，会有很多选项，它选择的是大数据平台的Impala等。还有一些流式处理或机器学习可以用到大数据平台的Spark。