为什么要使用Hadoop

 我来答

2个回答

#热议# 普通体检能查出癌症吗？

西线大数据培训
2017-07-05 · TA获得超过3275个赞

知道小有建树答主

回答量：410

采纳率：0%

帮助的人：117万

我也去答题访问个人页

关注

展开全部

感觉现在各个公司使用Hadoop的方式都不一样，主要我觉得有两种吧。
第一种是long running cluster形式，比如Yahoo，不要小看这个好像已经没什么存在感的公司，Yahoo可是Hadoop的元老之一。这种就是建立一个Data Center，然后有几个上千Node的Hadoop Cluster一直在运行。比较早期进入Big Data领域的公司一般都在使用或者使用过这种方式。
另一种是只使用MapReduce类型。毕竟现在是Cloud时代，比如AWS的Elastic MapReduce。这种是把数据存在别的更便宜的地方，比如s3，自己的data center， sql database等等，需要分析数据的时候开启一个Hadoop Cluster，Hive/Pig/Spark/Presto/Java分析完了就关掉。不用自己做Admin的工作，方便简洁。
所以个人如果要学Hadoop的话我也建议第二种，AWS有免费试用时间（但是EMR并不免费，所以不要建了几千个Node一个月后发现破产了），可以在这上面学习。最重要的是你可以尝试各种不同的配置对于任务的影响，比如不同的版本，不同的container size，memory大小等等，这对于学习Spark非常有帮助。
总的来说Hadoop适合应用于大数据存储和大数据分析的应用，适合于服务器几千台到几万台的集群运行，支持PB级的存储容量。Hadoop典型应用有：搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。

已赞过 已踩过<

评论收起

匿名用户
2017-02-24

展开全部

数据日志是每天从生产数据库导出到数据服务器，再通过一个Python脚本分析这些日志并存入MySQL当中，这种方式在数据量小的情况下还没什么事，数据量一大，所需时间是几何增长。有段时间每天光apache log解压之后就有几十个G，虽然通过很多手段比如减少查询，减少单条数据插入，使用LOAD将数据导入数据库，但所需时间还是要很久。为了减少每天log分析的时间以及数据的稳定性，决定搭建一个Hadoop系统，使用hadoop map/reduce来并行的处理log。想要了解更多请关注大讲台官网。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

hadoop使用项目实战—慕课网

Hadoop3基础与电商日志分析，新手也能学会的大数据入门课.Hadoop核心组件精讲+阶段案例+电商行为日志分析实战，系统入门大数据。从Hadoop核心技术入手，零距离入行大数据

coding.imooc.com广告

为什么要使用Hadoop

您可能关注的内容

其他类似问题

为你推荐：