大数据都是需要什么技术的？

 我来答

7个回答

#热议# 什么是淋病？哪些行为会感染淋病？

加米谷大数据科技
2019-12-03 · 大数据人才培养的机构

加米谷大数据科技

成都加米谷大数据科技有限公司是一家专注于大数据人才培养的机构。公司由来自华为、京东、星环、勤智等国内知名企业的多位技术大牛联合创办。面向社会提供大数据、人工智能等前沿技术的培训业务。

向TA提问

关注

展开全部

大数据技圆拦术庞大复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等范畴

查询引擎：Phoenix、Shark、Pig、Hive等

流式计算：storm、Twitter Rainbird等

迭代帆腔枯计算：Apache Hama、Apache Giraph、HaLoop等

离线计算：Hadoop MapReduce、Berkeley Spark等

键值存储：LevelDB、RocksDB、HyperDex、Voldemort等

表格存储：态洞OceanBase、Amazon SimpleDB、Cassandra、HBase等

文件存储：CouchDB、MongoDB、HDFS等

资源管理：Twitter Mesos、Hadoop Yarn

已赞过 已踩过<

评论收起

北京勤哲软件技术

广告2024-11-06

勤哲Excel服务器学习和下载。会Excel，懂管理，就能做大数据大平台。软博会金奖产品，适合于各行各业的管理人员使用。

www.qinzhe.com

四川新华酸萌
2019-07-16 · TA获得超过798个赞

知道答主

回答量：500

采纳率：0%

帮助的人：16.6万

我也去答题访问个人页

关注

展开全部

阶段一：静态网页基础(主要学习HTM和CSS)
阶段二： JavaSe+ javaW
阶段孙兄局三：JAVA高阶应用
阶段四： javaEE
阶段五：Linux和Hadoop
阶段六尘扰：大数据数据库
阶段七：实时数据采集
阶段八： Spark数据分析
从上面的课程内容看，大数开发学习要掌握ava、 linux、 hadoop、 storm、fume、hive、
Hbase、 spark等则让基础知识。

已赞过 已踩过<

评论收起

山西教育
2020-12-18 · 超过11用户采纳过TA的回答

知道答主

回答量：305

采纳率：100%

帮助的人：15.2万

我也去答题访问个人页

关注

展开全部

大数据技术与戚喊蚂应渗察用高埋

已赞过 已踩过<

评论收起

喵喵喵喵喵咪c7
2019-10-09 · TA获得超过4024个赞

知道小有建树答主

回答量：2277

采纳率：100%

帮助的人：69.2万

我也去答题访问个人页

关注

展开全部

想学习大数据技术，是不是首先要知道大数据技术有哪些呢？也好知道自己未来应该往哪个方向发展，应该重点学习岁悉哪些知识？

抽象而言，各种大数据技术无外乎分布式存储 + 并行计算。具体体现为各种分布式文件系统和建立在其上的并行运算框架。这些软件程序都部署在多个相互连通、统一管理的物理或虚拟运算节点之上，形成集群(cluster)。因此不妨说，云计算是大数据的基础。
下面介绍几种当前比较流行的大数据技术：
1.Hadoop
Hadoop无疑是当前很知名的大数据技术了。
2003年到2004年间，Google发布了关于GFS、MapReduce和BigTable三篇技术论文(这几篇论文成为了后来云计算、大数据领域发展的重要基石)。当时一位因公司倒闭赋闲在家的程序员Doug Cutting根据前两篇论文，开发出了一个简化的山寨版GFS – HDFS,以及基于其的MapReduce计算框架，这就是Hadoop当初的版本。后来Cutting被Yahoo雇佣，得以依赖Yahoo的资源改进Hadoop,并将其贡献给了Apache开源社区。
简单描述Hadoop原理：数据分布式存储，运算程序被发派到各个数据节点进行分别运算(Map)，再将各个节点的运算结果进行合并归一(Reduce)，生成结果。相对于动辄TB级别的数据，计算程序一般在KB – MB的量级，这种移动计算不移动数据的设计节约了大量网络带宽和时间，并使得运算过程可以充分并行化。
在其诞生后的近10年里，Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施的首选。
2.Storm
Hadoop虽好，却有其“死穴”.其一：它的运算模式是批处理。这对于许多有实时性要求的业务就无法做到很好的支持。因此，Twitter推出了他们自己的基于流的运算框架——Storm。不同于Hadoop一次性处理所有数据并得出统一结果的作业(job)，Storm对源源导入的数据流进行持续不断的处理，随时得出增量结果。
3.Spark
Hadoop的另一个致命弱点是：它的所有中间结果都需要进行硬盘存储，I/O消耗巨大，这就使得它很不适合多次迭代的运算。而大多数机器学习算法，恰恰要求大量迭代运算。
2010年开始，UC Berkeley AMP Lab开始研发分布式运算的中间过程全部内存存储的Spark框架，由此在迭代计算上大大提高了效率。也因此成为了Hadoop的强有力竞争者。
4.NoSQL 数据库
NoSQL数据库可以泛指非关系型数据库，不过一般用来指称那些建立在分布式文件系统(例如HDFS)之上，基于key-value对的数据管理系统。
相对于传统的关系型数据库，NoSQL数据库中存储的数据无需主键和严格定义的schema。于是，大量半结构化、非结构化数据可以在未经清洗的情况下直接进行存储。这一点满足了处理大量、高速、多样的大数据的基扒需求。当前比较流行的NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。
NoSQL并不是没有SQL,而是不仅仅有(not only)SQL的意思。为了兼容之前许多运行在关系型数据库上的业务逻辑，有很多在NoSQL数据库上运行SQL的工具涌现出来，典型的例如Hive和Pig,它们将用户乎锋乎的SQL语句转化成MapReduce作业，在Hadoop上运行。
大数据产业已进入发展的“快车道”，急需大量优秀的大数据人才作为后盾。能够在大数据行业崛起的初期进入到这个行业当中来，才有机会成为时代的弄潮儿。

已赞过 已踩过<

评论收起

尘无中心
2019-09-19 · 分享生活趣事，经验和知识

尘无中心

采纳数：192 获赞数：2174

向TA提问私信TA

关注

展开全部

大数据的关键技术
1.分布式存储系统(HDFS)。2.MapReduce分布式计算框架。3.YARN资源判庆族管理平台。4.Sqoop数掘弊据迁移工具。5.Mahout数据挖掘算法库。6.HBase分布式数据库。7.Zookeeper分布式协调服务。8.Hive基于Hadoop的数据仓差码库。9.Flume日志收集工具。