hadoop就是什么问题的一种开源实现
1个回答
展开全部
hadoop主要实现了两部分,一是分布式存储系统,也就是HDFS,可以让你把东西存储到多台机器上,而你却感觉在使用一台机器一样,二是分布式计算框架MapReduce(第二代为YARN),也可以让你很简单的编写出并行运行的代码。
因为hadoop之前的大多数离线计算是基本sql的,所以会sql的比会编程的多,所以facebook在mapreduce的基础上包装了一层框架,可以用sql的形式在hadoop上进行离线计算,框架会把sql转化成mapreduce任务去执行,这个框架叫hive。
hive默认分析的是hdfs上的文件,所以特点的太慢,可以考虑使用基于hdfs的一种分布式nosql数据库,叫hbase,让hive分析hbase里的数据,会快点。另外hive还有很多替代品
因为hadoop之前的大多数离线计算是基本sql的,所以会sql的比会编程的多,所以facebook在mapreduce的基础上包装了一层框架,可以用sql的形式在hadoop上进行离线计算,框架会把sql转化成mapreduce任务去执行,这个框架叫hive。
hive默认分析的是hdfs上的文件,所以特点的太慢,可以考虑使用基于hdfs的一种分布式nosql数据库,叫hbase,让hive分析hbase里的数据,会快点。另外hive还有很多替代品
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询