大数据的结构层级?

 我来答
北大青鸟志远科技
2023-04-03 · 用心创作内容,感谢您的关注。
北大青鸟志远科技
向TA提问
展开全部

随着互联网的发展,越来越多的信息充斥在网络上,而大数据就是依靠对这些信息的收集、分类、归纳整理出我们所需要的信息,然后利用这些信息完成一些工作需要的一项能力技术。



今天,天通苑电脑培训主要就是来分析一下,大数据这项技术到底有那几个层次。


移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。


从2006年4月第一个ApacheHadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:


底层——存储层


现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。


区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2023年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。


中间层——管控层


管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera的Sentry和RecordService组件实现了对数据层面的安全管控。


景联文科技
2024-06-11 广告
景联文科技是大语言模型数据供应商,致力于为不同阶段的模型算法匹配高质量数据资源。世界知识类书籍、期刊、论文及高价值社区文本数据:中文书籍 250w本高质量外文文献期刊 8500w篇英文高质量电子书 200w本教育题库:K12教育题库 180... 点击进入详情页
本回答由景联文科技提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式