大数据都包括什么
现在几乎每个人都在谈论大数据.那么,你知道大数据吗?你知道大数据包括什么吗?
流程处理
决策者感兴趣的是紧固组织的命脉,取得实时结果.他们需要的是可以处理随时发生的数据流的结构,目前的数据库技术不适合数据流处理.
例如,计算一组数据的平均值可以通过传统脚本实现.但是,关于移动数据平均值的计算,无论是到达、成长还是单元,都有更高效的算法.如果你想建立一个数据仓库,并执行任意的数据分析和统计,开源产品R或类似SAS的商业产品可以实现.但是,想要制作的是数据流统计集,逐渐添加或删除数据块,进行移动平均计算,数据库不存在或不成熟.
数据流周边的生态系统不发达.换句话说,如果你正在和供应商谈判大数据项目,你必须知道数据流程处理对你的项目是否重要,供应商是否有能力提供.
并行化
大数据的定义有很多种,以下相对有用.小数据的情况类似于桌面环境,磁盘的存储能力在1GB到10GB之间,中数据的数据量在100GB到1TB之间,大数据的分布式存储在多台机器中,包括1TB到多个PB的数据.
如果您在分布式数据环境中工作,在短时间内处理数据,则需要分布式处理.
并行处理在分布式数据中脱颖而出,Hadoop是分布式/并行处理领域广为人知的例子.Hadoop包含大型分布式文件系统,支持分布式/并行查询.
2021-03-27 广告