大数据的五个典型特性
大数据的5V 特性包括:Volume(大量),Velocity(高速),Variety(多样),Value(低价值密度),Veracity(真实)。
Volume(大量):包括采集,存储,管理,分析的数据量很大,超出了传统数据库软件工具能力范围的海量数据集合。其计量单位至少是P(千T),E(百万T)或Z(十亿T)。
Velocity(高速):数据增长速度快,要求实时分析与数据处理及丢弃,而非事后批处理。这是大数据区别于传统数据挖掘的地方。
Variety(多样):数据种类和来源多样性,包括不同种类的数据,比如文本图像音频视频定位等,以及各种结构化,半结构化,非结构化数据,不连贯的语义或句意。据调查,企业数据中80% 为非结构化数据。这对数据处理能力提出了更高的要求。集合了数学,心理学,神经生理学与生物学的机器学习在数据挖掘,自然语言处理,搜索引擎,医学诊断方面不断寻求突破。以期将人脑的智慧与机器的威力相结合,勾划一片混沌之中的清明。
Value(低价值密度):海量信息中的价值密度相对较低,如何在大数据中条分缕析披沙拣金,进行分析预测,找到数据的意义和价值所在,是机器学习和人工智能努力的方向。单位数据的价值低,如同蚂蚁,但聚合后的大数据却是蚁兵,战斗力惊人。
Veracity(真实性) : 指大数据的质量,大数据的内容是与真实世界息息相关的,真实不一定代表准确,但一定不是虚假数据,这也是数据分析的基础。基于真实的交易与行为产生的数据,才有意义,如何Mock数据,是一个话题。如何识别造假数据,更是值得研究的领域。
广告 您可能关注的内容 |