大数据的定义是什么?
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
2021-07-25 · 百度认证:陕西新华电脑软件培训学校官方账号
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
简单理解为:
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
大数据的核心作用是数据价值化,简单说就是大数据让数据产生各种“价值”,这个数据价值化的过程就是大数据要做的主要事情。
大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。
2020-08-07 · 百度认证:北京中公教育科技官方账号
大数据首先是一个非常大的数据集,可以达到TB(万亿字节)甚至ZB(十万亿亿字节)。这里面的数据可能既有结构化的数据,也有半结构化和非结构化的数据,而且来自于不同的数据源。
结构化的数据是什么呢?对于接触过关系型数据库的小伙伴来说,应该一点都不陌生。对了,就是我们关系型数据库中的一张表,每行都具有相同的属性。如下面的一张表:
每行数据都有相同的属性,这就是结构化的数据。
我们再来看半结构化数据。XML或JSON格式的数据就是我们所常见的半结构的数据。如,下面所示的XML数据:
(子标签的次序和个数不一定完全一致)
那什么又是非结构化数据呢?这类数据没有预定义完整的数据结构,在我们日常工作生活中可能更多接触的就是这类数据,比如,图片、图像、音频、视频、办公文档等等。
知道了这三类结构的数据,我们再来看看大数据的数据源有哪些呢?归纳起来大致有五种数据源。
一是社交媒体平台。如有名气的Facebook、Twitter、YouTube和Instagram等。媒体是比较受欢迎的大数据来源之一,因为它提供了关于消费者偏好和变化趋势的宝贵依据。并且因为媒体是自我传播的,可以跨越物理和人口障碍,因此它是企业深入了解目标受众、得出模式和结论、增强决策能力的方式。
二是云平台。公有的、私有的和第三方的云平台。如今,越来越多的企业将数据转移到云上,超越了传统的数据源。云存储支持结构化和非结构化数据,并为业务提供实时信息和随需应变的依据。云计算的主要特性是灵活性和可伸缩性。由于大数据可以通过网络和服务器在公共或私有云上存储和获取,因此云是一种高效、经济的数据源。
三是Web资源。公共网络构成了广泛且易于访问的大数据,个人和公司都可以从网上或“互联网”上获得数据。此外,国内的大型购物网站,淘宝、京东、阿里巴巴,更是云集了海量的用户数据。
四是IoT(Internet of Things)物联网数据源。物联网目前正处于迅猛发展势头。有了物联网,我们不仅可以从电脑和智能手机获取数据,还可以从医疗设备、车辆流程、视频游戏、仪表、相机、家用电器等方面获取数据。这些都构成了大数据宝贵的数据来源。
五是来自于数据库的数据源。现今的企业都喜欢融合使用传统和现代数据库来获取相关的大数据。这些数据都是企业驱动业务利润的宝贵资源。常见的数据库有MS Access、DB2、Oracle、MySQL以及大数据的数据库Hbase、MongoDB等。
我们再来总结一下,什么样的数据就属于大数据呢?通常来大数据有4个特点,这就是业内人士常说的4V,volume容量、 variety多样性、velocity速度和veracity准确性。
广告 您可能关注的内容 |