大数据是什么意思?
「大数据又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。」
—— 维基百科
「大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。」
—— 百度百科
「大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。」
—— MBA智库
从上面的几种定义可以看出,首先,数据量要大到常规方式无法处理的程度;再者,大数据作为信息资产,需要通过处理从中获取价值信息。
大数据关系到网络信息安全,比较明显的影响主要表现在以下几个方面
一、规模、实时性和分布式处理大数据的本质特征(使大数据解决超过以前数据管理系统的数据管理和处理需求,例如,在容量、实时性、分布式架构和并行处理等方面)使得保障这些系统的安全更为困难。大数据集群具有开放性和自我组织性,并可以使用户与多个数据节点同时通信。
二、嵌入式安全:在涉及大数据的疯狂竞赛中,大部分的开发资源都用于改善大数据的可升级、易用性和分析功能上。只有很少的功能用于增加安全功能。 但是,你希望得到嵌入到大数据平台中的安全功能。你希望开发人员在设计和部署阶段能够支持所需要的功能。你希望安全功能就像大数据集群一样可升级、高性能、自组织。
问题是,开源系统或多数商业系统一般都不包括安全产品。而且许多安全产品无法嵌入到Hadoop或其它的非关系型数据库中。多数系统提供最少的安全功能,但不足以包括所有的常见威胁。在很大程度上,你需要自己构建安全策略。
三、应用程序:面向大数据集群的大多数应用都是Web应用它们利用基于Web的技术和无状态的基于REST的API。基于Web的应用程序和API给这些大数据集群带来了一种最重大的威胁。在遭受攻击或破坏后,它们可以提供对大数据集群中所存储数据的无限制访问应用程序安全、用户访问管理及授权控制非常重要,与重点保障大数据集群安全的安全措施一样都不可或缺。