大数据技术有哪些
大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据结果呈现等几个层面的内容。
1、数据采集与预处理
在大数据生命周期当中,数据采集处于第一个环节。利用ETL工具将分布的,异构数据源中的数据,抽取到临时的中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,并进行实时处理分析。
2、数据存储与管理
对于采集到不同的数据集,有可能存在不同的结构和模式,如文件、关系表等,需要利用分布式文件系统、数据仓库、云数据库等,实现对半结构化、结构化和非结构化海量数据进行存储和管理。
3、数据处理与分析
对多个异构的数据集,需要做进一步集成处理或者整合处理,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析,对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。
4、数据结果呈现
数据结果的呈现表现为云计算、标签云、关系图等。
大数据的概念:
大数据是指无法在可承受的时间范围内,用常规软件工具进行捕捉、管理和处理的数据集合,大数据需要新的处理模式才能具有更强的决策力、洞察发现力和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理大数据技术是以数据为本质的,新一代革命性的信息技术,在数据挖潜的过程中,能够带动理念、技术、模式及应用实践的创新。
数据价值的凸显和数据获取手段、数据处理技术的改进是大数据爆发的根源。大数据在数据科学理论的指导下,改变创新模式和理念,如果把大数据比作一种产业,那么产业实现盈利的关键,就在于提高对数据的加工能力。