数据科学,数据挖掘,数据工程和大数据之间有什么关系?
三者的关系如下:
数据挖掘和数据科学基本上是一回事。数据挖掘是30年前的说法,现在叫法高大上些。以前数据挖掘主要是基于统计学的理论和算法。这几年理论上,大量用数学和物理的理论和算法逐步引入,比如流型,热力熵啊。总的来说这两个是一回事。
数据工程,是具体把数据科学理论去解决实际问题。如同理论核物理和核工程专业的区别。实际项目中,要解决数据的清洗,抽取,转换。既要懂理论又要会编程。但是大部分时间可能是做数据清洗,转换的相对低端的工作。算法都是工业界现成的,只是调参数。
数据科学,这个概念应该是最大的,跟数据相关的,都可以算在数据科学的范畴里面,最早开始兴起的时候,也是从国外开始。而国内的话,通常有数据科学与大数据技术的说法,数据科学是一门学科,而大数据技术,就是研究数据科学需要用到的相关技术手段。
数据挖掘,简单点来说,就是从海量的数据当中去提取价值线索,挖掘做什么,就是通过各种手段对数据进行计算分析处理,然后得出有价值的线索,这些价值线索,是可以用来反哺业务的,进行价值变现的。
其他方面:
数据工程,其实就跟“软件工程”一个道理,软件工程开发软件,数据工程就是开发进行数据处理的系统平台,在开发当中肯定就需要涉及到大数据技术。
大数据,从字面上来说,就是大规模的结构化的非结构化混合的数据,数据量级至少也要在TB、PB的单位,才能称得上“大”。而面对规模大、格式有负责的数据,传统的软件和工具很难快速处理,因此就需要大数据技术去提供解决方案。
2023-10-12 广告