什么是数据挖掘,或数据挖掘的过程是什么
2018-11-13 · 国内专业的大数据轻应用自助平台
1.1 数据挖掘的兴起
1.1.1 数据丰富与知识匮乏
对信息进行再加工,即进行更深入的归纳分析,从信息中理解其模式,方能获得更有用的信息,即知识。在大量知识积累基础上,总结出原理和法则,就形成了所谓智慧。
当前的尴尬境地:“丰富的数据”而“贫乏的知识”
1.1.2 从数据到知识
数据仓库的形成:随着数据量的增长,数据源所带来的各种数据格式不相容性,为来便于获得决策所需信息,就有必要将整个机构的数据以统一形式集成存储在一起,这就形成了数据仓库(data warehouse,DW)
OLAP(On Line Analytical Processing)在线分析工具:针对市场变化加速,人们提出了能进行实时分析和产生相应报表的再现分析工具OLAP。 OLAP 能允许用户以交互方式浏览数据仓库内容,并对其中 数据进行多维分析。
OLAP分析过程是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,是在用户指导下的信息分析和知识发现过程。
智能化自动分析工具:为适应变化迅速的市场环境,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。这类工具能自身生成多种假设 ➡️然后用数据仓库(or大型数据库)中的数据进行检验或验证 ➡️然后返回用户最有价值的检验结果。
此外,这类工具还应能适应现实世界中数据的多种特性(量大、含噪声、不完整、动态、稀疏性、异质、非线性等)
1.1.3 数据挖掘(DM)的产生
1995年,在美国计算机年会上,提出了数据挖掘(DM,Data Mining) 的概念,即通过数据库抽取隐含的、未知的、具有潜在使用价值信息的过程
整个知识发现过程是由若干重要步骤组成(数据挖掘只是其中一个重要步骤):
1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据
2)数据集成:将来自多数据源中的相关数据组合到一起
3)数据转换:将数据转换为易于进行数据挖掘的数据存储形式
4)数据挖掘:它是知识挖掘的一个重要步骤,其作用是利用智能方法挖掘数据模式或规律知识
5)模式评估:其作用是根据一定评估标准从挖掘结果筛选出有意义的模式知识
6)知识表示:其作用是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识
1.1.4 数据挖掘解决的商业问题(案例)
客户行为分析
客户流失分析
交叉销售
欺诈检测
风险管理
客户细分
广告定位
市场和趋势分析
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘流程:
定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。