谁有金融数据挖掘,关联规则分析与挖掘的一些介绍啊
要做金融数据挖掘,关联规则分析与挖掘的一些介绍现在想知道一些资料谁有这些资料啊?最好是一些算法和实现...
要做金融数据挖掘,关联规则分析与挖掘的一些介绍
现在想知道一些资料
谁有这些资料啊?
最好是一些算法和实现 展开
现在想知道一些资料
谁有这些资料啊?
最好是一些算法和实现 展开
4个回答
展开全部
雨林算法的数据结构:
AVC-set:节点n包含的所有纪录在某个属性上的投影,其中该AVC-set包括了属性的不同值在每个类别上的计数。
AVC-group:一个节点n上所有的AVC -set的集合
AVC-set的所占内存的大小正比于对应属性的不同值个数,AVC-group并不是数据库信息的简单的压缩,它只是提供了建立决策树需要的信息, AVC-group所占用的内存空间远远小于数据库所实际占用的空间。
一般设计方案:
AVC_set
{
//存储属性的各个值
DistinctValue[]
//存储属性各个值在某个类上对应的计数
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//节点n中的每个属性的avc_set
AVC_set[]
}
自顶向下决策树算法
BuildTree(Node m,datapatition D,algorithm decisionTree)
对D使用决策树算法decisionTree得到分裂指标crit(n)
令k为节点n的子节点个数
if(k>0)
建立n的k个子节点c1,…,ck
使用最佳分割将D分裂为D1,…,Dk
for(i=1;i<=k;i++)
BuildTree(ci,Di)
endfor
endif
RainForest 算法框架重新定义的部分:
1a) for 每一个属性的谓词p,寻找最佳的分割
1b) decisionTree.find_best_partitioning(AVC-set of p)
1c) endfor
2a) k= decisionTree.decide_splitting_criterion();//决定最终的分割
雨林算法的常规过程:
建立节点的AVC-group
(通过读取整个原始数据库或者某个分支的数据库表或文件)
选择分裂属性和分裂标准:取决于使用雨林算法框架的具体算法,通过逐一检查AVC-set来选择。
将数据分解到各个子节点:必须读取整个数据集(数据库或文件),将各条数据分解到各个子节点中,此时如果有足够的内存,我们将建立一个或多个子节点的AVC-group
参考资料:李岱 rainforest.ppt 什么是数据挖掘
数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
编辑本段数据挖掘的起源
为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到高潮。特别地是,数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。
一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
编辑本段数据挖掘能做什么
1)数据挖掘能做以下六种不同事情(分析方法):
· 分类 (Classification)
· 估值(Estimation)
· 预言(Prediction)
· 相关性分组或关联规则(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可视化(Des cription and Visualization)
· 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
2)数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
· 直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。
· 间接数据挖掘
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。
· 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
3)各种分析方法的简介
· 分类 (Classification)
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例子:
a. 信用卡申请者,分类为低、中、高风险
b. 分配客户到预先定义的客户分片
注意: 类的个数是确定的,预先定义好的
· 估值(Estimation)
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。
例子:
a. 根据购买模式,估计一个家庭的孩子个数
b. 根据购买模式,估计一个家庭的收入
c. 估计real estate的价值
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
· 预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
· 相关性分组或关联规则(Affinity grouping or association rules)
决定哪些事情将一起发生。
例子:
a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
b. 客户在购买A后,隔一段时间,会购买B (序列分析)
· 聚集(Clustering)
聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
例子:
a. 一些特定症状的聚集可能预示了一个特定的疾病
b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
· 描述和可视化(Des cription and Visualization)
是对数据挖掘结果的表示方式。
编辑本段数据挖掘中的关联规则上面算法讲的很清楚了,我来举个例子:
Training data:
Id age income class
1 young 65 G
2 young 15 B
3 young 75 G
4 senior 40 B
5 senior 100 G
6 senior 60 G
AVC set „age“ for N1:
value class count
young B 1
young G 2
senior B 1
senior G 2
AVC set „income“ for N1:
value class count
15 B 1
40 B 1
60 G 1
65 G 1
75 G 1
100 G 1
AVC set „income“ for N2:
value class count
15 B 1
65 G 1
75 G 1
AVC set „age“ for N2:
value class count
young B 1
young G 2
最后推出雨林: N1
age=young / \ age=senior
/ \
N2 N3
最后提醒一点,对于雨林算法,训练样本集不要大于3百万。否则改用SPRINT。
1.什么是关联规则
在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
2.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。
2.3关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
2.基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。
3.FP-树频集算法
针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
3.该领域在国内外的应用
3.1关联规则发掘技术在国内外的应用
就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。
3.2近年来关联规则发掘技术的一些研究
由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。
编辑本段数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
·数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。
·数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。
·数据的展现
在数据展现方面主要的方式有:
查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。
编辑本段数据挖掘与数据仓库融合发展
数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。
统计学与数据挖掘
统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
1.统计学的性质
试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反,我要关注统计学不同于数据挖掘的特性。
差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的,尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。
数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机 这
AVC-set:节点n包含的所有纪录在某个属性上的投影,其中该AVC-set包括了属性的不同值在每个类别上的计数。
AVC-group:一个节点n上所有的AVC -set的集合
AVC-set的所占内存的大小正比于对应属性的不同值个数,AVC-group并不是数据库信息的简单的压缩,它只是提供了建立决策树需要的信息, AVC-group所占用的内存空间远远小于数据库所实际占用的空间。
一般设计方案:
AVC_set
{
//存储属性的各个值
DistinctValue[]
//存储属性各个值在某个类上对应的计数
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//节点n中的每个属性的avc_set
AVC_set[]
}
自顶向下决策树算法
BuildTree(Node m,datapatition D,algorithm decisionTree)
对D使用决策树算法decisionTree得到分裂指标crit(n)
令k为节点n的子节点个数
if(k>0)
建立n的k个子节点c1,…,ck
使用最佳分割将D分裂为D1,…,Dk
for(i=1;i<=k;i++)
BuildTree(ci,Di)
endfor
endif
RainForest 算法框架重新定义的部分:
1a) for 每一个属性的谓词p,寻找最佳的分割
1b) decisionTree.find_best_partitioning(AVC-set of p)
1c) endfor
2a) k= decisionTree.decide_splitting_criterion();//决定最终的分割
雨林算法的常规过程:
建立节点的AVC-group
(通过读取整个原始数据库或者某个分支的数据库表或文件)
选择分裂属性和分裂标准:取决于使用雨林算法框架的具体算法,通过逐一检查AVC-set来选择。
将数据分解到各个子节点:必须读取整个数据集(数据库或文件),将各条数据分解到各个子节点中,此时如果有足够的内存,我们将建立一个或多个子节点的AVC-group
参考资料:李岱 rainforest.ppt 什么是数据挖掘
数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
编辑本段数据挖掘的起源
为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到高潮。特别地是,数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。
一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
编辑本段数据挖掘能做什么
1)数据挖掘能做以下六种不同事情(分析方法):
· 分类 (Classification)
· 估值(Estimation)
· 预言(Prediction)
· 相关性分组或关联规则(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可视化(Des cription and Visualization)
· 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
2)数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
· 直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。
· 间接数据挖掘
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。
· 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
3)各种分析方法的简介
· 分类 (Classification)
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例子:
a. 信用卡申请者,分类为低、中、高风险
b. 分配客户到预先定义的客户分片
注意: 类的个数是确定的,预先定义好的
· 估值(Estimation)
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。
例子:
a. 根据购买模式,估计一个家庭的孩子个数
b. 根据购买模式,估计一个家庭的收入
c. 估计real estate的价值
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
· 预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
· 相关性分组或关联规则(Affinity grouping or association rules)
决定哪些事情将一起发生。
例子:
a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
b. 客户在购买A后,隔一段时间,会购买B (序列分析)
· 聚集(Clustering)
聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
例子:
a. 一些特定症状的聚集可能预示了一个特定的疾病
b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
· 描述和可视化(Des cription and Visualization)
是对数据挖掘结果的表示方式。
编辑本段数据挖掘中的关联规则上面算法讲的很清楚了,我来举个例子:
Training data:
Id age income class
1 young 65 G
2 young 15 B
3 young 75 G
4 senior 40 B
5 senior 100 G
6 senior 60 G
AVC set „age“ for N1:
value class count
young B 1
young G 2
senior B 1
senior G 2
AVC set „income“ for N1:
value class count
15 B 1
40 B 1
60 G 1
65 G 1
75 G 1
100 G 1
AVC set „income“ for N2:
value class count
15 B 1
65 G 1
75 G 1
AVC set „age“ for N2:
value class count
young B 1
young G 2
最后推出雨林: N1
age=young / \ age=senior
/ \
N2 N3
最后提醒一点,对于雨林算法,训练样本集不要大于3百万。否则改用SPRINT。
1.什么是关联规则
在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
2.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。
2.3关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
2.基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。
3.FP-树频集算法
针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
3.该领域在国内外的应用
3.1关联规则发掘技术在国内外的应用
就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。
3.2近年来关联规则发掘技术的一些研究
由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。
编辑本段数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
·数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。
·数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。
·数据的展现
在数据展现方面主要的方式有:
查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。
编辑本段数据挖掘与数据仓库融合发展
数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。
统计学与数据挖掘
统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
1.统计学的性质
试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反,我要关注统计学不同于数据挖掘的特性。
差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的,尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。
数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机 这
展开全部
金融数据挖掘案例教学:
VaR的定义、计算与应用
目前,金融资产市场风险(也包括信用风险和操作风险)的通用度量工具为Value at Risk(VaR,在险价值),在几个巴塞尔协议形成后,用VaR度量金融风险更是受到普遍关注。
建立金融风险的准确的VaR度量很不容易,本案例通过美元指数市场风险VaR度量模型的建立、及不同VaR模型对银行监管资本要求的影响展开研究,通过案例对VaR的定义、计算与应用作较全面的介绍。
一、 VaR的定义
设在某一持有期时金融资产的收益率的分布函数为 ,密度函数为 ,对给定的置信水平 ,在险价值的定义为:
VaR的含义:
VaR是一定置信水平下,一定持有期中,金融资产可能遭受的最大损失。
由于VaR与收益率的分布函数(密度函数)密切相关,特别是与分布函数(密度函数)的尾部性质密切相关,因此VaR模型的准确与否就与我们对金融资产收益率过程的描述的准确与否、特别是与收益率过程的尾部特征的描述的正确与否密切相关。由于这种描述很困难,因此建立准确的VaR模型是很不容易的。
二、单一资产(资产组合)的VaR模型的构建方法
1、 历史模拟法
基本思想:金融资产收益率的变化具有某种稳定性,因此可以用过去的变化情况对未来进行预测。
案例1:
基于历史模拟法的那斯达克指数的VaR模型的构建,取置信水平为0.99与0.95。计算2004年度单位货币的那斯达克指数的每日在险价值,并实际检验模型的预测准确性。
数据:那斯达克指数的每日收盘价的收益率
时间跨度:19850711~20050923共5115个日收益率数据,收益率采用对数收益率。
方法:取300个数据的移动窗口,对每个窗口数据排序后取第3个(第15个)数据作为VaR预测值,窗口移动250次,则可以得到250日中的每日VaR预测值。
Sas程序:初始数据库为sjk
Data a; set sjk ; run;
Data a; modify a; if _n_>300 then remove;
Run;
Proc sort data=a;by r; run;
Data a; modify a; if _n_<3 or _n_>3 then remove; run;
Data b; set c a;run;
Data c; set b; run;
Data sjk; modify sjk; if _n_=1 then remove; run;
历史模拟方法的缺陷分析
VaR模型预测准确性的检验方法(事后检验方法)
置信水平0.99,如果模型准确,则例外发生应该服从 , 的二项分布。如果例外数为 ,只要计算 就可知道模型是否高估风险;只要计算 就可知道模型是否低估风险。
Sas程序
Data a;
X=probbnml(0.01,250,k);
Y=1-probbnml(0.01,250,k-1);run;
历史模拟方法通常存在高估风险价值的缺陷,尤其当显著性水平取的很高时,对银行来说,这会提高监管资本要求。从理论上看,历史模拟法也有很大缺陷。
2、 参数方法
假设 具有某种形式的分布,其中参数需要估计,利用VaR的定义得到VaR预测值。
参数方法建立VaR模型是最常见形式,例如J.P.摩根公司开发的Riskmetrics就是采用参数方法。
首先想到假设收益率服从正态分布,只要估计均值与标准差,就可得到VaR预测值。
如果 ,则
利用正态分布计算在险价值的方法
①、利用移动窗口方法计算每个窗口对应的均值与标准差;
②、利用均值与标准差得到每日的VaR预测值。
③、巴塞尔协议要求用一年的数据计算VaR,我们用一年数据构造移动窗口。
案例2:
基于参数方法和正态分布假设的那斯达克指数的VaR模型的构建,置信水平为0.99与0.95。计算2000年度单位货币的那斯达克指数每日的在险价值,并实际检验模型的预测准确性。
Sas程序(数据库sjk,为简洁起见,只用收益率数据)
Data a; set sjk ; run;
Data a; modify a; if _n_>254 then remove;
Run;
Proc means data=a;
Output out=b mean=mr std(r)=stdr;run;
Data b1; set c b;run;
Data c; set b1; run;
Data sjk; modify sjk; if _n_=1 then remove; run;
Data c1;set c;
Var=2.33*stdr-mr; run;
对模型预测的检验结果:
在252个观测值中有11个例外,模型存在低估市场风险的现象。
那么为什么会出现这样的现象。
3、 金融资产收益率的特征分析
金融资产收益率通常存在两个显著的特征:
①、波动的时变性、或者说波动的集聚性,比较那斯达克指数的收益率图形与正态分布的图形可以明显地看到这一点;
data a; set sjk;z=normal(17);
z1=_n_; run;
由于波动具有时变性,因此正态假设不合适,或者说对标准差的估计方法不合适。比较合理的改进方式是,在估计分布的方差时,近期数据应该具有更大的权重。
J.P.摩根公司采用加权方式估计方差,一般的方差估计表达式为:
即在估计方差时,每个离差具有相同的权重1/254,而J.P.摩根公司采用的方差估计式为:
如在Riskmetrics中取 。
案例3:
建立基于加权正态模型的那斯达克指数的VaR,置信水平为0.99与0.95。计算2000年度单位货币的那斯达克指数每日的在险价值,并检验模型的预测准确性。
原始数据库sjk,均值数据库aa,权重数据库bb
Sas程序(sjk)
Data a; set sjk;run;
Data a; modify a;if _n_>254 then remove;run;
Data a1; set aa; run;
Data a1; modify a1; if _n_>254 then remove; run;
Data c1; merge a a1 bb; run;
Data b1; set c1; r1=q*(r-mr)**2; run;
Proc means data=b1;
Output out=b mean(r1)=mr1; run;
Data c2; set c b; run;
Data c; set c2; run;
Data sjk; modify sjk; if _n_=1 then remove;run;
Data aa; modify aa; if _n_<255 then remove; run;
Data cc; set c; Stdr1=sqrt(254*mr1); run;
检验结果:例外数为7个,模型为“不准确模型”
②、金融资产收益率分布的厚尾性,比较那斯达克指数的收益率数据的经验分布的尾部与正态分布的尾部,可以明显地看到这一点。
Data a; set sjk;
P=probnorm((r+0.000154)/0.0256);run;
利用1999-2001年度的数据,可以看到明显的厚尾现象.
利用参数方法建立VaR模型时,应该考虑两个因素:波动的时变性与厚尾性.
要提高VaR模型的预测准确性,就要采用适当的统计模型来描述收益率的波动特征,模型既要能够反映波动的时变性、又要能够反映波动的厚尾性。
现有研究对前一个特征考虑较多,通常的方式是采用GARCH模型(广义自回归条件异方差模型)来描述收益率过程。
GARCH模型是Bollerslev(1986)提出的,GARCH模型是对ARCH模型的拓展。假设收益率服从 阶自回归模型,即
,
Bollerslev对 的假设是
。GARCH模型可用较少的参数捕捉方差的缓慢变化。
在建立VaR模型时,通常采用的是GARCH(1,1)模型,其形式为
许多研究者在建立描述收益率的统计模型过程中,假设 ,甚至假设 ,这是不合适的(方差过程设置错误不会影响均值过程,而均值过程设置错误会影响方差过程)。因此,应该首先需考虑均值过程,再考虑方差过程。
许多实证研究显示,采用GARCH(1,1)模型描述收益率过程可以提高VaR的预测精度,这是因为与正态假设相比,GARCH(1,1)模型能够更好地描述收益率过程,但是实证研究同时发现,当置信水平较高时(如0.99),采用GARCH(1,1)模型建立的VaR模型仍然存在低估风险的现象。
原因分析:事件风险造成价格的暴涨暴跌,这是波动过程出现厚尾现象的重要原因,而GARCH(1,1)模型不能反映由事件风险造成的暴涨暴跌,因此不能完全反映厚尾现象,这就造成模型对风险的低估。
波动过程不是由一个统计模型描述,而是由两个模型所描述——体制转换模型。
对收益率数据的自相关-偏自相关分析的方法
sas程序
proc autoreg data=a;
model r=t / dw=10 dwprob; run;
也可以采用Eviews软件进行分析
quick/series tatistics/corrlogram
GARCH模型参数估计方法
Quick/estimation equation /
选择ARCH,输入被解释变量名,/options
选择Heteroskedasticity 可得到稳健的标准差
连续计算GARCH模型中的时变的方差
sas程序
data b; set a;z=w+a1*x+b1*lag(y);run;
data b; modify b;if _n_<2 or _n_>2 then remove; run;
data b1; set c b; run;
data c; set b1; run;
data b1; set b; y=z; run;
data b; set b1; run;
data a; modify a; if _n_<3 then remove; run;
data b1; set b a; run;
data a; set b1; run;
注意:数据库为A,结构为
对于 可按照 计算
补充知识: ARCH与GARCH模型
一、 阶自回归模型
随机过程可分为平稳过程与非平稳过程。平稳过程的均值、协方差不随时间变化。自回归模型是对平稳过程产生的时间序列进行建模的方法。
1、 阶自回归模型
有效市场假设 是独立过程,实际上 存在自相关性,如果存在 阶自相关, 可用如下形式表示:
,
其中 与 相互独立、服从独立同分布的正态分布。
2、移动平均模型
如果 为它的当前与前期随机误差项的线性函数,即
,
则称时间序列 为移动平均序列。
3、自回归移动平均过程
。
4、自相关与偏自相关
对时间序列进行建模,首先需判断其服从什么过程。这就涉及自相关、偏自相关的概念,k阶自相关系数定义为:
。
k阶偏自相关系数的定义:
偏自相关是指在给定 的条件下, 与 的条件相关关系。其计算式为:
, 。
二、模型的识别
1、自回归模型的识别
自回归模型 的偏自相关系数是 步截尾的,而其自相关系数则呈指数或正弦波衰减,具有拖尾性;
平均移动模型 的自相关系数是 步截尾的,而其偏自相关系数则呈指数或正弦波衰减,具有拖尾性。
自回归平均移动过程的自相关系数、偏自相关系数均呈指数或正弦波衰减,具有拖尾性。
2、模型识别的例
利用2002年度美元指数收盘价的对数收益率数据a1、2002年度那斯达克指数收盘价的对数收益率数据b1分别判断其所满足的模型。
计算自相关系数、偏相关系数的Eviews方法:
quick / series statistics / correlogram / r
利用GDP数据c1进行模型识别
由于其一阶自相关系数、前二阶的偏自相关系数显著地不等于零,可建立自回归移动平均模型ARMA(2,1)。即
ARMA(2,1)模型参数估计的Eviews方法
Qick/Estimate Equation/rr ar(1) ar(2) ma(1)
注意在时间序列模型分析中,对参数的t检验不像一般回归模型中那样重要,主要是考虑模型整体的拟合效果。
三、ARCH与GARCH模型
在自回归模型中假设时间序列由平稳过程产生,即产生时间序列的随机过程具有不随时间变化的均值与标准差。实际上,由于金融资产收益率具有波动的时变性,即产生时间序列的随机过程的二阶矩随时间而变化,因而随机过程不是一个平稳过程,不适合直接采用以上的分析方法。现在需要建立自回归条件异方差模型(ARCH模型)和广义自回归条件异方差模型(GARCH模型)。
1、ARCH模型
该过程由Engle(1982)发展起来,目的是解决随时间而变化的方差问题。它经常用于对金融资产的收益率的波动性进行建模。假设收益率服从 阶自回归模型,即
,
服从均值为0,方差为 的正态分布, 取决于 过去值的平方。 阶自回归条件异方差模型ARCH( )的形式
,
其中 为未知的正系数。
在ARCH模型中, 随时间而变化,如果近期平方误差很大,则当前平方误差也会较大,即 为较大;反之,如果近期平方误差很小,在当前平方误差也会较小;通过这种方式表示波动的集聚性。
2、GARCH模型
Bollerslev(1986)提出的GARCH模型扩展了ARCH模型,假设收益率服从 阶自回归模型,即
,
Bollerslev对 的假设是
与ARCH模型相比,GARCH模型可以利用更少的参数捕捉到方差的缓慢变化。
从理论上讲,由于不同金融资产收益率的波动布变性不同,因此某种资产收益率究竟服从哪种GARCH也需要进行判别,实际上,很多金融资产的收益率服从GARCH(1,1)模型,即 。
注意这个式子表明,第t天的方程 由第t-1天的二个值 决定,其中残差 的估计值为
,
而 可递推得到。特别地有 。利用这样的方式计算方差,实际上隐含着假设,方差的波动方式在训练时期与计算时期是一致的。
由于在对收益率建立GARCH(1,1)模型时,自回归模型的准确设置与否会直接影响到GARCH模型的参数估计,因此必须正确建立均值过程再建立方差过程。
3、GARCH模型的参数估计方法
如果金融资产的收益率服从p阶自回归及GARCH(1,1)过程,则Eviews方式为
quik / Estimate Equation
例: n1给出那斯达克收盘价的对数数据,试用适当的方式建立模型。
解:股票市场一般服从随机游走过程,但是其方差具有波动性,因此lp lp(-1)
出的哪本《金融数据挖掘》你也买来自己看看
VaR的定义、计算与应用
目前,金融资产市场风险(也包括信用风险和操作风险)的通用度量工具为Value at Risk(VaR,在险价值),在几个巴塞尔协议形成后,用VaR度量金融风险更是受到普遍关注。
建立金融风险的准确的VaR度量很不容易,本案例通过美元指数市场风险VaR度量模型的建立、及不同VaR模型对银行监管资本要求的影响展开研究,通过案例对VaR的定义、计算与应用作较全面的介绍。
一、 VaR的定义
设在某一持有期时金融资产的收益率的分布函数为 ,密度函数为 ,对给定的置信水平 ,在险价值的定义为:
VaR的含义:
VaR是一定置信水平下,一定持有期中,金融资产可能遭受的最大损失。
由于VaR与收益率的分布函数(密度函数)密切相关,特别是与分布函数(密度函数)的尾部性质密切相关,因此VaR模型的准确与否就与我们对金融资产收益率过程的描述的准确与否、特别是与收益率过程的尾部特征的描述的正确与否密切相关。由于这种描述很困难,因此建立准确的VaR模型是很不容易的。
二、单一资产(资产组合)的VaR模型的构建方法
1、 历史模拟法
基本思想:金融资产收益率的变化具有某种稳定性,因此可以用过去的变化情况对未来进行预测。
案例1:
基于历史模拟法的那斯达克指数的VaR模型的构建,取置信水平为0.99与0.95。计算2004年度单位货币的那斯达克指数的每日在险价值,并实际检验模型的预测准确性。
数据:那斯达克指数的每日收盘价的收益率
时间跨度:19850711~20050923共5115个日收益率数据,收益率采用对数收益率。
方法:取300个数据的移动窗口,对每个窗口数据排序后取第3个(第15个)数据作为VaR预测值,窗口移动250次,则可以得到250日中的每日VaR预测值。
Sas程序:初始数据库为sjk
Data a; set sjk ; run;
Data a; modify a; if _n_>300 then remove;
Run;
Proc sort data=a;by r; run;
Data a; modify a; if _n_<3 or _n_>3 then remove; run;
Data b; set c a;run;
Data c; set b; run;
Data sjk; modify sjk; if _n_=1 then remove; run;
历史模拟方法的缺陷分析
VaR模型预测准确性的检验方法(事后检验方法)
置信水平0.99,如果模型准确,则例外发生应该服从 , 的二项分布。如果例外数为 ,只要计算 就可知道模型是否高估风险;只要计算 就可知道模型是否低估风险。
Sas程序
Data a;
X=probbnml(0.01,250,k);
Y=1-probbnml(0.01,250,k-1);run;
历史模拟方法通常存在高估风险价值的缺陷,尤其当显著性水平取的很高时,对银行来说,这会提高监管资本要求。从理论上看,历史模拟法也有很大缺陷。
2、 参数方法
假设 具有某种形式的分布,其中参数需要估计,利用VaR的定义得到VaR预测值。
参数方法建立VaR模型是最常见形式,例如J.P.摩根公司开发的Riskmetrics就是采用参数方法。
首先想到假设收益率服从正态分布,只要估计均值与标准差,就可得到VaR预测值。
如果 ,则
利用正态分布计算在险价值的方法
①、利用移动窗口方法计算每个窗口对应的均值与标准差;
②、利用均值与标准差得到每日的VaR预测值。
③、巴塞尔协议要求用一年的数据计算VaR,我们用一年数据构造移动窗口。
案例2:
基于参数方法和正态分布假设的那斯达克指数的VaR模型的构建,置信水平为0.99与0.95。计算2000年度单位货币的那斯达克指数每日的在险价值,并实际检验模型的预测准确性。
Sas程序(数据库sjk,为简洁起见,只用收益率数据)
Data a; set sjk ; run;
Data a; modify a; if _n_>254 then remove;
Run;
Proc means data=a;
Output out=b mean=mr std(r)=stdr;run;
Data b1; set c b;run;
Data c; set b1; run;
Data sjk; modify sjk; if _n_=1 then remove; run;
Data c1;set c;
Var=2.33*stdr-mr; run;
对模型预测的检验结果:
在252个观测值中有11个例外,模型存在低估市场风险的现象。
那么为什么会出现这样的现象。
3、 金融资产收益率的特征分析
金融资产收益率通常存在两个显著的特征:
①、波动的时变性、或者说波动的集聚性,比较那斯达克指数的收益率图形与正态分布的图形可以明显地看到这一点;
data a; set sjk;z=normal(17);
z1=_n_; run;
由于波动具有时变性,因此正态假设不合适,或者说对标准差的估计方法不合适。比较合理的改进方式是,在估计分布的方差时,近期数据应该具有更大的权重。
J.P.摩根公司采用加权方式估计方差,一般的方差估计表达式为:
即在估计方差时,每个离差具有相同的权重1/254,而J.P.摩根公司采用的方差估计式为:
如在Riskmetrics中取 。
案例3:
建立基于加权正态模型的那斯达克指数的VaR,置信水平为0.99与0.95。计算2000年度单位货币的那斯达克指数每日的在险价值,并检验模型的预测准确性。
原始数据库sjk,均值数据库aa,权重数据库bb
Sas程序(sjk)
Data a; set sjk;run;
Data a; modify a;if _n_>254 then remove;run;
Data a1; set aa; run;
Data a1; modify a1; if _n_>254 then remove; run;
Data c1; merge a a1 bb; run;
Data b1; set c1; r1=q*(r-mr)**2; run;
Proc means data=b1;
Output out=b mean(r1)=mr1; run;
Data c2; set c b; run;
Data c; set c2; run;
Data sjk; modify sjk; if _n_=1 then remove;run;
Data aa; modify aa; if _n_<255 then remove; run;
Data cc; set c; Stdr1=sqrt(254*mr1); run;
检验结果:例外数为7个,模型为“不准确模型”
②、金融资产收益率分布的厚尾性,比较那斯达克指数的收益率数据的经验分布的尾部与正态分布的尾部,可以明显地看到这一点。
Data a; set sjk;
P=probnorm((r+0.000154)/0.0256);run;
利用1999-2001年度的数据,可以看到明显的厚尾现象.
利用参数方法建立VaR模型时,应该考虑两个因素:波动的时变性与厚尾性.
要提高VaR模型的预测准确性,就要采用适当的统计模型来描述收益率的波动特征,模型既要能够反映波动的时变性、又要能够反映波动的厚尾性。
现有研究对前一个特征考虑较多,通常的方式是采用GARCH模型(广义自回归条件异方差模型)来描述收益率过程。
GARCH模型是Bollerslev(1986)提出的,GARCH模型是对ARCH模型的拓展。假设收益率服从 阶自回归模型,即
,
Bollerslev对 的假设是
。GARCH模型可用较少的参数捕捉方差的缓慢变化。
在建立VaR模型时,通常采用的是GARCH(1,1)模型,其形式为
许多研究者在建立描述收益率的统计模型过程中,假设 ,甚至假设 ,这是不合适的(方差过程设置错误不会影响均值过程,而均值过程设置错误会影响方差过程)。因此,应该首先需考虑均值过程,再考虑方差过程。
许多实证研究显示,采用GARCH(1,1)模型描述收益率过程可以提高VaR的预测精度,这是因为与正态假设相比,GARCH(1,1)模型能够更好地描述收益率过程,但是实证研究同时发现,当置信水平较高时(如0.99),采用GARCH(1,1)模型建立的VaR模型仍然存在低估风险的现象。
原因分析:事件风险造成价格的暴涨暴跌,这是波动过程出现厚尾现象的重要原因,而GARCH(1,1)模型不能反映由事件风险造成的暴涨暴跌,因此不能完全反映厚尾现象,这就造成模型对风险的低估。
波动过程不是由一个统计模型描述,而是由两个模型所描述——体制转换模型。
对收益率数据的自相关-偏自相关分析的方法
sas程序
proc autoreg data=a;
model r=t / dw=10 dwprob; run;
也可以采用Eviews软件进行分析
quick/series tatistics/corrlogram
GARCH模型参数估计方法
Quick/estimation equation /
选择ARCH,输入被解释变量名,/options
选择Heteroskedasticity 可得到稳健的标准差
连续计算GARCH模型中的时变的方差
sas程序
data b; set a;z=w+a1*x+b1*lag(y);run;
data b; modify b;if _n_<2 or _n_>2 then remove; run;
data b1; set c b; run;
data c; set b1; run;
data b1; set b; y=z; run;
data b; set b1; run;
data a; modify a; if _n_<3 then remove; run;
data b1; set b a; run;
data a; set b1; run;
注意:数据库为A,结构为
对于 可按照 计算
补充知识: ARCH与GARCH模型
一、 阶自回归模型
随机过程可分为平稳过程与非平稳过程。平稳过程的均值、协方差不随时间变化。自回归模型是对平稳过程产生的时间序列进行建模的方法。
1、 阶自回归模型
有效市场假设 是独立过程,实际上 存在自相关性,如果存在 阶自相关, 可用如下形式表示:
,
其中 与 相互独立、服从独立同分布的正态分布。
2、移动平均模型
如果 为它的当前与前期随机误差项的线性函数,即
,
则称时间序列 为移动平均序列。
3、自回归移动平均过程
。
4、自相关与偏自相关
对时间序列进行建模,首先需判断其服从什么过程。这就涉及自相关、偏自相关的概念,k阶自相关系数定义为:
。
k阶偏自相关系数的定义:
偏自相关是指在给定 的条件下, 与 的条件相关关系。其计算式为:
, 。
二、模型的识别
1、自回归模型的识别
自回归模型 的偏自相关系数是 步截尾的,而其自相关系数则呈指数或正弦波衰减,具有拖尾性;
平均移动模型 的自相关系数是 步截尾的,而其偏自相关系数则呈指数或正弦波衰减,具有拖尾性。
自回归平均移动过程的自相关系数、偏自相关系数均呈指数或正弦波衰减,具有拖尾性。
2、模型识别的例
利用2002年度美元指数收盘价的对数收益率数据a1、2002年度那斯达克指数收盘价的对数收益率数据b1分别判断其所满足的模型。
计算自相关系数、偏相关系数的Eviews方法:
quick / series statistics / correlogram / r
利用GDP数据c1进行模型识别
由于其一阶自相关系数、前二阶的偏自相关系数显著地不等于零,可建立自回归移动平均模型ARMA(2,1)。即
ARMA(2,1)模型参数估计的Eviews方法
Qick/Estimate Equation/rr ar(1) ar(2) ma(1)
注意在时间序列模型分析中,对参数的t检验不像一般回归模型中那样重要,主要是考虑模型整体的拟合效果。
三、ARCH与GARCH模型
在自回归模型中假设时间序列由平稳过程产生,即产生时间序列的随机过程具有不随时间变化的均值与标准差。实际上,由于金融资产收益率具有波动的时变性,即产生时间序列的随机过程的二阶矩随时间而变化,因而随机过程不是一个平稳过程,不适合直接采用以上的分析方法。现在需要建立自回归条件异方差模型(ARCH模型)和广义自回归条件异方差模型(GARCH模型)。
1、ARCH模型
该过程由Engle(1982)发展起来,目的是解决随时间而变化的方差问题。它经常用于对金融资产的收益率的波动性进行建模。假设收益率服从 阶自回归模型,即
,
服从均值为0,方差为 的正态分布, 取决于 过去值的平方。 阶自回归条件异方差模型ARCH( )的形式
,
其中 为未知的正系数。
在ARCH模型中, 随时间而变化,如果近期平方误差很大,则当前平方误差也会较大,即 为较大;反之,如果近期平方误差很小,在当前平方误差也会较小;通过这种方式表示波动的集聚性。
2、GARCH模型
Bollerslev(1986)提出的GARCH模型扩展了ARCH模型,假设收益率服从 阶自回归模型,即
,
Bollerslev对 的假设是
与ARCH模型相比,GARCH模型可以利用更少的参数捕捉到方差的缓慢变化。
从理论上讲,由于不同金融资产收益率的波动布变性不同,因此某种资产收益率究竟服从哪种GARCH也需要进行判别,实际上,很多金融资产的收益率服从GARCH(1,1)模型,即 。
注意这个式子表明,第t天的方程 由第t-1天的二个值 决定,其中残差 的估计值为
,
而 可递推得到。特别地有 。利用这样的方式计算方差,实际上隐含着假设,方差的波动方式在训练时期与计算时期是一致的。
由于在对收益率建立GARCH(1,1)模型时,自回归模型的准确设置与否会直接影响到GARCH模型的参数估计,因此必须正确建立均值过程再建立方差过程。
3、GARCH模型的参数估计方法
如果金融资产的收益率服从p阶自回归及GARCH(1,1)过程,则Eviews方式为
quik / Estimate Equation
例: n1给出那斯达克收盘价的对数数据,试用适当的方式建立模型。
解:股票市场一般服从随机游走过程,但是其方差具有波动性,因此lp lp(-1)
出的哪本《金融数据挖掘》你也买来自己看看
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
接分啦。。。找到一篇不错的文章
楼主看下,参考资料:http://blog.csdn.net/ctu_85/archive/2008/09/16/2937486.aspx
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
2.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然
楼主看下,参考资料:http://blog.csdn.net/ctu_85/archive/2008/09/16/2937486.aspx
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
2.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然
参考资料: http://blog.csdn.net/ctu_85/archive/2008/09/16/2937486.aspx
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
去看看http://baike.baidu.com/view/7893.htm
希望对你有帮助
希望对你有帮助
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询