关联规则数据挖掘中,最大频繁项集是什么?衡量标准?求指教,谢谢!!!
网上搜的结果:候选集1:abcdef频繁集1:abcd候选集2:abacadbcbdcd频繁集2:abacbccd候选集3:abcabdacdbcd频繁集3:abc候选集...
网上搜的结果:
候选集1:a b c d e f
频繁集1:a b c d
候选集2:ab ac ad bc bd cd
频繁集2:ab ac bc cd
候选集3:abc abd acd bcd
频繁集3:abc
候选集4:abcd
频繁集4:
最大频繁项集:abc cd
我不明白,最大频繁项集的定义什么?是该频繁项集包含其他的频繁项集或者该频繁项集不被其它频繁项集包含吗? 还是支持度或置信度最高啊? 展开
候选集1:a b c d e f
频繁集1:a b c d
候选集2:ab ac ad bc bd cd
频繁集2:ab ac bc cd
候选集3:abc abd acd bcd
频繁集3:abc
候选集4:abcd
频繁集4:
最大频繁项集:abc cd
我不明白,最大频繁项集的定义什么?是该频繁项集包含其他的频繁项集或者该频繁项集不被其它频繁项集包含吗? 还是支持度或置信度最高啊? 展开
1个回答
展开全部
百科有人整理了个定义:
=========================================
频繁项集
项的集合称为项集。包含k个项的项集称为k-项集。集合{computer,ativirus_software}是一个二项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率,支持率计数或者计数。如果项集I的相对出现频率大于等于预定义的最小支持度阈值,则I是频繁项集。
=========================================
另随手搜了篇CNKI 05年的论文叫《最大频繁项集的高效挖掘》,相关定义如下:
频繁项集( 频繁模式)
设I={i1, i2, ..., im}为项( Item) 的集合, D={T1, T2, ...,Tn}为事务数据集( Transaction Data Itemsets) , Ti (i∈[1,n])是其中一条事务, 由I 中若干项组成。设S 为由项组成的一个集合, 简称项集( Itemset) , S={i|i∈I}。S的支持度sup(S) 为包含项集S 的事务数量和D 中总的事务数量的百分比。如S 的支持度不小于给定最小支持度, 则称S 为频繁项集( Frequent Itemset) 。t 为一条事务, 如果S, t, 那么称事务t 包含S。
定义1( 最大频繁项集) : 如果频繁项集L 的所有超集都是非频繁项集, 那么称L 为最大频繁项集或称最大频繁模式, 记为MFI (Maximal Frequent Itemset) 。可见频繁项集是最大频繁项集的子集。但是最大频繁项集中包含了频繁项集的频繁信息, 且通常项集的规模要小几个数量级。特别是在数据集中含有较长的频繁模式时挖掘最大频繁项集是非常有效的手段。
=========================================
注意超集的定义:
超集Superset :如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S1就是S2的一个超集。 S1是S2的超集,则S2是S1的真子集,反之亦然。
综上,最大频繁项集是各频繁k项集中符合无超集条件的频繁项集条件。
你上面给的这个例子只是个频繁项集生成步骤中的项集列表,没有每个项集的频数或支持度。
候选1是全项列出,按定义的支持度阈值取出有较高值的频繁集1
对频繁集1二项全组合得出候选集2,并同样按支持度阈值取出高频的频繁集2
对频繁集1三项全组合得出候选集3,并同样按支持度阈值取出高频的频繁集3
对频繁集1四项全组合得到候选集4,看样子没有满足条件的频繁集。
求取最大频繁项集时有不同的算法,对你这个例子直观的来,由顶向下:
频繁3项集就一个abc,4项集没有,OK,abc是一个。
然后拿abc在频繁2项集里排除掉ab,ac,bc,剩下cd,也算一个了。
然后拿abc,cd在频繁1项集里排除掉所有abcd。
所以最后求出的最大频繁项集是abc和cd。
=========================================
频繁项集
项的集合称为项集。包含k个项的项集称为k-项集。集合{computer,ativirus_software}是一个二项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率,支持率计数或者计数。如果项集I的相对出现频率大于等于预定义的最小支持度阈值,则I是频繁项集。
=========================================
另随手搜了篇CNKI 05年的论文叫《最大频繁项集的高效挖掘》,相关定义如下:
频繁项集( 频繁模式)
设I={i1, i2, ..., im}为项( Item) 的集合, D={T1, T2, ...,Tn}为事务数据集( Transaction Data Itemsets) , Ti (i∈[1,n])是其中一条事务, 由I 中若干项组成。设S 为由项组成的一个集合, 简称项集( Itemset) , S={i|i∈I}。S的支持度sup(S) 为包含项集S 的事务数量和D 中总的事务数量的百分比。如S 的支持度不小于给定最小支持度, 则称S 为频繁项集( Frequent Itemset) 。t 为一条事务, 如果S, t, 那么称事务t 包含S。
定义1( 最大频繁项集) : 如果频繁项集L 的所有超集都是非频繁项集, 那么称L 为最大频繁项集或称最大频繁模式, 记为MFI (Maximal Frequent Itemset) 。可见频繁项集是最大频繁项集的子集。但是最大频繁项集中包含了频繁项集的频繁信息, 且通常项集的规模要小几个数量级。特别是在数据集中含有较长的频繁模式时挖掘最大频繁项集是非常有效的手段。
=========================================
注意超集的定义:
超集Superset :如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S1就是S2的一个超集。 S1是S2的超集,则S2是S1的真子集,反之亦然。
综上,最大频繁项集是各频繁k项集中符合无超集条件的频繁项集条件。
你上面给的这个例子只是个频繁项集生成步骤中的项集列表,没有每个项集的频数或支持度。
候选1是全项列出,按定义的支持度阈值取出有较高值的频繁集1
对频繁集1二项全组合得出候选集2,并同样按支持度阈值取出高频的频繁集2
对频繁集1三项全组合得出候选集3,并同样按支持度阈值取出高频的频繁集3
对频繁集1四项全组合得到候选集4,看样子没有满足条件的频繁集。
求取最大频繁项集时有不同的算法,对你这个例子直观的来,由顶向下:
频繁3项集就一个abc,4项集没有,OK,abc是一个。
然后拿abc在频繁2项集里排除掉ab,ac,bc,剩下cd,也算一个了。
然后拿abc,cd在频繁1项集里排除掉所有abcd。
所以最后求出的最大频繁项集是abc和cd。
本回答被提问者和网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询