关联规则
1个回答
展开全部
关联规则挖掘可以让我们从数据集中发现项与项(item 与 item)之间的关系 ,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景。
下面是几名客户购买的商品列表:
支持度是个百分比,它指的是 某个商品组合出现的次数与总次数之间的比例 。支持度越高,代表这个组合出现的频率越大。
在这个例子中,我们能看到“牛奶”出现了 4 次,那么这 5笔订单中“牛奶”的支持度就是 4/5=0.8。
同样“牛奶 + 面包”出现了 3 次,那么这 5 笔订单中"牛奶 + 面包”的支持度就是 3/5=0.6。
以此类推,如果我们有三个想分析关联性的数据X,Y和Z,则对应的支持度为:
它指的就是当你购买了商品 X,会有多大的概率购买商品 Y,在上面这个例子中:
置信度(牛奶→啤酒)=2/4=0.5,代表如果你购买了牛奶,有多大的概率会购买啤酒?
置信度(啤酒→牛奶)=2/3=0.67,代表如果你购买了啤酒,有多大的概率会购买牛奶?
我们能看到,在 4 次购买了牛奶的情况下,有 2 次购买了啤酒,所以置信度 (牛奶→啤酒)=0.5,而在 3 次购买啤酒的情况下,有 2 次购买了牛奶,所以置信度(啤酒→牛奶)=0.67。
所以说置信度是个条件概念,就是说 在 X 发生的情况下,Y 发生的概率是多少 。
也可以以此类推到多个数据的关联置信度,比如对于三个数据X,Y,Z,则X对于Y和Z的置信度为:
我们在做商品推荐的时候,重点考虑的是提升度,因为提升度代表的是 “商品 A 的出现,对商品 B 的出现概率提升的”程度 。
提升度表示含有Y的条件下,同时含有X的概率,与X总体发生的概率之比,即:
提升度>1:强关联规则,代表有提升
提升度<=1:无效强关联规则,代表无提升
提升度=1:X和Y相互独立
下面是几名客户购买的商品列表:
支持度是个百分比,它指的是 某个商品组合出现的次数与总次数之间的比例 。支持度越高,代表这个组合出现的频率越大。
在这个例子中,我们能看到“牛奶”出现了 4 次,那么这 5笔订单中“牛奶”的支持度就是 4/5=0.8。
同样“牛奶 + 面包”出现了 3 次,那么这 5 笔订单中"牛奶 + 面包”的支持度就是 3/5=0.6。
以此类推,如果我们有三个想分析关联性的数据X,Y和Z,则对应的支持度为:
它指的就是当你购买了商品 X,会有多大的概率购买商品 Y,在上面这个例子中:
置信度(牛奶→啤酒)=2/4=0.5,代表如果你购买了牛奶,有多大的概率会购买啤酒?
置信度(啤酒→牛奶)=2/3=0.67,代表如果你购买了啤酒,有多大的概率会购买牛奶?
我们能看到,在 4 次购买了牛奶的情况下,有 2 次购买了啤酒,所以置信度 (牛奶→啤酒)=0.5,而在 3 次购买啤酒的情况下,有 2 次购买了牛奶,所以置信度(啤酒→牛奶)=0.67。
所以说置信度是个条件概念,就是说 在 X 发生的情况下,Y 发生的概率是多少 。
也可以以此类推到多个数据的关联置信度,比如对于三个数据X,Y,Z,则X对于Y和Z的置信度为:
我们在做商品推荐的时候,重点考虑的是提升度,因为提升度代表的是 “商品 A 的出现,对商品 B 的出现概率提升的”程度 。
提升度表示含有Y的条件下,同时含有X的概率,与X总体发生的概率之比,即:
提升度>1:强关联规则,代表有提升
提升度<=1:无效强关联规则,代表无提升
提升度=1:X和Y相互独立
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询