什么是数据挖掘中的关联分析

 我来答
xushasha0710
2011-06-27
知道答主
回答量:1
采纳率:0%
帮助的人:0
展开全部
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系   在数据挖掘的基本任务中关联(association)和顺序序贯模型(sequencing)关联分析是指搜索事务数据库(trarisactional databases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。   其属于灰色理论中的一种分析方法。
美林数据技术股份有限公司
2019-06-26 广告
美林数据Tempo大数据分析平台,它是一款集数据接入、数据处理、数据挖掘、数据可视化、数据应用于一体的软件产品。它秉持“智能、互动、增值”的设计理念,面向企业级用户提供自助式数据探索与分析能力,为企业提供从BI到AI的一体化数据分析与应用解... 点击进入详情页
本回答由美林数据技术股份有限公司提供
Savotore
2014-12-07 · 超过34用户采纳过TA的回答
知道答主
回答量:106
采纳率:0%
帮助的人:82.4万
展开全部
FineBI数据挖掘的结果将以字段和记录的形式添加到多维数据库中,并可以在新建分析时从一个专门的数据挖掘业务包中被使用,使用的方式与拖拽任何普通的字段没有任何区别。
配合FineBI新建分析中的各种控件和图表,使用OLAP的分析人员可以轻松的查看他们想要的特定的某个与结果,或是各种各样结果的汇总。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
拓端数据科技
2021-02-23 · 一起做有态度的数据人
拓端数据科技
拓端(http://tecdat.cn )创立于2016年,自成立以来,就定位为提供专业的数据分析与数据挖掘服务的提供商,致力于充分挖掘数据的价值,为客户定制个性化的数据解决方案与行业报告等
向TA提问
展开全部

原文链接:http://tecdat.cn/?p=16297

 

关联挖掘通常用于通过识别经常一起购买的产品来提出产品推荐。但是,如果您不小心,则规则在某些情况下可能会产生误导性的结果。

关联挖掘通常是根据零售市场或在线电子商务商店的交易数据进行的。由于大多数交易数据很大,因此该apriori算法使更容易快速找到这些模式或规则。

那么,什么是规则?

规则是一种符号,表示经常购买哪些商品和哪些商品。它具有LHS和RHS部分,可以表示如下:

项目集A =>项目集B

这意味着,右侧的商品经常与左侧的商品一起购买。

如何衡量规则的强度?

将apriori()产生最相关集从给定的交易数据的规则。它还显示了这些规则的支持,信心和提升度。这三个度量可用于确定规则的相对强度。那么这些术语是什么意思呢?

让我们考虑规则A => B,以便计算这些指标。

 

 

 

 

提升是A和B的共存超过独立的A和B并存的预期概率的因素。因此,提升越高,A和B一起发生的机会就越高。

让我们看看如何使用R获取规则,置信度,提升度等。

交易数据

与数据框不同,使用head(Groceries)不会在数据中显示交易项目。要查看交易,请改用inspect()函数。

由于关联挖掘处理交易,因此必须将数据转换为class transactions。这是必要的步骤,因为该apriori()函数transactions仅接受类的交易数据。

library(arules)class(Groceries)#> [1] "transactions"#> attr(,"package")#> [1] "arules"inspect(head(Groceries, 3))#>商品                   #> 1 {citrus fruit,            #>    semi-finished bread,     #>    margarine,               #>    ready soups}             #> 2 {tropical fruit,          #>    yogurt,                  #> coffee}                  #> 3 {whole milk}            

如果您必须从文件中读取数据作为交易数据,请使用read.transactions()。

tdata <- read.transactions("transactions_data.txt", sep="\t")

如果您已经将交易存储为数据框,则可以将其转换为类transactions,如下所示:

tData <- as (myDataFrame, "transactions") # 转换为“交易”类

这里有一些其他有用的实用程序函数:

size(head(Groceries)) # 每个观察项的数量#> [1] 4 3 1 4 4 5LIST(head(Groceries, 3)) # 将'交易'类转换为列表,注意CAPS中的LIST#> [[1]]#> [1] "citrus fruit"        "semi-finished bread" "margarine"          #> [4] "ready soups"        #> #> [[2]]#> [1] "tropical fruit" "yogurt"         "coffee"        #> #> [[3]]#> [1] "whole milk"

如何查看最常出现的项目?

在eclat()交易对象中获取并给出根据您提供的支持数据的最常见物品supp。该maxlen定义频繁项中的每个项目集项目的最大数量。

frequentItems <- eclat (Groceries, parameter = list(supp = 0.07, maxlen = 15)) # 计算对频繁物品的支持度inspect(frequentItems)#>    items                         support   #> 1  {other vegetables,whole milk} 0.07483477#> 2  {whole milk}                  0.25551601#> 3  {other vegetables}            0.19349263#> 4  {rolls/buns}                  0.18393493#> 5  {yogurt}                      0.13950178#> 6  {soda}                        0.17437722itemFrequencyPlot(Groceries, topN=10, type="absolute", main="Item Frequency") # 绘制频繁项目

如何获得推荐规则?

inspect(head(rules_conf)) # 显示所有规则的支持度,提升度和置信度#>      lhs                                           rhs                support     confidence lift    #> 113  {rice,sugar}                               => {whole milk}       0.001220132 1          3.913649#> 258  {canned fish,hygiene articles}             => {whole milk}       0.001118454 1          3.913649#> 1487 {root vegetables,butter,rice}              => {whole milk}       0.001016777 1          3.913649#> 1646 {root vegetables,whipped/sour cream,flour} => {whole milk}       0.001728521 1          3.913649#> 1670 {butter,soft cheese,domestic eggs}         => {whole milk}       0.001016777 1          3.913649#> 1699 {citrus fruit,root vegetables,soft cheese} => {other vegetables} 0.001016777 1          5.168156rules_lift <- sort (rules, by="lift", decreasing=TRUE) # 'high-lift' rules.inspect(head(rules_lift)) ##>      lhs                                                  rhs              support  confidence lift    #> 53   {Instant food products,soda}                      => {hamburger meat} 0.001220 0.6315789  18.995#> 37   {soda,popcorn}                                    => {salty snack}    0.001220 0.6315789  16.697#> 444  {flour,baking powder}                             => {sugar}          0.001016 0.5555556  16.408#> 327  {ham,processed cheese}                            => {white bread}    0.001931 0.6333333  15.045#> 55   {whole milk,Instant food products}                => {hamburger meat} 0.001525 0.5000000  15.038#> 4807 {other vegetables,curd,yogurt,whipped/sour cream} => {cream cheese }  0.001016 0.5882353  14.834

置信度为1(见rules_conf上文)的规则意味着,每当购买LHS物品时,也100%的时间购买了RHS物品。

提升为18(见rules_lift上文)的规则意味着,与假设无关的购买相比,LHS和RHS中的物品一起购买的可能性要高18倍。

如何控制输出中的规则数量?

调整maxlen,supp并conf在所述参数apriori函数来控制生成的规则数。您将不得不根据数据的冗余性对此进行调整。

parameter = list (supp = 0.001, conf = 0.5, maxlen=3) # maxlen = 3 限制规则中最大物品数量为 3

  • 要获得“强”规则,请增加“ conf”参数的值。

  • 要获得“更长”的规则,请增加“ maxlen”。

  • 如何删除冗余规则?

    有时希望删除作为较大规则子集的规则。为此,请使用以下代码过滤冗余规则。

  • rules <- rules[-subsetRules] #删除规则子集

  • 如何查找与给定项目相关的规则?

    这可以通过修改函数中的appearance参数来实现apriori()。例如,

    找出哪些因素影响了产品X的购买

    在购买“全脂牛奶”之前找出顾客购买了什么。这将帮助您了解导致购买“全脂牛奶”的频繁模式。

  • sort (  by="confidence", decreasing=TRUE) # 按置信度排列#>      lhs                                           rhs          support     confidence lift    #> 196  {rice,sugar}                               => {whole milk} 0.001220132 1          3.913649#> 323  {canned fish,hygiene articles}             => {whole milk} 0.001118454 1          3.913649#> 1643 {root vegetables,butter,rice}              => {whole milk} 0.001016777 1          3.913649#> 1705 {root vegetables,whipped/sour cream,flour} => {whole milk} 0.001728521 1          3.913649#> 1716 {butter,soft cheese,domestic eggs}         => {whole milk} 0.001016777 1          3.913649#> 1985 {pip fruit,butter,hygiene articles}        => {whole milk} 0.001016777 1          3.913649

  • 找出在产品X之后/与产品X一起购买的产品

    这是找出购买“全脂牛奶”的顾客的案例。在等式中,“全脂牛奶”以LHS(左侧)表示。

  • list(default="rhs",lhs="whole milk"  #  #>   lhs             rhs                support    confidence lift     #> 6 {whole milk} => {other vegetables} 0.07483477 0.2928770  1.5136341#> 5 {whole milk} => {rolls/buns}       0.05663447 0.2216474  1.2050318#> 4 {whole milk} => {yogurt}           0.05602440 0.2192598  1.5717351#> 2 {whole milk} => {root vegetables}  0.04890696 0.1914047  1.7560310#> 1 {whole milk} => {tropical fruit}   0.04229792 0.1655392  1.5775950#> 3 {whole milk} => {soda}             0.04006101 0.1567847  0.8991124

  • 这样做的一个缺点是,无论支持,置信度或最小参数如何,您在RHS上只能得到一项。

    使用提升度的提示

    使用提升时,规则的方向性将丢失。也就是说,任何规则A => B和规则B => A的提升都将相同。请参阅以下计算:

    A-> B

  • 支持:

    请点击输入图片描述

    请点击输入图片描述

  • 置信度:

    请点击输入图片描述

    请点击输入图片描述

  • 预期置信度:P(B)

  • 升降机:

    请点击输入图片描述

    请点击输入图片描述

  • B-> A

  • 支持度:

    请点击输入图片描述

    请点击输入图片描述

  • 置信度:

    请点击输入图片描述

    请点击输入图片描述

  • 预期置信度:P(B)

  • 提升度:

    请点击输入图片描述

    请点击输入图片描述

  • 重要的提示

    对于规则A-> B和B-> A而言,提升和支持度的值都相同。这意味着我们不能使用提升为特定方向的 “规则” 提出建议。它只能用于将经常购买的物品分组。

    使用置信度的提示

    在现实世界中提出产品建议时,尤其是在提出附加产品建议时,规则的置信度可能是一种误导性的度量。让我们考虑以下涉及4个事务的数据,涉及iPhone和耳机:

  • Iphone,耳机

  • Iphone,耳机

  • 苹果手机

  • 苹果手机

  • 我们可以为这些交易创建2条规则,如下所示:

  • iPhone->耳机

  • 耳机-> iPhone

  • 在现实世界中,将耳机推荐给刚买了iPhone而不是相反的人是很现实的。想象一下,当您刚购买完耳机时,就被推荐为iPhone。不太好!

    从apriori输出中选择规则时,您可能会猜测规则的置信度越高,则规则越好。但是对于这种情况,头戴式耳机-> iPhone规则将比iPhone->头戴式耳机具有更高的置信度(2倍)。你知道为什么吗?下面的计算显示了如何。

    置信度计算:

    iPhone->耳机:

    请点击输入图片描述

    耳机-> iPhone:

    请点击输入图片描述

    如您所见,耳机-> iPhone推荐具有更高的置信度,这具有误导性和不现实性。因此,置信度不应成为您提出产品建议的唯一手段。

    因此,在推荐产品之前,您可能需要检查更多标准,例如产品价格,产品类型等,尤其是在交叉销售的情况下。

    请点击输入图片描述

    最受欢迎的见解

    1.探析大数据期刊文章研究热点

    2.618网购数据盘点-剁手族在关注什么

    3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究

    4.python主题建模可视化lda和t-sne交互式可视化

    5.r语言文本挖掘nasa数据网络分析,tf-idf和主题建模

    6.python主题lda建模和t-sne可视化

    7.Python中的Apriori关联算法市场购物篮分析

    8.通过Python中的Apriori算法进行关联规则挖掘

    9.python爬虫进行web抓取lda主题语义数据分析

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式