当前位置:首页 > 开发 > 行业应用 > 正文

数据挖掘之挖掘大型数据库中的关联规则学习笔记

发表于: 2013-10-17   作者:aoyouzi   来源:转载   浏览次数:
摘要: 挖掘大型数据库中的关联规则     关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。   关联规则挖掘寻找给定数据集中项之间的有趣联系   规则的支持

挖掘大型数据库中的关联规则

 

 

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。

 

关联规则挖掘寻找给定数据集中项之间的有趣联系

 

规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性,。关联规则是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。

 

I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D 是数据库事务的集合,其中每个事务T

是项的集合,使得T Í I。每一个事务有一个标识符,称作TID。设A 是一个项集,事务T 包含A当且仅当A Í T。关联规则是形如A Þ B 的蕴涵式,其中A Ì IB Ì I,并且A Ç B = Æ。规则A ÞB 在事务集D 中成立,具有支持度s,其中s D 中事务包含A È B(即,A B 二者)的百分比。

它是概率P(A È B)规则A Þ B 在事务集D 中具有置信度c,如果D 中包含A 的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即

support (A Þ B ) = P(A È B)

confidence (A Þ B ) = P(B|A)

 

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计,我们用0%100%之间的值,而不是用0 1 之间的值表示支持度和置信度。

项的集合称为项集15。包含k 个项的项集称为k-项集。

 

项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup,如果项集的出现频率大于或等于min_sup D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集16。频繁k -项集的集合通常记作Lk

 

关联规则的挖掘是一个两步的过程:

找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样;

由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。

 

关联规则挖掘:一个路线图

 

根据规则中所处理的值类型:如果规则考虑的关联是项的在与不在,则它是布尔关联规则。

根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则

根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现规则

 

数据挖掘之挖掘大型数据库中的关联规则学习笔记

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以
数据挖掘:关联规则 时间限制: 5秒 内存限制: 64M 数据挖掘有很广泛的应用领域。其中,最广为人知且
关联 基本定义 关联规则:形如 X -> Y的蕴涵表达式,其中X和Y是不相交的项集。关联规则的强度可
1.置信度(confidence) 定义:设W中支持物品集A的事务中,有c %的事务同时也支持物品集B,c %称为
数据--》数据仓库--》数据挖掘-》模型评估-》知识 数据分析 通过数据分析可以发现最有价值客户,是
频繁模式:频繁出现的模式(可以是项集、子序列或子结构) 基本概念 支持度:support 置信度:confi
<!-- [if gte mso 9]><xml> <w:WordDocument> <w:View>Normal</w:View&
在数据挖掘的学习中,遇到了中位数的概念,一GOOGLe之下,其实发现以前的课本等是没学习到的,但现
在数据挖掘的学习中,遇到了中位数的概念,一GOOGLe之下,其实发现以前的课本等是没学习到的,但现
在数据挖掘的学习中,遇到了中位数的概念,一GOOGLe之下,其实发现以前的课本等是没学习到的,但现
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号