下载此文档

实验2-------关联规则.doc


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
C lementine 关联规则模型一. 关联规则的基本原理所谓关联规则法,就是寻找在同一个事件中出现的不同项目的相关性,是发现交易数据库中不同商品之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其它商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。关联规则的结果是一系列有意义的规则,它揭示了数据中蕴含的关联特征。一般形式为: X->Y ,X 称为前项, Y 称为后项。如: 面包-> 牛奶支持度, 前项 X 出现的可能性。测度关联规则的普遍性, 支持度太低, 说明规则不具有一般性。置信度,出现 X 的事务中出现 Y 的比例,是条件概率。衡量规则的精确度,即可信度。如: IfX then Y 则它的置信度是: C =p(X and Y)/p(X)=5%/15%= 关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则,应找出那些可信且有代表性的规则。同时满足最小支持度和最小置信度的规则称作强规则。项的集合称为项集。包含 K 个项的项集称为 K- 项集。集合{ computer,financial_management_software } 是一个 2- 项集。项集的出现频率是包含项集的事务数, 简称为项集的频率、支持计数或计数。项集满足最小支持度 min_sup , 如果项集的出现频率大于或等于 min_sup 与D 中事务总数的乘积。如果项集满足最小支持度, 则称它为频繁项集。频繁 K- 项集的集合通常记作 L k。 clementine 中提供的常用关联规则方法有两种: Apriori 和 GRI 。 Apriori 算法是一种有效的关联规则挖掘算法, 它逐级探查挖掘。 Apriori 使用一种称作逐层搜索的迭代方法, K- 项集用于探索( K+1 )- 项集。首先, 找出频繁 1- 项集的集合。该集合记作合L 1。L 1 用于找频繁 2- 项集的集合 L 2,而L 2 用于找 L 3, 如此下去, 直到不能找到频繁 K- 项集。找每个 L k 需要一次数据库扫描。要求:要创建 Apriori 规则集,需要一个以上的 In 字段和一个以上的 Out 字段。 In 字段和 Out 字段必须为字符型字段。方向为 None 的字段将被忽略。在执行节点前, 字段类型必须被充分实例化。优点: 对于大型问题, Apriori 通常比 GRI 训练得快。 Apriori 对可保留规则数量没有专门的限制,可以处理有多达 32 个前提的规则。 Apriori 提供五种训练方法,在使数据挖掘方法配合可能出现的问题方面有更大的灵活性。二. 范例说明该范例的背景是关于超市购物清单的记录,每一条记录描述的是一个客户在超市购买的货物。我们主要考虑购买货物之间的内在联系。要解决的业务问题是:根据所买东西的类型,找出哪些东西存在内在的相互关联的关系。比如:一般买啤酒的人会一起买鲜肉。下图为 clementine 关联规则 Apriori 模型图图 45 Apriori 模型图三. 数据集说明数据集 BASKETS1n .db ,以下是该数据集的所有字段名: ? cardid . 卡号? value . 消费额? pmothed . 付款方式? sex . 性别? e. 收入? h

实验2-------关联规则 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人63229029
  • 文件大小372 KB
  • 时间2017-01-16