下载此文档

数据挖掘chapter序列数据挖掘.ppt


文档分类:IT计算机 | 页数:约53页 举报非法文档有奖
1/53
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/53 下载此文档
文档列表 文档介绍
11Chapter 8. 序列数据挖掘2序列数据库和序列模式挖掘?事务数据库vs. 序列数据库?频繁模式vs. (频繁) 序列模式?序列模式挖掘的应用?顾客购物序列: ?在3个月内, 先买计算机, 然后买CD-ROM, 再后买数字照相机.?医疗处治, 自然灾害(例如, 地震), 科学和工程进度, 股票和市场等.?电话呼叫模式, Web日志点击流?DNA 序列和基因结构3什么是序列模式挖掘??给定一个序列的集合, 找出所有的频繁子序列?序列:事件的有序列表一个序列数据库一个序列: <(ef) (ab) (df) c b >,我们可以用字典序列出它们.<a(bc)dc> 是<<a(abc)(ac)d(cf)>的子序列给定支持度阈值min_sup =2, <(ab)c> 是一个序列模式<eg(af)cbc>40<(ef)(ab)(df)cb>30<(ad)c(bc)(ae)>20<a(abc)(ac)d(cf)>10sequenceSID4序列模式挖掘的挑战?大量的可能的序列模式隐藏在数据库中?挖掘算法应当?可能的话, 找出满足最小支持度阈值的模式的完全集?高度有效的, 可伸缩的, 仅涉及不多次数的数据库扫描?可以与各种用户指定的约束结合5序列模式挖掘研究?概念引进和最初的类Apriori算法?R. Agrawal & R. Srikant. “Mining sequential patterns,” ICDE’95?GSP—一种基于Apriori的, 有影响的算法(IBM Almaden开发)?R. Srikant & R. Agrawal. “Mining sequential patterns: Generalizations and performance improvements,” EDBT’96?由序列模式到episodes (类Apriori+ 约束)?H. Mannila, H. Toivonen & . Verkamo. “Discovery of frequent episodes in event sequences,” Data Mining and Knowledge Discovery, 1997?挖掘具有约束的序列模式?. Garofalakis, R. Rastogi, K. Shim: SPIRIT: Sequential Pattern Mining with Regular Expression Constraints. VLDB 19996序列模式的基本性质: Apriori?基本性质: Apriori (Agrawal & Sirkant’94) ?如果序列S 不是频繁的?则S 的任何超序列都不是频繁的?例, <hb> 是非频繁的?<hab> 和<(ah)b>也是非频繁的<a(bd)bcb(ade)>50<(be)(ce)d>40<(ah)(bf)abf>30<(bf)(ce)b(fg)>20<(bd)cb(ac)>10SequenceSeq. ID给定支持度阈值min_sup =2 7GSP—一种拓广的序列模式挖掘算法?GSP (Generalized Sequential Pattern) 挖掘算法?Agrawal和Srikant提出, EDBT’96?方法概述?初始, 数据库中的每个项都是长度为1的候选?for each level (即, 长度为k的序列) do?扫描数据库对每个候选序列收集支持度计数?使用Apriori , 由长度为k 的频繁序列产生长度为(k+1)的候选序列?repeat until 找不到频繁序列或候选?主要优点: 根据Apriori对后选剪枝8找长度为1的序列模式?使用一个例子考查GSP?初始候选: 所有单元素序列?<a>, <b>, <c>, <d>, <e>, <f>, <g>, <h>?扫描数据库一次, 对候选进行支持度计数<a(bd)bcb(ade)>50<(be)(ce)d>40<(ah)(bf)abf>30<(bf)(ce)b(fg)>20<(bd)cb(ac)>10SequenceSeq. IDmin_sup =2 1<h>1<g>2<f>3<e>3<d>4<c>5<b>3<a>SupCand9产生长度为2的候选<ff><fe><fd><fc><fb><fa><f><ef><ee><ed><ec><eb><ea><e><df><de><dd><dc><db><da><d><cf><ce><cd><cc><cb><ca><c><bf><be><bd><bc><bb><ba><b><af><ae><ad><ac><ab><aa><a><f><e><d><c><b><a><f><(

数据挖掘chapter序列数据挖掘 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数53
  • 收藏数0 收藏
  • 顶次数0
  • 上传人分享精品
  • 文件大小0 KB
  • 时间2016-01-25