下载此文档

频繁项集报告资料.docx


文档分类:行业资料 | 页数:约23页 举报非法文档有奖
1/23
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/23 下载此文档
文档列表 文档介绍
1 目录第一章绪论................................................................................ 1 研究背景和意义............................................................... 1 本文主要内容................................................................... 2 第二章频繁项集........................................................................ 3 频繁项集概述................................................................... 3 频繁项集名词解析........................................................... 3 频繁项集分析指标........................................................... 4 第三章 A-Priori 算法................................................................... 5 概述.................................................................................. 5 Apriori 核心算法过程....................................................... 6 第四章 PCY 算法......................................................................... 8 第五章 A-Priori 算法的 java 实现.............................................. 9 第六章 Hadoop 核心................................................................ 11 HDFS ................................................................................ 11 HDFS 概述............................................................... 11 NameNode 和 SecondNameNode ......................... 12 MapReduce ..................................................................... 14 第七章基于 MapReduce 的 A-Priori 算法实现................... 16 2 第一章绪论 研究背景和意义购物篮模型的最早应用源于真实购物篮的分析, 也就是说, 超时和连锁商店都会记录每个结账的购物篮的内容、这里的“项”指的是商店出售的不同商店,而“购物篮”指的是单个购物篮中所装的项集, 通过发现频繁项集,零售商可以知道哪些商品通常会被顾客购买,那些共同购买的频度远高于各自独立购买所预期的频度的项对或项集。频繁项集分析的应用并不仅限于购物篮数据, 同样的模型可以用于挖掘很多其他类型的数据。例如: (1) 关联概念这里的项是词, 购物篮是文档。文档中的所有词就构成了对应购物篮中的项, 如果要寻找多篇文章中共同出现的词汇集合, 那么这些集合大都被高频常见词所占据, 比如, 我们想要寻找猫和狗的网页摘要, 但是停用词“ and ”和“a”却占据了频繁项集中的主要比例, 如果忽略所有的停用词, 那么我们希望在高频次对中发现某些能够代表联合概念的一部分词对。(2) 文档抄袭这里的项是文档,购物篮是句子。一篇文档中, 如果包含某个句子,则任务该句子对应的购物篮中包含文档对应的项。本应用中, 寻找那些在多个购物篮中共同出现的项对, 如果发现这项的项对, 也就是两篇文档有很多相同的句子, 实际当中, 设置一到两个句子相同都是抄袭发生的有力证据。(3) 生态标志物这里的项包括两种类型, 一种是诸如基金或血 3 蛋白

频繁项集报告资料 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数23
  • 收藏数0 收藏
  • 顶次数0
  • 上传人q1188830
  • 文件大小0 KB
  • 时间2016-04-14
最近更新