下载此文档

〖精选文档〗Apriori算法实验报告及程序.doc


文档分类:IT计算机 | 页数:约29页 举报非法文档有奖
1/29
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/29 下载此文档
文档列表 文档介绍
该【〖精选文档〗Apriori算法实验报告及程序 】是由【xiao小蒋】上传分享,文档一共【29】页,该文档可以免费在线阅读,需要了解更多关于【〖精选文档〗Apriori算法实验报告及程序 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
I/30
〖精选文档〗Apriori算法实验报告及程序
Apriori算法实验报告
学号:
姓名:
专业:计算机应用技术
教师:
计算机学院
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
II/30
〖精选文档〗Apriori算法实验报告及程序
目录
1APRIORI实验 1
1
1
1
1
1
1
2
2APRIORI算法分析与实验环境 3
3
3
3
3
4
4
3算法的设计 5
5
5
5
6
6
6
4数据库的设计与数据的来源 7
7
7
8
5实验结果与性能分析 9
9
9
10
10
11
11
12
6总结与体会 13
1
1Apriori实验

现在,数据挖掘作为从数据中获取信息的有效方法,越来越受到人们的重视。关联规则挖掘首先是用来发现购物篮数据事务中各项之间的有趣联系。从那以后,关联规则就成为数据挖掘的重要研究方向,它是要找出隐藏在数据间的相互关系。目前关联规则挖掘的研究工作主要包括:Apriori算法的扩展、数量关联规则挖掘、关联规则增量式更新、无须生成候选项目集的关联规则挖掘、最大频繁项目集挖掘、约束性关联规则挖掘以及并行及分布关联规则挖掘算法等。关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的满足一定条件的最小支持度Minsup和最小置信度Minconf的关联规则。

1993年,Agrawal等人首先提出关联规则概念,。Apriori算法是关联规则挖掘经典算法。针对该算法的缺点,许多学者提出了改进算法,主要有基于哈希优化和基于事务压缩等。

关联规则挖掘作为数据挖掘的重要研究内容之一,主要研究事务数据库、关系数据库和其他信息存储中的大量数据项之间隐藏的、有趣的规律。关联规则挖掘最初仅限于事务数据库的布尔型关联规则,近年来广泛应用于关系数据库,因此,积极开展在关系数据库中挖掘关联规则的相关研究具有重要的意义。近年来,已经有很多基于Apriori算法的改进和优化。研究者还对数据挖掘的理论进行了有益的探索,将概念格和粗糙集应用于关联规则挖掘中,获得了显著的效果。到目前为止,关联规则的挖掘已经取得了令人瞩目的成绩,包括:单机环境下的关联规则挖掘算法;多值属性关联规则挖掘;关联规则更新算法;基于约束条件的关联规则挖掘;关联规则并行及分布挖掘算法等。


编程实现Apriori算法:要求使用‘a’,‘b’,‘c’,‘d’,‘e’,‘f’,‘g’,‘h’,‘i’,‘j’10个项目随机产生数据记录并存入数据库。从数据库读取记录进行Apriori实验,获得频繁集以及关联规则,实现可视化。并用课堂上PPT的实例测试其正确性。

1、程序结构:包括前台工具和数据库;
2、设定项目种类为10个,随机产生事务,生成数据库;
3、正确性验证(可用课堂上的例子);
4、算法效率的研究:在支持度固定数据量不同的时候测量运行时间;在数据量固定,支持度不同的时候测量运行时间;
5、注意界面的设计,输入最小支持度和最小可信度,能够输出并显示频繁项目集以及关联规则。
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
2

1、加强对Apriori算法的理解;
2、锻炼分析问题、解决问题并动手实践的能力。
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
3
2Apriori算法分析与实验环境

Apriori算法是一种找频繁项目集的基本算法。其基本原理是逐层搜索的迭代:频繁K项Lk集用于搜索频繁(K+1)项集Lk+1,如此下去,直到不能找到维度更高的频繁项集为止。这种方法依赖连接和剪枝这两步来实现。算法的第一次遍历仅仅计算每个项目的具体值的数量,以确定大型l项集。随后的遍历,第k次遍历,包括两个阶段。首先,使用在第(k-1)次遍历中找到的大项集Lk-1和产生候选项集Ck。接着扫描数据库,计算Ck中候选的支持度。用Hash树可以有效地确定Ck中包含在一个给定的事务t中的候选。如果某项集满足最小支持度,则称它为频繁项集。

步骤如下:
1、设定最小支持度s和最小置信度c;
2、Apriori算法使用候选项集。首先产生出候选的项的集合,即候选项集,若候选项集的支持度大于或等于最小支持度,则该候选项集为频繁项集;
3、在Apriori算法的过程中,首先从数据库读入所有的事务,每个项都被看作候选1-项集,得出各项的支持度,再使用频繁1-项集集合来产生候选2-项集集合,因为先验原理保证所有非频繁的1-项集的超集都是非频繁的;
4、再扫描数据库,得出候选2-项集集合,再找出频繁2-项集,并利用这些频繁2-项集集合来产生候选3-项集;
5、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止。


(1)编程软件:Jdk开发包+eclipse集成开发环境
Eclipse是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse附带了一个标准的插件集,包括Java开发工具(JavaDevelopmentKit,JDK)。
(2)数据库软件:SQLServer2008
SQLServer2008在Microsoft的数据平台上发布,可以组织管理任何数据。可以将结构化、半结构化和非结构化文档的数据直接存储到数据库中。可以对数据进行查询、搜索、同步、报告和分析之类的操作。数据可以存储在各种设备上,从数据中心最大的服务器一直到桌面计算机和移动设备,它都可以控制数据而不用管数据存储在哪里。
(3)办公软件:Excel2010
Excel是一款试算表办公软件。它是微软办公套装软件office的重要的组成部分,它是集统计分析、数据处理和辅助决策等功能于一身,现在金融、统计财经、管理等众多领域广泛应用。本实验主要用来为固定数据量改变最小支持数以及固定最小支持数改变数据量两种情况进行时间分析提供可视化图表。
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
4

装有Windows7旗舰版电脑。

本章的内容主要是为了引出本实验的主要算法以及对算法的实现环境做了介绍。
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
5
3算法的设计




classTransaction
{
publicintpid;
publicStringitemset;
}
该类表示表中的一条记录。
classDao
{
publicArrayList<Transaction>Query(Stringsql)
}
该类用于访问数据库操作。
classKfp
{
publiccharkfpstr[]=newchar[];
publicintindex=-1;
publicintsupport=0;
publicbooleanisfp=true;
}
该类代表一个频繁项目。

Java中最常用的集合类是List和Map。List的具体实现包括ArrayList和Vector,它们是可变大小的列表,比较适合构建、存储和操作任何类型对象的元素列表。List适用于按数值索引访问元素的情形。HashMap:Map接口的常用实现类,系统<key,value>当成一个整体进行处理,系统总是根据Hash算法来计算<key,value>的存储位置,这样可以保证能快速存、取Map的<key,value>对。
ArrayList<Transaction>alTransactions:保存表中的所有记录
ArrayList<Kfp>alKfpsl:临时存储频繁项目的集合,存储连接后的结果
ArrayList<Kfp>SureFpset:保存频繁k项集
ArrayList<Kfp>SureFpsetPrio:保存频繁k-1项集
ArrayList<String>notFpList:保存一定不是频繁项目的集合,用于剪枝
HashMap<String,Integer>KfpSuppor:频繁项目集及其对应的支持数
HashMap<String,Double>guanlianguize:关联规则及其置信度
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
6

对于连接操作的两个字符串(长度为k),它们必须有k-1个相同的字符才能做连接操作。
例如:abc和abd可以连接成abcd,abd和bcd可以连接成abcd,而abc和ade就不可以做连接操作。整个连接过程类似归并排序中的归并操作
对于任一频繁项目集的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选集肯定不是频繁的,将其剪枝。

本章主要介绍了算法设计的整体流程并且也对主要程序和操作作了简要的说明。
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
7
4数据库的设计与数据的来源
本实验的数据均存储于数据库中。数据库yuzm中共产生6张表。表test为测试用表,用于程序的正确性验证。还有5张表存储随机产生的实验数据。其中数据库的结构如下图所示。


表test为PPT上的实例,用于正确性验证。数据的item个数为5,其中的九行数据均由SQL语句产生,表的每一行都是一个“0”“1”的字符串,字符串长度等于商品种类,其中“0”表示该商品不存在,“1”表示该商品存在。。


5张表是通过算法随机产生的具有不同数据量的数据集,假设商品种类为10种,表的每一行都是一个“0”“1”的字符串,字符串长度等于商品种类,其中“0”表示该商品不存在,“1”表示该商品存在。其中表data1共随机产生1万行数据,表data2产生5万行数据,表data3产生25万行数据,表data4产生50万行数据,表data5产生75万行数据。。
(部分)

本章主要对数据库的设计与数据来源做出了说明。
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
8
5实验结果与性能分析

其中可信度可自由设置,。而支持度记为最小支持度与数据量的比例。实验数据可以下拉选择6张表中的任意一张。如下图所示:


运行程序,我们选择表test,即可进行正确性验证,实验结果如下图:

最终实验结果与ppt的结果相吻合,表明程序编写正确。

为了对本程序的实验进行性能分析,我们分别采用固定数据量改变最小支持数以及固定最小支持数改变数据量两种情况进行时间分析,。

,。具体实验数据量与执行时间如下:

数据量(万行)
1
5
25
50
75
时间(秒)







设实验数据量固定改变最小支持度,具体如下所示:

最小支持度





时间(秒/1万)

49



时间(秒/5万)





时间(秒/25万)






〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序
〖精选文档〗Apriori算法实验报告及程序

〖精选文档〗Apriori算法实验报告及程序 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数29
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xiao小蒋
  • 文件大小119 KB
  • 时间2022-12-07
最近更新