下载此文档

基于IBM SPSS Modeler 14.2的数据挖掘..pdf


文档分类:IT计算机 | 页数:约19页 举报非法文档有奖
1/19
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/19 下载此文档
文档列表 文档介绍
基于 IBM SPSS 的数据挖掘对某公司销售记录进行分析。该公司在 - 进行了发放优惠劵活动, 产生了 1291 条记录, 9 个字段,每个字段的意义如表 1所示。数据可以到下面地址下载: .xlsx 。表 1 记录中字段的意义字段名字段类型字段意义 Cmpgn_name 标志活动名,均为 Coupon campaign name Control_yn 标志购买者类型: 控制:'c', 测试:'t' Redeemer_YN 标志是否为重复购买者: 是:'y', 否:'n' USER_ID 连续购买者 ID Gender 名义购买者性别: 女:'F', 男:'M', 未知:'U' sge 连续购买者年龄, age= -99 意味着信息丢失 CK_DATE 连续购买日期 BUY_QTY 连续购买商品数量 GMB 连续购买金额( 美元) 下面利用 IBM SPSS Modeler 进行决策树、聚类分析、关联分析和回归分析。( 1)决策树分析启动 IBM SPSS Modeler ,导入文件。在工作平台上,添加一个 Excel 源节点。双击该节点,文件类型设为“ Excel 2007,2010 (*.xlsx )”,导入文件为源 Excel 文件的路径, 按名称 DATA 选择工作表,其他默认设置,如图 所示。图 导入文件查看源数据。添加一个“表”节点,运行该表节点。如图 所示,共有 9个字段, 1291 条记录。图 源数据下面首先利用 算法进行决策树分析, 探讨客户的年龄、性别、单次购买量、单次购买金额与购买者是否重复购物的关系。添加“类型”节点。在数据源节点后添加一个类型节点,把 gender 、age 、BUY_QTY 和 GMB 的角色设为数据流的输入, redeemer_yn 的角色设为目标,其他的角色设为无,如图 所示。图 字段类型设置添加 节点,双击 节点,采用默认设置。如图 所示。图 节点设置点击图 中的“运行”按钮,生成 模型,右键浏览,如图 所示。可以看到生成的决策树,从中可以转化为一些规则,例如当 GMB<=19 时,购买者不是重复购买者。但是从业务角度来讲,更加关注哪些客户是重新购买者。可以看出,当每次购买金额 GMB 超过 19,且年龄在 61 且性别为男或未知时,顾客为重复购买者。图 决策树预测变量重要性的情况如图 所示,可以看到年龄、 GMB 、gender 、BUY_QTY 对建模的影响是逐渐降低的。图 预测变量重要性在生成模型之后添加一个分析节点,运行可以得到图 所示的结果。可以看出,决策树的正确率为 % 。图 分析决策树模型的质量( 2)聚类分析下面再利用两步聚类算法对源数据进行分析,选择购买者的年龄、性别、单次购买量、购买金额、是否为重复购买者等字段作为聚类的属性。在数据源节点后添加一个类型节点,把 redeemer_yn 、gender 、age 、BUY_QTY 和 GMB 的角色设置为输入,其他字段的角色设为无,如图 所示。图 类型节点设置在类型节点后添加一个“两步”节点,双击该节点,如图 所示,采用默认设置。图 两步节点设置点击图 中的“运行”按钮, 生成两步模型,右键浏览该模型。两步模型的概要和聚类质量如图 所示, 聚类质量比较好(值为 )。图 模型概要和聚类质量两步聚类算法得到的 4个聚类所占总记录的百分比为 % 、% 、% 和 % ,最大聚类与最小聚类的比值为 ,如图 所示。图 两步模型聚类大小两步模型各个字段的重要性如图 所示,其中每个字段重要性如下: Redeemer ( )、 gender ( )、 BUY_QTY ( )、 GMB ( )和 age ( )。图 预测变量重要性图 显示了聚类结果的详细信息,不仅可以看到每个聚类的大小,也能够看到每个字段对聚类的作用。图 聚类结果( 3 )关联分析下面利用 Apriori 算法对购买者的年龄、性别以及是否为重复购买者进行关联分析

基于IBM SPSS Modeler 14.2的数据挖掘. 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息