下载此文档

侦测欺诈交易.docx


文档分类:金融/股票/期货 | 页数:约33页 举报非法文档有奖
1/33
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/33 下载此文档
文档列表 文档介绍
(王增飞吕梁学院吕梁033000)摘要考虑到在经济和社会领域中经常存在欺诈交易等非法活动,因此欺诈拉验是数据挖粼技术的一个重要应用领域。从数据分析的角度,欺诈行为通常和异常的观测值相关联,因为这些欺诈行为是偏离常规的。在多个数据分析领域,,能够提供某种欺诈概率排序作为输出结果,可以使公司以最佳方式来利用其事后检查资源。关键词缺失值填补决策精确度回朔精确度半监督技术scams(WangLvliangXueyuanLvliang033000)AbstractThefraudisanimportantareaofapplicationfordatamining,,fraudisoftenassociatedwiththeobservedvalueofanexception,,-mortemactivity,canprovidesomekindoffraudprobabilitysortingasoutput,panyinthebestwaytousethepost--uracyAsemi-supervisedtechnology引言侦测欺诈交易的目的是找到“奇怪的”交易记录报告,,销售员可按照ti己的策略和公司情况来自由设置梢售价格。我们的日的是根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成核实这些悄售报告真实性的工作。1目标任务根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成核实这些销售报告真实性的工作。我们提供一份欺诈率排名的报告,这个欺诈率排名将允许公司把有限的检验资源分配给系统所提示的更“可疑”的那些报告。2数据来源load('')将从这个文件中把数据载入到一个名为sale的数据框library(DMwR)data(sales)使用本书添加包中的数据得到了名为sale的数据框,,了解数据的统计特征ID:说明销售员ID的一个因子变量。  Prod:说明销售产品ID号的一个因子变量。 Quant:报告该产品销售的数量。 Val:报告销售记录的总价值。  Insp:有3个可能值的因子变量——ok表示公司检查了该交易并认为该交易有效;fraud表示发现该交易为欺诈;unkn表示该交易未经过公司审核。进一步使用nlevels函数发现数据中包含大量的产品和销售人员的信息从数据的统计特征初步可以看出v431号雇员录入的数据最多,p1125号产品卖出最多,可以看到产品销售的数量和总价值的四分位数据,公司已检查承认有效的数据有14462,已发现欺诈的数据有1270,未经过审查的有385414,说明大量数据还未经过审核,需要接下来的数据分析来检查其中的欺诈数据。,在40万组数据中可以忽略不计。应该注意当数据量特别大时,改用summary函数在统计过的销售记录中,根据以上的数据结果可以看出,交易有效的是3%,%,未经审核的是96%,说明欺诈比例比较小。每个交易人员的交易数量如图3-1。图3-1每个产品的交易数量如图3-2。图3-2结合两张图可以看到:所有销售人员的数据相当不同,对于每个产品,波动性较大,所以,下面需要对不同的产品分别进行处理。如果两个交易报告中的产品是相同的,而产品的标准价格差别太大,那么其中的一个交易报告将视为不正常,不过,用这两个数量得出的结论可能不是理想的根据。实际上,由于每个交易中销售的产品数量不同,所以用单位产品的价格来进行上面的分析可能更正确。可以把这个单位产品价格作为新的一列加入到数据中。可以看出,当分析一个较短的时期内的交易时,产品的交易价格不会出现较大的变化。得到五个中最贵和最便宜的产品如图3-3。图3-3下面类似进行分析,找出给公司带来更多(少)

侦测欺诈交易 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数33
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iris028
  • 文件大小275 KB
  • 时间2020-07-01