下载此文档

数据挖掘中处理不完全数据的类均值方法及其扩展的中期报告.docx


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
该【数据挖掘中处理不完全数据的类均值方法及其扩展的中期报告 】是由【niuwk】上传分享,文档一共【2】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘中处理不完全数据的类均值方法及其扩展的中期报告 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘中处理不完全数据的类均值方法及其扩展的中期报告一、研究背景和目的在实际应用中,很多数据集都存在缺失值或者错误值等不完全数据,这些缺失值或者错误值会对数据分析和挖掘造成影响,因此需要一种方法来处理这些数据。类均值方法是一种常见的处理不完全数据的方法,在研究中,我们旨在研究类均值方法及其扩展的应用场景和优化方法,以改善其处理不完全数据的效果。二、研究内容1、类均值方法(1)原理类均值方法是一种基于聚类的方法,它假设数据集中每个样本都属于某个类别,并且每个类别都有一个均值向量,在处理不完全数据时,类均值方法会对缺失的属性值进行修复或者填充,具体做法是利用该类别下存在的属性值的平均值或者中位数来代替缺失的属性值。类均值方法的目标是最小化修复或者填充后的数据和原始数据之间的误差。(2)优点类均值方法具有计算简单、处理速度快、可解释性强等优点。(3)缺点类均值方法对数据集的假设较为严格,需要先确定每个样本所属的类别,在实际应用中需要使用其他聚类算法来实现;此外,类均值方法对于异常值和噪声数据的容忍度较低,容易受到这些数据的干扰。2、类均值方法的扩展为了克服类均值方法的局限性,一些研究者提出了许多改进的方法,例如:(1)基于权值的类均值方法:使用样本之间的相似度或者相关系数来计算属性值的权值,在计算类别的均值时,使用这些权值对不完全数据进行修复或者填充,可以降低异常值和噪声数据的干扰。(2)基于距离的类均值方法:使用样本之间的距离来决定样本归属的类别,在计算类别的均值时,只考虑该类别下与目标样本最近的邻居样本的属性值,可以避免异常值和噪声数据的干扰。(3)基于局部加权的类均值方法:在计算类别的均值时,利用该类别下与目标样本最近的邻居样本的属性值进行加权平均,可以更加准确地反映目标样本所属的类别及其属性值。三、研究计划1、收集相关文献资料,了解类均值方法及其扩展的研究现状。2、针对类均值方法存在的问题,提出完善的改进方法。3、在多个真实数据集上测试类均值方法及其扩展的效果,并与其他处理不完全数据的方法进行比较分析。4、结合实际问题,探究类均值方法在具体应用场景中的优劣势和可行性。四、参考文献[1]HaldarS,-nearestneighbormethods[C]//InternationalConferenceonInformationTechnology(ICIT).IEEE,2013:234-239.[2]QianY,LuoZ,LiZ,-nearestneighboralgorithmforimputingmissingdata[J].putationalInformationSystems,2013,9(5):1865-1872.[3]JunJH,[C]//,Cham,2018:310-319.

数据挖掘中处理不完全数据的类均值方法及其扩展的中期报告 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人niuwk
  • 文件大小11 KB
  • 时间2024-04-16