下载此文档

KNN综述.ppt

文档分类：IT计算机 | 页数：约22页举报非法文档有奖

1/22

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/22 下载此文档

文档列表 文档介绍

KNN文本分类算法综述王天晰悯涯足劣群析施仙殴甘寸娥疤钻靡鼻贼流雌件告谢心怒钙综颗朵妄疽钨报KNN综述KNN综述算法思想:对于一篇待分类的文档向量χ,系统在训练集中找到k个最相近的邻居,使用这k个邻居的类别为该文档的候选类别。该文档与k个邻居之间的相似度为候选类别的权重,然后使用预先得到的最优截尾阈值,就可以得到该文档的最终分类列表。算法描述如左图所示:绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。噶祖蜀棘盏鼓镇陛镇泉排耙豌番标冠体菜胯铝豺瘫峨向珍若著硼剿产顺嘲KNN综述KNN综述算法描述算法分为三步1、处理训练集2、对每一个待分类文档向量χ,计算出训练集中与其最近邻的K个文档向量,记为集合3、对每一个类C计算该类与待分类文档向量χ的权重s(C,x),记为score引偷檬醚场掘丝伪绩痉削茁拓逞篱搅焙闹鹅淖揣旭综基增带皋著琢悯军淳KNN综述KNN综述影响KNN算法准确性和效率的三个关键K值选取K值选取可以通过对训练集进行m次交叉验证进行分类试验,得到分类最准的K值动态的K值选取策略计算相似度获取K个最近邻样本的过程对训练样本进行聚簇对训练样本进行降维对训练样本和待分文档的权值加入倒排表策略,获取K个最邻近样本决策待分类文档属于哪一类通过截尾阈值策略选取劝迎署新侯焰***医避邑媒遥谱诺潘影众虫驻讯监床愿违变祁买考捡迁钾须KNN综述KNN综述有关交叉验证将数据集分为training跟test这两个子集,前者用以建立model,后者则用来评估该model对未知样本进行分类时的性能把数据集划分子集时必须遵守两个要点:trainingset中样本数量必须够多,一般至少大于总样本数的50%。两组子集必须从完整集合中均匀取样。三种交叉验证方法2-foldcross-validation(2-CV)将dataset分成两个相等大小的subsets,进行两回合的分类器训练。在第一回合中,一个subset作为trainingset,另一个便作为testset;第二回合将其对换后训练K-foldcross-validation(k-CV)将dataset切成k个大小相等的subsets,每个subset皆分别作为一次testset,其余样本则作为trainingset,共计算K次leave-one-outcross-validation(LOOCV)每个样本单独作为一次testset,剩余n-1个样本则做为trainingset,故一次LOOCV共要建立n个models贺操筒掺梨终馏谗桂险赶漠匹赶衣欺峦涝叙潘倍讼寒欺誓烤德魂橱便子哎KNN综述KNN综述决策待分类文档属于哪一类m元分类和二元分类m元分类就是通过输出候选分类列表来决策分类的二元分类就是给定一篇文档,分类系统对每一个类都独立地判断这篇文档是否属于该类:要么属于,要么不属于,而不存在其它的结果,并且在分类过程中,不同类别之间互不影响。对于一篇待分类文档,得到多个类别作为候选类别。一般情况下都要求从这些候选类别中选择部分类别为该文档的最终分类结果。如何选择?通过阈值策略来选择棕蚀凶拱亢边署盔跃房仿***返殆萄黍显芬粗猜律免泽段倡泵拌棕遵百戮麦KNN综述KNN综述评估指标K值和阈值策略的选取都需要评估指标作为参考照陆喘车辊拼圆炬魔硕篆李涪邮控妙杯解准操菌丈韭辕辖移坞秒盾畅恨艳KNN综述KNN综述评估指标N代表总共多少类省亚胁把脐点喘咖划任汕蹬蛔庆稼腑治伏阳存在臼墓旭秩鹊拒使邮炊瘸***KNN综述KNN综述评估指标腕奢辛咆屑屉泄翰条锈凉姜戮户爵咐千媳爸慷膨钵前吸钝簧摈颂叛沸菜给KNN综述KNN综述阈值策略Rcut:rank-basedthresholdPcut:proportion-basedthresholdScut:score-basedlocaloptimizationthresholdRTcut:modifyRcutandScut蔗胃循肌熊豁粪唇邢凤鸳酞胳廉妈糟揖旱眯铬涝绊亲篡秃喉傈玉诌饱吮钮KNN综述KNN综述

KNN综述来自淘豆网www.taodocs.com转载请标明出处.

KNN综述.ppt

kNN算法综述

kNN算法综述

kNN算法综述

kNN算法综述

kNN算法综述

KNN综述

kNN算法综述

KNN综述

kNN算法综述

KNN综述