下载此文档

面向支持向量机的降维方法比较分析.docx


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
面向支持向量机的降维方法比较分析.docx面向支持向量机的降维方法比较分析朱慕华,朱靖波,陈文亮(东北大学信息学院自然语言处理实验室,沈阳110004)摘要:支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、"2统计和潜在语义索引几种特征降维方法,同时在屮英文数据集上进行了比较实验。结呆表明,潜在语义索引在降维的同时使分类性能有明显的提高:而其余几种方法使性能严重下降,不适合做支持向杲机的特征降维。关键词:支持向最机:文木分类;parativeStudyonDimensionReductionforSVMsZhuMuhua,ZhuJingbo,ChenWenliang(NaturalLanguageProcessingLabofNortheasternUniversity,Shenyang110004)Abstract:SupportVectorMachines(SVMs),universaldimension2reductionmethodswerestudiedforSVMs,includinginformationgain,documentfrequency,X^,:SupportVectorMachines;TextCategorization;DimensionReduction1前言文本分类是信息处理领域中一项基础性技术,该任务定义为:给定类别集合,为不带类别标注基金资助:木文获得国家自然科学基金资助项H(微软亚洲硏究院联合资助项H60203019)和(60173110),和国家教育部科学技术硏究垂点项目(101065)资助作者简介:朱慕华(1981-),男,浙江省,硕士生:朱靖波(1973-),男,浙江省,副教授,博士。的文本赋了其中一•个或多个类别°-•个文本通帘被衣示成高维向量的形式。为了去除噪音和降低计算复杂度,同时为了避免过学****的问题,通常需要对特征空间进行降维。人们已经对降维方法进行了深入研究。根据降维后得到的结果特征的性质不同,降维方法分为特征选取和特征抽収两种。特征选収方法根据某种衡量准则,选择特征集合的子集作为分类的特征;特征抽収方法得到的特征类型通密与原先的特征不一致,而是原有特征的纽合或转换。常用的特征选取方法包括互信息(MunmlInformation,MI)>信息增益(InformationGain,IG)>文档频度(DocumentFrequency,DF)x才统计等[I]®特征抽収方法包括潜在语义索引(LatentSemanticIndexing,LSI)[2]>主成分分析(ponentAnalysis,PCA)[3]等。在文本分类中估用的分类模型,包扌舌朴素贝叶斯(NaiveBayes),k最近邻居(kNe

面向支持向量机的降维方法比较分析 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小65 KB
  • 时间2020-09-29
最近更新