下载此文档

基于自训练EM算法的半监督文本分类.pdf.pdf


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
国防科技大学学报第29卷第6期』Q!堕::文章编号:1001—2486(2007)06—0065—05基于自训练EM算法的半监督文本分类张博锋,***,苏金树(国防科技大学计算机学院,湖南长沙410073)摘要:为了提高计算效率,提出基于自训练的改进EM算法STEM。在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本转移至标注样本集,并应用到M—step中进行下一个中间分类器的训练,从而引入了利用中间结果的自训练机制。文本分类实验表明STEM算法在大部分情况下的分类准确性都高于EM,并通过减少迭代提高了分类器学****的计算效率。关键词:半监督学****EM算法;自训练;文本分类;rla~'veBayes中图分类号:TP181文献标识码:ASemi—supervisedTextClassificationBasedonSelf-trainingEMAlgorithmZHANGBo-feng,BAdBing,SUJin-shu(puter,,Changsha410073,China)Abstract:putationefficiency,anenhancedEMalgorithmbasedonself--stepofeachiteration,theunlabeledsample,whoseclasscanbepredictedbythecurrentintermediateclassifierwiththemostconfidence,ismovedtothelabeledsetandusedintheM—:reforethemechanismofself-trainingbyinter-:semi—supervisedlearning;EMalgorithm;self-training;textclassification;naiveBayes利用机器学****的自动文本监督(Supervised)分类是在预先给定的类别(标签)集合下,通过对已标注样本内容特征的学****判定文本的类别,其在自然语言处理与理解、信息过滤与文本挖掘、基于内容的信息安全等领域都有广泛而深刻的背景,是各类监督学****算法如kNN、hio、神经网络、支持向量机及na~'veBayes等研究和应用的经典范例_】j。好的分类器需要大量标注(Labeled)样本进行训练,但给出的已标注样本所能提供的信息可能主观而有限;。无监督(Unsupervised)学****方法虽然可以在无训练样本的情况下针对样本分布特征进行样本标注,但准确性较差;样本的人工标注需要艰苦而缓慢的劳动,同样制约了整

基于自训练EM算法的半监督文本分类.pdf 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人jactupq736
  • 文件大小0 KB
  • 时间2016-03-03
最近更新