下载此文档

文本聚类关键技术的分析.pdf


文档分类:IT计算机 | 页数:约51页 举报非法文档有奖
1/51
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/51 下载此文档
文档列表 文档介绍
ClassifiedIndex:).C::Supervisor:SdlJdgDateofDefenee:,2014Degree-Conferring—Institution:NorthChinaElectricPowerUniversity万方数据华北电力大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《文本聚类关键技术研究》,是本人在导师指导下,在华北电力大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签名:丑夕暴茈日期:栉3月//日华北电力大学硕士学位论文使用授权书《文本聚类关键技术研究》系本人在华北电力大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归华北电力大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解华北电力大学关于保存、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版本,同意学校将学位论文的全部或部分内容编入有关数据库进行检索,允许论文被查阅和借阅。本人授权华北电力大学,可以采用影印、缩印或扫描等复制手段保存、可以公布论文的全部或部分内容。本学位论文属于(请在以上相应方框内打“√”):保密口,在年解密后适用本授权书不保密因/作者签名:瑰导师签名:日期:仍么降弓月/}日日期:≯竹弓月f7日万方数据华北电力大学硕士学位论文摘。要随着互联网的不断发展,网络上文本信息呈爆炸式增加,如何精准有效地发现、组织和利用海量文本背后的有用信息成为亟待解决的问题,文本聚类技术是信息检索和数据挖掘技术的综合产物,是自然语言处理的预处理步骤,作为文本挖掘流程的起点,文本聚类对后期文本分析的有效性和准确性都产生了极其重大的影响,近些年成为了研究的热点。目前比较经典的文本聚类算法包含基于模型的方法、基于密度的方法、基于层次的方法、基于网格的方法以及基于划分的方法,而对于像大规模文本处理这样开销比较大的应用,划分方法相对来说具有较低的处理复杂度因而应用相对比较广泛。而在基于划分的方法中常见的有K-means、K—prototypes、K-medoids等,其中,K-means聚类算法是其中比较常用的算法。本文首先对文本挖掘的相关知识做了简要的介绍,讨论了国内外文本挖掘领域的研究现状,对当前研究进展以及已有成果做了总结,然后对文本聚类相关的技术做了深入的分析,简要介绍了几种有代表性的文本聚类算法,并着重讨论了传统K-means算法,该算法被非常普遍地使用在文本的聚类处理中,然而该算法对孤立样本很敏感,它的初始聚类中心选择是随机的,但是不合适的初始中心会导致迭代次数增加、陷入局部最优和聚类结果不稳定的现象。为了解决K-means算法的以上不足,本文提出了一种新的初始聚类中心选择算法,该算法基于LnA(LatentDirichletAllocation)主题语言模型进行初始聚类中心的选择,该算法选择蕴含在文本集中影响程度最大的前用个主题,并在这历主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类。理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。最后指出了文本聚类模型的发展趋势,并展望了文本聚类领域目前存在的挑战性问题。关键词:主题模型;K-means;聚类中心:文本聚类;'workshowedexplosivegrowth,easeriousproblemtofind,or星;{,,,theclassicaltextclusteringalgorithmcanbedividedinto

文本聚类关键技术的分析 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数51
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2830622664
  • 文件大小0 KB
  • 时间2016-01-13