下载此文档

文本聚类关键技术的分析.pdf


文档分类:IT计算机 | 页数:约50页 举报非法文档有奖
1/50
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/50 下载此文档
文档列表 文档介绍
万方数据
.:狪::一
万方数据
作者签名:瑰日期:栉拢作者签名:丑夕暴茈日期:≯竹弓月日日期:仍么降弓月/华北电力大学硕士学位论文原创性声明华北电力大学硕士学位论文使用授权书本人郑重声明:此处所提交的硕士学位论文《文本聚类关键技术研究》,是本人在导师指导下,在华北电力大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。《文本聚类关键技术研究》系本人在华北电力大学攻读硕士学位期间在导使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版本,同意学校将学位论文的全部或部分内容编入有关数据库进行检索,允许论文被查阅和借阅。本人授权华北电力大学,可以采用影印、缩印或扫描等保密口,在师指导下完成的硕士学位论文。本论文的研究成果归华北电力大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解华北电力大学关于保存、复制手段保存、可以公布论文的全部或部分内容。本学位论文属于朐谝陨舷嘤Ψ娇蚰诖颉啊獭:年解密后适用本授权书不保密因/导师签名:
万方数据
摘。要现、组织和利用海量文本背后的有用信息成为亟待解决的问题,文本聚类技术是的影响,近些年成为了研究的热点。目前比较经典的文本聚类算法包含基于模型法,而对于像大规模文本处理这样开销比较大的应用,划分方法相对来说具有较本文首先对文本挖掘的相关知识做了简要的介绍,讨论了国内外文本挖掘领域的研究现状,对当前研究进展以及已有成果做了总结,然后对文本聚类相关的技术做了深入的分析,简要介绍了几种有代表性的文本聚类算法,并着重讨论了算法选择蕴含在文本集中影响程度最大的前用个主题,并在这历主题所在的维度随着互联网的不断发展,网络上文本信息呈爆炸式增加,如何精准有效地发信息检索和数据挖掘技术的综合产物,是自然语言处理的预处理步骤,作为文本挖掘流程的起点,文本聚类对后期文本分析的有效性和准确性都产生了极其重大的方法、基于密度的方法、基于层次的方法、基于网格的方法以及基于划分的方低的处理复杂度因而应用相对比较广泛。而在基于划分的方法中常见的有—、龋渲校琄聚类算法是其中比较常用的算法。传统惴ǎ盟惴ū环浅F毡榈厥褂迷谖谋镜木劾啻碇校欢盟惴对孤立样本很敏感,它的初始聚类中心选择是随机的,但是不合适的初始中心会导致迭代次数增加、陷入局部最优和聚类结果不稳定的现象。为了解决算法的以上不足,本文提出了一种新的初始聚类中心选择算法,该算法基于魈庥镅阅P徒谐跏季劾嘀行牡难≡瘢上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类。理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。最后指出了文本聚类模型的发展趋势,并展望了文本聚类领域目前存在的挑战性问题。关键词:主题模型;聚类中心:文本聚类;华北电力大学硕士学位论文
万方数据
..鲥産.,琣诵琄琄.Ⅵ礓籘甿,.籏;;,.瑆;,.,.:
万方数据
录目要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯——⋯⋯⋯⋯⋯⋯系统具体流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.嫦蚓劾嗟腖候选主题选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯摘第滦髀邸研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一国内外研究现状及发展趋势⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文章节安排和课题来源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第孪喙丶际踅樯堋文本建模⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..蛄靠占淠P汀文本向量降维技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.卣餮≡瘛卣鞒槿甿聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第挛谋揪劾嘞低晨蚣堋璴文本聚类系统框架总体模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.〔⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第禄贚的谋揪劾嗨惴ā确定主题数目⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯初始聚类中心生成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.袢〕跏季劾嘀行摹可确定性证明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

文本聚类关键技术的分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数50
  • 收藏数0 收藏
  • 顶次数0
  • 上传人gd433
  • 文件大小0 KB
  • 时间2015-12-06