下载此文档

2021年基于文本信息的聚类方法研究文本聚类.docx


文档分类:IT计算机 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
基于文本信息的聚类方法研究文本聚类

     摘 要:伴随信息技术和Web技术的发展,怎样从海量的Web文本信息中找到自己所需信息已成为一个主要的研究领域。在众多信息获取方法中,聚类技术是一个被广泛应用的方法。总结了文本聚类算法的研究现实状况,比较了算法的关键差异和整体思想,并分析了多种方法的优劣,同时指出了文本聚类研究以后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提升聚类性能。
  关键词关键词:文本聚类;数据挖掘;粒子群算法;信息检索;自然语言处理
  中图分类号:TP301 文件标识码:A 文章编号文章编号:167278002021008004003
  作者介绍作者介绍:安靖1980-,女,中国人寿保险股份有限企业研发中心职员,研究方向为智能信息处理、软件设计。
  0 引言
  伴随互联网的大规模普及和应用,海量文本信息不停涌现,互联网已成为一个庞大而杂乱无章的信息库。所以,大家迫切需要能够实现自动聚类和分类处理的技术,从而在节约时间的同时,能够更加好地检索到自己所需类其余文件。高效的文本检索需要优质的索引和文本概要,文本聚类技术即是处理此问题的一条有效路径。文本聚类过程是指将一个训练文本集合分成若干聚类簇Cluster,每个聚类簇中的文本之间含有较大的共性,而不一样聚类簇的文本含有很小的相同性。和之对应的是,文本分类通常是经过数理统计方法或知识工程来实现的。
  文本聚类技术在数据挖掘领域研究中有着主要的地位,通常来说,它和文本分类的功效是相辅相成的。聚类技术关键是依据聚类假设原理:同类的对象相同度大,不一样类的对象相同度小。文本聚类技术是自然语言处理Natural Language Processing, NLP和信息检索Information Retrieval, IR等研究领域包括的热门课题,它是一个无监督的机器学****技术,因为聚类不需要提前训练,也不需要事先对文本材料进行人工分类。所以,它含有较高的自动化处理能力和灵活性,从而成为文本信息组织、概要提取和导航的主要手段,被越来越多的研究者所青睐。
  目前,最常见的文本聚类和分析方法包含层次聚类方法、基于模型的聚类方法如统计学算法和神经网络算法,和依靠平面划分的聚类方法如K中心点聚类算法等,它们已经被广泛地利用于知识管理系统、商业智能系统和CRM系统中。而且,能够能利用这些算法来部分处理智能检索系统存在的所谓“信息过载”的难题,从而过滤掉用户文本信息检索结果中的大量“噪声”,提升检索信息的相关度和正确度。
  现在,因为大规模、多复杂数据集的出现,大数据的分析和处理对聚类技术提出了更高的要求,关键表现在聚类算法需要含有一定的可伸缩性、能够处理多种类型数据、能够发觉任意形状的聚类簇和能够高速分析高维数据等,并要求用户能够对聚类的结果进行判定、充足了解和使用,传统聚类手段显然已经难以应对这一系列的问题和需求。为处理上述难题,各个领域的研究者们开始尝试研究多种新型的智能聚类技术。其中,属于群智能算法的粒子群优化算法PSO逐步引发了业界的注意,而且一系列试验表明,此方法在聚类分析效果上显著优于传统方法。
  1 基于层次分析的聚类方法
  所谓层次分析就是对给定的数据集合进行层次上的分离,即分界。在层次法聚类过程中,用树结构表示

2021年基于文本信息的聚类方法研究文本聚类 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人读书之乐
  • 文件大小20 KB
  • 时间2021-03-25