下载此文档

关于文本分类研究.ppt


文档分类:IT计算机 | 页数:约32页 举报非法文档有奖
1/32
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/32 下载此文档
文档列表 文档介绍
关于文本分类的研究文本挖掘概述文本数据的特点:半结构化或者无结构化高维数据大数据量时变数据语义性无标签分布式文本挖掘的功能主要包括:文本总结文本分类文本聚类关联分析分布分析趋势预测文本挖掘概述本挖掘面临的研究课题文本的表示特征经典的文本表示模型是向量空间模型空间降维问题基于评估函数的方法:通常是通过在训练数据集上的统计来计算每一特征的某种指标值,根据指标值的高低决定是否保留相应的字或词,或者对相应特征加权,从而实现特征选择。主要有互信息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和文本证据权潜在语义索引:利用概念标引代替关键词标引,从语义相关的角度为文本选择标引词,而不考虑标引词是否在文本中出现,其通过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵,用转换后的文本向量进行文本挖掘处理。主成分分析法:通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。还有一些常见的文本降维算法,主要包括基于文档频率方法、基于分类频率和文档频率方法、IDF×TF方法,模拟退火算法等,文本挖掘概述文本相似性度量问题模式的理解和可视化显示一词多义和多词一义问题跨语言问题算法的选择领域知识集成中文文本分词技术文本分类方法概述文本挖掘中最基本的两项工作就是分类和聚类,几乎在所有文本挖掘的应用领域都离不开文本的分类和聚类。文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。通过自动文本系统把文档进行归类,可以帮助人们更好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,上在线文本信息的激增,文本自动分类已经成为处理和组织大量文档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。但是,随着信息量日趋丰富,人们对于内容搜索的准确率、查全率等方面的要求会越来越高,因而对文本分类技术需求大为增加,如何构造一个有效的文本分类系统仍然是文本挖掘的一个主要研究方向文本分类方法概述文本分类方法主要包括基于传统技术的决策树、K最近邻(KNN)、关联规则、支持向量机(SVM)、基于数据库的算法、贝叶斯等分类算法和基于软计算的神经网络、粗糙集、模糊逻辑和遗传算法。其中,基于软计算的方法通过协同工作提供一种灵活的数据处理能力,其目标是实现对不精确、不确定、部分信息的处理能力和近似推理能力,以求能方便、稳健、低代价地逼近人类的分析判断能力。模糊逻辑提供处理由于模糊而不是随机产生的不精确、不确定性的算法,粗糙集则处理由于不可分辨关系导致的不确定性,神经网络用于模式分类与聚类,而遗传算法则用于优化和搜索。文本特征的降维方法基于模式聚合和改进统计量的文本降维方法基于CHI值原理和粗糙集理论的属性约减的文本降维方法基于神经网络的文本特征抽取方法基于模式聚合和改进统计量的文本降维方法改进的统计量CHI的主要思想是认为词条与类别之间符合分布,词条的统计量表示词条对某个类别的贡献大小。统计量越高,词条和类别之间的独立性越小、相关性越强,即词条对此类别的贡献越大。统计量的计算公式基于模式聚合和改进统计量的文本降维方法改进的统计量词条和类别的相关性是有正反两种情况的:当>0,词条和类别正相关当<0,词条和类别负相关改进的统计量基于模式聚合和改进统计量的文本降维方法改进的统计量一般特征的CHI值为该特征对所有类别的统计量的平均值或最大值。在改进的统计量上,规定词条的CHI值为:

关于文本分类研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
最近更新