下载此文档

文本分类的常见方法.docx

文档分类：外语学习 | 页数：约13页举报非法文档有奖

1/13

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/13 下载此文档

文档列表 文档介绍

文本分类的过程: (1) 选择训练文本。好的训练文本对分类器的最终结果起到至关重要的作用。(2) 选择文本特征。对训练样本和测试样本进行数据预处理, 包括分词、去停用词、消除噪音等。目前的文本分类研究, 主要选取一些具有代表性的词、词组、短语来表示文本。(3) 建立文本表示模型。为了便于计算机理解和计算相关的文本属性, 需要对文本进行表示,其中向量空间模型(Vector Space Model VSM) 运用最为广泛。(4) 选择分类方法。文本分类的核心部分, 不同的分类方法原理不同需要处理的数据也不同。经典分类算法有朴素贝叶斯(Naive Bayes NB) 、 K- 近邻(K-Nearest Neighbor KNN) 、决策树(Decision Tree DTree) 、算数平均质心(Arithmetical Average Centroid AAC) 、支持向量机(Support Vector Machine SVM) 。(5) 分类结果的评估。目前主流的评估标准准确率、召回率和 F1 值。选择文本特征我们需要将文档转换为计算机可以衡量、运算的形式。现在运用最广泛的形式: 将文档映射入向量空间。具体流程如图 1。这样就将一篇文章映射成了为了向量空间中的一个向量。在把文章都映射完成后, 我们可以根据自己不同的需求, 在向量空间中进行运算。比如计算两篇文章的相似度: 我们把向量的起点都映射到原点, 则我们可以比较向量的长度、向量的夹角、向量两个终点的距离等等; 我们还可以宏观的观察大量的向量在向量空间中的分布情况, 对大量聚集在一起的向量抽取它们的共性: 计算他们的中心、他们整体的方向等。其实数学模型很好, 只不过限于计算机的存储、运算水平, 向量空间的维度过高、文档数量过大、计算复杂度过高会使得模型的计算机实现变得困难, 我们不得不进行简化: 向量空间维度降低、较低复杂度的计算分析方法等等。而根据简化的合理程度,影响我们得到的结果质量。向量空间的降维则需要进行特征项的筛选:筛选方法有五种:文档频率、信息增益、期望交叉熵、互信息、开放检验。就好像在软件开发阶段越早引入缺陷后期的 Bug 数量越多一样, 上游的污染源造成的危害要大得多。如果我们要对数据源进行筛选, 则筛选的规则一定要是非常严谨合理的,正确的数据合理的算法才有可能得到好的结果。文档频率 Document Frequence 特征在特征集中出现的文档数目过多,则不能很好的区分不同的类别; 特征在特征集中出现的文档数目过少, 则它不具备很好的代表性。我们统计单词的出现频率,将频率过高和过低的词语过滤掉。信息增益其中 c 表示文档类别 t 表示特征项, 描述的是在特征项 t 的前提下确定文档属于 c 的概率,表征的是该文档使用特征项 t 来区分类别 c 的能力。(其实三项加和的首项不太明白什么意思,而且在特征项的筛选阶段,即尚未计算分类的情况下文档类别 c 是怎么回事? ) 这里首项表示整个事件的信息量, 也可以认为它表示整个事件的未知程度, 或者叫做消除整个事件的位置性, 需要的信息量, 比如该事件有 8 种等可能的情况, 则我们要确定该事件具体出现哪种情况,则需要 3 的信息量;而若有两种等可能的情况,则要 1 的信息量。感性来讲, 2猜1 ,要比 8猜1 容易的多。具体到公式,后边的对数部分表示信息的量化过程,说的是比如我们要表示两个数,需要一位,而要表示八个数,需要 3 位;因为对数函数在 0~ 正无穷是递增函数,但在 0~1 之间函数值为负数,所以我们添加负号将值映射到>0 区间。这里互信息, 表示知道某些条件之后, 事情的不确定性降低的程度。衡量的是情报的优劣。举个简单的例子,这就好像我们玩竞猜游戏,随着主持人对某件事情描述信息的增多, 我们渐渐可以准确判断某件事情,而主持人的描述信息中有些很关键,有些则相对平淡,这里主持人的关键描述的互信息就比较高:因为可以很大程度消除事物的不确定性。这里信息增益考虑的比较全面,它考虑了条件 t 发生和没有发生对整个事件的影响状况, 分为两部分, 第一部分为条件 t 发生时, 对整个事件的熵的影响; 第二部分为确定条件 t 不发生时,整个事件的熵。首先是让 t 发生之后,计算在 t 的条件下能够推断属于类别 ci 的概率。这里具体到文本分类则为, 特征项 t 的出现与否,在t 出现后确定这篇文章属于类别c 的概率是多少。就是看 t 的出现对该文档属于哪一个类别的判定出现了哪些影响; 并且信息增益不仅考虑可相关情况, 也考虑了负相关的状况,在t 确定不出现时, 它对该文档的类别判定又能起到什么效果。这样综合考量 t 的效果。不过这里也有个问题就 P(t) 表示特征项的出现与否可能并不合适,这里我们可以设置阈值,具体计算出

文本分类的常见方法来自淘豆网www.taodocs.com转载请标明出处.