下载此文档

基于关键词的文本向量化与分类算法研究.pdf


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
第 35 卷 第 3 期 贵州大学学报 自然科学版 Vol.35 No.3

2018 年 6 月 Journal of Guizhou University Natural Sciences Jun.2018

文章编号 1000-5269 2018 03-0101-05 DOI 10.15958 /j.cnki.gdxbzrb.2018.03.17
基于关键词的文本向量化与分类算法研究
苏玉龙,张著洪*

贵州大学 大数据与信息工程学院 贵州 贵阳 550025
摘 要 针对自然语言文本集的预处理和分类问题,将词频统计方法 TF-IDF 引入到关键词提取
TextRank 算法中,并结合 word2vec 词向量化方法获得基于关键词的改进型文本向量化算法 进
而,在 k 近邻算法中引入 k 值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。
利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文
档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,
证明了获得的分类效果具有明显的优势。
关键词 TF-IDF 算法 关键词提取 文本向量化 自适应 KNN 算法 文本分类
中图分类号 TP391.1 文献标识码 A
文本分类是大数据分析研究的主要内容之一, 显词义越相近,则词的向量相似度越高,是一种研
如何对格式多样、种类繁多、数据量大的文本进行 究情感 分 析、词性标注的常用方法。

基于关键词的文本向量化与分类算法研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小136 KB
  • 时间2021-11-08