1/5
文档分类:IT计算机

基于关键词的文本向量化与分类算法研究.pdf


下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
基于关键词的文本向量化与分类算法研究.pdf
文档介绍:
第 35 卷 第 3 期 贵州大学学报 自然科学版 Vol.35 No.3

2018 年 6 月 Journal of Guizhou University Natural Sciences Jun.2018

文章编号 1000-5269 2018 03-0101-05 DOI 10.15958 /j.cnki.gdxbzrb.2018.03.17
基于关键词的文本向量化与分类算法研究
苏玉龙,张著洪*

贵州大学 大数据与信息工程学院 贵州 贵阳 550025
摘 要 针对自然语言文本集的预处理和分类问题,将词频统计方法 TF-IDF 引入到关键词提取
TextRank 算法中,并结合 word2vec 词向量化方法获得基于关键词的改进型文本向量化算法 进
而,在 k 近邻算法中引入 k 值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。
利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文
档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,
证明了获得的分类效果具有明显的优势。
关键词 TF-IDF 算法 关键词提取 文本向量化 自适应 KNN 算法 文本分类
中图分类号 TP391.1 文献标识码 A
文本分类是大数据分析研究的主要内容之一, 显词义越相近,则词的向量相似度越高,是一种研
如何对格式多样、种类繁多、数据量大的文本进行 究情感 分 析、词性标注的常用方法。
内容来自淘豆网www.taodocs.com转载请标明出处.
相关文档
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小136 KB
  • 时间2021-11-08