12. 文本分词
文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。
例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。
R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包。
一、配置Java环境
步骤1. 下载JDK安装包
/technetwork/java/javase/downloads/index.html
点Java Download图标进入下载界面(Java SE Development Kit);ept License Agreement,接受许可协议,选择对应系统的版本下载,比如Windows x64
步骤2. 安装JDK
安装路径(可修改),比如D:\Program Files\Java\
特别注意:第2次出现选择路径时,是选择jre的安装路径,一定不要和前面jdk同一个路径,建议也在放在Java目录下,单放在jre文件夹,比如D:\Program Files\Java\否则将有问题。
步骤3. 配置环境变量
右键计算机->属性->高级系统设置->环境变量,在“环境变量”窗口“系统变量”区域操作:
(1) 【新建…】,变量名输入:JAVA_HOME
变量值输入JDK安装路径:D:\Program Files\Java\
【确定】
(2) 双击Path,在变量值框末尾加上
;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
【确定】
(3) 【新建…】,变量名输入:CLASSPATH 变量值输入:
%JAVA_HOME%lib\;%JAVA_HOME%\lib\tools.jar
【确定】
步骤4. 测试是否配置成功
运行->cmd, 回车,输入 java –version 回车,显示版本号等信息;
输入 javac–version 回车,也显示版本号,如下图所示,则表示配置成功
二、RWordseg包
1. 先安装rJava包(正常命令安装即可)
2. 安装Rwordseg包
命令安装:
instages("Rwordseg",repos="http://R-Forge.R-proje")
注意:该网址很可能不能正常打开。
建议采用本地安装:
下载Rwordseg.zip包,R操作界面,程序包->Install Package(s) from local files…, 找到Rwordseg.zip文件,确定安装即可,测试下图则表示安装成功:
3. Rwordseg包常用函数
insertWords(x, save=TRUE)
向词库导入新词汇x,save=TRUE保存新词汇,下次启动仍可用;
deleteWords(x)——从词库中删除词汇x
getOption("isNameRecognition")
查看人名识别功能的状态,结果为TRUE表明能够识别;
segmens("isNameRecognition"=TRUE)
设置人名识别功能的状态;
installDict(dictpath=词典路径, dictname="自定义词典名称", dicttype=c("text","scel"), load=TRUE)
添加用户自定义的词典;dicttype指定安装词典的类型,text为普通文本格式,scel为搜狗细胞词库;load设置安装后是否自动加载到内存,默认为TRUE;
listDict()——查看已安装词典;
uninstallDict(removedict=listDict()$Name, remove=TRUE)
卸载用户自定义的词典,removedict指定要卸载的词典名称;remove指定是否立即清除词典中的词语;
segme(x, nature=TRUE, nosymbol=TRUE)
实现中文分词,nature设置是否输出词性,默认不输出;nosymbol默认为TURE,表示不输出标点,只有汉字、英文、数字。
注意:目前的词性识别和标点识别容易出错,只作为参考。
4
R语言学习系列12-文本分词 来自淘豆网www.taodocs.com转载请标明出处.