下载此文档

文本挖掘模型.docx


文档分类:IT计算机 | 页数:约25页 举报非法文档有奖
1/25
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/25 下载此文档
文档列表 文档介绍
文本挖掘模型:本特征提取
提高人民生活水平:提高、高人、人民、民生、生活、活水、水平 分词基本方法:
最大匹配法、最大概率法分词、最短路径分词方法
1・1最大匹配法
中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索ictionary::FindWord(string w)
{
if ((w) != ())
{
return 1;
}
else
{
return 0;
}
}
57.
#define MaxWordLength 10 //最大词长为个字节(即个汉字)
#define Separator "/ " // 词界标记
60.
CDictionary WordDic; //初始化一个词典
62.
//对字符串用最大匹配法(正向或逆向)处理
string SegmentSentence(string s1)
{
st ring s2 = ""; //用s2存放分词结果
67.
while(!())
68.
{
69.
int len =(int) (); // 取输入串长度
70.
if (len > MaxWordLength) //如果输入串长度大于最大词长
71.
{
72.
len = MaxWordLength; //只在最大词长范围内进行处理
73.
}
74.
//string w = (0, len); // (正向用)将输入串左边等于最大词长长度
串取出作为候选词
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
string w = (() - len, len); //逆向用
int n = (w); //在词典中查找相应的词 while(len > 2 && n == 0) // 如果不是词
{
len -= 2; //从候选词右边减掉一个汉字,将剩下的部分作为候选词
//w = (0, len); //正向用
w = (() - len, len); //逆向用
n = (w);
}
//s2 += w + Separa tor; // (正向用)将匹配得到的词连同词界标记加到输出串末 尾
w = w + Separator; // (逆向用)
s2 = w + s2 ; // (逆向用)
//s1 = ((), ()); //(正向用)从 s1-w 处开始
s1 = (0, () - len); // (逆向用)
}
return s2;
}
//对句子进行最大匹配法处理,包含对特殊字符的处理
string SegmentSentenceMM (string s1)
{
st ring s2 = ""; //用s2存放分词结果
int i;
int dd;
while(!())
, {
unsigned char ch = (unsigned char)s1[0];
, if (ch < 128) //处理西文字符
, {
, i = 1;
dd = (int)();
while (i < dd && ((unsigned char)s1[i] < 128) && (s1[i] != 10)
&& (s1[i] != 13)) // s1[i]不能是换行符或回车符
, {
, i++;
, }
. if ((ch != 32) && (ch != 10) && (ch != 13)) // 如果不是西文空格或
换行或回车符
, {
, s2 += (0,i) + Separator;
, }
else
, {
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131

文本挖掘模型 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数25
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhuwo11
  • 文件大小651 KB
  • 时间2022-05-17