下载此文档

姓名朱凯.ppt


文档分类:外语学习 | 页数:约40页 举报非法文档有奖
1/40
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/40 下载此文档
文档列表 文档介绍
姓名:朱凯
学号:S310060016
内容安全技术
文本过滤、话题发现和跟踪
文本过滤
话题发现和追踪
文本是最常出现的应用层数据形式之一。文本过滤属于被动的内容安全技术,它不仅可以用于防火墙,也适用于阻止垃圾邮件,防范信息泄露,搜索网络敏感内容,这些应用也需要从截获或搜索到得数据中发现特定的文本内容或对文本进行分类,执行相应的安全策略。
文本过滤
文本过滤
最简单的文本过滤方法采用关键词查找,通过文字串匹配算法确定文本是否包含某些特定的词,进而确认文本类别。当前,研究人员提出了很多串匹配算法,提高了匹配效率,但是,由于各个关键词的重要程度不同或他们之间的关联方式不同,发现他们的存在往往不能判断文本的特性。典型的,当系统发现一个文本包含一些不良词时,往往不能准确判断文章是从正面或从反面的角度使用这些字词,为了实施正确分类,系统可能需要知道不良词出现的频率、它们之间的关联。
文本过滤
分词
内容分类
特征提取
分词
分词是将文本语言分解为词。在英语、法语等西方语言中,空格是单词之间的分隔符号,因此计算机比较容易对西文文本分词。而中文由互相之间没有分隔的字组成,单词仍然是表达含义的单位,一个中文词包括的字数不等,因此,中文分词的目的是要将文本文字分割成具有独立含义的词。分词不但用于分解实例文本,也用在实际过滤中分解待过滤的文本。
整词二分法
分词词典
基于逐字二分法
Trie索引树法
整词二分法
005
089
……
239
……
783
……
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.

.





啊呀
啊哈
啊哟
啊喂

阿Q
……
肝炎
首字哈希表
第一项指针
词索引表
词典正文指针
词典正文
分三级:首字哈希表,词索引表,词典正文。
Trie索引树法

•类似于整词二分的首字哈希表。它的一个单元是所对应汉字的索引树的根结点。

•关键字:单一汉字;
•子树大小:以从根结点到当前单元的关键字组成的子串为前缀的词的个数;
•子树指针:子树大小非0时,指针指向子树;否则指向叶子。
Trie索引树法
005
089
……
239
……
783
……
.
.
.
.
.
.
.







……
2
1
5
……
^




0
0
0
0
0
.
.
.
.
.
大白菜
大白话
大白天
大白鼠
大白
首字散列表入口项个数
第一项指针
关键字
子树大小
子树指针
大坝

姓名朱凯 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数40
  • 收藏数0 收藏
  • 顶次数0
  • 上传人baixue
  • 文件大小0 KB
  • 时间2013-05-22