下载此文档

面向中文专利权利要求书的分词方法研究-论文.pdf


文档分类:IT计算机 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
总第 期 年 第 期
面向中文专利权 利要 求书的分词 方法研究水
张 杰 张海超 翟 东升
北京工业大 学经济与管理学 院 北 京
摘要:【目的 】解决中文专利权利要求书分词问题,满足专利相似研究需求。【方法 】总结中文专利权利要求书
分割特征词 、分割子 串规则 和术语抽取 规则,构建领域词典 ,提 出一种基于领域词典和规则相组合 的分词方法 。
【结果 】实验结果表明:分词的准确率为 %,召回率为 %,值为 %。【局限 】由于领域词典的庞大,使得
大规模分词 的效率降低 。【结论 】该方法能够 进一步提高 中文专利权 利要 求书的分词效果和效率 。
关键词 :中文 专利 权利要求 书 中文分词 领域词典 术 语抽取
分 类号 :
引 言 匹配,若 匹配成功则切分 出来 。常用的几种词典 分词
方法有 正向最 大匹配法 、逆 向最大匹配法 、双向最大
目前 ,海量 专利 信 息 的处理 面 临着 巨大 的挑 战 , 匹配法 和最少切分等 】。莫 建文等 提 出改进的基于词
信息 的快速检索 和充分利用 成为必然 ,专利 文本分词 典 中文分词方 法 ,该方法 结合双 字哈希结构 ,并 利用
是研究 专利 相似的基础和重要部分 。词是 能够独立使 改进的正 向最大匹配分词算法进行中文分词。李玲构
用 的最小语 言单元,但 中文文本 和西语存在很大不 同: 造 了标准词典 、临时词典 和临时高 频词表组 成的双词
汉 语 中词 与词 之 间没有 明显 的类似 于空 格 的显式 边 典机制 作为分词基础 ,应用 正 向最大匹配法 和逆 向最
界 。因此 ,中文分词成为计算机处 理的重要 工作 ,中文 大 匹配法进行分词 ,提 出基 于双词典机制 的歧义处 理
分词 的难点是切分歧义

面向中文专利权利要求书的分词方法研究-论文 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人755273190
  • 文件大小1.05 MB
  • 时间2021-02-25