下载此文档

IPC自动分类技术的研究与应用.doc


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
IPC自动分类技术的研究与应用.docI PC自动分类技术的研究与应用
摘要:借助IPC分类分析算法,对全文专利文献结构中几个重要单 元段落的技术含量评估,来观测每个单元段落其技术含量对专利文献分类 的贡献,从而有针对性地调整有效的专利自动分类分析源。避免专利自动 分类盲目大数据量运算导致专利自动分类效率降低。本文对专利自动分类 选择何种数据源和代价以及制定算法策略具有指导意义。
关键词:IPC分类;分类表;TF-IDF;相似度算法;文献结构;技术 分布分析;
中图分类号:TP391文献标识码:A文章编号:1009-3044 (2016) 03-0215-04
笔者从事专利自动化项目开发和维护廿余年,一直以为对专利文献有 一定程度的了解,谈到专利的技术构成会未假思索地沿用前人的结论:专 利文献技术的构成主要由发明名称、摘要、技术领域和权利要求等重要段 落基本可以确定。甚至,对权利要求书毫不犹豫推为主选。直至最近通过 笔者的一系列分析研究实验,见到实验数据结果后,才真正完全彻底地颠 覆了从前的认识。笔者公开这一分析与公众分享,请方家指正,亦即本文 的目的。
1实验背景及方法
本文在自主完成分词技术的研究和专利“标题+摘要”辅助自 动分类算法研究[3]的基础上,对专利文献层次结构展开进一步单项分析。
参见图1专利文献层次结构分析流程图:

专利文献主要分为专利著录项目、专利说明书和专利的权利要求书。
其中专利著录项目包括:专利公布的文献号、公布日期、ipc技术领 域分类、发明名称、摘要和其他权利人相关的信息、在先申请信息等。这 里与技术特征相关的段落主要是:ipc技术领域分类、发明标题和摘要。
专利说明书包括:发明名称、技术领域、背景技术、发明内容及其有 益效果、实施方法及其附图等。笔者将其中发明内容和有益效果被看作发 明内容整体来考虑,且与专利文摘抽象的构成要素密切相关。这里与技术 特征相关的段落主要是:技术领域、背景技术和发明内容。
权利要求:主要包括独立的权利要求和从属权利要求等详细描述。当 发明内容过于庞杂时专利文摘的抽象的构成要素过于分散,同时伴随的权 利要求书也可能会非常庞杂,不容易抓出重点。通常专利文摘会以首个独 立的权利要求构成专利文摘的抽象要素,然后辅以其他权利要求的概括性 综述。亦即,专利自动文摘技术通常是以发明内容或首个独立权利要求及 其他综述为依据连同发明的有益效果等抽象要素构成专利文摘。
专利文献与技术相关领域相关的段落总体可以概括为:Ipc、发明名 称、摘要、技术领域、背景技术、发明内容、权利要求书。其中发明内容 属于大信息量描述,由多达200个段落,个别段落超过600汉字的内容构 成超大单元模块。
1. 2专利文献的层次结构解析
专利文献的解析工作主要是从专利文献电子文档中获取层次结构中
上述最主要技术代表的7个部分。
通常将不包括ipc在内的6个单元模块连同整个文献,分别作分词分 解,然后与IPC分类表技术要素,通过数学模型TF-IDF等算法进行要素 可计算性计算,分别给出ipc分数排名。最后通过查看专利文献中的ipc 分类在每个单元段落解析ipc排名中的位置,通常关注前几项排名,例如 前三项排名,是否命中,来判断其收敛性。由于专利文献的具象复杂性与 专利分类表抽象的术语之间存在差异,其解决办

IPC自动分类技术的研究与应用 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小雄
  • 文件大小86 KB
  • 时间2021-05-15