下载此文档

文献自动标引解决方案.doc


文档分类:IT计算机 | 页数:约9页 举报非法文档有奖
1/ 9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/ 9 下载此文档
文档列表 文档介绍
1 文献自动标引解决方案 2
方案概述 2
模块组成 2
文献自动标引模块 2
文本分类 2
主题词标引 3
自动文摘 4
性能指标 4
准确率和速度 4
扩展性与通用性 5
效果演示 5
2 智能词语技术 6
方案概述 6
模块组成 6
新词语识别 6
词语分类聚类 6
智能分词系统 7
效果演示 8
3 行业知识门户 8
方案概述 8
4 联系方式 9
文献自动标引解决方案
方案概述
基于自主研发的中文信息处理技术,以文本内容语义计算、文本内容自动标引为核心,“文献自动标引解决方案”集成文本分类、主题词标引和自动文摘三个子模块,将文献内容以精练准确的形式,如类目、主题词、摘要自动标引出来。
模块组成
文献自动标引模块
应用国际领先的文本挖掘、自然语言处理等核心技术,以自主研发的中文信息处理技术为基础,提供对海量数据进行智能自动分类、主题词自动标引、自动文摘等实用功能。以其为基础可方便地开发应用系统,快速地实现智能信息挖掘,有效地进行知识管理与检索。
文本分类
“基于关键短语的立体文本分类模型”:
A、立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,利用表义完整的关键短语,提高特征项的完整独立程度,有效克服了传统分类算法中向量空间模型和贝叶斯假设(特征之间被假定为是相互条件独立的)的缺点,在3万篇测试集上(15大类,4级244小类),%,小类微平均提高了15%。
B、立体模型是一个交叉多层级的系统。在纵的方面,是一个层级的系统,采用双向层级小类校正算法分类,一级级分到四层子类。在横的方面,采用兼类多标签分类策略,智能判断文档是否兼类,兼哪几类。。
C、扩展性强,用户可以根据自身需要,动态增删或调整分类体系。
支持自动训练,提供新分类体系和相对应的已分类文档之后能够实现新分类体系的文档的自动分类。
交叉多层级立体分类,如,一篇微软新品软件发布的文档既可归为“科技_电脑_软件_操作系统”,也可归为“经济_产经_产业新闻”。
可显示类别间相似度,以分析了解分类体系是否设计合理。
分类方法支持领域知识、统计等多种方法。
主题词标引
针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计相结合的主题词自动标引系统。
主要特点:
◆ 支持叙词汉字标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。
◆ 支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。
◆ 标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。
◆ 能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。
◆ 支持自动训练,无需提供训练文档集即可实现新文档的自动标引。
◆ 支持文

文献自动标引解决方案 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数 9
  • 收藏数 0 收藏
  • 顶次数 0
  • 上传人 1449388646
  • 文件大小 0 KB
  • 时间2012-06-20
最近更新