快威数码Tel:010-62144136北京新星快威数码技术有限公司周岳辉Tel:010-62144136,88471209**********Fax:010-62144137E-mail:quickway@zyh12@URL:.快威数码Tel:010-62144136介绍:数字文献加工处理与应用快威数码Tel:010-62144136文献数字化的两个重点:如何将现有的纸介质信息电子化电子信息怎样才能有效的为用户提供服务快威数码Tel:010-62144136信息数字化、电子文件电子文件的种类文本、图象、语音、动画、视频纸介质信息电子化快威数码Tel:010-62144136纸介质信息电子化:图象(扫描、数码相机)文本(键盘、手写、语音等录入;对图象进行光字符识别OCR获取)获取高准确率的文本,难度和代价较大快威数码Tel:010-62144136电子文件(文本、图象)应用环境以文本为基础的中文全文检索系统利用中文全文检索技术,对海量的文本信息建立索引,生成全文检索数据库和相应引用该全文数据库的应用环境。以图像为基础的电子图书应用系统通过扫描等手段将图书的每页以图像的方式存入电脑,人工为图书和“书库”建立目录及关键词索引,提供一个查找和阅读图书的应用环境。快威数码Tel:010-62144136图像格式的中文信息应用系统特点:1、占用空间大(A4幅面至少20K)2、标引、索引工作量大3、只能做目录性检索(不能忍受的局限)4、实际应用不方便优点是能够保留原版面,对公式、符号等保持原样显示快威数码Tel:010-62144136中文全文检索信息系统特点:优点: 1、空间小(A4幅面2K不到) 2、标引、索引工作相对简单 3、检索手段丰富、速度快 4、应用方便、灵活(选中、拷贝、粘贴)不足: 1、获取文本信息工程大、成本高 2、公式、符号等表示有缺陷快威数码Tel:010-62144136图文库概念针对全文检索系统获取文本信息难,图像系统检索条件差的现状,我们提出:“让文本信息与原稿图像相关联,用文本做检索,以原稿图像作结果”的概念,其特点是:文本准确率要求低由于文本信息只是用来做检索,其准确率要求大于95%即可(手工一次性录入,OCR软件自动识别等等都能满足);确保应用结果的准确我们用原稿图像作为检索结果来应用,保持原稿版面风格。快威数码Tel:010-62144136
关心两件事 - 第四军医大学 来自淘豆网www.taodocs.com转载请标明出处.