下载此文档

面向Web电子产品信息分布式检索系统的设计与实现.doc


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
面向Web电子产品信息分布式检索系统的设计与实现.doc面向Web电子产品信息分布式检索系统的设计与实现o引言互联网上的信息量呈爆炸性的趋势增长,出现了极为丰富的数据资源,使互联网变成了一个巨大的、分布广泛的全球性信息服务中心,涉及微博、新闻、电子商务、视频、音乐、新闻、教育、健康等诸多领域[1]。其主要挑战包括如下几点:1)互联网上的大部分商业网站以非结构化或者半结构化的形式展现,其中以超文本标记语言(HyperTextMarkupLanguage,HTML)展现形式居多,缺乏语义特征,很难精确、稳定、高效地从中提取出信息。2)商业信息的海量性,必然需要一个能够高效快速地抓取商业信息的应用系统。3)随着搜索引擎的不断发展,人们对信息的检索速度、精确度等提出了更高的要求。4)商业信息的海量性,必然导致分布式存储系统的产生,即如何在分布式存储系统的基础上执行高效的分布式计算已成为一大重要挑战。因此,如何有效地集成Web数据,为中小型企业提供完善的市场情报分析支持,为用户提供更简便的商品信息浏览体验,具有极其重大的现实意义。而信息融合系统作为目前软件演化的重要技术,为应对这一挑战提供了一条可行之路。信息融合系统主要参照垂直搜索引擎的体系结构,基于Web数据挖掘技术,完成互联网上各类信息提取与融合。目前,在信息融合系统中,Web信息检索技术最为复杂。文献[2]设计并实现分布式海量结构化数据存储检索系统。该系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率。在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能;然而,作者未就如何对查询结果进行规范化输出以满足用户需求进行讨论。文献[3]提出了一个基于内容及相似搜索的对等音乐文件共享系统。该系统利用了集合对等点来完成音乐文件的元数据的注册和搜索,把音乐文件的属性名-属性值对(AttributeValuePair,AVPair)通过音乐文件描述说明(MusicFileDescription,MFD)来表示,使系统可以支持精确的检索;但是该方法需要花费大量时间建立目标属性名-属性值之间的索引关系。文献[4]提出了一种基于Solr的分布式实时搜索模型,分析了其实现原理。模型通过内存索引与磁盘索引相结合保证索引信息的实时展示,mitLog日志保证内存索引数据容灾,并

面向Web电子产品信息分布式检索系统的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人pppccc8
  • 文件大小53 KB
  • 时间2019-07-19