下载此文档

solr技术方案.doc


文档分类:通信/电子 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
Solr 技术方案一用户需求以前的互动平台只能对固定表的固定字段做 like 这样的数据库层面的索引, 性能低下, 用户体验很差,很难满足业务提出的简化搜索的需求。需求原型: 业界通用的做全站搜索的基本上两种: 1 选择 googleAPI , 百度 API 做。同第三方搜索引擎绑定太死, 无法满足后期业务扩展需要, 而且全站的 SEO 做的也不是很好, 对于动态的很多 ajax 请求需要做快照, 所以暂时不采用。 2 选择现有成熟的框架。这里我们选择使用 solr 。 Solr 是一个基于 Lucene 的 Java 搜索引擎服务器。 Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。 Solr 已经在众多大型的网站中使用, 较为成熟和稳定。 Solr 包装并扩展了 Lucene , 所以 Solr 的基本上沿用了 Lucene 的相关术语。更重要的是, Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置, 某些情况下可能需要进行编码, Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如 Nutch 、 Luke )也可以使用 Solr 创建的索引。这里我们主要需要以下几种功能: 1 可用性及成熟性。 2 中文分词。 3 词库与同义词的管理(比如我们使用最高的:股票代码)。 4 高亮显示。 5 方便的导入数据。 6 Facet 的轻松配置 7 扩展性。二 Solr 的体系结构体系结构 Solr 体系,功能模块介绍及配置。以上是 solr 的架构图。具体应用时需要理解一下模块的作用及配置。 RequestHandler :接受请求,分发请求。另外也包含导入数据,如 importhandler 。 UpdateHandlers –处理索引请求。 ponents :作为 handlder 的成员变量。处理请求。 Facet :分类搜索 Tika : apache 下处理文件的一个项目。 F ilter , spelling : 处理字符串 H ttp query/update Database/html importhandler 默认基本可以满足要求。如果不够则扩展相应的 handler ponent 。丰富的客户端 Ruby/php/java/json/javascript 使用 solrj 以上的配置在 , 中配置分词的解决办法系统提供了很多种分词方案。 StopAnalyzer , StandardAnalyzer , WhitespaceAnalyzer 只是实现了数字、单词、 E-mai l 地址、 IP 地址以及中文字符的分析处理,但是对于中文的分析并不好。对于中文分词有几种解决方案。? Paoding: 100 万汉字/s( https://code./p/paoding/ ) ? Imdict : 26 万汉字/s( https://code./p/imdict-chinese-analyzer/ ) ? Ik: 16 0 万汉字/s( https://code./p/ik-analyzer/ ) ? Mmseg4j : simple 19 00kb/s 准确率 98% ( https://code./p/mmseg4j/ ) 注:官方提供测试环境各不相同。这里我们选择准确率最高的 Mmseg4j 。而且配置起来也十分简单。我们只是需要在 schema 中配置以下 fieldType 即可。<fieldType name="plex" class="" positionIncrementGap="100"> <analyzer type= ” index ”> <tokenizer class="" mode="complex" dicPath="../dic" /> <filter class="" ignoreCase="true" words="" /> </analyzer> <analyzer type= ” query ”> <tokenizer class="" mode="complex" dicPath="../dic" /> <filter class="

solr技术方案 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人63229029
  • 文件大小807 KB
  • 时间2017-05-29