下载此文档

文学垂直搜索引擎简介.pptx


文档分类:IT计算机 | 页数:约20页 举报非法文档有奖
1/20
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/20 下载此文档
文档列表 文档介绍
盛大文学垂直搜索引擎简介
盛大文学数据中心江永青
什么是垂直搜索引擎
垂直搜索引擎是应用于某一个行业、专业的搜索引擎,为用户提供范围极为缩小、极具针对性的具体信息。
数据来源于垂直搜索引擎关注的行业站点,倾向于结构化数据和元数据。
比通用搜索更加专注、具体和深入,文学类搜索则注重高质量作品的排序。
盛大文学搜索的应用
1. web搜索,如sosu.、小阅搜索,以及起点书库、免费频道接入。
2. 移动端搜索,如起点app、小阅app等。
3. 大搜索,全网文学类小说搜索。
AES简介
盛大创新院自主研发
易于配置
扩展性高
高定制化,与业务结合紧密
AES框架

HTTP
Search Handler
Admin Handler
Cache
Json Formatter
Query Parser
Inverted Index
Client Library
Thread
Pool
Thread
Pool
数据来源
数据库数据
爬虫抓取
Oracle
Ftp
Data Process
Data Feed
Url Feeds
Pages
Crapping…
Pages DB
Urls DB
Extract urls
Extract data
Posting lists
构建索引(原始方法)
Data Feed
Dict
term
DocID,Weight, <pos1, pos2 ..>
DocID,Weight, <pos1, pos2 ..>
Posting list
Merge构建索引
Data Feed
Dict
Split
Data
Split
Data
Split
Data
Split
Data
Mid
Data
Posting lists
Dict
Posting lists
Dict
Posting lists
Dict
Posting lists
Dict
Posting lists
索引更新
全量更新
小索引更新
Big Index
Small Index
Search Engine
查询处理
1)Document-at-a-time 2)Term-at-a-time
(aes used)
1:1
1:4
1:1
1:2
I
love
data
score
2:3
2:1
2:2
3:2
3:1
doc1
doc2
doc3
1:1
3:1
3:1
I
score
1:1
3:1
1:1
love
2:1
3:1
1:4
score
2:3
3:2
1:2
data
2:2
1:4
score
2:3
3:2
Pros: Save memory(top k)
Cons: Time costs
(frequent disk lane change)
Pros: Save Time
Cons: Memory costs

文学垂直搜索引擎简介 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数20
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wyj15108451
  • 文件大小455 KB
  • 时间2018-10-06