下载此文档

SOW-基于中文语义分析的产品搜索系统.doc


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
附录C基于中文语义分析的产品搜索系统
项目背景
XXXX的搜索平台是客户对广大消费者提供产品搜索服务的窗口,直接与用户体验以及销售收益相关。我公司愿意将最新的认知计算技术,包括先进的中文自然语言理解、语义分析、机器学****以及智能搜索技术,助力客户,将XXXX的搜索平台提升到一个更高的水平。
具体的合作内容包括:改进和优化基于关键词的产品搜索与排序方法,实现基于主题环境下的语义分析及搜索技术,建立和增强基于用户及商品建模的个性化搜索排序,并搭建下一代可扩展、高性能的搜索平台。
工作内容
我公司可以根据具体的服务请求(SR)流程向客户提供以下服务内容。
产品搜索优化
建设目标
为进一步改善产品搜索,根据客户搜索的现状和规划,针对产品搜索中的以下核心问题:中文分词切词问题,产品数据标准化,搜索结果排序问题,搜索索引效率问题,进行改进,提升现有的产品搜索方法的准确度和效率。
工作项
建立中文分词评估集:通过调研中文分词在客户搜索各阶段的应用现状、中文分词过程中英文字符串的处理方式、以及客户搜索系统中文档集的如何分类,构建中文分词评估数据集,提出对分词模块的评估指标,并制订数据集的构成以及构建的方法,估算所需投入成本的规模,然后探讨构建评估数据集的实施方案,完成大规模数据集的建设及分词模块的评估;
中文分词算法改进:改进现有的搜索系统的分词算法,将新的分词算法用中文分词评估集进行评测,并将改进的方法集成到创建索引和在线查询中。
中文分词书写检查技术:利用自然语言分析技术,对文档和查询中的错字和错误的词组搭配进行检查并纠正。在搜索场景中,可以结合字和词两个层次的错误检查,用于搜索引擎中对用户的不规范查询的查询建议;
支持用户定义的新词 、规范词、同义词、衍生词、概念词,从而提高检错的精准度;通过完善中文书写检查技术对多种输入法的适应性优化,提高查询的规范化程度。
建立完善的产品分类体系:可以从“聚类”出发,构造初始的分类树。在此过程中,需要确定分类的维度,是查单一目标,还是多个目标,查什么类别的产品,查什么品牌等。还需要完善分类体系,包括按产品的属性(比如类别,品牌,名称,商标)的分类体系;按按促销活动("拇指杀")的分类体系。分类体系需要随入库的文档统计新概念,进行动态调整,并定期分析检索日志和用户反馈(比如点击行为)。
采用基于分类和基于顺序回归相结合的排序学****优化查询结果的排序:训练数据采用列表方式:(查询式,文档,排序序号) -> f(q,d,w),将损失函数构造为信息检索结果评价函数的界限,衡量预测的排序序列与实际最佳序列之间的差异,保证损失函数的连续性和区分性,并且计算效率高。建立评估集,用机器学****的方法做训练:构建查询及其期望的正确答案,然后采用召回全部期望值时的平均准确率,以及归一化的折算累计增益指标。
知识转移
向客户提供产品搜索增强模块的设计和使用文档,以及模块的接口。
基于情境的语义搜索
建设目标
我公司将会与客户一起,规划和设计基于情境的语义搜索技术,充分应用我公司的先进的自然语言理解技术,深入分析内外部数据,提供基于实时情境的语义搜索技术,并与现有的搜索技术相结合,提升客户的搜索体验。
工作项
中文语义分析调研:调研客户搜索系统的中文语义分析的需求,讨论语义分析的应用场景,确定语义分析

SOW-基于中文语义分析的产品搜索系统 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小57 KB
  • 时间2021-02-01