下载此文档

信息检索与搜索引擎技术实验向量空间模型.doc


文档分类:IT计算机 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
昆明理工大学信息工程与自动化学院学生实验报告(2014—2015学年第1学期)课程名称:信息检索与搜索引擎技术开课实验室:信自楼4452014年12月23日年级、专业、班计科111学号8姓名成绩实验项目名称向量空间模型指导教师李卫疆教师评语该同学是否了解实验原理: □ □ □该同学的实验能力: □ □ □该同学的实验是否达到要求: □ □ □实验报告是否规范: □ □ □实验过程是否详细记录: □ □ □教师签名:年月日上机目的及内容:给定文档语料:d1:北京安立文高新技术公司d2:新一代的网络访问技术d3:北京卫星网络有限公司d4:是最先进的总线技术。。。d5:北京升平卫星技术有限公司的新技术有。。。设计一个针对这些文档的信息检索系统。具体要求是:给出系统的有效词汇集合(说明取舍原因)。写出d1和d2在VSM中的表示(使用tf*idf,写出各项的数字表达式,具体数值不必实际计算出来)。画出系统的倒排文件示意图。按照向量夹角的余弦计算公式,给出针对查询“技术的公司”的前3个反馈结果。实验原理给定文档语料:• d1:北京安立文高新技术公司• d2:新一代的网络访问技术• d3:北京卫星网络有限公司• d4:是最先进的总线技术。。。• d5:北京升平卫星技术有限公司的新技术有。。。设计一个针对这些文档的信息检索系统。具体要求是:给出系统的有效词汇集合(说明取舍原因)。北京、安、立、文、高新、技术、公司、新、网络、访问、卫星、有限、先进、总线、升、平的、是、最、有,这些词作为停用词不能加入系统的有效集合一、代,去除后并不影响原来句子语义的表达也不能算作系统的有效集合。写出d1和d2在VSM中的表示(使用tf*idf,写出各项的数字表达式,具体数值不必实际计算出来)。得到的矩阵:Termd1d2d3d4d5Term出现次数北京101013安100001立100001文100001高新100001技术110013公司101013新010012网络011002访问010001卫星001012有限001012先进000101总线000101升000011平000011TF×IDF=cikj=1tcij×logNnk说明:TF:表示词项在该文档或者查询词中出现的频度。即该词项出现次数除以该文档的长度(所有词的个数)cik:表示词项k在Di中的出现次数。j=1tcij:表示该文档的长度(所有词的个数)IDF:表示词项在文档集合中的重要程度。一个词项出现的文档数越多,说明该词项的区分度越差,其在文档集合中的重要性就越低。N:表示集合中的文档数;nk:表示出现词项k的文档数。d1中各词项的数字表达式“北京”的TF×IDF=17×log53“安”的TF×IDF=17×log51“立”的TF×IDF=17×log51“文”的TF×IDF=17×log51“高新”的TF×IDF=17×log51“技术”的TF×IDF=17×log53“公司”的TF×IDF=17×log53d2中各词项的数字表达式:“新”的TF×IDF=17×log52“网络”的TF×IDF=17×log52“访问”的TF×IDF=17×log51“技术”的TF×IDF=17×log53画出系统的倒排文件示意图。按照向量夹角的余弦计算公式,给出针对查询“技术的公司”的前3个反馈结果。该部分由代码实现。实验方法、步骤建立Java项目,,如图4-1,图4-2所示图4-1图4-,如图图4-7所示图4-,如图图4-5所示图4-,如图4-6所示图4-,图4-7所示图4-7完成后的项目文件夹如图4-8所示图4-8运行结果如图4-:;lassDocumentStruct{ publicDocumentStruct(){ =0; =0; ="None"; ="None"; } publicDocumentStruct(intID,doublesim,Stringname,Stringcontent){ =ID; =sim; t

信息检索与搜索引擎技术实验向量空间模型 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人bb21547
  • 文件大小602 KB
  • 时间2020-08-10