踌右印童天肇硕士研究生学位论文壶睡壹值曼皇筐皇丝堡院:篮皇皇逗垡王猩堂院鄞垩密级:保密期限:学姓专导号:重兰名:业:师:年日
嗨●
本人签名:壹竖查本人签名:壹星杰日期:丝剩豪迹后独创性虼葱滦声明日期:丝&:三,』三关于论文使用授权的说明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文不属于保密范围,适用本授权书导师签名:
基于博文分布特征的博客精选技术研究摘要博客精选技术某个专一主题发表文章的博客的过程。在互联网上,用户往往希望找出一些特别关注某个兴趣的博客,例如篮球,电影,政治选举等等,这些博客所发表的博文往往大部分都集中于一个专一的兴趣或主题上,用户可以通过┰睦垂刈⒏貌┛偷母露曰竦酶昧博客朋友,或找到自己感兴趣的某话题的专家,从而满足自己对该领域了解、学习与交友的需求。基于这个目的,本文重点研究了博客精选技术,并提出了基于博文分布特征的精选方法。与传统方法相比,本文的主要创新工作与成果如下:设计并实现了一组基于博文相似度均值的基线实验,,在不浪费系统资源的前提下计算获得最高精确率的最小召回文档数,极大地提高了计算的效率与准确度。同测试任务本文使用博客的博文相似分布为特征,侧重于挖掘特定话题下不同相关度的博客所含博文的分布特点。与传统侧重于挖掘主题与文章关键词之间相关度的方法不同,本文将检索的本质从“主题。关键词’’将类别不平衡问题的研究引入到博客精选技术中。由于本文使用的训练集中类别严重失衡,为了满足机器学习方法获得高精度结果的基本前提——即训练数据与测试数据拥有一致的类别分布,本文对测试数据集的类别分布进行了预测,利用预测结果调整训练集的类别分布,并重新进行训练与测试,结合样本选择以及对测试集大小的限定,本文实验在与年关键词博客检索相似分布掷嗥骼啾鸩黄胶庑圆檠┱且恢衷诖罅坎┛椭屑焖鞒鑫域的知识。博客精选技术可以帮助互联网用户方便的找到志同道合的时,该基线实验方案在年全球中获得了单项指标第一的成绩。的关系转化为“,,该曲线除了能很好的表征不同类别博客的分布特点外,也直接抽象出了博客的特征向量,本文以此特征向量进行分类识别取得了较高的精确度。测试结果对比下名列前茅。
,,琾,,...簟続瓸..
篵瓵,,”眛眒¨,.,琧瑀,甀琣
⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.チM姆⒄⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文的工作内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文的组织⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第二章博客精选任务的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯首自‘一言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..精选任务中的主题选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..检索系统的评估体系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯精选任务的解决方案⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⒓焖鞑呗浴中的两个最佳博客精选方案⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第三章博客数据的前期处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..查询话题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。博客圈的结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..数据集的构建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..┛脱≡瘛.┛⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..实验辅助工具包⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一第四章基于博文相关性分布的精选设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.基线实验的设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
基于博文分布特征的博客精选技术研究 来自淘豆网www.taodocs.com转载请标明出处.