下载此文档

搜索引擎反作弊方法研究.docx

文档分类：IT计算机 | 页数：约7页举报非法文档有奖

1/7

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/7 下载此文档

文档列表 文档介绍

搜索引擎反***方法研究

王庆福+王兴国
摘要：互联网时代人们检索信息的方式主要通过搜索引擎完成。不管是通用的全文搜索引擎还是分类别的垂直搜索引擎都需要面临的问题是***行为，网站站长会通过多种***行为来提高在搜索引擎上的排名，***行为的方式也千差万别。搜索引擎需要通过不断优化和完善内部的排序算法来杜绝***行为。
关键词：搜索引擎；内容排序；***和反***
： TP391 ：A ：1009-3044（2016）15-0202-02
Abstract： In the Internet age， the way of searching information is mainly through the search engine. Whether it is general full text search engine or classification other vertical search engine in the face of problems is cheating， webmaster will through a variety of cheating in the search engine ranking increases， the cheating behavior in different ways. Search engines need to constantly optimize and improve the internal sorting algorithm to eliminate cheating.
Key words： search engine； content ranking； cheating and anti cheating
搜索引擎通过提取网页中主要信息进行索引构建，用户的检索请求提交给搜索引擎后，搜索引擎通过索引系统筛选出符合条件的待选集，然后根据内部的排序算法对待选集进行排序输出。网站的盈利模式主要通过流量，网站流量越大意味着网站可以拉到更到广告投放从而实现大面积盈利。因此存在一些网站站长为了提高自身网站的流量进行***，通过非正常的手段来提升自身网站搜索引擎内部的排名，搜索引擎出于公平性的考虑保证排名的合理性需要对网站站长这些***行为进行检测并极大程度上降低因***行为而导致的排名不正确性。
搜索引擎的排名的依据很大程度上依赖于用户的输入字符串和网站内容的匹配程度，网站站长在自身网站上堆砌大量的关键词从而期望提高网站的排名，实际诸如此类的关键词堆砌没有实际的含义，甚至和网站内容无任何关联，这极大的拉低了网站本身的质量，搜索引擎在内容识别时需要识别当前是否存在无关关键词的大量无关使用，对此类***行为需要打压查询字符串和网站本身内容之间的相似度。另外还有如链接***等，本文主要就网站***中常用手段进行分析，阐释搜索引擎反***中常用手段。
1 搜索引擎排序策略
搜索引擎排序中常用的做法是LTR（learning to rank）算法，LTR算法是一种机器学****算法，它在传统相似度算法的基础上融合多种排序时的相关特征进行排序学****LTR算法如图1所示。LTR是一种基于有规则性的学****监督（supervised learning）排序方法。LTR已经在诸多领

搜索引擎反作弊方法研究来自淘豆网www.taodocs.com转载请标明出处.