下载此文档

基于有监督学习的店铺类虚假评论检测.doc


文档分类:办公文档 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
基于有监督学****的店铺类虚假评论检测
摘要:网络在线评论对于商家和顾客具有重要价值,因而日益受到虚假评论行为的冲击。作为两个重要的在线评论领域,产品类评论(如亚马逊、淘宝)和店铺类评论(如点评网、Yelp)在语言特性、评论行为等分,%的收益[2]。
Jindal等[3]首先提出虚假评论检测问题,并针对亚马逊()评论提取大量评论特征,然后使用朴素贝叶斯、逻辑回归等机器学****算法对评论进行“虚假/真实”分类。其研究发现,虚假评论检测的困难性在于难以获取大量标注数据集用于分类器学****而只能利用一些重复或接近重复的评论文本作为虚假评论,并选取非重复评论作为真实评论,训练多种分类器。但随着网络评论重要性的不断提高,评论***行为也越来越隐蔽,单纯依赖评论文本已无法识别虚假评论。因此,国内外学者义提出基于评论文本3-7]、评论人之间关系[8-10]以及评论行为[11-14]的虚假评论检测方法。
然而,网络评论具有强烈的领域相关性,不同的评论领域(如图书评论、饭店评论等)不仅评论文本有很大区别(如使用的词汇、主题、文体、情感****惯等),甚至评论行为(如打分、评论频率)也有很大不同。因此,针对不同领域的虚假评论,必须使用不同检测方法,才能有效提高检测性能。本文将网络评论分为针对产品的评论(product re-views)、针对店铺的评论(store reviews)与服务类评论(ser-vice reviews)。除在评论文本和评论行为方面的差别外,产品评论和店铺评论还有一个重要区别是店铺数量一般远远少于产品数量,造成针对店铺的评论数量大、评论顾客多。目前针对店铺类虚假评论检测的方法[8]较少,大部分检测方法未对二者进行区分,缺乏针对性。因此,如何针对店铺类虚假评论特点设计有效的檢测方法是一个重要研究课题。 本文首先利用有標注的Yelp数据集抽取店铺类评论的***特征,然后利用决策树、朴素贝叶斯、K近邻、集成学****等机器学****算法,对店铺类虚假评论进行检测,揭示店铺类虚假评论特征,比较不同机器学****算法的分类性能,为进一步深入理解J占铺类虚假评论的特征模式、设计更为有效的检测手段打下基础。
1 Yelp评论数据集介绍
Yelp( )是美国一个大型网络评论社区,成立于2004年,主要目的是为人们提供当地商业活动的点评服务,内容涉及饭店、购物、家政、***、美容等。由于商业竞争的加剧,Yelp受到大量虚假评论的困扰,因此该网站设置了虚假评论过滤器,利用多种算法发现可疑虚假评论。Mukherjee等[11]首先利用Yelp的虚假评论过滤器构造一个虚假评论标注数据集(YelpChi),之后Ravana等[15]义构造了YelpNYC与YelpZip标注数据集。其中YelpChi是美国芝加哥地区的饭店、旅店评论,YelpNYC为美国纽约市饭店和旅店评论,YelpZip是美国多个州邮编连续区域的饭店、旅店评论。由于虚假评论标注的困难性,这些标注数据集被认为是接近准确的(nearground-truth)。3个数据集都包含了旅店、饭店评论,本文利用YelpNYC和YelpZip对店铺类评论的虚假性进行检测,具体统计信息见表l。
2店铺类评论特征提取
为实现对虚假评论与真实评论的准确分类,从评论数据中提取有效评论***特征是其中的关键。通过对Yelp标注数据集进行探索性数据分析,本文设计了一系列文本特征和行为特征,以提高分类的准确性和召回率。令评论v=,,,,(日期)。文献[11]指出词频特征(unlgram或higram)对于Yelp虚假评论区分度较低,故本研究不采用词频特征。

(1 )WorciCou nt:评论文本包含的单词个数。虚假评论者一般没有购买产品就书写评论,加上书写评论会耗费大量时间与精力,所以其评论数量通常比真实消费者包含的单词个数要少。
(2)TextSentiment:虚假评论者为了故意夸大或贬低产品,其评论文本的情感极性通常比较明显[6]。本文利用情感极性计算包TextBloh计算评论文本的情感极性,取值范围为[-1,1]。为使特征具有单调性,本文取其绝对值作为该评论的情感极性特征。

( l)RatingDev:为了提升自身信誉或贬低竞争对手声誉,虚假评论打分值一般与真实评论的打分具有显著偏差[]。该特征计算公式为:
即评论v的特征是该评论打分与同一产品其它评论打分的均值之差。
(2) ExtremeRate:评论作者

基于有监督学习的店铺类虚假评论检测 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息