下载此文档

43、其它SparkML算法简单介绍.doc


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
Spark ML算法简单介绍
线性回归算法
线性回归(Linear Regression),数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系 的一种统计分析方法,其表达形式为y = w,x+e, e为误差服从均值为0的之对应,很多时候这个条件是不成 立的,尤其是面对海量数据的时候;而聚类是一种观察式的无监督学****算法,在聚类之前可以不知道类别甚 至不给定类别数量,由算法通过对样本数据的特征进行观察,然后进行相似度或相异度的分析,从而达到“物 以类聚”的目的。
七、 LDA主题模型算法
隐含狄利克雷分配(LDA, Latent Dirichlet Allocation)是一种主题模型(Topic Model,即从所收集的文档中推 测主题)。甚至可以说LDA模型现在已经成为了主题建模中的一个标准,是实践中最成功的主题模型之一。 那么何谓“主题"呢?,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度 来说,我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模 型中生成的。也就是说在主题模型中,主题表现为一系列相关的单词,是这些单词的条件概率。形象来说, 主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。
LDA可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词
袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的 数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了 契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概 率分布。
LDA可以被认为是如下的一个聚类过程:
各个主题(Topics)对应于各类的“质心”,每一篇文档被视为数据集中的一个样本。
主题和文档都被认为存在一个向量空间中,这个向量空间中的每个特征向量都是词频(词袋模型)
与采用传统聚类方法中采用距离公式来衡量不同的是,LDA使用一个基于统计模型的方程
八、FPGrowth关联规则算法
关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的 联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布 局、货存安排以及才艮据购买模式对用户进行分类。
九、ALS交替最小二乘算法
ALS(AlternatingLeast Square),交替最小二乘法。在机器学****中,特指使用最小二乘法的一种协同推荐算法。 如下图所示,u表示用户,v表示商品,用户给商品打分,但是并不是每一个用户都会给每一种商品打分。 比如用户u6就没有给商品v3打分,需要我们推断出来,这就是机器学****的任务。
vl 履 屹; /
5
7
6
?
6
1
3
3
3
6
5
5
由于并不是每个用户给每种商品都打了分,可以假设

43、其它SparkML算法简单介绍 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人蓝天
  • 文件大小61 KB
  • 时间2022-06-28