下载此文档

基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
该【基于Spark的机器学习资料43、其它SparkML算法简单介绍 】是由【wawa】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【基于Spark的机器学习资料43、其它SparkML算法简单介绍 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。SparkML算法简单介绍
一、线性回归算法
线性回归(LinearRegression),数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系
的一种统计分析方法,其表达形式为y=w'x+e,e为误差服从均值为0的正态分布,其中只有一个自变量的
情况称为简单回归,多个自变量的情况叫多元回归。
这个例子中近简化使用房屋面积一个因子作为自变量,y轴对应其因变量房屋价格。所以我们机器学****的线
性回归就变为对于给定有限的数据集,进行一元线性回归,即找到一个一次函数y=y(x)+e,使得y满足
当x={2104,1600,2400,1416,3000,...},y={400,330,369,232,540,...}如下图所示:
至于公式的求解,大家可以自己去看一下源码或者方程求解,这就里不讲解了。
二、逻辑回归算法
logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然
后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。
它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1
之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这个范围还有个很好的好
处,就是可以消除特别冒尖的变量的影响。
三、贝叶斯分类算法
贝叶斯定理
贝叶斯定理解决的是这样一个问题:已知在事件B发生的条件下,事件A的发生概率P(A|B),怎样得到事
件A发生的条件下,事件B的发生概率P(B|A)?贝叶斯定理为我们打通了从P(A|B)到P(B|A)的道路。
P(B|A)=P(A|B)×P(B)/P(A)
举例说明,假设已经有了100个email,其中:
垃圾邮件占比60%,即P(Spam)=
80%的垃圾邮件包含关键字“buy”,即P(Buy|Spam)=
20%的垃圾邮件不包含关键字“buy”
正常邮件占比40%,即P(NotSpam)=
10%的正常邮件包含关键字“buy”,即P(Buy|NotSpam)=
90%的正常邮件不包含关键字“buy”
现在,第101个email进来了,它包含关键字“buy”,那么它是垃圾邮件的概率P(Spam|Buy)是多少?
P(Spam|Buy)=P(Buy|Spam)×P(Spam)/P(Buy)
P(Buy)=P(Buy|Spam)×P(Spam)+P(Buy|NotSpam)×P(NotSpam)
P(Spam|Buy)=(×)/(×+×)==
由此得出,%的可能是一个垃圾邮件。
四、SVM支持向量机算法
支持向量机是一个类分类器,它能够将不同类的样本在样本空间中践行分割,其中生成的分隔面叫作分隔超
平面。给定一些标记好的训练样本,SVM算法输出一个最优化的分隔超平面。
五、决策树算法
决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变
量的,回归树是处理连续变量。
样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用。如决
定是否对一个人贷款是,这个人的信用记录、收入等就是主要的判断依据,而性别、婚姻状况等等就是次要
的判断依据。决策树构建的过程,就是根据特征的决定性程度,先使用决定性程度高的特征分类,再使用决
定性程度低的特征分类,这样构建出一棵倒立的树,就是我们需要的决策树模型,可以用来对数据进行分类。
决策树学****的过程可以分为三个步骤:1)特征选择,即从众多特征中选择出一个作为当前节点的分类标准;
2)决策树生成,从上到下构建节点;3)剪枝,为了预防和消除过拟合,需要对决策树剪枝。
六、Kmeans聚类算法
聚类(clustering)与分类(classification)的不同之处在于:分类是一种示例式的有监督学****算法,它要求必
须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应,很多时候这个条件是不成
立的,尤其是面对海量数据的时候;而聚类是一种观察式的无监督学****算法,在聚类之前可以不知道类别甚
至不给定类别数量,由算法通过对样本数据的特征进行观察,然后进行相似度或相异度的分析,从而达到“物
以类聚”的目的。
七、LDA主题模型算法
隐含狄利克雷分配(LDA,LatentDirichletAllocation)是一种主题模型(TopicModel,即从所收集的文档中推
测主题)。甚至可以说LDA模型现在已经成为了主题建模中的一个标准,是实践中最成功的主题模型之一。
那么何谓“主题”呢?,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度
来说,我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模
型中生成的。也就是说在主题模型中,主题表现为一系列相关的单词,是这些单词的条件概率。形象来说,
主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。
LDA可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词
袋(bagofwords)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的
数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了
契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概
率分布。
LDA可以被认为是如下的一个聚类过程:
(1)各个主题(Topics)对应于各类的“质心”,每一篇文档被视为数据集中的一个样本。
(2)主题和文档都被认为存在一个向量空间中,这个向量空间中的每个特征向量都是词频(词袋模型)
(3)与采用传统聚类方法中采用距离公式来衡量不同的是,LDA使用一个基于统计模型的方程
八、FPGrowth关联规则算法
关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的
联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布
局、货存安排以及根据购买模式对用户进行分类。
九、ALS交替最小二乘算法
ALS(AlternatingLeastSquare),交替最小二乘法。在机器学****中,特指使用最小二乘法的一种协同推荐算法。
如下图所示,u表示用户,v表示商品,用户给商品打分,但是并不是每一个用户都会给每一种商品打分。
比如用户u6就没有给商品v3打分,需要我们推断出来,这就是机器学****的任务。
由于并不是每个用户给每种商品都打了分,可以假设ALS矩阵是低秩的,即一个m*n的矩阵,是由m*k和
k*n两个矩阵相乘得到的,其中k<<m,n。
Am×n=Um×k×Vk×n
这种假设是合理的,因为用户和商品都包含了一些低维度的隐藏特征,比如我们只要知道某个人喜欢碳酸饮
料,就可以推断出他喜欢百世可乐、可口可乐、芬达,而不需要明确指出他喜欢这三种饮料。这里的碳酸饮
料就相当于一个隐藏特征。上面的公式中,Um×k表示用户对隐藏特征的偏好,Vk×n表示产品包含隐藏特
征的程度。机器学****的任务就是求出Um×k和Vk×n。可知uiTvj是用户i对商品j的偏好,使用Frobenius
范数来量化重构U和V产生的误差。由于矩阵中很多地方都是空白的,即用户没有对商品打分,对于这种
情况我们就不用计算未知元了,只计算观察到的(用户,商品)集合R。
这样就将协同推荐问题转换成了一个优化问题。目标函数中U和V相互耦合,这就需要使用交替二乘算法。
即先假设U的初始值U(0),这样就将问题转化成了一个最小二乘问题,可以根据U(0)可以计算出V(0),再根
据V(0)计算出U(1),这样迭代下去,直到迭代了一定的次数,或者收敛为止。虽然不能保证收敛的全局最优
解,但是影响不大。
十、协同过滤推荐算法
基于协同过滤的推荐,可以理解为基于用户行为的推荐。依赖于用户过去的行为的协同过滤,行为可以是过
往的交易行为和商品评分,这种方式不需要显性的属性信息。协同过滤通过分析用户和商品的内在关系来识
别新的user-item关系。
协同过滤领域主要的两种方式是最近邻(neighborhood)方法和潜在因子(latentfactor)模型。最近邻方法主
要集中在item的关系或者是user的关系,是比较基础的过滤引擎。而潜在因子模型并不是选取所有的关
系,而是通过矩阵分解的技术将共现矩阵的分解,比如提取20-100个因子,来表示原始矩阵信息(可以对比
上面提到的音乐基因,只不过潜在因子模型是通过计算机化的实现)。

基于Spark的机器学习资料43、其它SparkML算法简单介绍 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wawa
  • 文件大小448 KB
  • 时间2023-03-18