下载此文档

基于Spark的机器学习资料43、其它SparkML算法简单介绍.docx


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
SparkML算法简单介绍
线性回归算法
线性回归(LinearRegression),数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其表达形式为y=w'x+e,e为误差服从均值为0的正态分布,其
现在,第101个email进来了,它包含关键字“buy”,那么它是垃圾邮件的概率P(Spam|Buy)是多少?P(Spam|Buy)=P(Buy|Spam)XP(Spam)/P(Buy)
P(Buy)=P(Buy|Spam)XP(Spam)+P(Buy|NotSpam)XP(NotSpam)
P(Spam|Buy)=()/(+)==,%的可能是一个垃圾邮件。
四、SVM支持向量机算法
支持向量机是一个类分类器,它能够将不同类的样本在样本空间中践行分割,其中生成的分隔面叫作分隔超平面。给定一些标记好的训练样本,SVM算法输出一个最优化的分隔超平面。
五、决策树算法决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量。
样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用。如决定是否对一个人贷款是,这个人的信用记录、收入等就是主要的判断依据,而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程,就是根据特征的决定性程度,先使用决定性程度高的特征分类,再使用决定性程度低的特征分类,这样构建出一棵倒立的树,就是我们需要的决策树模型,可以用来对数据进行分类。决策树学****的过程可以分为三个步骤:1)特征选择,即从众多特征中选择出一个作为当前节点的分类标准;2)决策树生成,从上到下构建节点;3)剪枝,为了预防和消除过拟合,需要对决策树剪枝。
六、Kmeans聚类算法
聚类(clustering)与分类(classification)的不同之处在于:分类是一种示例式的有监督学****算法,它要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应,很多时候这个条件是不成立的,尤其是面对海量数据的时候;而聚类是一种观察式的无监督学****算法,在聚类之前可以不知道类别甚至不给定类别数量,由算法通过对样本数据的特征进行观察,然后进行相似度或相异度的分析,从而达到“物以类聚”的目的。
七、LDA主题模型算法
隐含狄利克雷分配(LDA,LatentDirichletAllocation)是一种主题模型(TopicModel,即从所收集的文档中推测主题)。甚至可以说LDA模型现在已经成为了主题建模中的一个标准,是实践中最成功的主题模型之一。那么何谓“主题”呢?,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说,我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。也就是说在主题模型中,主题表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。
LDA可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。

基于Spark的机器学习资料43、其它SparkML算法简单介绍 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人国霞穿越
  • 文件大小56 KB
  • 时间2022-06-09