下载此文档

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页.pdf


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
Spark ML算法简单介绍
一、 线性回归算法
线性回归( Linear Regression),数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系
的一种统计分析方法,其表达形式为 y = w'x+e ,e 为误差服从均值为 0 的正态分布,其中只有一个自变量的
情况称为简单回归,多个自变量的情况叫多元回归。
这个例子中近简化使用房屋面积一个因子作为自变量, y 轴对应其因变量房屋价格。所以我们机器学****的线
性回归就变为对于给定有限的数据集,进行一元线性回归,即找到一个一次函数 y=y(x) + e ,使得 y 满足
当 x={2104, 1600, 2400, 1416, 3000, ... }, y={400, 330, 369, 232, 540, ... } 如下图所示:
至于公式的求解,大家可以自己去看一下源码或者方程求解,这里就不讲解了。
二、 逻辑回归算法
logistic 回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然
后使用函数 g(z)将最为假设函数来预测。 g(z)可以将连续值映射到 0 和 1 上。
它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到 0 和 1
之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这个范围还有个很好的好
处,就是可以消除特别冒尖的变量的影响。
三、 贝叶斯分类算法
贝叶斯定理
贝叶斯定理解决的是这样一个问题:已知在事件 B 发生的条件下,事件 A 的发生概率 P(A|B) ,怎样得到事
件 A 发生的条件下,事件 B 的发生概率 P(B|A) ?贝叶斯定理为我们打通了从 P(A|B) 到 P(B|A) 的道路。
P(B|A) = P(A|B) × P(B) / P(A)
举例说明,假设已经有了 100 个 email,其中:
垃圾邮件占比 60%,即 P(Spam) =
80%的垃圾邮件包含关键字“ buy”,即 P(Buy|Spam) =
20%的垃圾邮件不包含

基于Spark的机器学习资料43、其它SparkML算法简单介绍-4页 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息