登录
|
注册
|
QQ账号登录
|
常见问题
联系我们:
我要上传
首页
浏览
幼儿/小学教育
中学教育
高等教育
研究生考试
外语学习
资格/认证考试
论文
IT计算机
经济/贸易/财会
管理/人力资源
建筑/环境
汽车/机械/制造
研究报告
办公文档
生活休闲
金融/股票/期货
法律/法学
通信/电子
医学/心理学
行业资料
文学/艺术/军事/历史
我的淘豆
我要上传
帮助中心
复制
下载此文档
基于Spark的机器学习资料41、聚类算法:KMEANS原理介绍-2页.pdf
文档分类:
IT计算机
|
页数:约2页
举报非法文档有奖
分享到:
1
/
2
下载此文档
搜索
下载此文档
关闭预览
下载提示
1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档,不会出现我们的网址水印。
同意并开始全文预览
(约 1-6 秒)
下载文档到电脑,查找使用更方便
下 载
还剩?页未读,
继续阅读
分享到:
1
/
2
下载此文档
文档列表
文档介绍
基于Spark的机器学习资料41、聚类算法:KMEANS原理介绍-2页.pdf
聚类算法: KMEANS 原理介绍
一、 聚类介绍
聚类分析是一个无监督学****过程, 一般是用来对数据对象按照其特征属性进行分组, 经常被应用在客户分群、
欺诈检测、图像分析等领域。 K-means 应该是最有名并且最经常使用的聚类算法。
二、 算法介绍
KMeans 算法的基本思想是初始随机给定 K 个簇中心,按照最邻近原则把待分类样本点分到各个簇,然后按
照平均法重新计算各个簇的质心,从而确定簇心,一直迭代,知道簇心的移动距离小于某个给定的值。
K-means 算法是一个迭代式的算法,其运算过程如下:
1、 选择 k 个点作为初始聚类中心。( k 需要我们程序自己设置)
2、 计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中。最常用的衡
量距离的函数式欧几里得距离,叫做欧式距离。
3、 重新计算每个聚类中所有点的平均值,并将其作为新的聚类中心点。
4、 重复 2, 3 步的过程,直至聚类中心不再发生变化,或者算法达到预定的迭代次数(程序自己设置),
又或者聚类中心的改变小于预定设定的阀值。
举个例子介绍:
从上图中,我们可以看到, A , B, C, D, E 是五个在图中点。而灰色的点是我们的种子点,也就是我们用来找
点群的点。有两个种子点,所以 K=2 。
K-Means 的算法如下:
1、随机在图中取 K (这里 K=2 )个种子点。
2、然后对图中的所有点求到这 K 个种子点的距离,假如点 Pi 离种子点 Si 最近,那么 Pi 属于 Si 点群。(上图
中,我们可以看到 A ,B 属于上面的种子点, C, D ,E 属于下面中部的种子点)
3、接下来,我们要移动种子点到属于他的“点群”的中心。(见图上的第三步)
4、然后重复第 2)和第 3)步,直到,种子点没有移动(我们可以看到图中的第四步上面的种子点聚合了 A ,
B, C,下面的种子点聚合了 D , E)。
三、 KMeans两个重要问题
1、 选择 K 值
K 的选择是 K-means 算法的关键, Spark MLlib 在 KMeansModel 类里提供了 computeCost 方法,该方法通过计
算所有数据点到其最近的中心点的平方和来评估聚类的效果。
基于Spark的机器学习资料41、聚类算法:KMEANS原理介绍-2页 来自淘豆网www.taodocs.com转载请标明出处.
猜你喜欢
西餐礼仪与中餐礼仪的区别
5页
2024年寒露祝福语(集合14篇)
76页
2024年寒假计划日记
9页
2024年寒假社会实践心得体会集合15篇
25页
2024年寒假社会实践个人工作总结
7页
2024年寒假的日记15篇
6页
营运经理的岗位职责模板5篇
6页
2024年寒假工社会实践报告600以上
18页
英雄联盟最难的操作技巧盘点
5页
2024年寒假大学生实习总结范文
31页
人教版小学语文二年级下册第五单元复习资料汇..
6页
2024年寒假周记初中范文集锦6篇
6页
人教版小学语文二年级上册默写课文总结
6页
2024年寒假假期优秀周记范文(精选7篇)
11页
相关文档
更多>>
非法内容举报中心
文档信息
页数
:
2
收藏数
:
0
收藏
顶次数
:
0
顶
上传人
:
冰冷暗雪
文件大小
:
100 KB
时间
:
2021-10-29
相关标签
注资协议
著作权转让协议
专家顾问聘用协议
专家顾问协议
专家合作协议
专家聘用协议
专家咨询服务协议
专利保密协议
专利代理保密协议
专利代理协议
计算机原理
PHP资料
linux/Unix相关
C/C++资料
Java
.NET
windows相关
开发文档
管理信息系统
软件工程
网络信息安全
网络与通信
图形图像
行业软件
人工智能
计算机辅助设计
多媒体
软件测试
计算机硬件与维护
网站策划/UE
网页设计/UI
网吧管理
电子支付
搜索引擎优化
服务器
电子商务
Visual Basic
数据库
Web服务
网络资源
Delphi/Perl
Python
CSS/Script
Flash/Flex
手机开发
UML理论/建模
并行计算/云计算
嵌入式开发
计算机应用/办公自动化
数据结构与算法
SEO
最近更新
重难点解析重庆长寿一中物理八年级下册期末..
重难点解析重庆市大学城第一中学物理八年级..
重难点解析福建龙海第二中学物理八年级下册..
重难点解析福建厦门市湖滨中学物理八年级下..
重难点解析湖南邵阳市武冈二中物理八年级下..
重难点解析江西上饶市第二中学物理八年级下..
重难点解析广东茂名市高州中学物理八年级下..
2024年小学开学典礼感言
重难点解析天津南开大附属中物理八年级下册..
重难点解析南京市第一中学物理八年级下册期..
2024年小学学校课程教学计划(通用8篇)
2024年小学四年级演讲稿
重庆市大学城第一中学物理八年级下册期末考..
醒目的近义词是什么
2024年小学六年级毕业家长对孩子的祝福语(..
2024年小学体育节开幕词
2024初级会计考试《-经济法》基础知识点笔记..
空调维修安全操作规范
水利土方碾压试验方案
啤酒厂废水处理毕业设计
单相接地试验测试方案教程文件
护患关系论文护患沟通论文.
微型客车制动系统设计
行政管理专业毕业论文
农村建筑工匠培训资料
(完整版)国医馆运营管理
在线
客服
微信
客服
QQ
客服
意见
反馈
手机
查看
返回
顶部