聚类算法简介
报告人: 刘铭
******@.
什么是聚类?
聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;
为什么需要聚类?
对相似的文档或超链接进行聚类,由于类别数远小于文档数,能够加快用户寻找相关信息的速度;
聚类图示
聚类中没有任何指导信息,完全按照数据的分布进行类别划分
什么是分类?
数据集合,类别标记集合
数据集合: 训练数据
待分类数据
已知
问题:
方法:根据训练数据获得类别划分标准
分类图示
训练数据
待分类数据
聚类与分类的区别
有类别标记和无类别标记;
有监督与无监督;
(有训练语料与无训练语料)
Train And Classification (分类);
No Train(聚类);
聚类的基本要素
定义数据之间的相似度;
聚类有效性函数(停止判别条件);
1. 在聚类算法的不同阶段会得到不同的类别划分结果,可以通过聚类有效性函数来判断多个划分结果中哪个是有效的;
2. 使用有效性函数作为算法停止的判别条件,当类别划分结果达到聚类有效性函数时即可停止算法运行;
类别划分策略(算法);
通过何种类别划分方式使类别划分结果达到有效性函数;
相似度分类(一)
Euclidean Distance
交叉熵
Cosine
数据表示为向量,向量中某一维对应数据某一特征或属性
仅计算了数据向量中属于同一维度特征的权值差距;
相似度分类(二)
Based on Semantic
属于不同维度的特征的关系以表示
Unbalance Similarity
不同特征在数据相似度计算中的作用不同
cluster(聚类) 来自淘豆网www.taodocs.com转载请标明出处.