核密度估计及其在聚类算法构造中的应用_李存华汇总Vol 41. Na 10 Oct 202 第41卷第10期 计算机研究与发展 2004年 10 月 JOURNAL OF COMPUTER RESEARCH AND DEVEU)PM ENT 核密度估计及其在聚类算法构造中的应用 李存华S孙志挥‘陈耿।胡云" ।(东南大学计算机科学与工程系 南京210018) ,淮海工学院计算机科学系连云港222005) (cli ***@liliit. edu. cn) 摘 要 经典数理统计学中的核密度估计理论是构造基于• 核密度函数估计方法同样为构造高效的聚类算法提供了依据通过对核密度估计理论及其快速分箱核近似方法的讨论. 给出分箱近似密度估计相对于核密度估计的均方误差界,提出基于网格数据重心的分箱核近似方法在不改变计算复杂 度的条件卜;基于网格数据重心的分箱核近似密度函数计算可以有效地降低近似误差,这一思想方法对于构造高效大规 模数据聚类分析算法具有指导意义 揭示了基于网格上密度函数近似的聚类算法与核密度估计理论之间的关系 关键词核密度估比分箱规则;聚类算法 中图法分类号 TP391 Kernel Density Estimation and Its Application to Gustering Algorithm Construction LI Cun HuaU S UN Zhi Hui1. Chen Geng I and Hu Yun1, 2 1 (De/Mtrtmait of Com put o' Science and E〃g inuring. Southeast Universily. Nanjing 210018) (De/xirt merit of Compute Science. Huaihai Institute of Technology. Li any ungang 222005) Abstract Kernel density estimation provides solid foundation for density based clustering algorithm con, stmction. While binned a|)pn)ximation is show n to l)e an efficient mechanism for fast kernel density c(md pu • tatioik it is also proven to be a promising approach to construct robust clustering algonthms. This paper deals with formation and accuracy of the binned kernel density eslimators presents mean squared ern)r lx)uncls for the closeness of such estimators to the unbinned kernel density estimators. To improve the accu, racy of the binning methods a nave grid