您的当前位置:首页正文

一种改进的模糊C均值聚类算法

来源:一二三四网
第12卷第4期 哈尔滨理工大学学报 VoL 12 No.4 2007年8月 J0URNAL HARBIN UNIV.SCI.&TECH. Aug.,2007 一种改进的模糊C均值聚类算法 宋清昆, 郝 敏 (哈尔滨理工大学自动化学院,黑龙江哈尔滨150080) 摘要:针对模糊c均值(FCM)聚类算法中,聚类效果往往受到聚类数目和初始聚类中心的 影响这一问题,提出了基于平均信息熵确定聚类数目的方法,并采用密度函数法来获得初始聚类中 心.实验结果表明,改进后的算法较好地解决了初值问题,与随机初始化方法相比,迭代次数少,收 敛速度快. 关键词:模糊C均值聚类;信息熵;初始化;密度函数 中图分类号:TP273 文献标识码:A 文章编号:1007-2683(2007)04—0008-03 l mprovea uzzv proved Fuzzy C—means Cl— eans usterusteri ng Alng AIgorigonmm thmSONG Q 一kun,HAO Min (College of Automation,Ha ̄in Univ.Sci.Tech.,Harbin 150080,China) Abstract:The performance of fuzzy C—means(FCM)clustering algorithm depends on the selection of the number of clusters and the initial cluster centers.To answer the two questions,this paper puts forward a new algo— rithm based on the average information entropy to find the number of clusters and adopts a density function algo— rithm to find the initial cluster centers.It is shown that the proposed algorithms resolve the initial problems effec— tively.Compared with the stochastic initialization,the algorithms have fewer numbers of iterations and have faster speed to converge. Key words:fuzzy C—means clustering;information en ̄opy;initialization;density function 信息熵的方法,采用密度函数法来确定初始聚类中 心,与随机方法相比具有收敛速度快,分类准确等 优点. 模糊聚类算法中以模糊c均值(FCM)聚类算 法¨ 应用最为广泛,但是FCM聚类算法存在多方 2 FCM算法 面问题,诸如聚类数目难以确定,如何确定有效的初 始聚类中心和初始隶属度矩阵,迭代容易陷入局部 模糊c均值聚类就是求使聚类目标函数.,最小 极值等. 的模糊划分矩阵U=[u ]。 ,以及类别中心 fv C 许多研究是针对FCM聚类算法中聚类数目和 初始聚类中心选择问题的,但相关研究,或者只考虑 .,:∑∑(u ) l l一 l l聚类数目的确定,或者只对初始聚类中心进行选择. 其中:V 表示第i个聚类中心,i=1,2,…,c;_『=1, 本文针对聚类数目确定的问题,提出一种基于平均 2,…,Ⅳ;m∈(1,∞)是加权指数,目标函数表示了 各类数据到相应聚类中心的加权距离平方和.具体 收稿日期:2006—07—02 作者简介:宋清昆(1964一),男,哈尔滨理工大学教授 第4期 算法如F: 宋清昆等:一种改进的模糊c均值聚类算法 9 1)确定聚类数目C,初始化m及聚类中心 ; 2)对第 次迭代,根据式 = — 一 和 = H ( )=0,则H ( )=Hk( );如HI( )< ( ), 则Hm( )=H ( ),用当前k值更新C值. 6)如果k>C ,则C即为最终聚类数目;否 则,返回2). 3.2 初始聚类中心的选择 ∑( ) _~l,计算新的隶属度函数和C个聚类中心; 在文[4]给出的初始化方法中,势函数是以指 数运算为基础,这在样本量较大的情况下会影响速 ∑( ) 3)若I 一,“ I≤ ,则停止,否则返回2) 3 改进的FCM聚类算法 FCM聚类算法中,聚类数目是需要用户预先设 置的参数.选择合适的聚类数目是正确聚类的前提. 另外,FCM聚类算法从某种程度上说,可看作初始 聚类中心到聚类结果的映射.若选取的初始中心接 近数据真正的类别中心,算法的收敛速度和准确性 都将得到改善. 3.1 聚类数目的确定 熵是用来描述原子分布的无序程度的,数据点 的分布类似于原子的分布,当聚类的划分越合理,数 据点在某一聚类上的归属越确定时,该聚类的信息 熵值越小.本文对文[3]提出的基于信息熵理论的 聚类算法进行改进,以平均信息熵的大小作为评判 聚类数目的标准. 在用户使用此算法时,首先确定希望产生的聚 类数目范围[c c ].平均信息熵值的定义为 C 日( )=一∑∑{I=1 J 1 [ ×]og2( )+ (1一 )X log2(1一 )]/,v} 其中: 表示样本 属于聚类i的程度, [0,1], V 当k从c 增加到c一时,就产生cn 一c +1 个 ( ),选取最小的一个 ( )所对应的聚类数 目k作为最终的聚类数目C. 该算法的思想如下: 1)设置最大聚类数目C 和最小聚类数目 C ,阈值 ,并设 =C i 一1. 2)随机初始化隶属矩阵U ,t=0,k增加1. 3)更新隶属度矩阵 “ 和聚类中心 “,t增加1. I  I4)当f,“ 一,n f> 时,返回3). I I 5)计算 (戈),记下此时聚类数目k.如果 度.为此,本文采用一种密度函数法进行初始化,定 义样本点 i处的密度函数如下: ・ 』v 1 D ∞ ( ) = 1 0 d ll 一 川 其中 =4/r , 是领域密度有效半径,它的选择 应该与数据集合的分布特性有关.这里取 为,v个 样本的均方根距离的÷,即 1厂— ———可— ———一 = 一√ / 可刍刍l∑∑I Ix —x一‘jl  (2)) 由式(1)可知,在 周围样本点越密集,则D ∞值越 大.故可以用来表示在样本空间中样本点的密集程 度.与势函数法相似,令D1.=max{D 们,i=1,2, …,,v},对应的 取为第1个初始聚类中心.求后续 初始聚类中心的密度函数调整关系式,即 D ” k=1,2,…,C一1 (3) 其中,c为聚类数目,由前面基于平均信息熵的聚类 数目法事先确定.D =max{D ¨,i=1,…,,v}, 对应的样本点 取为第k个初始聚类中心位置.由 式(1)一(3)决定中心初始化方法,其原理与势函 数方法相似,但运算量却比势函数法小得多. 4 实验结果 为说明上述算法的有效性,本文利用文[5]中 的数据集进行实际检验.这组数据是150个关于3种 花的生物统计数据,通常称为IRIS数据集.所有的 实验取模糊控制参数m=2. 首先,验证基于平均信息熵的聚类数目确定方 法的有效性:输人参数为C =2,C =8,N= 150(数据个数),S=4(数据维数).采用基于平均 信息熵的聚类数目的确定方法后,由表1可见,当类 数为3时,平均信息熵最小,多次运行该算法,得到 的结果比较稳定,显然这与已知的花的种类数相符, 结果令人满意. 10 哈尔滨理工大学学报 第12卷 表l IRIS数据集分类平均熵值表 类数 对应平均熵值 类数 对应平均熵值 2 1.O64 l 6 1.948 8 3’0.565 2 7 2.1760 4 1.429 8 8 2.363 5 5 1.656 9 下面检验基于密度函数法的初始聚类中心的 选择是否有效.密度函数法得到的3个初始聚类中 心如表2所示.可知,初始聚类中心对应的数据样本 编号分别为79,8和113,它们分别落在了IRIS数据 集的三个标准分类样本子集中,即50—100,1~50 和101—150.采用密度函数法得到了比较理想的初 始聚类中心. 表2 经密度函数法得到的初始聚类中心 对于IRIS数据集,采用随机初始化的FCM聚 类算法和采用本文提出的改进的FCM聚类算法得 到的目标函数的变化趋势如图1,图2所示.比较图 1,图2可见:①FcM聚类采用本文提出的改进算法 初始化后,目标函数初始值较小,迭代次数少;②与 随机产生聚类中心相比,改进的FCM聚类算法的收 敛更快. 迭代次数 图1随机初始化的FCM目标函数趋势图 籁 闼 皿 迭代次数 图2基于改进算法的FCM目标函数趋势图 5 结 语 现有的绝大多数FCM聚类算法中,在解决确定 聚类数目的问题上都采取了事先给定的方法,本文 引入了平均信息熵的概念来确定最佳聚类数目.实 验结果表明,采用此方法能够得到理想的结果.在聚 类数目已知的前提下,通过密度函数法来获得有效 的初始聚类中心.与随机初始化方法相比较,基于密 度函数的初始化法迭代次数少,收敛速度快,可以很 快达到所需要的最优解. 参考文献: 【1]DUNN J C.A Fuzzy Relative ofthe ISODATA Process and Its Use in Detecting Compact Well—separated Clusters[J].J.Cybemet— ics,1973,3(3):32—57. [2]BEZDEK J C.Pattern Recognition with Fuzzy Objective Function Algorithms[M].New York:Plenum Press,1981. [3] 王元珍,王健李,李晨阳.一种改进模糊聚类算法[J],华中 科技大学学报,2005,33(2):92—94. [4] CHIU s L.Fuzyz Model Identiifcation Basde on Cluster Estimation [J].Journal of Intelligent and Fuzzy Systems,1994,2(3):267 —278. [5]PAL N R,BEZDEK J C.On Cluster Validity for the Fuzzy C— means Model[J].IEEE Transactions on Fuzzy Systems,1995,3 (3):370—379. (编辑:王萍) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top