基于孤立點(diǎn)自適應的K-means算法
摘要:孤立點(diǎn)的存在使聚類(lèi)中心的計算產(chǎn)生較大誤差,影響K-means算法的聚類(lèi)效果.針對該問(wèn)題,引入謝林模型,使孤立點(diǎn)能夠自動(dòng)移動(dòng)到其鄰居所在位置,消除孤立點(diǎn),同時(shí),對K-means算法過(guò)程中的距離計算、初始聚類(lèi)中心選取環(huán)節進(jìn)行改進(jìn),提出基于孤立點(diǎn)自適應的K-means算法.該算法首先對原始數據進(jìn)行歸一化處理,以提高距離計算的準確性;然后,根據謝林模型的基本思想,將孤立點(diǎn)移動(dòng)到其最近的多鄰鄰居;接著(zhù),由類(lèi)簇的數目確定鄰居樣本的搜索范圍,確定初始聚類(lèi)中心;最后,根據移動(dòng)后的數據集和初始聚類(lèi)中心,進(jìn)行K-means聚類(lèi).在UCI機器學(xué)習數據庫中經(jīng)典聚類(lèi)數據集上的實(shí)驗結果表明,該算法可顯著(zhù)提升聚類(lèi)的精度,同時(shí),簇的內聚性也比較好.
注: 保護知識產(chǎn)權,如需閱讀全文請聯(lián)系河南科學(xué)雜志社