CtrlK

社群论坛拆分学习

K均值聚类

Kmeans

本节内容

数据分组

1:定K值

2:选中心

3:算距离

4:分配点

5:算均值

评估方式

迭代至最优

肘部法则

对比层次聚类

二维计算

热力图计算

高维计算

StatQuest

K均值聚类

2025-11-01

3 次观看

Mleon

粉丝：174

主题：1

描述：12

例子：1

广告：1

其他：1

段落：14

字数：1806

K均值聚类

StatQuest: K-means clustering

2025-11-01

3 次观看

Mleon

粉丝：174

Mleon

粉丝：174

主题：1

描述：12

例子：1

广告：1

其他：1

段落：14

字数：1806

Kmeans

开头本节内容

链接： https://youtu.be/4b5d3muPQmA?si=eylaj710mOof_QHC

统计大冒险统计统计大冒险统计大冒险大家好我是约什·斯塔默，欢迎来到《统计大冒险》今天我们将探讨K均值聚类算法我们将学习如何对样本进行聚类分析这些样本可以呈现在直线坐标系二维坐标图甚至是热力图中最后我们还将讨论如何选择最佳的K值

数据分组

假设你有一些可绘制在直线上的数据，且需要将其分为三个集群这些可能是来自三种不同肿瘤或细胞类型的测量数据在这个案例中数据自然形成了三个相对明显的集群但与其依赖肉眼判断我们来看看如何让计算机识别出同样的三个集群为此我们将采用K均值聚类算法

1:定K值

首先从尚未聚类的原始数据开始第一步确定你希望在数据中识别的集群数量这个数值就是K在K均值聚类中在本案例中我们选择K=3也就是说我们需要识别三个集群其实还有更复杂的方法来确定K值这个我们稍后再讨论

2:选中心

第二步随机选择三个不同的数据点这些就是初始聚类中心

3:算距离

第三步测量第一个点与三个初始聚类中心的距离这是第一个点到蓝色聚类中心的距离，到绿色的距离这是到橙色聚类中心的距离嗯这个颜色偏黄但暂时就称它橙色吧

4:分配点

第四步将第一个点分配给最近的聚类中心在本例中最近的是蓝色聚类中心现在对下一个点进行相同操作测量距离后将点分配给最近的聚类中心接着确定第三个点的归属集群测量距离后将点分配给最近的聚类中心其余这些点最接近橙色聚类中心因此也归入该集群当所有点都完成集群分配后

5:算均值

我们进入第五步计算每个聚类的均值然后重复刚才的操作使用均值重新进行测量和聚类由于上次迭代中聚类结果完全没有变化，至此完成

评估方式

与我们手动操作相比，K均值聚类效果相当不理想我们可以通过累加各聚类内部变异度来评估聚类质量这是所有聚类的总变异度由于K均值聚类无法识别最佳聚类方案它只能记录这些聚类及其总变异度，并用不同起始点重新开始整个过程

迭代至最优

现在我们重新开始回到初始步骤K均值聚类选取三个初始聚类中心后进行聚类计算每个聚类的均值然后重新聚类基于新的均值中心不断重复直到聚类结果稳定完成数据聚类后我们计算每个聚类内部的变异度之和然后重新开始整个过程至此K均值聚类知道第二次聚类是目前最佳方案但无法确定是否为全局最优解因此会继续尝试更多聚类方案它会执行您设定的迭代次数最终返回表现最佳的聚类结果