Mleon的头像

K均值聚类

Kmeans
Kmeans
本节内容
本节内容
数据分组
数据分组
1:定K值
1:定K值
2:选中心
2:选中心
3:算距离
3:算距离
4:分配点
4:分配点
5:算均值
5:算均值
评估方式
评估方式
迭代至最优
迭代至最优
肘部法则
肘部法则
对比层次聚类
对比层次聚类
二维计算
二维计算
热力图计算
热力图计算
高维计算
高维计算
StatQuest
StatQuest
单集封面
单集封面

K均值聚类

11-01
1 次观看
Mleon的头像
Mleon
粉丝:174
主题:1
描述:12
例子:1
广告:1
其他:1
字数:1806

K均值聚类

StatQuest: K-means clustering

11-01
1 次观看
Mleon的头像
Mleon
粉丝:174
Mleon的头像
Mleon
粉丝:174
主题:1
描述:12
例子:1
广告:1
其他:1
字数:1806

Kmeans

开头 本节内容

链接: https://youtu.be/4b5d3muPQmA?si=eylaj710mOof_QHC

统计大冒险统计 统计大冒险 统计大冒险大家好我是约什·斯塔默,欢迎来到《统计大冒险》今天我们将探讨K均值聚类算法我们将学习如何对样本进行聚类分析这些样本可以呈现在直线坐标系二维坐标图甚至是热力图中最后我们还将讨论如何选择最佳的K值

数据分组

假设你有一些可绘制在直线上的数据,且需要将其分为三个集群这些可能是来自三种不同肿瘤或细胞类型的测量数据在这个案例中数据自然形成了三个相对明显的集群但与其依赖肉眼判断我们来看看如何让计算机识别出同样的三个集群为此我们将采用K均值聚类算法

1:定K值

首先从尚未聚类的原始数据开始第一步确定你希望在数据中识别的集群数量这个数值就是K在K均值聚类中在本案例中我们选择K=3也就是说我们需要识别三个集群其实还有更复杂的方法来确定K值这个我们稍后再讨论

2:选中心

第二步随机选择三个不同的数据点这些就是初始聚类中心

3:算距离

第三步测量第一个点与三个初始聚类中心的距离这是第一个点到蓝色聚类中心的距离,到绿色的距离这是到橙色聚类中心的距离这个颜色偏黄但暂时就称它橙色吧

4:分配点

第四步将第一个点分配给最近的聚类中心在本例中最近的是蓝色聚类中心现在对下一个点进行相同操作测量距离后将点分配给最近的聚类中心接着确定第三个点的归属集群测量距离后将点分配给最近的聚类中心其余这些点最接近橙色聚类中心因此也归入该集群当所有点都完成集群分配后

5:算均值

我们进入第五步计算每个聚类的均值然后重复刚才的操作使用均值重新进行测量和聚类由于上次迭代中聚类结果完全没有变化,至此完成

评估方式

与我们手动操作相比,K均值聚类效果相当不理想我们可以通过累加各聚类内部变异度来评估聚类质量这是所有聚类的总变异度由于K均值聚类无法识别最佳聚类方案它只能记录这些聚类及其总变异度,并用不同起始点重新开始整个过程

迭代至最优

现在我们重新开始回到初始步骤K均值聚类选取三个初始聚类中心后进行聚类计算每个聚类的均值然后重新聚类基于新的均值中心不断重复直到聚类结果稳定完成数据聚类后我们计算每个聚类内部的变异度之和然后重新开始整个过程至此K均值聚类知道第二次聚类是目前最佳方案但无法确定是否为全局最优解因此会继续尝试更多聚类方案它会执行您设定的迭代次数最终返回表现最佳的聚类结果

肘部法则

问题在于:如何确定K值?对于当前数据,显然应设置K=3但其他情况下可能难以判断解决方法之一是尝试不同的K值

从K=1开始尝试K=1是最不理想的情况可以通过总变异度量化其效果

接着尝试K=2K=2的效果更好通过比较两个聚类与K=1时的总变异度可以量化改进程度

然后尝试K=3K=3的效果更优通过比较三个聚类与K=2时的总变异度可以量化提升幅度

现在尝试K=4每个聚类的内部变异度比K=3时更小每增加一个聚类各聚类的内部变异度都会减小当每个聚类只包含一个数据点时变异度将为零

然而如果绘制不同K值对应的变异度下降曲线会发现K=3时变异度急剧下降但在此之后变异度的下降速度明显减缓这种图表被称为肘部曲线图您可以通过寻找图中的"拐点"来确定最佳K值

对比层次聚类

问题来了K均值聚类与层次聚类有何不同?K均值聚类会严格按照设定的聚类数目进行划分而层次聚类仅展示两两相似度关系显示哪些数据点最为相似

二维计算

再问如果数据不在一维数轴上呢?方法与之前类似随机选取三个初始点在二维空间中使用欧几里得距离计算欧几里得距离即勾股定理的应用接着沿用相同原理将各点分配至最近的聚类中心按照相同步骤重新计算每个聚类中心并再次聚类完成虽然结果看似理想但计算机需要多次迭代才能确认最优解

热力图计算

问题继续如果数据是热图形式呢?其实若只有两个样本可将其重命名为X和Y坐标就能在XY坐标系中绘制数据点然后照常进行聚类分析

高维计算

注意实际聚类时无需可视化数据点只需计算数据点之间的距离对于两个样本或二维坐标欧氏距离等于X平方加Y平方的开方(原句表述不清,应为坐标平方和的开方)当存在四个样本或四维坐标时欧氏距离计算公式为各坐标平方之和的开方即√(x²+y²+z²+a²) 依此类推

StatQuest

太棒了我们又完成了一次精彩的探索之旅如果您喜欢本系列内容欢迎订阅频道若想支持我们的工作点击下方点赞按钮,也可购买我的原创歌曲下次探索之旅,我们再会!

讨论
随记
AI 助理