机器学习之聚类(一) 原创

1280-金同学

发表文章数:53

首页 » 算法 » 正文

一、聚类定义

聚类定义:
聚类是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;
一种无监督学习
相似度计算方法总结:
机器学习之聚类(一)
                    原创
余弦相似度与Pearson相似系数:
机器学习之聚类(一)
                    原创
相关系数即将x、y坐标向量各自平移到原点后的夹角余弦;也可以说明文档间求距离使用夹角余弦——物理量表征了文档去均值化后的随机向量间相关系数;
聚类的基本思想:
机器学习之聚类(一)
                    原创

二、k-Means算法

k-Means算法定义:
机器学习之聚类(一)
                    原创
k-means分类数据过程样例图:
机器学习之聚类(一)
                    原创
k-Means公式化解释:
机器学习之聚类(一)
                    原创
k-Means聚类方法总结:
k-Means对初值选取敏感;可以作为其他聚类方法基础算法,如谱聚类;
k-Means优点:
解决聚类问题的经典算法,简单、快速;
对处理大数据集,该算法保持可伸缩性和高效率;
当簇近似为高斯分布时,效果较好;
k-Means缺点:
在簇的平均值可被定义情况下才能使用,可能不适用于某些应用;
必须事先给出K(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
不适合于发现非凸形状的簇或者大小差别很大的簇;
对噪声和孤立点数据敏感;

三、聚类衡量指标

Canopy算法:
机器学习之聚类(一)
                    原创
衡量指标:
机器学习之聚类(一)
                    原创
ARI定义: 机器学习之聚类(一)
                    原创
AMI定义:
机器学习之聚类(一)
                    原创
轮廓系数:
机器学习之聚类(一)
                    原创

未经允许不得转载:作者:1280-金同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《机器学习之聚类(一) 原创》 发布于2020-11-15

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录