机器学习基础第五节

2125-于同学

发表文章数:45

热门标签

,
首页 » Python » 正文

逻辑回归 作用于二分类场景

输入和线性回归一样,多项式

sigmod函数 取值0-1范围

逻辑回归公式:机器学习基础第五节

 与线性回归原理相同,但由于是分类问题, 损失函数不一样,只能通过梯度下降求解

损失函数:机器学习基础第五节

均方误差只有一个最小值,不存在局部多个最小值点

对数似然损失:多个局部最小值

改善方法:多次随机初始化,多次比较最小值的结果;求解过程中调整学习率

12min

sklearn.linear_model.LogisticRegression

sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0) Logistic回归分类器 coef_:回归系数

LogisticRegression总结

应用:广告点击率预测、电商购物搭配推荐 优点:适合需要得到一个分类概率的场景 缺点:当特征空间很大时,逻辑回归的性能不是很好 (看硬件能力)
 

非监督学习 聚类

K-means

步骤:

1、随机设置K个特征空间内的点作为初始的聚类中心 2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类 中心点作为标记类别 3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平 均值) 4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行 第二步过程

sklearn.cluster.KMeans

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’) k-means聚类 n_clusters:开始的聚类中心数量 init:初始化方法,默认为'k-means ++’ labels_:默认标记的类型,可以和真实值比较(不是值比较)

轮廓系数:     计算公式:sc_i= b_i− a_i/max⁡(b_i,a_i)

Kmeans性能评估指标API:

sklearn.metrics.silhouette_score

sklearn.metrics.silhouette_score(X, labels) 计算所有样本的平均轮廓系数 X:特征值 labels:被聚类标记的目标值

特点分析:     采用迭代式算法,直观易懂并且非常实用 缺点:容易收敛到局部最优解(多次聚类)              需要预先设定簇的数量(k-means++解决)

未经允许不得转载:作者:2125-于同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《机器学习基础第五节》 发布于2021-10-11

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录