机器学习基础第二节

2125-于同学

发表文章数:45

热门标签

首页 » Python » 正文

降维 

减少特征数量

两种方法降维:

(1)特征选择 从中选择部分特征作为方法

单纯滴从提取到所有特征中选择部分特征作为训练集的特征,特征在选择前和选择后可以改变 值、可以可以不改变值,但是选择后的特征位数肯定比选择前小。

主要方法 过滤式filter   嵌入式 包裹式

过滤式 VarianceThreshold

主成分分析 PCA

sklearn.decomposition

特征数量达到上百个时候,考虑数据的简化问题

削减回归分析或者聚类分析中特征的数量,但是数据所包含的信息要损耗最少

高维数据容易出现的问题 数据之间都是相关联的

PCA.fit_transform(X)

经验:信息保存90%-95%比较好

其他降维方法:线性判别分析 LDA

机器学习基础

数据类型 离散型数据 连续性数据

离散型是区间内不可分,连续性是区间内可分

第一步 建立模型 根据数据类型划分应用种类 明确问题做什么

第二步 数据基本处理 pandas处理数据

第三步 特征工程 对特征进行处理 

第四步 找到合适的算法进行预测

 第五步 模型评估,判定效果

第六步 上线使用 以API形式提供

sklearn 数据集

数据集划分  训练集和测试集,一般分为7:3  8:2  建立模型和评估模型

sklearn.model_selection.train_test_split

sklearn.datasets 加载获取流行数据集

datasets.load_*()  获取小规模是聚集,数据包含在datasets里面

datasets.fetch_*(data_home=None)  获取大规模是聚集,需要从网络上下载,data_home标识数据集下载的目录

返回的数据类型datasets.base_Bunch(字典格式)

鸢尾花数据集 load_iris()     li = load_iris() 特征值 li.data  目标值 li.target  描述 li.DESCR

手写数字数据集 load_digits()

数据集分割 train_test_split

回归数据集 波士顿房价 load_boston() 

Transformer 转换器类

fit_transform 输入数据直接转换

transform 进行数据转换

估计器 sklearn.neighbors  k近邻  naive_bayes 贝叶斯  逻辑回归 linear_model

知道算法API有哪些参数要传

predict()得到预测值  

score()预测的准确率 

标签:

未经允许不得转载:作者:2125-于同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《机器学习基础第二节》 发布于2021-10-07

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录