机器学习深版01:数据清洗

1298-范同学

发表文章数:81

热门标签

首页 » 算法 » 正文

机器学习深版01:数据清洗

1.极大似然估计

机器学习深版01:数据清洗
独立同分布:P(x1,x2,x3)= P(x1) P(x2) P(x3)
不是的话:P(x1,x2,x3)= P(x1|x2,x3) P(x2|x3) P(x3)

1. 二项分布:抛硬币的例子

理解最大似然估计:就是找出p可以让P得到最大值
机器学习深版01:数据清洗
一般会取对数再进行运算
机器学习深版01:数据清洗

2. 高斯分布

认为他们是独立的,所以进行乘积。
机器学习深版01:数据清洗
机器学习深版01:数据清洗
机器学习深版01:数据清洗

3. 最大似然估计与过拟合

案例中取值5实际是:拉普拉斯平滑
机器学习深版01:数据清洗

2.数据清洗与特征选择

1. 庄家与赔率

机器学习深版01:数据清洗

2. Nagel-Schreckenberg交通流模型

机器学习深版01:数据清洗

3. Pandas数据读取与处理

没有详细说

4. Fuzzywuzzy字符串模糊查找

Levenshtein 距离:两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

5. 数据清洗和校正

鸢尾花数据集:

  1. 有特征值过多,显示上不好画图:方法就是画图:主成分分析PCA
    1. 其他特征在其他维度上投影,投影之后计算方差使得最大
    2. 用x的转置 * 它本身,得到一个对称矩阵,得到它的特征值和特征向量,然后得到这四个是两两垂直的,取这里面的最大值做主成分。
  2. 理解事先做一些降维工作,不是丢失信息:
    机器学习深版01:数据清洗
标签:

未经允许不得转载:作者:1298-范同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《机器学习深版01:数据清洗》 发布于2020-11-25

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录