机器学习(一)数据清洗

587-王同学

发表文章数:79

热门标签

,
首页 » 算法 » 正文

贝叶斯公式

  • 给定某些样本,在这些样本中计算某结论A1,A2……An出现的概率,即P(Ai|D)
  • 计算这个p的最大值
    • 最后就是算
  • 最大似然估计
    • 用这个概率的最大值所对应的参数们,即最大似然估计

最大似然估计MLE

  • 假定样本是独立同分布的
  • 联合密度概率(同时发生)
    • 后面写出参数
  • 可以将θ看成是固定但未知的参数,所以L(x,θ)是关于θ的函数,即似然函数
  • 求参数θ的值,使得似然函数取最大值,这种方法就是最大似然估计
  • 实践操作
    • 先求对数log(相乘变成相加),求导,令导数为0,求驻点
    • 求出θ,找到对应的参数
  • 高斯分布
  • 最大似然估计与过拟合
    • 修正公式
    • 两边都加固定值

赔率

  • 赔率是给的赌徒的 本金的倍数,本金庄家收走
  • 算期望,概率*赔率*本金
  • y=1/p公平赔率
    • 庄家不赚不亏
    • 一般都会乘以一个α系数(0~1)

Pandas

  • Fuzzywuzzy包
    • 模糊查询和替换
    • Levenshtein distance距离

PCA主成分分析

  • 取出特征矩阵X
  • X转置*X
    • 对称矩阵
    • 求对称矩阵的特征值(实数)和特征向量(正交)
    • 求最大的特征值,即最主要的组分
  • 方差最大的方向
  • 分类
    • 线性
    • 特征两两组合
      • 曲线分类
    • 三三组合
      • 分的更好
    • 维度太高会造成过拟合

数据清洗

  • 设置阈值去掉异常值
  • 随机森林预测去掉点的数值加进去

onehot

  • 先将一个属性分成几个类别
  • 然后再将样本的数据变成矩阵01,1表示其所在类别
  • 会导致特征数增多

 

拜师教育学员文章:作者:587-王同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《机器学习(一)数据清洗》 发布于2020-03-26

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录