NLP(17): 交叉验证,MAP vs MLE

1411-李同学

发表文章数:148

首页 » 算法 » 正文

1、NLP应用场景

Affective computing

  • 图像
  • 文本
  • 语音

2、情绪识别实战

  • 1、读取csv文件
  • 2、划分标签和特征
  • 3、训练数据和测试数据分割
  • 4、对x_train, y_train做tf-idf
  • 5、使用逻辑回归和网格搜索,超参数调参——使用GridSearchCV
  • 6、混淆矩阵——confusion_matrix

3、Cross validation

在训练集上,再划分验证集,使用验证集去对模型中的超参数进行调参,对于使用L2正则的logistics 回归,

λ

/lambda

λ为超参数。在训练集和验证集上进行k-folds 交叉验证,找到最好的超参数c。然后再对测试集进行测试。

  • lambda 越大时,正则起到的作用越大,它的参数w就会越来愈小
  • lambda越小时,正则起到的作用越小,参数w就会越来越大。

NLP(17): 交叉验证,MAP vs MLE

NLP(17): 交叉验证,MAP vs MLE
NLP(17): 交叉验证,MAP vs MLE

使用交叉验证选择超参数的步骤:

  • 将train_data 划分为k份,每一份都会有一次称为validation set的机会
  • 把每一个超参数带入k份数据,求出在该训练集验证集和该超参数情况下的准确率,做平均。
  • 把备选的每个超参数都带入,求k种情况下的平均准确率
  • 最后取最大准确率下的超参数为最优超参数

4、正则

加入正则后,求得到的参数带入原损失函数会让损失函数变大,可以理解为,损失函数越小,拟合程度越大,正则为了减少过拟合,对模型的训练变得不那么严格了,所以会让损失变大。

5、MLE vs MAP 介绍

  • MLE:优化给定参属下,最大化看到样本的概率
  • MAP:优化:后验概率,先验概率+MLE

对于贝叶斯学派,先验概率为正则。
先验概率可以给定参数服从某个分布:

  • 高斯分布
  • laplace 分布

后验概率通过观测数据会影响到先验概率

随着观测样本数量的增加,先验概率的重要性会降低
可以理解为当值有一个样本时,后验概率只依靠观测样本的极大似然估计是不足以很好的表达整个数据分布的特性的,这时候引入先验概率可以修正后验概率。当样本数量越累越多,极大似然估计对于后验概率会有很强大的代表性,此时先验概率就没那么重要了。

未经允许不得转载:作者:1411-李同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《NLP(17): 交叉验证,MAP vs MLE》 发布于2021-02-12

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录