NLP(16): 过拟合和正则

1411-李同学

发表文章数:148

首页 » 算法 » 正文

1、L2-Norm

正则的意义:不要让损失函数完全等于0,损失函数完全等于0时,在训练集上表现太好会导致过拟合现象产生,且对于逻辑回归,参数w的值会趋于正无穷。加入正则项,可以使参数的w变小,使其模型生成的拟合曲线变得平滑。

  • λ

    /lambda

    λ:超参数, weighting factor
    超参数大的时候,w会变小
    超参数很小的时候,w会变得很大

  • L2-norm的值取参数二范式的平方

NLP(16): 过拟合和正则
对于超参数的选择,一般使用交叉验证

L2-Norm下的梯度下降

NLP(16): 过拟合和正则

2、模型复杂度与过拟合

NLP(16): 过拟合和正则

  • 模型过于简单,容易欠拟合,不容易过拟合,bias可能过大,但方差会很小
  • 模型过于复杂,不容易欠拟合,极其容易过拟合,bias会很小,但方差会很大。

Generalization Capability(泛化能力)

使用训练数据构建模型
test data可以理解为未来数据,希望构建的模型可以在未来数据上也可以表现得很好。
泛化能力:不会出现很严重的过拟合,不要选择复杂度特别高的模型

如何选择模型的复杂度

  • 模型本身的选择
  • 模型的参数个数
    如果选择神经网络,需要去设计神经网络的结构,不同的结构包含的参数个数不同,神经网络的参数量是巨大的
  • 模型的参数空间选择,每个参数的dim
    通过正则可以选择到一些让模型比较简单的参数。
  • 模型拟合过少的样本, 样本太少,且样本不具有代表性

模型复杂度和error rate在train data和test data上的关系

NLP(16): 过拟合和正则
横坐标可以考虑的范围:

  • 模型参数
  • 正则,lambda,越大,模型越简单
  • 迭代次数

3、如何避免过拟合

  • 模型本身的选择:选择更简单的模型
  • 模型的参数个数:选择更少的参数
  • 模型的参数空间选择:使用正则,使得参数的值变小:|w|变小
  • 模型拟合过少的样本:more sampling

4、正则, L1 vs L2

  • L0:只选择其中一个
  • L1:使用w里每个w的绝对值的和
  • L2:使用w的二范式平方
  • nuclear norm:限制矩阵的秩

NLP(16): 过拟合和正则

  • L1和L2的共同作用:都可以使参数w的magnitude变小
  • L1会产生稀疏解,很多的参数会直接变成0
  • L2不会产生稀疏解

NLP(16): 过拟合和正则

elastic net

NLP(16): 过拟合和正则

未经允许不得转载:作者:1411-李同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《NLP(16): 过拟合和正则》 发布于2021-02-11

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录