机器学习浅层概念

1382-小龙虾

发表文章数:6

热门标签

首页 » 算法 » 正文

什么是建模(或机器学习)

建模是指利用模型学习已知结果的数据集中的变量特征,通过一系列方法提高模型的学习能力,最终对一些结果未知的数据集输出相应的结果.

可以表达成 y=f(x)  其中x代表样本的特征, y是输出的结果

 

数据集分类

训练集、验证集、测试集

训练集: 结果已知,用于模型训练拟合的数据样本, 占总体的70%~80%

验证集:结果已知,不参与模型训练的拟合过程, 用于验证已经训练过的模型效果.同时对模型中的超参数进行选择

测试集:结果未知,测试机器训练结果的准确性,或是利用模型输出结果的数据集

测试机与训练集最好独立分割,不可重复使用.

模型在真实数据上预测的结果误差越小越好。模型在真实环境中的误差叫做泛化误差最终的目的是希望训练好的模型泛化误差越低越好

 

评价指标TP/FP/FN/TN

  • True positive(TP): 真正例,将正例正确预测为正例数;
  • False positive(FP): 假正例,将负例错误预测为正例数;
  • False negative(FN):假负例,将正例错误预测为负例数;
  • True negative(TN): 真负例,将负例正确预测为负例数。

P/N代表预测值,如预测值与真实值一样,则是真x例,反之是假x例。

 

文字模型、图片模型、策略分析

文字模型:用于机器检测语料中的命中目标: 大多是文字、语句、关键词,多应用于对文字语料爬取信息等进行风险识别、黑词识别等

图片模型:用于机器检测图片中的命中目标: 也可对艺术字,变体字进行识别,或识别对图片中的敏感标志、人物、政治宗教、风险物品进行捕捉、定位、识别

策略分析:在明确策略应用场景, 通过验证策略命中数据是否正确,分析策略误杀数据的特征.给出优化方案

 

模型的泛化与拟合

泛化: 指机器学习算法对新鲜样本的适应能力。 学习目的是学到隐含在数据背后的规律,对具有同一规律的测试集以外的数据,经过训练也能给出合适的输出,该能力称为泛化能力。即 : 经训练样本训练的模型需要对新样本做出合适的预测,这是泛化能力的体现

欠拟合:泛化能力弱,新题老题不会做
       过拟合:泛化能力弱,遇到新题就懵逼
       不收敛:新题旧题全靠猜
       拟   合:学霸,新题旧题大概率都可做出来

机器学习浅层概念

 

模型的准确率、召回率、正确率

(二分类问题中的重要指标,其中语料同样本)

模型准确率:机器分类正确的正例样本 分类为正例样本总数中的比例 

分类为正例样本包括 : 真正例TP +  假正例FP(将负例判断成正例)

precision = TP/(TP+FP)   

 

模型召回率:机器分类正确的正例样本 占 真正正例样本总数的比例

真正正例样本总数包括: 真正例TP+ 假负例(将正类错误判断为负类数)

Recall  =   TP/(TP+FN)   

 

模型正确率:指机器分类判断正确的数量

accuracy  =   TP+TN /  (TP+FN+FP+TN)   

模型衰减与模型迭代

模型衰减:如随着时间的推移和线上素材的复杂性和多样性,机器训练模型的准确性会慢慢衰减.  其他应用场景暂不涉及

模型迭代:为了避免模型衰减带来应用效果结果不准确,通过定期的语料样本迭代,优化机器模型,保证模型应用效果

 

以上持续更新中

 

 

 

 

 

 

 

标签:

未经允许不得转载:作者:1382-小龙虾, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《机器学习浅层概念》 发布于2020-12-12

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录