特征处理基本方法

1265-张同学

发表文章数:58

首页 » 算法 » 正文

知识点

  1. 数值型处理方法:
    • 归一化

      f

      n

      e

      w

      =

      f

      o

      l

      d

      f

      m

      a

      x

      f

      m

      i

      n

      f_{new} = /frac{f_{old}}{f_{max}-f_{min}}

      fnew=fmaxfminfold

    • 离散化
      • h

        θ

        (

        x

        )

        =

        1

        1

        +

        e

        θ

        x

        h_{/theta}(x) = /frac{1}{1+e^{-/theta x}}

        hθ(x)=1+eθx1

      • 等步长
      • 等频
        等频的离散化方法很精准,但需要每次都对数据分布做一次计算,因此需要每天更新。等步长固定,比较简单。都有应用。
  2. 类型特征处理:
  • one-hot 编码
  • label encoder
  1. 时间型特征:
    可以看作连续值或者离散值。
  • 连续值:
    • 持续时间
    • 间隔时间
  • 离散值:
    • 一天中哪个时间段
    • 一周中的星期几
    • 一年中哪个月/星期
    • 工作日/周末
  1. 统计数据:
  • 加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过多少。
  • 分位线:商品属于售出商品价位的分位线处。
  • 次序性:商品处于热门商品第几位。
  • 比例类:电商中商品的好/中/差评比例。

未经允许不得转载:作者:1265-张同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《特征处理基本方法》 发布于2021-02-13

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录