机器学习算法基础(一)—–特征预处理

756-周同学

发表文章数:47

首页 » 算法 » 正文

一. 特征预处理

通过teddy的统计方法(数学方法)将数据转换成算法要求的数据

1. 特征处理的方法

数值型数据: 归一化,标准化,缺失值

  1. 归一化:
    机器学习算法基础(一)-----特征预处理
    注意:在特定场景下最大值最小值是变化的,另外最大值与最小值非常容易受异常点影响,所以这种方法robust较差,只适合传统精确小数据场景

  2. 标准化
    机器学习算法基础(一)-----特征预处理
    如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小
    在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景

  3. 缺失值
    删除: 如果每列或者行数据缺失值达到一定的比例,建议放弃整行或者整列
    插补:可以通过缺失值每行或者每列的平均值、中位数来填充

类别性数据: one-hot编码
事件类型:事件的切分

2. sklearn特征处理API

  1. sklearn归一化API:sklearn.preprocessing.MinMaxScaler
    机器学习算法基础(一)-----特征预处理
from sklearn.preprocessing import MinMaxScaler

def mm():
    '''归一化处理'''
    mm = MinMaxScaler()
    data = mm.fit_transform([[90,2,10,40],
[60,4,15,45],
[75,3,13,46]]
)
    print(data)

    return None

if __name__=='__main__':
    mm()
  1. sklearn 特征化API: sklearn.preprocessing.StandardScaler
    机器学习算法基础(一)-----特征预处理
from sklearn.preprocessing import StandardScaler

def ss():
    '''标准化处理'''
    mm = StandardScaler()
    data = mm.fit_transform([[ 1., -1., 3.],
[ 2., 4., 2.],
[ 4., 6., -1.]]

)
    print(data)

    return None

if __name__=='__main__':
    ss()
  1. sklearn缺失值API:sklearn.preprocessing.Imputer
    机器学习算法基础(一)-----特征预处理
from sklearn.preprocessing import Imputer
import numpy as np

def im():
    '''缺失值处理'''
    mm = Imputer()
    data = mm.fit_transform([[1, 2],
[np.nan, 3],
[7, 6]]
)
    print(data)

    return None

if __name__=='__main__':
    im()

拜师教育学员文章:作者:756-周同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《机器学习算法基础(一)—–特征预处理》 发布于2020-12-11

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录