python—缺失值可视化:missingno库 原创

1147-柳同学

发表文章数:593

首页 » 算法 » 正文

引言

当你碰到几个G甚至更大的数据时,如何查看结构化数据的缺失情况呢?总不能用excel表手动肉眼可视化吧?此时,就用到了missingno库
missingno库功能非常强大了!!!
下面展示missingno库的简单实用

代码

数据集提取码:1234

# 这个数据有6.19G
import missingno as mg
import pandas as pd
import numpy as np

try:
    # 加载数据特别快
    dtrain = pd.read_parquet('dtrain.parquet', engine='auto')
except:
    dtrain = pd.read_csv('../input/jane-street-market-prediction/train.csv', index_col='ts_id')
    # 缩小内存
    dtrain = dtrain.astype({c: np.float32 for c, t in dtrain.dtypes.items() if t == np.float64})
    # 转变成parquet格式
    dtrain.to_parquet('dtrain.parquet')
print('数据加载完成')
# 缺失值可视化—展示部分
# dtrain表示类型为dataframe的表格,sample(5000)表示抽取表格中5000个样本
mg.matrix(dtrain.sample(5000))

python—缺失值可视化:missingno库
                    原创
白线越多,代表缺失值越多!!!
python—缺失值可视化:missingno库
                    原创

python—缺失值可视化:missingno库
                    原创

生成热力图,来展示特征间的缺失关系

mg.heatmap(dtrain,figsize=(16,16))

python—缺失值可视化:missingno库
                    原创
当热度为1时,表明:当某一列特征出现缺失值时,另一列特征一定缺失

# 画组合图
msno.dendrogram(dtrain.iloc[:5000,:])

未经允许不得转载:作者:1147-柳同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《python—缺失值可视化:missingno库 原创》 发布于2021-02-05

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录