数据科学包学习第三天

1043-李同学

发表文章数:31

热门标签

首页 » 数据科学库 » 正文

一.索引与多重索引:

1.索引:
①.一维数组:
数据科学包学习第三天
首先创建一维数组s,索引为abced。
s.index为输出一维数组的索引,s.index.name="alpha"是为索引命名。

②.二维数组:
数据科学包学习第三天
创建二维数组,列索引为one,two,three。
df.index与df.columns分别为显示行索引与列索引。
df.columns.name="col"与df.index.name="row"分别为列索引命名为col,行索引命名为row。最终数出新的df。

③.重复索引:
数据科学包学习第三天
首先创建一维数组s,索引为abcbda,这是索引中出现重复的值,从第一个输出即可看出。
s.index.is_unique为判断该数组的索引是否唯一。
s.index.unique()为输出唯一的索引。
s.groupby(s.index).sum()为相同的索引值,则相加在一起,groupby后续会讲到。

2.多级索引:
①.一维数组:
数据科学包学习第三天
创建一维数组s,索引index为上面定义的index,输出的列表拥有一级索引和二级索引。当索引第一级时,则会输出一级索引所包含的二级索引。若只索引二级索引,则会输出全部的一级索引。

2.二维数组:
数据科学包学习第三天
创建二维数组,行索引与列索引都设置为多级索引。
df.loc[“a”]为输出df的第一级a索引。
df.loc[“a”,1]为输出df第一级索引a和第二级索引1.
df.swaplevel(“row-1”,“row-2”)为将列索引调换位置。
同时,还可以进行相加操作,df.sum(level=0)为第一级索引相加,即第二级索引中,a与b中的值相加,df.sum(level=1)为第二级索引相加。

数据科学包学习第三天
前一张图中所创建的多级索引过于繁琐,这张图中,可以像普通创建二维数组一样,当创建df后,可以将数组中所在的列的其中一个或者两个作为一级索引和二级索引。

二.分组计算:

分组计算三部曲:拆分 -> 应用 -> 合并
拆分:根据什么进行分组?
应用:每个分组进行什么样的计算?
合并:把每个分组的计算结果合并起来。
数据科学包学习第三天
①.按行分组:
数据科学包学习第三天
创建二维数组df,可以按行分组,df[“data1”].groupby(df[“key1”]).sum()为按照key1进行行分组后,data1进行相加。还可以自己设定分组标准,如key_1。同时,还可以两级分组,df[“data1”].groupby([df[“key1”],df[“key2”]]).sum()
数据科学包学习第三天
可以使用字典,如上图,以key1进行分组,分为a,b两组,则a,b为键,剩下的为值。

②.按列分组:
数据科学包学习第三天
按照列的类型进行分组,int型相加,object型合并。

③.根据字典分组:
数据科学包学习第三天
创建二维数组,并将第二行的第二列和第三列设为NaN值,设置mapping映射,键为columns,最后案列分组,得到如图的结果。

④.多级索引分组:
数据科学包学习第三天
创建df二维数组,列索引分为一级索引和二级索引,可以按一级索引进行分类,也可以按二级索引进行分类,但必须加上axis=1,按列操作。

三.数据聚合

①.内置函数:
数据科学包学习第三天
创建二维数组,可以利用groupby进行分组后,利用内置函数,如sum(),mean(),describe()等进行操作,还可以自定义函数,如图中的peak_range()指输出最大值与最小值之差。分类后的每一列都可以进行不同的操作,比如第一列做mean,和peak_range,第二列做求和,就可以定义一个字典,如图中的d,最后利用agg函数进行操作。

②.聚合:
数据科学包学习第三天
创建二维数组df,利用groupby以key1进行分组后求mean,最后将该表格加入到原先df的后面,有两种方法,第一种用merge过于复杂,即pd.merge(df,k1_mean,left_on=‘key1’,right_index=True)。第二种为利用transform,先进行分组求mean,k1_mean=df.groupby(‘key1’).transform(np.mean).add_prefix(‘mean’),再合并df[k1_mean.columns]=k1_mean。

四.时间序列:

①.datetime:
数据科学包学习第三天
②.时间序列:
数据科学包学习第三天
可以是用datetime一个一个设定时间日期datetime(xxxx,xx,xx)。还可以使用date_range来设定。

③.时期(范围):
数据科学包学习第三天
④.时间重采样:
时间戳与时期相互转换
数据科学包学习第三天
数据科学包学习第三天
对日期进行重采样,例如原本是一分钟采样数据,最后改变为五分钟采样一次数据,聚合方式改为sum。

五.数据可视化

①.利用数组画折线图:
数据科学包学习第三天
ts.plot()可以直接画出数组中的数据,plot()可以设置参数,比图片大小,画图颜色,单独画出每一列的图形,或者自己选择横坐标纵坐标。

②.利用数组画柱状图,散布图,饼状图
数据科学包学习第三天
1.df.plot.bar(),或者df.plot(kind=‘bar’)都是画出柱状图的命令。
2.df.plot.hist() 为画出直方图,参数可以有bins,意思为几个柱子,alpha设定参数,可将图片变透明。
3.df.plot.kde()为画出该数组的概率密度
4.df.plot.scatter(x=‘A’,y=‘B’)是画出散布图,横坐标和纵坐标由自己设定。
5.s.plot.pie()是画出饼状图,参数labels可以修改标签,autopec是保留几个小数。

未经允许不得转载:作者:1043-李同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《数据科学包学习第三天》 发布于2020-08-10

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录