下载此文档

pandas数据清洗，排序，索引设置，数据选取.doc

文档分类：办公文档 | 页数：约12页举报非法文档有奖

1/12

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/12 下载此文档

文档列表 文档介绍

pandas数据清洗，排序，索引设置，数据选取
此教程适合有pandas基础的童鞋来看，很多知识点会一笔带过，不做详细解释
Pandas数据格式
Series
DataFrame：每个column就是一个Series
基础属性shape,index,columns,values，dtypes，describe(),head(),tail()
统计属性Series： count(),value_counts()，前者是统计总数，后者统计各自value的总数
() df的空值为True
() df的非空值为True
修改列名
(columns = {'key':'key2'},inplace=True)
1234
更改数据格式astype()
isin #计算一个“Series各值是否包含传入的值序列中”的布尔数组
unique #返回唯一值的数组
value_counts #返回一个Series，其索引为唯一值，值为频率，按计数降序排列123
数据清洗
丢弃值drop()
(labels, axis=1)# 按列（axis=1），丢弃指定label的列,默认按行。。。1
丢弃缺失值dropna()
# 默认axi=0（行）；1（列），how=‘any’
()#每行只要有空值，就将这行删除
(axis=1)#每列只要有空值，整列丢弃
(how='all')# 一行中全部为NaN的，才丢弃该行
(thresh=3)# 每行至少3个非空值才保留12345
缺失值填充fillna()
(0)
({1:0,2:}) #对第一列nan值赋0，
(method='ffill') #在列方向上以前一个值作为值赋给NaN123
值替换replace()
# 将df的A列中 -999 全部替换成空值
df['A'].replace(-999, )
#-999和1000 均替换成空值
([-999,1000], )
# -999替换成空值，1000替换成0
([-999,1000], [, 0])
# 同上，写法不同，更清晰
({-999:, 1000:0})12345678
重复值处理duplicated()，unique()，drop_duplictad()
()#两行每列完全一样才算重复，后面重复的为True，第一个和不重复的为false，返回true
#和false组成的Series类型
('key')#两行key这一列一样就算重复
df['A'].unique()# 返回唯一值的数组（类型为array）
(['k1'])# 保留k1列中的唯一值的行，默认保留第一行
(['k1','k2'], take_last=True)# 保留 k1和k2 组合的唯一值的行，take_last=True 保留最后一行12345678
排序
索引排序
# 默认axis=0，按行索引对行进行排序；ascending=True，升序排序
()
# 按列名对列进行排序，ascending=False 降序
(axis=1, ascending=False) 1234
值排序
# 按值对Series进行排序，使用order()，默认空值会置于尾部
s = ([4, 6, , 2, ])
()
(by=['a','b'])#按列进行排序12345
排名
a=Series([7,-5,7,4,2,0,4])
()#默认method='average'，升序排名（ascending=True），按行（axis=0）
#average 值相等时，取排名的平均值
#min 值相等时，取排名最

pandas数据清洗，排序，索引设置，数据选取来自淘豆网www.taodocs.com转载请标明出处.

pandas数据清洗，排序，索引设置，数据选取.doc

pandas数据清洗，排序，索引设置，数据选取

数据存取哈希索引

数据表的排序和索引

数据存取哈希索引

数据存取_哈希索引

数据表的排序和索引

数据库排序与索引

数据库排序与索引-课件（PPT·精选）

数据库排序与索引（精选）

数据存取_哈希索引（精选）