下载此文档

pandas数据清洗,排序,索引设置,数据选取.doc


文档分类:办公文档 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
pandas数据清洗,排序,索引设置,数据选取
此教程适合有pandas基础的童鞋来看,很多知识点会一笔带过,不做详细解释
Pandas数据格式
Series
DataFrame:每个column就是一个Series
基础属性shape,index,columns,values,dtypes,describe(),head(),tail()
统计属性Series: count(),value_counts(),前者是统计总数,后者统计各自value的总数
() df的空值为True
() df的非空值为True
修改列名
(columns = {'key':'key2'},inplace=True)
1234
更改数据格式astype()
isin #计算一个“Series各值是否包含传入的值序列中”的布尔数组
unique #返回唯一值的数组
value_counts #返回一个Series,其索引为唯一值,值为频率,按计数降序排列123
数据清洗
丢弃值drop()
(labels, axis=1)# 按列(axis=1),丢弃指定label的列,默认按行。。。1
丢弃缺失值dropna()
# 默认axi=0(行);1(列),how=‘any’
()#每行只要有空值,就将这行删除
(axis=1)#每列只要有空值,整列丢弃
(how='all')# 一行中全部为NaN的,才丢弃该行
(thresh=3)# 每行至少3个非空值才保留12345
缺失值填充fillna()
(0)
({1:0,2:}) #对第一列nan值赋0,
(method='ffill') #在列方向上以前一个值作为值赋给NaN123
值替换replace()
# 将df的A列中 -999 全部替换成空值
df['A'].replace(-999, )
#-999和1000 均替换成空值
([-999,1000], )
# -999替换成空值,1000替换成0
([-999,1000], [, 0])
# 同上,写法不同,更清晰
({-999:, 1000:0})12345678
重复值处理duplicated(),unique(),drop_duplictad()
()#两行每列完全一样才算重复,后面重复的为True,第一个和不重复的为false,返回true
#和false组成的Series类型
('key')#两行key这一列一样就算重复
df['A'].unique()# 返回唯一值的数组(类型为array)
(['k1'])# 保留k1列中的唯一值的行,默认保留第一行
(['k1','k2'], take_last=True)# 保留 k1和k2 组合的唯一值的行,take_last=True 保留最后一行12345678
排序
索引排序
# 默认axis=0,按行索引对行进行排序;ascending=True,升序排序
()
# 按列名对列进行排序,ascending=False 降序
(axis=1, ascending=False) 1234
值排序
# 按值对Series进行排序,使用order(),默认空值会置于尾部
s = ([4, 6, , 2, ])
()
(by=['a','b'])#按列进行排序12345
排名
a=Series([7,-5,7,4,2,0,4])
()#默认method='average',升序排名(ascending=True),按行(axis=0)
#average 值相等时,取排名的平均值
#min 值相等时,取排名最

pandas数据清洗,排序,索引设置,数据选取 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人好用的文档
  • 文件大小38 KB
  • 时间2021-07-26