0%

pandas常用函数操作

删除列

1
2
df.drop([col1, col2], axis=1)
df.drop(columns=[col1, col2])

删除行

1
2
df.drop([index1, index2], axis=0)
df.drop(index=[index1, index2])

查找唯一

1
df[col].unique()

按值筛选

1
df[df[col].isin(['银行', '保险'])]

分类

1
2
bins = [0, 10, 20, 30]
pd.cut(df[col], bins, labels=[l1, l2, ...])

分为5个桶

1
pd.qcut(df[col], 5)

长宽转换

1
df.stack()

原来的Index变成MultiIndex: (index1, col1), (index1, col2), (index1, col1), (index2, col2)

宽表转长表

平安银行 yoy_2019 yoy_2020 yoy_2021

1
df.melt(id_vars=[col1], var_name=['year'], value_name='yoy')

长表转宽表

1
df.pivot_table(index=[col1], columns=['year'], values=['yoy'])

apply()和applymap()

apply按列、行应用函数

分位数

1
pd.quantile([0.1, 0.2])

相关性

1
df[col1].corr(df[col2])

date_range

1
pd.date_range('2020-01-31', '2021-12-31', freq='M')

就会生成每个月最后一天的日期序列。