删除列
1 2
| df.drop([col1, col2], axis=1) df.drop(columns=[col1, col2])
|
删除行
1 2
| df.drop([index1, index2], axis=0) df.drop(index=[index1, index2])
|
查找唯一
按值筛选
1
| df[df[col].isin(['银行', '保险'])]
|
分类
1 2
| bins = [0, 10, 20, 30] pd.cut(df[col], bins, labels=[l1, l2, ...])
|
分为5个桶
长宽转换
原来的Index变成MultiIndex: (index1, col1), (index1, col2), (index1, col1), (index2, col2)
宽表转长表
平安银行 yoy_2019 yoy_2020 yoy_2021
1
| df.melt(id_vars=[col1], var_name=['year'], value_name='yoy')
|
长表转宽表
1
| df.pivot_table(index=[col1], columns=['year'], values=['yoy'])
|
apply()和applymap()
apply按列、行应用函数
分位数
相关性
date_range
1
| pd.date_range('2020-01-31', '2021-12-31', freq='M')
|
就会生成每个月最后一天的日期序列。