1、df.describe():该函数主要对数据进行一个基本的统计,输出数据的总数量(count)、平均值(mean)、标准差(std)、最小值和最大值(min、max)、分位数(四分位)
2、sort_values(by="列名/行名"):对该列或该行进行值排序
3、df.replace(to_replace="?",value=np.nan) :这个函数主要将df数据中的?替换为标准缺失值表示。
4、DataFrame.
dropna
(axis=0, how='any', thresh=None, subset=None, inplace=False)
功能:根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值的容忍度
参数:axis : {0 or ‘index’, 1 or ‘columns’},或 tuple/list
how : {‘any’, ‘all’}
any : 如果存在任何NA值,则放弃该标签
all : 如果所有的值都为NA值,则放弃该标签
thresh : int, 默认值 None
int value :要求每排至少N个非NA值
subset : 类似数组
inplace : boolean, 默认值 False
如果为True,则进行操作并返回None。
返回:被删除的DataFrame
5、dataframe.shape:输出dataframe的行和列。
6、df.groupby(['列名']).cumcount():正序(倒序)