23个Pandas核心方法
- 读取 CSV 格式
pd.read_csv(“csv_file”)
pd.DataFrame.from_csv(“csv_file”)
- 读取 Excel
pd.read_excel("excel_file")
- 将 DataFrame 写入 CSV 文件
df.to_csv("data.csv", sep=",", index=False)
- 显示基本的数据集特征信息
df.info()
- 基本的数据集统计信息
print(df.describe())
- 将 DataFrame 输出到一张表
print(tabulate(print_table, headers=headers))
- 列出所有列的名字
df.columns
- 删除缺失数据
df.dropna(axis=0, how='any')
- 替换缺失数据
df.replace(to_replace=None, value=None)
- 检查空值 NaN
pd.isnull(object)
- 删除特征
df.drop('feature_variable_name', axis=1)
- 将目标类型转换为浮点型
pd.to_numeric(df["feature_name"], errors='coerce')
- 将 DataFrame 转换为 NumPy 数组
df.as_matrix()
- 取 DataFrame 的前面「n」行
df.head(n)
- 通过特征名取数据
df.loc[feature_name]
- 对 DataFrame 使用函数
df["height"].apply(*lambda* height: 2 * height)
def multiply(x): return x * 2 df["height"].apply(multiply)
- 重命名行(重命名第三行)
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
- 取某一行的唯一实体
df["name"].unique()
- 访问子 DataFrame
new_df = df[["name", "size"]]
- 总结数据信息
# Sum of values in a data frame df.sum() # Lowest value of a data frame df.min() # Highest value df.max() # Index of the lowest value df.idxmin() # Index of the highest value df.idxmax() # Statistical summary of the data frame, with quartiles, median, etc. df.describe() # Average values df.mean() # Median values df.median() # Correlation between columns df.corr() # To get these values for only one column, just select it like this# df["size"].median()
- 给数据排序
df.sort_values(ascending = False)
- 布尔型索引(过滤size的行,仅显示等于5的行)
df[df["size"] == 5]
- 选定特定的值(选size列,第一行的值)
df.loc([0], ['size'])
print(df.describe())