pandas.Series 的一些方法:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.corr.html
- plt.subplots():将 plt.figure 创建的画板,分割成多个子图(clos——列、rows——行);
- plt.figure(figsize=(15,5)):创建一个图形实例,俗称话本,在这个画板上绘制几行几列的图;figsize 表示图形的(宽,高);
- sns.barplot():绘制不同Series之间的相关性图
- figure、subplot 的使用,参考:https://blog.csdn.net/claroja/article/details/70841382
- pd.concat(df1, df2):连接两个DataFrame 数据集;
- df1.loc[[0, 2, 3], :]:删除数据 df1的第0、2、3 行;
- df1.loc[:, [0, 2, 3]]:删除数据 df1的第0、2、3 列;
- df2 = df1.reset_index():将 df1 的每行的引索(Id)保留,以列名做为新的 index,生成新的数据 df2;(一般默认以行做引索)
- df3 = df1.reset_index(drop=True):drp = True,删除 df1 的行引索,一列名作为新的 index,生成新的数据 df3;
- df1.dtypes(include=None, exclude=None):按类型查看数据 df1 中的其它数据;
- df1.dtypes[df1.dtypes == 'object']:查看 df1 数据中,类型为 'object' 类型的数据;
- df1.index:返回数据 df1 的引索对象;
- df1.index.values:以 array 的形式返回 df1 的引索的值;(多用于获取所有的特征,也就是 df1 的所有列名)
- stats.probplot():
- DataFrame 中 sort_values():
- Seaborn 中的箱型图:
- 箱型图:统计学中应用
- 四等分点:
- 方差齐次验证:如何理解线性回归中的方差齐性;
- 方差分析:统计学知识;参考百科自学
- 协方差:
- scipy.stats 模块:
- f, p = scipy.stats.f_oneway(sample1, sample2, ...):单向方差分析,入参是分好组的多个 array;
- 单向方差分析:计算各组数据间的差异性,统计学知识,参考百科;
- df1.isnull():判断 df1 的数据是否为 np.NaN 类型;返回 bool 类型,是则为 True,不是返回 False;
- Series1.corr(Series2, method='pearson', min_periods=None):计算 Series1 和 Series2 之间的相关性(不包含数据中的缺失值);(采用了方差的分析思路)参考pandas文档;
- DataFrame.corr(method='pearson', min_periods=None):计算 DataFrame 的协方差关联程度;
- sns.heatmap():绘制热力图;
- DataFrame.nlargest(n, 'columns1'):从数据 DataFrame 的 ‘columns1’ 列中,找出数值最大的 n 个数所在行,返回一个新的 DataFrame;
- sns.pairplot():绘图
- train.sort_values(by='GrLivArea', ascending=False)[:2][['Id', 'GrLivArea', 'SalePrice']]:按 ‘GrLivArea’ 列的数值对 train 从大到小排序(ascending=False 表示从大到小),并且查看排序后的数据集的前 2 行的列名是 ['Id', 'GrLivArea', 'SalePrice'] 的数据;
- DataFrame[:n][['columns1', 'columns2', 'columns3']]:查看数据的前 n 行的列名为 ['columns1', 'columns2', 'columns3'] 的数据;
- “偏度 - 峰度” 检验法:
- 偏度:统计学知识
- 峰度:统计学知识;
- DataFrame.apply():
- dataframe.fillna():
- Series.to_dict():
- DataFrame.gtoupby():
- 学习《Python 科学计算》:做数据处理的;