python可视化
变量分布
hist是直方图的缩写,bins表示有多少个直方图。
df['col'].hist(bins=50, figsize=(12,5),grid=False)
sns.distplot(train['col'])
seaborn会自动拟合一条曲线。
双变量联系
画房屋面积和价格之间的x-y图
sns.jointplot(x='area_house', y='price', data=train, alpha=0.3, size=4)
或是直接查看Pearson系数:
columns = train.columns.values.tolist()
train.corr()['price'][columns].sort_values(ascending=False).plot(
kind='barh', figsize=(12,6)
)
解析一下,columns是列的名称,train.corr()返回一个DataFrame,里面全是corr,
选出其中的一个Series: train.corr()['price'][columns]
,排序以后,再画图。
离散变量和连续变量之间的关系
离散值对连续取值的影响程度。
比如构造二值,判断这个构造合不合理,就是看这个二值有没有区分度。
from scipy.stats import pointbiserialr
plt.figure(figsize=(15,6)) # 设置sns要画的大小
sns.boxplot(y='repaired', x = 'price', data=train, orient='h') #
会自动根据分的类计算不同类的箱线图。