矩阵图非常有用,人们经常用它来查看多个变量之间的联系。
下面用著名的鸢尾花数据来画一个矩阵图。从sklearn导入鸢尾花数据,然后将其转换成pandas的DataFrame类型,最后用seaborn画图。(seaborn包里也有这个数据,也可以直接从seaborn包导入此数据)
矩阵图: sns.pairplot(data,hue=...) --- hue为data里的数据,用其来显示不同颜色
由于data需要的格式为每列是变量(在这里是鸢尾花的四个特征),每行则是各变量的观测数据,因此需要将从sklearn导入的初始数据转换格式。 数据转换好之后应如下所示(此处只截取部分):
sepal_length sepal_width petal_length petal_width species 0 5.1 3.5 1.4 0.2 setosa 1 4.9 3.0 1.4 0.2 setosa 2 4.7 3.2 1.3 0.2 setosa 3 4.6 3.1 1.5 0.2 setosa 4 5.0 3.6 1.4 0.2 setosa 5 5.4 3.9 1.7 0.4 setosa 6 4.6 3.4 1.4 0.3 setosa .. ... ... ... ... ... 120 6.9 3.2 5.7 2.3 virginica 121 5.6 2.8 4.9 2.0 virginica 122 7.7 2.8 6.7 2.0 virginica 123 6.3 2.7 4.9 1.8 virginica
完整代码如下:
import pandas as pd from sklearn.datasets import load_iris from matplotlib import pyplot as plt import seaborn as sns iris=load_iris() d=pd.DataFrame(iris.data,columns=["sepal_length","sepal_width","petal_length","petal_width"]) d["species"]=iris.target #增加一列,为鸢尾花的类别 d.loc[d["species"]==0,"species"]="setosa" #把类别这一列数值为0的替换为setosa d.loc[d["species"]==1,"species"]="versicolor" #把类别这一列数值为1的替换为versicolor d.loc[d["species"]==2,"species"]="virginica" #把类别这一列数值为2的替换为virginica sns.pairplot(d,hue="species") plt.show()
图像如下:
看第三行第四列的这幅图,可以看到petal_length和petal_width呈很强的正比关系。
seaborn官网上有更完整的示例,有兴趣可以查看:http://seaborn.pydata.org/generated/seaborn.pairplot.html。