数据挖掘笔记
变量的类型
分类变量
分类变量可以分为有序和无序
无序:无程度之间的差别,如男女
有序:如小,中,大
分类、有序、定量变量...你清楚你的变量类型吗?
https://zhuanlan.zhihu.com/p/26941279
无序可以直接用皮尔逊
有序就用斯皮尔曼相关系数计算关系
斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data) - python风控模型的文章 - 知乎
https://zhuanlan.zhihu.com/p/398215987
数据预处理
虚拟变量处理
原因:
分类的变量,非等距变量,比如一者是另一者的5倍,但是对结果的影响不一定是对前者的五倍,要改写为onehot编码。
参考:
实际用法:
ordinal_columns = ['floor', 'rating']
for col in ordinal_columns:
dummies = pd.get_dummies(train[col], drop_first=False)
dummies = dummies.add_prefix("{}#".format(col))
train.drop(col, axis=1, inplace=True)
train = train.join(dummies)
归一化处理
模型建立
划分训练集、测试集
要知道交叉验证是个什么东西