1特征归一化
线性函数归一化:映射到(0,1)
零均值归一化:均值为0,标准差为1
优点:训练数据归一化后,容易更快地通过梯度下降找 到最优解。
当然,数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模 型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模 型。但对于决策树模型则并不适用。
2类别型特征
序号编码或者one-hot
3高维组合特征
把一阶离散特征两两组合,构成高阶组合特征
4文本表示类型
词袋和N-gram
word2vec
5其他
a如果某个特征当中有缺失值,缺失比较少的话,可以使用该特征的平均值或者其它比较靠谱的数据进行填充;缺失比较多的话可以考虑删除该特征。
b可以分析特征与结果的相关性,把相关性小的特征去掉。