特征工程 - 润新知

特征工程

数据-任务-模型-特征

特征：

特征是原始数据的数学表示，正确的特征应该与手头的任务相关并且容易被模型摄取。特征工程是指给定数据、模型和任务是制定最佳特征的过程。

模型评估：

在机器学习工作流程中，我们不仅挑选模型，还挑选特征。这是一个双节杆，一个选择会影响另一个。良好的特征使后续的建模步骤变得简单，并且所得到的模型能更容易实现所需的任务。糟糕的特征可能需要更复杂的模型才能达到相同的性能水平。在本书的其余部分中，我们将介绍不同类型的特征，并讨论它们对不同类型数据和模型的优缺点。

数字数据：

数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面，而且符合模型的假设。因此，转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数字特征时，它们可以被应用。

（1）数值数据的第一个健全检查是大小是否重要。

（2）考虑特征的规模。最大值和最小值是什么？它们跨越几个数量级吗？输入特性平滑的模型对输入的尺度敏感。

（3）考虑数值特征的分布也是很重要的。解决这一问题的一种方法是对数变换，这是一种功率变换，将变量的分布接近高斯。

特征缩放或归一化：

顾名思义, 特征缩放会更改特征值的数值范围。有时人们也称它为特征规范化。功能缩放通常分别针对单个特征进行。有几种常见的缩放操作, 每个类型都产生不同的特征值分布。

Min-max缩放

Min-max缩放压缩（或拉伸）所有特征值到[0, 1 ]的范围内。图2-15演示了这个概念。最小最大尺度的公式是

标准化（方差缩放）

减去特征 (所有数据点) 的平均值并除以方差。因此, 它也可以称为方差缩放。缩放后的特征的平均值为0, 方差为1。如果原始特征具有高斯分布, 则缩放特征为标准高斯。
相关阅读:
python数据结构之树（二叉树的遍历）
python数据结构之树（概述）
python面向对象高级：定制类
 python面向对象高级：Mixin多重继承
 frp
CentOS7 安装远程桌面
 Java-JVM 锁优化
 Java-内存模型 synchronized 的内存语义
 Java-内存模型 final 和 volatile 的内存语义
 Java-内存模型（JSR-133）
原文地址：https://www.cnblogs.com/lzq116/p/10431443.html