机器学习中为何要使用独热编码 one-hot

背景

接触tensorflow时，学习到mnist，发现处理数据的时候采取one-hot编码，想起以前搞FPGA状态机遇到过格雷码与独热码。

解析：

将离散型特征使用one-hot编码，确实会让特征之间的距离计算更加合理。

比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值。
不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。
那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。
如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2)：即每两个工作之间的距离是一样的，显得更合理。

相关阅读:
容器镜像服务联手 IDE 插件，实现一键部署、持续集成与交付
阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践
4 个概念，1 个动作，让应用管理变得更简单
从零开始入门 | Kubernetes 中的服务发现与负载均衡
最佳实践 | 数据库迁云解决方案选型 & 流程全解析
Thumbnail 图片帮助
验证码-WebVcode
访问者（Visitor）模式
享元（Flyweight）模式
中介者（Mediator）模式

原文地址：https://www.cnblogs.com/schips/p/12154216.html

机器学习中 为何要使用 独热编码 one-hot

背景

解析：

机器学习中为何要使用独热编码 one-hot