详解one-hot编码

详解one-hot编码

详解one-hot编码

一、总结

一句话总结：

a、One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

b、One-Hot编码实例：北京[1,0,0]，上海[0,1,0]，深圳[0,0,1]

1、为什么需要one-hot编码？

one-hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程

二、详解one-hot编码

转自或参考：详解one-hot编码
https://www.cnblogs.com/shuaishuaidefeizhu/p/11269257.html"> 详解one-hot编码

一、什么是one-hot编码？

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

二、one-hot编码过程详解

比如我们要对 “hello world” 进行one-hot编码，怎么做呢？

1.确定要编码的对象--hello world，

2.确定分类变量--h e l l o 空格 w o r l d，共27种类别（26个小写字母 + 空格，）；

3.以上问题就相当于，有11个样本，每个样本有27个特征，将其转化为二进制向量表示，

这里有一个前提，特征排列的顺序不同，对应的二进制向量亦不同（比如我把空格放在第一列和a放第一列，one-hot编码结果肯定是不同的）

因此我们必须要事先约定特征排列的顺序：

1.、27种特征首先进行整数编码：a--0，b--1，c--2，......，z--25，空格--26

2、27种特征按照整数编码的大小从前往后排列

得到的one-hot编码如下：

再比如：我们要对["中国", "美国", "日本"]进行one-hot编码，

怎么做呢？

1.确定要编码的对象--["中国", "美国", "日本", "美国"]，

2.确定分类变量--中国美国日本，共3种类别；

3.以上问题就相当于，有3个样本，每个样本有3个特征，将其转化为二进制向量表示，

我们首先进行特征的整数编码：中国--0，美国--1，日本--2，并将特征按照从小到大排列

得到one-hot编码如下：

["中国", "美国", "日本", "美国"] ---> [[1,0,0], [0,1,0], [0,0,1], [0,1,0]]

三、为什么需要one-hot编码？

one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

上面的 hello world 相当于多分类的问题（27分类），每个样本只对应于一个类别（即只在对应的特征处值为1，其余地方值为0），而我们的分类结果，得到的往往是隶属于某个类别的概率，这样在进行损失函数（例如交叉熵损失）或准确率计算时，变得非常方便

四、one-hot编码的缺陷

one-hot编码要求每个类别之间相互独立，如果之间存在某种连续型的关系，或许使用distributed respresentation（分布式）更加合适。

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处
一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

博主25岁，前端后端算法大数据人工智能都有兴趣。

大家有啥都可以加博主联系方式（qq404006308，微信fan404006308）互相交流。工作、生活、心境，可以互相启迪。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

26岁，真心找女朋友，非诚勿扰，微信fan404006308，qq404006308

人工智能群：939687837

作者相关推荐

感悟总结

其它重要感悟总结

感悟总结200813 最近心境200830 最近心境201019 201218-210205
相关阅读:
【C#4.0图解教程】笔记(第19章~第25章)
【C#4.0图解教程】笔记(第9章~第18章)
【C#4.0图解教程】笔记(第1章~第8章)
平衡二叉树（AVL Tree）
整数中1出现的次数（从1到n整数中1出现的次数）
java实现回溯算法
 输入一个字符串,按字典序打印出该字符串中字符的所有排列。例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba。
怎么用Markdown在github上写书，并用pages展示
 二叉搜索树与双向链表
 复杂链表的复制
原文地址：https://www.cnblogs.com/Renyi-Fan/p/13369873.html

详解one-hot编码

详解one-hot编码

一、总结

一句话总结：

a、One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

b、One-Hot编码实例：北京[1,0,0]，上海[0,1,0]，深圳[0,0,1]

1、为什么需要one-hot编码？

one-hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程

二、详解one-hot编码

作者相关推荐