• 详解one-hot编码


    详解one-hot编码

    一、总结

    一句话总结:

    a、One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
    b、One-Hot编码实例:北京[1,0,0],上海[0,1,0],深圳[0,0,1]

    1、为什么需要one-hot编码?

    one-hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程

    二、详解one-hot编码

    转自或参考:详解one-hot编码
    https://www.cnblogs.com/shuaishuaidefeizhu/p/11269257.html"> 详解one-hot编码

    一、什么是one-hot编码?

    One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

    One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

    二、one-hot编码过程详解

    比如我们要对 “hello world” 进行one-hot编码,怎么做呢?

    1.确定要编码的对象--hello world,

    2.确定分类变量--h  e  l  l  o  空格  w  o  r  l  d,共27种类别(26个小写字母 + 空格,);

    3.以上问题就相当于,有11个样本,每个样本有27个特征,将其转化为二进制向量表示,

    这里有一个前提,特征排列的顺序不同,对应的二进制向量亦不同(比如我把空格放在第一列和a放第一列,one-hot编码结果肯定是不同的)

    因此我们必须要事先约定特征排列的顺序:

    1.、27种特征首先进行整数编码:a--0,b--1,c--2,......,z--25,空格--26

    2、27种特征按照整数编码的大小从前往后排列

    得到的one-hot编码如下:

    再比如:我们要对["中国", "美国", "日本"]进行one-hot编码,

    怎么做呢?

    1.确定要编码的对象--["中国", "美国", "日本", "美国"],

    2.确定分类变量--中国    美国    日本,共3种类别;

    3.以上问题就相当于,有3个样本,每个样本有3个特征,将其转化为二进制向量表示,

    我们首先进行特征的整数编码:中国--0,美国--1,日本--2,并将特征按照从小到大排列

    得到one-hot编码如下:

    ["中国", "美国", "日本", "美国"]  --->   [[1,0,0], [0,1,0], [0,0,1], [0,1,0]]

    三、为什么需要one-hot编码?

    one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

    上面的 hello world 相当于多分类的问题(27分类),每个样本只对应于一个类别(即只在对应的特征处值为1,其余地方值为0),而我们的分类结果,得到的往往是隶属于某个类别的概率,这样在进行损失函数(例如交叉熵损失)或准确率计算时,变得非常方便

    四、one-hot编码的缺陷

    one-hot编码要求每个类别之间相互独立,如果之间存在某种连续型的关系,或许使用distributed respresentation(分布式)更加合适。

     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    【C#4.0图解教程】笔记(第19章~第25章)
    【C#4.0图解教程】笔记(第9章~第18章)
    【C#4.0图解教程】笔记(第1章~第8章)
    平衡二叉树(AVL Tree)
    整数中1出现的次数(从1到n整数中1出现的次数)
    java实现回溯算法
    输入一个字符串,按字典序打印出该字符串中字符的所有排列。例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba。
    怎么用Markdown在github上写书,并用pages展示
    二叉搜索树与双向链表
    复杂链表的复制
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/13369873.html
Copyright © 2020-2023  润新知