• Word embedding


    目录

    1. 背景知识

    2. 如何实现word embedding?

    3. 预测架构来生成 word vector

    4. word vector的有趣现象

    5. 文章的编码

    1. 背景知识

    我们在处理语言之前,需要先把字符转化为向量,怎么做呢?

    clipboard

    word embedding的原理:

    一个词,可以后上下文找到这个词的语义。

    对了,这里有个小知识: “潮水” 中,潮是一个字,而“潮水”才是一个词。

    2. 如何实现word embedding?

    clipboard

    prediction based 的训练方式:

    如果问题集里面有十万个词,那么这个network 的输出就是一个十万维的向量。

    clipboard

    3. 预测架构来生成 word vector

    预测下文的预测模型来生成word vector

    clipboard

    clipboard

    clipboard

    一般上面的这个神经网络是一个一维的,提出者表示,没必要是deep的

    clipboard

    其他的预测模型

    clipboard

    4. word vector的有趣现象:

    clipboard

    clipboard

    5. 文章的编码

    方法一:bag of word

    clipboard

    把文章的bag of word 丢到auto-encoder里面就可以得到文章的embedding了

    但是词之间的顺序是很重要的,同样的bag of word 可能有不同的意思

    clipboard

    Reference:

    李宏毅,Unsupervised Learning: Word Embedding,http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

  • 相关阅读:
    Freefilesync-文件夹自动同步
    考研打卡_Day077
    考研打卡_Day076
    考研打卡_Day075
    考研打卡_Day074
    考研打卡_Day073
    考研打卡_Day072
    考研打卡_Day071
    考研打卡_Day070
    考研打卡_Day069
  • 原文地址:https://www.cnblogs.com/rainwelcome/p/11478202.html
Copyright © 2020-2023  润新知