• 自然语言处理词向量模型-word2vec


    自然语言处理词向量模型-word2vec

    一、总结

    一句话总结:

    “词向量模型是考虑词语位置关系的一种模型。通过大量语料的训练,将每一个词语映射到高维度(几千、几万维以上)的向量当中,通过求余弦的方式,可以判断两个词语之间的关系。” 这个高维的向量就是词向量,现在常用word2vec构成词向量模型。

    二、自然语言处理词向量模型-word2vec

    转自或参考:自然语言处理词向量模型-word2vec
    https://www.cnblogs.com/tianqizhi/p/9278790.html

    语言模型:

    N-gram模型:

    N-Gram模型:在自然语言里有一个模型叫做n-gram,表示文字或语言中的n个连续的单词组成序列。在进行自然语言分析时,使用n-gram或者寻找常用词组,可以很容易的把一句话分解成若干个文字片段

    词向量:

    神经网络模型:

    注:初始化向量,可以先随机初始化。

    传统神经神经网络只需要优化输入层与隐层,隐层与输出层之间的参数。

     

    神经网络模型的优势:一方面可以得到词语之间近似的含义,另一方面求解出的空间符合真实逻辑规律

    CBOW求解目标:

    预备知识:

    树的带权路径长度规定为所有叶子结点的带权路径长度之和,记为WPL。

    分层的softmax设计思想:词频中出现词概率高的尽可能往前放,可以用哈夫曼树来设计。

    自然语言哈夫曼树详解,包含构造和编码:https://blog.csdn.net/shuangde800/article/details/7341289

    Hierarchical Softmax是用哈夫曼树构造出很多个二分类。

     

    负采样模型:

     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    嵌入式linux驱动开发之点亮led(驱动编程思想之初体验)
    嵌入式Linux驱动开发之helloword心得
    PJMEDIA之录音器的使用(capture sound to avi file)
    PJMEID学习之视频的捕捉与播放
    PJSIP-PJMEDIA【使用pjmedia 播放wav格式的音乐】
    PJSIP-PJLIB-Socket
    PJSIP-PJLIB(samples) (the usage of the pjlib lib) (eg:string/I/O)
    Start with PJSIP on windows
    Android实际开发之网络请求组件的封装(OkHttp为核心)
    Android实际开发中的首页框架搭建(二、首页框架实现)
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/13722892.html
Copyright © 2020-2023  润新知