词向量

NLP中最细粒度的是词语（word），词语组成句子，句子再组成段落、章节和文档。所以NLP的核心问题就是：如何理解word

由于目标是与计算机对接，其核心就是如何给计算机描述一个word，有以下两种描述方式：

One-hot Representation

Distributional Representation

采用稀疏存储，把每个词表示成一个很长的向量，向量长度是词表大小，向量中只有一个值是1，其余全是0

缺点：稀疏且高维度

　　没有语义信息

分布式表示：对于每一个词，用低维稠密的向量来表示，每个维度可以表示该词在这个维度的分布情况

注意：向量长度可以自己指定

word2vec是由谷歌科学家Mikolov在2013年所提出来的算法，其算法解决了如何将word映射成一个能保持语义信息的向量

word2vec采用Skip-Gram语言模型：learning word representations by predicting its nearby words

进行优化

有非常多的应用，比如搜索，文档分类，推荐等等

代表性工作：谷歌的神经翻译机，将Cn^2个翻译模型简化为一个模型（传说中的巴别通天塔）

相关阅读:
将对象转成 json 以及将字符串 hash（SHA1）加密
Model First 开发方式
DataSet结果转模型类
Table 类（数据表基类）
只返回数据表的部分字段（不建类）
修改数据表部分字段方法封装-及-动态生成对象并动态添加属性
封装方法：通过方法名调用类内的方法
同步 VS 异步
使用 Lambda表达式替换使用 ElemMatch 的方式查询集合类型的字段是否符合某条件
使用Newtonsoft.Json将数据导出至Json文件

原文地址：https://www.cnblogs.com/zyqy/p/11070236.html