利用卷积神经网络（CNN）构造社区问答系统

利用卷积神经网络（CNN）构造社区问答系统

/* 版权声明：能够随意转载，转载时请标明文章原始出处和作者信息 .*/
           author: 张俊林


   问答社区算是一类已经比較成熟的互联网应用了，国外的比方Quora、StackOverflow。国内的比方老派的百度知道，新一代的知乎，都算是代表性的社交类问答社区。问答社区本质上就是个人肉知识库，通过一段时间的积累，会累积相当多以<问题。答案>方式存在的知识。

     除了这些通用的问答社区外还有非常多垂直领域的问答社区，比方我们畅捷通的会计家园。就是拥有数百万財会人员的知识交流社区，財会人员能够在社区提出自己的一些工作和生活中的疑问，会有非常多热心网友或领域专家帮你答疑解惑，会计家园长这个样子：

    这样的问答社区往往有信息冗余的问题。就是说历史上已经有不少同样的问题以及答案，可是非常多用户并不清楚这点，往往还会问出同样的问题，当然两个问题虽然是同一个问题，可是因为语言表达的灵活性，在字面上看起来可能问题还是有区别。就比方以下两个问题：
问题A：注冊资本认缴制下实收资本的账务怎样处理?
问题B：认缴制下成立的公司。一開始的账务处理是什么样的，实收资本要做吗？求解
     为了能够添加信息的复用率。我们已经使用自然语言处理、搜索技术以及一些深度学习的技术做了问题推荐系统，在用户提问的时候就将语义相关的问题推荐出来。假设用户看到类似的问题直接看答案即可，所以用户提问的时候看到的这样的交互界面：


    可是我们想更进一步，是否能在用户问出问题后，直接把答案交给用户？说实话，这事实上是搜索引擎的近乎终极目标。就是用户提出疑问，直接给出答案。眼下搜索引擎的交互方式还是比較原始的，比方用户发出问题。然后人要在搜索结果里面再筛一遍，找到真正自己关心的答案。所以事实上是技术+人工的方式。将来的搜索引擎交互方式应该是用户问问题。搜索引擎直接给答案。当然详细体现形式能够有多种，比方眼下比較火的聊天机器人本质上就是在往这个目标走的一个中间形式。也就是说是这样的方式：

    将来的话，假设全息投影技术普及后，应该就是科幻电影里常见的交互模式。那时候随时随地召唤出全息天使全天候为您服务，您不用操心雾霾天他有没胆出门的问题…..比方以这样的附体方式：

   嗯，上面是口味比較重的用户的选择，大多数用户可能会更喜欢这样的附体方式：

闲话少叙，让我们言归正传而且紧张严肃起来。形式化地说。如今我们面临的是例如以下问题：

找到与Qnew语义同样的问题Qi后，将Qi相应的答案Ai推荐给用户，就完毕了用户提出新问题后。直接告诉用户答案的任务。所以这个问题本质上是个问句Paraphrase问题。就是说推断两个句子是否语义等价的问题。
（读者小Y画外音Qi：请说人话！
     作者小张回答Ai：请去京东买本初中数学教材。）
我们用Word Embedding加上卷积神经网络CNN来解决问题。CNN不必说了，眼下在图像处理领域基本已经横扫，未来两年出现1000层CNN网络叠加起来解决应用问题也不必惊奇。
Word Embedding更是深度学习在文本处理领域的技术基石。假设如今做应用不用这两样东西预计你出门不太好意思跟同行打招呼吧。为了面子上挂得住，咱得掏出这两把刷子刷刷。以证明咱确实拥有这两把刷子。
一种直观的思路会用两个CNN来解决问题。其架构图例如以下：

就是说首先把两个要推断语义是否等价的句子转换为Word Embedding形式，作为整个神经网络的输入层，然后CNN1通过卷积层和池化层来抽取出一个句子的语义特征，CNN2抽取出另外一个句子的语义特征，之后两个CNN的池化层拼接起来作为兴许三层神经网络的输入层，兴许三层神经网络通过隐层对两组语义特征进行非线性变换。最后通过线性层分类输出，得出两个句子是语义同样（比方输出1）或者语义不同（比方输出0）的分类结果。
可是，我们想换种思路来做这个任务。能不能把输入层改造成真正的二维结构。就像一张图片那样。然后套上一个CNN来解决问题呢？让我们来试试，首先第一个问题是。给定两个句子SentenceA和SentenceB，怎样把CNN的输入层改造成类似图片的二维结构？
在做之前，我们假设两个句子例如以下：（说明：这个样例仅仅是为了方便绘图和举例，真实的训练和測试样例是会计家园的实际问题对，长度大约在10几个字到几十个字左右）
SentenceA：电脑多少钱？
SentenceB：计算机价格？

能够这么做：
Step1：把SentenceA分割成3-Gram表达形式，于是SentenceA变成例如以下形式
SetA={电脑多。脑多少。多少钱}

Step2：把SentenceB分割成3-Gram表达形式。于是SentenceB变成例如以下形式
SetB={计算机，算机价，机价格}

       Step3：把SetA的元素作为纵坐标。SetB的元素作为横坐标，将两个输入改造成二维结构，就像以下的图形：

Step4：那么这个矩阵格子里面的值怎么填呢？用横坐标和纵坐标相应的语言片段的语义类似性填充就能够。于是新问题又产生了，给了两个语言片段。比方“多少钱”和“机价格”，怎样计算它们的语义类似性呢。请移步看Step5；

Step5：计算两个语言片段的语义类似性。
此时锣鼓点响起，我们的小杀器Word Embedding该粉墨登场了。
首先能够用Word2Vec训练出每一个汉字的Word Embedding，也就是其低维向量表示。一定程度上代表其包括的语义信息。
那么3-GRAM包括了三个汉字，这3-GRAM的语义向量Word Embedding该怎么表示？能够简单粗暴地把其三个汉字的Word Embedding相应维度上的值累加求和即可，看上去霸王硬上弓包办婚姻，可是事实上这是一种通常的做法，一般应用效果还能够。嗯，我们土豪界办事情通常就是这么任性。
这样两个3-GRAM片段相应的Word Embedding都有了，剩下的就简单了，它们两个的语义类似性直接用Cosine计算两个Word Embedding在语义空间的向量夹角就成。一般语义越类似。Cosine得分越大。

Step 6：有了Step5的锦囊妙计。就能够完形填空。填充矩阵中相应格子的值了，假设填充完图形例如以下：

那么类似图片的二维输入结构就完毕了。
这个矩阵代表什么含义呢？代表的是两个句子随意两个语言片段之间的语义类似性。

有了上面填充好的二维矩阵作为神经网络的输入层，那么后面就简单了，你就当做输入的是个图片。然后直接套上一层或者多层CNN，最后再加上一个全联接分类层就齐活了。改造完的神经网络结构例如以下：

敲定了网络结构。剩下的就是训练神经网络了。我们利用眼下已经做好的问题推荐系统。通过人工找到语义同样表达不同的句子对作为训练集的正例，把一些语义相近可是不同的句子对作为训练集的负例。然后就能够训练这个基于Word Embedding和CNN的神经网络了。
通过实验我们发现，多层CNN并不能带来性能优势。所以终于仍然採用了一层CNN结构。然后用Torch 7训练模型。调整超參数比方隐层神经元个数，卷积层filter的个数等，终于最优分类精度在90.36%左右。效果还不错。说明祭出CNN这个大杀器和Word Embedding这个小杀器还是有效的。
当然这跟负例中两个句子对的语义相关性有一定关系，非常明显负例句子对语义相关性越高。分类难度越大，后面我们还会不断添加分类难度对模型进行调整。
致谢：感谢畅捷通公司智能平台沈磊、薛会萍、桑海岩和黄通文等同事在构建模型和整理训练数据方面的工作。

扫一扫关注微信号：“布洛卡区” ，深度学习在自然语言处理等智能应用的技术研讨与科普公众号。
相关阅读:
webpack + react 前端工程化实践和暂不极致优化
 图解Javascript——作用域、作用域链、闭包
 图解Javascript——变量对象和活动对象
 图解Javascript——执行上下文
 简单实用的进度条、时间轴
 Nginx配置文件nginx.conf中文详解（转）
负载均衡——nginx理论
 JavaScript的闭包是什么意思以及作用和应用场景
 巧用HTML5给按钮背景设计不同的动画
 利用js的for循环实现一个简单的“九九乘法表”
原文地址：https://www.cnblogs.com/gavanwanggw/p/7209337.html