QA问答系统，QA匹配论文学习笔记

QA问答系统，QA匹配论文学习笔记

论文题目：

WIKIQA: A Challenge Dataset for Open-Domain Question Answering

论文代码运行：

首先按照readme中的提示安装需要的部分

遇到的问题：

theano的一些问题，主要是API改动

下面是解决方法

首先安装

https://stackoverflow.com/questions/39501152/importerror-no-module-named-downsample

代码改动如下所示：

论文内容：

摘要：

介绍本文主要是提供了一种开放领域的QA匹配的问答系统，并且描述了创建的WIKI数据集的方式。

这种QA匹配的算法与之前的算法的不同之处在于，以往重点在于Q和A中相同词的个数，主要重点在于文本结构的相似，

本文的算法偏向于语义的相似。本文对比了几种算法在相同数据集上的表现。

引言：

Answer sentence selection （答案选择？？）是开放领域QA的一个自问题。介绍了

TREC-QA data 的来历。说这个数据集虽然已经是该类问题的基准测试机，但是并不好，有巴拉巴拉一些缺点，

主要就是question和answer之间的文本相似度比较大，偏爱文本相似的答案，比实际情况效果有些膨胀了。

另一方面就是实际情况question不一定有对应的答案。

所以创建了wikiQA数据集。

本文的作者实现了几种模型来

wikiQA数据集的介绍：

这个数据集是从Bing的搜索日志中选出来的。这个数据集有3047条数据。

这是基于用户点击WIKI页面得到的。就是用户有个搜索的问题，返回结果有wiki,用户点开看了。

那答案怎么来呢？答案是wiki页面的摘要。

作者认为wiki的摘要质量很高，可以很好的概括页面的内容。

为了排除对于keyword（关键字）的偏好，数据集将摘要中的每一句话都作为问题的一个候选答案。

然后再由人工标注哪些句子是正确答案。

实验：

对比了使用TF-IDF和不使用TF-IDF的区别，实现了

LCLR 和CNN两种QA比较的算法

CNN-Cnt是最好的了，CNN加词的权重

在WIKI QA数据集上 CNN表现好与单纯的词匹配，好于LCLR

总结：
相关阅读:
DataItem 的使用［转帖］
xmpp协议阅读总结
 smart pointer shared_from_this的使用
 std IO库， stringstream，简看1
const成员函数, const member function
enum 随笔
 分隔和截断字符串, boost string algorithm library中的split和trim
C++中异常处理
 boost::thread中的锁
 函数对象function object 以及boost::bind的一点了解
原文地址：https://www.cnblogs.com/earendil/p/8081274.html