论文阅读 | Reinforced Training Data Selection for Domain Adaptation

论文阅读 | Reinforced Training Data Selection for Domain Adaptation

论文地址： https://www.aclweb.org/anthology/P19-1189/

已有研究工作：

TDS，training data selection，可以用来解决监督模型中的数据跨域、分布不匹配的问题，可以去除噪声和不相干的样本。一般的方法是将整个数据集在某种度量标准下进行评分或排序，然后选择前n项。作者认为这样的方法不能体现出领域知识的有效特征，也不能应用于不同的数据性质。对于更通用的度量方法，需要对超参数，也就是阈值的设定有进一步的研究。而且，它和模型训练是相互独立的，不能获得来自任务的反馈。

本文的工作和创新点：

TDS本身是一个有指数复杂度的组合优化问题，不可能穷尽所有组合。因此解决思路是视为一个决策序列。本文使用RL来解决，目标是正确度量训练样本和目标域之间的相关性，根据特定任务所选样本获得的反馈来指导选择过程。模型包括一个产生选择概率的部分SDG（selection distribution generator）一个用于学习数据表示的特征提取器，一个用于测量所选数据性能的分类器。

研究方法：

模型的主要结构如下图所示。

Predictor：包括特征提取器和分类器两个部分。特征提取器是将选择的数据转换为向量表示，输入包括两个部分，一部分是目标域中提取得到的未标记的数据，另一部分是从原域中选择出来的数据。分类器是在一轮TDS结束之后，评估它的表现部分，它的输入来自于特征提取器，它评估的结果也会反馈给特征提取器。

SDG：本身是一个MLP，在每一步中，SDG获得输入来自于特征提取器，产生的输出表示每个实例被选择的概率。

联合训练框架：使用策略梯度将SDG和Predictor联合训练，整体的流程如下：

State：一个给定的状态包括选择的实例和特征提取器的参数，分别用和来表示。

Action：是一组0-1空间，决定某个实例是否被选择。

Reward：TDS在数学上的目标是确保所选数组符合目标域的分布，奖励函数如下：

其中d是衡量分布差异的范数，可以通过JS散度（Jensen-Shannon divergence）、MMD（maximum mean discrepancy）、RENYI（the symmetric Renyi divergence）、

loss来实现。是一个减少未来分布差异影响的常数。

优化：优化的目标函数如下：

SDG的参数通过策略梯度来更新：

，

其中表示的学习率递减速率。

实验部分：在SANCL和产品评论两个数据集上展开实验，前者是POS标记和依赖项解析任务，后者是情感分析任务。在实验中并没有指定阈值n，也就是要选择的实例数量，由模型自主决定，不是一个定值。Predictor先在数据集上预训练两个epoch。实验结果如下：

可以看到优于baseline模型，大多数情况下优于在所有源数据上训练的同一个预测器。

评价：

TDS，也就是针对任务选择质量更高的数据，从而排除一些噪声的影响。本文的主要优点在于将TDS的过程和模型的训练过程通过RL统一在一个框架中。同时不需要对TDS过程设置阈值。
相关阅读:
python D32 管道、线程池
 python D31 守护进程、进程锁、队列
 python D30 进程
 python 30 进程之间的相互独立、进程之间的时间差
 python D30 操作系统历史
 python D29 socketserver以及FTB
python D28 粘包
 net4.0 task 超时任务代码用Thread.sleep方式实现
 sql取随机结果集
 【ecshop---新增包邮卡功能】
原文地址：https://www.cnblogs.com/bernieloveslife/p/12741746.html