Domain Adaptable
在经典的机器学习模型中,我们习惯性假设训练数据集和目标训练集有着相同的概率分布。而在现实生活中,这种约束性假设很难实现。当训练数据集和测试集有着巨大差异时,很容易出现过拟合的现象,使得训练的模型在测试集上表现不理想。
举个简单的例子,如果我们哟普大量的黄种人人脸监督训练数据集,而想训练得到可以区分黑人人脸的模型,该模型相比于黄种人识别情况性能会下降。当训练数据集和测试数据集分布不一致的情况下,通过在训练数据集上按经验误差最小准则训练得到的模型在测试数据集上性能不佳,因此,我们引入了迁移学习技术。
域适应(Domain Adaptation)是迁移学习中比较流行的一个分支,也是我最近阅读的重点方向。通俗的讲,域适应是通过利用训练数据集训练得到的知识,提高模型在测试数据集上的表现性能。
域适应中有两个基础概念:源域(Source Domain)和目标域(Target Domain)。源域中有着丰富的监督学习信息;目标域表示测试集所在的领域,通常无标签或者只含有少量的·标签。源域和目标域往往是同一类任务,但是分布不同。
通过在不同阶段进行域适应,研究者提出了几种不同的域适应方法:
1、样本自适应:将源域中样本重采样,使其分布趋近于目标域分布;
2、特征层面自适应:与一般的将源域映射到目标域方法不同,该类方法将源域和目标域投影到公共特征子空间,进而使得源域上的训练知识可以直接应用于目标域;
3、模型层面自适应:对源域误差函数进行修改,考虑到目标与的误差。
样本自适应:
其基本思想是对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器。
样本迁移(Instance based TL)
在源域中找到与目标域相似的数据,把这个数据的权值进行调整,使得新的数据与目标域的数据进行匹配,然后加重该样本的权值,使得在预测目标域时的比重加大。优点是方法简单,实现容易。缺点在于权重的选择与相似度的度量依赖经验,且源域与目标域的数据分布往往不同。
特征自适应:
其基本思想是学习公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同。
特征迁移(Feature based TL)
假设源域和目标域含有一些共同的交叉特征,通过特征变换,将源域和目标域的特征变换到相同空间,使得该空间中源域数据与目标域数据具有相同分布的数据分布,然后进行传统的机器学习。优点是对大多数方法适用,效果较好。缺点在于难于求解,容易发生过适配。
链接:https://www.zhihu.com/question/41979241/answer/247421889
模型自适应:
其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路,一是直接建模模型,但是在模型中加入“domain间距离近”的约束,二是采用迭代的方法,渐进的对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。
模型迁移(Parameter based TL)
假设源域和目标域共享模型参数,是指将之前在源域中通过大量数据训练好的模型应用到目标域上进行预测,比如利用上千万的图象来训练好一个图象识别的系统,当我们遇到一个新的图象领域问题的时候,就不用再去找几千万个图象来训练了,只需把原来训练好的模型迁移到新的领域,在新的领域往往只需几万张图片就够,同样可以得到很高的精度。优点是可以充分利用模型之间存在的相似性。缺点在于模型参数不易收敛。