迁移学习、元学习、强化学习、联邦学习、对比学习等

迁移学习、元学习、强化学习、联邦学习、对比学习等
1、迁移学习（Transfer Learning）
- 直观理解：站在巨人的肩膀上学习。根据已有经验来解决相似任务，类似于你用骑自行车的经验来学习骑摩托车。
- 专业理解：将训练好的内容应用到新的任务上，即将源域（被迁移对象）应用到目标域（被赋予经验的领域）。
- 迁移学习不是具体的模型，更类似于解题思路。
- 当神经网络很简单，训练一个小的神经网络不需要特别多的时间，完全可以从头开始训练。如果迁移之前的数据和迁移后的数据差别很大，这时迁移来的模型起不到很大的作用，还可能干扰后续的决策。
- 应用场景：目标领域数据太少、节约训练时间、实现个性化应用。
- 实际擅长应用例举：语料匮乏的小语种之间的翻译、缺乏标注的医疗影像数据识别、面向不同领域快速部署对话系统。
- NLP领域中的应用：Transformer、Bert之类的预训练语言模型，微调后可以完成不同的任务。
2、元学习（Meta Learning)
- 与传统的监督学习不一样，传统的监督学习要求模型来识别训练数据并且泛化到测试数据。
- 训练目标：Learn to Learn，自己学会学习。例：你不认识恐龙，但是你有恐龙的卡片，这样看见一张新的图片时，你知道新的图片上的动物与卡片上的动物长得很像，是同类的。
- 靠一张卡片来学习识别叫做：one-shot learning。
3、小样本学习（Few-Shot Learning）
- Few-Shot Learning是一种Meta Learning。
- 用很少的数据来做分类或回归。例如：模型学会了区分事物的异同，例如：虽然数据集中没有狗的照片，模型不会识别狗，但模型也能判断两张狗的图片上的事物是同类的。
- 数据集：Support Set。Support Set与训练集的区别：训练集的规模很大，每一类下面有很多图片，可以用来训练一个深度神经网络。相比这下，Support Set数据集比较小，每一类下面只有一张或几张图片，不足以训练一个大的神经网络。Support Set只能在做预测的时候提供一些额外的信息。
- 用足够大的训练集来训练一个大模型，比如深度神经网络，训练的目的不是为了让模型来识别训练集里的事物，而是让模型学会区分事物的异同。
- 传统监督学习 VS Few-Shot Learning：传统监督学习是先用一个训练集来学习一个模型，模型学习好之后可以用来做预测，给一张没有出现在训练集中的图片，模型没有见过这张图片，但是测试图片的类别包含在训练集中，模型能很容易就判断出图片的类别。而Few-Shot Learning不仅没有见过这张图片，训练集中也没有该类别的图片。Few-Shot Learning的任务比传统监督学习更难。
- k-way n-shot Support Set：Support Set中有k个类别，每个类别；里有n个样本。
4、强化学习（Reinforcement Learning）
- 不是某种特定的模型和算法，指的是训练方法。
- 举例：下棋：每当落下一子，对方都会再落下一子，这时主体就要认识新的局面也就是新的环境，分析判断后再行动，主体的目标是在尽可能多的棋局中获胜。
- 由于主体的每个行为都会改变环境，这决定了强化学习无法使用数据集训练，只能通过真是环境或模拟器产生的数据来学习，由于计算量大，效率低，除AlphaGo和游戏AI外落地应用并不多。
- 实际应用：推荐系统每次都会影响人们的购买，系统需要根据新的市场数据给出新的推荐；股票市场中每个人每时每刻买入卖出都会影响股价，交易系统需要理解新的环境后再行动。
- 强化学习算法可以分为两类：基于模型的（试图用模型模拟真实环境）。无模型的（不模拟环境，只根据反馈数据构建关于回报的模型）。
- 在强化学习中，做出决策的一方称为Agent（主体），主体每做出一个动作，环境都会给予反馈，主体会在评估反馈之后决定下一个动作。一切动作的基础都是回报，目标是长期，也就是未来的回报尽可能的大。
5、深度强化学习（Deep Reinforcement Learning DRL)
- 深度强化学习：使用神经网络构建强化学习主体的方法。
- 使用深度强化学习原因：强化学习面对的情景多种多样，环境、行为、回报很难穷尽，只要有输入就一定有输出，神经网络面对没有见过的情况也能做出选择。
- Value-Based Method，将关注点放在回报上：
  - DQN（Deep Q-Learning Network）：用数值Q表示特定状态下采取某行动的收益，将计算Q的工作交给神经网络；
  - DDQN（Double Deep Q-Learning Network）增加一个对Q值评估相对谨慎的网络，平衡两者之间的看法，防止主体过于激进。
  - NoiseNet：为了提高探索能力，适当在网络中增加噪音，增加主体的随机性。
  - RainBow:DQN+DDQN+NoiseNet.
- Policy-Based Method，将关注点放在动作的选择上：
  - Policy Gradient，策略梯度：如果一个动作能使最终回报变大，就增加这个动作出现的概率，反之就减少。
- Combination
  - Actor-Critic：如果我们让选择动作的网络担任主体Actor，关注回报的网络担任老师Critic，为主体的表现打分提供指导。
  - A3C（Asynchronous Advantage Actor-Critic）：使用多个Actor-Critic网络同时探索环境，并将采集到的数据交由主网络更新参数。
6、联邦学习
- 二人同心，其利断金。团结就是力量，机器学习同样如此，数据越多，训练出的模型效果越好，所以将大家的数据放在一起使用，每个人都能得到更好的模型。
- 现实世界中，数据是属于用户的，既不能不作申请的使用它们，还要保护数据的私密性。联邦学习：安全高效的实现数据合作。
- 横向联邦学习（Horizontal Federated Learning）或特征对对齐的联邦学习（Feature-Aligned Federated Learning）：参与者们业务相似，数据的特征重叠多，样本重叠少（比如不同地区的两家银行），就可以通过上传参数，在服务器中聚合更新模型，再将最新的参数下放完成模型效果的提升。
- 纵向联邦学习（Vertical Federated Learning）或样本对对齐的联邦学习（Sample-Aligned Federated Learning）：参与者的数据中样本重叠多，特征重叠少（比如同一地区的银行和电商），就需要先将样本对齐，由于不能直接比对，我们需要加密算法的帮助，让参与者在不暴露不重叠样本的情况下，找出相同的样本后联合它们的特征进行学习。
- 联邦迁移学习：如果样本和特征重合的都不多，希望利用数据提升模型能力，就需要将参与者的模型和数据迁移到同一空间中运算。
- 目标：解决数据的协作和隐私问题。
7、对比学习
- 通过对比来了解事物的本质，就是利用数据间的相关性去学习事物本质的一种方法。
- 对比学习是一种自监督学习方法，用于在没有标签的情况下，通过让模型学习哪些数据点相似或不同来学习数据集的一般特征。
- 举例：有两只猫和一只狗，即使没有人告诉你它们是“猫”和“狗”，你仍可能会意识到，与狗相比，这两只猫看起来很相似。
PS：知识的搬运工！！！
相关阅读:
[深度概念]·K-Fold 交叉验证 (Cross-Validation)的理解与应用
 [天池竞赛项目]2019菜鸟全球科技挑战赛 —智能体积测量（队员招募）
[MXNet逐梦之旅]练习一·使用MXNet拟合直线手动实现
 [深度学习工具]·极简安装Dlib人脸识别库
 [数据科学从零到壹]·泰坦尼克号生存预测（数据读取、处理与建模）
Java 多线程
 javaAPI中的常用类以及接口
 QQ数据库管理
 java 对象和封装
 事务、视图、索引、备份、还原
原文地址：https://www.cnblogs.com/yqw0710/p/16022671.html