组会阅读材料2022527 @多模态@GAN@Prompt

组会阅读材料2022527 @多模态@GAN@Prompt
2022-5-27 14:24:54

谷歌提出 RNN 版 Transformer，或为长文本建模的当前最优解

https://mp.weixin.qq.com/s?__biz=MzIwNzc2NTk0NQ==&mid=2247525301&idx=1&sn=eefd50e294422bed98ea4b1f50f49377&chksm=970f4b63a078c2755a684f732420de108ba2b878c832b8f94bff378314a4e143fb22268ab20c&mpshare=1&scene=23&srcid=0403baAPrZlFJXXZUXxlAZCB&sharer_sharetime=1648969270830&sharer_shareid=4185f6312468c4868ccd1cec9305583d#rd
《BLOCK-RECURRENT TRANSFORMERS》：和传统 RNN 的区别只在于：传统 RNN encoder 每个循环单元负责编码一个 token，而本文中每个循环单元负责编码一段长度为 W 的文本片段，且每个循环单元都由构造相同的 Transformer Block 来实现。如此一来，每个片段在编码时，都能用类似 RNN 的方式，同时考虑之前文本中的信息。对于长度为 N 的输入来说，整个模型的 attention 复杂度为 O(N)。
滑动窗口注意力机制：每个 token 只需要 attend 到它的前 W 个 token

Google | 突破瓶颈，打造更强大的Transformer

https://mp.weixin.qq.com/s?__biz=MzIwNzc2NTk0NQ==&mid=2247486666&idx=1&sn=209d77ab020294fe9c27d148449c6506&chksm=970c241ca07bad0af167704f0b429957bb275fd8a7c93c320f4d7f3fcd2541a4288fbba8e16f&scene=21#wechat_redirect
《Low-Rank Bottleneck in Multi-head Attention Models》: 增大key_size的方法来缓解Multi-Head Attention里边的表达能力瓶颈。
低秩瓶颈（Low-Rank Bottleneck）：k,v维度d，多头注意力头数h，序列长度都为n，也就是每个元有n个可能的取值，那么这个分布共有n^2个值。每个Attention Head里边将k,v投影到d/h维，多个头结果拼接回d维。将k,v分别投影到低维后，各自的参数量只有\(n\times(d/h)\)，总的参数量是2nd/h，相当于用2nd/h的参数量去逼近一个本身有n^2个值的量，而通常2nd/h << n^2
《Tking-Heads Attention》：当前的Multi-Head Attention每个head的运算是相互孤立的，而通过将它们联系（Talking）起来，则可以得到更强的Attention设计，即标题的“Talking-Heads Attention”。就是在\(QK^T\)之后、softmax之前用一个参数矩阵\(\lambda\)将各个\(QK^T\)的结果叠加一下而已，这样就把原本是孤立的各个Attention Head联系了起来，即做了一个简单的Talking。这样即混合分布思路，也可以缓解低秩瓶颈。

耗时2天，我自制了一台体感游戏机

https://mp.weixin.qq.com/s/KfMLBkP_XeMi4opuaWjS-A
Jetson AGX Orin：NVIDIA 的AI边缘计算设备。什么叫做边缘计算，简单来说就是对于数据的处理尽可能和产生数据的应用在一起。比如像机器人、像自动驾驶。这种场景对计算的实时性要求高，不好说把数据传到计算中心，靠机房的大家伙们处理完再把结果返回给设备。所以对于边缘计算设备来说，一是要计算能力够强，二就是要足够小，不仅是体积小，而且要能耗小。
手势操作网页：SVM 支持向量机来训练手势分类器，这个用到 Python 的 scikit-learn 模块

2022-5-29 09:35:34

关于AutoML，你想知道的都在这里！

https://zhuanlan.zhihu.com/p/93109455
自动机器学习（AutoML）：将机器学习应用于现实问题的端到端流程自动化的过程。从传统机器学习模型出发，AutoML从特征工程、模型构建、超参优化三方面实现自动化；并且也提出了end-to-end的解决方案。

NAS（神经结构搜索）综述

https://zhuanlan.zhihu.com/p/60414004
神经结构搜索（Neural Architecture Search，NAS）：一种自动设计神经网络的技术，可以通过算法根据样本集自动设计出高性能的网络结构，在某些任务上甚至可以媲美人类专家的水准，甚至发现某些人类之前未曾提出的网络结构，这可以有效的降低神经网络的使用和实现成本。
NAS原理：给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构。
目前已有商业化的NAS系统：Google公司的Cloud AutoML服务，百度公司的AutoDL。

2022-5-30 10:36:14

多模态预训练模型综述

https://mp.weixin.qq.com/s/r95blN2q9OAr7wUfJBxTNQ
!这篇文章主要介绍图片跟文本多模态

多模态图文数据集
- MS-COCO captions
- VG Dense Captions
- SBU Captions
- Conceptual Captions
常见下游任务
- 理解式：问答，推理，检索等等
- 生成式：根据文字生成图片或者根据图片生成文字等等
1. Masked Language Modeling ( MLM )：传统的文本屏蔽语言模型，针对的是文本流。
2. Masked Region Modeling（MRM）：模仿MLM，只不过这里是对图片进行随机mask，针对的是图像流。被随机屏蔽的概率是15% ，替换成 0 和保持不变的概率分别是 90%和10%，这里又可以细化的分为Masked Region Feature Regression (MRFR) ，Masked Region Classification (MRC)和Masked Region Classification with KL-Divergence (MRC-kl)。主要的loss分别是L2 regression，cross-entropy (CE) loss，KL divergence 。
3. Image-Text Matching ( ITM ): 图文匹配任务，针对的是图文交互流，即判断当前pair是不是匹配（就是个分类任务），具体的是将图片的IMG token和文本的cls做element-wise product再经过一个MLP层来做相似性的监督学习。
1是Language-Modal的，2是Vision-modal的，3是Cross-modal

结论
1. 标配：就是single-modal层面的MASK预测，以及cross-modal层面的对齐学习
2. 目前使用single-stream更多一些，它的好处是特征融合更早更充分，使用two-stream一个明显的优势是参数量更多（意味着可以容纳更多的信息），先在前期提取了各种低阶特征，进而在高阶进行融合
3. 粒度越来越细。语言模态上：从简单的MLM到mask 场景图，视觉模态上：从单纯的mask region 区域到mask object目标
4. 数据量越来越大。不论是使用对比学习还是什么手段，本质上就是为了使的模型可以利用更大的数据集。谁能利用的数据量更大且谁能挖掘更细粒度的对齐，效果应该是越好。
多模态学习综述及最新方向

https://zhuanlan.zhihu.com/p/389287751

五类常见的多模态研究：
1. 表征。如何挖掘模态间的互补性或独立性以表征多模态数据。
2. 翻译。学习一个模态到其他模态的映射。例如：image captioning。
3. 对齐。将多模态数据的子元素进行对齐。例如phrase grounding任务：将一幅图中的多个物体与一段话中的短语(或单词)进行对齐。在学习表征或翻译时也可能隐式地学习对齐。
4. 融合。融合两个模态的数据，用来进行某种预测。例如：Visual Question Answering需融合图像和问题来预测答案；Audio-visual speech recognition需融合声音和视频信息用以识别说话内容。
5. 共同学习(co-learning)。模态间的知识迁移。使用辅助模态训练的网络可以帮助该模态的学习，尤其是该模态数据量较小的情况下。
Language-Audio
- Text-to-Speech Synthesis: 给定文本，生成一段对应的声音。
- Audio Captioning：给定一段语音，生成一句话总结并描述主要内容。(不是语音识别)
Vision-Audio
- Audio-Visual Speech Recognition(视听语音识别)：给定某人的视频及语音进行语音识别。
- Video Sound Separation(视频声源分离)：给定视频和声音信号(包含多个声源)，进行声源定位与分离。
- Image Generation from Audio: 给定声音，生成与其相关的图像。
- Speech-conditioned Face generation：给定一段话，生成说话人的视频。
- Audio-Driven 3D Facial Animation：给定一段话与3D人脸模版，生成说话的人脸3D动画。
Vision-Language
- Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。
- Image/Video Captioning(图像/视频描述)：给定一个图像/视频，生成文本描述其主要内容。
- Visual Question Answering(视觉问答)：给定一个图像/视频与一个问题，预测答案。
- Image/Video Generation from Text：给定文本，生成相应的图像或视频。
- Multimodal Machine Translation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言。
- Vision-and-Language Navigation(视觉-语言导航)：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。
- Multimodal Dialog(多模态对话)：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答。
定位相关的任务
- Visual Grounding：给定一个图像与一段文本，定位到文本所描述的物体。
- Temporal Language Localization: 给定一个视频即一段文本，定位到文本所描述的动作(预测起止时间)。
- Video Summarization from text query：给定一段话(query)与一个视频，根据这段话的内容进行视频摘要，预测视频关键帧(或关键片段)组合为一个短的摘要视频。
- Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频，分割得到query所指示的物体。
- Video-Language Inference: 给定视频(包括视频的一些字幕信息)，还有一段文本假设(hypothesis)，判断二者是否存在语义蕴含(二分类)，即判断视频内容是否包含这段文本的语义。
- Object Tracking from Natural Language Query: 给定一段视频和一些文本，进行
- Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本)，自动进行图像/视频的编辑。
更多模态
- Affect Computing (情感计算)：使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。
- Medical Image：不同医疗图像模态如CT、MRI、PET
- RGB-D模态：RGB图与深度图
多模态知识图谱的构建及在热点新闻事件中的应用

https://zhuanlan.zhihu.com/p/512746926
知识图谱（Knowledge Graph，KG）：知识图谱是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。使用实体来表示自然界的物体或者抽象的概念，使用关系来建模实体之间的交互，其基本的存储形式是（头实体h，关系r，尾实体t）的三元组。

通过知识图谱的关联进行脉络梳理：
- 确认分析目标的相关主题事件
- 通过其子事件，查看事件发生、发展、消亡等阶段，展示事件发展的紧张趋势；
- 通过时序关系，查看事件演变脉络
多模态知识图谱值得深入研究的方向：
- 多模态语义搜索、知识问答
- 多模态关系预测与推理
- 多模态实体对齐、消歧、实体链接
- 多模态推荐计算
- 基于多模态知识图谱的通用人工智能（认知智能）
小样本学习（Few-Shot Learning）综述

https://zhuanlan.zhihu.com/p/136474749
机器学习：假设用P来评估计算机程序在某任务类T上的性能，若某一个程序通过利用经验E在T种任务上获得了性能的改善，则我们就说关于T和P，该程序对E进行了学习。
小样本学习：样本量少，导致从样本中获得的信息量少，进而导致获得经验E少。希望模型在已经学习了大量的数据后，遇到了新类别时，可以通过少量样本快速学习。即小样本学习重点在于抽取通用特征和特有特征。

恕我直言，很多小样本学习的工作就是不切实际的

https://zhuanlan.zhihu.com/p/384013306
prompt：结合具体场景，设计新的finetune任务形式，从而将与当前任务相关的提示信息（prompt）引入模型，以此更好地利用预训练模型的结构与先验知识。
关于小样本：人之前学过类似的概念，有"先验知识"。其实人从出生开始就不断接受外界信息(有监督或无监督)进行经验的积累，这跟meta learning本质是一致的，和目前few-shot learning的设置也是一致的。小样本学习只是指下游任务是小样本的，上游训练的时候必须要大样本

【小样本基础】元学习（Meta Learning）为什么能解决小样本问题（Few-shot Learning）：一个例子搞懂

https://blog.csdn.net/qq_39328436/article/details/120698785
元学习：“学习如何学习”（Learning to learn）。学习一些相似的任务，在这些任务中有足够的知识/样本来学习，当学习了很多这样的任务之后，元学习模型便学会了举一反三。

例子：你有一个任务，需要在一堆瓜里面区分出西瓜和爱丽斯顿神仙瓜，但是爱丽斯顿神仙瓜只有几个，你之前也没有见过爱丽斯顿神仙瓜，根本不知道怎么区分。后来你去了菜市场，在那里有很多的瓜，在这里你学会儿如何区分西瓜和冬瓜，西瓜和南瓜，西瓜和黄瓜........甚至是本地西瓜和进口西瓜，在这个菜市场你逐渐学会了区分各种各样的瓜，给你两个瓜你会习惯地从瓜的大小，颜色，纹理等等系统地进行比较。当你离开菜市场的时候，你简直就是一个瓜类专家，你的训练已经完成了。
接下来送给你很多西瓜和几个爱丽斯顿神仙瓜，你简单比较一下颜色，质地，再加上你之前对各种各样瓜的知识储备，你知道这不是西瓜，也不是其他你知道的所有瓜，这是一种新的瓜！你真棒！

元学习和迁移学习的本质都是增加学习器在多任务的范化能力，但元学习更偏重于任务和数据的双重采样，即任务和数据一样是需要采样的，具体来说对于一个10分类任务，元学习通过可能只会建立起一个5分类器，每个训练的episode都可以看成是一个子任务，而学习到的\(F(x)\)可以帮助在未见过的任务里迅速建立mapping。而迁移学习更多是指从一个任务到其它任务的能力迁移，不太强调任务空间的概念。

2022-5-31 19:40:21

GAN详解

https://zhuanlan.zhihu.com/p/408766083
GAN是一个由两个模型组成的系统：判别器（\(D\)）和生成器（\(G\)）。

判别器的任务是判断输入图像是源自数据集中还是由机器生成的，一般使用二分类的神经网络来构建，将取自数据集的样本视为正样本，而生成的样本标注为负样本。
生成器的任务是接收随机噪声，然后使用反卷积网络来创建一个图像。生成器的随机输入可以看做一个种子，相同的种子会得到相同的生成图像

训练流程：
- 固定生成器，使用梯度上升策略训练判别器使其能够更好的判断样本是真实样本还是生成样本
- 循环多次对判别器的训练后，我们使用较小的学习率来对生成器进行优化，生成器使用梯度下降策略进行优化
- 多次更新之后，我们的理想状态是生成样本和真实样本的分布已经完全一致，而此时判别器分类准确率是0.5，无法区分二者
- !先循环多次优化判别器，再优化生成器
KL散度的另外一个特征是不对称性，这可能导致模型在训练过程中的不稳定，因此在深度学习中一般使用JS散度（Jenson Shannon Divergence）来代替KL散度。

2022-6-1 18:09:36

生成对抗网络（GAN）商业应用实例

https://zhuanlan.zhihu.com/p/380179989
判别模型：判断两个或多个类别的区别，而不能描述类别本身，该模型学习条件概率。
生成模型：学习类别本身是什么（每个类别中值是如何分布的）。它可以用来判断某个值是属于一个类别还是另一个类别。该模型学习联合概率分布。

生成模型能做什么
- 生成新的数据样本-并非实际存在的物体图像
- 图像修复-恢复图像丢失的部分。
- 图像超分辨率-将低分辨率图像放大到高分辨率，而没有明显的放大伪影。
- 域自适应-使一个域的数据与另一个域的数据相似（例如，使普通照片看起来像油画，同时保留最初描绘的内容）
- 去噪-去除数据中的各种噪声。例如，从x射线图像中去除统计噪声以符合医疗需要
GAN最大的问题：不稳定性，网络可能知道如何模拟人脸，但可能无法理解服装的特定元素必须是什么样子。

多模态情感识别数据集和模型(下载地址+最新综述2021.8)

https://blog.csdn.net/qq_44722174/article/details/120032522
情绪分类主要有两大基本观点：离散模式(categorical emotion states (CES))和连续模式( dimensional emotion space (DES))。
离散模式认为情绪具有完全不同的结构，连续模式认为不同情绪之间有着过渡阶段。

CES情感模型定义情感的几个基本分类：
binary sentiment：positive and negative, sometimes including neutral；
Ekman’s six basic emotions： positive happiness, surprise and negative anger, disgust, fear, sadness；
Mikels’s eight emotions：positive amusement, awe, contentment, excitement, and negative anger, disgust, fear, sadness；
Plutchik’s emotion wheel：eight basic emotion categories by three intensities；
Parrott’s tree hierarchical grouping：primary, secondary and tertiary categories.

多模态情感识别任务
1. Emotion Classification（分类）：假设样本只能属于一个或固定数量的情感类别，其目标是发现数据空间[1中的类边界或类分布。
2. Emotion Regression（回归）：学习一种映射函数可以有效地将一个实例与笛卡尔空间中的连续情感值联系起来。
3. Emotion Detection：目的是找出源数据中哪一种情绪在哪里。例如，Yelp上的餐厅评论可能是“这家餐厅就在我工作的街对面，非常方便，步行对我来说是一个巨大的加分!” 在食物方面，那里和我去过的几乎所有地方都一样，所以没什么可说的。我不得不说，客户服务是命中注定或错过。”同时，总体评分是3星(满分5星)。这篇评论包含了不同的情绪和态度:第一句是积极的，第二句是中立的，最后一句是消极的。因此，系统检测哪个句子对应哪个情绪是至关重要的。另一个例子是图像[22]中的情感区域检测。
4. Emotion Retrieval：如何基于人的感知来搜索情感内容是另一个有意义的任务。
领域存在的挑战和困难
1. Affective Gap（情感鸿沟/差距）
  情感鸿沟是MER的主要挑战之一，它衡量的是提取的特征和感知到的高级情绪之间的不一致性。对于同一个句子，不同的语调可能对应着完全不同的情绪。要难点在于如何评价所提取的特征是否与情绪相关。
2. Perception Subjectivity（情感主观性）
  有的人可能会因为巨大的雷声而感到恐惧，有的人可能会因为捕捉到这样罕见的场景而感到兴奋
3. Data Incompleteness（数据缺失）
  数据不完整是现实世界MER任务中常见的现象。在晚上，摄像机无法捕捉到清晰的面部表情。对于内隐情感刺激，一个用户可能只发布包含图像(没有文本)的tweet设计能够处理数据不完整性的有效融合方法是一种广泛采用的策略。
4. Cross-modality Inconsistency（模态间不一致性）
  同一样本的不同模态可能会相互冲突，从而表达不同的情绪。例如，面部表情和言语可以很容易地被抑制或掩盖，以避免被发现当人们在社交媒体上发布推文时，图像与文本在语义上不相关的现象非常普遍。
5. Cross-modality Imbalance（模态间不平衡性）
  在一些MER应用中，不同的模式对唤起的情绪的贡献可能是不平等的。然而，一篇网络新闻通常包含不平衡的文字和图片，即文章可能很长，有很多详细的信息，而新闻中只有一两个插图。可能更有问题的是，新闻编辑可能会为一篇带有明显情绪的文章选择一幅中性的图像。
6. Label Noise And Absence（标签问题）
  在实际应用中，在生成ground-truth给情绪贴标签不仅花费昂贵和时间，而且高度不一致，这导致数据量大，但很少或甚至没有情绪标签。
步态情感：人的步态可以表示为步行视频中每一帧的2D或3D关节坐标序列。为了利用关节坐标中固有的情感线索，许多分类器或结构被用来提取步态中的情感特征。

NLP新范式：Prompt（提示学习）【综述】

https://zhuanlan.zhihu.com/p/431788604
1. 很久以前发展起来的全监督学习：
  每次根据特定任务利用对应数据集重新训练模型
2. 前三年火爆的预训练+微调 Pre-train, Fine-tune：
  先训练好一个模型，根据具体任务将模型部分层参数初始化从头训练，其它层使用预训练好的参数跟着微调。通过目标工程使预训练的语言模型（LM）适应下游任务
3. 最新的预训练+提示+预测 Pre-train, Prompt, Predict：
  重新形式化（Reformulate）下游任务，使其看起来更像是在文本 prompt 的帮助下在原始 LM 训练期间解决的任务。例如将二元情感分类的输出改成 "it was [great / terrible]"的形式，这里""部分就是prompt或者理解为一个跟预训练任务输出相似的模板，便于在不更改模型的前提下使用预训练参数。
2022-6-2 09:10:31

多模态机器学习入门

https://zhuanlan.zhihu.com/p/393982073
多模态融合（Multimodal Fusion）：将不同模态数据带有的信息结合在一起进行预测
- pixel level：对原始数据最小粒度进行融合。
- feature level：对抽象的特征进行融合，这也是用的最多的。包括early 和 late fusion，代表融合发生在特征抽取的早期和晚期。early指先将特征融合后（concat、add）再输入分类器，缺点是无法充分利用多个模态数据间的互补性，且存在信息冗余问题（可由PCA，AE等方法缓解）。late分融合和不融合两种形式，不融合有点像集成学习，不同模态各自通过分类器输出后再统一打分进行融合，好处是模型独立鲁棒性强。融合的方式即在特征生成过程中（如多层神经网络的中间）进行自由的融合，灵活性比较高，如金字塔融合。
- decision level：对决策结果进行融合，和集成学习很像。
- hybrid：混合融合多种融合方法。
更具体地可以分类为
- 基于矩阵；
- 基于普通神经网络；
- 基于生成模型；
- 基于注意力；
- 其他。如NAS，GAN，Graph等。
- 融合矩阵和特征。
- shuffle和shift等不需要额外参数的方法。
总之都是将不同模态的信息综合在一起，共同为预测提供支撑
相关阅读:
markdown自动生成侧边栏TOC /目录
 jquery和javascript的区别
 Jquery中AJAX参数详细(1)-转
 jQuery.ajax介绍
 人人开源分模块，非原生html报错，很难查找问题所在，有vue语法
 《SSH网上商城》-视频目录--代码可以跑起来
 《第16项目：国家税务协同平台项目》-视频目录
 项目：《ssh框架综合项目开发视频》-视频目录和第六天的EasyUI简单讲解
 项目：《JavaWeb图书管理系统视频》--代码修复还可以运行起来
 Maven项目在更新过程停止，再更新无效-->解决
原文地址：https://www.cnblogs.com/Stareven233/p/16370523.html

组会阅读材料2022527 @多模态@GAN@Prompt

2022-5-27 14:24:54

谷歌提出 RNN 版 Transformer，或为长文本建模的当前最优解

Google | 突破瓶颈，打造更强大的Transformer

耗时2天，我自制了一台体感游戏机

2022-5-29 09:35:34

关于AutoML，你想知道的都在这里！

NAS（神经结构搜索）综述

2022-5-30 10:36:14

多模态预训练模型综述

多模态学习综述及最新方向

五类常见的多模态研究：

Language-Audio

Vision-Audio

Vision-Language

定位相关的任务

更多模态

多模态知识图谱的构建及在热点新闻事件中的应用

小样本学习（Few-Shot Learning）综述

恕我直言，很多小样本学习的工作就是不切实际的

【小样本基础】元学习（Meta Learning）为什么能解决小样本问题（Few-shot Learning）：一个例子搞懂

2022-5-31 19:40:21

GAN详解

2022-6-1 18:09:36

生成对抗网络（GAN）商业应用实例

多模态情感识别数据集和模型(下载地址+最新综述2021.8)

NLP新范式：Prompt（提示学习）【综述】

2022-6-2 09:10:31

多模态机器学习入门