NVidia 的新 H100 GPU已经发布了,我们也很久没有发论文推荐了,这是4月份的论文推荐:Google 的 5400 亿参数 PaLM、Pathways、Kubric、Tensor Programs、Bootstrapping Reasoning With Reasoning、Sparse all-MLP 架构、使用深度学习制作人脸动画等等。
1、Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
By Greg Yang, Edward J. Hu et al.
超参数调优是创建 SOTA 模型的重要因素。对于大型模型,这通常需要大量的计算资源,这使得资源有限的小型参与者根本无法进入这一领域。论文的这项工作展示了如何更有效地完成超参数调整。
为了训练神经网络,必须选择合适的超参数。在前几年,超参数只有少数几个(例如固定学习率、卷积核大小等),但现在超参数空间变得更加复杂:学习率激活函数、学习率计划、优化器选择、注意力头的数量、隐藏维度 等等。
论文中提到的方法可以在小型模型中找到最佳超参数,然后扩展模型到大型模型进行最终的资源密集型训练运行。这种称为 μTransfer 的方法不仅基于理论分析,并且可证明在某些条件下有效,作者也凭经验表明,通过在现代 Transformer 上使用该技术,这种方法可以更宽松地应用。
作者也提到,这种方法仍然存在许多局限性,但它为促进大型模型的训练,甚至对现有模型的进一步优化,甚至在数万亿参数规模上实现下一代更大型模型的超参数调整提供了一个有趣的方向.
2、Visual Prompt Tuning
By Menglin Jia, Luming Tang, et al.
对于现在的大型模型而言人们不会从头开始构建模型,而是使用预先训练的模型进行微调。下游任务中最大限度地利用大型预训练模型同时计算成本低的技术将是关键。Prompt 就是这样一种技术。
作者探讨了各种“部分调整”技术如何在调整参数/性能比的百分比方面进行比较。大型预训练模型通过使用标记数据和在整个架构中传播梯度来进行微调。但是在过去的一年中,prompt已成为一种可行的替代方案:保持预先训练的模型权重不变,并在输入中预先添加一组嵌入,这些嵌入可以通过梯度下降和一些标记数据来学习。
这种技术已被证明在 NLP 任务上是有效的,现在正被用于图像分类,它不仅在效率方面而且在绝对准确度方面都表现出非常有竞争力的性能。更重要的是,Prompt 在 few-shot 的情况下最为突出,在这种情况下,完全微调通常很困难。Prompt 的另一个好处是,它可以预训练模型概念化为输入/输出黑盒,训练一个只能通过 API 访问的模型(使用无梯度优化⁷,或在梯度可用时进行梯度下降) ,这是行业正在发展的方向。
3、Pathways: Asynchronous Distributed Dataflow for ML and PaLM: Scaling Language Modeling with Pathways
By Paul Barham et al.
如果你认为大规模扩展的工具将是未来AI不可缺少的一部分,那么这是你所需要的谷歌对未来的计划。它包含了最新的5400亿参数的巨大Transformer。
本文是 Google 的Pathways 的未来路径蓝图,“用于硬件加速器的大规模编排层,可在数千个加速器上进行异构并行计算,同时通过其专用互连协调数据传输。”
现有的加速器框架擅长在数据的不同部分并行运行相同的计算,这些部分稍后会同步(又名单程序多数据,SPMD)。Pathways 旨在能够并行计算更多异构计算(又名多程序多数据,MPMD)。
这使得训练和托管模型成为可能,比如刚刚发布的5400亿个参数(密集)的PaLM: Scaling Language Modeling with Pathways⁶,它是在跨越多个pod的6144个TPU v4芯片上进行训练的。这种密集模型是最新的旗舰产品,它在许多零和少样本的NLP任务中实现了最先进的技术,在过程中超过了许多人类的基线。
完整文章
https://www.overfit.cn/post/574315c935e641e58d8d3f379f083094