谷歌开源的大模型，新基准

谷歌开源的大模型，新基准

一篇100页的AI论文，有440多个作者，50页的参考文献，这论文想不想看看，这模型想跑下吗？还好，是开源的，无论是论文还是模型，论文名称Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models，论文：https://arxiv.org/abs/2206.04615模型：链接：https://github.com/google/BIG-bench 参考：https://twitter.com/jaschasd/status/1535055886913220608

　　随着规模的扩大，模型的性能和质量都有一定的改进，这当中可能还存在一些变革性影响，但这些性能此前都没有很好的描述。现存的一些基准都有一定的局限性，评估范围比较狭窄，性能分数迅速达到饱和。比如SuperGLUE，在该基准推出后的18个月内，模型就实现了“超过人类水平”的性能。

　　基于这样的背景，BIG-bench就诞生了。目前它由204个任务组成，内容涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。

　　此外还有个人类专家评审团，也执行了所有任务，以提供基线水平。为了方便更多机构使用，研究人员还给出了BIG-bench Lite，一个小型但有代表性的任务子集，方便更快地评估。

　　以及开源了实现基准API的代码，支持在公开可用的模型上进行任务评估，以及新任务的轻量级创建。最终评估结果可以看到，规模横跨六个数量级，BIG-bench上的总体性能随着模型规模的扩大、训练样本数量的增加而提高。但跟人类基线水平相比，还是表现得比较差。

　　具体在一些任务上，模型性能会随着规模的增加而平稳地提高。但有时候，会在特定规模上突然出现突破性表现。

　　此外，它还可以评估模型存在的社会偏见。

　　此外，他们还意外发现模型还可以get一些隐藏技能。比如，如何在国际象棋中合乎规则的移动。

　　值得一提的是，可能因为作者过多，论文最后还专门留了一章写作者贡献。洋洋洒洒的写了14页，其中包括核心贡献者、Review的、提供任务的……

人就像是被蒙着眼推磨的驴子，生活就像一条鞭子；当鞭子抽到你背上时，你就只能一直往前走，虽然连你也不知道要走到什么时候为止，便一直这么坚持着。
相关阅读:
工作记录（1）- js问题
 QComboBox样式
 VLC的一些接口
 Qt使用std::sort进行排序
 如何正确使用QThread
QChartView绘制饼状图
 libcurl编译使用，实现ftp功能
 QSplineSeries QChartView绘制曲线
 QLineSeries QChartView 生成折线
 QChart绘制折线区域
原文地址：https://www.cnblogs.com/guochaoxxl/p/16365909.html