摘要
由于生成高分辨率图像较为缓慢且复杂,基于Transformer的文本到图像模型的发展阻碍。在这项工作中,研究者提出了一种基于分层Transformer和局部并行自回归生成的解决方案。研究者预训练了一个60亿参数的transformer模型,采用简单灵活的司监督任务、跨模态通用语言模型(CogLM),并通过微调实现快速超分辨率生成。Cogview2相比DALL·E-2具有非常竞争力的乘车结果,并天然支持对图像进行交互式的文本引导编辑。
论文链接:https://arxiv.org/abs/2204.14217