• Master笔记 22711 @GANs N' Roses@GAN指标


    GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)

    知乎分析:论文阅读:GANs N’ Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)

    简单介绍
    人人皆可二次元!小姐姐生成不同风格动漫形象,肤色、发型皆可变
    伊利诺伊大学香槟分校的研究者提出了一种新的 GAN 迁移方法 GANs N’ Roses(简写为 GNR),这一多模态框架使用风格和内容对映射进行直接的形式化(formalization)。简单来讲,研究者展示了一种以人脸图像的内容代码为输入并输出具有多种随机选择风格代码的动漫形象。
    这里的重点在于将根据同一人像一对多地生成不同风格的动漫形象,并且这些动漫形象并非单纯的颜色不同,而是连画风都不一样

    GANs N'Rose 的核心思想是将内容定义为事物所在的位置,将风格定义为事物的外观。这可以通过使用数据增强的思想来实现。选择一组相关的数据增强,在所有条件下:风格是不变的,内容是可变的。注意,这个定义是以数据增强为条件的——不同的数据增强集将导致不同的风格定义。

    GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation の解説!
    博客认为,该模型的多模态体现在内容表示(人脸图像)跟风格表示(动漫形象)这两个方面(コンテンツ表現(顔画像)とスタイル表現(アニメ画像))

    入力画像をデータ拡張し、それを1バッチとして学習しています

    对输入的人像进行数据增强(旋转、缩放、平移、剪切等),将同一图像的不同增强结果作为一个batch进行学习。这时它们的风格一致,但内容略有不同。

    損失は、バッチにおけるスタイルコードの一貫性 + サイクル一貫性 + Dicriminatorにおける識別誤差になります

    最终的损失应该是生成对抗损失、风格一致性损失跟循环一致性损失的总和,
    \(L = \lambda_{adv}L_{adv} + \lambda_{scon}L_{scon} + \lambda_{cyc}L_{cyc}\)

    整体思想跟CycleGAN挺像,但通过数据增强来做风格学习这种想法挺有意思的

    有真实参照的图像质量的客观评估指标:SSIM、PSNR和LPIPS

    https://zhuanlan.zhihu.com/p/309892873

    学习感知图像块相似度(Learned Perceptual Image Patch Similarity, LPIPS)
    学习感知图像块相似度也称为“感知损失”(perceptual loss),用于度量两张图像之间的差别。来源于CVPR2018的一篇论文《The Unreasonable Effectiveness of Deep Features as a Perceptual Metric》,该度量标准学习生成图像到Ground Truth的反向映射强制生成器学习从假图像中重构真实图像的反向映射,并优先处理它们之间的感知相似度。LPIPS 比传统方法(比如L2/PSNR, SSIM, FSIM)更符合人类的感知情况。LPIPS的值越低表示两张图像越相似,反之,则差异越大。

    GAN评价指标代码(FID、LPIPS、MS-SSIM)

    https://blog.csdn.net/iiiiiiimp/article/details/123946075

    FID
    官方链接:https://github.com/mseitzer/pytorch-fid
    描述:FID越小,表示生成图片越多样、质量越好。

    LPIPS
    官方链接:https://github.com/richzhang/PerceptualSimilarity
    描述:LPIPS越高意味着图片与原图更多不同,越低意味着与原图更相似

    MS-SSIM
    链接:https://blog.csdn.net/m0_63642362/article/details/123297405
    描述:接近1的值表示更好的图像质量,接近0的值表示较差的质量

    GANs N’ Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)

    论文:https://arxiv.org/abs/2106.06561
    代码:https://github.com/mchong6/GANsNRoses

    We adopt a specific definition: content is what changes when face images are subject to a family of data augmentation transformations, and style is what does not change.

    内容是指当人脸图像受到一系列数据增强转换时变化的部分,而风格则是不变的部分

    the definition means that content is where parts of the face are in the image, and style is how the parts of the face are rendered

    定义意味着内容(本质上)是面部部分在图像中的位置,风格是面部部分的渲染方式。

    A significant limitation of these works is the lack of diversity of the output images due to their unimodal mapping. This is inherently limiting as image-to-image translation is generally a multimodal problem.

    这些(图像到图像转换相关, I2I)工作的一个重要限制是,由于其单一模态/单峰映射,输出图像缺乏多样性。这是固有的局限性,因为图像到图像的转换通常是一个多模态问题(指各种不同风格不同分布的域之间转换?)。

    The key idea of GANs N’ Roses to define content as where things are and style as what they look like.
    This can be made crisp using the idea of data augmentations. Choose a collection of relevant data augmentations: style is all that is invariant under any of these, content is all that is not.

    GANs N’Rose的核心理念是将内容定义为事物所在的位置,将风格定义为事物的外观。
    这可以通过使用数据增强的思想来实现。选择一组相关的数据增强:样式是任一增强方式作用后都不变的部分,会改变的都是内容

  • 相关阅读:
    个性化联邦学习算法框架发布,赋能AI药物研发
    ES入门 (2) 数据格式/类型
    ES入门 (1) 使用基础(1)安装(1) WIN 单机
    Java 之 JDBC:(十)Spring的JDBCTemplate
    Java 之 JDBC:(九)Apache-DBUtils实现CRUD操作
    Java 之 JDBC:(八)数据库连接池
    Java 之 JDBC:(七)DAO及相关实现类
    Java 之 JDBC:(六)数据库事务
    Java 之 JDBC:(五)批量插入
    第七节:循环结构
  • 原文地址:https://www.cnblogs.com/Stareven233/p/16465376.html
Copyright © 2020-2023  润新知