• 【CafeNet】2021-ICLR-Locally Free Weight Sharing for Network Width Search-论文阅读


    CafeNet

    2021-ICLR-Locally Free Weight Sharing for Network Width Search

    来源:ChenBong 博客园

    • Institute:University of Sydney,SenseTime,THU
    • Author:Xiu Su,Shan You,Chen Qian,Chang Xu
    • GitHub:/
    • Citation:2

    Introduction

    基于超网训练的网络通道宽度搜索;确定每层宽度后,不是 fix-pattern(固定选择 left n 个通道),而是local-free(一部分固定选择,一部分自由选择):

    image-20210328133758057

    Motivation

    • 之前的超网训练都是 fix-pattern(取left n个通道),会降低超网对子网的评估性能

    Contribution

    • 超网训练在选取子网方式上的扩展,将 fix-pattern 扩展为 free-pattern
    • 没有增加太多复杂度

    Method

    训练超网

    考虑第 (i) 维(e.g. 第i层的宽度),fix-pattern 只需要宽度 (c_i) 就可以确定该层的结构。

    local-free pattern 分为2部分(free+fix):

    • free: (I_f(c) ⊂ [c − r : c + r])(|I_f(c)|=r+1) ,其中 (r) 是 free 部分允许的 offset;
    • fix:除了free的部分,剩下的就是fix的部分: (I_b(c) = [0 : c_b]) ,其中 (c_b = max(c − r − 1, 0))
    image-20210328133758057

    搜索子网

    • 进化算法 CafeNet-E
    • 随机 CafeNet-R

    Experiments

    ImageNet

    image-20210328140215881

    CIFAR10

    image-20210328140305018

    Other

    image-20210328140335360

    Ablation

    offset r

    image-20210328140408056

    作者认为 r 增大带来采样空间的增大,进而导致训练时间增加(只有在 要保证每个子网都能得到相同程度的训练的前提下,超网训练时间才会增加,否则训练时间应该是可以手动设置成相同的)

    然而 r 增大虽然导致子网的采样空间增大,但不意味着训练时间的增加,感觉应该在同样的训练时间下,对不同r(0-3)的超网进行训练,并在相同的搜索时间下对比子网 rank 的相关性;如果在不增加超网训练/子网搜索时间的情况下,使用r>=1还可以提高 rank 的相关性,才说明本方法的有效性。

    Training and Searching Epoch

    image-20210328140427561

    表格里比较的是 fix-pattern 增加训练时间和搜索时间的 top-1 性能,想说明本文的方法不是依靠增加训练/搜索时间来提高性能的。

    但本文的 motivation 是通过增大子网空间,来提高超网的预测准确性,即 rank 的相关性,应该直接比较增加训练/搜索时间后的 rank 相关性才对,而不是比较搜索到的子网 top-1。

    Conclusion

    Summary

    pros:

    • 想法简洁

    cons:

    • motivation 是提高子网的采样空间,进而提高超网的预测能力(即提高子网 rank 的相关性),但全文都没有对 rank 相关性进行分析,而只对比了 top-1 的性能差异,但 top-1 更高不能说明超网的预测能力(子网 rank 相关性)更高
    • 看到最后还是不清楚 left fix+right free 的pattern到底能不能提高超网的预测能力
    • 方法很简单,但文章写得很长(附录11页),附录里讨论的感觉是一些不太重要的细节:缩写,更详细的实验结果,网络结构可视化等,有凑篇幅之嫌

    To Read

    Reference

  • 相关阅读:
    02数值类型
    01开班第一节
    oracle 课堂笔记
    错题整理
    多线程下的单例模式
    线程的同步和异步
    九大内置对象!!!
    jsp前三章测试
    Jav开发中的23种设计模式详解(转载)
    java IO 学习笔记
  • 原文地址:https://www.cnblogs.com/chenbong/p/14589860.html
Copyright © 2020-2023  润新知