• 《NAS Neural Architecture Search》


    NAS

    本文的宗旨是对NAS有一个感性的认知,对具体算法的细节可以慢慢补充

    • 组成部分
      • 搜索空间 Search Space
      • 策略 Action/Decision
        • 我们需要一个Controller去从Search Space中采样出优秀的架构
      • 策略评估
        • 需要一个Evaluator来评估获得的架构效果如何,我们希望它尽量快
      • 迭代Decision和Evaluation直到得出最后结果
    • 搜索空间: 包含了对NN的结构定义(有多少哪些层和他们的类型 / 层内的超参数(NxN卷积) / 前驱节点和后续节点直接链接关系(add/Concat)
      • 对搜索空间进行限制以提升速度 (切分为基本单元Cell或者Block)
      • 由于搜索空间是离散的,且搜索空间很大,无法得到一个显示的优化函数,所以是一个黑盒问题
    • 搜索策略(做出决策) - 本质上是一个超参数优化的问题
      • 随机搜索
      • 贝叶斯搜索
      • RL
        • Agent(Controller)完成对网络的结构设计,输出的(Action)是网络结构,Reward是性能最优化
        • 由于结构参数长度不固定,可以用RNN来建模
        • Exmaple: NASNet:预测出基本Block,将预测的Block分为普通(不改变输出结构)以及简约(减少输出尺寸)
        • Example:ENAS: Shared Weights来加速
      • 遗传算法 (Mutation-Based)
        • 将网络结构编码成二进制串(首先分为几个Stage,再在下面分为Node),首先随机若干个初始解,训练所有子网络,计算适应值,随机选择结构交叉,产生后代
        • 在初始化/样本选择/交叉/变异等多个子方向都有改进空间
      • 基于梯度的方法
        • 将离散问题连续化,更好的利用梯度信息
        • 做松弛化,将层之间的链接从0-1松弛为一定概率
        • Exmaple:DARTS,将网络单元表示为有向无环图,可以在搜索架构的同时获得结构参数
    • 策略评估
      • 核心目标:减少训练轮数
      • Example:
        • 在一个小的集(比如降采样的图像)上进行训练
        • 粗训,并排序(有错误可能)
        • 对结果进行预测(外推Extrapolation)
        • Weight-Sharing,避免TrainFromScratch

    Paper Reading

    1. NAS with RL - Google Brain
      • 真的很早,算是开端了
      • 比cifar10上的baseline提了0.1个点,并且快了一丢丢1.05,以及其他的dataset-PennTreebank以及language modeling的task
      • 建立在认为NN的connectivity和structure可以被表达成一个variable-length string(可用RNN做embedding,也就是作为controller)
      • 将采样(RNN生成)出来的子架构进行训练,将Acc作为reward信号,通过Policy Gradient的方式回传去update controller(Original RNN) * 在relatedwork中讲到
      • hyper-param optimization只能够做到在fixed-length的space进行模型优化,且对good initial model比较依赖
      • Bayesian方法可以寻找一个“不定长”的架构,但是不是很有意义 * The controller in Neural Architecture Search is auto-regressive, which means it predicts hyperpa- rameters one a time, conditioned on previous predictions. This idea is borrowed from the decoder in end-to-end sequence to sequence learning. * search space
      • * RNN
      • 将RNN看作一个树的结构 * 不是这是不是语法错误…
    2. Accelerating NAS using performance prediction
      • 核心在于提出predictor来加速evaluation
      • 还搭了一个early stopping * 认为human是从training curve来观察的,本文parameterize了这个过程,训练regression model来预测acc * 对应的counterpart是Bayesian的一些方法
      • 目测是人工设计一些拟合learning curve的base function,然后用expensive的MCMC来拟合
      • 也有用高斯过程核函数的 * 说白了建模的是Training Curve
      • 输出val acc,输入是configuration,在每个time step
      • 做了一个SRM(Sequential Regression model)比如RBM,RandomForest等
    3. eNAS - Efficient Architecture Search by Network Transformation
      • Reusing Weight(Weight Manager)不需要from scratch来训练网络
      • metacontroller采样架构based on Network transformation
      • 依然是Rl Controller - Policy Gradient更新,其action是指导transformation
      • 网络的结构encoder依然是一个Bi-LSTM
      • (也可以认为是muation-based,不过指导mutation产生的不是遗传或者SA这类heuristic的方法,但是是RL-Agent)
        • 有两种Actor形式,Net2Wider或者Net2Deeper
        • Wider用一个公用的sigmoid分类器来生成反馈信息,确定是否在该时刻需要expand
        • Net2Deeper则是是否需要insert一个新的layer
        • Deeper用一个RNN来建模是否需要在某个位置插入一个新层
        • 可以插入新层的位置是预先固定的,依据pooling层的位置把网络分成几个block
    4. BOGCN - Multi-Object Neural Architecture Search via Predictive Network Performance Optimzation
      • Improving Sample Efficiency for Multi-Object
        • multi-object指的是speed-acc trade off
      • Bayesian Opt + GCN
        • BO(Bayesian Optimization) - finding global optim of black-box
        • 用GCN换了原本的BO中的GP,as surrogate of the objective function
          • gp是本身是self-conjugate的,因为其输入和输出同分布
          • 将GCN后面的一些fc层,换成了BLR(Bayesian Linear Regression)
        • GCN的优势在于能够更好的embed图的信息,以及能够处理变长节点
        • GCN只extract network embedding
      • One-shot NAS采用了weight sharing,但是不能保证optimal;Sample-based的更加稳定但是很慢
    5. Learning Transferable Architectures for Scalable Image Recognition
      • Cell-based Search Space (NASNet SS) * Convolutional Blocks Repeated many times * 一般分成N个Normal Cellh后面接一个Reduction Cell
      • Regularization Technique - Schedule Drop Path * 基于RNN的Controller
    6. SMASH: One-Shot Model Architecture Search through HyperNetworks
      • one-shot表示从一个HyperNet中取出架构,不需要training作evaluation,采用weight sharing
      • HyperNet - Training an auxiliary HyperNet to generate weights
        • 加速arch selection
        • 从binary coded到optimal architecture weights的mapping,只训练output layer(?)
        • 其训练是用gardient-based的方式来做到的
      • 选取arch来evluate的方式
        • Memory-bank view,将其作为binary vector
        • 是否意味着会遍历整个search space?
      • 文章中提到了说训练一个arch开始的部分是整体acc的一个insight
        • 一般的方法把arch的perf看作一个black box,用BO或者rs去搜索,也有early-stopping这样的策略
      • 能够抛弃其他所有的hyper-param以及dynamic-regulariaztion的东西
        • 比如lr schedule
        • 比如DropPath之类的东西
    7. Hierarchical Representations for Efficient Architecture Search
      • EA-based
      • hierarchical genetic representation
      • 模仿的是modularized design pattern * 采用了EA,指出最naive的random search也可以获得不错的效果 * flat representation - 将NN作为一个DAG
      • 小的graph motif组成一个大的graph motif
      • * Tournament Selection Search
    8. PNAS - Progressive Neural Architecture Search
      • NO RL or EA, Sequential-Model-Based Method
      • 内部也含了一个predictor
      • LSTM as encoder * Progressive (Simple 2 Complex)
      • Simpler Arch train faster * Cell-based Search Space
    9. Efficient Neural Architecture Search via Parameter Sharing
      • Shared-Weights
      • Controller在一个庞大的Compuation Graph上搜索Subgraph作为子图
      • 对于child modules Share Parameter
        * RNN Controller
        • 采样出链接关系
        • 以及node是什么
      • 这个controller是怎么训练的?
        • Policy Gradient?
    10. DARTS
      • 将原先的离散搜索,改为Differentiable方式(Relax the Search space to be Differentiable)
      • 核心在于如何修改Search Space * Search Space如何设计
      • 一个Cell是一个DAG,Node是一个latent representation(代表Feature Map),每个有向的边和某种操作(Op)有关
        • 每个op以softmax来relax,取各个实际操作(Max-pool/Conv/No)发生的概率
      • 认为每个cell有两个输入一个输出,对卷积层输入来自previous 2 layer(? 2度近邻居?)
      • N=7 Node,没有strided * Bi-level Optimization
      • Learn Arch and Weight at the same time
      • 注意实际对alpha导数是用的,而不是单纯的 partial{L_val}/partrial{alpha}
        • *
    11. NAS Survey

    12. NAO-Neural Architecture Optimization
      • Discrete -> Continuos
        • 包含了一个encoder,将arch映射到一个连续空间,同时还搭配一个decoder
        • 还有predictor
      • 与此类似的是DARTS,说DARTS认为最好的arch是当前weight下的argmax,而NAO直接用一个decoder映射回模型
        • 还有一支是Bayesian Optimization,作者认为GP的性能于Covariance Function的设计强相关
      • Search Space设计
        • 两步,首先决定1)which 2 previous nodes as inputs 2)确定要用什么op
      • symmetric的design:为了保证symmetric的模型(实际上是一个模型)的embedding一致,predictor给出差不多的结果
        • 用了Augmentation(flip)来训练encoder
      • Encoder和Decoder都是LSTM,predictor是一个mean-pooling加mlp
      • 三者Jointly Train
        • 认为predictor could work as regularization去避免encoder只对应decoder的结果,而没有正常表征
          • 这一步和传统VAE中的加noise一致
      • 认为weight-sharing和NAO是complementary的
    13. SNAS-Stochastic NAS

    14. SemiNAS
      • 用Controller(其实是里面的predictor)去在大量无标注的arch上做标注(不经过Evaluation),将新的Data-Pair加入训练
      • 卖点是能够更快的找到比较好的架构,比EA之类的效率更高
        • 但是高的也不是很明显,怀疑是否是NAO带来的而不是Semi带来的(毕竟用自己推断出来的数据来训练自己(但是flow与Self-Supervised又不太一样))
      • 用NAO as example(因为它既可以用在conventional train from scratch也可以做Weight sharing)

    ## Baselines

    AW_NAS

    • ROOT下的base.py定义了MetaClass Components供其他类实现
      • Component包含了:
        • 有Logger
        • 有Set/Get State
        • 以及config
    • ROOT下的Plugin.py ❓ 管理诸如controller/dataset/evaluator取什么组件的,或者说是用来Manage各个Module的?

    Search Space

    实现了一些具体的SearchSpace

    • common.py 中包括了对SearchSpace相关的一些定义
      • SearchSpace <== CellSearchpace <== CNN/RNNSearchSpace
        • 提供了init和一些get以及plot方法
      • 包含了CNN和RNN的
      • (没有实现Hierarchy)

    Datasets

    从Dataset中取数,实现了一个DataSet类

    • BaseDataSet <== Cifar/ImageNet
      • 实现了一些split/get_name等方法
    • ❓:PTB.py - 看上去是维护了一些语料库?(为什么要这么封装)

    Rollout

    含义是NetworkStructure的一个编码,是Conreoller/WeightManager/Trainer都需要的一个InterfaceClass,跨组件之间交流的对象

    • 其中__init__.py内调用了Utils当中的expect方法,列举了每个文件中应该包含的模块
    • BaseRollout <== Rollout / DifferentiableRollout – 描述的是采样出来结构的信息
      • ❓ 一个Rollout和其SearchSapce相关(合理),但是内部为何会有RandomSample方法呢?
      • 一个Rollout包含了
        • 属性
          • arch
          • info
          • SearchSpace
          • candidate_net
        • 方法
          • random_sample_arch
          • 一些plot和get方法
          • ——– Differential 特有的 —————
            • discrete_arch_and_prob
              • 调用了parse:得到最终的DiscreteRollout
              • @Propoerty装饰器将类方法伪装为类属性(只有一个self参数),产生的原因是为了保持一个属性getter和setter方法的精简(如果不用getter/setter又暴露在外面)
      • BaseRollout中有一些抽象方法等待子类去继承
    • Dense.py内比较特殊,定义了Dense的SearchSapce以及Dense的Rollout(继承了Rollout而不是BaseRollout)
    • MNasNet同理
      • ❓ 为啥有个OFA的…
    • Mutation.py 包含了一系列与Mutation-Based相关的组件
      • objetc <== Population (物理意义上是SearchSpace的子集,Mutation中产生的模型集合)
      • CellMutation
      • BaseRollout <== MutationRollout
    • repr方法显示Obj的属性 (那我为啥还在用vars?)

    Controller

    • 负责采样(Sample)出一个Neural Architecture(网络架构)
    • Component <=== BaseController
      • 属性
        • SearchSpace
        • RolloutType
        • Mode
      • 方法
        • SetMode
        • Sample(Sample a Rollout From Population(SearchSpace))
        • Step(Upadte Controller)
        • Summary / Save / Loads
    • Population.py(❓不是说没有实现吗?)
      • 包含了Mutation-Based的Agent训练方法
      • ❓文档中说包含了Bayesian方法,是否是RandomSamplerttr
        • Component <== BaseMutaionSampler <== RandomMutationSampler
          • 内部重要的是sample_mutation方法
        • BaseController <== Population Controller
          • 有一个mutation_Sampler的属性(BaseSampler)
          • ScoreFunction相关
          • ChooseParents
    • dense_controller(Unfinished)
    • BaseController/nn.Module <== DiffController
      • 属性
        • use_prob,是直接使用Probabilty还是relax Sampling
        • gumble_hard:对RelaxedVector前向使用GumbleSoftmax
        • gumble_Temperature
        • _init_nodes / edge_list
      • 方法
        • forward - 执行sample
        • Calc Gradient & Choose Loss
        • Summary
    • rl_networks.py
      • ❓ SCEDULABLE_ATTR 表示?
      • Components <== BaseRlController <== BaseLSTM <== AnchorControlNet / EmbeddedControlNet
        • 属性
          • 一些描述LSTM大小的参数
        • 方法
          • forward - Sample
    • rl_agent.py
      • Component <== BaseRLAgent
        • 属性
          • Controller
        • 方法
          • Step
      • BaseRLAgent <== PGAgent (Policy Gradient)
        • 方法
          • step / _step 方法的区别 ❓
      • BaseRLAgent <== PPOAgent (Proximal Policy Optimization)
    • rl.py
      • BaseRLAgent / nn.Module <== RLController
        • 属性
          • SearchSapce
          • RolloutType
          • ControllerNetwork
          • RLAgent
          • Mode (Train/Eval)
        • 方法
          • step - 计算loss
          • Sample - 获取Rollout

    WeightManager

    与Evaluator联系,因为TrainFromScratch太慢了,所以需要一定程度上ShareWeights或者以其他方式利用之前的Weights

    • base.py
      • Component <== BaseWeightManager
        • 属性
          • SearchSpace
          • RolloutType
        • 方法
          • Assemble_Candidate(via Rollout)
          • Step - Update Weight Manager Accoding to Gradients
      • nn.Module <== CandidateNet
        • Different Forward Methods
        • Get Gradient
        • Train/Eval Queue
    • share.py - **
      • BaseWeightManager / nn.Module <== SharedNet
        • ❓ use_stem?
      • SharedCell <== nn.Module
      • SharedOp <== nn.Module
    • SuperNet.py
      • CandidateNetwork <== SubCandidateNet
      • SharedNet <== SuperNet - (Cell—Based SuperNet)
    • DiffSuperNet.py
      • CandidateNet <== DiffSubCandidateNet
    • dense.py
      • BaseWeightManager <== DenseMorphismWeightManager
        • 属性
          • NoiseType
        • 方法
          • Assemble Rollout
          • add noise
          • widen
          • Deepen

    Trainer

    用来调和(Orchestra)整个搜索过程

    • GenoType ❓

    • async.py
      • 多进程相关
    • base.py
      • Component <== BaseTrainer
        • 属性
          • Cotroller
          • Evaluator
          • RolloutType
        • 方法
          • Setup
    • simple.py
      • BaseTrainer <== SimplerTrainer
        • _evaluator_update
        • _controller_update
        • _backward_rollout_to_controller
        • Train
        • Test
        • derive

    Evaluator

    用来测试Sample出来的Rollout(或者说是CandidateNetwork❓这两者是不是共同,或者说CandidateNetwork在什么时候会选择)

    • base.py
      • Component <== BaseEvaluator
        • 方法
          • Evaluate_Rollout
          • Upadte Rollout / update evaluator
    • mepa.py
    • ❓ MEPA是啥?
      • Component/nn.Module <== LearnableLROutPlaceSGD
      • BaseEvaluator <== MepaEvaluator
    • tune.py
      • BaseEvaluator <== TuneEvaluator

    OPs

    其中列举了一些NN Operator

    • Baseline_Ops.py
      • 一些常见网络的Block,比如VGG/MobileNet等
    • OPs.py
      • 一些自定义的Block和NN组件
        • 类似Conv-BN-Relu

    Objectives

    指定不同的任务的

    • ❓Perfs的全程?这个模块的意义?描述了什么东西,以及在社么场景下使用(这些问题概括下来好像就是我完全没懂这个是干啥的)

    Utils

    Final

  • 相关阅读:
    wamp+phpzendstudio配置xdebug57%解决办法
    【linux学习问题解决】使用aptget安装软件出现unable to locate package的解决办法
    【linux LAMP平台安装】写在前面(一)
    【linux学习问题解决】更改字符界面大小(转)
    [phpcms二次开发]phpcms生成栏目出错,转到模版页面
    [phpcms二次开发]给url规则添加可用更多自定义可用变量
    [phpcms二次开发]实现获取路径linux与windows路径兼容
    控件注册 利用资源文件将dll、ocx打包进exe文件(转)
    C#串口通信:MSComm控件使用详解
    改善C#程序的建议1:非用ICloneable不可的理由
  • 原文地址:https://www.cnblogs.com/cx2016/p/12933589.html
Copyright © 2020-2023  润新知