• 线性搜索简介


    Numerical Optimization Line Search

    线性搜索简介

    数值优化是迭代式的优化方法,从一个初始点x0开始,然后产生一个迭代方向∇d0,在这个方向上选择一个步长α0,下一个点就是x0+α0∗∇d0。
    按照这样的方法不停的迭代下去,直到找到最优点。在这个过程中有两步是非常重要的。第一步就是计算出迭代方向∇dk,第二步是在这个方向上选择合适的步长 αk,获得下一个点xk+1。
    第一步产生迭代方向 ∇dk 是各种优化方法产生差别的地方,不同的方法有不同的方法生成迭代方向。但是对于不同的迭代方法都有一个最基本的要求,那就是这个方向必须是一个下降方向:∇f(xk)T⋅∇dk<0。其中∇f(xk) 是 xk 的梯度方向。

    第二步称为线性搜索。在这个步骤上不同的方法基本都是相同的。在线性搜索方法中有两个比较重要的部分,首先是停止条件,第二个是步长选择算法。之所以要求满足停止条件而不是仅仅要求函数值有下降,是为了确保优化算法能够正常的收敛。
    线性搜索问题可以如下形式化:

    argminxf(xk+1)=f(xk+α⋅∇x)
    s.t.α≥0
    终止条件

    首先假设当前点 xk 的梯度是 ∇f(xk),当前的迭代方向是 ∇dk,并且满足 ∇f(xk)T⋅∇dk<0,并且当前的选择的步长为 α0。

    Sufficient Descreasement Condition

    这个条件也称为Armijo Condition,描述如下:

    f(xk+α0∇dk)≤f(xk)+α0⋅ρg(xk)T∇dk
    0<ρ<1/2
    其中 ρ 是用户指定的参数,一般来说这个参数的数量级大概为1e−3 或者更低。但是仅仅使用这个条件并不能确保优化过程收敛。
    但是当这个条件配合backtracking搜索方法的时候可以确保优化过程收敛。

    Curvature Condition

    ∇f(xk+α0∇dk)T∇dk≥δ∇f(xk)T∇dk
    s.tρ<δ<1
    对于delta的取值一般比较大,比如0.8,0.9等等。这个值越大,对应的搜索越不精确。

    Wolfe Condition

    Wolfe Condition就是把Sufficient Decreasement Condition和curvature condition合并在一起,表述如下:

    f(xk+α0⋅∇dk)≤f(xk)+ρα0f(xk)T∇dk
    ∇f(xk+α0∇dk)T∇dk≥δ∇f(xk)T∇dk
    s.t0<ρ<δ<1
    一般来说Wolfe Condition是用于拟牛顿方法。

    Strong Wolfe Condition

    f(xk+α0⋅∇dk)≤f(xk)+ρα0f(xk)T∇dk
    ∣∣∇f(xk+1)T∇dk∣∣≤δ∣∣∇f(xk)T∇dk∣∣
    s.t0<ρ<δ<1
    Goldstein Condition

    f(xk+α0∇dk)≤f(xk)+α0⋅ρg(xk)T∇dk
    f(xk+α0∇dk)≥f(xk)+α0⋅(1−ρ)g(xk)T∇dk
    s.t.0<ρ<1/2
    步长选择

    这个一般可以使用多种不同的方法来选择,对于我来说还是喜欢用backtracking方法,主要的原因是这个方法比较简单且容易实现。而且可以配合多种不同的终止条件。

    backtracking

    backtracking基本来说是从某个步长开始,然后不停的缩小步长。知道找到满足终止条件的步长。

    function [retval] = backtrack(x0, d0, f, c1, c2)
    %line search algorithm based on backtracking to find point satisfy strong wolfe condition
    % x0 : current point
    % d0 : search direction
    % f : function will return value and gradient, [f, g] = f(x);
    % 0 < c1 < c2 < 1

    [f0, grad] = f(x0);
    slope = grad' * d0;

    if slope >= 0
    error('must be a descent direction')
    end

    alpha0 = 0;
    alphaMax = 1e2;

    alpha = 1;
    dec = 0.5;
    inc = 2.1;

    while 1

      [current_val, current_grad] = f( x0 + alpha * d0);
      factor = 1;
    
     if current_val > ( f0 + alpha * c1 * slope)
        factor = dec;
     else
      current_slope = current_grad' * d0;
    
      if current_slope < c2 * slope
        factor = inc;
      else
          if current_slope > -c2*slope
         factor = dec;
          else
          break;
          end
      end
      end
    
      if alpha < 1e-15
        warning('too small step size')
      end
    
      if alpha > alphaMax
     warning('too large step size')
      end
    
      alpha = alpha * factor;
    

    end
    retval = alpha;
    end
    总结

    线性搜索的性能对优化问题至关重要,简单且可靠的线性搜索方法可以解决很多的问题。一般来说,Goldstein条件适用于牛顿饭,Wolfe和strong Wolfe条件适用于拟牛顿法

  • 相关阅读:
    Smart Client Architecture and Design Guide
    Duwamish密码分析篇, Part 3
    庆贺发文100篇
    .Net Distributed Application Design Guide
    New Introduction to ASP.NET 2.0 Web Parts Framework
    SPS toplevel Site Collection Administrators and Owners
    来自Ingo Rammer先生的Email关于《Advanced .Net Remoting》
    The newsletter published by Ingo Rammer
    深度探索.Net Remoting基础架构
    信道、接收器、接收链和信道接受提供程序
  • 原文地址:https://www.cnblogs.com/lacozhang/p/3825660.html
Copyright © 2020-2023  润新知