【论文学习11】GIANT: Globally Improved Approximate Newton Method for Distributed Optimization

【论文学习11】GIANT: Globally Improved Approximate Newton Method for Distributed Optimization
前言

分布式算法中经常使用梯度信息来进行优化，一阶方法有：SGD、加速SGD、方差减少SGD、随机坐标减少、双坐标提升方法。这些方法减少了本地计算，但同时需要更多迭代次数和更多的通信量。

Summary
- 1. For big-data problems, distributed optimization is very useful.
- 1. If the network is slow, then communication is the bottleneck.
Cost ≈ Computation + Communication

Motivation
- 1. Let worker machines do lots of local computations.
- 1. Communicate as few as possible.
现在communication-efficient 二阶方法有:AIDE、DANE、CoCoA，他们的共同特征就是利用曲线信息来减少迭代次数和通信时间。论文中使用了牛顿法。

1.Gradient and Hessian(海赛矩阵)

为了计算精确的Hessian，驱动程序通过一次Reduce操作来聚合m个Hessian matrices（每个大小为d*d），通信复杂度为，论文中的方法仅需通信复杂度。

2.Approximate NewTon (ANT) Directions

每个worker使用本地数据生成一个local Hessian matrix：

（s为每个worker的随机样本数量，）

ANT direction为：

用该方法计算，需要时间构建一个d*d的稠密矩阵并需要时间去转化。

为了减少计算成本，我们采用共轭梯度算法（CG）来计算ANT方向：

此时，本地 Hessian matrix为：

ANT方向为：

3.Globally Improved ANT (GIANT) Direction

区别在于：

调和平均：

算术平均：（the true Hessian）

如果数据是散列的，调和平均和算术平均非常接近。计算算术平均需要计算d*d的矩阵，而我们的调和平均只需要计算d维向量。

aux information

共轭梯度法（Conjugate Gradient）

共轭梯度法（CG）是介于最速下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点，共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。在各种优化算法中，共轭梯度法是非常重要的一种。其优点是所需存储量小，具有步收敛性，稳定性高，而且不需要任何外来参数.

牛顿法

牛顿法 vs 梯度下降法：

　　从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想。）

　　根据wiki上的解释，从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。

牛顿法的优缺点总结：
- 优点：二阶收敛，收敛速度快；
- 缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。
调和平均数vs算术平均数：https://blog.csdn.net/qixinlei/article/details/98184316?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
优秀博客：https://www.cnblogs.com/shixiangwan/p/7532830.html
ppt链接：http://wangshusen.github.io/slides/2017-GIANT.pdf
相关阅读:
Linux同一机器设置多个IP2019-7-6
使用Apache服务部署静态网站2019-7-5
系统状态检测命令2019-7-5
简单的shell脚本
 常用的系统工作命令2019-7-4
Lnmp架构部署动态网站环境.2019-7-3-1.4
Lnmp架构部署动态网站环境.2019-7-3-1.3
Linux安装ftp服务-详细步骤
 循环删除List集合的元素
 反射-父类获取子类属性并赋值
原文地址：https://www.cnblogs.com/20189223cjt/p/12620824.html

【论文学习11】GIANT: Globally Improved Approximate Newton Method for Distributed Optimization

前言

Summary

Motivation

1.Gradient and Hessian(海赛矩阵)

2.Approximate NewTon (ANT) Directions

3.Globally Improved ANT (GIANT) Direction

aux information

共轭梯度法（Conjugate Gradient）

牛顿法

牛顿法 vs 梯度下降法：

牛顿法的优缺点总结：