径向基函数（RBF）神经网络

之前看了流行学习的时候，感觉它很神奇，可以将一个4096维的人脸图像降到3维。然后又看到了可以用径向基网络来将这3维的图像重构到4096维。看到效果的时候，我和小伙伴们都惊呆了（呵呵，原谅我的孤陋寡闻）。见下图，第1和3行是原图像，维度是64x64=4096维，第2和第4行是将4096维的原图像用流行学习算法降到3维后，再用RBF网络重构回来的图像（代码是参考一篇论文写的）。虽然在重构领域，这效果不一定是好的，但对于无知的我，其中的奥妙勾引了我，使我忍不住又去瞻仰了一番。

在说径向基网络之前，先聊下径向基函数（Radical Basis Function，RBF）。径向基函数（Radical Basis Function，RBF）方法是Powell在1985年提出的。所谓径向基函数，其实就是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心c之间欧氏距离的单调函数，可记作k(||x-c||)，其作用往往是局部的，即当x远离c时函数取值很小。例如高斯径向基函数：

当年径向基函数的诞生主要是为了解决多变量插值的问题。可以看下面的图。具体的话是先在每个样本上面放一个基函数，图中每个蓝色的点是一个样本，然后中间那个图中绿色虚线对应的，就表示的是每个训练样本对应一个高斯函数（高斯函数中心就是样本点）。然后假设真实的拟合这些训练数据的曲线是蓝色的那根（最右边的图），如果我们有一个新的数据x1，我们想知道它对应的f(x1)是多少，也就是a点的纵坐标是多少。那么由图可以看到，a点的纵坐标等于b点的纵坐标加上c点的纵坐标。而b的纵坐标是第一个样本点的高斯函数的值乘以一个大点权值得到的，c的纵坐标是第二个样本点的高斯函数的值乘以另一个小点的权值得到。而其他样本点的权值全是0，因为我们要插值的点x1在第一和第二个样本点之间，远离其他的样本点，那么插值影响最大的就是离得近的点，离的远的就没什么贡献了。所以x1点的函数值由附近的b和c两个点就可以确定了。拓展到任意的新的x，这些红色的高斯函数乘以一个权值后再在对应的x地方加起来，就可以完美的拟合真实的函数曲线了。

到了1988年， Moody和 Darken提出了一种神经网络结构，即RBF神经网络，属于前向神经网络类型，它能够以任意精度逼近任意连续函数，特别适合于解决分类问题。

RBF网络的结构与多层前向网络类似，它是一种三层前向网络。输入层由信号源结点组成；第二层为隐含层，隐单元数视所描述问题的需要而定，隐单元的变换函数是RBF径向基函数，它是对中心点径向对称且衰减的非负非线性函数；第三层为输出层，它对输入模式的作用作出响应。从输人空间到隐含层空间的变换是非线性的，而从隐含层空间到输出层空间变换是线性的。

RBF网络的基本思想是：用RBF作为隐单元的“基”构成隐含层空间，这样就可将输入矢量直接（即不需要通过权连接）映射到隐空间。根据Cover定理，低维空间不可分的数据到了高维空间会更有可能变得可分。换句话来说，RBF网络的隐层的功能就是将低维空间的输入通过非线性函数映射到一个高维空间。然后再在这个高维空间进行曲线的拟合。它等价于在一个隐含的高维空间寻找一个能最佳拟合训练数据的表面。这点与普通的多层感知机MLP是不同的。

当RBF的中心点确定以后，这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的，即网络的输出是隐单元输出的线性加权和，此处的权即为网络可调参数。由此可见，从总体上看，网络由输人到输出的映射是非线性的，而网络输出对可调参数而言却又是线性的。这样网络的权就可由线性方程组直接解出，从而大大加快学习速度并避免局部极小问题。

从另一个方面也可以这样理解，多层感知器（包括BP神经网络）的隐节点基函数采用线性函数，激活函数则采用Sigmoid函数或硬极限函数。而RBF网络的隐节点的基函数采用距离函数（如欧氏距离），并使用径向基函数（如Gaussian函数）作为激活函数。径向基函数关于n维空间的一个中心点具有径向对称性，而且神经元的输入离该中心点越远，神经元的激活程度就越低。隐节点的这一特性常被称为“局部特性”。

RBF的设计主要包括两个方面，一个是结构设计，也就是说隐藏层含有几个节点合适。另一个就是参数设计，也就是对网络各参数进行求解。由上面的输入到输出的网络映射函数公式可以看到，网络的参数主要包括三种：径向基函数的中心、方差和隐含层到输出层的权值。到目前为止，出现了很多求解这三种参数的方法，主要可以分为以下两大类：

通过非监督方法得到径向基函数的中心和方差，通过监督方法（最小均方误差）得到隐含层到输出层的权值。具体如下：

（1）在训练样本集中随机选择h个样本作为h个径向基函数的中心。更好的方法是通过聚类，例如K-means聚类得到h个聚类中心，将这些聚类中心当成径向基函数的h个中心。

（2）RBF神经网络的基函数为高斯函数时，方差可由下式求解：

式中c_max 为所选取中心之间的最大距离，h是隐层节点的个数。扩展常数这么计算是为了避免径向基函数太尖或太平。

（3）隐含层至输出层之间神经元的连接权值可以用最小均方误差LMS直接计算得到，计算公式如下：（计算伪逆）（d是我们期待的输出值）

采用监督学习算法对网络所有的参数（径向基函数的中心、方差和隐含层到输出层的权值）进行训练。主要是对代价函数（均方误差）进行梯度下降，然后修正每个参数。具体如下：

（1）随机初始化径向基函数的中心、方差和隐含层到输出层的权值。当然了，也可以选用方法一中的（1）来初始化径向基函数的中心。

（2）通过梯度下降来对网络中的三种参数都进行监督训练优化。代价函数是网络输出和期望输出的均方误差：

然后每次迭代，在误差梯度的负方向已一定的学习率调整参数。

第一种方法在zhangchaoyang的博客上面有C++的实现，只是上面针对的是标量的数据（输入和输出都是一维的）。而在Matlab中也提供了第一种方法的改进版（呵呵，个人觉得，大家可以在Matlab中运行open newrb查看下源代码）。

Matlab提供的一个函数是newrb()。它有个技能就是可以自动增加网络的隐层神经元数目直到均方差满足我们要求的精度或者神经元数数目达到最大（也就是我们提供的样本数目，当神经元数目和我们的样本数目一致时，rbf网络此时的均方误差为0）为止。它使用方法也能简单：

直接把训练样本给它就可以得到一个rbf网络了。然后我们把输入给它就可以得到网络的输出了。

第二种方法在zhangchaoyang的博客上面也有C++的实现，只是上面针对的还是标量的数据（输入和输出都是一维的）。但我是做图像的，网络需要接受高维的输入，而且在Matlab中，向量的运算要比for训练的运算要快很多。所以我就自己写了个可以接受向量输入和向量输出的通过BP算法监督训练的版本。BP算法可以参考这里：BackpropagationAlgorithm ，主要是计算每层每个节点的残差就可以了。另外，我的代码是可以通过梯度检查的，但在某些训练集上面，代价函数值却会随着迭代次数上升，这就很奇怪了，然后降低了学习率还是一样。但在某些简单点的训练集上面还是可以工作的，虽然训练误差也挺大的（没有完全拟合训练样本）。所以大家如果发现代码里面有错误的部分，还望大家告知下。

首先，我测试了一维的输入，需要拟合的函数很简单，就是y=2x。

可以看到，Matlab的是完美拟合啊。我的那个还是均方误差还是挺大的。

然后，我测试了高维的输入，训练样本是通过Matlab的rand(5, 10)来得到的，它生成的是5行10列[0 1]之间的随机数。也就是说我们的样本是10个，每个样本的维度是5维。我们测试的也是很简单的函数y=2x。结果如下：

关于这个结果，我也不说什么了。期待大家发现代码里面错误的地方，然后告知下，非常感谢。

RBF神经网络与BP神经网络的比较

RBF神经网络与BP神经网络都是非线性多层前向网络，它们都是通用逼近器。对于任一个BP神经网络，总存在一个RBF神经网络可以代替它，反之亦然。但是这两个网络也存在着很多不同点，这里从网络结构、训练算法、网络资源的利用及逼近性能等方面对RBF神经网络和BP神经网络进行比较研究。

（1）从网络结构上看。 BP神经网络实行权连接，而RBF神经网络输入层到隐层单元之间为直接连接，隐层到输出层实行权连接。BP神经网络隐层单元的转移函数一般选择非线性函数（如反正切函数），RBF神经网络隐层单元的转移函数是关于中心对称的RBF（如高斯函数）。BP神经网络是三层或三层以上的静态前馈神经网络，其隐层和隐层节点数不容易确定，没有普遍适用的规律可循，一旦网络的结构确定下来，在训练阶段网络结构将不再变化；RBF神经网络是三层静态前馈神经网络，隐层单元数也就是网络的结构可以根据研究的具体问题，在训练阶段自适应地调整，这样网络的适用性就更好了。

（2）从训练算法上看。 BP神经网络需要确定的参数是连接权值和阈值，主要的训练算法为BP算法和改进的BP算法。但BP算法存在许多不足之处，主要表现为易限于局部极小值，学习过程收敛速度慢，隐层和隐层节点数难以确定；更为重要的是，一个新的BP神经网络能否经过训练达到收敛还与训练样本的容量、选择的算法及事先确定的网络结构（输入节点、隐层节点、输出节点及输出节点的传递函数）、期望误差和训练步数有很大的关系。RBF神经网络的训练算法在前面已做了论述，目前，很多RBF神经网络的训练算法支持在线和离线训练，可以动态确定网络结构和隐层单元的数据中心和扩展常数，学习速度快，比BP算法表现出更好的性能。

（3）从网络资源的利用上看。 RBF神经网络原理、结构和学习算法的特殊性决定了其隐层单元的分配可以根据训练样本的容量、类别和分布来决定。如采用最近邻聚类方式训练网络，网络隐层单元的分配就仅与训练样本的分布及隐层单元的宽度有关，与执行的任务无关。在隐层单元分配的基础上，输入与输出之间的映射关系，通过调整隐层单元和输出单元之间的权值来实现，这样，不同的任务之间的影响就比较小，网络的资源就可以得到充分的利用。这一点和BP神经网络完全不同，BP神经网络权值和阈值的确定由每个任务（输出节点）均方差的总和直接决定，这样，训练的网络只能是不同任务的折中，对于某个任务来说，就无法达到最佳的效果。而RBF神经网络则可以使每个任务之间的影响降到较低的水平，从而每个任务都能达到较好的效果，这种并行的多任务系统会使RBF神经网络的应用越来越广泛。

总之，RBF神经网络可以根据具体问题确定相应的网络拓扑结构，具有自学习、自组织、自适应功能，它对非线性连续函数具有一致逼近性，学习速度快，可以进行大范围的数据融合，可以并行高速地处理数据。RBF神经网络的优良特性使得其显示出比BP神经网络更强的生命力，正在越来越多的领域内替代BP神经网络。目前，RBF神经网络已经成功地用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。

rbf原理

所谓径向基函数 (Radial Basis Function 简称 RBF), 就是某种沿径向对称的标量函数。
通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数 , 可记作 k(||x-xc||),
其作用往往是局部的 , 即当x远离xc时函数取值很小。最常用的径向基函数是高斯核函数 ,
形式为 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ)^2) } 其中xc为核函数中心,σ为函数的宽度参数 ,
控制了函数的径向作用范围。在RBF网络中,这两个参数往往是可调的。

可以从两个方面理解 RBF 网络的作用 :
(1)把网络看成对未知函数f(x)的逼近器。
   一般任何函数都可表示成一组基函数的加权和 ,这相当于用隐层单元的输出函数构成一组基函数来逼近f(x)
(2)在RBF网络中以输入层到隐层的基函数输出是一种非线性映射，而输出则是线性的。
   这样,RBF网络可以看成是首先将原始的非线性可分的特征空间变换到另一空间（通常是高维空间）,
   通过合理选择这一变换使在新空间中原问题线性可分,然后用一个线性单元元来解决问题。
在典型的RBE网络中有三组可调参数：隐层基函数中心、方差,以及输出单元的权值。

这些参数的选择有三种常见的方法：
(1)根据经验选择函数中心。
   比如只要训练样本的分布能代表所给问题 ,可根据经验选定均匀分布的M个中心,
   其间距为d，可选取高斯核函数的方为σ=d/sqrt(2*M)。
(2)用聚类方法选择基函数。
    可以各聚类中心作为核函数中心,而以各类样本的方差的某一函数作为各个基函数的宽度参数。
   用(1)或(2)的方法选定了隐层基函旗的参数后,因输出单元是线性单元,它的权值可以简单地用最小二乘法
   直接计算出来。
(3)将三组可调参数都通过训练样本用误差纠正算法求得。
   做法与BP方法类似,分别计算误差e(k)对各组参数的偏导数，然后用迭代求取参数。
   研究表明,用于模式识别问题的RBF网络在一定意义上等价于首先用非参数方法估计出概率密度，
   必然后用它进行分类
http://www.2nsoft.cn/bbs/read.php?tid=741&fpage=2

RBF神经网络

径向基函数（RBF）神经网络

径向基函数（RBF）神经网络

径向基函数解决插值问题

正则化理论

正则化RBF网络

广义RBF网络

并且我将其中其中的C++代码改写成了M文件

RBF神经网络与BP神经网络的比较