矩阵的导数与迹

矩阵的导数与迹
https://www.cnblogs.com/crackpotisback/p/5545708.html

矩阵的导数

对于一个将 $m \times n$

的矩阵映射为实数的函数 $f : R^{m \times n} \mapsto R$

$▽_{A} f (A) = [\begin{matrix} \frac{\partial f}{\partial A_{11}} & \dots & \frac{\partial f}{\partial A_{1 n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial f}{\partial A_{m 1}} & \dots & \frac{\partial f}{\partial A_{m n}} \end{matrix}]$

$f : R^{m \times n} \mapsto R$

就是我们下面要介绍的迹。

方阵的迹

对于一个 $n$

$f : R^{m \times n} \mapsto R$

$t r A = \sum_{i = 1}^{n} A_{i i}$

一些有用的性质
1. $t r A B C = t r B C A = t r C A B$
- 这是对三个方阵的积求迹，循环移位后的结果还是一样的，不仅2个方阵或者3个方阵的积求迹满足此性质，对其他更多个数的方阵的积求迹也满足此性质。
- $t r A = t r A^{T}$
- 这个就比较明显了，方阵转置后主对角线上的元素不会变
- $t r (A + B) = t r A + t r B$
- $t r α A = α t r A$
- $▽_{A} t r A B = B^{T}$
这个看起来有点麻烦，下面验证一下，设方阵 $A$

$f : R^{m \times n} \mapsto R$

$A = [\begin{matrix} a & b \\ c & d \end{matrix}]$

$f : R^{m \times n} \mapsto R$

$B = [\begin{matrix} e & f \\ g & h \end{matrix}]$

$f : R^{m \times n} \mapsto R$

$A B = [\begin{matrix} a e + b g & a f + b h \\ c e + d g & c f + d h \end{matrix}]$

$f : R^{m \times n} \mapsto R$

$t r A B = a e + b g + c f + d h$

$f : R^{m \times n} \mapsto R$

$▽_{A} t r A B = [\begin{matrix} e & g \\ f & h \end{matrix}] = B^{T}$
- $▽_{A^{T}} f (A) = (▽_{A} f (A))^{T}$
- $▽ t r A B A^{T} C = C A B + C^{T} A B^{T}$
- $▽_{A} | A | = | A | (A^{- 1})^{T}$
一个在后面用到的等式

$▽_{A^{T}} t r A B A^{T} C = B^{T} A^{T} C^{T} + B A^{T} C$

推导过程如下：

由 $▽_{A^{T}} f (A) = (▽_{A} f (A))^{T}$

$f : R^{m \times n} \mapsto R$

$▽_{A^{T}} t r A B A^{T} C = (▽_{A} t r A B A^{T} C)^{T} = (C A B + C^{T} A B^{T})^{T}$

$f : R^{m \times n} \mapsto R$

$(C A B + C^{T} A B^{T})^{T} = B^{T} (C A)^{T} + (A B^{T})^{T} C = B^{T} A^{T} C^{T} + B A^{T} C$

对 $▽_{θ} J (θ)$

的一点理解

Andrew ng在cs229-notes1中给出了一些公式，貌似还是有些东西并没有很明显的提出来，像我这种渣渣就有点晕。首先是给出的 $J (θ)$

$f : R^{m \times n} \mapsto R$

$J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} = \frac{1}{2} (X θ - \vec{y})^{T} (X θ - \vec{y})$

$f : R^{m \times n} \mapsto R$

$▽_{θ} J (θ) = ▽_{θ} \frac{1}{2} (X θ - \vec{y})^{T} (X θ - \vec{y})$

$f : R^{m \times n} \mapsto R$

$▽_{θ} J (θ) = \frac{1}{2} ▽_{θ} (θ^{T} X^{T} X θ - θ^{T} X^{T} \vec{y} - {\vec{y}}^{T} X θ + {\vec{y}}^{T} \vec{y})$

$f : R^{m \times n} \mapsto R$

$▽_{θ} J (θ) = \frac{1}{2} ▽_{θ} t r (θ^{T} X^{T} X θ - θ^{T} X^{T} \vec{y} - {\vec{y}}^{T} X θ)$

$f : R^{m \times n} \mapsto R$

$▽_{θ} J (θ) = \frac{1}{2} ▽_{θ} (t r θ^{T} X^{T} X θ - 2 t r \vec{y} X θ)$

$f : R^{m \times n} \mapsto R$

$\frac{\partial X^{T} A X}{\partial X} = (A + A^{T}) X$

$f : R^{m \times n} \mapsto R$

$∴ ▽_{θ} J (θ) = X^{T} X θ - X^{T} \vec{y}$

$f : R^{m \times n} \mapsto R$

$θ = (X^{T} X)^{- 1} X^{T} \vec{y}$
相关阅读:
spark调度器FIFO,FAIR
elasticsearch5.6.8 创建TransportClient工具类
 elasticsearch TransportClient bulk批量提交数据
 java 参数来带回方法运算结果
 idea上传代码到git本地仓库
 2020-03-01 助教一周小结（第三周）
2020-02-23 助教一周小结（第二周）
2020-02-16 助教一周小结（第一周）
寻找两个有序数组的中位数
 无重复字符的最长子串
原文地址：https://www.cnblogs.com/fengff/p/9766002.html

矩阵的导数与迹

https://www.cnblogs.com/crackpotisback/p/5545708.html

矩阵的导数

方阵的迹

一些有用的性质

对▽θJ(θ)

的一点理解

对 $▽_{θ} J (θ)$