【Research】MLP的BP推导与实现-上

内容包括梯度下降基本原理，矩阵求导基础。

前置知识

在推导之前先复习一下一些基础知识。

一阶导数定义

f^{'} (x) = lim_{Δ x \to 0} \frac{Δ y}{Δ x} = \frac{f (Δ x + x) - f (x)}{Δ x}

多元函数偏导数定义

f_{x 1} (x 1, x 2, . . .) = lim_{Δ x \to 0} \frac{f (x 1 + Δ x, x 2, x 3, . . .) - f (x 1, x 2, x 3, . . .)}{Δ x}

方向导数的定义

偏导数定义只是沿着某个坐标轴方向的导数，多元函数的自变量在某点可以沿无数个方向运动，多元函数沿着某个方向上的变换率称为 ==方向导数== ,它的推导过程如图所示（2个变元的情况）

\begin{array}{l} lim_{t \to 0^{+}} \frac{f (x_{0} + t \cos α, y_{0} + t \sin α) - f (x_{0}, y_{0})}{t} \\ = lim_{t \to 0^{+}} [\frac{f (x_{0} + t \cos α, y_{0} + t \sin α) - f (x_{0}, y_{0} + t \sin α)}{t} + \frac{f (x_{0}, y_{0} + t \sin α) - f (x_{0}, y_{0})}{t}] \\ = lim_{t \to 0} [\frac{f_{x} (ξ_{x}, y_{0} + t \sin α) t \cos α}{t} + \frac{f_{y} (x_{0}, ξ_{y}) t \sin α}{t}], ξ_{x} \in (x_{0}, x_{0} + t \cos α), ξ_{y} \in (y_{0}, y_{0} + t \sin α) \\ = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) s i n α \end{array}

梯度的定义

多元函数在某一点的梯度是一个非常特殊的向量，其由多元函数对每个变量的偏导数组成,（这即是为什么求梯度的时候需要对各个变量求偏导的原因），其方向为函数在该点增加最快的方向，大小（向量的模长）为函数在该点的最大变化率。

将上面的方向导数写成两个向量相乘的格式，就得到了：

f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) s i n α = (\begin{array}{cc} f_{x} (x_{0}, y_{0}) & f_{y} (x_{0}, y_{0}) \end{array}) (\begin{matrix} c o s α \\ s i n α \end{matrix})

设有两个变量 $g = (f_{x} (x_{0}, y_{0}) f_{y} (x_{0}, y_{0}))$ 和 $e_{l} = (c o s α s i n α)$

g \cdot e_{l} = | g | | e_{l} | c o s θ = | g | c o s θ

$θ$ 为两个向量之间的夹角，所以该向量点乘结果（也就是方向导数）

在 $θ = 0$ 的情况下。此时函数的变化率最大，函数呈上升趋势
在 $θ = π$ 的情况下函数的变化率最大，函数呈下降趋势

梯度下降原理

因为梯度指示了函数变化率最大的地方，因此只要每次沿着梯度指示方向的反方向更新当前网络的参数并一直迭代，就可以将 $l o s s$ 函数优化到最低点。

w = w_{j} - α \nabla J (W_{j})

矩阵求导

由于在机器学习中，我们使用最多的数据一般都是向量或者矩阵形式的，很少有标量的情况，因此我们还需要学习矩阵求导的相关知识。

矩阵求导和函数求导还是不太一样的，具体学习可以参考下面这两个链接。矩阵求导的本质就是一个函数 $f u n c t i o n$ 的每一个 $f$ 对变元中的每个元素逐个求偏导。但是在神经网络中一般涉及到的形式一般是输入一组矩阵或者向量，最后输出的 $l o s s$ 值一般为一个标量用于衡量网络的性能。所这里就只考虑 $f$ 是一个矩阵变元的实值标量函数，我们需要使用梯度下降优化这个函数的参数，使该函数的输出值最小。

这里推荐两篇文章，这里只是对这两篇文章的一些总结，更详细的内容可以直接看原文。

矩阵求导术

矩阵求导

矩阵求导布局

分子布局：求导的 $f$ 是列向量的形式，分子 $X$ 是行向量的形式
分母布局：求导的 $f$ 是行向量的形式，分子 $X$ 是列向量的形式

分子布局和分母布局互为转置。

矩阵求导常用的四个法则以及公式

矩阵求导的四个法则跟一元函数求导的法则是一致的，可以直接借鉴过来

\begin{aligned} \frac{\partial C}{\partial X} = 0 \\ \frac{\partial [c_{1} f (x) + c_{2} g (x)]}{\partial z} = c_{1} \frac{\partial f (x)}{\partial z} + c_{2} \frac{\partial g (x)}{\partial z} \\ \frac{\partial [f (x) g (x)]}{\partial z} = \frac{\partial f (x)}{\partial z} g (x) + f (z) \frac{\partial g (z)}{\partial z} \\ \frac{\partial [\frac{f (x)}{g (x)}]}{\partial z} = \frac{1}{g^{2} (x)} [\frac{\partial f (x)}{\partial x} g (z) - f (z) \frac{\partial g (x)}{\partial x}] \end{aligned}

一些补充公式

\begin{aligned} \frac{\partial (x^{T} a)}{\partial x} = \frac{\partial (a^{T} x)}{\partial x} = a \\ \frac{\partial (x^{T} x)}{\partial z} = 2 x \\ \frac{\partial (x^{T} A x)}{\partial x} = A x + A^{T} x \end{aligned}

矩阵求导的进阶技巧

上面写都是矩阵求导的基本法则，类似于使用定义法求一元函数的导数，使用的场合不多，更为常用的方法是使用迹技巧去求解。

首先来看迹的定义：

t r (A) = a_{11} + a_{22} + \dots + a_{n n} = \sum_{i = 1}^{n} a_{i}

一些常见的迹的公式

\begin{aligned} t r (c) = c \\ t r (c_{1} A + c_{2} B) = c_{1} t r (A) + c_{2} t r (B) \\ t r (A) = t r (A^{T}) \\ \underset{―}{t r (A B C) = t r (C A B) = t r (B C A)}, A_{m \times n}, B_{n \times p}, C_{p \times m} \\ t r (A B^{T}) = t r (B^{T} A) = t r (A^{T} B) = t r (B A^{T}) \\ t r (| A |) = | A | t r (A^{- 1} d A) = t r (| A | A^{- 1} d A) \\ t r (A^{T} (B ⊙ C)) = t r ((A ⊙ B)^{T} C) \end{aligned}

注意上面画横线的那个公式的意思是两个矩阵相乘的迹，可以将后一个的矩阵提到前面去，结果不改变。

矩阵乘积的迹，（注意这里迹的表示，这对理解为什么可以利用迹来求导至关重要）

设有两个矩阵， $A_{2 \times 3}$ 和 $B_{3 \times 2}$

A = (\begin{array}{ccc} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \end{array}) B = (\begin{array}{cc} b_{11} & b_{12} \\ b_{21} & b_{22} \\ b_{31} & b_{32} \end{array})

A B = (\begin{array}{ccc} a_{11} b_{11} + a_{12} b_{21} + a_{13} b_{31} & a_{11} b_{12} + a_{12} b_{22} + a_{13} b_{32} \\ a_{21} b_{11} + a_{22} b_{21} + a_{23} b_{31} & a_{21} b_{12} + a_{22} b_{22} + a_{23} b_{32} \end{array}) t r (A B) = a_{11} b_{11} + a_{12} b_{21} + a_{13} b_{31} + a_{21} b_{12} + a_{22} b_{22} + a_{23} b_{32}

如果有 $A = B^{T}$ ，则两个矩阵相乘的迹等于对应位置的元素相乘并相加，可以理解为向量的点积在矩阵上的推广。

设有标量函数 $f (X), X_{m \times n}$ ，求 $d f (X)$

\begin{aligned} d f (X) & = \frac{\partial f}{\partial x_{11}} d x_{11} + \frac{\partial f}{\partial x_{12}} d x_{12} + \dots + \frac{\partial f}{\partial x_{1 n}} d x_{1 n} \\ + \frac{\partial f}{\partial x_{21}} d x_{21} + \frac{\partial f}{\partial x_{22}} d x_{22} + \dots + \frac{\partial f}{\partial x_{2 n}} d x_{2 n} \\ + \dots \\ + \frac{\partial f}{\partial x_{m 1}} d x_{m 1} + \frac{\partial f}{\partial x_{m 2}} d x_{m 2} + \dots + \frac{\partial f}{\partial x_{m n}} d x_{m n} \end{aligned}

可以发现， $d f (X)$ 的结果其实就是两个矩阵 $(\frac{\partial f}{\partial X_{i j}})_{i = 1, j = 1}^{m, n}$ 和 $(d X_{i j})_{i = 1, j = 1}^{m, n}$ 对应位置相乘并相加，所以该式就可以写为迹的形式：

\begin{aligned} d f (X) & = \frac{\partial f}{\partial x_{11}} d x_{11} + \frac{\partial f}{\partial x_{12}} d x_{12} + \dots + \frac{\partial f}{\partial x_{1 n}} d x_{1 n} \\ + \frac{\partial f}{\partial x_{21}} d x_{21} + \frac{\partial f}{\partial x_{22}} d x_{22} + \dots + \frac{\partial f}{\partial x_{2 n}} d x_{2 n} \\ + \dots \\ + \frac{\partial f}{\partial x_{m 1}} d x_{m 1} + \frac{\partial f}{\partial x_{m 2}} d x_{m 2} + \dots + \frac{\partial f}{\partial x_{m n}} d x_{m n} \\ = tr ({[\begin{array}{cccc} \frac{\partial f}{\partial x_{11}} & \frac{\partial f}{\partial x_{21}} & \dots & \frac{\partial f}{\partial x_{m 1}} \\ \frac{\partial f}{\partial x_{12}} & \frac{\partial f}{\partial x_{22}} & \dots & \frac{\partial f}{\partial x_{m 2}} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ \frac{\partial f}{\partial x_{1 n}} & \frac{\partial f}{\partial x_{2 n}} & \dots & \frac{\partial f}{\partial x_{m n}} \end{array}]}_{n \times m} {[\begin{array}{cccc} d x_{11} & d x_{12} & \dots & d x_{1 n} \\ d x_{21} & d x_{22} & \dots & d x_{2 n} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ d x_{m 1} & d x_{m 2} & \dots & d x_{m n} \end{array}]}_{m \times n}) \end{aligned}

所以就可以得出结论： $d f (X) = t r (\frac{\partial f (X)}{\partial X^{T}} d X)$

如何使用矩阵微分求导

对于实值标量函数 $f (X)$ ， $t r (f (X)) = f (X)$ ， $d f (X) = t r (d f (X))$ ，所以有

d f (X) = d (t r (f (X))) = t r (d f (X))

上面的公式表明，迹和求微分是可以交换的

下面计算一个简单的例题：证明正面下面结论。

\begin{aligned} \frac{\partial t r (X^{T} X)}{\partial X} = 2 X \\ \Rightarrow d (t r (X^{T} X)) = t r (d X^{T} X) \\ = t r (d X^{T} X + X^{T} d X) \\ = t r (d X^{T} X) + t r (X^{T} d X) \\ = t r (X d X^{T}) + t r (X^{T} d X) = t r (X^{T} d X) + t r (X^{T} d X) \\ = t r (2 X^{T} d X) \\ \Rightarrow \frac{\partial t r (X^{T} X)}{\partial X} = 2 X \\ \Rightarrow \frac{\partial t r (X^{T} X)}{\partial X^{T}} = 2 X^{T} \end{aligned}

前置知识 ​

一阶导数定义 ​

多元函数偏导数定义 ​

方向导数的定义 ​

梯度的定义 ​

梯度下降原理 ​

矩阵求导 ​

矩阵求导布局 ​

矩阵求导常用的四个法则以及公式 ​

矩阵求导的进阶技巧 ​

如何使用矩阵微分求导 ​

前置知识

一阶导数定义

多元函数偏导数定义

方向导数的定义

梯度的定义

梯度下降原理

矩阵求导

矩阵求导布局

矩阵求导常用的四个法则以及公式

矩阵求导的进阶技巧

如何使用矩阵微分求导