梯度下降(Gradient Descent)

1. 梯度下降

神经网络误差反向传播的过程（BP算法）控制每一层如何寻找最优化参数组合。最常见的优化算法(Optimizer)是梯度下降法（Gradient Descent):

假设有足够的时间和计算资源来计算 $w_1$ 的所有可能值的损失。回归问题所产生的损失值（均方差）与 $w_1$ 的图形始终是凸形。换言之，图形始终是碗状图(可以根据前面Geogebra的体验直接体验），如下：

图 2. 回归问题产生的损失与权重图为凸形。

凸形问题只有一个最低点；即只存在一个斜率正好为 0 的位置。这个最小值就是损失函数收敛之处。

通过计算整个数据集中 $w_1$ 每个可能值的损失函数来找到收敛点效率太低。有一种在机器学习领域非常热门机制，称为梯度下降法。

梯度下降法的第一个阶段是为 $w_1$ 选择一个起始值（起点）。起点并不重要；因此很多算法就直接将 $w_1$ 设为 0 或随机选择一个值。下图显示选择了一个稍大于 0 的起点：

图 3. 梯度下降法的起点。

然后，梯度下降法算法会计算损失曲线在起点处的梯度。梯度是偏导数的矢量；它可以了解哪个方向距离目标“更近”或“更远”。请注意，损失相对于单个权重的梯度（如图 3 所示）就等于导数。

详细了解偏导数和梯度。

涉及机器学习领域的数学非常有趣，我们很高兴您点击了该链接来了解详情。不过请注意，TensorFlow 会为您处理所有的梯度计算过程，因此您其实不必理解此处提供的微积分知识。

偏导数

多变量函数指的是具有多个参数的函数，例如：

$$f(x,y) = e^{2y}sin(x)$$

f 相对于 x 的偏导数表示如下：

$$ \partial f \over \partial x $$

是 f (x) 的导数。要计算以下值：

$$\partial f \over \partial x $$

您必须使 y 保持固定不变（因此 f 现在是只有一个变量 x 的函数），然后取 f 相对于 x 的常规导数。例如，当 y 固定为 1 时，前面的函数变为：

$$ f(x) = e^2sin(x) $$

这只是一个变量 x 的函数，其导数为：

$$ e^2cos(x) $$

一般来说，假设 y 保持不变，f 对 x 的偏导数的计算公式如下：

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}cos(x)$$

同样，如果我们使 x 保持不变，f 对 y 的偏导数为：

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}sin(x) $$

直观而言，偏导数可以让您了解到，当您略微改动一个变量时，函数会发生多大的变化。在前面的示例中：

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

因此，如果您将起点设为 (0,1)，使 y 保持固定不变并将 x 移动一点，f 的变化量将是 x 变化量的 7.4 倍左右。

在机器学习中，偏导数主要与函数的梯度一起使用。

梯度

函数的梯度是偏导数相对于所有自变量的矢量，表示如下：

$$ \nabla f $$

例如，如果：

$$ f(x,y) = e^{2y}sin(x) $$

则：

$$\nabla f(x,y) = (\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)) = (e^{2y}cos(x), 2e^{2y}sin(x))$$

请注意以下几点：

$$\nabla f$$	指向函数增长速度最快的方向。
$$ {-\nabla f} $$	指向函数下降速度最快的方向。

该矢量中的维度个数等于 f 公式中的变量个数；换言之，该矢量位于该函数的域空间内。例如，在三维空间中查看下面的函数 f(x,y) 时：

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

z = f(x,y) 就像一个山谷，最低点为 (2,0,4)：

f(x,y) 的梯度是一个二维矢量，可让您了解向哪个 (x,y) 方向移动时高度下降得最快。也就是说，梯度矢量指向山谷。

在机器学习中，梯度用于梯度下降法。我们的损失函数通常具有很多变量，而我们尝试通过跟随函数梯度的负方向来尽量降低损失函数。

请注意梯度是一个矢量，具有以下两个特征：

方向
大小

梯度始终指向损失函数中增长最为迅猛的方向。梯度下降法算法会沿着负梯度的方向走一步，以便尽快降低损失。

图 4. 梯度下降法依赖于负梯度。

为了确定损失函数曲线上的下一个点，梯度下降法算法会将梯度大小的一部分与起点相加，如下图所示：

图 5. 一个梯度步长将我们移动到损失曲线上的下一个点。

然后，梯度下降法会重复此过程，逐渐接近最低点。

2.学习率(Learn Rate)

梯度矢量具有方向和大小。梯度下降法算法用梯度乘以一个称为学习速率（有时也称为步长）的标量，以确定下一个点的位置。例如，如果梯度大小为 2.5，学习速率为 0.01，则梯度下降法算法会选择距离前一个点 0.025 的位置作为下一个点。

超参数是编程人员在机器学习算法中用于调整的旋钮。大多数机器学习编程人员会花费相当多的时间来调整学习速率。如果您选择的学习速率过小，就会花费太长的学习时间：

图 6. 学习速率过小。

相反，如果您指定的学习速率过大，下一个点将永远在 U 形曲线的底部随意弹跳，就好像量子力学实验出现了严重错误一样：

相同的 U 形曲线。这条曲线包含的点非常少。点的轨迹会跳过 U 形底部，然后再次跳回。

图 7. 学习速率过大。

每个回归问题都存在一个金发姑娘学习速率。“金发姑娘”值与损失函数的平坦程度相关。如果您知道损失函数的梯度较小，则可以放心地试着采用更大的学习速率，以补偿较小的梯度并获得更大的步长。

图 8. 学习速率恰恰好。

拓展：详细了解理想的学习速率。

一维空间中的理想学习速率是

二维或多维空间中的理想学习速率是海森矩阵（由二阶偏导数组成的矩阵）的倒数。

广义凸函数的情况则更为复杂。