2.5 梯度下降

参考视频: 2 - 5 - Gradient Descent (11 min).mkv

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数

J(θ0,θ1) 的最小值。 梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,...,θn),计算代

价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到 到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确 定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组

合,可能会找到不同的局部最小值。

想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算 法中,我们要做的就是旋转 360 度,看看我们的周围,并问自己要在某个方向上,用小碎步 尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你

会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下 山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并 决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点 的位置。

批量梯度下降(batch gradient descent)算法的公式为:

其中 α 是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方 向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速

率乘以代价函数的导数。

在梯度下降算法中,还有一个更微妙的问题,梯度下降中,我们要更新 θ0 和 θ1 ,当 j=0 和 j=1 时,会产生更新,所以你将更新 Jθ0 和 Jθ1。实现梯度下降算法的微妙之处是,在这 个表达式中,如果你要更新这个等式,你需要同时更新 θ0 和 θ1,我的意思是在这个等式中, 我们要这样更新:

θ0:= θ0 ,并更新 θ1:= θ1。 实现方法是:你应该计算公式右边的部分,通过那一部分计算出 θ0 和 θ1 的值,然后同

时更新 θ0 和 θ1。 让我进一步阐述这个过程:

在梯度下降算法中,这是正确实现同时更新的方法。我不打算解释为什么你需要同时更 新,同时更新是梯度下降中的一种常用方法。我们之后会讲到,同步更新是更自然的实现方 法。当人们谈到梯度下降时,他们的意思就是同步更新。

在接下来的视频中,我们要进入这个微分项的细节之中。我已经写了出来但没有真正定 义,如果你已经修过微积分课程,如果你熟悉偏导数和导数,这其实就是这个微分项:

如果你不熟悉微积分,不用担心,即使你之前没有看过微积分,或者没有接触过偏导数

在接下来的视频中,你会得到一切你需要知道,如何计算这个微分项的知识。 下一个视频中,希望我们能够给出实现梯度下降算法的所有知识 。