6.4 代价函数

参考视频: 6 - 4 - Cost Function (11 min).mkv

在这段视频中,我们要介绍如何拟合逻辑回归模型的参数θ。具体来说,我要定义用来 拟合参数的优化目标或者叫代价函数,这便是监督学习问题中的逻辑回归模型的拟合问题。

对于线性回归模型,我们定义的代价函数是所有模型误差的平方和。理论上来说,我们

也可以对逻辑回归模型沿用这个定义,但是问题在于,当我们将 h

x

1

1eT X

带入到

这样定义了的代价函数中时,我们得到的代价函数将是一个非凸函数(non-convex function)。

这意味着我们的代价函数有许多局部最小值,这将影响梯度下降算法寻找全局最小值。

线性回归的代价函数为: J1 1 h

xy 。

m i 2

i

m 2

i1

我们重新定义逻辑回归的代价函数为: J1 Cos th

x, y,其中

hθ(x)与 Cost(hθ(x),y)之间的关系如下图所示:

m

i

i

m

i1

这样构建的 Cost(hθ(x),y)函数的特点是:当实际的 y=1 且 hθ 也为 1 时误差为 0,当 y=1 但 hθ 不为 1 时误差随着 hθ 的变小而变大;当实际的 y=0 且 hθ 也为 0 时代价为 0,当 y=0 但 hθ 不为 0 时误差随着 hθ 的变大而变大。

将构建的 Cost(hθ(x),y)简化如下: 带入代价函数得到:

在得到这样一个代价函数以后,我们便可以用梯度下降算法来求得能使代价函数最小的 参数了。算法为:

求导后得到:

在这个视频中,我们定义了单训练样本的代价函数,凸性分析的内容是超出这门课的范 围的,但是可以证明我们所选的代价值函数会给我们一个凸优化问题。代价函数 J(θ)会是一 个凸函数,并且没有局部最优值。

注:虽然得到的梯度下降算法表面上看上去与线性回归的梯度下降算法一样,但是这里

的 hθ(x)=g(θTX)与线性回归中不同,所以实际上是不一样的。另外,在运行梯度下降算法之 前,进行特征缩放依旧是非常必要的。

一些梯度下降算法之外的选择: 除了梯度下降算法以外,还有一些常被用来令代价函 数最小的算法,这些算法更加复杂和优越,而且通常不需要人工选择学习率,通常比梯度下

降算法要更加快速。这些算法有:共轭梯度(Conjugate Gradient),局部优化法(Broyden fletcher goldfarb shann,BFGS)和有限内存局部优化法(LBFGS) fminunc 是 matlab 和 octave 中都带的一 个最小值优化函数,使用时我们需要提供代价函数和每个参数的求导,下面是 octave 中使 用 fminunc 函数的代码示例:

function [jVal, gradient] = costFunction(theta) jVal = [...code to compute

J(theta)...];

gradient = [...code to compute derivative of J(theta)...];

end

options = optimset('GradObj', 'on', 'MaxIter', '100'); initialTheta = zeros(2,1);

[optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);

在下一个视频中,我们会把单训练样本的代价函数的这些理念进一步发展,然后给出整 个训练集的代价函数的定义,我们还会找到一种比我们目前用的更简单的写法,基于这些推 导出的结果,我们将应用梯度下降法得到我们的逻辑回归算法。