4.3 基于梯度的优化方法【深度学习】

假设有一个函数y = f(x), 其中xy是实数。这个函数的导数(derivative)记为f^{'}(x)\frac{dy}{dx}。导数f^{'}(x)代表y = f(x)在点x处的斜率。换句话说,它表明如何缩放输入的小变化才能在输入获得相应的变化: f(x+\epsilon) \approx f(x) +{\epsilon}f^{'}(x)

因此导数对于最小化一个函数很有用,因为它告诉我们如何更改x来略微地改善y。例如,我们知道对于足够小的\epsilon来说,f(x-sign(f^{'}(x)))是比f(x)小的。因此我们可以将x往导数的反方向移动一小步来减少f(x)。这种技术称为梯度下降(gradient descent).

证明:f(x-sign(f^{'}(x))) < f(x)

第一种情况:f^{'}(x) > 0, 则sign(f^{'}(x)) = 1f(x)在点x处递增。因此f(x-sign(f^{'}(x))) < f(x)

第二种情况:f^{'}(x) < 0, 则sign(f^{'}(x)) = -1f(x)在点x处递减。因此f(x-sign(f^{'}(x))) < f(x)

梯度(gradient)是相对一个向量求导的导数:f的导数是包含所有偏导数的向量,记为{\nabla}_xf(x).梯度的第i个元素是f关于x_i的偏导数。在多维情况下,临界点是梯度中所有元素都为零的点。

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.