Производная и градиент

Функции одной переменной

Производная

Пусть $f \colon \RR \to \RR$ — функция одной переменной.

Производной функции $f$ в точке $x$ называется предел отношения приращения функции к приращению её аргумента, когда приращение аргумента стремится к нулю.

f'(x) \defeq \lim\limits_{\Delta x \to 0} \frac{f(x + \Delta x) - f(x)}{\Delta x}

Если этот предел существует и конечен, функция называется дифференцируемой в точке $x$ .

Производная $f'(x)$ показывает мгновенную скорость изменения функции в точке $x$ . Это главная линейная часть изменения функции. Например, если $f(t)$ — это путь, пройденный телом за время $t$ , то $f'(t)$ — это его мгновенная скорость в момент времени $t$ .

Рассмотрим график функции $y = f(x)$ . Проведём секущую через точки $\bigl( x, f(x) \bigr)$ и $\bigl( x + \Delta x, f(x + \Delta x) \bigr)$ . Посчитаем тангенс угла между секущей и положительной полуосью абсцисс.

k_{\text{сек}} = \frac{f(x + \Delta x) - f(x)}{\Delta x}

При $\Delta x \to 0$ секущая стремится занять положение касательной к графику в точке $\bigl( x, f(x) \bigr)$ . Таким образом, производная равна угловому коэффициенту (тангенсу угла наклона) этой касательной.

f'(x) = \tg \alpha

Уравнение касательной прямой к графику в точке $\bigl( x_0, f(x_0) \bigr)$ имеет вид

y = f(x_0) + f'(x_0) \cdot (x - x_0)

Дифференциал

Дифференциалом функции $df(x)$ называется главная, линейная часть её приращения.

df(x) \defeq f'(x) \, dx

Здесь $dx$ — это произвольное приращение аргумента (дифференциал независимой переменной).

Приращение функции $\Delta f = f(x + dx) - f(x)$ и её дифференциал $df(x)$ связаны соотношением

\Delta f = df(x) + o(dx) = f'(x) \, dx + o(dx)

Наглядно, дифференциал — это приращение ординаты касательной линии при перемещении из точки $x$ в точку $x + dx$ .

Правила дифференцирования

Операция взятия производной является линейным оператором:

(\alpha f + \beta g)' = \alpha f' + \beta g'

Производная произведения вычисляется по правилу Лейбница:

(f \cdot g)' = f' \cdot g + f \cdot g'

Производная частного:

\left( \frac{f}{g} \right)' = \frac{f' \cdot g - f \cdot g'}{g^2}

Производная композиции функции:

(f \compose g)' (x) = \bigl( f(g(x)) \bigr)' = f'(g(x)) \cdot g'(x)

или, в других обозначениях

\frac{df}{dx} = \frac{df}{dg} \cdot \frac{dg}{dx}

Производные высших порядков

Производная сама является функцией, поэтому можно говорить о производной от производной. Это вторая производная:

f''(x) = (f'(x))'

Она характеризует скорость изменения скорости, то есть ускорение. В геометрической интерпретации вторая производная связана с кривизной графика функции.

Аналогично определяются производные третьего и высших порядков.

Производные высших порядков

Производная $n$ -го порядка функции $f \colon \RR \to \RR$ — функция

f^{(n)} (x) = \frac{d^n f}{dx^n} = f\overbrace{'''''''''''}^{n ~\text{раз}} (x)

Производные высших порядков сохраняют все свойства обычных производных. Оператор взятия производной $n$ -го порядка также является линейным, и также работает цепное правило для производной композиции функций.

Отдельного внимания заслуживает обобщённое правило Лейбница для производной $n$ -го порядка произведения функций

(f \cdot g)^{(n)} = \sum\limits_{k=0}^n \binom{n}{k} \, f^{(k)} \, g^{(n-k)}

Теорема Ферма

Если функция $f$ дифференцируема в точке локального экстремума $x_0$ , то $f'(x_0) = 0$ .

Геометрически это означает, что касательная в точке экстремума горизонтальна.

Функции многих переменных

Частная производная

Пусть $f \colon \RR^n \to \RR$ — функция $n$ переменных.

Посмотрим на скорость изменения функции $f$ только по одной из координат $x_j$ . Эта скорость называется частной производной функции $f$ по координате $x_j$ и обозначается $\partial f / \partial x_j$

\frac{\partial f}{\partial x_j} (x) \defeq \lim\limits_{\Delta x_j \to 0} \frac{ f(x_1, x_2, \dotsc, x_{j-1}, x_j + \Delta x_j, x_{j+1} \dotsc, x_n) - f(x_1, x_2, \dotsc, x_{j-1}, x_j, x_{j+1} \dotsc, x_n) }{ \Delta x_j }

Вычисляется частная производная функции $f$ по координате $x_j$ как обычная производная функции $f$ по $x_j$ , при этом все переменные, кроме $x_j$ , считаются константами, не зависящими от $x_j$ .

Например, функция $f(x, y) = x^2 \cdot y + y^2$ :

\frac{\partial f}{\partial x} = \Bigl( x^2 \cdot y + y^2 \Bigr)'_x = 2xy \quad\text{и}\quad \frac{\partial f}{\partial y} = \Bigl( x^2 \cdot y + y^2 \Bigr)'_y = x^2 + 2y

Производная по направлению

Рассмотрим функцию $f \colon \RR^n \to \RR$ . Выберем какое-то направление $\vec v \in \RR^n$ — вектор единичной длины, и посмотрим, как быстро функция $f$ изменяется по этому направлению в какой-то точке $x$ . Этот показатель называется производной $f$ по направлению $\vec v$ и обозначается $\partial f(x) / \partial \vec v$

\frac{\partial f}{\partial \vec v} (x) \defeq \lim\limits_{t \to 0} \frac{f(x + t \cdot \vec v) - f(x)}{t}

Из определения следует, что производная по направлению базисных векторов совпадает с частной производной по единичной координате базисного вектора. Формально,

\frac{\partial f}{\partial \vec e_j} (x) = \frac{\partial f}{\partial x_j} (x), \quad\text{где}~ \vec e_j = \bigl( \underset{\weak{1}}{0}, \underset{\weak{2}}{0}, \dotsc, \underset{\weak{j-1}}{0}, \underset{\weak{j}}{1}, \underset{\weak{j+1}}{0}, \dotsc, \underset{\weak{n}}{0} \bigr)^\T

Производную по направлению $\vec v = v_1 \vec e_1 + v_2 \vec e_2 + \dotsb + v_n \vec e_n$ можно записать через частные производные

\frac{\partial f}{\partial \vec v} (x) = v_1 \cdot \frac{\partial f}{\partial \vec e_1} (x) + v_2 \cdot \frac{\partial f}{\partial \vec e_2} (x) + \dotsb + v_n \cdot \frac{\partial f}{\partial \vec e_n} (x) = v_1 \cdot \frac{\partial f}{\partial x_1} (x) + v_2 \cdot \frac{\partial f}{\partial x_2} (x) + \dotsb + v_n \cdot \frac{\partial f}{\partial x_n} (x)

Градиент

Для функции $f \colon \RR^n \to \RR$ градиентом в точке $x$ называется вектор, показывающий направление наискорейшего подъема из этой точки $x$ . Градиент — вектор, составленный из частных производных:

\nabla f (x) \defeq \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \cdots, \frac{\partial f}{\partial x_n} \right)^\T

Длина градиента $\|\nabla f (x)\|$ показывает максимально возможную скорость изменения функции $f$ в точке $x$ .

Через градиент функции $f$ можно выразить производную по направлению $\vec v$ . А именно, разложив

\frac{\partial f}{\partial \vec v} (x) = \nabla f (x) ^\T \cdot \vec v

Из равенства $\partial f (x) / \partial \vec v = \nabla f (x) ^\T \cdot \vec v$ и свойств скалярного произведения получаем, что

\frac{\partial f}{\partial \vec v} (x) = \| \nabla f (x) \| \cdot \| \vec v \| \cdot \cos \theta

Значение $\partial f (x) / \partial \vec v$ максимально, когда $\cos \theta = 1$ , то есть когда направление $\vec v$ совпадает с направлением градиента $\nabla f (x)$ . Значит, градиент $\nabla f (x)$ действительно является направлением наискорейшего роста функции в точке $x$ .

Если $\cos \theta = 0$ , то есть если $\vec v \perp \nabla f (x)$ , скалярное произведение равно $0$ . Значит, функция $f$ не изменяется в направлении, перпендикулярном направлению градиента $\nabla f (x)$ . То есть градиент всегда перпендикулярен линиям уровня функции.

Теорема Ферма для функции многих переменных

У функции $f \colon \RR^n \to \RR$ точка $x$ является точкой экстремума тогда и только тогда, когда $\nabla f (x) = \0$ .

Свойства градиента и производных

Операция взятия частной производной $\partial f / \partial x_j$ , равно как и операция обычного дифференцирования $d / dx$ , является линейным оператором:

\frac{\partial}{\partial x_j} (\alpha f + \beta g) = \alpha \cdot \frac{\partial f}{\partial x_j} + \beta \cdot \frac{\partial g}{\partial x_j}

Применим это правило ко всем компонентам градиента, можно получить свойство линейности градиента:

\nabla (\alpha f + \beta g) = \alpha \cdot \nabla f + \beta \cdot \nabla g

Для градиента существует аналог правила Лейбница (это про производную произведения):

\nabla (f \cdot g) = f \cdot \nabla g + \nabla f \cdot g

Работаем мы с функциями $f \colon \RR^n \to \RR$ , у которых $\dom f = \RR^n$ и $\codom f = \RR$ , поэтому какого-то красивого цепного правила не получается придумать. Однако, можно привести следующий факт в качестве заменителя цепного правила

Для функций $f \colon \RR^n \to \RR$ и $h \colon \RR \to \RR$

\nabla \bigl( h \compose f \bigr) (x) = h' \bigl( f(x) \bigr) \cdot \nabla f (x)

Для функции $f \colon \RR^n \to \RR$ и любых $1 \le i, j \le n$

\frac{\partial}{\partial x_i} \cdot \frac{\partial}{\partial x_j} \cdot f = \frac{\partial}{\partial x_j} \cdot \frac{\partial}{\partial x_i} \cdot f

То есть результат взятия нескольких частных производных не зависит от порядка дифференцирования. По этому производные высших порядков обозначаются просто $\partial^2 f / \partial x_i \partial x_j$

Линеаризация

Попробуем приблизить функцию $f \colon \RR^n \to \RR$ гиперплоскостью в точке $a \in \RR^n$ .

Линеаризация функции

Для функции $f \colon \RR^n \to \RR$ и любой точки $a \in \RR^n$

f(x) = f(a) + \nabla f (a) ^\T \cdot (x-a) + o \bigl( \| x-a \| \bigr)

Возьмем какую-то точку $x \in \RR^n$ и вычислим производную по направлению $(x-a)/\|x-a\|$ .

\nabla f (a) ^\T \cdot (x-a) / \| x-a \| = \frac{\partial f}{\partial (x-a) / \| x-a \|} (a) = \lim\limits_{t \to 0} \frac{f \bigl( a + (x - a) / \| x-a \| \cdot t \bigr) - f(x)}{t}

Применяем тот факт, что $\lim\limits_{x \to 0} f(x) = c \Leftrightarrow f(x) = c + o(1)$ и подставляя $t = \|x-a\|$

\frac{f \bigl( a + (x-a) / \|x-a\| \cdot \|x-a\| \bigr)}{\|x-a\|} = \nabla f (a) ^\T \cdot (x-a) + o(1)

Умножив всё на $\|x-a\|$ получим формулу линеаризации

f(x) = f(a) + \nabla f (a) ^\T \cdot (x-a) + o \bigl( \| x-a \| \bigr)

Объявив $x-a = \Delta x$ можно получить другой вид этой формулы, который часто используется в методах оптимизации и методах численного решения уравнений для записи шага итеративного процесса.

f(x + \Delta x) = f(x) + \nabla f(x) ^\T \cdot \Delta x + o \bigl( \| \Delta x \| \bigr)

Многомерные функции

Посмотрим теперь на функции $f \colon \RR^n \to \RR^m$ .

F(x) = F(x_1, x_2, \dotsc, x_n) = \pmatrix{F_1 (x_1, x_2, \dotsc, x_n) \\ F_2 (x_1, x_2, \dotsc, x_n) \\ \vdots \\ F_m (x_1, x_2, \dotsc, x_n)}

Матрица Якоби и якобиан.

Матрица Якоби $\J F$ для функции $F \colon \RR^n \to \RR^m$ — матрица производных

\J F (x) \defeq \frac{\partial (F_1, F_2, \dotsc, F_m)}{\partial (x_1, x_2, \dotsc, x_n)} \defeq \pmatrix{\nabla F_1 (x) \\ \nabla F_2 (x) \\ \vdots \\ \nabla F_m (x)} = \pmatrix{ \partial F_1 / \partial x_1 & \partial F_1 / \partial x_2 & \partial F_m / \partial x_3 & \cdots & \partial F_1 / \partial x_n \\ \partial F_2 / \partial x_1 & \partial F_2 / \partial x_2 & \partial F_m / \partial x_3 & \cdots & \partial F_2 / \partial x_n \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \partial F_m / \partial x_1 & \partial F_m / \partial x_2 & \partial F_m / \partial x_3 & \cdots & \partial F_m / \partial x_n \\ }

F(x + \Delta x) = F(x) + \J F (x) \cdot \Delta x + o \bigl( \| \Delta x \| \bigr)

Упражнения

Гиперповерхность $S$ задана уравнением $F(x) = 0$ , где $F \colon \RR^n \to \RR$ — гладкая функция.

В точке $x \in \RR^n$ , лежащей на $S$ , градиент $\nabla F (x) \neq \0$ . Покажите, что множество всех таких векторов $v = (dx_1, dx_2, \dotsc, dx_n)^\T$ , что $\nabla F (x) \cdot v = 0$ образует касательную гиперплоскость к $S$ в точке $x$ .

Рассмотрим преобразование координат $\Phi \colon [0, +\oo) \times [0, 2\pi] \to \RR^2$ , заданное как $(r, \varphi) \mapsto (r \cos \varphi, r \sin \varphi)$ . Это обычное преобразование из полярных координат в прямоугольные.

Вычислите матрицу Якоби $\jacobi \Phi$ этого преобразования. В каких точках это отображение является локально обратимым? Как обратимость связана с якобианом $|\jacobi \Phi|$ ?

Покажите, что линеаризация отображения $\Phi$ в точке $(r, \varphi)$ переводит маленький прямоугольник со сторонами $\Delta r$ и $\Delta \varphi$ в сектор кольца. Используя свойства якобиана, докажите, что элемент площади преобразуется по формуле

dx \, dy = |\jacobi \Phi| \cdot dr \, d\varphi = r \, dr \, d\varphi

Проведите аналогичные рассуждения для сферических координат.

В физическом эксперименте вы измеряете $n$ параметров $x_1, x_2, \dotsc, x_n$ , и по ним вычисляете какую-то величину $f(x_1, x_2, \dotsc, x_n)$ . Каждый из этих параметров вы измеряете с погрешностью, а именно параметр $x_j$ вы измеряете с погрешностью $\Delta x_j$ .

Линеаризуя $f$ , выведите формулу вычисления абсолютной погрешности величины $f(x_1, x_2, \dotsc, x_n)$ ,

Примените полученную формулу. Например, вы попали на неизвестную планету, а на руках у вас только лёгкий стержень длины $l$ . Вам позарез нужно вычислить ускорение свободного падения. Превращая стержень в маятник, вы вычисляете ускорение по формуле $g = 4 \pi l / T^2$ , где $T$ — период колебания маятника. Вычислите погрешность величины $g$ , если погрешность измерения длины маятника $\Delta l$ , и погрешность секундомера $\Delta T$ .

Посмотрим на обычную задачу бинарной классификации с обучающей выборкой

(x_j, y_j) ~\text{при}~ j \in \{1, 2, \dotsc, n\} \quad x_j \in \RR^d \quad y_j \in \{0, 1\}

Используем логистическую регрессию с $L_2$ -регуляризацией. Функция потерь

f(w) = - \frac{1}{n} \sum\limits_{j=1}^n \Bigl( y_j \cdot \log \bigl( \sigma (w^\T \cdot x_j) \bigr) + (1-y_j) \cdot \log \bigl( 1 - \sigma (w^\T \cdot x_j) \bigr) \Bigr) + \frac{\lambda}{2} \cdot \|w\|^2

Здесь $w \in \RR^d$ — вектор весов, $\sigma(t) = 1/(1+e^{-t})$ — сигмоида, $\lambda > 0$ — сила регуляризации.

Найдите градиент $\nabla f (w)$ и объясните, как регуляризация помогает бороться с переобучением.