Производной функции f в точке x называется предел отношения приращения функции
к приращению её аргумента, когда приращение аргумента стремится к нулю.
f′(x)=defΔx→0limΔxf(x+Δx)−f(x)
Если этот предел существует и конечен, функция называется дифференцируемой в точке x.
Производная f′(x) показывает мгновенную скорость изменения функции в точке x.
Это главная линейная часть изменения функции.
Например, если f(t) — это путь, пройденный телом за время t,
то f′(t) — это его мгновенная скорость в момент времени t.
Рассмотрим график функции y=f(x).
Проведём секущую через точки (x,f(x)) и (x+Δx,f(x+Δx)).
Посчитаем тангенс угла между секущей и положительной полуосью абсцисс.
kсек=Δxf(x+Δx)−f(x)
При Δx→0 секущая стремится занять положение касательной к графику в точке (x,f(x)).
Таким образом, производная равна угловому коэффициенту (тангенсу угла наклона) этой касательной.
f′(x)=tgα
Уравнение касательной прямой к графику в точке (x0,f(x0)) имеет вид
y=f(x0)+f′(x0)⋅(x−x0)
Дифференциал
Дифференциалом функции df(x) называется главная, линейная часть её приращения.
df(x)=deff′(x)dx
Здесь dx — это произвольное приращение аргумента (дифференциал независимой переменной).
Приращение функции Δf=f(x+dx)−f(x) и её дифференциал df(x) связаны соотношением
Δf=df(x)+o(dx)=f′(x)dx+o(dx)
Наглядно, дифференциал — это приращение ординаты касательной линии
при перемещении из точки x в точку x+dx.
Правила дифференцирования
Операция взятия производной является линейным оператором:
(αf+βg)′=αf′+βg′
Производная произведения вычисляется по правилу Лейбница:
(f⋅g)′=f′⋅g+f⋅g′
Производная частного:
(gf)′=g2f′⋅g−f⋅g′
Производная композиции функции:
(f∘g)′(x)=(f(g(x)))′=f′(g(x))⋅g′(x)
или, в других обозначениях
dxdf=dgdf⋅dxdg
Производные высших порядков
Производная сама является функцией, поэтому можно говорить о производной от производной.
Это вторая производная:
f′′(x)=(f′(x))′
Она характеризует скорость изменения скорости, то есть ускорение.
В геометрической интерпретации вторая производная связана с кривизной графика функции.
Аналогично определяются производные третьего и высших порядков.
Производные высших порядков
Производная n-го порядка функции f:R→R — функция
f(n)(x)=dxndnf=f′′′′′′′′′′′nраз(x)
Производные высших порядков сохраняют все свойства обычных производных.
Оператор взятия производной n-го порядка также является линейным,
и также работает цепное правило для производной композиции функций.
Отдельного внимания заслуживает обобщённое правило Лейбница
для производной n-го порядка произведения функций
(f⋅g)(n)=k=0∑n(kn)f(k)g(n−k)
Теорема Ферма
Если функция f дифференцируема в точке локального экстремума x0,
то f′(x0)=0.
Геометрически это означает, что касательная в точке экстремума горизонтальна.
Функции многих переменных
Частная производная
Пусть f:Rn→R — функция n переменных.
Посмотрим на скорость изменения функции f только по одной из координат xj.
Эта скорость называется частной производной функции f по координате xj и обозначается ∂f/∂xj
Вычисляется частная производная функции f по координате xj как обычная производная функции f по xj,
при этом все переменные, кроме xj, считаются константами, не зависящими от xj.
Например, функция f(x,y)=x2⋅y+y2:
∂x∂f=(x2⋅y+y2)x′=2xyи∂y∂f=(x2⋅y+y2)y′=x2+2y
Производная по направлению
Рассмотрим функцию f:Rn→R.
Выберем какое-то направление v∈Rn — вектор единичной длины, и посмотрим,
как быстро функция f изменяется по этому направлению в какой-то точке x.
Этот показатель называется производнойfпо направлениюv и обозначается ∂f(x)/∂v
∂v∂f(x)=deft→0limtf(x+t⋅v)−f(x)
Из определения следует, что производная по направлению базисных векторов
совпадает с частной производной по единичной координате базисного вектора.
Формально,
Для функции f:Rn→Rградиентом в точке x называется вектор, показывающий направление наискорейшего подъема из этой точки x.
Градиент — вектор, составленный из частных производных:
∇f(x)=def(∂x1∂f,∂x2∂f,⋯,∂xn∂f)T
Длина градиента ∥∇f(x)∥ показывает максимально возможную
скорость изменения функции f в точке x.
Через градиент функции f можно выразить производную по направлению v.
А именно, разложив
∂v∂f(x)=∇f(x)T⋅v
Из равенства ∂f(x)/∂v=∇f(x)T⋅v и свойств скалярного произведения получаем, что
∂v∂f(x)=∥∇f(x)∥⋅∥v∥⋅cosθ
Значение ∂f(x)/∂v максимально, когда cosθ=1,
то есть когда направление v совпадает с направлением градиента ∇f(x).
Значит, градиент ∇f(x) действительно является направлением
наискорейшего роста функции в точке x.
Если cosθ=0, то есть если v⊥∇f(x),
скалярное произведение равно 0.
Значит, функция f не изменяется в направлении,
перпендикулярном направлению градиента ∇f(x).
То есть градиент всегда перпендикулярен линиям уровня функции.
Теорема Ферма для функции многих переменных
У функции f:Rn→R точка x является точкой экстремума
тогда и только тогда, когда ∇f(x)=0.
Свойства градиента и производных
Операция взятия частной производной ∂f/∂xj,
равно как и операция обычного дифференцирования d/dx, является линейным оператором:
∂xj∂(αf+βg)=α⋅∂xj∂f+β⋅∂xj∂g
Применим это правило ко всем компонентам градиента, можно получить свойство линейности градиента:
∇(αf+βg)=α⋅∇f+β⋅∇g
Для градиента существует аналог правила Лейбница (это про производную произведения):
∇(f⋅g)=f⋅∇g+∇f⋅g
Работаем мы с функциями f:Rn→R,
у которых domf=Rn и codomf=R,
поэтому какого-то красивого цепного правила не получается придумать.
Однако, можно привести следующий факт в качестве заменителя цепного правила
Для функций f:Rn→R и h:R→R
∇(h∘f)(x)=h′(f(x))⋅∇f(x)
Для функции f:Rn→R и любых 1⩽i,j⩽n
∂xi∂⋅∂xj∂⋅f=∂xj∂⋅∂xi∂⋅f
То есть результат взятия нескольких частных производных не зависит от порядка дифференцирования.
По этому производные высших порядков обозначаются просто ∂2f/∂xi∂xj
Линеаризация
Попробуем приблизить функцию f:Rn→R гиперплоскостью в точке a∈Rn.
Линеаризация функции
Для функции f:Rn→R и любой точки a∈Rn
f(x)=f(a)+∇f(a)T⋅(x−a)+o(∥x−a∥)
Возьмем какую-то точку x∈Rn и вычислим производную по направлению (x−a)/∥x−a∥.
Применяем тот факт, что x→0limf(x)=c⇔f(x)=c+o(1) и подставляя t=∥x−a∥
∥x−a∥f(a+(x−a)/∥x−a∥⋅∥x−a∥)=∇f(a)T⋅(x−a)+o(1)
Умножив всё на ∥x−a∥ получим формулу линеаризации
f(x)=f(a)+∇f(a)T⋅(x−a)+o(∥x−a∥)
Объявив x−a=Δx можно получить другой вид этой формулы,
который часто используется в методах оптимизации и методах численного решения уравнений
для записи шага итеративного процесса.
Гиперповерхность S задана уравнением F(x)=0,
где F:Rn→R — гладкая функция.
В точке x∈Rn, лежащей на S, градиент ∇F(x)=0.
Покажите, что множество всех таких векторов v=(dx1,dx2,…,dxn)T, что ∇F(x)⋅v=0 образует касательную
гиперплоскость к S в точке x.
2
Рассмотрим преобразование координат Φ:[0,+∞)×[0,2π]→R2,
заданное как (r,φ)↦(rcosφ,rsinφ).
Это обычное преобразование из полярных координат в прямоугольные.
Вычислите матрицу Якоби JΦ этого преобразования.
В каких точках это отображение является локально обратимым?
Как обратимость связана с якобианом ∣JΦ∣?
Покажите, что линеаризация отображения Φ в точке (r,φ) переводит маленький прямоугольник
со сторонами Δr и Δφ в сектор кольца.
Используя свойства якобиана, докажите, что элемент площади преобразуется по формуле
dxdy=∣JΦ∣⋅drdφ=rdrdφ
Проведите аналогичные рассуждения для сферических координат.
3
В физическом эксперименте вы измеряете n параметров x1,x2,…,xn,
и по ним вычисляете какую-то величину f(x1,x2,…,xn).
Каждый из этих параметров вы измеряете с погрешностью,
а именно параметр xj вы измеряете с погрешностью Δxj.
Примените полученную формулу.
Например, вы попали на неизвестную планету, а на руках у вас только лёгкий стержень длины l.
Вам позарез нужно вычислить ускорение свободного падения.
Превращая стержень в маятник, вы вычисляете ускорение по формуле g=4πl/T2,
где T — период колебания маятника.
Вычислите погрешность величины g, если погрешность измерения
длины маятника Δl, и погрешность секундомера ΔT.
4
Посмотрим на обычную задачу бинарной классификации с обучающей выборкой
(xj,yj)приj∈{1,2,…,n}xj∈Rdyj∈{0,1}
Используем логистическую регрессию с L2-регуляризацией. Функция потерь