Билинейные и квадратичные формы

Билинейные формы

Билинейная форма

Пусть LL — векторное пространство над полем KK. Билинейной формой называется отображение F ⁣:L×LKF \colon L \times L \to K, линейное по каждому из аргументов и подчиняющееся правилам дистрибутивнисти:

F(x+z,y)=F(x,y)+F(z,y)F(x+z,y)=F(x,y)+F(z,y)
F(x,y+z)=F(x,y)+F(x,z)F(x,y+z)=F(x,y)+F(x,z)

и однородности:

F(λx,y)=λF(x,y)F(\lambda x,y)=\lambda F(x,y)
F(x,λy)=λF(x,y)F(x,\lambda y)=\lambda F(x,y)

для всех x,y,zLx, y, z \in L и λK\lambda \in K.

Рассмотрим любое пространство конечной размерности, например Rn\mathbb{R}^n. Выберем в пространстве произвольный базис E=(e1,e2,,en)\EEE = (\e_1, \e_2, \dotsc, \e_n) и возьмём два произвольных вектора x=(x1,x2,,xn)x = (x_1, x_2, \dotsc, x_n) и y=(y1,y2,,yn)y = (y_1, y_2, \dotsc, y_n).

Векторы xx и yy можно представить в виде x1e1+x2e2++xnenx_1 e_1+x_2 e_2+\dotsc+x_n e_n и y1e1+y2e2++yneny_1 e_1 + y_2 e_2 + \dotsc + y_n e_n соответственно.

Теперь подставим их в F(x,y)F(x,y), применяя правила дистрибутивности и однородности, описанные выше.

Получим,что

F(x,y)=x1y1F(e1,e1)+x1y2F(e1,e2)++x1ynF(e1,en)++xnynF(en,en)F(x,y)=x_1 y_1 F(e_1, e_1) + x_1 y_2 F(e_1, e_2) + \dotsc + x_1 y_n F(e_1, e_n) + \dotsc + x_n y_n F(e_n, e_n)

Где F(ei,ej)F(e_i,e_j) — элементы поля KK. Для удобства давайте обозначим их как aij=F(ei,ej)a_{ij} = F(e_i,e_j).

Тогда

F(x,y)=i,j=1naijxiyj=xTAyF(x,y) = \sum\limits_{i,j=1}^n a_{ij} x_i y_j = x^\T A y

Матрица AA имеет вид

A=(a1,1a1,2a1,na2,1a2,2a2,nan,1an,2an,n)A = \pmatrix{ a_{1, \- 1} & a_{1, \- 2} & \cdots & a_{1, \- n} \\ a_{2, \- 1} & a_{2, \- 2} & \cdots & a_{2, \- n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n, \- 1} & a_{n, \- 2} & \cdots & a_{n, \- n} }

и называется матрицей билинейной формы.

Матрица билинейной формы

В конечномерном пространстве при выбранном базисе e1,e2,,ene_1, e_2, \dotsc, e_n любая билинейная форма однозначно определяется матрицей билинейной формы.

Очевидно, что при выборе другого базиса E=(e1,e2,,en)\EEE' = (\e_1', \e_2', \dotsc, \e_n') билинейная форма будет определена матрицей AA'. Найдём взаимосвязь между матрицами билинейной формы в разных базисах:

Преобразование матрицы при замене базиса

Пусть AA — матрица билинейной формы FF в базисе E=(e1,e2,,en)\EEE = (\e_1, \e_2, \dotsc, \e_n), и CC — матрица перехода к новому базису E=(e1,e2,,en)\EEE' = (\e_1', \e_2', \dotsc, \e_n'). Тогда матрица AA' билинейной формы FF в новом базисе равна

A=CTACA' = C^\T A C

Пусть xx и yy — координатные столбцы векторов в старом базисе, а xx' и yy' — в новом базисе. Тогда

x=Cx,y=Cyx = C x', \quad y = C y'

Подставляя в выражение для билинейной формы получим:

F(x,y)=xTAy=(Cx)TA(Cy)=(x)T(CTAC)yF(x, y) = x^\T A y = (C x')^\T A (C y') = (x')^\T (C^\T A C) y'

Следовательно, матрица формы в новом базисе действительно равна CTACC^\T A C.

Симметричные билинейные формы

Симметричная билинейная форма

Билинейная форма FF называется симметричной, если

F(x,y)=F(y,x)для всехx,yL F(x, y) = F(y, x) \quad \text{для всех} \quad x, y \in L

Для симметричной билинейной формы матрица AA всегда симметрична: aij=F(ei,ej)=F(ej,ei)=ajia_{ij} = F(e_i, e_j) = F(e_j, e_i) = a_{ji}, то есть AT=AA^\T = A.

Существование ортогонального базиса

Для любой симметричной билинейной формы FF на конечномерном пространстве над полем с характеристикой K2K \neq 2 существует базис, в котором её матрица диагональна:

A=(a1,1000a2,2000an,n)A = \pmatrix{ a_{1, \- 1} & 0 & \cdots & 0 \\ 0 & a_{2, \- 2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_{n, \- n} }

Такой базис называется ортогональным базисом относительно формы FF.

Доказательство проводим индукцией по размерности пространства n=dimLn = \dim L.

База индукции (n=1n = 1)

Если dimL=1\dim L = 1, то в единственном базисе {e1}\{e_1\} матрица формы имеет вид A=(F(e1,e1))A = (F(e_1, e_1)), то есть уже диагональна. Утверждение верно.

Шаг индукции

Пусть утверждение верно для всех пространств размерности n1n-1. Рассмотрим пространство LL размерности n2n \geq 2 с симметричной билинейной формой FF и её матрицей AA в базисе E=(e1,,en)\EEE = (e_1, \dots, e_n):

A=(a1,1a1,2a1,na2,1a2,2a2,nan,1an,2an,n)A = \pmatrix{ a_{1, \- 1} & a_{1, \- 2} & \cdots & a_{1, \- n} \\ a_{2, \- 1} & a_{2, \- 2} & \cdots & a_{2, \- n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n, \- 1} & a_{n, \- 2} & \cdots & a_{n, \- n} }
  1. F0F \equiv 0.

    Если F(x,y)=0F(x, y) = 0 для всех x,yLx, y \in L, то матрица AA — нулевая, а значит, диагональна в любом базисе. Утверждение верно.

  2. F≢0F \not\equiv 0

    Рассмотрим два подслучая:

    1. Пусть существует вектор vLv \in L, для которого F(v,v)0F(v, v) \neq 0. Без ограничения общности считаем, что F(e1,e1)0F(e_1, e_1) \neq 0 (иначе перенумеруем базис или заменим e1e_1 на вектор vv, где vv — любой вектор пространства, для которого F(v,v)0F(v, v) \neq 0. Для каждого k=2,,nk = 2, \dots, n выполним преобразование базиса:

      ek=ekF(e1,ek)F(e1,e1)e1e_k' = e_k - \frac{F(e_1, e_k)}{F(e_1, e_1)} e_1

      Матрица перехода CC к новому базису E=(e1,e2,,en)\EEE' = (e_1, e_2', \dots, e_n') имеет вид:

      C=(100a12a1110a1na1101)C = \pmatrix{ 1 & 0 & \cdots & 0 \\ -\frac{a_{12}}{a_{11}} & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ -\frac{a_{1n}}{a_{11}} & 0 & \cdots & 1 }

      По теореме о преобразовании матрицы при замене базиса:

      A=CTACA' = C^\T A C

      Прямым вычислением проверяем, что AA' имеет блочную структуру:

      A=(a1100B)A' = \pmatrix{ a_{11} & 0 \\ 0 & B }

      где BB — симметричная матрица размера (n1)×(n1)(n-1) \times (n-1). По предположению индукции существует матрица DD размера (n1)×(n1)(n-1) \times (n-1), такая что DTBDD^\T B D диагональна. Дополняем DD до матрицы CC' размера n×nn \times n:

      C=(100D)C' = \pmatrix{ 1 & 0 \\ 0 & D }

      Тогда матрица Cитог=CCC_{\text{итог}} = C \cdot C' преобразует AA к диагональному виду:

      CитогTACитог=(C)T(CTAC)C=(a1100DTBD)C_{\text{итог}}^\T A C_{\text{итог}} = (C')^\T (C^\T A C) C' = \pmatrix{ a_{11} & 0 \\ 0 & D^\T B D }
    2. Рассмотрим случай, когда F(v,v)=0F(v, v) = 0 для всех vLv \in L. Поскольку FF симметрична и характеристика K2K \neq 2, из тождества

      F(x,y)=12[F(x+y,x+y)F(x,x)F(y,y)]F(x, y) = \frac{1}{2} \left[ F(x+y, x+y) - F(x, x) - F(y, y) \right]

      следует, что F0F \equiv 0, что противоречит условию F≢0F \not\equiv 0. Следовательно, этот подслучай невозможен.

Во всех возможных случаях построена матрица перехода CитогC_{\text{итог}}, такая что CитогTACитогC_{\text{итог}}^\T A C_{\text{итог}} диагональна. Следовательно, в базисе, соответствующем этой матрице перехода, матрица формы FF диагональна. По принципу математической индукции утверждение верно для всех n1n \geq 1.

Важное замечание

Условие char(K)2\operatorname{char}(K) \neq 2 критически важно. Например, над полем F2\mathbb{F}_2 симметричная билинейная форма с матрицей

(0110)\pmatrix{0 & 1 \\ 1 & 0}

не допускает ортогонального базиса.

Квадратичные формы

Квадратичная форма

Пусть LL — векторное пространство над полем KK, и E=(e1,,en)\EEE = (e_1, \dots, e_n) — базис в LL. Отображение Q ⁣:LKQ \colon L \to K называется квадратичной формой, если её можно представить в виде

Q(x)=i,j=1naijxixjQ(x) = \sum\limits_{i,j=1}^n a_{ij} x_i x_j

где x=x1e1+x2e2++xnenx = x_1 e_1+x_2 e_2+\dotsc+x_n e_n, а aija_{ij} — некоторые элементы поля KK.

Аналогично билинейным формам, квадратичную форму можно представить в виде xTAxx^\T A x, где AA — матрица квадратичной формы.

В случае, если характеристика поля KK не равна 2, можно считать, что матрица квадратичной формы симметрична, то есть aij=ajia_{ij} = a_{ji}. Так, например, квадратичную форму от двух переменных обычно записывают в виде

Q(x1,x2)=a11x12+a12x1x2+a22x22Q(x_1,x_2)=a_{11}x_1^2+a_{12}x_1x_2+a_{22}x_2^2

При замене базиса, матрица квадратичной формы AA изменяется аналогично матрице билинейной формы

A=CTACA' = C^\T A C

где CC — матрица перехода к новому базису, а AA' — матрица квадратичной формы в новом базисе.

Метод Лагранжа приведения к каноническому виду

Каноническим видом квадратичной формы называется выражение, содержащее только квадраты переменных:

Q(x)=λ1y12+λ2y22++λnyn2Q(x) = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \dotsb + \lambda_n y_n^2

где y1,y2,,yny_1, y_2, \dotsc, y_n — новые переменные, линейно выражающиеся через старые.

Метод Лагранжа

Любую квадратичную форму над полем характеристики char(K)2\operatorname{char}(K) \neq 2 невырожденным линейным преобразованием можно привести к каноническому виду.

Алгоритм метода Лагранжа:

  1. Если в квадратичной форме есть ненулевой диагональный элемент aii0a_{ii} \neq 0, выделяем полный квадрат по соответствующей переменной

  2. Если все диагональные элементы нулевые, но есть ненулевой недиагональный элемент aij0a_{ij} \neq 0, делаем замену xi=yi+yjx_i = y_i + y_j, xj=yiyjx_j = y_i - y_j

  3. Повторяем процедуру для оставшихся переменных

Доказательство проводим индукцией по размерности пространства n=dimLn = \dim L над полем KK, где char(K)2\operatorname{char}(K) \neq 2.

База индукции (n=1n = 1)

Квадратичная форма имеет вид Q(x)=a11x12Q(x) = a_{11}x_1^2, что уже является каноническим видом. Матрица перехода — единичная, следовательно, преобразование невырожденное.

Шаг индукции

Пусть утверждение верно для всех пространств размерности n1n-1. Рассмотрим квадратичную форму Q(x1,,xn)=i,j=1naijxixjQ(x_1, \dots, x_n) = \sum\limits_{i,j=1}^n a_{ij}x_i x_j в базисе E=(e1,,en)\EEE = (e_1, \dots, e_n) с симметричной матрицей A=(aij)A = (a_{ij}) (поскольку char(K)2\operatorname{char}(K) \neq 2, мы можем считать матрицу симметричной).

  1. Q0Q \equiv 0

    В этом случае матрица AA нулевая, и форма уже имеет канонический вид. Утверждение верно.

  2. Q≢0Q \not\equiv 0

    Рассмотрим два подслучая:

    1. Существует индекс ii, для которого aii0a_{ii} \neq 0. Без ограничения общности положим a110a_{11} \neq 0 (иначе перенумеруем переменные). Выделим полный квадрат по переменной x1x_1:

      Q=a11(x1+j=2na1ja11xj)2+Q(x2,,xn)Q = a_{11}\left(x_1 + \sum\limits_{j=2}^n \frac{a_{1j}}{a_{11}}x_j\right)^2 + Q'(x_2, \dots, x_n)

      где QQ' — квадратичная форма от n1n-1 переменной. Сделаем линейную замену:

      y1=x1+j=2na1ja11xj,yk=xk(k2)y_1 = x_1 + \sum\limits_{j=2}^n \frac{a_{1j}}{a_{11}}x_j, \quad y_k = x_k \quad (k \geq 2)

      Матрица перехода CC к новому базису E=(e1,,en)\EEE' = (e_1', \dots, e_n') имеет вид:

      C=(1a12a11a1na11010001)C = \pmatrix{ 1 & \frac{a_{12}}{a_{11}} & \cdots & \frac{a_{1n}}{a_{11}} \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 }

      Её определитель det(C)=10\det(C) = 1 \neq 0, следовательно, преобразование невырожденное. В новом базисе форма принимает вид Q=a11y12+Q(y2,,yn)Q = a_{11}y_1^2 + Q'(y_2, \dots, y_n). По предположению индукции QQ' приводится к каноническому виду невырожденным преобразованием CC' размера (n1)×(n1)(n-1) \times (n-1). Дополним CC' до матрицы CC'' размера n×nn \times n:

      C=(100C)C'' = \pmatrix{ 1 & 0 \\ 0 & C'}

      Тогда общая матрица перехода Cитог=CCC_{\text{итог}} = C \cdot C'' невырожденна, так как det(Cитог)=det(C)det(C)0\det(C_{\text{итог}}) = \det(C) \cdot \det(C'') \neq 0, и форма принимает канонический вид.

    2. Все диагональные элементы aii=0a_{ii} = 0, но существует aij0a_{ij} \neq 0 для iji \neq j. Без ограничения общности положим a120a_{12} \neq 0 (иначе перенумеруем переменные). Сделаем замену переменных:

      x1=y1+y2,x2=y1y2,xk=yk(k3)x_1 = y_1 + y_2, \quad x_2 = y_1 - y_2, \quad x_k = y_k \quad (k \geq 3)

      Подставляя в форму, получаем:

      Q=a12(y12y22)+k=3n2a1ky1yk+k=3n2a2ky2yk+Q = a_{12}(y_1^2 - y_2^2) + \sum\limits_{k=3}^n 2a_{1k}y_1y_k + \sum\limits_{k=3}^n 2a_{2k}y_2y_k + \dots

      Теперь коэффициенты при y12y_1^2 и y22y_2^2 ненулевые. Матрица перехода CC для первых двух переменных:

      C=(1111)C' = \pmatrix{ 1 & 1 \\ 1 & -1 }

      имеет определитель det(C)=20\det(C') = -2 \neq 0 (так как char(K)2\operatorname{char}(K) \neq 2), а для остальных переменных — единичная матрица. Общая матрица перехода:

      C=(1100110000100001)C = \pmatrix{ 1 & 1 & 0 & \cdots & 0 \\ 1 & -1 & 0 & \cdots & 0 \\ 0 & 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & 1 }

      невырожденна. После замены форма содержит ненулевые квадратичные члены, и мы сводим задачу к первому подслучаю.

Во всех случаях построено явное невырожденное линейное преобразование, приводящее форму к каноническому виду. По принципу математической индукции утверждение верно для всех n1n \geq 1 при условии char(K)2\operatorname{char}(K) \neq 2.

Закон инерции Сильвестра

Закон инерции Сильвестра

Для любой квадратичной формы число положительных, отрицательных и нулевых коэффициентов в каноническом виде не зависит от способа приведения.

Сигнатура квадратичной формы

Сигнатурой квадратичной формы называется упорядоченная пара чисел (p,q)(p, q), где:

  • pp — число квадратов с положительными коэффициентами в каноническом виде

  • qq — число квадратов с отрицательными коэффициентами в каноническом виде

Закон инерции утверждает, что сигнатура является инвариантом квадратичной формы и не зависит от выбора базиса, в котором форма приводится к каноническому виду.

Пусть квадратичная форма QQ имеет два канонических представления:

Q=i=1pλiyi2j=1qμjzj2=k=1rαkuk2l=1sβlvl2Q = \sum\limits_{i=1}^p \lambda_i y_i^2 - \sum\limits_{j=1}^q \mu_j z_j^2 = \sum\limits_{k=1}^r \alpha_k u_k^2 - \sum\limits_{l=1}^s \beta_l v_l^2

где λi,μj,αk,βl>0\lambda_i, \mu_j, \alpha_k, \beta_l > 0. Докажем, что p=rp = r и q=sq = s.

Шаг 1. Положительно определённые подпространства

В первом представлении рассмотрим подпространство V={z1==zq=0}V = \{z_1 = \dots = z_q = 0\}. На VV форма принимает вид QV=i=1pλiyi2Q_V = \sum\limits_{i=1}^p \lambda_i y_i^2 и удовлетворяет условию QV>0Q_V > 0 для всех ненулевых векторов, то есть VV — положительно определённое подпространство размерности pp.

Во втором представлении любое положительно определённое подпространство имеет размерность, не превосходящую rr, так как только первые rr переменных дают положительные значения. Следовательно:

prp \leq r

Шаг 2. Симметричный аргумент

Аналогично, во втором представлении рассмотрим подпространство W={v1==vs=0}W = \{v_1 = \dots = v_s = 0\}. На WW форма положительно определена (QW>0Q_W > 0) и dimW=r\dim W = r. В первом представлении максимальная размерность положительно определённого подпространства равна pp, поэтому:

rpr \leq p

Шаг 3. Инвариантность pp и qq

Из неравенств prp \leq r и rpr \leq p следует p=rp = r. Для отрицательных коэффициентов рассуждение аналогично: рассматриваем отрицательно определённые подпространства {y1==yp=0}\{y_1 = \dots = y_p = 0\} и {u1==ur=0}\{u_1 = \dots = u_r = 0\}, откуда получаем q=sq = s.

Для вырожденных форм (с нулевыми коэффициентами) ранг r=p+qr = p + q инвариантен, поэтому количество нулевых коэффициентов nrn - r также не зависит от выбора базиса.

Положительно определенные матрицы

Положительно определенная матрица

Симметричная матрица AA называется положительно определенной, если соответствующая ей квадратичная форма положительно определена:

xTAx>0для всех x0x^\T A x > 0 \quad \text{для всех } x \neq 0

Аналогично определяются:

  • Отрицательно определенная: xTAx<0x^\T A x < 0 для всех x0x \neq 0

  • Положительно полуопределенная: xTAx0x^\T A x \geq 0 для всех xx

  • Отрицательно полуопределенная: xTAx0x^\T A x \leq 0 для всех xx

Критерий Сильвестра

Критерий Сильвестра

Симметричная матрица AA положительно определена тогда и только тогда, когда все её главные миноры положительны:

Δ1=a11>0Δ2=a11a12a21a22>0Δn=detA>0 \begin{align*} \Delta_1 &= a_{11} > 0 \\ \Delta_2 &= \begin{vmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{vmatrix} > 0 \\ &\vdots \\ \Delta_n &= \det A > 0 \end{align*}

Необходимость: Если AA положительно определена, то она положительно определена и на любом подпространстве. В частности, для векторов с первыми kk координатами, соответствующий главный минор должен быть положительным.

Достаточность: Докажем индукцией по размерности матрицы. Для n=1n=1 утверждение очевидно.

Предположим, что для матриц размера n1n-1 критерий верен. Рассмотрим матрицу AA размера nn с положительными главными минорами.

По предположению индукции, левый верхний блок размера n1n-1 положительно определен. Выполним блочное LDLTLDL^\T-разложение:

A=(An1bbTann)=(I0bTAn111)(An100δ)(IAn11b01) A = \begin{pmatrix} A_{n-1} & b \\ b^\T & a_{nn} \end{pmatrix} = \begin{pmatrix} I & 0 \\ b^\T A_{n-1}^{-1} & 1 \end{pmatrix} \begin{pmatrix} A_{n-1} & 0 \\ 0 & \delta \end{pmatrix} \begin{pmatrix} I & A_{n-1}^{-1} b \\ 0 & 1 \end{pmatrix}

где II — единичная матрица (n1)×(n1)(n-1) \times (n-1), а δ=annbTAn11b\delta = a_{nn} - b^\T A_{n-1}^{-1} b. Так как detA=detAn1δ>0\det A = \det A_{n-1} \cdot \delta > 0 и detAn1>0\det A_{n-1} > 0, то δ>0\delta > 0. Следовательно, матрица AA положительно определена.

Спектральная теорема и приведение к главным осям

Спектральная теорема для симметричных матриц

Для любой симметричной матрицы AA существует ортогональная матрица QQ такая, что

QTAQ=Λ=diag(λ1,λ2,,λn)Q^\T A Q = \Lambda = \operatorname{diag}(\lambda_1, \lambda_2, \dotsc, \lambda_n)

где λ1,,λn\lambda_1, \dotsc, \lambda_n — собственные числа матрицы AA.

Доказательство проводим индукцией по размерности матрицы nn над полем вещественных чисел.

База индукции (n=1n = 1)

Для матрицы размера 1×11 \times 1, A=(a11)A = (a_{11}), утверждение очевидно: Q=(1)Q = (1), Λ=(a11)\Lambda = (a_{11}).

Шаг индукции

Предположим, что теорема верна для всех симметричных матриц размерности (n1)×(n1)(n-1) \times (n-1). Докажем её для симметричной матрицы AA размера n×nn \times n над полем R\mathbb{R} (n2n \geq 2).

  1. A=0A = 0

    Если матрица AA нулевая, то она уже диагональна. В качестве ортогональной матрицы QQ можно взять единичную матрицу. Утверждение верно.

  2. A0A \neq 0

    Рассмотрим характеристический многочлен матрицы AA:

    p(λ)=det(AλI)p(\lambda) = \det(A - \lambda I)

    Так как коэффициенты многочлена p(λ)p(\lambda) вещественны, комплексные корни встречаются сопряженными парами. Покажем, что все корни характеристического уравнения вещественны.

    Пусть λ\lambda — собственное значение матрицы AA, а vv — соответствующий собственный вектор (v0v \neq 0). Тогда Av=λvAv = \lambda v. Рассмотрим скалярное произведение:

    (Av,v)=(λv,v)=λ(v,v)(Av, v) = (\lambda v, v) = \lambda (v, v)

    С другой стороны, используя симметричность матрицы AA (AT=AA^\T = A):

    (Av,v)=(v,ATv)=(v,Av)=(v,λv)=λ(v,v)(Av, v) = (v, A^\T v) = (v, Av) = (v, \lambda v) = \overline{\lambda} (v, v)

    Сравнивая полученные выражения, имеем λ(v,v)=λ(v,v)\lambda (v, v) = \overline{\lambda} (v, v). Так как (v,v)>0(v, v) > 0, то λ=λ\lambda = \overline{\lambda}, то есть λ\lambda — вещественное число.

    Таким образом, существует хотя бы одно вещественное собственное значение λ1\lambda_1 и соответствующий ему собственный вектор v1v_1 (v10v_1 \neq 0). Нормируем вектор v1v_1, то есть заменим его на e1=v1v1e_1 = \frac{v_1}{\|v_1\|}, где v1=(v1,v1)\|v_1\| = \sqrt{(v_1, v_1)}. Тогда e1=1\|e_1\| = 1 и Ae1=λ1e1Ae_1 = \lambda_1 e_1.

    Дополним вектор e1e_1 до ортонормированного базиса e1,e2,,ene_1, e_2, \dotsc, e_n пространства Rn\mathbb{R}^n. Это можно сделать, например, с помощью процесса Грама-Шмидта. Составим матрицу Q1Q_1, столбцами которой являются векторы этого базиса:

    Q1=(e1e2en)Q_1 = \pmatrix{ e_1 & e_2 & \cdots & e_n }

    Матрица Q1Q_1 ортогональна (Q1TQ1=IQ_1^\T Q_1 = I), так как её столбцы образуют ортонормированный базис.

    Рассмотрим матрицу Q1TAQ1Q_1^\T A Q_1:

    Q1TAQ1=(e1TAe1e1TAe2e1TAene2TAe1e2TAe2e2TAenenTAe1enTAe2enTAen)Q_1^\T A Q_1 = \pmatrix{ e_1^\T A e_1 & e_1^\T A e_2 & \cdots & e_1^\T A e_n \\ e_2^\T A e_1 & e_2^\T A e_2 & \cdots & e_2^\T A e_n \\ \vdots & \vdots & \ddots & \vdots \\ e_n^\T A e_1 & e_n^\T A e_2 & \cdots & e_n^\T A e_n}

    Упростим элементы этой матрицы, используя свойства собственных векторов и симметричности AA:

    e1TAe1=e1T(λ1e1)=λ1(e1Te1)=λ1e_1^\T A e_1 = e_1^\T (\lambda_1 e_1) = \lambda_1 (e_1^\T e_1) = \lambda_1, так как e1=1\|e_1\| = 1.

    Для k2k \geq 2:

    e1TAek=(ATe1)Tek=(Ae1)Tek=(λ1e1)Tek=λ1(e1Tek)=0e_1^\T A e_k = (A^\T e_1)^\T e_k = (A e_1)^\T e_k = (\lambda_1 e_1)^\T e_k = \lambda_1 (e_1^\T e_k) = 0

    так как векторы e1e_1 и eke_k ортогональны (e1Tek=0e_1^\T e_k = 0). Аналогично, ekTAe1=0e_k^\T A e_1 = 0 для k2k \geq 2.

    Обозначим блок правого нижнего угла как BB, то есть B=(eiTAej)i,j=2nB = (e_i^\T A e_j)_{i,j=2}^n. Матрица BB симметрична, так как AA симметрична и:

    bij=eiTAej=(ATei)Tej=(Aei)Tej=ejTAei=bjib_{ij} = e_i^\T A e_j = (A^\T e_i)^\T e_j = (A e_i)^\T e_j = e_j^\T A e_i = b_{ji}

    Таким образом, матрица Q1TAQ1Q_1^\T A Q_1 имеет вид:

    Q1TAQ1=(λ10T0B)Q_1^\T A Q_1 = \pmatrix{ \lambda_1 & 0^\T \\ 0 & B}

    где 00 — нулевой вектор размерности n1n-1, а BB — симметричная матрица размера (n1)×(n1)(n-1) \times (n-1).

    По предположению индукции для матрицы BB существует ортогональная матрица RR размера (n1)×(n1)(n-1) \times (n-1), такая что:

    RTBR=diag(λ2,λ3,,λn)R^\T B R = \operatorname{diag}(\lambda_2, \lambda_3, \dotsc, \lambda_n)

    где λ2,,λn\lambda_2, \dotsc, \lambda_n — собственные значения матрицы BB (и, следовательно, матрицы AA, так как собственные значения инвариантны относительно ортогональных преобразований).

    Построим матрицу Q2Q_2 размера n×nn \times n следующим образом:

    Q2=(10T0R)Q_2 = \pmatrix{ 1 & 0^\T \\ 0 & R}

    Матрица Q2Q_2 ортогональна, так как:

    Q2TQ2=(10T0RT)(10T0R)=(10T0RTR)=(10T0In1)=InQ_2^\T Q_2 = \pmatrix{ 1 & 0^\T \\ 0 & R^\T } \pmatrix{ 1 & 0^\T \\ 0 & R } = \pmatrix{ 1 & 0^\T \\ 0 & R^\T R } = \pmatrix{ 1 & 0^\T \\ 0 & I_{n-1} } = I_n

    Теперь рассмотрим матрицу Q=Q1Q2Q = Q_1 Q_2:

    QTAQ=(Q1Q2)TA(Q1Q2)=Q2T(Q1TAQ1)Q2=Q2T(λ10T0B)Q2Q^\T A Q = (Q_1 Q_2)^\T A (Q_1 Q_2) = Q_2^\T (Q_1^\T A Q_1) Q_2 = Q_2^\T \pmatrix{ \lambda_1 & 0^\T \\ 0 & B } Q_2

    Подставляя выражение для Q2Q_2, получаем:

    QTAQ=(10T0RT)(λ10T0B)(10T0R)=(λ10T0RTBR)=(λ10T0diag(λ2,,λn))Q^\T A Q = \pmatrix{ 1 & 0^\T \\ 0 & R^\T } \pmatrix{ \lambda_1 & 0^\T \\ 0 & B } \pmatrix{ 1 & 0^\T \\ 0 & R } = \pmatrix{ \lambda_1 & 0^\T \\ 0 & R^\T B R } = \pmatrix{ \lambda_1 & 0^\T \\ 0 & \operatorname{diag}(\lambda_2, \dotsc, \lambda_n) }

    Таким образом, матрица QTAQQ^\T A Q диагональна, а её диагональные элементы — собственные значения матрицы AA.

    Ортогональность матрицы QQ следует из ортогональности матриц Q1Q_1 и Q2Q_2:

    QTQ=(Q1Q2)T(Q1Q2)=Q2TQ1TQ1Q2=Q2TIQ2=Q2TQ2=IQ^\T Q = (Q_1 Q_2)^\T (Q_1 Q_2) = Q_2^\T Q_1^\T Q_1 Q_2 = Q_2^\T I Q_2 = Q_2^\T Q_2 = I

    Следовательно, построенная матрица QQ удовлетворяет условиям теоремы.

По принципу математической индукции спектральная теорема верна для всех симметричных матриц размерности n1n \geq 1 над полем вещественных чисел.

Спектральная теорема позволяет привести квадратичную форму к главным осям — новым координатам, в которых форма становится диагональной.

Приведение квадратичной формы к главным осям

Любую квадратичную форму Q(x)=xTAxQ(x) = x^T A x ортогональным преобразованием можно привести к виду

Q(y)=λ1y12+λ2y22++λnyn2Q(y) = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \dotsb + \lambda_n y_n^2

где λ1,,λn\lambda_1, \dotsc, \lambda_n — собственные значения матрицы AA, а новые переменные y=QTxy = Q^\T x получаются поворотом исходной системы координат.

Алгоритм приведения к главным осям:

  1. Найти собственные значения матрицы квадратичной формы

  2. Найти соответствующие ортонормированные собственные векторы

  3. Составить матрицу QQ из собственных векторов

  4. Выполнить замену переменных x=Qyx = Q y

Исследование функций на экстремум

Квадратичные формы играют ключевую роль в анализе функций многих переменных на экстремум. Рассмотрим функцию f ⁣:RnRf \colon \mathbb{R}^n \to \mathbb{R}, дифференцируемую в точке aa.

Разложение в ряд Тейлора в окрестности точки aa:

f(a+h)=f(a)+f(a)Th+12hTH(a)h+o(h2)f(a + h) = f(a) + \nabla f(a)^\T h + \frac{1}{2} h^\T H(a) h + o(\|h\|^2)

где H(a)H(a) — матрица Гессе (гессиан), содержащая вторые частные производные.

Спектральный анализ матрицы Гессе позволяет определить её определенность через собственные значения:

  • Если все собственные значения H(a)H(a) положительны (λ1>0,,λn>0\lambda_1 > 0, \dots, \lambda_n > 0), то матрица положительно определена → aa — точка локального минимума.

  • Если все собственные значения отрицательны, матрица отрицательно определена → aa — точка локального максимума.

  • Если собственные значения имеют разные знаки, матрица неопределена → aa — седловая точка.

Это следует из спектральной теоремы: симметричный гессиан H(a)H(a) ортогонально диагонализируем, поэтому квадратичная форма hTH(a)hh^T H(a) h приводится к виду λ1y12++λnyn2\lambda_1 y_1^2 + \dots + \lambda_n y_n^2, где yiy_i — новые координаты (главные оси).

Анализ многомерных распределений

Ковариационная матрица

Для случайного вектора X=(X1,X2,,Xn)TX = (X_1, X_2, \dotsc, X_n)^T с математическими ожиданиями μi=E[Xi]\mu_i = \mathbb{E}[X_i], ковариационной матрицей называется

Σ=E[(Xμ)(Xμ)T]\Sigma = \mathbb{E}[(X - \mu)(X - \mu)^\T]

Элементы матрицы: Σij=cov(Xi,Xj)\Sigma_{ij} = \operatorname{cov}(X_i, X_j).

Положительная полуопределенность ковариационной матрицы

Ковариационная матрица Σ\Sigma всегда симметрична и положительно полуопределена.

Симметричность следует из равенства cov(Xi,Xj)=cov(Xj,Xi)\operatorname{cov}(X_i, X_j) = \operatorname{cov}(X_j, X_i).

Для любого вектора aRna \in \mathbb{R}^n:

aTΣa=aTE[(Xμ)(Xμ)T]a=E[aT(Xμ)(Xμ)Ta]=E[(aT(Xμ))2]0 a^\T \Sigma a = a^\T \mathbb{E}[(X - \mu)(X - \mu)^\T] a = \mathbb{E}[a^\T (X - \mu)(X - \mu)^\T a] = \mathbb{E}[(a^\T (X - \mu))^2] \geq 0

так как математическое ожидание неотрицательной случайной величины неотрицательно.

Спектральный анализ ковариационной матрицы лежит в основе метода главных компонент:

  • Собственные векторы Q=[q1,,qn]Q = [q_1, \dots, q_n] матрицы Σ\Sigma определяют направления наибольшей дисперсии данных.

  • Собственные значения λ1λ2λn0\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_n \geq 0 показывают, насколько "вытянуто" распределение вдоль соответствующих направлений.

  • Замена координат Z=QT(Xμ)Z = Q^T (X - \mu) преобразует данные в пространство независимых компонент, где ковариационная матрица становится диагональной: cov(Z)=Λ\text{cov}(Z) = \Lambda.

Например, для двумерного нормального распределения с ковариационной матрицей

Σ=(2112)\Sigma = \pmatrix{2 & 1 \\ 1 & 2}

собственные значения λ1=3\lambda_1 = 3 и λ2=1\lambda_2 = 1 соответствуют дисперсиям вдоль осей эллипса рассеяния, а собственные векторы задают углы поворота этих осей.

Положительная полуопределенность ковариационной матрицы имеет важные следствия:

  • Все собственные значения неотрицательны

  • Определитель ковариационной матрицы неотрицателен

  • Главные миноры неотрицательны