Математическое ожидание и моменты

Содержание

Математическое ожидание

Математическое ожидание
Свойства математического ожидания
Условное математическое ожидание

Дисперсия

Дисперсия
Свойства дисперсии
Ковариация и корреляция
Свойства ковариации
Матрица ковариаций

Асимметрия

Асимметрия
Свойства асимметрии
Косимметрия
Свойства косимметрии
Тензор косимметрий

Эксцесс

Эксцесс
Свойства эксцесса
Коэксцесс
Свойства коэксцесса
Тензор коэксцессов

Моменты

Моменты
Производящая функция моментов
Кумулянты
Тензор моментов

Упражнения

Пусть $\xi \colon \Omega \to \RR$ — дискретная случайная величина, у которой могут быть значения $a_1, a_2, \dotsc, a_i \dotsc$ .

Математическим ожиданием случайной величины $\xi$ называется значение

\expect \xi = \sum\limits_{\omega \;\! \in \;\! \Omega} \xi(\omega) \cdot \prob(\omega) = \sum\limits_{i} a_i \cdot \prob(\xi = a_i)

Неформально, математическое ожидание — это среднее взвешенное по всем значениям случайной величины.

Аналогично, для непрерывной случайной величины $\xi$ с плотностью $f(x)$ математическое ожидание

\expect \xi = \int\limits_{\Omega} \xi(\omega) \cdot \prob(d\omega) = \int\limits_{-\oo}^{\oo} x \cdot f(x) dx

Важно понимать, что математическое ожидание может не существовать. Такое происходит, если ряд (в дискретном случае) или интеграл (в непрерывном случае) не сходятся абсолютно.

Классический пример — распределение Коши. Его плотность равна $f(x) = 1 / (\pi + \pi x^2)$ , но интеграл $\int\limits |x| \cdot f(x) \, dx$ расходится. Это означает, что у распределения Коши не существует среднего значения.

Свойства математического ожидания

Математическое ожидание константы равно самой этой константе.

\expect c = c, \text{если}~ c = \const

Математическое ожидание линейно

\expect (a \cdot \xi + b \cdot \eta) = a \cdot \expect \xi + b \cdot \expect \eta

Для двух независимых случайных величин $\xi$ и $\eta$ математическое ожидание произведения равно произведению математических ожиданий

\expect (\xi \cdot \eta) = \expect \xi \cdot \expect \eta \quad \text{при независимости}~ \xi ~\text{и}~ \eta

При этом обратное неверно: из равенства $\expect (\xi \cdot \eta) = \expect \xi \cdot \expect \eta$ не следует независимость случайных величин $\xi$ и $\eta$ .

Если одна случайная величина почти наверняка не меньше другой, то и её математическое ожидание будет не меньше.

\xi \ge \eta ~\text{почти наверняка} \implies \expect \xi \ge \expect \eta

Из этого следует, что математическое ожидание неотрицательной величины неотрицательно: если $\xi \ge 0$ , то $\expect \xi \ge 0$ .

Условное математическое ожидание

Для дискретного случая

Условное математическое ожидание случайной величины $\xi$ , принимающей значения $a_1, a_2, \dotsc$ — среднее значение этой величины при условии выполнения какого-то события. Для события $A$ условное математическое ожидание

\expect (\xi \mid A) \defeq \sum\limits_j a_j \cdot \prob(\xi = a_j \mid A)

Чаще всего в качестве события выступает равенство какой-то другой случайной величины $\eta$ какому-то наперёд заданному значению $x$ . В этом случае математическое ожидание обозначается

\expect (\xi \mid \eta = x) \defeq \sum\limits_j a_j \cdot \prob (\xi = a_j \mid \eta = x)

Дисперсия

Дисперсия случайной величины $\xi$ — величина, измеряющая разброс значений это величины вокруг её математического ожидания. Формально определяется как средний квадрат отклонения от математического ожидания:

\var \xi \defeq \expect \bigl( (\xi - \expect \xi)^2 \bigr)

Если раскрыть скобки, можно получить чуть более приятную формулу $\var \xi = \expect \xi^2 - (\expect \xi)^2$ .

Среднеквадратичное отклонение — корень из дисперсии

\dev \xi \defeq \sqrt{\var \xi}

Среднеквадратичное отклонение тоже измеряет разброс значений случайной величины относительно её матожидания. Удобство среднеквадратичного отклонения в том, что оно имеет те же единицы измерения, что и сама случайная величина.

На письме часто обозначается $\sigma$ , и $\var \xi = \sigma^2$ .

Пусть у нас есть выборка $x_1, x_2, \dotsc, x_n$ , состоящая из наблюдений случайной величины $\xi$ . Мы ходим оценить математическое ожидание $\expect \xi$ . Естественно применить для этого оценку $\bar x = (x_1 + x_2 + \dotsb + x_n)/n$ .

Точность, с которой эта оценка $\bar x$ оценивает $\expect \xi$ называется стандартной (среднеквадратичной) ошибкой среднего

s = \frac{\sigma}{\sqrt{n}}

Получить эту формулу можно, вычислив среднеквадратичное отклонение новой случайной величины $\bar \xi = (\xi_1 + \xi_2 + \dotsb + \xi_n)/n$ , где $\xi_1, \xi_2, \dotsc, \xi_n$ — попарно независимые, одинаково распределённые случайные величины с распределением как у $\xi$ .

Свойства дисперсии

Дисперсия всегда неотрицательна $\var \xi \ge 0$ . При этом нулю она равна тогда и только тогда, когда случайная величина $\xi$ принимает почти всюду одинаковые значения.

Дисперсия константы равна $0$ :

\var c = 0, \text{если}~ c = \const

Константа выносится из дисперсии в квадрате

\var (c \cdot \xi) = c^2 \cdot \var \xi

Для двух независимых случайных величин $\xi$ и $\eta$ дисперсия суммы равна сумме дисперсий

\var (\xi + \eta) = \var \xi + \var \eta \quad \text{при независимости}~ \xi ~\text{и}~ \eta

При этом обратное неверно: из равенства $\var (\xi + \eta) = \var \xi + \var \eta$ не следует независимость величин $\xi$ и $\eta$ .

Общая формула для суммы любых двух случайных величин $\xi$ и $\eta$

\var (\xi + \eta) = \var \xi + \var \eta + 2 \cdot \cov(\xi, \eta)

Ковариация и корреляция

Ковариация

Ковариация двух случайных величин $\xi$ и $\eta$ — мера их линейной зависимости

\cov (\xi, \eta) \defeq \expect \bigl( (\xi - \expect \xi) \cdot (\eta - \expect \eta) \bigr)

Ковариация показывает, как изменяются величины вместе: положительная ковариация означает, что при увеличении одной величины другая имеет тенденцию тоже увеличиваться, а отрицательная ковариация указывает на обратную связь. При этом чем больше ковариация, тем более ярко выражена эта зависимость.

Ковариация зависит от масштаба. Для того, чтобы сравнивать силу зависимости между величинами, нужно эту меру отнормировать. Нормированной версией ковариации является корреляция

\rho(\xi, \eta) = \frac{\cov(\xi, \eta)}{\dev \xi \cdot \dev \eta}

Корреляция всегда лежит в диапазоне от $-1$ до $1$ .

Свойства ковариации

Симметричность

\cov(\xi, \eta) = \cov(\eta, \xi)

При этом ковариация величины с самой собой — дисперсия

\cov(\xi, \xi) = \var \xi

В силу линейности математического ожидания

\cov(\xi, \eta) = \expect (\xi \cdot \eta) - \expect \xi \cdot \expect \eta

Ковариация линейна по каждому из аргументов.

\cov (a \cdot \xi + b,~ \eta) = a \cdot \cov (\xi, \eta)

Запишу это свойство в широко применяемой форме. Пусть $\xi_1, \xi_2, \dotsc, \xi_n$ — случайные величины. Рассмотрим две их линейные комбинации $\sum\limits_{i=1}^n a_i \cdot \xi_i$ и $\sum\limits_{j=1}^n b_j \cdot \xi_j$ :

\cov \left( \sum\limits_{i=1}^n a_i \cdot \xi_i,~~ \sum\limits_{j=1}^n b_j \cdot \xi_j \right) = \sum\limits_{i=1}^n \sum\limits_{j=1}^n a_i b_j \cdot \cov(\xi_i, \xi_j)

Ковариацию можно принять за скалярное произведение, и тогда мы получим гильбертово пространстве центрированных случайных величин. В этом пространстве выполняется неравенство Коши – Буняковского, и мы можем записать

\bigl( \cov(\xi, \eta) \bigr)^2 \le \var \xi \cdot \var \eta

Матрица ковариаций

Пусть $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ — случайный вектор.

Матрица ковариаций $\Sigma$ этого вектора — это матрица, составленная из попарных ковариаций компонентов вектора $\xi$ :

\Sigma = \pmatrix{ \var \xi_1 & \cov(\xi_1, \xi_2) & \cov(\xi_1, \xi_3) & \cdots & \cov(\xi_1, \xi_n)\\[0.4em]\cov(\xi_2, \xi_1) & \var \xi_2 & \cov(\xi_2, \xi_3) & \cdots & \cov(\xi_2, \xi_n)\\[0.4em]\cov(\xi_3, \xi_1) & \cov(\xi_3, \xi_2) & \var \xi_3 & \cdots & \cov(\xi_3, \xi_n)\\[0.4em]\vdots & \vdots & \vdots & \ddots & \vdots\\[0.4em]\cov(\xi_n, \xi_1) & \cov(\xi_n, \xi_2) & \cov(\xi_n, \xi_3) & \cdots & \var \xi_n\\[0.4em]}

Матрица ковариаций $\Sigma$ содержит полную информацию о линейных зависимостях между компонентами вектора $\xi$ .

Матрица ковариаций симметрична.

Матрица ковариаций неотрицательна определена. То есть матрица ковариаций имеет неотрицательный определитель, все её собственные значения неотрицательны и все главные миноры неотрицательны.

Посмотрим на случайный вектор $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ с матрицей ковариаций $\Sigma$ . Сконструируем на основе $\xi$ случайную величину — линейную комбинацию $c^\T \cdot \xi$ , где $c = (c_1, c_2, \dotsc, c_n)^\T$ — произвольный вектор.

Дисперсия $c^\T \cdot \xi$ равна

\var \bigl( c^\T \cdot \xi \bigr) = \sum\limits_{i=1}^n \sum\limits_{j=1}^n c_i c_j \cdot \cov(\xi_i, \xi_j) = c^\T \cdot \Sigma \cdot c

Поскольку $\var \bigl( c^\T \cdot \xi \bigr) \ge 0$ по свойству дисперсии, значит $c^\T \cdot \Sigma \cdot c \ge 0$ для любого вектора $c$ , а значит $|\Sigma| \ge 0$

Этим же методом доказывается, что если у случайного вектора $\xi$ матрица ковариаций $\Sigma$ вырождена, то есть если $|\Sigma| = 0$ , то компоненты этого случайного вектора $\xi$ почти наверняка линейно зависимые. В другую сторону тоже работает.

Матрица ковариаций умеет действовать как тензор на два вектора $u, v \in \RR^n$ . В результате получается величина

\Sigma (u, v) \defeq \sum\limits_{1 \;\! \le \;\! i, j \le n} \Sigma_{i, \- j} \, u_i \, v_j = u^\T \cdot \Sigma \cdot v

Подействовав матрицей ковариаций на два одинаковых вектора $u \in \RR^n$ , мы получим дисперсию проекции $\xi$ на направление $u$ :

\Sigma (u, u) = \var (u^\T \cdot \xi)

А также подействовав матрицей ковариаций на пару векторов $(u, v)$ , где $u, v \in \RR^n$ , мы получим ковариацию проекций случайного вектора $\xi$ на эти направления

\Sigma (u, v) = \cov (u^\T \cdot \xi, v^\T \cdot \xi)

Если векторы совпадают с координатными осями, например $u = e_i$ , $v = e_j$ , то мы получаем исходные компоненты матрицы: $\Sigma(e_i, e_j) = \Sigma_{i, \- j} = \cov(\xi_i, \xi_j)$ .

Аналогично матрице ковариаций, для случайного вектора $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ определяется матрица корреляций $\varrho$ — матрица, составленная из попарных корреляций компонентов вектора $\xi$

\varrho = \pmatrix{ 1 & \dfrac{\cov(\xi_1, \xi_2)}{\dev \xi_1 \cdot \dev \xi_2} & \dfrac{\cov(\xi_1, \xi_3)}{\dev \xi_1 \cdot \dev \xi_3} & \cdots & \dfrac{\cov(\xi_1, \xi_n)}{\dev \xi_1 \cdot \dev \xi_n}\\[0.8em]\dfrac{\cov(\xi_2, \xi_1)}{\dev \xi_2 \cdot \dev \xi_1} & 1 & \dfrac{\cov(\xi_2, \xi_3)}{\dev \xi_2 \cdot \dev \xi_3} & \cdots & \dfrac{\cov(\xi_2, \xi_n)}{\dev \xi_2 \cdot \dev \xi_n}\\[0.8em]\dfrac{\cov(\xi_3, \xi_1)}{\dev \xi_3 \cdot \dev \xi_1} & \dfrac{\cov(\xi_3, \xi_2)}{\dev \xi_3 \cdot \dev \xi_2} & 1 & \cdots & \dfrac{\cov(\xi_3, \xi_n)}{\dev \xi_3 \cdot \dev \xi_n}\\[0.8em]\vdots & \vdots & \vdots & \ddots & \vdots\\[0.8em]\dfrac{\cov(\xi_n, \xi_1)}{\dev \xi_n \cdot \dev \xi_1} & \dfrac{\cov(\xi_n, \xi_2)}{\dev \xi_n \cdot \dev \xi_2} & \dfrac{\cov(\xi_n, \xi_3)}{\dev \xi_n \cdot \dev \xi_3} & \cdots & 1\\[0.8em]}

Асимметрия

Распределения случайных величин могут быть не только разной ширины (что характеризуется дисперсией), но и иметь разную форму. Одной из важных характеристик формы распределения является асимметрия — мера скошенности распределения относительно его центра.

Симметричные распределения (например, нормальное распределение) имеют нулевую асимметрию. Если распределение имеет длинный хвост справа, говорят о положительной асимметрии, если слева — об отрицательной.

Коэффициент асимметрии

Случайная величина $\xi$ имеет математическое ожидание $\mu$ и дисперсию $\sigma^2$ .

Асимметрию распределения случайной величины $\xi$ характеризует величина

m_3 = \expect \bigl( (\xi - \mu)^3 \bigr)

Коэффициент асимметрии (skewness) случайной величины $\xi$ — величина, измеряющая асимметрию значений этой величины вокруг её математического ожидания. Безразмерный коэффициент, определяемый формулой

\skew \xi \defeq \frac{\expect \bigl( (\xi-\mu)^3 \bigr)}{(\dev \xi)^3} = \frac{m_3}{\sigma^3}

На письме часто обозначается буквой $\gamma$ .

Если коэффициент асимметрии положителен, то есть если $\skew \xi > 0$ , то это значит, что распределение имеет длинный правый хвост, и что большинство значений сосредоточено слева от среднего. Так же для многих (но не всех) унимодальных распределений

\skew \xi > 0 \implies \mode \xi < \med \xi < \expect \xi \quad\text{Это эмпирическое правило!}

Если коэффициент асимметрии отрицателен, то есть если $\skew \xi < 0$ , то это значит, что распределение имеет длинный левый хвост, и что большинство значений сосредоточено справа от среднего. Так же для многих (но не всех) унимодальных распределений

\skew \xi < 0 \implies \mode \xi > \med \xi > \expect \xi \quad\text{Это эмпирическое правило!}

Значения коэффициента асимметрии можно интерпретировать следующим образом

$|\gamma| < 1/2$ — распределение почти симметричное. Большинство значений лежат равномерно вокруг среднего, экстремальных выбросов мало. Гистограмма выглядит примерно симметричной, как аккуратный холм.
$1/2 < |\gamma| < 1$ — умеренная асимметрия. Уже заметный перекос, но не критичный. Один хвост явно длиннее другого.
$|\gamma| > 1$ — значительная асимметрия. Сильный перекос, данные очень неравномерны. Один хвост тянет среднее значение в свою сторону. Математическое ожидание уже плохо отражает типичное значение, нужно использовать для этого показателя медиану.

Несколько примеров разных категорий асимметричности, чтобы развить интуицию.

Рост взрослых людей имеет коэффициент асимметрии $\gamma \approx 0.2$ . Температура воздуха в умеренном климате $\gamma \approx 0.3$ . Это почти симметричные распределения.

Цены на квартиры в типичном городе имеют коэффициент асимметрии $\gamma \approx 0.7$ , так как дорогих квартир не много. Оценки на сложном экзамене будут иметь коэффициент асимметрии $\gamma \approx -0.6$ , ведь плохих оценок будет сильно больше, чем хороших.

Убытки от катастроф имеют коэффициент асимметрии $\gamma \approx 3.0$ , так как большинство катастроф наносят ущерб в миллионы долларов, но редкие события (типа Фукусимы или урагана Катрина) — убытки в десятки миллиардов долларов.

Свойства коэффициента асимметрии

Коэффициент асимметрии инвариантен относительно линейных преобразований

\skew (a \cdot \xi + b) = \sign a \cdot \skew \xi

Симметричные распределения имеют нулевой коэффициент асимметрии. То есть если $f(x)$ — плотность распределения случайной величины $\xi$ , и $\mu$ — математическое ожидание $\xi$ , то

f (\mu + x) = f (\mu - x) ~\text{для всех}~ x \iff \skew \xi = 0

Для двух независимых случайных величин $\xi$ и $\eta$ асимметрия суммы равна сумме асимметрий с поправкой на коэффициент

\skew (\xi + \eta) = \frac{(\dev \xi)^3 \cdot \skew \xi + (\dev \eta)^3 \cdot \skew \eta}{\bigl( \dev (\xi + \eta) \bigr)^3} \quad\text{при независимости}~ \xi ~\text{и}~ \eta

При этом обратное неверно из этого равенства не следует независимость величин $\xi$ и $\eta$ .

А в общем случае асимметрия суммы случайных величин выражается через косимметрию

\align{ \skew (\xi + \eta) = \frac{1}{\bigl( \dev (\xi + \eta) \bigr)^3} \cdot \Bigl( (&\dev \xi)^3 \cdot \skew \xi + 3 \cdot (\dev \xi)^2 \cdot \dev \eta \cdot \coskew (\xi, \xi, \eta) + \\ &+ 3 \cdot \dev \xi \cdot (\dev \eta)^2 \cdot \coskew (\xi, \eta, \eta) + (\dev \eta)^3 \cdot \skew \eta \Bigr) }

Косимметрия

Если ковариация измеряет совместную изменчивость (связь вторых моментов) двух случайных величин, то для измерения совместной симметрии (связи третьих моментов) используется косимметрия.

Косимметрия

Косимметрия трёх случайных величин $\xi$ , $\eta$ и $\zeta$ — это мера того, насколько сильно три случайные величины совместно проявляют асимметрию:

\coskew (\xi, \eta, \zeta) = \expect \bigl( (\xi - \expect \xi ) \, (\eta - \expect \eta) \, (\zeta - \expect \zeta) \bigr)

Косимметрия показывает тенденцию совместного проявления асимметрии трёх случайных величин. Если три случайные величины демонстрируют положительную косимметрию, то они будут иметь тенденцию одновременно испытывать крайние отклонения, нечётное число которых будет в положительном направлении (то есть все три случайные величины будут испытывать крайние положительные отклонения, или одна из них будет испытывать крайние положительные отклонения, а две другие — крайние отрицательные). Аналогично, если три случайные величины демонстрируют отрицательную косимметрию, то они будут иметь тенденцию одновременно испытывать крайние отклонения, чётное число которых будет в положительном направлении (то есть все три случайные величины будут испытывать крайние отрицательные отклонения, или одна из них будет испытывать крайние отрицательные отклонения, а две другие — крайние положительные отклонения).

Косимметрия зависит от масштаба. Для того, чтобы сравнивать силу совместной изменчивости трёх величин, нужно косимметрию отнормировать. В результате получается коэффициент косимметрии

c = \frac{\coskew (\xi, \eta, \zeta)}{\dev \xi \cdot \dev \eta \cdot \dev \zeta}

Коэффициент косимметрии, в отличие от корреляции, может по модулю превышать $1$ .

Свойства косимметрии

Косимметрия попарно независимых величин равна $0$ , аналогично свойству для ковариации

\coskew (\xi, \eta, \zeta) = 0 \quad\text{при независимости}~ \xi, \eta ~\text{и}~ \zeta

Косимметрия симметрична

\coskew (\xi, \eta, \zeta) = \coskew (\xi, \zeta, \eta) = \coskew (\eta, \zeta, \xi)

При этом косимметрия трех одинаковых величин равна третьему центральному моменту, который выражается через коэффициент асимметрии

\coskew (\xi, \xi, \xi) = m_3 = \skew \xi \cdot (\dev \xi)^3

В силу линейности математического ожидания

\coskew(\xi, \eta, \zeta) = \expect (\xi \eta \zeta) - \expect \xi \cdot \bigl( \expect (\eta \zeta) \bigr) - \expect \eta \cdot \bigl( \expect (\xi \zeta) \bigr) - \expect \zeta \cdot \bigl( \expect (\xi \eta) \bigr) + 2 \cdot \expect \xi \, \expect \eta \, \expect \zeta

Косимметрия линейна по каждому из аргументов.

\coskew (a \cdot \xi + b,~ \eta,~ \zeta) = a \cdot \coskew (\xi, \eta, \zeta)

Запишу это свойство в широко применяемой форме. Пусть $\xi_1, \xi_2, \dotsc, \xi_n$ — случайные величины. Рассмотрим три их линейные комбинации $\sum\limits_{i=1}^n a_i \cdot \xi_i$ , $\sum\limits_{j=1}^n b_j \cdot \xi_j$ и $\sum\limits_{k=1}^n c_k \cdot \xi_k$ :

\coskew \left( \sum\limits_{i=1}^n a_i \cdot \xi_i,~~ \sum\limits_{j=1}^n b_j \cdot \xi_j,~~ \sum\limits_{k=1}^n c_k \cdot \xi_k \right) = \sum\limits_{i=1}^n \sum\limits_{j=1}^n \sum\limits_{k=1}^n a_i b_j c_k \cdot \coskew(\xi_i, \xi_j, \xi_k)

Также полезным инструментом является парная косимметрия, которая выражает зависимость разброса одной величины от отклонения другой. Эта величина $\coskew (\xi, \xi, \eta)$ . Она, понятное дело, несимметрична.

Если $\coskew (\xi, \xi, \eta) > 0$ , то когда $\eta$ сильно отклоняется от своего среднего, $\xi$ тоже имеет тенденцию сильно отклоняться — то есть разброс $\xi$ увеличивается при больших $|\eta - \expect \eta|$ . Если $\coskew (\xi, \xi, \eta) < 0$ , то наоборот, большие отклонения $\eta$ связаны с малым разбросом $\xi$ .

\coskew (\xi, \xi, \eta) = \cov (\xi^2, \eta) - 2 \cdot \expect \xi \cdot \cov (\xi, \eta)

Тензор косимметрий

Аналогично матрице ковариаций, которая позволяет анализировать совместную зависимость компонентов случайного вектора $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ , для совместной симметричности можно ввести аналогичное понятие — тензор косимметрий.

Тензор косимметрий

Пусть $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ — случайный вектор, и $\mu = \expect \xi$ .

Тензор косимметрий этого случайного вектора $\xi$ называется $3$ -х мерный тензор $\CCC$ , где

\CCC_{i, \- j, \- k} = \coskew(\xi_i, \xi_j, \xi_k) \quad\text{для}~ 1 \le i, j, k \le n

Тензор косимметрий симметричен по всем трём индексам.

Подействовав тензором косимметрий на три вектора $u, v, w \in \RR^n$ , мы получим величину $\CCC (u, v, w) \defeq \sum\limits_{1 \;\! \le \;\! i, j, k \le n} \CCC_{i, \- j, \- k} \, u_i \, v_j \, w_k$ .

Подействовав тензором косимметрий на три одинаковых вектора $u \in \RR^n$ , мы получим коэффициент асимметрии проекции $\xi$ на направление $u$ :

\CCC (u, u, u) = \expect \Bigl( \bigl( u^\T \cdot (\xi - \mu) \bigr)^3 \Bigr) = \skew (u^\T \cdot \xi) \cdot \bigl( \dev (u^\T \cdot \xi) \bigr)^3

А также подействовав тензором косимметрий на тройку векторов $(u, u, v)$ , где $u, v \in \RR^n$ , мы получим тождество для дисперсии квадрата

\CCC (u, u, v) = \cov \Bigl( \bigl(u^\T \cdot (\xi - \mu) \bigr)^2 ,~ v^\T \cdot (\xi - \mu) \Bigr)

В общем случае, действуя тензором косимметрий на три произвольных вектора $u, v, w \in \RR^n$ , мы получаем косимметрию проекций случайного вектора $\xi$ на эти направления:

\CCC (u, v, w) = \coskew \bigl( u^\T \cdot (\xi - \mu) ,~ v^\T \cdot (\xi - \mu) ,~ w^\T \cdot (\xi - \mu) \bigr)

Если векторы совпадают с координатными осями, например $u = e_i$ , $v = e_j$ , $w = e_k$ , то мы получаем исходные компоненты тензора: $\CCC(e_i, e_j, e_k) = \CCC_{i, \- j, \- k} = \coskew ( \xi_i, \xi_j, \xi_k )$ .

Эксцесс

Помимо асимметрии, распределения случайных величин различаются по островершинности. Эта характеристика показывает, насколько сильно значения сосредоточены вокруг среднего по сравнению с тяжестью хвостов распределения.

Эксцесс — мера остроты пика распределения и тяжести его хвостов. Распределения с высоким эксцессом имеют более острый пик и более тяжелые хвосты, а распределения с низким эксцессом — более плоскую вершину и легкие хвосты.

Коэффициент эксцесса

Случайная величина $\xi$ имеет математическое ожидание $\mu$ и дисперсию $\sigma^2$ .

Островершинность распределения случайной величины $\xi$ характеризует величина

m_4 = \expect \bigl( (\xi - \mu)^4 \bigr)

Коэффициент эксцесса (kurtosis) случайной величины $\xi$ — величина, измеряющая островершинность распределения относительно нормального распределения. Безразмерный коэффициент, определяемый формулой

\kurt \xi \defeq \frac{\expect \bigl( (\xi-\mu)^4 \bigr)}{(\dev \xi)^4} - 3 = \frac{m_4}{\sigma^4} - 3

На письме часто обозначается $\vepsilon$ .

Нормальное распределение имеет эксцесс $\kurt \xi = 0$ , что обеспечивалось слагаемым $-3$ в определении эксцесса.

$\kurt \xi > 0$ — распределение более островершинное, чем нормальное, с более тяжелыми хвостами (leptokurtic)
$\kurt \xi < 0$ — распределение более плосковершинное, чем нормальное, с более легкими хвостами (platykurtic)

Значения коэффициента эксцесса можно интерпретировать следующим образом

$|\vepsilon| < 0.5$ — распределение близко к нормальному по форме пика и хвостов. Большинство значений ведут себя примерно как в нормальном распределении. Вероятность экстремальных событий соответствует ожиданиям для нормального распределения. Стандартные статистические методы, основанные на предположении о нормальности, работают удовлетворительно.

$0.5 < \vepsilon < 2$ — умеренно тяжелые хвосты. Распределение более островершинное, экстремальные значения встречаются чаще, чем в нормальном распределении. Стандартные статистические методы начинают давать сбои, особенно в оценках рисков и доверительных интервалах.

$\vepsilon > 2$ — очень тяжелые хвосты. Распределение имеет очень острый пик и очень тяжелые хвосты. Высокая вероятность экстремальных событий. Стандартные статистические методы неприменимы — они будут недооценивать риски.

$\vepsilon < -0.5$ — легкие хвосты. Распределение более плоское, экстремальные значения встречаются реже, чем в нормальном распределении. Данные необычно стабильны, «сюрпризы» маловероятны. Стандартные методы могут быть избыточно консервативными в оценках рисков.

Несколько примеров разных категорий эксцесса, чтобы развить интуицию.

Доходы хедж-фондов часто имеют эксцесс $\vepsilon \approx 3-5$ , что указывает на высокую вероятность крупных выигрышей и потерь. Убытки от кибератак для крупной компании имеют эксцесс $\vepsilon \approx 4$ . Большинство инцидентов — это мелкие утечки данных или кратковременные сбои, стоимость которых невелика. Однако редкая успешная масштабная атака приводит к колоссальным убыткам в сотни миллионов, формируя тяжёлый хвост.

Результаты бега на 100 метров среди школьников на уроке физкультуры имеют эксцесс $\vepsilon \approx -1$ . Есть «потолок» — минимальное время, которое физически могут показать дети, и большинство результатов скучено недалеко от этого предела. При этом нет «супер-медленных» результатов — все дети хотя бы как-то пробегут дистанцию. Это создаёт лёгкий левый хвост и отрицательный эксцесс. Равномерное распределение имеет эксцесс $\vepsilon \approx -1.2$ , так как у него совсем нет хвостов — значения не могут выходить за границы интервала.

В финансовой математике высокий эксцесс особенно важен — он предупреждает о возможности редких, но катастрофических событий. Если распределение доходностей имеет большой положительный эксцесс, значит риск экстремальных существенно выше, чем предполагает нормальное распределение.

Свойства эксцесса

Коэффициент эксцесса инвариантен относительно сдвига и масштаба

\kurt (a \cdot \xi + b) = \kurt \xi

Эксцесс не меняется при линейных преобразованиях, в отличие от асимметрии, которая меняет знак при отражении.

Для невырожденной случайной величины $\xi$ коэффициент эксцесса всегда не меньше $-2$ .

\kurt \xi \ge -2

Граница $-2$ может показаться неестественной, поэтому я объясню, откуда такое ограничение берётся. Возьмём случайную величину $\xi$ с математическим ожиданием $\mu$ и дисперсией $\sigma^2$ . Стандартизируем её, получив новую случайную величину $\eta = (\xi - \mu) / \sigma$ . Теперь рассмотрим случайную величину $\eta^2$ . Ей математическое ожидание $\expect (\eta^2) = 1$ и дисперсия неотрицательна.

\var (\eta^2) = \expect (\eta^4) - \bigl( \expect (\eta^2) \bigr)^2 = \expect (\eta^4) - 1 \ge 0

Мы получили неравенство $\expect (\eta^4) \ge 1$ , а значит $\kurt \xi = \expect (\eta^4) - 3 \ge -2$

Для любой случайной величины выполняется неравенство

\kurt \xi \ge (\skew \xi)^2 - 2

Это неравенство связывает эксцесс с асимметрией и показывает, что распределения с большой асимметрией не могут иметь слишком маленький эксцесс.

Нормальное распределение является эталоном

\xi \sim \Norm(\mu, \sigma^2) \implies \kurt \xi = 0

Коэксцесс

Если косимметрия измеряет совместную асимметрию трёх случайных величин, то совместный эксцесс измеряет совместную «тяжесть хвостов» четырёх случайных величин.

Коэксцесс

Коэксцесс четырёх случайных величин $\xi$ , $\eta$ , $\zeta$ и $\omega$ — это мера того, насколько сильно четыре случайные величины совместно проявляют экстремальность:

\cokurt (\xi, \eta, \zeta, \omega) = \expect \bigl( (\xi - \expect \xi ) \, (\eta - \expect \eta) \, (\zeta - \expect \zeta) \, (\omega - \expect \omega) \bigr)

Совместный эксцесс показывает тенденцию совместного проявления экстремальности четырёх случайных величин.

Если четыре случайные величины демонстрируют положительный совместный эксцесс, то они будут иметь тенденцию одновременно испытывать экстремальные отклонения, причём отклонения будут согласованы по знаку — либо все четыре величины будут иметь крайние положительные отклонения, либо все четыре будут иметь крайние отрицательные отклонения, либо будет чётное число положительных и чётное число отрицательных отклонений.

Если четыре случайные величины демонстрируют отрицательный совместный эксцесс, то они будут иметь тенденцию одновременно испытывать экстремальные отклонения, но отклонения будут несогласованы по знаку — три величины будут иметь крайние положительные отклонения, а одна отрицательное, или три отрицательные, а одна положительное, или будет нечётное число положительных и нечётное число отрицательных отклонений.

Это всё связано с тем, что произведение четырёх отклонений будет положительным, когда чётное число из них отрицательны, и отрицательным, когда нечётное число отрицательны.

На практике положительный совместный эксцесс означает, что величины «двигаются вместе» в экстремальных ситуациях — либо все «взлетают», либо все «падают». Отрицательный совместный эксцесс означает, что экстремальные движения одних величин компенсируются противоположными движениями других.

Коэксцесс зависит от масштаба. Для того, чтобы сравнивать силу совместной экстремальности четырёх величин, нужно коэксцесс отнормировать. В результате получается коэффициент коэксцесса

k = \frac{\cokurt (\xi, \eta, \zeta, \omega)}{\dev \xi \cdot \dev \eta \cdot \dev \zeta \cdot \dev \omega}

Коэффициент коэксцесса, в отличие от корреляции, может по модулю превышать $1$ .

Свойства коэксцесса

Коэксцесс попарно независимых величин равен $0$ , аналогично свойству для ковариации

\cokurt (\xi, \eta, \zeta, \omega) = 0 \quad\text{при независимости}~ \xi, \eta, \zeta ~\text{и}~ \omega

Коэксцесс симметричен

\cokurt (\xi, \eta, \zeta, \omega) = \cokurt (\xi, \eta, \omega, \zeta) = \cokurt (\xi, \zeta, \omega, \eta) = \cokurt (\eta, \zeta, \omega, \xi)

При этом коэксцесс четырёх одинаковых величин равен четвёртому центральному моменту, который выражается через эксцесс

\cokurt (\xi, \xi, \xi, \xi) = m_4 = (\kurt \xi + 3) \cdot (\dev \xi)^4

В силу линейности математического ожидания

\align{ \cokurt(\xi, \eta, \zeta, \omega) =& \expect (\xi \eta \zeta \omega) - \expect \xi \cdot \bigl( \expect (\eta \zeta \omega) \bigr) - \expect \eta \cdot \bigl( \expect (\xi \zeta \omega) \bigr) - \expect \zeta \cdot \bigl( \expect (\xi \eta \omega) \bigr) - \expect \omega \cdot \bigl( \expect (\xi \eta \zeta) \bigr) + \\ &+ \expect \xi \, \expect \eta \cdot \bigl( \expect (\zeta \omega) \bigr) + \expect \xi \, \expect \zeta \cdot \bigl( \expect (\eta \omega) \bigr) + \expect \xi \, \expect \omega \cdot \bigl( \expect (\eta \zeta) \bigr) + \\ &+ \expect \eta \, \expect \zeta \cdot \bigl( \expect (\xi \omega) \bigr) + \expect \eta \, \expect \omega \cdot \bigl( \expect (\xi \zeta) \bigr) + \expect \zeta \, \expect \omega \cdot \bigl( \expect (\xi \eta) \bigr) - \\ &- 3 \cdot \expect \xi \, \expect \eta \, \expect \zeta \, \expect \omega }

Коэксцесс линеен по каждому из аргументов.

\cokurt (a \cdot \xi + b,~ \eta,~ \zeta,~ \omega) = a \cdot \cokurt (\xi, \eta, \zeta, \omega)

Запишу это свойство в широко применяемой форме. Пусть $\xi_1, \xi_2, \dotsc, \xi_n$ — случайные величины. Рассмотрим четыре их линейные комбинации $\sum\limits_{i=1}^n a_i \cdot \xi_i$ , $\sum\limits_{j=1}^n b_j \cdot \xi_j$ $\sum\limits_{k=1}^n c_k \cdot \xi_k$ и $\sum\limits_{l=1}^n d_l \cdot \xi_l$ :

\cokurt \left( \sum\limits_{i=1}^n a_i \cdot \xi_i,~~ \sum\limits_{j=1}^n b_j \cdot \xi_j,~~ \sum\limits_{k=1}^n c_k \cdot \xi_k ,~~ \sum\limits_{l=1}^n d_l \cdot \xi_l \right) = \sum\limits_{i=1}^n \sum\limits_{j=1}^n \sum\limits_{k=1}^n \sum\limits_{l=1}^n a_i b_j c_k d_l \cdot \cokurt (\xi_i, \xi_j, \xi_k, \xi_l)

Тензор коэксцессов

Аналогично тензору косимметрий, который позволяет анализировать совместную асимметричность компонентов случайного вектора $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ , для совместной экстремальности можно ввести аналогичное понятие — тензор коэксцессов.

Тензор коэксцессов

Пусть $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ — случайный вектор.

Тензор коэксцессов этого случайного вектора $\xi$ называется $4$ -х мерный тензор $\KKK$ , где

\KKK_{i, \- j, \- k, \- l} = \cokurt(\xi_i, \xi_j, \xi_k, \xi_l) \quad\text{для}~ 1 \le i, j, k, l \le n

Тензор коэксцессов симметричен по всем четырём индексам.

Тензором коэксцессов можно подействовать на четыре вектора $u, v, w, z \in \RR^n$ . В результате мы получим величину

\KKK (u, v, w, z) \defeq \sum\limits_{1 \;\! \le \;\! i, j, k, l \le n} \KKK_{i, \- j, \- k, \- l} \, u_i \, v_j \, w_k \, z_l

Подействовав тензором коэксцессов на четыре одинаковых вектора $u \in \RR^n$ , мы получим эксцесс проекции $\xi$ на направление $u$ :

\KKK (u, u, u, u) = \expect \Bigl( \bigl( u^\T \cdot (\xi - \mu) \bigr)^4 \Bigr) = \bigl( \kurt (u^\T \cdot \xi) + 3 \bigr) \cdot \bigl( \dev (u^\T \cdot \xi) \bigr)^4

А также подействовав тензором коэксцессов на четвёрку векторов $(u, u, v, v)$ , где $u, v \in \RR^n$ , мы получим тождество для ковариаций квадратов проекций

\KKK (u, u, v, v) = \cov \Bigl( \bigl( u^\T \cdot (\xi - \mu) \bigr)^2 ,~ \bigl( v^\T \cdot (\xi - \mu) \bigr)^2 \Bigr)

В общем случае, подействовав тензором коэксцессов на четыре произвольных вектора $u, v, w, z \in \RR^n$ , мы получаем коэксцесс проекций случайного вектора $\xi$ на эти направления:

\KKK (u, v, w, z) = \cokurt \bigl( u^\T \cdot (\xi - \mu) ,~ v^\T \cdot (\xi - \mu) ,~ w^\T \cdot (\xi - \mu) ,~ z^\T \cdot (\xi - \mu) \bigr)

Если векторы совпадают с координатными осями, например $u = e_i$ , $v = e_j$ , $w = e_k$ , $z = e_l$ , то мы получаем исходные компоненты тензора: $\KKK (e_i, e_j, e_k, e_l) = \KKK_{i, \- j, \- k, \- l} = \cokurt ( \xi_i, \xi_j, \xi_k, \xi_l )$ .

Моменты случайных величин

Мы уже познакомились с целым набором характеристик случайных величин: математическим ожиданием, дисперсией, асимметрией и эксцессом. Возникает закономерный вопрос — не слишком ли много параметров? Зачем нам четыре разные характеристики, когда, казалось бы, можно обойтись первыми двумя?

Ответ становится ясен, если посмотреть на эти величины не как на отдельные инструменты, а как на части единой системы. Все они являются моментами — последовательными характеристиками, которые позволяют всё точнее описать форму распределения.

Система моментов — это как разложение сложной формы на простые составляющие: первый момент $\expect \xi$ показывает где находится распределение на числовой прямой второй момент $\expect \bigl( (\xi - \expect \xi)^2 \bigr)$ показывает насколько широко оно размазано; третий момент $\expect \bigl( (\xi - \expect \xi)^3 \bigr)$ показывает насколько оно перекошено влево или вправо; четвёртый момент $\expect \bigl( (\xi - \expect \xi)^4 \bigr)$ показывает насколько острый пик и тяжелые хвосты.

Представьте, что вы описываете горный хребет. Сказать «он начинается там-то» (первый момент) явно недостаточно. Добавить «и протянулся на столько-то километров» (второй момент) уже лучше, но всё ещё неполно. «А ещё он скошен к северу» (третий момент) и «имеет очень острые пики» (четвёртый момент) — вот теперь картина становится по-настоящему объёмной.

Именно такой объёмной картины мы и добиваемся, вводя моменты высших порядков. Каждый следующий момент добавляет новый штрих к портрету нашего распределения, позволяя отличать не только широкие распределения от узких, но и симметричные от асимметричных, распределения с тяжёлыми хвостами от распределений с лёгкими, уточнять форму хвостов и так далее.

Более того, как мы увидим далее, эта система моментов прекрасно обобщается на многомерный случай через тензоры совместных моментов, создавая единый язык для описания сложных вероятностных структур.

Моменты случайных величин

Пусть $\xi$ — случайная величина с математическим ожиданием $\mu$ .

$n$ -й начальный момент случайной величины $\xi$ величина

M_n = \expect (\xi^n)

$n$ -й центральный момент случайной величины $\xi$ — величина

m_n = \expect \bigl( (\xi - \expect \xi)^n \bigr) = \expect \bigl( (\xi - \mu)^n \bigr)

По определению $M_0 \defeq 1$ .

Когда говорят про моменты, обычно отделяют первый начальный момент $M_1 = \mu$ — математическое ожидание $\xi$ .

Если нужно подчеркнуть, что момент берётся именно от случайной величины $\xi$ , то пишут $M_n (\xi)$ для начальных моментов и $m_n (\xi)$ для центральных.

Уже известные нам характеристики случайной величины $\xi$ можно и нужно выразить через моменты $M_n$ и $m_n$

\expect \xi = M_1 = \mu \quad \var \xi = m_2 \quad \skew \xi = \frac{m_3}{(m_2)^{3/2}} \quad \kurt \xi = \frac{m_4}{(m_2)^2} - 3

Моменты непрерывной случайной величины можно явно определить через её плотность $f(x)$

M_n = \int\limits_{-\oo}^{+\oo} x^n \, f(x) \, dx \quad\text{и}\quad m_n = \int\limits_{-\oo}^{+\oo} (x-\mu)^n \, f(x) \, dx

Аналогично, для дискретной случайной величины с функцией вероятности $p(x)$

M_n = \sum\limits_{x} x^n \, p(x) \quad\text{и}\quad m_n = \sum\limits_x (x-\mu)^n \, p(x)

Между начальными и центральными моментами есть следующая связь

m_n = \sum\limits_{j=0}^n \binom{n}{j} \, (-1)^{n-j} \, M_j \, \mu^{n-j}

M_n = \sum\limits_{j=0}^n \binom{n}{j} \, (-1)^{n-j} \, m_j \, \mu^{n-j}

Центральные моменты однородны, то есть

\expect (a \cdot \xi + b) = a \cdot \expect \xi + b \quad\text{и}\quad m_n (a \cdot \xi + b) = a^n \cdot m_n (\xi) \quad\text{при}~ n \ge 2

Начальные моменты $M_n$ можно выразить через производные характеристической функции $\varphi(t)$

M_n = (-1)^n \cdot \varphi^{(n)} (0)

Производящая функция моментов

Пусть $M_n$ — начальные моменты случайной величины $\xi$ .

Производящая функция моментов случайной величины $\xi$ — функция

M_{\xi} (t) = \expect (e^{t \, \xi}) = \sum\limits_{n=0}^\oo \frac{M_n}{n!} \, t^n = 1 + M_1 \, t + \frac{M_2}{2} \, t^2 + \frac{M_3}{3!} \, t^3 + \dotsb

Через производящую функцию моментов можно легко вычислить начальные моменты

M_n = \frac{d^n M(0)}{dt^n}

Очень важный факт: производящая функция моментов однозначно определяет распределение. То есть, если у вас есть информация о каждом моменте (начальном или центральном, не важно) случайной величины, то вы сможете однозначно восстановить её распределение.

Производящую функцию моментов можно рассматривать как просто формальный ряд, так и как обычный ряд. Во втором случае сразу же встаёт вопрос о сходимости. Область сходимости такого ряда тесно связана с хвостами распределения случайной величины, для которой записана эта производящая функция моментов.

Если производящая функция моментов $M(t)$ существует в окрестности нуля, то она однозначно определяет распределение случайной величины. Это означает, что если $M_{\xi} (t) = M_{\eta} (t)$ для всех $t$ в какой-то окрестности нуля, то $\xi$ и $\eta$ имеют одинаковое распределение.

Радиус сходимости производящей функции моментов

Пусть $M(t)$ — производящая функция моментов случайной величины $\xi$ .

Пусть $M(t)$ существует при $|t| < R$ , то есть ряд сходится с радиусом сходимости $R$ . Тогда радиус сходимости удовлетворяет равенству

\frac{1}{R} = \inf \bigl\{ a > 0 : \prob (|\xi| > x) = O(e^{-ax}) ~\text{при}~ x \to \oo \bigr\}

В частности, если $\prob (|\xi| > x) \le C \cdot e^{-ax}$ для какого-то $a > 0$ , то $M(t)$ существует при всех $|t| < a$ .

Применив формулу Коши – Адамара для радиуса сходимости степенного ряда, получим следующий интересный факт. Если $R$ — радиус сходимости производящей функции моментов, то

\limsup_{n \to \oo} \left( \frac{|M_n|}{n!} \right)^{1/n} \;\! \le \;\! \frac{1}{R}

Для любых $n \ge 1$ выполняется неравенство

\left( \frac{d^n M(0)}{dt^n} \right)^2 \le \frac{d^{2n} M(t)}{dt^{2n}}

А значит и выполняется неравенство для начальных моментов

(M_n)^2 \le M_{2n}

Это неравенство имеет глубокий практический смысл: оно показывает, что моменты не могут расти произвольно. Если у нас есть информация о моменте порядка $2n$ , то мы автоматически получаем оценку для момента порядка $n$ . В частности, существование моментов высших порядков гарантирует существование моментов низших порядков.

Производящая функция моментов суммы независимых величин

Если $\xi$ и $\eta$ — независимые случайные величины, то

M_{\xi + \eta} (t) = M_{\xi} (t) \cdot M_{\eta} (t)

Рассмотрим определение производящей функции моментов: $M_{\xi} (t) = \expect (e^{\xi t})$ и $M_{\eta} (t) = \expect (e^{\eta t})$ . Тогда

M_{\xi + \eta} (t) = \expect (e^{(\xi + \eta) \, t}) = \expect (e^{\xi t} \cdot e^{\eta t})

Воспользуемся независимостью: раз $\xi$ и $\eta$ независимые величины, то и $e^{\xi}$ и $e^{\eta}$ тоже независимы и мы можем раскрыть математическое ожидание:

M_{\xi + \eta} (t) = \expect (e^{\xi t} \cdot e^{\eta t}) = \expect (e^{\xi t}) \cdot \expect (e^{\eta t}) = M_{\xi} (t) \cdot M_{\eta} (t)

Отсюда легко вычисляется формула $n$ -го момента суммы независимых случайных величин. Продифференцируем обе части $n$ раз в точке $t=0$ . Используя формулу Лейбница для производной произведения получаем, что

M_n (\xi + \eta) = \sum\limits_{j=0}^n \binom{n}{j} \, M_{j} (\xi) \, M_{n-j} (\eta)

Например, для $n=2$ мы получаем знакомую формулу $M_2(\xi+\eta) = M_2(\xi) + 2M_1(\xi)M_1(\eta) + M_2(\eta)$ , что после перехода к центральным моментам даёт $\var(\xi+\eta) = \var\xi + \var\eta$ .

Для центральных моментов формула усложняется, поскольку центрирование нарушает мультипликативное свойство. Для дисперсии формула остается привычной, $\var (\xi + \eta) = \var \xi + \var \eta$ , но для более высоких центральных моментов суммы независимых величин удобнее работать с кумулянтами, которые обладают свойством аддитивности.

Кумулянты и их производящие функции

Моменты не обладают свойством аддитивности для независимых случайных величин, а удобный инструмент для вычисления моментов нам нужен. Торвальд Тиле в 1903 году ввёл кумулянты, обладающие всеми удобными свойствами.

Кумулянты и производящая функция кумулянтов

Производящая функция кумулянтов — логарифм производящей функции моментов

K(t) \defeq \ln M(t) = \ln \expect (e^{\xi t})

Разложив производящую функцию в ряд Маклорена, в качестве его коэффициентов мы получим кумулянты $\kappa_k$ :

K(t) = \sum\limits_{n=1}^\oo \frac{\kappa_n}{n!} \cdot t^n \quad\text{или}\quad \kappa_n = K^{(n)} (0) = \frac{d^n}{dt^n} \ln M(t) \bigg|_{t=0}

Если нужно подчеркнуть, что кумулянт берётся именно от случайной величины $\xi$ , то пишут $\kappa_k (\xi)$ .

Что измеряют кумулянты? Если моменты описывают «сырую» форму распределения, то кумулянты выделяют его «истинные» характеристики, очищенные от низших моментов:

$\kappa_1$ — положение центра
$\kappa_2$ — «истинный« ширина (дисперсия)
$\kappa_3$ — «истинная« асимметрия
$\kappa_4$ — «истинный« эксцесс
ну и так далее

Аддитивность кумулянтов

Если $\xi$ и $\eta$ — независимые случайные величины, а $\kappa_n (\xi)$ — $n$ -й кумулянт случайной величины $\xi$ , то

\kappa_n (\xi + \eta) = \kappa_n (\xi) + \kappa_n (\eta)

Мы знаем, что то производящая функция моментов суммы независимых случайных величин может быть выражена через производящие функции моментов самих величин как

M_{\xi + \eta} (t) = M_{\xi} (t) \cdot M_{\eta} (t)

Логарифмируя, получаем производящие функции кумулянтов

K_{\xi + \eta} (t) = \ln G_{\xi + \eta} (e^t) = \ln G_{\xi} (e^t) + \ln G_{\eta} (e^t) = K_{\xi} (t) + K_{\eta} (t)

Раз производящие функции кумулянтов аддитивны, то и коэффициенты аддитивны, то есть

\kappa_n (\xi + \eta) = \kappa_n (\xi) + \kappa_n (\eta)

Также кумулянты однородны, то есть

\kappa_n (a \cdot \xi) = c^n \cdot \kappa_n (\xi)

При этом кумулянты можно явно выразить через моменты

\kappa_n = \sum\limits_{\substack{k_1, k_2, \dotsc, k_n \;\! \ge \;\! 0 \\ k_1 + 2 k_2 + \dotsb + n k_n = n}} (-1)^{k_1 + k_2 + \dotsb + k_n - 1} \, \frac{n! \, (k_1 + k_2 + \dotsb + k_n - 1)!}{k_1! \, 1!^{k_1} \, k_2! \, 2!^{k_2} \, k_3! \, 3!^{k_3} \dotsm k_n! \, n!^{k_n}} \cdot M_1^{k_1} \, M_2^{k_2} \, M_3^{k_3} \dotsm M_n^{k_n}

Есть также и рекуррентная формула для кумулянтов

\kappa_n = M_n - \sum\limits_{j=1}^{k-1} \binom{n-1}{j-1} \, \kappa_j \, M_{n-j}

Тензоры моментов

Мы анализировали совместную зависимость между компонентами случайного вектора $\xi = (\xi_1, \xi_2, \dotsc, \xi_n)^\T$ с помощью матрицы ковариаций, тензора косимметрий и тензора коэксцессов. Мы получали информацию, соответственно, о вторых, третьих и четвёртых моментах совместной зависимости. Можно ли пойти дальше?

Можно. Естественным обобщением всех рассматриваемых величин служат тензоры моментов. Тензоры моментов предоставляют единый математический язык для описания многомерных зависимостей любого порядка.

Тензор моментов

Тензор моментов ранга $m$ случайного вектора $\xi$ определяется как:

\MMM^{\circled{m}}_{i_1, \- i_2, \- \dotsc, \- i_m} = \expect \bigl( (\xi_{i_1} - \mu_{i_1}) \, (\xi_{i_2} - \mu_{i_2}) \, \dotsm \, (\xi_{i_m} - \mu_{i_m}) \bigr)

Или, в тензорных обозначениях: $\MMM^{\circled{m}} = \expect \bigl( (\xi - \mu)^{\otimes m} \bigr)$

Если нужно подчеркнуть, что тензор моментов рассматривается от случайной величины $\xi$ , то пишут $\MMM^{\circled{m}} (\xi)$ .

Все тензоры моментов $\MMM^{\circled{m}}$ полностью симметричны по своим индексам, то есть

\MMM^{\circled{m}}_{i_1, \- i_2, \- \dotsc, \- i_m} = \MMM^{\circled{m}}_{i_{\sigma(1)}, \- i_{\sigma(2)}, \- \dotsc, \- i_{\sigma(m)}} \quad\text{для любой перестановки}~ \sigma \in \S_m

Действие тензора моментов

Тензор момента ранга $m$ действует на $m$ векторов $v^{[1]}, v^{[2]} \dotsc, v^{[m]} \in \mathbb{R}^n$ как:

\MMM^{\circled{m}} \lgroup v_1, v_2 \dotsc, v_m \rgroup = \sum\limits_{1 \;\! \le \;\! i_1, i_2, \dotsc, i_m \le n} \MMM^{\circled{m}}_{i_1, \- i_2, \- \dotsc, \- i_m} \, v_{1; \- i_1} \, v_{2; \- i_2} \, \dotsm \, v_{m; \- i_m}

У действия тензора есть вполне естественная вероятностная интерпретация.

Действие тензора момента на одинаковых векторах даёт соответствующий момент проекции:

\MMM^{\circled{m}} \lgroup v, \dotsc, v \rgroup = \expect \Bigl( \bigl( v^\T \cdot (\xi - \mu) \bigr)^m \Bigr) = m_{m} (v^\T \cdot \xi)

Это свойство следует непосредственно из линейности математического ожидания и определения тензорного действия.

Поскольку тензоры моментов являются обычными тензорами, для них работают все свойства тензоров, в частности линейность и ортогональность.

Линейность. Тензоры моментов линейны по каждому аргументу действия

\MMM^{\circled{m}} \lgroup \dotsc, \alpha \cdot u + \beta \cdot v, \dotsc \rgroup = \alpha \cdot \MMM^{\circled{m}} \lgroup \dotsc, u, \dotsc \rgroup + \beta \cdot \MMM^{\circled{m}} \lgroup \dotsc, v, \dotsc \rgroup \quad\text{для}~ \alpha, \beta \in \RR

Инвариантность относительно ортогональных преобразований. Если $Q$ — ортогональная матрица, и $\eta = Q \cdot \xi$ , то действие тензоров моментов преобразуются как:

\MMM^{\circled{m}} (\eta) \lgroup v_1, \dotsc, v_m \rgroup = \MMM^{\circled{m}} (\xi) \lgroup Q^\T \cdot v_1, \dotsc, Q^\T \cdot v_m \rgroup

Однородность. Это свойство относится не только к линейным свойствам тензоров, но и к свойствам моментов, но тем не менее свойство важное и полезное. Итак, тензоры однородны

\MMM^{\circled{m}} (a \cdot\xi) = a^m \cdot \MMM^{\circled{m}} (\xi)

Тензор моментов суммы двух независимых случайных векторов

Тензор моментов суммы двух независимых случайных векторов $\xi$ и $\eta$ выражается через их тензоры моментов

\MMM^{\circled{m}} (\xi + \eta) = \sum\limits_{k=0}^m \binom{m}{k} \, \MMM^{\circled{k}} (\xi) \otimes \MMM^{\circled{m-k}} (\eta)

Тензор моментов ранга $m$ выражается по определению через математическое ожидание тензорной степени

\MMM^{\circled{m}} (\xi + \eta) = \expect \bigl( ( \xi - \expect \xi + \eta - \expect \eta )^{\otimes m} \bigr)

Раскрыв тензорную степень, получаем по формуле бинома Ньютона

\bigl( (\xi - \expect \xi) + (\eta - \expect \eta) \bigr)^{\otimes m} = \sum\limits_{k=0}^m \binom{m}{k} \, \Sym \bigl( (\xi - \expect \xi)^{\otimes k} \otimes (\eta - \expect \eta)^{\otimes (m-k)} \bigr)

где $\Sym (T)$ — оператор симметризации тензора $T$ , $\bigl( \Sym (T^{\circled{m}}) \bigr)_{i_1, \- i_2, \- \dotsc, \- i_m} \defeq 1/m! \cdot \sum\limits_{\sigma \;\! \in \;\! \S_m} T^{\circled{m}}_{i_{\sigma(1)}, \- i_{\sigma(2)}, \- \dotsc, \- i_{\sigma(m)}}$

Находя математическое ожидание, получаем общую формулу

\MMM^{\circled{m}} (\xi + \eta) = \sum\limits_{k=0}^m \binom{m}{k} \, \expect \Bigl( \Sym \bigl( (\xi - \expect \xi)^{\otimes k} \otimes (\eta - \expect \eta)^{\otimes (m-k)} \bigr) \Bigr)

Если $\xi$ и $\eta$ независимы, то их центрированные версии тоже независимы и

\expect \Bigl( \Sym \bigl( (\xi - \expect \xi)^{\otimes k} \otimes (\eta - \expect \eta)^{\otimes (m-k)} \bigr) \Bigr) = \expect \bigl( (\xi - \expect \xi)^{\otimes k} \bigr) \otimes \expect \bigl( (\eta - \expect \eta)^{\otimes (m-k)} \bigr) = \MMM^{\circled{k}} (\xi) \otimes \MMM^{\circled{m-k}} (\eta)

Подставляем это в общую формулу и получаем

\MMM^{\circled{m}} (\xi + \eta) = \sum\limits_{k=0}^m \binom{m}{k} \, \MMM^{\circled{k}} (\xi) \otimes \MMM^{\circled{m-k}} (\eta)

И снова мы столкнулись с некрасивой формулой, рушащей все наши надежды на аддитивность. В одномерном случае мы решали эту проблему через кумулянты. Здесь тоже можно ввести аналогичный инструмент — тензор кумулянтов.

Тензор кумулянтов

Тензор кумулянтов порядка $m$ определяется через производящую функцию кумулянтов:

K_\xi(t) = \ln \expect ( e^{t^\T \cdot \xi} ) = \sum\limits_{m=1}^\oo \frac{1}{m!} \sum\limits_{1 \;\! \le \;\! i_1, i_2, \dotsc, i_m \le n} \KKK^{\circled{m}}_{i_1, \- i_2, \- \dotsc, \- i_m} \, t_{i_1} \, t_{i_2} \, \dotsm \, t_{i_m}

Компоненты тензора кумулянтов

\KKK^{\circled{m}}_{i_1, \dotsc, i_m} = \frac{\partial^m K_\xi(0)}{\partial t_{i_1} \cdots \partial t_{i_m}}

Аддитивность тензоров кумулянтов

Если $\xi$ и $\eta$ — независимые случайные векторы, то:

\mathcal{K}^{\circled{m}}_{\xi + \eta} = \mathcal{K}^{\circled{m}}_{\xi} + \mathcal{K}^{\circled{m}}_{\eta}

Аналогично формуле для скалярных кумулянтов через моменты, тензор кумулянтов порядка $m$ выражается через тензоры моментов следующим образом

\align{ \KKK^{\circled{m}} = \sum\limits_{\substack{k_1, k_2, \dotsc, k_m \;\! \ge \;\! 0 \\ k_1 + 2 k_2 + \dotsb + m k_m = m}} & (-1)^{k_1 + k_2 + \dotsb + k_m - 1} \, \frac{m! \, (k_1 + k_2 + \dotsb + k_m - 1)!}{k_1! \, 1!^{k_1} \, k_2! \, 2!^{k_2} \, k_3! \, 3!^{k_3} \dotsm k_m! \, m!^{k_m}} \cdot \\ & \cdot \Sym \Bigl( \bigl(\MMM^{\circled{1}}\bigr)^{\otimes k_1} \otimes \bigl(\MMM^{\circled{2}}\bigr)^{\otimes k_2} \otimes \dotsb \otimes \bigl(\MMM^{\circled{m}}\bigr)^{\otimes k_m} \Bigr) }

Производящие функции вероятностей

Возьмём какую-то случайную величину $\xi$ . Пусть $p_k \defeq \prob(\xi = k)$ — вероятность того, что эта случайная величина принимает значение $k$ . Пусть $G(x)$ — производящая функция вероятностей $p_0, p_1, p_2, \dotsc$

G(x) = \sum\limits_{k} p_k x^k = p_0 + p_1 x + p_2 x^2 + \dotsb

Отмечу, что $G(1) = p_0 + p_1 + p_2 + \dotsb = 1$ .

Тогда математическое ожидание и дисперсия случайной величины могут быть вычислены через производящую функцию

\ave G \defeq \expect \xi = \sum\limits_{k} k \, p_k \quad\text{и}\quad \var G \defeq \var \xi = \sum\limits_{k} k^2 p_k - (\ave G)^2

Поскольку $G'(x) = \sum\limits_{k} k \, p_k x^{k-1}$ , оба момента можно выразить через производные $G$

\ave G = G'(1) \quad\text{и}\quad \var G = G''(1) + G'(1) - \bigl( G'(1) \bigr)^2

Теорема о представлении моментов

Пусть $G(x)$ и $H(x)$ — две производящие функции вероятностей, то есть $G(1) = H(1) = 1$ . Тогда

\ave GH = \ave G + \ave H \quad\text{и}\quad \var GH = \var G + \var H

Давайте в качестве примера рассмотрим несимметричную монету, у которой выпадает орёл с вероятностью $p$ и решка с вероятностью $q = 1-p$ . Мы бросаем эту монету $n$ раз. Мы считаем $k$ — количество раз, когда выпал орёл.

Пусть $p(n, k)$ — вероятность того, что после $n$ бросков орёл выпал ровно $k$ раз. Пусть $G_n(x)$ — соответствующая производящая функция

G_n (x) = \sum\limits_{k=0}^n p(n, k) \cdot x^k

Если рассмотреть отдельно бросок последней монеты, можно получить рекуррентное соотношение для вероятностей

p(n, k) = p \cdot p(n-1, k-1) + q \cdot p(n-1, k)

Тогда для производящей функции верно рекуррентное соотношение

G_n (x) = (q+px) \cdot G_{n-1} (x)

Решаем эту простую рекурренту и получаем

G_n (x) = (q+px)^n

Используя теорему о представлении моментов получаем

\ave G_n = n \cdot \ave G_1 = np \quad\text{и}\quad \var G_n = n \cdot \var G_1 = n \, (p-p^2) = npq

Получаем характеристики распределения нашей величины $k$

{\large k :} \quad \min\limits = 0 ,\quad \ave = np ,\quad \max\limits = n ,\quad \dev = \sqrt{npq}

Можно было, конечно, вычислить значение $p(n, k) = \binom{n}{k} \, p^k \, q^{n-k}$ и посчитать математическое ожидание и дисперсию по определению. Преимущество производящих функций в том, что нам не нужно знать явное выражение для вероятностей. Чаще всего явное выражение для вероятностей найти неимоверно трудно, а иногда и вовсе невозможно.

Производящая функция моментов

Пусть $\xi$ — дискретная случайная величина, $p_k \defeq \prob(\xi = k)$ — вероятность того, что случайная величина будет принимать значение $k$ , $G(x)$ — производящая функция вероятностей $p_0, p_1, p_2, \dotsc$ .

G(x) = \sum\limits_{k} p_k x^k = p_0 + p_1 x + p_2 x^2 + \dotsb

Пусть $M_n = \expect ( \xi^n ) = \sum\limits_{k} k^n p_k$ — $n$ -й момент случайной величины $\xi$ . Тогда

G(e^t) = \sum\limits_{n=0}^\oo \frac{M_n}{n!} \cdot t^n = 1 + M_1 \, t + \frac{M_2}{2!} \cdot t^2 + \frac{M_3}{3!} \cdot t^3 + \dotsb

Упражнения

Почему для существования математического ожидания требуется именно абсолютная сходимость ряда или интеграла? Что может пойти не так, если этот критерий не выполняется?

Пусть $\xi$ — случайная величина без математического ожидания (как Коши). Представьте, что это — ваш выигрыш в повторяющейся игре. Вы можете вычислять среднее арифметическое выигрыша после $n$ игр. Как будет вести себя это среднее при росте $n$ ?

Предположим, мы пренебрегли критерием абсолютной сходимости и определили матожидание для неабсолютно сходящегося ряда как сумму в некотором «естественном» порядке. Будет ли для такой случайной величины выполняться усиленный закон больших чисел? Проанализируйте, как нарушение критерия абсолютной сходимости подрывает условия, на которых строится эта теорема.

Постройте примеры случайных величин $\xi$ и $\eta$ , для которых $\cov(\xi, \eta) = 0$ , но

$\xi$ и $\eta$ функционально зависимы
$\xi$ и $\eta$ статистически зависимы

Исследуйте, при каких условиях из $\cov(\xi, \eta) = 0$ действительно следует независимость $\xi$ и $\eta$ .

Boston Housing — классический датасет, содержащий информацию о жилье в пригородах Бостона. Собран в 1978 году, содержит 506 наблюдений и 14 признаков (13 факторов + целевая переменная).

CRIM — уровень преступности на душу населения
ZN — доля жилых земель, отведённых под участки площадью более $25~000$ кв. футов (около $0.23$ га)
INDUS — доля акров (площадей), занятых не розничным бизнесом, в городе
CHAS — $1$ , если участок граничит с рекой Чарльз, и $0$ в противном случае
NOX — концентрация оксидов азота (частей на 10 миллионов)
RM — среднее количество комнат в доме
AGE — доля жилых помещений, построенных владельцами до 1940 года.
DIS — взвешенное расстояние до пяти бостонских центров занятости
RAD — индекс доступности радиальных автомагистралей
TAX — ставка налога на имущество на каждые $10~000$ долларов
PTRATIO — соотношение количества учеников и учителей
B — доля чернокожих, а точнее $1000 \cdot (\text{доля чернокожих} - 0.63)^2$
LSTAT — процент населения с низким социально-экономическим статусом
MEDV — целевая переменная, медианная стоимость дома в тысячах долларов

Вычислите среднее по каждому признаку, указав точность оценки (погрешность). Выясните, какие факторы влияют на среднюю стоимость дома, рассчитав корреляцию всех факторов с MEDV.

Boston Housing 506 записей, 14 признаков Загрузить

Пусть распределение случайной величины $\xi$ задаётся смесью распределений, порождённых производящими функциями $g_1 (x), g_2 (x), \dotsc, g_r (x)$ . Это значит, что распределение случайной величины с вероятностью $p_k$ совпадает с распределением, порождённым производящей функцией $g_k (x)$ . При этом $p_1 + p_2 + \dotsb + p_r = 1$ .

Найдите производящую функцию $\xi$ . Выразите $\expect \xi$ и $\var \xi$ через средние и дисперсии $g_1, g_2, \dotsc, g_r$ .

Ответ

G(x) = \sum\limits_{k=1}^r p_k \cdot g_k(x)

Тогда по аддитивности производящих функций математического ожидания и дисперсии получаем

\ave G = \sum\limits_{k=1}^r p_k \cdot \ave g_k \quad\text{и}\quad \var G = \sum\limits_{k=1}^r p_k \cdot \var g_k + \sum\limits_{1 \;\! \le \;\! i < j \le r} p_i p_j \cdot (\ave g_i - \ave g_j)^2