Параметрические оценки

Изучаемые нами распределения вероятностей служат теоретическими моделями для анализа данных, порожденных явлениями со случайной природой. Однако на практике перед аналитиком встают две основные проблемы: во-первых, не всегда очевидно, какое именно распределение описывает имеющиеся данные, а во-вторых, даже если тип распределения известен, требуется статистически оценить его параметры — такие как математическое ожидание, дисперсия и другие.

Справиться с такой задачей нам помогут параметрические оценки.

Параметрические оценки

Пусть $X_1, X_2, \dotsc, X_n$ — выборка, полученная из какого-то распределения одного семейства. Элементы выборки независимы и одинаково распределены, то есть они представляют собой независимые реализации случайной величины с одним и тем же распределением.

Пусть вектор параметров этого распределения $\theta$ . Он может состоять из любых параметров, определяющих распределение: для нормального распределения это математическое ожидание и дисперсия, для равномерного распределения это границы (сдвиг и масштаб), для экспоненциального распределения это интенсивность и так далее.

Величина $\hat{\theta} (X_1, X_2, \dotsc, X_n)$ , построенная по выборке $X_1, X_2, \dotsc, X_n$ , называется оценкой вектора параметров $\theta$ , или просто параметрической оценкой распределения.

Оценка $\hat{\theta}$ строится по значениям $X_1, X_2, \dotsc, X_n$ какой-то случайной величины. Значит, саму оценку $\hat{\theta}$ можно считать случайной величиной, у которой можно считать математическое ожидание, дисперсию, смотреть на сходимость и совершать другие полезные действия.

Свойства параметрических оценок

Оценивать параметры можно по-разному, но нам хочется делать это хорошо. Хорошесть оценок оценивать трудно, а в общем случае это вообще сделать невозможно. Тем не менее, существует несколько базовых свойств, которыми должны обладать хорошие оценки.

Несмещённость

Оценка $\hat{\theta}$ параметра $\theta$ называется несмещённой, если

\expect \hat{\theta} = \theta

Несмещённость оценки означает, что она в среднем будет равна истинному значению параметра.

Интуитивно можно понимать несмещённость следующим образом. Если мы сгенерируем много-много выборок $X_1^{[j]}, X_2^{[j]}, \dotsc, X_n^{[j]}$ и для каждой посчитаем эту оценку $\hat{\theta}^{[j]} = \hat{\theta} ( X_1^{[j]}, X_2^{[j]}, \dotsc, X_n^{[j]} )$ , то в среднем мы получим $\theta$ :

\frac{1}{m} \sum\limits_{j=1}^m \hat{\theta}^{[j]} \approx \theta

Самый естественный и простой пример — оценка выборочного среднего. Для выборки $X_1, X_2, \dotsc, X_n$ оценка $\bar{X}$ называется оценкой выборочного среднего. Эта оценка для математического ожидания $\mu$ распределения той выборки.

\bar{X} \defeq \frac{X_1 + X_2 + \dotsb + X_n}{n}

Эта оценка является несмещённой, ведь

\expect \left( \frac{1}{n} \sum\limits_{j=1}^n X_j \right) = \frac{1}{n} \sum\limits_{j=1}^n \expect X_j = \mu

Давайте попробуем по выборке $X_1, X_2, \dotsc, X_n$ построить оценку $\widehat{\sigma^2}$ дисперсии $\sigma^2$ . Довольно естественной кажется оценка средний квадрат отклонений от выборочного среднего

\widehat{\sigma^2} = \frac{1}{n} \sum\limits_{j=1}^n (X_j - \bar{X})^2

Неожиданно, но эта оценка смещённая. Давайте найдём её математическое ожидание

\align{ \expect (\widehat{\sigma^2}) &= \expect \left( \frac{1}{n} \sum\limits_{j=1}^n (X_j - \bar{X})^2 \right) = \frac{1}{n} \expect \left( \sum\limits_{j=1}^n (X_j - \bar{X})^2 \right) = \frac{1}{n} \expect \left( \sum\limits_{j=1}^n \bigl( (X_j - \mu) - (\bar{X} - \mu) \bigr)^2 \right) = \\ &= \frac{1}{n} \expect \left( \sum\limits_{j=1}^n (X_j - \mu)^2 - 2 \, (\bar{X} - \mu) \, \sum\limits_{j=1}^n (X_j - \mu) + \sum\limits_{j=1}^n (\bar{X} - \mu)^2 \right) = \frac{1}{n} \expect \left( \sum\limits_{j=1}^n \bigl( (X_j - \mu)^2 - (\bar{X} - \mu)^2 \bigr) \right) = \\ &= \frac{1}{n} \sum\limits_{j=1}^n \left( \sigma^2 - \frac{\sigma^2}{n} \right) = \frac{1}{n} \cdot (n \, \sigma^2 - \sigma^2) = \frac{n-1}{n} \cdot \sigma^2 }

Для того, чтобы получить несмещённую оценку, надо делить не на $n$ , а на $n-1$ .

\widehat{\sigma^2} = \frac{1}{n-1} \sum\limits_{j=1}^n (X_j - \bar{X})^2

Дана выборка $X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, 2\theta]$ . Для оценки параметра $\theta$ мы используем выборочную медиану

\med (X_1, X_2, \dotsc, X_n)

Докажите, что это несмещённая оценка.

Мы научились качественно оценивать смещённость оценки. Давайте теперь поймём, как оценить смещённость количественно. Для этого есть специальная величина — смещение оценки.

Смещение

Пусть $\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n)$ — оценка параметра $\theta$ .

Смещением оценки $\hat{\theta}$ называется величина

\bias \hat{\theta} \defeq \expect \hat{\theta} - \theta

Чем больше смещение оценки, тем больше зазор между ожидаемым значением оценки и истинным значением оцениваемого параметра, а значит тем хуже наша оценка.

Оценка $\hat{\theta}$ может быть смещённой, но смещение может уменьшаться с ростом $n$ . В таком случае оценка называется асимптотически несмещённой.

Асимптотически несмещённая оценка

Пусть $\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n)$ — оценка параметра $\theta$ .

Оценка $\hat{\theta}$ называется асимптотически несмещённой, если

\lim\limits_{n \to \oo} \expect \hat{\theta} = \theta \quad\text{или, что эквивалентно,}\quad \lim\limits_{n \to \oo} \bias \hat{\theta} = 0

Вот например мы ранее поняли, что оценка $S = 1/n \cdot \sum\limits_{j=1}^n (X_j - \bar{X})^2$ для дисперсии является смещённой.

\expect S = \frac{n-1}{n} \cdot \sigma^2

Значит, смещение этой оценки равно

\bias S = \expect S - \sigma^2 = -\frac{\sigma^2}{n}

Смещение оказалось отрицательным — наша оценка $S$ в среднем занижает истинную дисперсию. Но тем не менее, эта оценка является асимптотически несмещённой, ведь

\lim\limits_{n \to \oo} \bias S = \lim\limits_{n \to \oo} \left( -\frac{\sigma^2}{n} \right) = 0

Другой пример. Пусть наша выборка $X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, \theta]$ . Возьмём в качестве оценки параметра $\theta$ самый большой элемент выборки

\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) = X_{(n)} = \max\limits \{X_1, X_2, \dotsc, X_n\}

Каждый элемент $X_j$ выборки $X$ удовлетворяет неравенству $0 \le X_j \le \theta$ . Давайте найдём функцию распределения $F_{\hat{\theta}}$ нашей оценки $\hat{\theta}$ .

F_{\hat{\theta}} (x) = \prob ( X_{(n)} \;\! \le \;\! x ) = \prob ( X_1 \le x \land X_2 \le x \land \dotsb \land X_n \le x ) = \prod\limits_{j=1}^n \prob ( X_j \le x ) = \left( \frac{x}{\theta} \right)^n

Дифференцируя $F_{\hat{\theta}} (x)$ по $x$ получаем, что плотность нашей оценки равна $f(x) = n \, x^{n-1} / \theta^n$ . Тогда можно вычислить математическое ожидание

\expect \hat{\theta} = \int\limits_0^\theta x \, f(x) \, dt = \frac{n}{\theta^n} \int\limits_0^\theta x^n \, dx = \frac{n}{n+1} \cdot \theta

Получается, что оценка $\hat{\theta}$ смещённая. Однако, она является асимптотически несмещённой, ведь

\lim\limits_{n \to \oo} \expect \hat{\theta} = \lim\limits_{n \to \oo} \frac{n}{n+1} \cdot \theta = \theta

Пусть у нас есть выборка $X_1, X_2, \dotsc, X_n \sim \iid *$ , распределение нам не важно. Математическое ожидание и дисперсия каждого элемента $X_j$ нашей выборки равны соответственно $\expect X_j = \mu$ и $\var X_j = \sigma^2$ .

Мы хотим оценить квадрат математического ожидания $\mu^2$ . Для этого используем квадрат выборочного среднего

\bar{X}^2 = \left( \frac{1}{n} \sum\limits_{j=1}^n X_j \right)^2

Найдите смещение оценки. Является ли оценка несмещённой? асимптотически несмещённой?

Состоятельность

Оценка $\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n)$ параметра $\theta$ называется состоятельной, если

\hat{\theta} \ptoo \theta \quad\text{или, что эквивалентно,}\quad \lim\limits_{n \to \oo} \prob \bigl( |\hat{\theta} - \theta| > \varepsilon \bigr) = 0 \quad\text{для любого}~ \varepsilon > 0

Состоятельность означает, что с ростом размера выборки всё менее вероятны отклонения оценки от истинного значения оцениваемого параметра.

Посмотрим на состоятельность выборочного среднего $\bar{X}$ для оценки математического ожидания $\mu$ для выборки $X_1, X_2, \dotsc, X_n \sim \iid ~*$ с произвольным распределением.

По закону больших чисел

\bar{X} = \frac{X_1 + X_2 + \dotsb + X_n}{n} \ptoo \mu

А значит, выборочное среднее является состоятельной оценкой.

Состоятельность и несмещённость это независимые свойства: оценки могут быть состоятельными, но не несмещенными и наоборот.

Продолжим анализировать наш пример с выборкой $X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, \theta]$ . Для оценки параметра $\theta$ мы используем самый большой элемент выборки

\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) = X_{(n)} = \max\limits \{X_1, X_2, \dotsc, X_n\}

Мы уже установили, что эта оценка несмещённая. Однако, она состоятельна, ведь

\lim\limits_{n \to \oo} \prob \bigl( |X_{(n)} - \theta| > \varepsilon \bigr) = \lim\limits_{n \to \oo} \prob ( X_{(n)} < \theta + \varepsilon ) = \lim\limits_{n \to \oo} \left( \frac{\theta - \varepsilon}{\theta} \right)^n = \lim\limits_{n \to \oo} \left( 1 - \frac{\varepsilon}{\theta} \right)^n = 0

Дана выборка $X_1, X_2, \dotsc, X_n \sim \iid$ с $\expect X_j = \mu$ и $\var X_j = \sigma^2$ . Для оценки параметра $\mu$ мы используем первый элемент выборки $X_1$ . Понятно, что это несмещённая оценка, ведь $\expect X_1 = \mu$ .

Является ли эта оценка состоятельной?

Давайте получим количественную меру надёжности и эффективности оценок. Когда мы работали со случайными величинами, мы мерили их дисперсию — разброс относительно математического ожидания. С оценками можно поступить точно так же, и мерить разброс относительно ожидаемого значения оценки

Дисперсия оценки

Пусть $\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n)$ — оценка параметра $\theta$ .

Дисперсией оценки $\hat{\theta}$ — это мера разброса оценки вокруг её математического ожидания

\var \hat{\theta} = \expect \bigl( (\hat{\theta} - \expect \hat{\theta})^2 \bigr)

Это определение полностью скопировано с определения дисперсии случайных величин. Ну и это не с проста: оценка тоже является случайной величиной, так как мы работаем априорно.

Чем больше дисперсия оценки, тем больше разброс её значений и тем менее надёжна и менее эффективна оценка.

Пусть у нас есть две несмещённые оценки $\hat{\theta}_1$ и $\hat{\theta}_2$ одного и того же параметра $\theta$ . Говорят, что оценка $\hat{\theta}_1$ эффективнее оценки $\hat{\theta}_2$ , если дисперсия оценки $\hat{\theta}_1$ меньше дисперсии оценки $\hat{\theta}_2$ :

\hat{\theta}_1 ~\text{эффективнее чем}~ \hat{\theta}_2 \defequiv \var \hat{\theta}_1 < \var \hat{\theta}_2

Давайте в качестве примера рассмотрим выборку $X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, 2\theta]$ . Будем оценивать математическое ожидание с помощью двух оценок: выборочного среднего $\bar{X}$ и медианы $\med X$ . Какая оценка эффективнее?

Найдём сначала дисперсию выборочного среднего. Для случайной величины $\xi \sim \uniform[0, 2\theta]$ дисперсия равна $\var \xi = \theta^2/3$ , значит $\var \bar{X} = \theta^2 / 3n$ .

Найти дисперсию медианы чуть сложнее. Но нас ничто не остановит. Для упрощения жизни будем считать, что в выборке нечётное число величин, то есть $n = 2m+1$ . Тогда $\med X = X_{(m+1)}$ .

Для равномерного распределения $\uniform[0, 2\theta]$ плотность и функция распределения соответственно равны

f(x) = \frac{1}{2\theta} \quad\text{и}\quad F(x) = \frac{x}{2\theta} \qquad\text{при}~ 0 \le x \le 2\theta

Плотность $k$ -й порядковой статистики равна

f_{X_{(k)}} (x) = \frac{n!}{(k-1)! \, (n-k)!} \cdot \bigl( F(x) \bigr)^{k-1} \cdot \bigl( 1-F(x) \bigr)^{n-k} \cdot f(x)

Посчитаем математическое ожидание квадрата медианы

\align{ \expect \bigl( (\med X)^2 \bigr) &= \expect \bigl( X_{(m+1)}^2 \bigr) = \int\limits_0^{2\theta} x^2 \, f_{X_{(m+1)}}(x) \, dx = \frac{(2m+1)!}{(m!)^2} \cdot \frac{1}{2\theta} \int\limits_0^{2\theta} x^2 \, \left( \frac{x}{2\theta} \right)^m \left( 1 - \frac{x}{2\theta} \right)^m dx = \\ &= \frac{(2m+1)!}{(m!)^2} \cdot 4\theta^2 \int\limits_0^{2\theta} \left( \frac{x}{2\theta} \right)^2 \left( \frac{x}{2\theta} \right)^m \left( 1 - \frac{x}{2\theta} \right)^m d \left( \frac{x}{2\theta} \right) = \\ &= \frac{(2m+1)!}{(m!)^2} \cdot 4\theta^2 \cdot \Beta(m+3, m+1) = 4\theta^2 \cdot \frac{(m+2) \, (m+1)}{(2m+3) \, (2m+2)} }

Теперь, чтобы посчитать дисперсию медианы, нам нужно из только что полученного значения вычесть квадрат математического ожидания медианы $\bigl( \expect (\med X) \bigr)^2 = \theta^2$ :

\var (\med X) = \expect \bigl( (\med X)^2 \bigr) - \bigl( \expect (\med X) \bigr)^2 = 4\theta^2 \cdot \frac{(m+2) \, (m+1)}{(2m+3) \, (2m+2)} - \theta^2 = \frac{\theta^2}{2m+3} = \frac{\theta^2}{n+2}

Возвращаемся к нашей задаче. Мы получили, что $\var \bar{X} = \theta^2/3n$ и $\var (\med X) = \theta^2 / (n+2)$ . Получается, что при $n > 1$ выборочное среднее эффективнее медианы.

Мы бросаем много раз монетку, которая может выпасть с вероятностью $p$ орлом и с вероятностью $1-p$ решкой. То есть мы генерируем выборку $X_1, X_2, \dotsc, X_n \sim \iid \Bern(p)$ .

Для оценки параметра $p$ мы используем аналог выборочного среднего, где ещё добавляем два фиктивных броска: один с успехом, другой с неудачей.

\hat{p} = \frac{1}{n+2} \left( 1 + \sum\limits_{j=1}^n X_j \right)

Является ли эта оценка несмещённой? асимптотически несмещённой? состоятельной?