Параметрические оценки

Изучаемые нами распределения вероятностей служат теоретическими моделями для анализа данных, порожденных явлениями со случайной природой. Однако на практике перед аналитиком встают две основные проблемы: во-первых, не всегда очевидно, какое именно распределение описывает имеющиеся данные, а во-вторых, даже если тип распределения известен, требуется статистически оценить его параметры — такие как математическое ожидание, дисперсия и другие.

Справиться с такой задачей нам помогут параметрические оценки.

Параметрические оценки

Пусть X1,X2,,XnX_1, X_2, \dotsc, X_n — выборка, полученная из какого-то распределения одного семейства. Элементы выборки независимы и одинаково распределены, то есть они представляют собой независимые реализации случайной величины с одним и тем же распределением.

Пусть вектор параметров этого распределения θ\theta. Он может состоять из любых параметров, определяющих распределение: для нормального распределения это математическое ожидание и дисперсия, для равномерного распределения это границы (сдвиг и масштаб), для экспоненциального распределения это интенсивность и так далее.

Величина θ^(X1,X2,,Xn)\hat{\theta} (X_1, X_2, \dotsc, X_n), построенная по выборке X1,X2,,XnX_1, X_2, \dotsc, X_n, называется оценкой вектора параметров θ\theta, или просто параметрической оценкой распределения.

Оценка θ^\hat{\theta} строится по значениям X1,X2,,XnX_1, X_2, \dotsc, X_n какой-то случайной величины. Значит, саму оценку θ^\hat{\theta} можно считать случайной величиной, у которой можно считать математическое ожидание, дисперсию, смотреть на сходимость и совершать другие полезные действия.

Свойства параметрических оценок

Оценивать параметры можно по-разному, но нам хочется делать это хорошо. Хорошесть оценок оценивать трудно, а в общем случае это вообще сделать невозможно. Тем не менее, существует несколько базовых свойств, которыми должны обладать хорошие оценки.

Несмещённость

Оценка θ^\hat{\theta} параметра θ\theta называется несмещённой, если

Eθ^=θ\expect \hat{\theta} = \theta

Несмещённость оценки означает, что она в среднем будет равна истинному значению параметра.

Интуитивно можно понимать несмещённость следующим образом. Если мы сгенерируем много-много выборок X1[j],X2[j],,Xn[j]X_1^{[j]}, X_2^{[j]}, \dotsc, X_n^{[j]} и для каждой посчитаем эту оценку θ^[j]=θ^(X1[j],X2[j],,Xn[j])\hat{\theta}^{[j]} = \hat{\theta} ( X_1^{[j]}, X_2^{[j]}, \dotsc, X_n^{[j]} ), то в среднем мы получим θ\theta:

1mj=1mθ^[j]θ\frac{1}{m} \sum\limits_{j=1}^m \hat{\theta}^{[j]} \approx \theta
.

Самый естественный и простой пример — оценка выборочного среднего. Для выборки X1,X2,,XnX_1, X_2, \dotsc, X_n оценка Xˉ\bar{X} называется оценкой выборочного среднего. Эта оценка для математического ожидания μ\mu распределения той выборки.

Xˉ   ⁣=def   ⁣X1+X2++Xnn\bar{X} \defeq \frac{X_1 + X_2 + \dotsb + X_n}{n}

Эта оценка является несмещённой, ведь

E(1nj=1nXj)=1nj=1nEXj=μ\expect \left( \frac{1}{n} \sum\limits_{j=1}^n X_j \right) = \frac{1}{n} \sum\limits_{j=1}^n \expect X_j = \mu

Давайте попробуем по выборке X1,X2,,XnX_1, X_2, \dotsc, X_n построить оценку σ2^\widehat{\sigma^2} дисперсии σ2\sigma^2. Довольно естественной кажется оценка средний квадрат отклонений от выборочного среднего

σ2^=1nj=1n(XjXˉ)2\widehat{\sigma^2} = \frac{1}{n} \sum\limits_{j=1}^n (X_j - \bar{X})^2

Неожиданно, но эта оценка смещённая. Давайте найдём её математическое ожидание

E(σ2^)=E(1nj=1n(XjXˉ)2)=1nE(j=1n(XjXˉ)2)=1nE(j=1n((Xjμ)(Xˉμ))2)==1nE(j=1n(Xjμ)22(Xˉμ)j=1n(Xjμ)+j=1n(Xˉμ)2)=1nE(j=1n((Xjμ)2(Xˉμ)2))==1nj=1n(σ2σ2n)=1n(nσ2σ2)=n1nσ2\align{ \expect (\widehat{\sigma^2}) &= \expect \left( \frac{1}{n} \sum\limits_{j=1}^n (X_j - \bar{X})^2 \right) = \frac{1}{n} \expect \left( \sum\limits_{j=1}^n (X_j - \bar{X})^2 \right) = \frac{1}{n} \expect \left( \sum\limits_{j=1}^n \bigl( (X_j - \mu) - (\bar{X} - \mu) \bigr)^2 \right) = \\ &= \frac{1}{n} \expect \left( \sum\limits_{j=1}^n (X_j - \mu)^2 - 2 \, (\bar{X} - \mu) \, \sum\limits_{j=1}^n (X_j - \mu) + \sum\limits_{j=1}^n (\bar{X} - \mu)^2 \right) = \frac{1}{n} \expect \left( \sum\limits_{j=1}^n \bigl( (X_j - \mu)^2 - (\bar{X} - \mu)^2 \bigr) \right) = \\ &= \frac{1}{n} \sum\limits_{j=1}^n \left( \sigma^2 - \frac{\sigma^2}{n} \right) = \frac{1}{n} \cdot (n \, \sigma^2 - \sigma^2) = \frac{n-1}{n} \cdot \sigma^2 }

Для того, чтобы получить несмещённую оценку, надо делить не на nn, а на n1n-1.

σ2^=1n1j=1n(XjXˉ)2\widehat{\sigma^2} = \frac{1}{n-1} \sum\limits_{j=1}^n (X_j - \bar{X})^2
1

Дана выборка X1,X2,,Xni.i.d.uniform[0,2θ]X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, 2\theta]. Для оценки параметра θ\theta мы используем выборочную медиану

med(X1,X2,,Xn)\med (X_1, X_2, \dotsc, X_n)

Докажите, что это несмещённая оценка.

Мы научились качественно оценивать смещённость оценки. Давайте теперь поймём, как оценить смещённость количественно. Для этого есть специальная величина — смещение оценки.

Смещение

Пусть θ^=θ^(X1,X2,,Xn)\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) — оценка параметра θ\theta.

Смещением оценки θ^\hat{\theta} называется величина

biasθ^   ⁣=def   ⁣Eθ^θ\bias \hat{\theta} \defeq \expect \hat{\theta} - \theta

Чем больше смещение оценки, тем больше зазор между ожидаемым значением оценки и истинным значением оцениваемого параметра, а значит тем хуже наша оценка.

Оценка θ^\hat{\theta} может быть смещённой, но смещение может уменьшаться с ростом nn. В таком случае оценка называется асимптотически несмещённой.

Асимптотически несмещённая оценка

Пусть θ^=θ^(X1,X2,,Xn)\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) — оценка параметра θ\theta.

Оценка θ^\hat{\theta} называется асимптотически несмещённой, если

limnEθ^=θили, что эквивалентно,limnbiasθ^=0\lim\limits_{n \to \oo} \expect \hat{\theta} = \theta \quad\text{или, что эквивалентно,}\quad \lim\limits_{n \to \oo} \bias \hat{\theta} = 0

Вот например мы ранее поняли, что оценка S=1/nj=1n(XjXˉ)2S = 1/n \cdot \sum\limits_{j=1}^n (X_j - \bar{X})^2 для дисперсии является смещённой.

ES=n1nσ2\expect S = \frac{n-1}{n} \cdot \sigma^2

Значит, смещение этой оценки равно

biasS=ESσ2=σ2n\bias S = \expect S - \sigma^2 = -\frac{\sigma^2}{n}

Смещение оказалось отрицательным — наша оценка SS в среднем занижает истинную дисперсию. Но тем не менее, эта оценка является асимптотически несмещённой, ведь

limnbiasS=limn(σ2n)=0\lim\limits_{n \to \oo} \bias S = \lim\limits_{n \to \oo} \left( -\frac{\sigma^2}{n} \right) = 0

Другой пример. Пусть наша выборка X1,X2,,Xni.i.d.uniform[0,θ]X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, \theta]. Возьмём в качестве оценки параметра θ\theta самый большой элемент выборки

θ^=θ^(X1,X2,,Xn)=X(n)=max{X1,X2,,Xn}\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) = X_{(n)} = \max\limits \{X_1, X_2, \dotsc, X_n\}

Каждый элемент XjX_j выборки XX удовлетворяет неравенству 0Xjθ0 \le X_j \le \theta. Давайте найдём функцию распределения Fθ^F_{\hat{\theta}} нашей оценки θ^\hat{\theta}.

Fθ^(x)=P(X(n)   ⁣   ⁣x)=P(X1xX2xXnx)=j=1nP(Xjx)=(xθ)nF_{\hat{\theta}} (x) = \prob ( X_{(n)} \;\! \le \;\! x ) = \prob ( X_1 \le x \land X_2 \le x \land \dotsb \land X_n \le x ) = \prod\limits_{j=1}^n \prob ( X_j \le x ) = \left( \frac{x}{\theta} \right)^n

Дифференцируя Fθ^(x)F_{\hat{\theta}} (x) по xx получаем, что плотность нашей оценки равна f(x)=nxn1/θnf(x) = n \, x^{n-1} / \theta^n. Тогда можно вычислить математическое ожидание

Eθ^=0θxf(x)dt=nθn0θxndx=nn+1θ\expect \hat{\theta} = \int\limits_0^\theta x \, f(x) \, dt = \frac{n}{\theta^n} \int\limits_0^\theta x^n \, dx = \frac{n}{n+1} \cdot \theta

Получается, что оценка θ^\hat{\theta} смещённая. Однако, она является асимптотически несмещённой, ведь

limnEθ^=limnnn+1θ=θ\lim\limits_{n \to \oo} \expect \hat{\theta} = \lim\limits_{n \to \oo} \frac{n}{n+1} \cdot \theta = \theta
0

Пусть у нас есть выборка X1,X2,,Xni.i.d.X_1, X_2, \dotsc, X_n \sim \iid *, распределение нам не важно. Математическое ожидание и дисперсия каждого элемента XjX_j нашей выборки равны соответственно EXj=μ\expect X_j = \mu и varXj=σ2\var X_j = \sigma^2.

Мы хотим оценить квадрат математического ожидания μ2\mu^2. Для этого используем квадрат выборочного среднего

Xˉ2=(1nj=1nXj)2\bar{X}^2 = \left( \frac{1}{n} \sum\limits_{j=1}^n X_j \right)^2

Найдите смещение оценки. Является ли оценка несмещённой? асимптотически несмещённой?

Состоятельность

Оценка θ^=θ^(X1,X2,,Xn)\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) параметра θ\theta называется состоятельной, если

θ^Pθили, что эквивалентно,limnP(θ^θ>ε)=0для любого ε>0\hat{\theta} \ptoo \theta \quad\text{или, что эквивалентно,}\quad \lim\limits_{n \to \oo} \prob \bigl( |\hat{\theta} - \theta| > \varepsilon \bigr) = 0 \quad\text{для любого}~ \varepsilon > 0

Состоятельность означает, что с ростом размера выборки всё менее вероятны отклонения оценки от истинного значения оцениваемого параметра.

Посмотрим на состоятельность выборочного среднего Xˉ\bar{X} для оценки математического ожидания μ\mu для выборки X1,X2,,Xni.i.d. X_1, X_2, \dotsc, X_n \sim \iid ~* с произвольным распределением.

По закону больших чисел

Xˉ=X1+X2++XnnPμ\bar{X} = \frac{X_1 + X_2 + \dotsb + X_n}{n} \ptoo \mu

А значит, выборочное среднее является состоятельной оценкой.

Состоятельность и несмещённость это независимые свойства: оценки могут быть состоятельными, но не несмещенными и наоборот.

Продолжим анализировать наш пример с выборкой X1,X2,,Xni.i.d.uniform[0,θ]X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, \theta]. Для оценки параметра θ\theta мы используем самый большой элемент выборки

θ^=θ^(X1,X2,,Xn)=X(n)=max{X1,X2,,Xn}\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) = X_{(n)} = \max\limits \{X_1, X_2, \dotsc, X_n\}

Мы уже установили, что эта оценка несмещённая. Однако, она состоятельна, ведь

limnP(X(n)θ>ε)=limnP(X(n)<θ+ε)=limn(θεθ)n=limn(1εθ)n=0\lim\limits_{n \to \oo} \prob \bigl( |X_{(n)} - \theta| > \varepsilon \bigr) = \lim\limits_{n \to \oo} \prob ( X_{(n)} < \theta + \varepsilon ) = \lim\limits_{n \to \oo} \left( \frac{\theta - \varepsilon}{\theta} \right)^n = \lim\limits_{n \to \oo} \left( 1 - \frac{\varepsilon}{\theta} \right)^n = 0
0

Дана выборка X1,X2,,Xni.i.d.X_1, X_2, \dotsc, X_n \sim \iid с EXj=μ\expect X_j = \mu и varXj=σ2\var X_j = \sigma^2. Для оценки параметра μ\mu мы используем первый элемент выборки X1X_1. Понятно, что это несмещённая оценка, ведь EX1=μ\expect X_1 = \mu.

Является ли эта оценка состоятельной?

Давайте получим количественную меру надёжности и эффективности оценок. Когда мы работали со случайными величинами, мы мерили их дисперсию — разброс относительно математического ожидания. С оценками можно поступить точно так же, и мерить разброс относительно ожидаемого значения оценки

Дисперсия оценки

Пусть θ^=θ^(X1,X2,,Xn)\hat{\theta} = \hat{\theta} (X_1, X_2, \dotsc, X_n) — оценка параметра θ\theta.

Дисперсией оценки θ^\hat{\theta} — это мера разброса оценки вокруг её математического ожидания

varθ^=E((θ^Eθ^)2)\var \hat{\theta} = \expect \bigl( (\hat{\theta} - \expect \hat{\theta})^2 \bigr)

Это определение полностью скопировано с определения дисперсии случайных величин. Ну и это не с проста: оценка тоже является случайной величиной, так как мы работаем априорно.

Чем больше дисперсия оценки, тем больше разброс её значений и тем менее надёжна и менее эффективна оценка.

Пусть у нас есть две несмещённые оценки θ^1\hat{\theta}_1 и θ^2\hat{\theta}_2 одного и того же параметра θ\theta. Говорят, что оценка θ^1\hat{\theta}_1 эффективнее оценки θ^2\hat{\theta}_2, если дисперсия оценки θ^1\hat{\theta}_1 меньше дисперсии оценки θ^2\hat{\theta}_2:

θ^1 эффективнее чем θ^2   ⁣def   ⁣varθ^1<varθ^2\hat{\theta}_1 ~\text{эффективнее чем}~ \hat{\theta}_2 \defequiv \var \hat{\theta}_1 < \var \hat{\theta}_2

Давайте в качестве примера рассмотрим выборку X1,X2,,Xni.i.d.uniform[0,2θ]X_1, X_2, \dotsc, X_n \sim \iid \uniform[0, 2\theta]. Будем оценивать математическое ожидание с помощью двух оценок: выборочного среднего Xˉ\bar{X} и медианы medX\med X. Какая оценка эффективнее?

Найдём сначала дисперсию выборочного среднего. Для случайной величины ξuniform[0,2θ]\xi \sim \uniform[0, 2\theta] дисперсия равна varξ=θ2/3\var \xi = \theta^2/3, значит varXˉ=θ2/3n\var \bar{X} = \theta^2 / 3n.

Найти дисперсию медианы чуть сложнее. Но нас ничто не остановит. Для упрощения жизни будем считать, что в выборке нечётное число величин, то есть n=2m+1n = 2m+1. Тогда medX=X(m+1)\med X = X_{(m+1)}.

Для равномерного распределения uniform[0,2θ]\uniform[0, 2\theta] плотность и функция распределения соответственно равны

f(x)=12θиF(x)=x2θпри 0x2θf(x) = \frac{1}{2\theta} \quad\text{и}\quad F(x) = \frac{x}{2\theta} \qquad\text{при}~ 0 \le x \le 2\theta

Плотность kk-й порядковой статистики равна

fX(k)(x)=n!(k1)!(nk)!(F(x))k1(1F(x))nkf(x)f_{X_{(k)}} (x) = \frac{n!}{(k-1)! \, (n-k)!} \cdot \bigl( F(x) \bigr)^{k-1} \cdot \bigl( 1-F(x) \bigr)^{n-k} \cdot f(x)

Посчитаем математическое ожидание квадрата медианы

E((medX)2)=E(X(m+1)2)=02θx2fX(m+1)(x)dx=(2m+1)!(m!)212θ02θx2(x2θ)m(1x2θ)mdx==(2m+1)!(m!)24θ202θ(x2θ)2(x2θ)m(1x2θ)md(x2θ)==(2m+1)!(m!)24θ2B(m+3,m+1)=4θ2(m+2)(m+1)(2m+3)(2m+2)\align{ \expect \bigl( (\med X)^2 \bigr) &= \expect \bigl( X_{(m+1)}^2 \bigr) = \int\limits_0^{2\theta} x^2 \, f_{X_{(m+1)}}(x) \, dx = \frac{(2m+1)!}{(m!)^2} \cdot \frac{1}{2\theta} \int\limits_0^{2\theta} x^2 \, \left( \frac{x}{2\theta} \right)^m \left( 1 - \frac{x}{2\theta} \right)^m dx = \\ &= \frac{(2m+1)!}{(m!)^2} \cdot 4\theta^2 \int\limits_0^{2\theta} \left( \frac{x}{2\theta} \right)^2 \left( \frac{x}{2\theta} \right)^m \left( 1 - \frac{x}{2\theta} \right)^m d \left( \frac{x}{2\theta} \right) = \\ &= \frac{(2m+1)!}{(m!)^2} \cdot 4\theta^2 \cdot \Beta(m+3, m+1) = 4\theta^2 \cdot \frac{(m+2) \, (m+1)}{(2m+3) \, (2m+2)} }

Теперь, чтобы посчитать дисперсию медианы, нам нужно из только что полученного значения вычесть квадрат математического ожидания медианы (E(medX))2=θ2\bigl( \expect (\med X) \bigr)^2 = \theta^2:

var(medX)=E((medX)2)(E(medX))2=4θ2(m+2)(m+1)(2m+3)(2m+2)θ2=θ22m+3=θ2n+2\var (\med X) = \expect \bigl( (\med X)^2 \bigr) - \bigl( \expect (\med X) \bigr)^2 = 4\theta^2 \cdot \frac{(m+2) \, (m+1)}{(2m+3) \, (2m+2)} - \theta^2 = \frac{\theta^2}{2m+3} = \frac{\theta^2}{n+2}

Возвращаемся к нашей задаче. Мы получили, что varXˉ=θ2/3n\var \bar{X} = \theta^2/3n и var(medX)=θ2/(n+2)\var (\med X) = \theta^2 / (n+2). Получается, что при n>1n > 1 выборочное среднее эффективнее медианы.

0

Мы бросаем много раз монетку, которая может выпасть с вероятностью pp орлом и с вероятностью 1p1-p решкой. То есть мы генерируем выборку X1,X2,,Xni.i.d.Bern(p)X_1, X_2, \dotsc, X_n \sim \iid \Bern(p).

Для оценки параметра pp мы используем аналог выборочного среднего, где ещё добавляем два фиктивных броска: один с успехом, другой с неудачей.

p^=1n+2(1+j=1nXj)\hat{p} = \frac{1}{n+2} \left( 1 + \sum\limits_{j=1}^n X_j \right)

Является ли эта оценка несмещённой? асимптотически несмещённой? состоятельной?