Основы теории вероятности

Вероятностное пространство и события

Дискретное вероятностное пространство

Дискретное вероятностное пространство — пара $(\Omega, p)$ , где $\Omega$ — множество элементарных исходов и $p \colon \Omega \to [0, 1]$ — функция вероятности на множестве $\Omega$ .

Функция вероятности удовлетворяет условию нормировки: $\sum\limits_{\omega \;\! \in \;\! \Omega} p(\omega) = 1$ .

Множество элементарных исходов $\Omega$ — конечное или счетное множество.

Элементы $\omega \in \Omega$ называются элементарными исходами или элементарными событиями. Смысл этих элементарных исходов в том, что в рамках какого-то эксперимента может произойти один и только один исход, который и называется элементарным.

Например, при броске монеты может выпасть или орел, или решка. Тогда пространство элементарных исходов

\Omega = \big\{ \text{орел}, \text{решка} \big\}

При броске кубика может выпасть любое целое число от $1$ до $6$ . При таком эксперименте

\Omega = \{ 1, 2, 3, 4, 5, 6 \}

Если мы бросаем две монеты, то исходов у нас $4$ , поскольку всего различных комбинаций результатов бросков $4$ .

\Omega = \{ \text{орел и орел}, \text{орел и решка}, \text{решка и орел}, \text{решка и решка} \}

Событие $A$ — подмножество $A \subseteq \Omega$ множества элементарных исходов

Например, для броска кубика с $\Omega = \{1, 2, 3, 4, 5, 6\}$ событиями могут являться множества «выпало $4$ » — $\{4\}$ ; «выпало нечётное число» — $\{1, 3, 5\}$ ; «куб брошен» (выпало хоть что-то) — $\Omega$ .

Над событиями можно совершать те же операции, что и над множествами

\align{ A \union B &= \text{событие, означающее, что случилось событие}~ A ~\text{или событие}~ B \\ A \sect B &= \text{событие, означающее, что случилось и событие}~ A\text{,} ~\text{и событие}~ B \\ \Omega \without A = \overline{A} &= \text{событие, означающее, что событие}~ A ~\text{не случилось} \\ A \symdiff B &= \text{событие, означающее, что случилось либо событие}~ A\text{,} ~\text{либо событие}~ B }

События умеют происходить, и делают это с какой-то вероятностью. Вероятность наступления события $A$ — величина

\prob(A) \defeq \sum\limits_{\omega \;\! \in \;\! A} p(\omega)

Можно дать не такое детское определение вероятности: $\prob \colon 2^\Omega \to [0, 1]$ — аддитивная мера на множестве $\Omega$ .

Непрерывное вероятностное пространство

Давайте посмотрим на круг радиуса $1$ . Выберем в круге случайную точку. С какой вероятностью эта точка попадёт в круг радиуса $1/2$ , который концентричен исходному кругу? С одной стороны, площадь исходного круга $\pi$ , площадь целевого круга $\pi/4$ , значит вероятность того, что точка попадёт в маленький круг равна $1/4$ . С другой стороны, точка попадёт в маленький круг, если расстояние от неё до центра не больше $1/2$ , значит вероятность того, что точка попадёт в маленький круг равна $1/2$ .

Ошибок в рассуждениях нет. Оба рассуждения верны. В чём прикол? Прикол в том, что мы рассматриваем пространство элементарных исходов совершенно другой природы: оно несчётное. Более того, в этом примере совсем непонятно, как считать сами вероятности. Мы не можем приписать каждой точке нашего круга какую-то вероятность, ведь вероятность попасть в конкретный элемент несчётного множества всегда равна $0$ . Мы с вами столкнулись с необходимостью определять саму вероятностную меру на несчётных множествах.

Андрей Николаевич Колмогоров в 1929 – 1933 годах разработал аксиоматику для корректного и строгого описания теории вероятностей. Аксиоматика Колмогорова может быть применена к любым пространствам элементарных исходов, а также она позволяет в едином стиле работать с дискретными и непрерывными вероятностными пространствами.

Вероятностное пространство по Колмогорову

Пространство элементарных исходов — любое множество $\Omega$ , состоящее из элементарных исходов. Может быть как дискретным, так и непрерывным (несчётным).

Сигма-алгебра событий — сигма-алгебра $\AAA \subset 2^\Omega$ . Каждый элемент сигма-алгебры $\AAA$ называется событием. Грубо говоря, в множестве $\AAA$ содержатся все легитимные события, которые могут происходить при нашем эксперименте.

Вероятностная мера — счётно-аддитивная мера $\prob \colon \AAA \to \RR_+$ , заданная на сигма-алгебре событий. При этом $\prob (\Omega) = 1$ . Вероятностная мера измеряет вероятности событий из сигма-алгебры $\AAA$ .

Тройка этих трёх объектов $(\Omega, \AAA, \prob)$ называется вероятностным пространством.

Давайте научимся работать с вероятностями и событиями в новой аксиоматике. Хорошая новость: все интуитивно понятные свойства и операции остаются в силе.

Начнём с операциями над событиями. Все операции остаются такими же, как и в дискретном случае:

\align{ A \union B &= \text{событие, означающее, что случилось событие}~ A ~\text{или событие}~ B \\ A \sect B &= \text{событие, означающее, что случилось и событие}~ A\text{,} ~\text{и событие}~ B \\ \Omega \without A = \overline{A} &= \text{событие, означающее, что событие}~ A ~\text{не случилось} \\ A \symdiff B &= \text{событие, означающее, что случилось либо событие}~ A\text{,} ~\text{либо событие}~ B }

Вероятностная мера является счётно-аддитивной нормированной мерой, а значит, выполняются все привычные свойства.

Вероятность невозможного события равна $0$ , а вероятность достоверного события равна $1$ .

\prob (\nothing) = 0 \quad\text{и}\quad \prob (\Omega) = 1

Два события $A$ и $B$ называются несовместными, если $A \sect B = \nothing$ , и, как следствие, $\prob (A \sect B) = 0$ .

Несовместность событий означает, что они не могут произойти одновременно в рамках одного испытания. Происхождение одного из двух несовместных событий полностью запрещает происхождение другого.

Если событие $A$ влечёт за собой событие $B$ , то есть всякий раз, когда происходит $A$ , обязательно происходит и $B$ , то вероятность события $A$ не может быть больше вероятности события $B$ .

A \subset B \implies \prob(A) \le \prob (B)

Грубо говоря, меньшее событие не может быть более вероятным, чем то большее событие, в которое оно входит. Если вы оказались в Москве, то вы автоматически оказались в России. Очевидно, что вероятность оказаться в Москве не может быть выше, чем вероятность оказаться в России.

Вероятностная мера счётно-аддитивна, а значит

\prob (A \djunion B) = \prob (A) + \prob (B) \quad\text{или, по-другому,}\quad \prob (A \union B) = \prob (A) + \prob (B) - \prob (A \sect B)

Также, перенеся в первой формуле одно из событий в левую часть, можно получить формулу

\prob (A \without B) = \prob (A) - \prob (B) \quad\text{и, как следствие,}\quad \prob (\overline{A}) = \prob (\Omega \without A) = 1 - \prob (A)

Еще, как следствие, работает формула включений-исключений и законы де Моргана. Выполнимость их следует чисто из свойств множеств.

Так же, свойство непрерывности: для возрастающей цепи вложенных событий $A_1 \subset A_2 \subset A_3 \subset \dotsb$ вероятность объединения равна пределу вероятностей

\prob \left( \bigunion_{n=1}^\oo A_n \right) = \lim\limits_{n \to \oo} \prob (A_n)

И для убывающей цепи вложенных событий $A_1 \supset A_2 \supset A_3 \supset \dotsb$ вероятность объединения равна пределу вероятностей

\prob \left( \bigsect_{n=1}^\oo A_n \right) = \lim\limits_{n \to \oo} \prob (A_n)

Также, само свойство счётной аддитивности

\prob \left( \bigdjunion_{n=1}^\oo A_n \right) = \sum\limits_{n=1}^\oo \prob (A_n)

здесь смотрится дизъюнктное объединение, то есть предполагаются, что события попарно не пересекаются: $A_i \sect A_j = \nothing$ для любых $i \neq j$ .

Из свойства счётной аддитивности можно получить неравенство Буля

\prob (A \union B) \le \prob (A) + \prob (B)

И в общем случае для множества событий

\prob \left( \bigunion_{n=1}^\oo A_n \right) \;\! \le \;\! \sum\limits_{n=0}^\oo \prob (A_n)

Независимость и условные вероятности

Условная вероятность

Условной вероятностью события $A$ при условии события $B$ называется величина

\prob (A \mid B) = \frac{\prob (A \sect B)}{\prob (B)}

Это вероятность того, что событие $A$ произошло, при условии, что событие $B$ уже произошло. Для того, чтобы условную вероятность можно было вообще определить, необходимо, чтобы $\prob (B) \neq 0$

Давайте сразу разберём простой пример. Вот есть семья, в которой два ребёнка. Мы знаем, что один ребёнок точно мальчик. Какая вероятность того, что другой ребёнок тоже мальчик? Ответ — $1/3$ , что может сначала показаться неожиданным. Но ничего странного тут нет. Если в семье два ребёнка, то у нас есть $4$ элементарных исхода $\Omega = \{\text{ДД}, \text{ДМ}, \text{МД}, \text{ММ}\}$ . Из этих четырёх элементарных исходов только три удовлетворяют нашему условию «один ребёнок точно мальчик». Тогда вероятность того, что в семье два мальчика, равна $1/3$ .

Можно те же самые рассуждения провести, не разбирая явно пространство элементарных исходов. Достаточно просто применить формулу условной вероятности:

\prob (\text{два мальчика} \mid \text{хотя бы один мальчик}) = \frac{\prob (\text{два мальчика} \sect \text{хотя бы один мальчик})}{\prob (\text{хотя бы один мальчик})} = \frac{1/4}{3/4} = \frac{1}{3}

Значение условной вероятности напрямую зависит от того, как событие $A$ связано с событием $B$ . Посмотрим на крайние случаи. Если события $A$ и $B$ несовместны, то есть если $A \sect B = \nothing$ , то наступление события $B$ делает событие $A$ невозможным, и $\prob (A \mid B) = 0$ . Если событие $B$ влечёт за собой событие $A$ , то есть если $B \subset A$ , то наступление события $B$ гарантирует наступление события $A$ , и $\prob (A \mid B) = 1$ . В большинстве практических ситуаций события связаны сложнее, и знание о событии $B$ лишь частично меняет нашу уверенность в наступлении события $A$ , поэтому условная вероятность принимает промежуточные значения.

Полная вероятность

Формула полной вероятности

Пусть пространство элементарных исходов $\Omega$ разбито на попарно несовместные события:

\Omega = B_1 \djunion B_2 \djunion \dotsb \djunion B_n

Тогда вероятность любого события $A$ можно представить в виде

\prob (A) = \sum\limits_{k=1}^n \prob (A \mid B_k) \cdot \prob (B_k)

Любое событие $A$ можно представить в виде

A = A \sect \Omega = (A \sect B_1) \union (A \sect B_2) \union \dotsb \union (A \sect B_n)

И тогда, по аддитивности вероятностной меры,

\prob (A) = \prob (A \sect \Omega) = \prob (A \sect B_1) + \prob (A \sect B_2) + \dotsb + \prob (A \sect B_n)

Расписывая $\prob (A \sect B_j) = \prob (A \mid B_j) \cdot \prob (B_j)$ получаем формулу

\prob (A) = \sum\limits_{k=1}^n \prob (A \mid B_k) \cdot \prob (B_k)

Формулу полной вероятности легко обобщить на случай счётного числа попарно несовместных событий $B_k$ . Если $\Omega = \bigdjunion_{k=1}^\oo B_k$ , где $B_i \sect B_j = \nothing$ для любых $i \neq j$ , то вероятность любого события $A$ можно представить как

\prob (A) = \sum\limits_{k=0}^\oo \prob (A \mid B_k) \cdot \prob (B_k)

Также формулу полной вероятности можно рассматривать и для обусловленных событий. Пусть пространство элементарных исходов разбито на попарно несовместные события $\Omega = B_1 \djunion B_2 \djunion \dotsb \djunion B_n$ . И пусть есть какое-то событие $C$ , по которому мы будем обуславливать происходящее. Тогда вероятность любого события $A$ при условии события $C$ равна

\prob (A \mid C) = \sum\limits_{k=0}^n \prob (A \mid B_k, C) \cdot \prob (B_k \mid C)

Независимость событий

Независимые события

Два события $A$ и $B$ называются независимыми, если

\prob (A \sect B) = \prob (A) \cdot \prob (B)

Это означает, что исход одного события никак не влияет на вероятность другого. Знание того, что событие $B$ произошло, не меняет наших шансов на наступление $A$ , и наоборот.

Другое, более интуитивное определение независимости можно дать через условные вероятности. События $A$ и $B$ независимы, если $\prob (A \mid B) = \prob (A)$ , то есть информация о реализации события $B$ никак не влияет на вероятность события $A$ .

Понятно, что эти два определения эквивалентны. Если $\prob (A \sect B) = \prob (A) \cdot \prob (B)$ , то

\prob (A \mid B) = \frac{\prob (A \sect B)}{\prob (B)} = \frac{\prob (A) \cdot \prob (B)}{\prob (B)} = \prob (A)

Независимость — это свойство вероятностной модели, а не событий самих по себе. Два события могут быть независимыми в одной модели и зависимыми в другой. Независимость определяется через вероятности, а не через «содержательную» природу событий.

Если у нас есть несколько событий, то независимость для них надо определять аккуратно.

Несколько событий $A_1, A_2, \dotsc, A_n$ являются попарно независимыми, если $\prob (A_i \sect A_j) = \prob (A_i) \cdot \prob (A_j)$ для всех $i \neq j$ .

Несколько событий $A_1, A_2, \dotsc, A_n$ являются независимыми в совокупности, если для любого подмножества индексов $\{i_1, i_2, \dotsc, i_k\} \subseteq \{1, 2, \dotsc, n\}$ выполняется

\prob (A_{i_1} \sect A_{i_2} \sect \dotsb \sect A_{i_k}) = \prob (A_{i_1}) \cdot \prob (A_{i_2}) \dotsm \prob (A_{i_k})

Независимость в совокупности множества событий означает, что вероятность пересечения любого набора этих событий равна произведению их вероятностей. Для того, чтобы установить независимость в совокупности множества из $n$ событий, нужно проверить выполнение $2^n - n - 1$ равенств — все возможные пересечения от $2$ до $n$ событий.

Попарная независимость и независимость в совокупности не одинаковые условия! Независимость в совокупности является более сильным условием, чем попарная независимость.

Можно придумать пример таких трёх событий $A$ , $B$ и $C$ , что они попарно независимы, но при этом они не являются независимыми в совокупности.

Возьмём классический пример. Два раза бросили обычную монетку, $\Omega = \{\text{ОО}, \text{ОР}, \text{РО}, \text{РР}\}$ . Событие $A$ состоит в том, что при первом броске выпал орёл, то есть $A = \{\text{ОО}, \text{ОР}\}$ . Событие $B$ состоит в том, что при втором броске выпал орёл, то есть $B = \{\text{ОО}, \text{РО}\}$ . Событие $C$ состоит в том, что при выпали одинаковые стороны монетки, то есть $C = \{\text{ОО}, \text{РР}\}$ .

Вероятности событий $\prob (A) = \prob (B) = \prob (C) = 1/2$ . Тогда события независимы попарно, ведь

\align{ \prob (A \sect B) &= \prob (\{\text{ОО}\}) = 1/4 = \prob(A) \cdot \prob(B) \\ \prob (B \sect C) &= \prob (\{\text{ОО}\}) = 1/4 = \prob(B) \cdot \prob(C) \\ \prob (A \sect C) &= \prob (\{\text{ОО}\}) = 1/4 = \prob(A) \cdot \prob(C) }

Но при этом они не являются независимыми в совокупности, ведь

\prob (A \sect B \sect C) = \prob (\{\text{ОО}\}) = 1/4 \neq \prob (A) \cdot \prob (B) \cdot \prob (C)

Если события $A$ и $B$ независимы, то независимы и пары событий $A$ и $\overline{B}$ ; $\overline{A}$ и $B$ ; $\overline{A}$ и $\overline{B}$ .

Условная независимость

Бывает так, что зависимые события $A$ и $B$ становятся независимыми при выполнении какого-то другого события $C$ .

Условная независимость

Два события $A$ и $B$ называются условно независимыми по отношению к событию $C$ , если $\prob (C) \neq 0$ и

\prob (A \sect B \mid C) = \prob (A \mid C) \cdot \prob (B \mid C)

Другое определение условной независимости событий $A$ и $B$ можно дать через условные вероятности. События $A$ и $B$ условно независимы по отношению к событию $C$ , если $\prob (A \mid B, C) = \prob (A \mid C)$ .

Расписав формулы условной вероятности, можно из этого определения получить, что

\frac{\prob (A \sect B \sect C)}{\prob (C)} = \frac{\prob (A \sect C)}{\prob (C)} \cdot \frac{\prob (B \sect C)}{\prob (C)}

А это равенство означает как раз означает, что $\prob (A \mid B, C) = \prob (A \mid C)$ .

Если говорить не только про независимость, а про все свойства условных вероятностей, то можно сформулировать простое правило: знание о событии $C$ разрывает любую вероятностную связь между событиями $A$ и $B$ .

Простой пример. Пусть событие $A$ — событие «Трава мокрая», и событие $B$ — «Включена садовая поливалка». Эти события, очевидно, зависимы. Если мы видим мокрую траву, вероятность того, что работала поливалка, повышается. Теперь введём третье событие $C$ — событие «Идёт дождь». Если мы знаем, что идёт дождь, то есть что событие $C$ произошло, то трава будет мокрой с вероятностью, близкой к $1$ , независимо от того, работала ли поливалка. Знание о поливалке больше не меняет нашей уверенности в том, что трава мокрая. И наоборот, видя мокрую траву во время дождя, мы не получаем никакой новой информации о поливалке. Таким образом, $A$ и $B$ условно независимы при условии $C$ . Дождь является общей причиной мокрой травы, перекрывая собой влияние поливалки.

Важно понимать, что условная независимость не симметрична относительно условия. События $A$ и $B$ могут быть условно независимы при условии $C$ , но быть зависимыми при условии другого события $D$ . Кроме того, условная независимость не означает безусловную независимость. В примере выше, $A$ и $B$ условно независимы при $C$ , но изначально они сильно зависимы.

Верно и обратное: события, независимые в общем случае, могут стать зависимыми при наложении условия. Это явление известно как парадокс Симпсона.

Условная независимость — важная концепция современных вероятностных моделей, таких как байесовские сети и цепи Маркова. В цепи Маркова, например, будущее состояние системы условно независимо от всего прошлого при условии известного настоящего состояния. Это свойство забывания прошлого при известном настоящем кардинально упрощает анализ и вычисления в сложных системах.

Формула Байеса

Для двух событий $A$ и $B$ с ненулевой вероятностью

\prob (A \mid B) = \frac{\prob (B \mid A) \cdot \prob (B)}{\prob (A)}

Вероятность пересечения можно по формуле условной вероятности записать двумя разными способами?

\prob (A \mid B) \cdot \prob (B) = \prob (A \sect B) = \prob (B \mid A) \cdot \prob (A)

Отсюда получаем формулу Байеса

\prob (A \mid B) = \frac{\prob (B \mid A) \cdot \prob (B)}{\prob (A)}

Формула Байеса позволяет «переворачивать» условные вероятности. Если мы знаем вероятность причины $B$ и вероятность следствия $A$ при данной причине, то мы можем с помощью формулы Байеса вычислить вероятность причины при наблюдении следствия.

Простой пример из медицины. Пусть у нас есть какой-то тест, позволяющий выявить болезнь. Точность теста определяется вероятностью того, что он даст положительный результат, когда пациент болен. Мы знаем точность теста, то есть величину $\prob (\text{тест положительный} \mid \text{пациент болен})$ . Специфичность теста определяется вероятностью того, что он даст отрицательный результат, когда пациент здоров. Мы знаем и специфичность теста, то есть величину $\prob (\text{тест отрицательный} \mid \text{пациент здоров})$ . Так же мы знаем, сколько сейчас болеет людей, то есть величину $\prob (\text{пациент болен})$ .

Теперь представим, что конкретный пациент получил положительный результат теста. Какова вероятность того, что он действительно болен? Интуиция часто подсказывает нам, что эта вероятность должна быть высокой, особенно если тест точный. Однако формула Байеса показывает, что это не всегда так. Давайте вычислим эту вероятность через формулу Байеса

\prob (\text{пациент болен} \mid \text{тест положительный}) = \frac{\prob (\text{тест положительный} \mid \text{пациент болен}) \cdot \prob (\text{пациент болен})}{\prob (\text{тест положительный})}

Величину $\prob (\text{тест положительный})$ нужно находить по формуле полной вероятности

\align{ \prob (\text{тест положительный}) &= \prob (\text{тест положительный} \mid \text{пациент болен}) \cdot \prob (\text{пациент болен}) + \\ &+ \prob (\text{тест положительный} \mid \text{пациент здоров}) \cdot \prob (\text{пациент здоров}) =\\[0.4em]&= \prob (\text{тест положительный} \mid \text{пациент болен}) \cdot \prob (\text{пациент болен}) + \\ &+ \bigl( 1 - \prob (\text{тест отрицательный} \mid \text{пациент здоров}) \bigr) \cdot \bigl( 1 - \prob (\text{пациент болен}) \bigr) }

Посмотрим на какие-то конкретные цифры. Пусть распространённость болезни $0.01$ , чувствительность нашего теста $0.95$ , и специфичность теста $0.9$ . То есть наш тест достаточно хороший, а болезнь редкая. И вот у нас стоит конкретный пациент, у которого тест показал положительный результат. С какой вероятностью $P$ пациент болеет? По нашей формуле

P = \frac{0.95 \cdot 0.01}{0.95 \cdot 0.01 + 0.1 \cdot 0.99} \approx 0.087

Удивительно, но при нашем точном тесте вероятность того, что пациент болеет, равна $8.7%$ ! Это происходит потому, что сама болезнь встречается редко, и даже небольшой процент ложных срабатываний дает много ложноположительных результатов.