Энтропия
Речь пойдет преимущественно про разные системы. С точки зрения вероятностной интерпретации происходящего, можно рассматривать систему как совокупность состояний, каждое из которых может реализовываться с какой-то вероятностью. Тогда событие в этом вероятностном пространстве представляют собой реализацию какого-то состояния из множества.
Энтропия
Энтропия — мера неопределенности или мера хаоса какой-то системы. Обозначается буквой .
Чем больше неопределенность системы, тем больше нужно информации для кодирования её состояния. Получается, что энтропия служит еще и мерой информации, необходимой для описания состояния системы.
Можно определить энтропию Шеннона как
Для непрерывного случая с носителем и плотностью распределения
Откуда взялась эта формула?
Давайте попробуем оценить количество информации, необходимое для кодирования одного исхода.
Посмотрим на испытаний, среди которых удачных и неудачных. Результаты испытаний для известных и кодируются последовательностью бит. Всего таких последовательностей . Значит, для кодирования каждой последовательности достаточно бит.
Получается, что в среднем для кодирования результатов одного исхода понадобится в среднем бит. По формуле Стирлинга ,
Например, у системы «брошенная монетка» с распределением вероятностей , энтропия
А у системы «брошенная ненормальная монетка» с распределением вероятностей энтропия
Энтропия нормальной монетки больше энтропии ненормальной. Значит, сообщение о результате броска нормальной монетки несет больше информации, чем сообщение о результате броска ненормальной.
Свойства энтропии
Энтропия системы равна нулю только тогда, когда система состоит из одного состояния.
Действительно, сообщение о состоянии такой системы не несет вообще никакой информации. Мы и так это знали.
Энтропия системы с состояниями ограничена числом .
Если и — независимые системы, то .
Примеры распределений
Энтропия равномерного распределения
Энтропия нормального распределения с плотностью
Энтропия показательного распределения с плотностью
Расстояние Кульбака-Лейблера и кросс-энтропия
Пусть у нас есть две системы и . Как понять, насколько отличается от ?
Кросс-энтропия
Кросс-энтропия служит показателем информации, необходимой для распознания одного исхода, если схема кодирования базируется не на истинном распределении , а на другом распределении .
Эту сложную фразу можно записать как
Если распределение близко к распределению , то кросс-энтропия близка к обычной энтропии , а полное совпадение происходит в случае, когда распределения и совпадают почти всюду.
Расстояние Кульбака-Лейблера
Теперь мы можем измерять степень различия двух распределений.
Расстоянием Кульбака-Лейблера между двумя распределениями и называется величина
Расстояние Кульбака-Лейблера говорит об увеличении среднего количества информации, если при кодировании использовать распределение вместо истинного распределения .
Принцип максимальной энтропии
Среди всех распределений на заданном носителе мы хотим иметь дело с имеющим наибольшую энтропию.
Довольно естественно: чем больше энтропия, тем более «произвольное» у нас распределение.