Сортировка обменами

Рассмотрим методы сортировок, основными операциями в которых является обмен элементов. Да, эта та самая операция swap.

Задача сортировки обменами

К нам на вход поступает массив из записей $R_1, R_2, R_3, \dotsc, R_{n-1}, R_n$ , у каждой записи $R_j$ есть ключ $K_j$ . На ключах задано отношение тотального порядка $\le$ .

Нужно расположить записи по возрастанию ключей, то есть надо найти такую перестановку $\sigma \in \S_n$ , что

K_{\sigma(1)} \;\! \le \;\! K_{\sigma(2)} \le K_{\sigma(3)} \;\! \le \;\! \dotsb \le K_{\sigma(n-1)} \le K_{\sigma(n)}

Нам нужно переупорядочить записи в том же пространстве памяти в соответствии с этой перестановкой $\sigma$ , при этом нам разрешено использовать только операцию swap, которая меняет местами два объекта в памяти.

Также можно использовать любые операции, сводящиеся к swap, но в итоговом анализе сложности нас будет интересовать именно количество операций swap.

Сортировка пузырьком

Наверное, самый очевидный метод сортировки — сравнивать ключи $K_i$ и $K_j$ , и, если $K_i > K_j$ , поменять местами записи $R_i$ и $R_j$ . Такой операцией мы последовательно устраняем инверсии в перестановке. Значит в какой-то момент мы дойдем до перестановки без инверсий. Это и будет наш отсортированный массив.

input mutable array[int] a[n]

int last_swap
int bound = n - 1
bool exchanges_occurred = true

while exchanges_occurred and bound > 0:
    exchanges_occurred = false
    last_swap = 0

    for j = 0; j < bound; j++:
        if a[j] > a[j + 1]:
            swap a[j], a[j + 1]
            exchanges_occurred = true
            last_swap = j

    bound = last_swap

Процесс сортировки пузырьком

Пусть $\sigma_1, \sigma_2, \dotsc, \sigma_n$ — перестановка элементов $\{1, 2, \dotsc, n\}$ , и $b_1, b_2, \dotsc, b_n$ — соответствующая ей таблица инверсий.

После очередного прохода при сортировке пузырьком перестановка $\sigma_1, \sigma_2, \dotsc, \sigma_n$ преобразуется в перестановку $\sigma_1', \sigma_2', \dotsc, \sigma_n'$ . Таблица инверсий получившейся перестановки $b_1', b_2', \dotsc, b_n'$ . Новая таблица инверсий получается из старой путём уменьшения каждого ненулевого элемента на $1$ .

Если перед $\sigma_j$ имеется больший элемент, то $\sigma_j$ поменяется местами с наибольшим из предшествующих элементов. Получается, что $b_{\sigma_j}$ уменьшится на $1$ . А если перед $\sigma_j$ нет большего элемента, то $\sigma_j$ никогда ни с кем не поменяется, и $b_{\sigma_j}$ так и останется равным $0$ .

Каждый алгоритм сортировки обменами, в том числе и сортировка пузырьком, характеризуется тремя величинами:

\align{A &= \text{количество проходов} \\ S &= \text{количество обменов} \\ C &= \text{количество сравнений}}

Если $b_1, b_2, \dotsc, b_n$ — таблица инверсий исходной перестановки $\sigma_1, \sigma_2, \dotsc, \sigma_n$ , то

\align{ A &= 1 + \max\limits(b_1, b_2, \dotsc, b_n) \\ S &= b_1 + b_2 + \dotsb + b_n \\ C &= c_1 + c_2 + \dotsb + c_A}

где $c_j$ — значение $\code{bound} - 1$ перед началом $j$ -го прохода.

После $t$ проходов сортировки значение переменной bound будет равно

\max\limits~ \{b_i + i \mid \forall\, b_i \ge t \} - t \quad\text{при}~ 0 \le t \le \max\limits(b_1, b_2, \dotsc, b_n)

Их этого факта получаем, что

c_j = \max\limits~ \{ b_i + i \mid \forall\, b_i \ge j - 1 \} - j

Анализ распределения $S$ — количества обменов

Значение $S = b_1 + b_2 + \dotsb + b_n$ равно числу инверсий в перестановке $\sigma_1, \sigma_2, \dotsc, \sigma_n$ . Распределение числа инверсий мы знаем, его параметры

{\large S :} \quad \min\limits = 0 ,\quad \ave = n \, (n-1) / 4 ,\quad \max\limits = n \, (n-1) / 2 ,\quad \dev = \frac{1}{6}\sqrt{n \, (n-1) \, (n + 5/2)}

Анализ распределения $A$ — количества проходов

Вероятность того, что нам потребуется не более $k$ проходов, равна произведению $1/n!$ и числа таблиц инверсий, не содержащих компонент равных $k$ или больше.

\prob (A \le k) = \frac{k^{n-k} \, k!}{n!} \quad\text{при}~ 1 \le k \le n

Значит вероятность того, что нам потребуется ровно $k$ проходов равна

\prob (A = k) = \prob (A \le k) - \prob(A \le k-1) = \frac{1}{n!} \Bigl( k^{n-k} \, k! - (k-1)^{n-k+1} \, (k-1)! \Bigr)

Среднее значение вычисляем просто по формуле математического ожидания, выполнив суммирование по частям

\expect A = \sum\limits_{k=1}^n k \cdot \prob(A = k) = n + 1 - \sum\limits_{k=0}^n \frac{k^{n-k} \, k!}{n!} = n + 1 - P(n)

Величина $P(n)$ подробно анализировалась в разделе «Факториальные суммы» статьи «Асимптотика». Нам достаточно асимптотического поведения $P(n) = \sqrt{\pi n/2} - 2/3 + O(1/\sqrt{n})$ .

В итоге получаем, что

\expect A = n - \sqrt{\frac{\pi n}{2}} + \frac{5}{3} + O \left( \frac{1}{\sqrt{n}} \right)

Теперь посчитаем дисперсию

\align{ \var A &= \sum\limits_{k=1}^n k^2 \cdot \prob(A = k) - (\expect A)^2 = \left( (n+1)^2 - 2 \sum\limits_{k=0}^n k \cdot \frac{k^{n-k} \, k!}{n!} - \sum\limits_{k=0}^n \frac{k^{n-k} \, k!}{n!} \right) - \left( n + 1 - \sum\limits_{k=0}^n \frac{k^{n-k} \, k!}{n!} \right)^2 =\\ &= \Bigl( (n+1)^2 - 2 \bigl( P(n+1) \cdot (n+1) - (n+1) \bigr) - P(n) \Bigr) - \bigl( n + 1 - P(n) \bigr)^2 = \\ &= 2 \, (n+1) \, \bigl( 1 + P(n) - P(n+1) \bigr) - P(n) - P(n)^2 }

Подставляем асимптотическое выражение для $P(n)$ и получаем

\var A = \left( 2 - \frac{\pi}{2} \right) \cdot n - \frac{2}{3} \sqrt{\frac{\pi n}{2}} + \frac{2}{9} + O \left( \frac{1}{\sqrt{n}} \right)

Теперь можно вычислить стандартное отклонение

\dev A = \sqrt{\left( 2 - \frac{\pi}{2} \right) \cdot n - \frac{2}{3} \sqrt{\frac{\pi n}{2}} + \frac{2}{9} + O \left( \frac{1}{\sqrt{n}} \right)} = \sqrt{2 - \frac{\pi}{2}} \cdot \sqrt{n} - \frac{\sqrt{\pi/2}}{3 \sqrt{2 - \pi/2}} + O\left(\frac{1}{\sqrt{n}}\right)

Получаем результат анализа распределения $A$ — количества проходов при сортировке пузырьком

\align{ {\large A :} \quad& \min\limits = 1 ,\quad \ave = n - \sqrt{\frac{\pi n}{2}} + \frac{5}{3} + O \left( \frac{1}{\sqrt{n}} \right) ,\quad \max\limits = n ,\\& \dev = \sqrt{2 - \frac{\pi}{2}} \cdot \sqrt{n} - \frac{\sqrt{\pi/2}}{3 \sqrt{2 - \pi/2}} + O\left(\frac{1}{\sqrt{n}}\right) }

Анализ распределения $C$ — количества сравнений.

Итак, нам нужно проанализировать величину $C = c_1 + c_2 + \dotsb + c_A$ , где $c_j = \max\limits~ \{ b_i + i \mid \forall\, b_i \ge j - 1 \} - j$ . Пусть $f_j (k)$ — число таких таблиц инверсий $b_1, b_2, \dotsc, b_n$ , для которых при $1 \le i \le n$ либо $b_i < j-1$ , либо $b_i + i - j \le k$ .

f_j (k) = (j+k)! \, (j-1)^{n-j-k} \quad\text{для}~ 0 \le k \le n - j

Тогда вероятность того, что количество сравнений $c_j$ будет не больше $k$ выражается через $f_j (k)$

\prob (c_j \le k) = \frac{f_j (k)}{n!}

Значит вероятность того, что количество сравнений $c_j$ будет в точности $k$ равна

\prob (c_j = k) = \frac{f_j (k) - f_j (k-1)}{n!} \quad\text{при}~ k \ge 1 \quad\text{и}\quad \prob(c_j = 0) = \frac{f_j(0)}{n!}

Для вычисления среднего числа сравнений на шаге $j$ посчитаем математическое ожидание

\expect c_j = \sum\limits_{k=0}^{n-j} k \cdot \prob(c_j = k) = \frac{1}{n!} \sum\limits_{k=1}^{n-j} k \cdot \bigl( f_j (k) - f_j (k-1) \bigr)

Просуммировав по частям, получаем, что

\expect c_j = n - j + 1 - \frac{1}{n!} \sum\limits_{k=0}^{n-j} f_j (k)

Тогда, суммируя по $j$ , получаем математическое ожидание общего числа сравнений

\expect C = \sum\limits_{j=1}^n \expect c_j = \binom{n+1}{2} - \frac{1}{n!} \sum\limits_{j=1}^n \sum\limits_{k=0}^{n-j} f_j(k)

Теперь можно посчитать дисперсию. Начнем с $c_j$

\align{ \var c_j &= \sum\limits_{k=0}^{n-j} k^2 \cdot \prob(c_j = k) - (\expect c_j)^2 = \frac{1}{n!} \sum\limits_{k=1}^{n-j} k^2 \cdot \bigl( f_j (k) - f_j (k-1) \bigr) - (\expect c_j)^2 =\\ &= (n-j+1)^2 - \frac{1}{n!} \sum\limits_{k=0}^{n-j} (2k+1) \, f_j(k) - \left( n - j + 1 - \frac{1}{n!} \sum\limits_{k=0}^{n-j} f_j (k) \right)^2 = \\ &= \frac{1}{n!} \sum\limits_{k=0}^{n-j} \bigl( 2(n - j - k) + 1 \bigr) \, f_j(k) - \frac{1}{n!^2} \sum\limits_{k=0}^{n-j} \sum\limits_{m=0}^{n-j} f_j(k) \, f_j(m) }

Шейкерная сортировка

Сортировка пузырьком, конечно, рабочая, но она относительно медленная. В процессе сортировки пузырьком совершается довольно много лишних сравнений, и элемент не может за один проход переместиться более чем на $1$ позицию, поэтому если наименьший элемент будет самым крайним, то нам потребуется максимальное количество сравнений.

Все эти особенности процесса сортировки пузырьком наталкивают на мысли о сортировке, которая будет чередовать направления прохода по массиву. Кеннет Айверсон в 1962 году сделал интересное наблюдение: если две записи $R_j$ и $R_{j+1}$ не поменялись местами при двух последовательных проходах в обоих направлениях, то они уже стоят на своих местах и их можно исключить из дальнейшего рассмотрения.

input mutable array[int] a[n]

int last_swap
int left_bound = 0
int right_bound = n - 1
bool exchanges_occurred = true

while exchanges_occurred and left_bound < right_bound:
    exchanges_occurred = false
    last_swap = left_bound

    for j = left_bound; j < right_bound; j++:
        if a[j] > a[j + 1]:
            swap a[j], a[j + 1]
            exchanges_occurred = true
            last_swap = j

    right_bound = last_swap

    if not exchanges_occurred:
        break

    exchanges_occurred = false
    last_swap = right_bound

    for j = right_bound; j > left_bound; j--:
        if a[j] < a[j - 1]:
            swap a[j], a[j - 1]
            exchanges_occurred = true
            last_swap = j

    left_bound = last_swap

Пусть снова $b_1, b_2, \dotsc, b_n$ — таблица инверсий исходной перестановки $\sigma_1, \sigma_2, \dotsc, \sigma_n$ . Считаем величины $A$ — количество проходов, $S$ — количество обменов и $C$ — количество сравнений.

\align{ A &= 1 + \lceil \max\limits(b_1, b_2, \dotsc, b_n) / 2 \rceil \\ S &= b_1 + b_2 + \dotsb + b_n \\ C &= c_1 + c_2 + \dotsb + c_A}

где $c_j$ — значение $2 \cdot (\code{right\_bound} - \code{left\_bound})$ перед началом $j$ -го прохода.

Сортировка Бетчера

Пока у нас получались только сортировки, которые имеют квадратичную временную сложность. Если мы хотим, чтобы наш алгоритм работал быстрее, нам необходимо сравнивать несоседние пары ключей, иначе иначе нам придётся сделать столько сравнений, сколько инверсий в перестановке.

В 1964 году Кеннет Бетчер открыл интересный способ организации сравнений, который позволяет значительно ускорить сортировку и даёт возможность её параллелить.

Алгоритм будет работать для $n \ge 2$ .

Вычислим $t = \lceil \log_2 n \rceil$ — наименьшее такое целое число, для которого $2^t \ge n$ .

input mutable array[int] records[n]

t = 0
while (1 << t) < N:
    t += 1
p = 1 << (t - 1)

while p > 0:
    q = 1 << (t - 1)
    r = 0
    d = p

    while q != p:
        for int i = 0; i < n - d; i++:
            if i & p == r:
                if records[i] > records[i + d]:
                    swap records[i], records[i + d]

        d = q - p
        q = q // 2
        r = p

    for int i = 0; i < n - d; i++:
        if (i & p) == r:
            if records[i][0] > records[i + d][0]:
                swap records[i], records[i + d]

    p = p // 2

Быстрая сортировка

В сортировке Бетчера последовательность сравнений предопределена, то есть мы постоянно сравниваем одни и те же пары ключей на фиксированных позициях вне зависимости от значения этих ключей. А между прочим, уже выполненные операции сравнения могут предоставить нам дополнительную информацию о сортируемой последовательности, и мы можем использовать эту информацию для выполнения более эффективной и быстрой сортировки.

Попробуем отказаться от оптимизаций под параллельные алгоритмы в пользу более быстрой сортировки на обычных процессорах с последовательным выполнением операций. Иными словами, новый метод не будет применим для параллельных вычислений, как сортировка Бетчера, но сможет превзойти её на классической однопоточной архитектуре.

Давайте брать одну из записей и сразу двигать её на то место, которое она должна занять после сортировки. Для поиска номера $s$ , под которым должна оказаться выбранная запись $R$ , нам нужно распределить остальные записи так, чтобы слева от записи $R$ оказались только записи с меньшим ключом, а справа от записи $R$ оказались только записи с большим ключом.

После этой операции у нас получатся два подмассива $R_1, R_2, \dotsc, R_{s-1}$ и $R_{s+1}, R_{s+2}, \dotsc, R_{n}$ . При этом, если $K$ — ключ записи $R$ , и $K_j$ — ключ записи $R_j$ , то

K_1, K_2, \dotsc, K_{s-1} < K < K_{s+1}, K_{s+2}, \dotsc, K_n

То есть, наш массив записей стал разбит таким образом, что исходная задача сортировки сводится к двум независимым сортировкам пары массивов меньшей длины. Можно применять тот же метод к полученным подмассивам до тех пор, пока мы всё не отсортируем. При этом массивы единичной длины сортировать не надо.

Метод, рассмотренный нами, называется быстрая сортировка, а точнее общая быстрая сортировка.

Понятно, что эффективность алгоритма зависит от стратегии выбора записи $R$ , по которой будем разделять массив. Эта запись называется опорным элементом разделения. Используя разные алгоритмы выбора опорного элемента мы будем получать разные варианты быстрой сортировки, такие как рандомизированная быстрая сортировка, быстрая сортировка Седгевика и быстрая сортировка Хоара. Операцию выбора этого элемента назовём select_pivot() и рассмотрим потом отдельно.

Также эффективность алгоритма зависит от способа разбиения подмассива на две части относительно опорного элемента. Как бы операция выбора опорного элемента является частью операции разбиения, но для удобства повествования и анализа я разделю эти две операции. Операция разделения partition(ref array[T] a, int left, int right, int pivot_index) -> int принимает на вход ссылку на исходный массив, границы подмассива для разделения и индекс элемента, который считается опорным. Возвращает индекс, на который переместился опорный элемент. При этом записи в подмассиве эта операция перекомпонует так, что по индексам от left до нового индекса опорного элемента располагаются только записи, у которых ключи меньше опорного, а по индексам от нового индекса опорного элемента до right располагаются только записи, у которых ключи больше опорного.

А пока общий код алгоритма быстрой сортировки

require type T is comparable


function quick_sort(ref array[T] a[n]):
    recursive_quick_sort(a, left = 0, right = n - 1)


function recursive_quick_sort(ref array[T] a, int left, int right):
    if left >= right:
        return

    # Выбираем опорный элемент и разделяем массив
    int pivot_index = select_pivot(a, left, right)
    int s = partition(a, left, right, pivot_index)

    # Рекурсивно сортируем обе части
    recursive_quick_sort(a, left, s - 1)
    recursive_quick_sort(a, s + 1, right)

Важно, что сортировка происходит обменами элементами. Конечно, можно было бы создавать новые массивы, а потом их соединять, но такой подход добавляет большое количество лишних операций и линейную сложность по памяти.

Если нам не повезет, и по нашей стратегии мы будем выбирать опорный элемент так, что одна часть будет состоять только из одной записи, а другая часть из всех оставшихся, то время работы нашего алгоритма составит $O(n^2)$ . А если нам повезет, и массив разделится ровно пополам, то время работы нашего алгоритма составит $O(n \log n)$ . Получается, что для получения хорошего алгоритма быстрой сортировки нам нужно удачно выбирать опорный элемент.

Аппарат анализа

Для анализа различных стратегий выбора опорного элемента установим общие свойства, верные для любой реализации быстрой сортировки.

Важным свойством быстрой сортировки является сохранение случайности подмассивов после разбиения. Относительное положение записей в подмассивах никак не влияет на алгоритм разделения. Значит, случайность действительно сохраняется, и верна теорема

Сохранение случайности при разбиении

Если исходный массив является случайной перестановкой, то после разбиения относительно опорного элемента оба получившихся подмассива являются случайными перестановками своих элементов.

Пусть также $p_{n, \- k}$ — вероятность того, что опорный элемент разбивает исходный массив на подмассивы длины $k$ и $n-k-1$ .

Будем использовать наше стандартное обозначение $C$ для количества сравнений. Понятно, что это величина случайная. Мы предполагаем равномерное распределение всех входных перестановок.

Пусть $G_n (x) = \sum\limits_{j=0}^\oo \prob(C = j) \cdot x^j$ — производящая функция вероятностей числа сравнений $C$ в быстрой сортировке массива из $n$ элементов.

Введём величину $a_{n, \- k}$ — число сравнений при разбиении при условии, что опорный элемент занимает позицию $k$ . Пусть её производящая функция равна $A_{n, \- k} (x) = \sum\limits_{j=0}^\oo \prob(a_{n, \- k} = j) \cdot x^j$ Тогда

G_n (x) = \sum\limits_{k=0}^{n-1} p_{n, \- k} \cdot A_{n, \- k} (x) \cdot G_k (x) \cdot G_{n-k-1} (x) \quad\text{и}~ G_0 (x) = 1 ~\text{и}~ G_1 (x) = 1

Это свойство производящей функции числа сравнений следует из сохранения случайности при разбиении.

Теперь получим формулы для $S$ — количество обменов. Это тоже случайная величина.

Пусть $H_n (x) = \sum\limits_{j=0}^\oo \prob(S = j) \cdot x^j$ — производящая функция вероятностей числа обменов $S$ в быстрой сортировке массива из $n$ элементов. Здесь опять $p_{n, \- k}$ — вероятность того, что опорный элемент разбивает исходный массив на подмассивы длины $k$ и $n-k-1$ .

Введём также величину $b_{n, \- k}$ — число обменов при разбиении при условии, что опорный элемент занимает позицию $k$ . Пусть её производящая функция равна $B_{n, \- k} (x) = \sum\limits_{j=0}^\oo \prob(b_{n, \- k} = j) \cdot x^j$ Тогда

H_n (x) = \sum\limits_{k=0}^{n-1} p_{n, \- k} \cdot B_{n, \- k} (x) \cdot H_k (x) \cdot H_{n-k-1} (x) \quad\text{и}~ H_0 (x) = 1 ~\text{и}~ H_1 (x) = 1

Это свойство производящей функции числа обменов следует из сохранения случайности при разбиении и условной независимости числа обменов в подмассивах.

Быстрая сортировка с фиксированным опорным элементом и разделение Ломуто

Рассмотрим простейшую стратегию — выбор элемента по фиксированному индексу. Эта стратегия кажется разумной для случайных данных, но, как мы увидим позже, она оказывается катастрофично неэффективной для упорядоченных и почти упорядоченных последовательностей. Разделение будет происходить по средством одного прямого прохода по массиву.

Данный алгоритм разбиения был предложен Нико Ломуто в 1970-х годах как простой вариант оригинального разбиения Хоара, а позже был популяризован в книгах Бентли (Programming Pearls) и Кормена (Введение в алгоритмы). В оригинале в качестве опорного выбирался строго последний элемент, для еще большего удобства реализации, но я все-таки буду придерживаться принципа максимальной общности и не буду закреплять выбор индекса, просто скажу, что индекс фиксирован.

function select_pivot(ref array[T] a, int left, int right) -> int:
    return left  # или любой другой фиксированный индекс от left до right


function partition(ref array[T] a, int left, int right, int pivot_index) -> int:
    # Переносим опорный элемент в конец для удобства
    swap a[pivot_index], a[right]
    T pivot = a[right]

    # i указывает границу между элементами меньших pivot и больших pivot
    int i = left

    for int j = left; j <= right - 1; j++:
        if a[j] < pivot:
            swap a[i], a[j]
            i = i + 1

    # Возвращаем опорный элемент на правильную позицию
    swap a[i], a[right]

    return i

Оценим количество сравнений, выполняемых быстрой сортировкой со схемой Ломуто.

В схеме Ломуто два элемента сравниваются только когда один из них является опорным элементом. При этом каждый элемент становится опорным ровно один раз, после чего занимает свою финальную позицию. То есть любые два различных элемента сравниваются не более одного раза за весь алгоритм сортировки.

Для фиксированного выбора опорного элемента $p_{n, \- k} = 1/n$ для всех $k$ от $0$ до $n-1$ . Также при разбиении мы делаем фиксированное число сравнений — $n-1$ , поэтому $A_{n, \- k} = x^{n-1}$ Подставляем в формулу $G_n (x)$ :

G_n (x) = \frac{x^{n-1}}{n} \sum\limits_{k=0}^{n-1} G_k(x) \, G_{n-k-1}(x)

Найти в замкнутом виде выражение для $G(x)$ не получится, но это нам и не нужно. Нам нужно просто посчитать, чему равны первая и вторая производная в точке $1$ , чтобы посчитать математическое ожидание и дисперсию числа сравнений

G_n' (x) = \frac{n-1}{n} \, x^{n-2} \sum\limits_{k=0}^{n-1} G_k(x) \, G_{n-k-1}(x) + \frac{x^{n-1}}{n} \sum\limits_{k=0}^{n-1} \bigl( G_k'(x) \, G_{n-k-1}(x) + G_k(x) \, G_{n-k-1}'(x) \bigr)

Подставляем $x=1$ , и, обозначив $E_n = G_n'(1)$ , получаем рекуррентное соотношение для $E_n$ :

E_n = n - 1 + \frac{2}{n} \sum\limits_{k=0}^{n-1} E_k \quad\text{и}~ E_0 = E_1 = 0

Решая эту реккуренту получаем

\expect C = E_n = 2 \, (n+1) \, H_n - 4n

Теперь обозначим $V_n = G_n''(1)$ , и, посчитав вторую производную, получим рекуррентное соотношение для $V_n$ :

V_n = (n-1) \, (n-2) + \frac{4 \, (n-1)}{n} \sum\limits_{k=0}^{n-1} E_k + \frac{2}{n} \sum\limits_{k=0}^{n-1} V_k + \frac{2}{n} \sum\limits_{k=0}^{n-1} E_k \, E_{n-k-1} \quad\text{и}~ V_0 = V_1 = 0

Решая эту рекурренту получаем

V_n = 4 \, (n + 1)^2 \cdot (H_n^2 - H_n^{(2)}) - 4 \, (n + 1) \, (4 n + 1) \, H_n + 23 n^2 + 17 n

Тогда

\var C = V_n + E_n - E_n^2 = 7 n^2 - 4 \, (n+1)^2 \, H_n^{(2)} - 2 \, (n+1) \, H_n + 13 n

Максимальное число сравнений достигается тогда, когда опорный элемент оказывается самым минимальным. Для максимального числа сравнений $C_{\max\limits} (n)$ получаем рекурренту $C_{\max\limits}(n) = (n-1) + C_{\max\limits}(n-1)$ с $C_{\max\limits}(1) = 0$ , решением которой является $C_{\max\limits} = n(n-1)/2$ .

Минимальное число сравнений достигается тогда, когда опорный элемент постоянно является медианой, и обрабатываемый массив делится ровно пополам. Понятно, что совсем ровное деление мы получить на произвольном массиве не сможем, потому что размер массива может быть любой. Оценим пока тут немного грубовато. Для минимального числа сравнений $C_{\min\limits} (n)$ получаем рекурренту $C_{\min\limits}(n) = (n-1) + C_{\min\limits}\bigl( \lfloor (n-1)/2 \rfloor \bigr) + C_{\min\limits}\bigl( \lceil (n-1)/2 \rceil \bigr)$ с $C_{\min\limits}(0) = C_{\min\limits}(1) = 0$ , грубым решением которой является $C_{\min\limits} < n \log_2 n - n + O(\log n)$ .

Получаем все важные характеристики количества сравнений $C$ :

\align{{\large C :} \quad \min\limits &< n \log_2 n - n + O(\log n)\\[0.4em]\ave &= 2n \ln n + (2 \gamma - 4) \cdot n + 2 \ln n + (2 \gamma + 1) + o(1)\\[0.4em]\max\limits &= n^2/2 - n/2 \\ \dev &= \sqrt{7-2\pi^2/3} \cdot n - \frac{1}{\sqrt{7-2\pi^2/3}} \cdot \ln n + \frac{17-4\pi^2/3 - 2 \gamma}{2 \sqrt{7-2\pi^2/3}} + o(1) }

Теперь оценим количество обменов.

Для фиксированного выбора опорного элемента $b_{n, \- k} = k$ , и $B_{n, \- k} (x) = x^k$ . Обратите внимание: я учитываю только обмены, которые происходят в цикле в операции разбиения и не учитываю служебные обмены, которые связаны с размещением опорного элемента, потому что количество служебных обменов зависит от реализации. Важно только то, что эти служебные обмены добавляют не более константы к числу обменов на каждом уровне разбиения, что приводит к линейной поправке в итоговой оценке количества обменов. Тогда наша рекуррента превращается в

H_n (x) = \frac{1}{n} \sum\limits_{k=0}^{n-1} x^k \, H_k (x) \, H_{n-k-1} (x)

И снова, найти в замкнутом виде выражение для $H(x)$ не получится. А нам и не надо. Нам надо только вычислить значения $E_n = H_n'(1)$ и $V_n = H_n''(1)$ .

Начнём с первого момента, $E_n$ . Считаем производную $H_n'(x)$ , подставляем $x=1$ и получаем рекурренту

E_n = \frac{n-1}{2} + \frac{2}{n} \sum\limits_{k=0}^{n-1} E_k \quad\text{и}~ E_0 = E_1 = 0

Решаем и получаем, что

\expect S = E_n = (n+1) \, H_n - 2 n

Далее, считаем вторую производную $H_m''(x)$ , подставляем $x=1$ и получаем рекурренту для $V_n$ :

V_n = \frac{(n-1)\, (n-2)}{3} + \frac{2 \, (n-1)}{n} \sum\limits_{k=0}^{n-1} E_k + \frac{2}{n} \sum\limits_{k=0}^{n-1} V_k + \frac{2}{n} \sum\limits_{k=0}^{n-1} E_k \, E_{n-k-1} \quad\text{и}~ V_0 = V_1 = 0

Решая эту рекурренту, получаем значение второго момента

V_n = (n + 1)^2 \cdot (H_n^2 - H_n^{(2)}) - 2 \, (n + 1) \, (2n + 1) \, H_n + 6 n^2 + 6 n

Тогда

\var S = V_n + E_n - E_n^2 = 2 n ^2 - (n+1)^2 \, H_n^{(2)} - (n+1) \, H_n + 4 n

Максимальное число обменов достигается на полностью отсортированном массиве, где на каждом шаге опорный строго больше всех остальных элементов. Тогда $S_{\max\limits}(n) = n \, (n-1) / 2$ .

Минимальное число обменов достигается на отсортированном массиве, ведь мы буквально никого ни с кем не обмениваем. Тогда $S_{\min\limits} = 0$ .

Получаем все важные характеристики количества сравнений $C$ :

\align{{\large S :} \quad \min\limits &= 0\\[0.4em]\ave &= n \ln n + (\gamma - 2) \cdot n + \ln n + (\gamma + 1/2) + o(1)\\[0.4em]\max\limits &= n^2/2 - n/2 \\ \dev &= \sqrt{2 - \pi^2/6} \cdot n - \frac{1}{2 \sqrt{2 - \pi^2 / 6}} \cdot \ln n + \frac{5 - \pi^2/3 - \gamma}{2 \sqrt{2 - \pi^2 / 6}} + o(1) }

Как мы поняли, метод неплохой, работает за ожидаемое время $O(n \log n)$ , а точнее выполняет в среднем $2 n \ln n + O(n)$ сравнений и $n \ln n + O(n)$ обменов. У этого метода есть одна большая проблема: он уязвим к умышленным атакам. Алгоритм детерминированный, так что можно подобрать такой входной массив, что каждый раз будет в качестве опорного элемента выбираться наименьший или наибольший. И тогда нам гарантировано максимальное время работы $O(n^2)$ .

Проблему исправить можно, если выбирать не фиксированный элемент, а случайный.

Рандомизированная быстрая сортировка

Итак, давайте в качестве опорного элемента выбирать случайную запись. То есть опорным элементом $R$ может с равной вероятностью оказаться каждая из $n$ записей $R_1, R_2, \dotsc, R_n$ .

function select_pivot(ref array[T] a, int left, int right) -> int:
    return uniform random(int, [left ... right])

Анализ количества сравнений и количества обменов для рандомизированного выбора опорного элемента полностью совпадает с анализом для фиксированного выбора опорного элемента.

При случайном выборе опорного элемента из всех $n$ позиций, вероятность того, что опорный элемент окажется на индексе $k$ , и даст подмассивы размеров $k$ и $n-k-1$ , равна $1/n$ . Это точно такое же распределение $p_{n, \- k} = 1/n$ , как и для фиксированного выбора опорного элемента на случайной перестановке.

Количество сравнений при разбиении $a_{n, \- k}$ тоже равно $n-1$ .

Количество обменов при разбиении $b_{n, \- k}$ тоже равно $k$ , ведь для случайной перестановки распределение числа обменов зависит только от позиции опорного элемента, а не от того, как он был выбран.

Получается, что производящие функции числа сравнений $C$ и числа обменов $S$ в обоих вариантах совпадают, а значит, я могу просто переписать результат анализа.

Для рандомизированной быстрой сортировки

\align{{\large C :} \quad \min\limits &< n \log_2 n - n + O(\log n)\\[0.4em]\ave &= 2n \ln n + (2 \gamma - 4) \cdot n + 2 \ln n + (2 \gamma + 1) + o(1)\\[0.4em]\max\limits &= n^2/2 - n/2 \\ \dev &= \sqrt{7-2\pi^2/3} \cdot n - \frac{1}{\sqrt{7-2\pi^2/3}} \cdot \ln n + \frac{17-4\pi^2/3 - 2 \gamma}{2 \sqrt{7-2\pi^2/3}} + o(1) }

\align{{\large S :} \quad \min\limits &= 0\\[0.4em]\ave &= n \ln n + (\gamma - 2) \cdot n + \ln n + (\gamma + 1/2) + o(1)\\[0.4em]\max\limits &= n^2/2 - n/2 \\ \dev &= \sqrt{2 - \pi^2/6} \cdot n - \frac{1}{2 \sqrt{2 - \pi^2 / 6}} \cdot \ln n + \frac{5 - \pi^2/3 - \gamma}{2 \sqrt{2 - \pi^2 / 6}} + o(1) }

В чём же тогда преимущество такого подхода? В том что этот вариант выбора опорного элемента недетерминированный, и к нему нельзя просто так подобрать плохие входные данные. Да, нам всё еще может не повести с выбором опорного элемента, но вероятность такого невезения крайне мала. А от умышленных атак этот алгоритм защищён, по крайней мере до того момента, пока злоумышленник не узнает алгоритм генерации случайных чисел и его сид. На практике это делает рандомизированную версию значительно устойчивее к враждебным данным

Оригинальная быстрая сортировка Хоара

Рассмотрим оригинальный алгоритм разбиения, предложенный создателем быстрой сортировки Чарльзом Энтони Ричардом Хоаром в 1960 году.

function select_pivot(ref array[T] a, int left, int right) -> int:
    return (left + right) // 2  # или любой другой фиксированный индекс от left до right

function hoare_partition(ref array[T] a, int left, int right, int pivot_index) -> int:
    pivot = a[pivot_index]
    i = left - 1; j = right + 1

    forever:
        do i++ while a[i] < pivot
        do j-- while a[j] > pivot

        if i >= j:
            return j

        swap a[i], a[j]

Опорный элемент фиксированный, так что у нас опять $p_{n, \- k} = 1/n$ .

Проанализируем число сравнений, которые случаются при быстрой сортировке со схемой разделения Хоара.

Каждый индекс посещается соответствующим указателем ровно один раз: указатель i начинает с левой границы и движется только вправо, а указатель j начинает с правой границы и движется только влево. Эти два указателя встречаются где-то посередине и останавливаются. Значит, каждый индекс будет посещён ровно одним из указателей, и для него произойдёт ровно одно сравнение ключа с опорным элементом.

Получается, что $A_{n,\-k} (x) = x^n$ для всех $k$ . Подставляем в рекурренту для $G_n (x)$ :

G_n (x) = \frac{x^n}{n} \sum\limits_{k=0}^{n-1} G_k(x) \, G_{n-k-1}(x)

Считаем производную, подставляем $x=1$ и получаем рекурренту для $E_n = G'(1)$ :

E_n = n + \frac{2}{n} \sum\limits_{k=0}^{n-1} E_k \quad\text{и}~ E_0 = E_1 = 0

Решая эту реккуренту получаем

\expect C = E_n = 2 \, (n+1) \, H_n - \frac{10}{3} n - \frac{1}{3}

Теперь обозначим $V_n = G_n''(1)$ , и, посчитав вторую производную, получим рекуррентное соотношение для $V_n$ :

V_n = n \, (n-1) + 4 \sum\limits_{k=0}^{n-1} E_k + \frac{2}{n} \sum\limits_{k=0}^{n-1} V_k + \frac{2}{n} \sum\limits_{k=0}^{n-1} E_k \, E_{n-k-1} \quad\text{и}~ V_0 = V_1 = 0

Решая эту рекурренту получаем

V_n = 4 \, (n + 1)^2 \cdot (H_n^2 - H_n^{(2)}) - 4 \, (n + 1) \, (4 n + 1) \, H_n + 23 n^2 + 17 n

Тогда

\var C = V_n + E_n - E_n^2 = 7 n^2 - 4 \, (n+1)^2 \, H_n^{(2)} - 2 \, (n+1) \, H_n + 13 n

Получаем все важные характеристики количества сравнений $C$ :

\align{{\large C :} \quad \min\limits &< n \log_2 n - n + O(\log n)\\[0.4em]\ave &= 2n \ln n + (2 \gamma - 4) \cdot n + 2 \ln n + (2 \gamma + 1) + o(1)\\[0.4em]\max\limits &= n^2/2 - n/2 \\ \dev &= \sqrt{7-2\pi^2/3} \cdot n - \frac{1}{\sqrt{7-2\pi^2/3}} \cdot \ln n + \frac{17-4\pi^2/3 - 2 \gamma}{2 \sqrt{7-2\pi^2/3}} + o(1) }

Проанализируем количество обменов, которое случается при быстрой сортировке со схемой разделения Хоара.

Опорный элемент не участвует в обменах до финального положения. Обмены происходят только между элементами левой и правой частями, при этом каждая пара $(i, j)$ , где $i$ взят из левой части, а $j$ взят из правой части, может привести к обмену. Обменяются они тогда и только тогда, когда пара $(i, j)$ будет составлять инверсию. Получается, что число обменов при быстрой сортировке со схемой Хоара равно числу инверсий между левой и правой частями.

Массив разделён на две части, в одной $k$ элементов, а в другой $n-k-1$ элементов. Производящая функция для числа инверсий между множествами размера $k$ и $n-k-1$ равна гауссовому коэффициенту

\qbinom{n-1}{k}{x} = \sum\limits_{m=0}^{k \, (n-k-1)} (\text{число разбиений с}~ m ~\text{инверсиями}) \cdot x^m

Тогда, усредняя по всем равновероятным разбиениям, получаем производящую функцию $B_{n, \- k} (x)$ числа обменов операции разбиения по схеме Хоара

B_{n, \- k} = 1 \bigg/ \binom{n-1}{k} \cdot \sum\limits_{\substack{S \subset \{1, 2, \dotsc, n-1\} \\ |S| = k}} x^{\inv \bigr( S, \{1, 2, \dotsc, n-1\} \without S \bigr)} = \qbinom{n-1}{k}{x} \bigg/ \binom{n-1}{k} \quad\text{для}~ 0 \le k \le n-2

где $\inv (A, B)$ — число инверсий между множествами $A$ и $B$ .

Теперь мы можем записать производящую функцию $H_n (x)$ и вычислить оба момента $S$ , чтобы найти главные характеристики числа обменов.

Быстрая сортировка с медианой трёх