Сортировка вставками

Мы решаем задачу сортировки: нам нужно упорядочить ключи $K_1, K_2, \dotsc, K_n$ по возрастанию относительного какого-то линейного порядка.

Допустим, мы уже отсортировали $j-1$ записей так, что

K_1 \le K_2 \le \dotsb \le K_{j-2} \;\! \le \;\! K_{j-1}

Теперь нам нужно вставить следующий ключ $K_j$ . Будем сравнивать его по очереди с ключами $K_{j-1}, K_{j-2}, \dotsc K_1$ , пока не обнаружим, что его нужно вставить между ключами $K_i$ и $K_{i+1}$ . Сдвинем все ключи, начиная с $K_{i+1}$ , на одну позицию и вставим запись $K_j$ на место $i+1$ .

Другими словами, мы каждый раз берем новый ключ и вставляем его в правильное место.

Количество сравнений в этом алгоритме равно числу инверсий перестановки $(K_1, K_2, \dotsc, K_n)$ плюс количество выходных сравнений в цикле while — $n-1$

\min\limits = n-1 ,\quad \ave = (n^2 + 3n - 4) / 4 ,\quad \max\limits = (n^2 + n - 2) / 2 ,\quad \dev = \frac{1}{6}\sqrt{n \, (n-1) \, (n + 5/2)}

Количество записей (присваиваний элементов a) совпадает с количеством сравнений.

В алгоритме простых вставок новый $j$ -й элемент сравнивался в среднем с $(j-1)/2$ уже отсортированными элементами по порядку. В итоге общее количество сравнений в среднем равно $\sum\limits_{j=2}^n (j-1)/2 = (n^2 - n) / 4 = O(n^2)$ .

Можно использовать то, что элементы, в которые мы хотим вставить новый ключ, уже отсортированы. Будем искать место вставки с помощью бинарного поиска. До конца это проблему не решит, ведь кроме поиска места вставки нужно её произвести. Но даже так это неплохой буст к производительности

Итого мы для каждого элемента с номером $j+1$ проводим бинарный поиск в подмассиве размера $j$ (все, что находится спереди). В итоге максимальное количество сравнений

\sum\limits_{j=1}^{n-1} \bigl( \lfloor \log_2 j \rfloor + 1 \bigr) = n \cdot \lceil \log_2 n \rceil - 2^{\lceil \log_2 n \rceil} + 1 = n \log_2 n - n + O(1)

Мы получили, что количество сравнений близко к оптимальному, и это не может не радовать. Однако, наша сортировка всё равно выполняет $O \bigr( n^2 \bigr)$ записей, что сводит на нет все наши старания.

Проблема в том, что вставка в массив выполняется за $O(n)$ записей. Вообще, не существует линейной структуры данных, обеспечивающей одновременно поиск и вставку быстрее, чем за $O(n)$ операций. Можно использовать нелинейные структуры, например сбалансированные деревья поиска или список с пропусками, но тогда у нас будет нехилый временной оверхед на саму структуру.

Смягчить проблему можно, рассмотрев особый метод двухпутевых вставок.

Выделим под массив участок памяти размером $3n$ , а сам массив поместим в середину. Будем поддерживать указатели на начало массива и его длину, чтобы не потерять массив в аллоцированном участке.

При вставке элемента в массив определяем, к какому краю ближе место вставки $j$ , и расширяем массив в сторону этого края, копируя $\min\limits(n-j, j)$ элементов вместо $n-j$ . Таким образом мы в $2$ раза уменьшили ожидаемое количество записей, получив алгоритм со средним количество записей $n^2/8 + O(n)$ вместо $n^2/4 + O(n)$ .

Есть способ немного сгладить проблему линейных структур данных. Нужно использовать блочный список.

Массив представляем в виде блочного списка с размером блока $k$ . Поиск в блочном списке длины $n$ занимает $O(n/k + \log k)$ операций, а вставка занимает $O(k)$ операций, если мы знаем, в какой блок вставлять (имеем на него ссылку).

Получается, что общее время работы алгоритма сортировки блочными вставками равно

\sum\limits_{j=1}^n \bigl( O(j/k + \log k) + O(k) \bigr) = O \left( \frac{n^2}{k} + n \log k + nk \right)

Минимум достигается при $k = \sqrt{n}$ , общее количество операций при сортировке блочными вставками получается равным $O \bigl( n^{3/2} \bigr)$ .

Метод экзотический, имеет какой-то оверхед на структуру и не является широко универсальным, так как приходится следить за размерами блоков, совершать реаллокации и слияния.

Если в процессе сортировки мы перемещаем элементы на $1$ позицию за операцию, время выполнение будет в любом случае $\Omega \bigl( n^2 \bigr)$ .

Пусть $\sigma \in \S_n$ — случайная перестановка $n$ элементов массива.

Рассмотрим величину $\delta_j (\sigma) \defeq \bigl| \sigma(j) - j \bigr|$ — расстояние от элемента исходном массиве до его правильного положения в отсортированном массиве. Предположив равномерное распределение перестановок $\sigma$ , найдём среднее

\expect \bigl( \delta_j (\sigma) \bigr) = \frac{1}{n} \sum\limits_{i=1}^n |i-j| = \frac{1}{n} \Bigg( \frac{j \, (j-1)}{2} + \frac{(n-j) \, (n-j+1)}{2} \Bigg)

Полное расстояние перемещения — величина

D(\sigma) \defeq \sum\limits_{j=1}^n \delta_j (n) = \sum\limits_{j=1}^n \bigl| \sigma(j) - j \bigr|

Это сумма расстояний, на которые элементы уехали от своих правильных позиций при перестановке $\sigma$ . Величина $D(\sigma)$ служит оценкой сложности предстоящего процесса сортировки.

Минимум считается просто: $\min\limits_{\sigma \;\! \in \;\! \S_n} D(\sigma) = 0$ при $\sigma = \1$ .

Максимум достигается на перестановке, которая максимально далеко перемещает каждый элемент. При чётном $n$ это полный разворот, а при нечётном $n$ надо центральный элемент оставить на месте. Итого $\max\limits_{\sigma \;\! \in \;\! \S_n} D(\sigma) = \lfloor n^2 / 2 \rfloor$ .

Для подсчёта среднего значения воспользуемся результатом для величины $\delta_j (\sigma)$ :

\expect \bigl( D(\sigma) \bigr) = \sum\limits_{j=1}^n \expect \bigl( \delta_j (\sigma) \bigr) = \frac{2}{n} \sum\limits_{j=1}^n \binom{j}{2} = \frac{n^2-1}{3}

Для вычисления дисперсии необходимо сначала найти дисперсию $\delta_j (\sigma)$ и ковариации расстояний для разных элементов, то есть для величин $\delta_i (\sigma)$ и $\delta_j (\sigma)$ .

\align{ \var \delta_j (\sigma) &= \frac{1}{n} \sum\limits_{i=1}^n (i-j)^2 - \left( \frac{1}{n} \sum\limits_{i=1}^n |i-j| \right)^2 = \\ &= \frac{1}{n} \Biggl( 2 \binom{j}{3} + \binom{j}{2} + 2 \binom{n-j+1}{3} + \binom{n-j+1}{2} \Biggr) - \frac{1}{n^2} \Biggl( \binom{j}{2} + \binom{n-j+1}{2} \Biggr)^2 =\\[0.4em]&= - \frac{j^4}{n^2} + \frac{2j^3}{n} - j^2 + \frac{n^2}{12} + \frac{2j^3}{n^2} - \frac{3j^2}{n} + j - \frac{j^2}{n^2} + \frac{j}{n} - \frac{1}{12} }

Ковариацию придётся вычислять через разбиение суммы

\align{ \cov \bigl( \delta_i (\sigma), \delta_j (\sigma) \bigr) &= \frac{1}{n \, (n-1)} \sum\limits_{\substack{1 \;\! \le \;\! k, l \le n\\[0.4em]k \;\! \neq \;\! l}} |k-i| \cdot |l-j|\\[0.8em]&= \frac{1}{n \, (n-1)} \Biggl( \sum\limits_{k=1}^n \sum\limits_{l=1}^n |k-i| \cdot |l-j| - \sum\limits_{\ell=1}^n |\ell-i| \cdot |\ell-j| \Biggr) =\\[0.8em]&= \frac{1}{n \, (n-1)} \Biggl( \sum\limits_{k=1}^n |k-i| \cdot \sum\limits_{l=1}^n |l-j| - \sum\limits_{\ell=1}^n |\ell-i| \cdot |\ell-j| \Biggr) }

Давайте введем величину $T(i, j)$ , характеризующую совместную удалённость элементов массива от двух фиксированных элементов $i, j$ .

T(i, j) = \sum\limits_{\ell=1}^n |\ell-i| \cdot |\ell-j|

$T(i, j) = T(j, i)$ , поэтому можно предположить, что $i > j$ , разбить отрезок суммирования на $3$ подотрезка, раскрыть модули в каждом подотрезке и найти представление $T(i, j)$ :

\align{ T(i, j) &= \bigl( |i-j| + 1 \bigr) \cdot \binom{\min\limits(i,j)}{2} + 2 \binom{\min\limits(i,j)}{3} +\\[0.8em]&+ \bigl( |i-j| - 1 \bigr) \cdot \binom{|i-j|}{2} - 2 \binom{|i-j|}{3} +\\[0.8em]&+ \bigl( |i-j| + 1 \bigr) \cdot \binom{n - \max\limits(i,j) + 1}{2} + 2 \binom{n - \max\limits(i,j) + 1}{3} }

Далее, посчитав значение сумм

\sum\limits_{k=1}^n |k-i| = \binom{i}{2} + \binom{n-i+1}{2} \quad\text{и}\quad \sum\limits_{l=1}^n |l-j| = \binom{j}{2} + \binom{n-j+1}{2}

выражаем ковариацию

\align{ \cov \bigl( \delta_i (\sigma), \delta_j (\sigma) \bigr) &= \frac{1}{n \, (n-1)} \Biggl( \sum\limits_{k=1}^n |k-i| \cdot \sum\limits_{l=1}^n |l-j| - \sum\limits_{\ell=1}^n |\ell-i| \cdot |\ell-j| \Biggr)\\[0.8em]&= \frac{1}{n \, (n-1)} \Biggl( \Biggl( \binom{i}{2} + \binom{n-i+1}{2} \Biggr) \cdot \Biggl( \binom{j}{2} + \binom{n-j+1}{2} \Biggr) - T(i, j) \Biggr) }

Нужны все эти страшные формулы для расчёта дисперсии $\var D(\sigma)$

\var D(\sigma) = \sum\limits_{j=1}^n \var \delta_j (\sigma) + 2 \sum\limits_{1 \;\! \le \;\! i < j \le n} \cov \bigl( \delta_i (\sigma), \delta_j (\sigma) \bigr) = \frac{n^4}{9} - \frac{13}{180} n^3 - \frac{8}{45} n^2 + O(n)

Многочлен получен подставлением асимптотических оценок для всех компонент суммы. Если очень надо, можно подставить все формулы и посчитать точное значение дисперсии. В $O(n)$ , кстати, скрыто что-то около $0.4 n + 0.3$ .

\dev D(\sigma) = \sqrt{\frac{n^4}{9} - \frac{13}{180} n^3 - \frac{8}{45} n^2 + O(n)} = \frac{n^2}{3} - \frac{13}{360} n + O(1)

Можем заключить, что полное расстояние перемещения $D(\sigma)$ распределено в соответствии с

\min\limits = 0 ,\quad \ave = \frac{n^2-1}{3} ,\quad \max\limits = \left\lfloor \frac{n^2}{2} \right\rfloor ,\quad \dev = \frac{n^2}{3} - \frac{13}{360} n + O(1)

Анализ величины $D(\sigma)$ показывает, что для эффективного метода сортировки вставками необходим механизм, который позволил бы перемещать элементы большими скачками.

Такой механизм предложил Дональд Льюис Шелл в 1959 году. На основе этого механизма построена сортировка Шелла.

Основная идея — разбивать элементы на пары так, чтобы расстояние между элементами в одной паре было равно степени двойки.

Сортировка вставками

Метод простых вставок

Бинарные и двухпутевые вставки

Двухпутевые вставки

Блочные вставки

Сортировка Шелла