Алфавитное кодирование

Алфавитное кодирование — вид кодирования слов некоторого алфавита при помощи замены каждой буквы некоторым словом того же или какого-либо другого алфавита^[1]. Основоположником этого направления в России^{[прояснить]} считается математик из Нижнего Новгорода Александр Александрович Марков^[2]. В алфавитном кодировании преимущественно используются^{[прояснить]} префиксные коды, так как свойство префикса гарантирует однозначную декодируемость^[3].

Описание

Пусть заданы конечный алфавит (множество) $A=\left\{a_{1},a_{2},...,a_{n}\right\}$ и конечный алфавит $B=\left\{b_{1},b_{2},...,b_{m}\right\}$ .

Схемой^[4] алфавитного кодирования называется отображение $\Sigma :A\to B^{+}$ , где $B^{+}$ — множество всех непустых слов алфавита $B$ . Слова $\beta _{1}=\Sigma (a_{1}),\ldots ,\beta _{n}=\Sigma (a_{n})$ называются элементарными кодами схемы $\Sigma$ . Множество слов $\{\beta _{1},\ldots ,\beta _{n}\}$ называется кодирующей системой слов. Алфавитным кодированием называется отображение $\sigma :A^{*}\to B^{*}$ , определяемое следующим образом:

\sigma (a_{i_{1}}\ldots a_{i_{r}})=\Sigma (a_{i_{1}})\ldots \Sigma (a_{i_{r}})

^[1]

Слово $\beta =\sigma (\alpha )$ называется кодом слова $\alpha \in A^{*}$ ^[5]. Также термином «код» часто обозначают множество всех элементарных кодов^[5]. Иногда кодируемый алфавит считают упорядоченным и кодом называют кортеж из соответствующих элементарных кодов. Такой код может содержать повторения и, по сути, полностью определяет алфавитное кодирование^[6].

Термином побуквенное кодирование некоторые авторы называют схему алфавитного кодирования^[7], а некоторые само алфавитное кодирование^[8].

Взаимо-однозначное кодирование

Алфавитное кодирование $\sigma$ называется взаимо-однозначным, если у отображения $\sigma$ существует обратное^[9]. Также используются термины разделимый код^[7] и однозначно-декодируемый код^[10].

Равномерное кодирование

Простейший пример взаимо-однозначного алфавитного кодирования — равномерное кодирование. Равномерное кодирование — такое алфавитное кодирование, при котором элементарные коды для разных символов $a$ различны и имеют одинаковую длину^[5]. Минимальная длина элементарных кодов при равномерном кодировании для заданных кодируемого алфавита $A$ и кодирующего алфавита $B$ равна $\lceil \log _{m}n\rceil$ , где $n=|A|,m=|B|$ ^[11].

Равномерное кодирование за счёт использования слов одинаковой длины позволяет очень легко декодировать слова, а также легко находить нужную позицию оригинального слова в закодированном слове. Однако такое кодирование может быть довольно неэкономичным, многие неравномерные кодирования позволяют получить более короткие коды для тех же слов^[12]. Примеры равномерных кодирований в информатике: ASCII, UTF-32.

Префиксное и постфиксное кодирование

Алфавитное кодирование называется префиксным, если для него выполняется следующее условие, называемое (прямым) условием Фано: для любых двух символов кодируемого алфавита ни один из их элементарных кодов не является префиксом другого^[10].

Алфавитное кодирование называется постфиксным, если для него выполняется следующее условие, называемое обратным условием Фано: для любых двух символов кодируемого алфавита ни один из их элементарных кодов не является постфиксом другого^[13].

Префиксное и постфиксное кодирование являются взаимо-однозначными^[13]. Равномерное кодирование является частным случаем как префиксного, так и постфиксного кодирования. Префиксный код называется полным, если для каждого префикса элементарного кода $b_{i_{1}}\ldots b_{i_{k}}b_{i_{k+1}}$ и для каждого символа $b\in B$ существует элементарный код с префиксом $b_{i_{1}}\ldots b_{i_{k}}b$ . Постфиксный код называется полным, если для каждого постфикса элементарного кода $b_{0}b_{i_{1}}\ldots b_{i_{k}}$ и для каждого символа $b\in B$ существует элементарный код с постфиксом $bb_{i_{1}}\ldots b_{i_{k}}$ ^[14].

Если для набора длин $l_{1},\ldots ,l_{n}$ существует взаимо-однозначное алфавитное кодирование со схемой $\Sigma \colon A\to B^{+},|A|=n$ , элементарные коды которого $\beta _{i}=\Sigma (a_{i})$ имеют указанные длины, то есть $l_{i}=|\beta _{i}|$ , то тогда существует префиксное (постфиксное) кодирование, элементарные коды которого имеют указанные длины. Поэтому, задачу о существовании взаимо-однозначного кодирования с заданными длинами элементарных кодов можно свести к задаче о существование префиксного (постфиксного) кодирования с заданными длинами элементарных кодов^[15].

Примеры префиксных и постфиксных кодов (одновременно) в информатике: UTF-8, UTF-16.

Кодовое дерево

Для префиксных (постфиксных) кодов существует способ представлять их графически в виде дерева. Такое дерево называется кодовым деревом. Каждой дуге дерева приписывается символ кодирующего алфавита, причём из одной вершины может выходить только одна дуга с определённым символом. Такое дерево задаёт множество элементарных кодов префиксного (постфиксного) кодирования следующим образом. Каждой листовой вершине соответствует элементарный код, который определяется по пути от корня до этой вершины: он получается приписыванием символов дуг этого пути от корня до листа (от листа до корня). Каждый префиксный (постфиксный) код можно представить в виде такого дерева и каждое такое дерево задаёт префиксный (постфиксный) код. Схема кодирования (а значит и само алфавитное кодирование) задаётся приписыванием к каждой из листовых вершин соответствующего символа кодируемого алфавита^[16].

Вершины кодового дерева, по сути, соответствуют префиксам (постфиксам) элементарных кодов, который можно получить тем же способом, что и элементарный код, соответствующий листовой вершине. Корневой вершине соответствует пустое слово.

Неконцевая вершина кодового дерева называется насыщенной, если из неё выходит ровно $m$ дуг, где $m$ — количество символов кодирующего алфавита. Кодовое дерево называется полным, если каждая неконцевая вершина является насыщенной. Префиксный (постфиксный) код является полным тогда и только тогда, когда его кодовое дерево полно. Кодовое дерево называется насыщенным, если все неконцевые вершины насыщенные, кроме, возможно, одной, лежащей в предпоследнем ярусе дерева, количество дуг, исходящих из которой, равно $m_{0},2\leqslant m_{0}<m$ . Такая вершина называется исключительной. Если у насыщенного дерева нет исключительной вершины, то $m_{0}$ считается равным $m$ . $m_{0}$ однозначно определяется, по количеству символов алфавитов $A,B$ ^[17]^[18].

Критерий взаимной однозначности

Теорема, доказанная Александром Марковым, позволяет свести вопрос о взаимной однозначности кодирования всех слов алфавита $A$ к вопросу о взаимной однозначности кодирования некоторого конечного множества слов алфавита $A$ . Для её формулировки понадобится ввести предварительные обозначения:

$L$ — длина кода слова $a_{1}\ldots a_{n}$ , где $a_{1},\ldots ,a_{n}\in A$ — все символы алфавита $A$ ;
для каждого элементарного кода $\beta _{i}$ рассматриваются разложения вида $\beta _{i}=\gamma '\beta _{j_{1}}\ldots \beta _{j_{w}}\gamma ''$ , отличные от разложения вида $\beta _{i}=\beta _{i}$ , где $\beta _{j_{1}},\ldots ,\beta _{j_{w}}$ — другие элементарные коды, $w\geq 0$ , а $\gamma ',\gamma ''\in \mathbb {B^{*}}$ — произвольные слова в алфавите $B$ , отличные от элементарных кодов. Тогда $W$ определяется как максимум $w$ по всем таким разложениям.

Теорема Маркова в этих обозначениях формулируется так:

существует такое

N\leqslant \left\lfloor {\dfrac {(W+1)(L-n+2)}{2}}\right\rfloor

, что проблема взаимной однозначности кодирования сводится к проблеме взаимной однозначности кодирования слов, длины не более, чем N^[19].

В оригинальном докладе Маркова $N$ определялась следующим образом:

N={\dfrac {(L-n)(W+1)}{2}}-\delta (L-n){\dfrac {W-1}{2}}

,

где $\delta$ для чётных равна $0$ , а для нечётных $1$ ^[1].

Теорема позволяет алгоритмически решить проблему взаимной однозначности алфавитного кодирования простым перебором всех слов длины до $N$ , однако даже для довольно простых кодирований количество слов, которое нужно перебрать, может оказаться настолько огромным, что алгоритм будет неприменим на практике^[20].

Алгоритм проверки однозначности декодирования

Более эффективный алгоритм проверки взаимной-однозначности кодирования был сформулирован Марковым на языке теории графов.

Рассматриваются все разложения кодовых слов вида $\beta _{i}=\gamma '\beta _{j_{1}}\ldots \beta _{j_{w}}\gamma ''$ , отличные от разложения вида $\beta _{i}=\beta _{i}$ , где $\beta _{j_{1}},\ldots ,\beta _{j_{w}}$ — другие элементарные коды, $w\geq 0$ , а $\gamma ',\gamma ''\in B^{*}$ — произвольные слова в алфавите $B$ , отличные от элементарных кодов.
Строится ориентированный граф следующим образом. В качестве вершин берутся все слова $\gamma \in B^{*}$ такие, что $\gamma$ входит и в некоторое разложение в качестве $\gamma '$ , и в некоторое разложение (возможно другое) в качестве $\gamma ''$ . Также к множеству вершин обязательно добавляется пустое слово. Из вершины $\gamma _{1}$ исходит дуга в вершину $\gamma _{2}$ тогда и только тогда, когда существует разложение с $\gamma _{1}=\gamma ',\gamma _{2}=\gamma ''$ .
Алфавитное кодирование является взаимно-однозначным тогда и только тогда, когда построенный граф не содержит ориентированных циклов, проходящих через вершину, являющуюся пустым словом^[22].

Неравенство Крафта — Макмиллана

Для взаимо-однозначных кодирований выполняется Неравенство Крафта — Макмиллана:

\sum _{i=1}^{n}m^{-l_{i}}\leqslant 1

,

где $l_{i}$ есть длина элементарного кода $\beta _{i}$ ^[23]. Неравенство Крафта — Макмиллана является необходимым и достаточным условием того, что для $A,B$ и заданного набора длин $l_{1},\ldots ,l_{n}$ ( $l_{i}$ и $l_{j}$ могут совпадать для $i\neq j$ ) существует взаимо-однозначное (и даже префиксное) кодирование, для которого $l_{i}$ — длина элементарного кода $\beta _{i}$ ^[24].

Оптимальное кодирование

Пусть на кодируемом алфавите $A=\{a_{1},\ldots ,a_{n}\}$ задано распределение вероятностей, то есть каждому символу $a_{i}$ сопоставлено число $p_{i}\in \mathbb {R} ,p_{i}\geqslant 0$ так, что $p_{1}+\ldots +p_{n}=1$ . Средней длиной^[25] элементарного кода или стоимостью^[7] кодирования называется математическое ожидание длины элементарного когда:

l_{cp}=p_{1}|\beta _{1}|+\ldots +p_{n}|\beta _{n}|

Для заданных $A,B$ и распределении вероятностей $P$ на $A$ взаимо-однозначное кодирование называется оптимальным^[26] или кодированием с минимальной избыточностью^[11], если оно имеет минимальную среднюю длину элементарного кода среди всех взаимо-однозначных алфавитных кодирований $A^{*}\to B^{*}$ . Оптимальное кодирование существует для любых $A,B,P$ , и даже существует префиксное и постфиксное оптимальное кодирование. Пример оптимального префиксного кодирования для заданных $A,B,P$ — код Хаффмана^[26]. Некоторые авторы называют кодом Хаффмана любое оптимальное кодирование^[11].

Для двух символов кодируемого алфавита $a_{i},a_{j}$ таких, что $p_{i}<p_{j}$ , в оптимальном кодирование выполняется $|\beta _{i}\geqslant \beta _{j}|$ . В кодовом дереве оптимального префиксного кодирования вероятности символов кодируемого алфавита, приписанные листовым вершинам меньшего яруса не больше, чем вероятности символов, приписанные листовым вершинам большего яруса^[27]. Среди оптимальных кодов существует префиксный код с насыщенным кодовым деревом^[28].

Приведённым кодом называется оптимальный префиксный код, дерево которого насыщенно и $m_{0}$ листовых вершин, соответствующих $m_{0}$ минимальных вероятностей, присоединены к исключительной вершине (а если исключительной вершины нет, то $m_{0}=m$ таких листовых вершин присоединены к одной произвольной вершине предпоследнего яруса; она и будет считаться исключительной вершиной для приведённого кода). Среди оптимальных кодов существует приведённый код^[29].

Код Хаффмана

Идея построения кода Хаффмана строится на следующей теореме об оптимальных префиксных кодах. Для её формулировки нужно будет ввести дополнительные термины.

Пусть кодовое дерево префиксного кода $\sigma '$ получается из кодового дерева префиксного кода $\sigma$ следующим образом:

Берётся некоторая концевая вершина $\nu$ , к которой приписана вероятность $p$ .
К дереву добавляется какое-то количество новых концевых вершин, к которым ведутся дуги из $\nu$ .
Новым вершинам ставятся в соответствие некоторые вероятности $p_{1},\ldots ,p_{s}$ , удовлетворяющие условию $p=p_{1}+\ldots +p_{s}$ .

Тогда говорят, что префиксный код $\sigma '$ получен из префиксного кода $\sigma$ путём замены концевой вершины пучком рёбер^[30].

Если оптимальный префиксный код $\sigma '$ получен из префиксного кода $\sigma$ путём замены концевой вершины пучком рёбер, то код $\sigma$ — тоже оптимальный. Если префиксный код $\sigma '$ получен из оптимального префиксного кода $\sigma$ путём замены концевой вершины пучком из $m_{0}$ рёбер и вероятности добавленных вершин являются наименьшими вероятностями в дереве $\sigma '$ , то $\sigma '$ тоже оптимален^[31]. Это свойство позволяет сформулировать алгоритм построения оптимального префиксного кода:

Пока это возможно проводится замена списка вероятностей $p_{1}\geqslant \ldots \geqslant p_{n}$ на более меньший. Делается это так: на первой итерации берётся $m_{0}$ наименьших вероятностей и складывается, на последующих шагах берётся $m$ наименьших вероятностей и складывается. Затем, вероятности, использованные в сумме, убираются из списка, а полученная сумма добавляется в нужную позицию этого списка так, чтобы упорядоченность списка не нарушалась.
Когда вероятностей в списке осталось слишком мало, чтобы продолжать их замену, строится кодовое дерево префиксного кода для полученного списка вероятностей. Это дерево состоит из корня и листовых вершин; к каждой из листовых вершин проведена дуга из корня и каждой приписана одна вероятность из списка. Очевидно, это является оптимальным кодированием для нового списка вероятностей.
Далее замены списка вероятностей начинают выполняться в обратную сторону. При каждой итерации происходит замена листовой вершины, соответствующей заменяемой вероятности из списка, пучком рёбер, количество и вероятности новых концевых вершин которого соответствуют добавленным вероятностям в список.
Так происходит до того, как будет достигнут оригинальный список вероятностей. Кодовое дерево искомого оптимального префиксного кода построено^[32].

Код, полученный в результате этого алгоритма, называется кодом Хаффмана.

Примечания

↑ ¹ ² ³ Марков, 1960, с. 521.
↑ Дергач П. С. Алфавитное кодирование регулярных языков с полиномиальной функцией роста : [арх. 29 января 2023] // Московский государственный университет им. М.В.Ломоносова. Диссертация на соискание ученой степени кандидата физико-математических наук. — 2016.
↑ Корабельщикова С.Ю., Мельников Б.Ф. Максимальные префиксные коды и подклассы класса контекстно-свободных языков // Arctic Environmental Research. — 2015. — С. 121—129. — УДК 519.713.
↑ Яблонский, 2008, с. 257-258.
↑ ¹ ² ³ Яблонский, 2008, с. 258.
↑ Васильев, 1974, с. 211-212.
↑ ¹ ² ³ Чашкин, 2007, с. 180.
↑ Васильев, 1974, с. 211.
↑ Яблонский, 2008, с. 260.
↑ ¹ ² Поляков, 2012, с. 17.
↑ ¹ ² ³ Яблонский, 2008, с. 277.
↑ Поляков, с. 17.
↑ ¹ ² Поляков, 2012, с. 18.
↑ Чашкин, 2007, с. 182.
↑ Яблонский, 2008, с. 275.
↑ ¹ ² Яблонский, 2008, с. 278.
↑ Яблонский, 2008, с. 278-279.
↑ Чашкин, 2007, с. 181-182.
↑ Яблонский, 2008, с. 263-264.
↑ Яблонский, 2008, с. 268.
↑ Яблонский, 2008, с. 271.
↑ Яблонский, 2008, с. 268-269.
↑ Яблонский, 2008, с. 272.
↑ Яблонский, 2008, с. 274-275.
↑ Яблонский, 2008, с. 276.
↑ ¹ ² Чашкин, 2007, с. 183.
↑ Яблонский, 2008, с. 279.
↑ Яблонский, 2008, с. 280.
↑ Яблонский, 2008, с. 282.
↑ Яблонский, 2008, с. 282-283.
↑ Яблонский, 2008, с. 283.
↑ Яблонский, 2008, с. 285.

Литература

Яблонский С. В. Введение в дискретную математику. — 5-е изд. — М.: Высшая школа, 2008. — 384 с. — ISBN 978-5-06-005943-4.
Васильев Ю. Л., Ветухновский Ф. Я., Глаголев В. В., Журавлёв Ю. И., Левеншейн В. И., Яблонский С. В. Дискретная математика и математические вопросы кибернетика. Том 1. — М.: Наука, 1974. — 312 с.
Марков А. А. Об алфавитном кодировании : [арх. 29 января 2023] // Доклады Академии наук СССР. — 1960. — Т. 132, № 3. — С. 521–523.
К. Ю. Поляков. Ещё раз про однозначное декодирование (рус.) // Информатика : Журнал. — 2012. — 1 декабря (№ 11). — С. 16-20.
Чашкин А. В. Лекции по дискретной математике. — М., 2007. — 261 с.
Марков А. А. Вопросы взаимной однозначности и сложности в алфавитном кодировании : Автореф. дис. … д-ра физ.-мат. наук. — М., 1983. — 17 с.
Марков А. А. Кодирование алфавитное // Математическая энциклопедия. — М.: Советская энциклопедия, 1979. — Т. 2. — С. 935—937.

[_4fedf4fcdadb36fc-1] ¹ ² ³ Марков, 1960, с. 521.

[2] Дергач П. С. Алфавитное кодирование регулярных языков с полиномиальной функцией роста : [арх. 29 января 2023] // Московский государственный университет им. М.В.Ломоносова. Диссертация на соискание ученой степени кандидата физико-математических наук. — 2016.

[3] Корабельщикова С.Ю., Мельников Б.Ф. Максимальные префиксные коды и подклассы класса контекстно-свободных языков // Arctic Environmental Research. — 2015. — С. 121—129. — УДК 519.713.

[_5e52fe29050b9eca-4] Яблонский, 2008, с. 257-258.

[_2765e81c3441afeb-5] ¹ ² ³ Яблонский, 2008, с. 258.

[_193017dd5df7d60d-6] Васильев, 1974, с. 211-212.

[_67317fd101a65fe2-7] ¹ ² ³ Чашкин, 2007, с. 180.

[_a6a359a96d29f00d-8] Васильев, 1974, с. 211.

[_2765e91c3441b1b6-9] Яблонский, 2008, с. 260.

[_3e6f49fd8224e1ae-10] ¹ ² Поляков, 2012, с. 17.

[_2765ea1c3441b30e-11] ¹ ² ³ Яблонский, 2008, с. 277.

[_8bec8a08c5eaaaa1-12] Поляков, с. 17.

[_3e6f49fd8224e1a1-13] ¹ ² Поляков, 2012, с. 18.

[_67317fd101a65fe0-14] Чашкин, 2007, с. 182.

[_2765ea1c3441b30c-15] Яблонский, 2008, с. 275.

[_2765ea1c3441b301-16] ¹ ² Яблонский, 2008, с. 278.

[_97c68c1dd64804a4-17] Яблонский, 2008, с. 278-279.

[_aee938578396a92f-18] Чашкин, 2007, с. 181-182.

[_44b44f4ecdec636a-19] Яблонский, 2008, с. 263-264.

[_2765e91c3441b1be-20] Яблонский, 2008, с. 268.

[_2765ea1c3441b308-21] Яблонский, 2008, с. 271.

[_39ea619a05d61e30-22] Яблонский, 2008, с. 268-269.

[_2765ea1c3441b30b-23] Яблонский, 2008, с. 272.

[_fddf7c82f4a145ec-24] Яблонский, 2008, с. 274-275.

[_2765ea1c3441b30f-25] Яблонский, 2008, с. 276.

[_67317fd101a65fe1-26] ¹ ² Чашкин, 2007, с. 183.

[_2765ea1c3441b300-27] Яблонский, 2008, с. 279.

[_2765f31c3441c2b4-28] Яблонский, 2008, с. 280.

[_2765f31c3441c2b6-29] Яблонский, 2008, с. 282.

[_8450831134e6bbac-30] Яблонский, 2008, с. 282-283.

[_2765f31c3441c2b7-31] Яблонский, 2008, с. 283.

[_2765f31c3441c2b1-32] Яблонский, 2008, с. 285.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]