после Пи-кодирования Rar не сжал текст лучше чем в 2 раза как я надеялся.. пришлось думать как бы еще сжать. При пи-кодировании слова заменяются на их номер в словаре, поэтому частота встречи слова в тексте не такая как частота букв и похожих блоков меньше, первая идея была убирать самые частые, через адресные ряды - ищем все адреса этого символа и пакуем этот ряд, а из общего массива убираем. Потом выснилось: начинать надо с редких, а последний частый - это просто повторение Min - кодируется двумя числами, и наконец, что надо не символы, а блоки искать, сначала самые длинные с редких к частым, потом короче и в конце по одному числу. но дело это долгое.. Так вот адресный ряд rar вообще отказался сжимать, 256 чисел 0..3000 сжал в 400+ байт, а у меня уже тогда был формат p78 который тоже самое сжал в 386!. Формат простейший 7 бит +1 бит флаг продолжения +8 бит. Числа меньше 128 занимают 1 байт, а 128..32к+128 2 байта. Это был мой первый безразмерный формат. (а самый последний метод сжал эти 256 чисел в 296 байт) В чем же секрет? В том, что для слабоповторных рядов все используют коды Хаффмана, и ими убирают экспонециальность в информационных рядах. Долгое время считалось что это вершина минимизации избыточности, но тут появился я и доказал что уже существует 4 метода которые это делают намного лучше.. :) Xing Soft 2015(с) при перепечатке ссылка на первоисточник обязательна. Где-то возможны повторения - писал долго и кусками.Обозначения в этой научной статье. (могут отличаться от общепрятых)
Контрольный ряд - 256 чисел от 3 до 2980 - (это отн. адреса i-слова в тексте из 70+ тыс слов, рар/зип его сжал в 412, арифм кодер в 391, мой метод3 в 298) Информационный ряд чисел - (инфо-ряд) массив чисел, с экп. распределением значений, если его отсортировать, то график - экпонента (геометрич. прогресия) Цепочка - массив 16 битных чисел. Комбо - упаковка ряда чисел от 0 до M-1 размером N=M. частота всех чисел = 1. например 50261734 пакуется в 8! (длинное целое число от 0 до 8!-1) Это множество - перестановка (побробней см. комбинаторика Ньютона,Эйлера) Комби - упаковка ряда чисел от 0 до M-1 без пропусков где числа могут повторяться, это мультимножество. Его можно преобразовать в цикл перестановки (ЦиклоП). и разложить на множество мелких комбо-циклопиков, которые иногда лучше LZ77 и вместо таблицы частот надо хранить длины и начала нес-х микро-комбо. но если хранить таблицу частот то для нее можно тупо пронумировать все возможные комбинации и это будет длинное целое число комби. восстановление однозначное, но восстановить по СДЧ перестановку не так просто и долго. 256-блок - инфо-ряд размером 256 (обычно 12 битные числа) 3+ -числа от 3х и больше (до максимума) Бит-поле/полоса - массив битов. числа только 0 или 1 Бит-ёмкость числа - сколько бит занимает число. "65" занимает 7 битов. Битовая полоса - бит поле флагов шириной 1 бит, длина=длине массива осн - основание системы исчисления 5(9) - число 5 по осн 9 Объём ёмкости - для 8 бит - объем 256 - сколько чисел влазит в эту ёмкость. Плотность ёмкости - уровень заполнения объёма числами (8бит 0-255)(средний/макс) СуперДлинное число(СДЧ) - цепочка байт из битов числа от длинной арифметики. (числа длиной больше 256 бит использовать нежелательно - считает долго) упаковка в СДЧ - умножение СДЧ на осн + число, где осн > числа БРЧ - безразмерные числа из метода 4. допустим идет сжатие по 256 блокам. а инфо-ряд можно разложить на табл. значений и перестановку мультимножества, если блоков мало, то это не выгодно, а если много и частоты блоков и таблицы значений почти совпадают, то можно хранить разницу между ними - тогда это уже выгодно. а перестановки каждого блока пакуем в комби, или в БРЧ если повторов мелочи сильно больше и график значений с изгибом. Про неравномерности. Лучше пройтись скользящим окном и посчитать средний и частоты, если различие больше 10% и редко, то разбить на куски и сжать разными методами, если разность частая, то сжимать кусками по 256/512/1024 байт. Почему проиграло кодирование слов? потому что словарь соответствия (слово=номер) включали в заголовок архива и его размер превышал выигрыш. а использование общего единого словаря 1)требовало чтобы у всех он был. (но его можно как часть архиватора сделать) 2)номера получались с промежутками - а это ни один алгоритм, кроме моих не может сжать эффективно - нужна таблица перекодировки в сплошной ряд чисел без пропусков, тогда адаптивный арифметик сожмет с учетом рейтинга слова, но таблица перекодировки тоже место занимает, хотя поменьше чем весь словарь соотвествия. Так что выигрыш получался мизер и про это забыли.. Почему проигрывает PPMd? потому что он думает что все числа это байты от 0 до 255 но это не так, в обычных текстах, больше 100 символов не используются а иногда не больше 40.. и если заменить пропущеные символы - самыми частыми словами (сделать микрословарь в заголовке) то небольшой выигрыш 3-7% будет. Идеальное сжатие оптимально надо переводить байты в биты+ 1+0..0 -это концовка. конечный бит=1 в последнем байте это признак конца цепочки битов, до конца заполняется нулями. длина_файла*8-длина_концовки=длина_цепочки_битов дальше считаем кол-во 0 и 1 и для этого мультимножества есть число(СДЧ) - номер этой комбинации для данных частот 0/1. потом это число снова сжимаем пока выгодно. кол-во сжатий -первое число. Запись чисел.(в формате р7*8) это 7 битные числа а в конце 8 битное. кол-во_итераций, кол-во_нулей,кол-во_единиц, длина СДЧ. сама цепочка(СДЧ) но нужна длинная арифметика - это долго. хотя можно использовать мат.сопроцессор, и графич ускоритель(там тоже есть возможность). в идеале нужен сопроцессор сжатия который будет аппаратно умножать 1024 битные числа. в нес-ко потоков. Почему проигрывает арифметик? если числа с пропусками и макс значение соизмеримо с длиной цепочки, например 51 2 33 44 3 5, то на диапазон отводится больше места чем самих чисел, можно сделать замену 51=1 33=4 44=6, но для таблицы значений часто нужно места больше, и в итоге только хуже. Еще большинство арифметиков настроены на байтовый вход и числа 0-255. Это неправильно, если найти максимум и настроить макс_число_сиволов=макс+1, то результат будет лучше. Так же выгодно находить минимум и вычитать из всех чисел. макс и мин - сохранять в начале архива - обычно это выгодно. Символ "конец текста" иногда выгоднее просто заменить размером цепочки - он тоже занимает место в Диапазоне(range), а при мелких числах 0-5 это уже заметно. Для блочного или потокового входа (мпег видео, интернет, сети) длина цепочки мала, а значения чисел соизмеримы с ней, поэтому все классические методы энтропийного сжатия обычно хуже. Но если файл есть целиком и данных много, то возможны варианты и комбинации: сделать замену по значениям, убрать пропуски чисел и сжать арифметиком, Но если числа 16 битные и малоповторные, график экспонента, а длина меньше 64к, то методы 1-4 - обычно лучше чем коды Хаффмана и др. алгоритмы. Можно ими дожимать выходы других методов, выход гиф ппмд жмет в 1.5 раза лучше чем родной код с переменной длиной - так что есть куда улучшать. Арифметик расчитан на числа без пропусков, но в жизни они с пропусками и экспотенциальные, но если разбить на участки по схеме: массив-ведущие 0-размер емкости q1, 1-размер ёмкости q2 , 2+ это коэф деления на ёмкость q3 минус ёмкости q1+q2 (туда не влезло) дальше идут 3 массива с макс1 макс2 макс2 - сжимаем все 4 массива арифметиком с макс знач для каждого свой. длину знаем. - символ конец потока не нужен - тоже экономия диапазона. лучше использовать битовое поле вместо массива байт-удобней. и указывать точную длину: 2 байта 64кБит=8кБайт макс длина Файл целиком качать по сети невыгодно - лучше сначала скачать начало, распаковать и оставить на диске поврежденный, посмотреть что там реально, может там спам какой - на файлообменниках всякое бывает, верить нельзя. Поэтому 7z мертвый формат и интерфейс так себе, и выбирать самому надо, много минусов, поэтому пока оптимальный это RAR и он распространен в РФ. Далее рассматриваются только инфо-ряды: частые-мелкие, редкие-крупные, значения чисел с пропусками, с частотами не больше 10 на 256 блок. в отличие от кодов Хаффмана методы 1-4 имеют много вариантов и большой выбор параметров - в зависимости от значений чисел, кривизны экспоненты, и какую долю занимают нули (тогда методы с отсрочкой или разделение бит-полосой, что фактически тоже самое) Линейные данные сжать можно при Max<N - можно попробовать апроксимировать прямой, иногда сжать можно, если таблица поправок не сильно большая. Для кучи частых чисел метод 3 хуже арифм. кодирования на 5%, остальные на 10+%, если макс знач ряда меньше его длины то арифм кодирование лучше - но если больше и мало повторов то арифм,lz* намного хуже. и даже rar/7z и прочие. Метод 1. Метод максимальных выемок с рекурсией. пусть даны числа: как видно из графика, их ёмкость это экпонента. 000000 если их хранить 6 бит/число то это 48_бит 000001 теперь ищем максимальную выемку нулей сверху слева 000001 это прямоугольники 4х5 5х4 6х3 макс=20 000001 теперь разделяем массив на 2 части битовой полосой 000010 половина чисел 1 бит *4 другая 6 бит *4 итого 28 бит+ 8 бит 000111 флаги и число 1(8) - экономия на 30% 001001 Далее продолжаем с этими половинками рекурсивные выемки 101101 пока это выгодно. Когда экп. приблизится к линии то служ. информация будет больше экономии, тогда ставим флаг-конец деления и выход. В реале используется не двоичная, а длинная арифметика, числа-разделители входят в массив и запоминаются по осн(макс+1) + позиция, но можно запоминать как уровень локализованной экпоненты F(макс,средний). Длины запоминать не надо - это кол-во 0 или 1 от предыдущей бит-полосы, а длина первой всегда 256. а выход LZW жмет лучше чем переменные коды в GIF на 10+% Это брат близнец 2х каскадного метода - быстрее, но хуже. Но обоим нужны малоповторные эксп. данные. где макс. соизмерим с длиной. С другими к PMD. Метод 2. Метод с плавающими основаниями. У каждой экпоненты есть линейный участок от 0 до 1/3 примерно, который смело можно отделить и сжать по осн(макс1+1). далее вычитаем макс1 из всех оставшихся чисел и применяем метод каскадного деления(метод 3) одно или реже 2х каскадный(обычно выигрыш мизер) эти 2 числа ищем методом перебора и поиска максимального сжатия. эта функция имеет нес-ко минимумов и найти оптимальный быстро нельзя. (но здесь используется обобщение, а сейчас нейронные сети достаточно продвинулись и их можно использовать для поиска, прогноза и построения статистических моделей в том числе) этот метод показал 306 байт для контрольного ряда 256. Бит-поле бывает выгодно упаковать в инфо-ряд и еще сжать методами 1-4 арифметик его тоже жмет неплохо, если разница частот "0" и "1" 30+% Метод 3. Метод каскадного деления с отсеиванием. на сегодня этот метод показал самые лучшие результаты (298_байт) есть три разновидности: одно- 2х и многокаскадный. Графически - это метод апроксимации экспоненты секущими с углом наклона К1, К1*2, К1*3 итд. К1-это переломочное число. это удивительно, но даже апроксимация полиномами Чебышева-Лежандра даёт, больше служебной информации, хотя может кто нить придумает как уменьшить её. к тому же есть Хана, Мейкснера, Кравчука и Шарлье (Классические ортогональные полиномы дискретной переменной.-М.Наука 1985 216с) - эти я не пробовал. алгоритм такой: 1.делим все числа инфо-ряда на К1 (подбор от 2 до Макс-1) остатки пакуем по осн К1 в СДЧ , а ряды коэф-тов в БРЧ. Считаем выгоду - если есть - фиксируем рез-т, если нет - откат назад и выход. при однокаскадном, числа больше не ищем - это связано с тем, что потом из этих чисел формируется новый массив длиной 1хT где Т- кол-во частей если по 32 то это 8 32*8=256. плюс также минимумы частей тоже вычитаются и входят в этот массив. итого 16 чисел. при 2х каскадном это 24 числа. а при многокаскадном нужно запоминать еще длину каскадов для каждой части, что часто уже невыгодно. Для двухкаскадного делим инфо-ряд битовой полосой, нули удаляем, уменьшаем все числа на 1. остатки пакуем в общее супердлиннное, а коэф-ты делаем текущим инфо-рядом, и переход к 1. при 2х каскадном ищем только 2 числа, а при многокаскадном ищем до упора и возвращаем массив произвольной длины. на выходе общая бит-полоса, общее СДЧ, но для каждого микро-блока свои q1, q1q2, qq() числа - их накапливаем в массив и в конце пакуем методами 1-4 как выгодней. выбор отражаем флагами в служебном БРЧ. бит полосу жмём тоже и запоминаем вначале блока- для распаковки. Метод 4 . Безразмерные числа Хинга.
По научному это называется - энтропийное сжатие. -избыточность убираем. у кодов Хаффмана выбор ограничен и привязка к длинам алфавита - у меня длина любая, и выбор большой, выбираем быстро из N вариантов. (наиболее ходовые) (в очень редких случаях коды Хаффмана лучше на нес-ко бит (0.1%) Если частота чисел не по порядку возрастания значения, то частотная замена обязательна! например число двоек больше чем 1 - меняем 1 и 2 местами и запоминаем это. Этот метод для сохранения мелких чисел (средний меньше 16) - если больше, то выгоднее каскадно разделить и отсеить нулевые. А если адаптивное арифм кодирование и пр. может эту мелочь лучше сжать - то лучше ими сжимать, но разница не лучше 10%. фактически это метод 3 по осн 2^N для уменьшения служ. инф. которая в мелких рядах играет ну очень существенную роль. чуть лишний бит и сразу хуже на 20+% можно конечно делать словарь - и менять большие числа на маленькие номера в словаре, но вот только когда больших чисел много а их частота мала, то это совсем не выгодно! Иногда надо сохр. число, а его размер неизвестен, тут помогут БРЧ. хотя он и требует больше бит на число, но за счет того что маленьким числам нужно меньше бит, а большим больше, а всё в этом мире имеет экп. распределение, в том числе и расположение слов в тексте (и видео/фото тоже, про звук не знаю) то в итоге всё равно бит будет потрачено меньше, чем для фикс. длины или для 2 бита - на длину длины, 1-4 бита для длины и 1-16 бит для числа. (но иногда и такие инфо-ряды бывают, редко правда, но надо иметь ввиду и этот формат) также можно использовать БРЧ для длины числа в битах. Еще выгодней хранить не степень 2 а степень Экспоненты=2.72 или 3 а паковать в СДЧ по любому осн. Пра-родитель этих чисел - число б/р100 1b=0d 01b=1d 001b=2d 0001b=3d (сколько нулей такое и число, в конце всегда 1) Это безразмерные числа - их можно писать друг за другом, без указания длины. Конец это всегда 1, но если ограничено длиной 4, то 0000'01 это 4 и 1 Упаковка в СДЧ : пихаем 0(2) N раз и 1(2) - признак конца числа, извлекаем из СДЧ по осн 2 если 0 - сч++ 1-конец. на выходе сч=число. можно биты просто двигать - это быстрее, чем длинная арифметика. Кроме двоичных чисел можно использовать числа Фибоначи (след число равно сумме двух предыдущих - пишут что они имеют такие свойства, но я не проверял) Далее б/р100 делится на 3 большие класса : 1 класс ведущее б/р100 + N бит к б/р100 еще доп бит или два или 3+. Длина такого числа будет на 1-2-3+ бит больше но и вместимость выше. 1.1 подкласс - с отсрочкой - биты добавляются не сразу а начиная с некоторого числа, обычно 1=0 без доп. бита а дальше 01+1 001+1, в случае где море нулей а остальных чисел умеренно много, то этот формат лучше других. 1.2 подкласс с ограничением - длина ведущего б/р100 ограничена - см. выше. 2 класс ведущее б/р100 + F(N) бит/осн обычно арифм прогр с шагом 1. 1+0 01+00 001+000 (добавляем биты с нарастающей) или шагом 2/3+ 1+00 01+0000 001+000000 +2 +4 +6 другой вариант удваивание 1+0 01+00 001+0000 0001+00000000 +2 +4 +8 бит третий вариант табличный 1+q1 бит 01+q2 бит итд - похож на метод 2 немного. отсрочка и ограничение также есть и здесь. Не обязательно 2^N формат, можно использовать плавающее основание и длинную арифметику. (но для скорости обрабатывать блоки по 256 байт, порядок такой : как только длина супердлинного выше 256*8 бит - записываем его в файл и начинаем с 0) например для 58 ведущее 0001, Vexp(1)+Vexp(2)+Vexp(3)+Vexp(4)= пакуем по осн exp(4)=55 но объемы предыдущих уровней вычитаются из числа. 58-3-8-21=26(55) ведущее можно упаковать в то же супердлинное - N(0(2))+1(2)-end или числами фибоначи(не пробовал не знаю, может и выгоднее) но в общем случае лучше разбить их на бит-поля по принципу длина первого бит поля равна длине инфо-ряда, а длина второго кол-ву единиц в первом бит-поле и так далее. Дальше это бит-поле можно сжать т.к там много 0..0, 1..1 блоков которые можно заменить на числа, (например LZW методом) сделать частотную замену и еще сжать на 10+%. (но как показали опыты лучше оставить эти биты в массиве в виде маркера=макс+1 или все числа++ а маркер=0 - так в итоге выгоднее выходит) Ведущее можно раскидать по самим группам - сам алгоритм его найдет. например ведущее -огр 1 бит, формат p78 числа 0-127 7бит, 8й бит это ведущее/флаг: 0-нет продолжения, 1-есть. и след 8бит+ 7бит от прежнего для 128-32к+128 чисел. Лучше в первом сохр ст.7 бит + флаг, а мл. в след. 8 бит. Этот формат выгоден если сумма частот чисел 0-128 больше чем для 128+ и что самое главное сохраняется байтовая сгрупированность данных- что очень важно для PPMd - он оптимизирован для 8 битных чисел, большие не работают - массивы байтовые, а меньшие можно, но рез-т похуже из-за того что эмпирические коэф-ты расчитаны на диапазон 0-255. Еще один формат p3334 - здесь ведущее огр. 3 бита для каждого полубайта 4й бит это флаг продолжения а 3 бита данные, в последнем 4 бита для данных. в 16 бит влазит всего 8к+512+64+8 чисел, но в обычном тесте больше разных слов не бывает, и за счет _меньшей_ служ. информации этот формат лучше кодов Хаффмана если частоты распределены по экспоненте (а в тексте это так) Для сравнения 77тыс 12 битных пи-кодов текста без одиночек и не слов: 87400 байт в формате p3344 - скорость на уровне копирования. 82900 байт в формате ведущее+N бит шаг 1, очень быстро. 84200 байт - метод1 (максимальных выемок по блокам по 256, быстро) 92200 байт сжал рар (который использует PPMd+анализ+парсер) 91200 байт Zip и gzip-который потоком жмет трафик интернета. 95600 байт динамич Хаффман(FGK алгоритм) (и медленнее в 100 раз) 93750 байт классический Хаффман (от Мастрюкова) 92700 байт адаптивный Арифметик (от Мастрюкова) lzss/lzw от него же, больше 110к - намного хуже. худшие результаты еще из-за того что архиваторы не знают что это 12 битные числа в 16 битном формате, поэтому жмут их как байты, чистый арифметик 12 битные числа сжал в 84500 но медленнее в 100 раз. 77400 байт PPMd от Шкарина (7z-также, но надо качать весь архив) а после преобразования в формат p78+PPMd 73990 байт - это по сравнению с gzip на 20% лучше и он поточный тоже - часть скачал-часть текста увидел. а за счет того что словарь не передается в каждом архиве, а в самом декодере и кодере (540 тыс слов - в порядке интернет рейтинга в формате p7778) обычно 99% текста это 5 тыс слов - 1/2 байтовый пи-код -номер слова в словаре. HTML еще можно почистить - удалить все коменты, лишние пробелы и теги /TD/TR- они лишние, так же можно удалить скрипты и стили если в браузере они отключены и в запросе есть указание их не принимать. Также можно сделать автозамену по словарю пи-синонимов заменить сленг, опечатки и ошибки на правильные слова. Сменить кодировки UTF/Unicode/DOS/KOI на win1251 (экономия до 7+%) Заменить все знаки препинания на теги (это еще 10+% за счет того что перед точкой и запятой надо вставлять пробел(потом декодером убрать) и следующее слово начинать с маленькой буквы(слово. Слово -> слово . слово ) это повышает кол-во одинаковых слов/блоков а декодируется однозначно, но если слово после точки не начиналось с заглавной, то вставляется управляющий пи-код который принудительно начнет слово с нужного регистра (подробней см. документацию) В итоге текст 440к сжатый gzip в 120к, будет сжат пи-кодером+p78+PPMd в 80к без потери информации, в 60к с потерей - удаление мусора с сохр. смысла. А если поточность и скорость не важна то в 40к за счет поиска оптимальных блоков и адресных выборок - это медленно, но выгодно. т.в в 2-3 раза! (Демо прогу можно посмотреть здесь, работает пока медленно и словарь бета) 3 класс - это класс 2 без ведущего, но есть в конце маркер: все единицы 1111 но из-за этого в остальных ячейках его не можем использовать 000+010+110+001+111 отсрочка и ограничения тоже есть и для этого класса. при некотором распределении частот этот класс бывает лучше, но редко. БРЧ фактически это однокаскадное деление на 2^N +б/р100 и в общем случае можно всегда найти переломочное число получше, но его запоминать надо, а здесь просто номер метода по осн 32 фикс. 5 бит. но если числа распределены равномерно в диапазоне 0..2^N-1 то есть метод 0 это просто фикс. бит на число - но доп. надо запоминать кол-во бит и длину! (а запоминание длины очень невыгодная операция и требует много доп.места) БРЧ ещё можно представить как набор бит-полос 256х1-бит первая + кол-во "1" это длина след. бит-полосы и так далее. такие бит-поля можно еще доп.сжать. БРЧ это не метод, это способ хранения чисел, ничего считать не надо, доступ произвольный - адрес 1го бита это сумма длин всех предыдущих, для скорости можно временно в ОЗУ развернуть таблицу адресов через 10/100 и пр. Это всяко быстрее чем zip папки от MicroSoft, а сжатие чуть лучше в целом. Почему проигрывают коды Хаффмана Безразмерные числа прожорливы в плане хранения, фиксированный формат в этом плане экономичный и для равномерных чисел оптимальный. БРЧ Хинга это гибрид безразмерного и фиксированного формата, для обозначения диапазона чисел используется одно БРЧ (ведущее слово) - в этом экономия. Как выбрать оптимальный формат БРЧ? допустим если числа, в квадр. скобках их частота. 0-[100] 1 1 +0 1-[70] 01 1 +1 2-[10] 001 01 +0 (минус объемы от предыдущих емкостей) 3-[5] 0001 01 +1 4-[0] 00001 001+1 (минус объемы от предыдущих емкостей) для БРЧ 100 надо 100*1+70*2+10*3+5*4=290 бит но если тратить не одно БРЧ на одно число, а на группы 1,2 и 3,4 то служебная информация будет 1*170+2*15=200 бит +185 бит на данные = больше. для кол-ва разных чисел кратных 2^N ситуация другая чем для остальных. для 1-3 БРЧ100 всегда лучше чем фиксированно по 2 бита на число, т.к заполнение объема 4 емкости 2 будет 3/4, даже для равномерных чисел, лучше только арифметик или паковать в СДЧ длинной арифметикой. - это дольше, но иногда лучше. для 1-5 уже возможны варианты: 0-[100] 1-[90] 2-[85] 3-[70] 4-[50] 1185 фикс 3бита/число, 1065 БРЧ100, 1045 БРЧ101 За счет чего получился выигрыш? при БРЧ100 на число "4" служебное слово занимало 5 бит и 250 бит всего, в БРЧ101 3 бита и 150 бит всего - выиграли 100 бит, но из-за групировки потеряли на "0" +100 бит, но на "3" снова выиграли +70 100*1+90*2+85*3+70*4+50*5= 1065 (100+90)*2+(85+70)*3+50*4= 1045 (а с ограничением это еще -50 бит) по сложным формулам можно вычислить сразу без перебора по таблице частот, какой метод лучше , а затем сжать им - номер метода это первый байт 0-255. пока есть 25 форматов, но потом можно добавлять самые ходовые - их много. выгода БРЧ при количествах разных чисел не кратных степени 2 бывает 30+% лучше только длинная арифметика но она намного дольше считает.. Ещё формат 00 01 10 11+00 11-флаг продолжения числа в след 2х битах (100+90+85)*2+(70+50)*4=1030 бит + еще есть место для 2х чисел 11+10 11+11 так что от частотного распределения нужно выбирать самый выгодный формат. Блоки чисел по 2..5 тоже надо считать, если частота 1_2_3 выше чем у 7 то 7 кодируем бО'льшим числом а блок 1_2_3 числом по порядку частотной замены. Это и к буквам и к словам относится со знаками препинания и разделителями.. Так как имеет место много паралельных независимых вычислений то лучше этот кодер сделать аппаратным в виде сопроцессора делающим одновременно N делений и сравнений. тогда будет быстро сжимать - почти мгновенно. Так же неплохо использовать облачные нейронные сети которые будут через сервер обмена общаться между собой и обмениваться накопленным опытом, тогда по графику значений и частотам будет выбираться нужный метод на основе обобщения, предсказания и накопленного опыта. ----------------------- Графический метод сжатия эксп. ряда. 1. считаем частотное распределение и кол-во символов всего. символ это 8 бит число - байт или 2-N группа байтов с частотой больше суммы частот этих символов по отдельности(?) 2. замена символов на числа по схеме: локальная - таблица замены в заголовке архива. глобальная (встроены в архиватор-одна для всех) легкий хтмл, 5% тегов и лат букв тяжелый хтмл 5-40% смешанный 40%-60% латинский больше 60% невыгодно сжимать - равномерно распределены все 0-255 числа. 3. строим график -если это экпонента, то в зависимости от крутизны разбиваем на 2/4/8/16/N блоков равных по объему занимаемое емкости- емкость чисел*кол-во в блоке - например 100 чисел 0-31 5бит*100=500бит. числа каждого следующего блока надо уменьшать на минимум этого блока- он равен макс+1 предыдущего блока. - это немного экономит место и однозначное восстановление. и в блоке числа будут от 0 до N-СУММА(Ёi) i=0..N-1 внутри блока числа условно равномерные - их можно сжимать по основанию макс+1 в СДЧ или сохр по битам если близко к степени двойки 32-64-128 итд можно сжимать арифметиком- он повторы и небольшую эксп. сожмет ещё. Ведущие числа можно сжать в БРЧ при сильной неравномерности. или арифметиком, или PMD.. (кто ниче не понял, значит не дано..) Кстати планшет я изобрел в 2003 году, потом идею свиснули. Следующее моё изобретение будет "Искуственный разум".. (шутка) ну а пока я ищу удаленную работу/подработку в хорошей фирме. побробности у меня сайте. explay-m3.narod.ru с VB6 перехожу на Java, PHP, C# (на С++ вряд ли. там много лишнего) на VС+ оказалось удобней DLL-с flat-asm писать - там отличный отладчик. Xing октябрь 2015г при перепечатке ссылка на первоисточник обязательна.