так как с рус. кодировкой намудрили 5 поколений програмистов и это большая проблема теперь, то предлагаю все рус тексты перед отправкой конвертировать в 32-127 символы по схемам: translit2 `текст` управляющий символ `-обратная кавычка это признак рус. текст блока используется редко а набирать удобно, даже без шифта (под ESC) в языках програмирования и командах не используется а в именах файлов разрешена. +) все буквы в 32-128 диапазоне и можно выводить на ЛЮБУЮ платформу и кодировку минуя разные кривые автоматические преобразователи в юникод. По сравнению с юникодом объем будет не в 2 раза больше а максимум на 7% Если скрипт отключен, то разобрать что написано, с трудом, но можно, а через программу-транслятор 100% точный перевод в рус. текст в отличие от простого транслита где ЧШЩЖЮЭЯЫ толком не знают как писать и преобразовать однозначно в рус. текст НЕЛЬЗЯ! архивируются смешанные рус+лат тексты плотнее т.к 128-255 символов нет через 7 битные транспортные слои проходят без BASE-64 +) прочитать и разобрать можно в любой кодировке, объем меньше чем юникод! Если написано на utf-8 а стоит win1251 или koi-8 то выйдет каша и непонятно, а если написано на win1251 и стоит utf-8 то после заглавных рус букв перестаёт выводиться текст дальше и перестают работать скрипты! -) нужен скрипт транслятор страницы и программа кодировки. исходники ниже. похожие буквы A=А Е=E T=Т O=О K=К M=М абсолютно похожи Z=З U=У I=И D=Д J=Й L=Л Ц=С S=C G=Г B=Б V=В H=Х N=Н F=Ф P=П R=Р Y=Ы Ю=Q(кЮ и хвост побольше и в другую сторону) Ж=X(Нет средней палочки, хотя похоже на Х, но она уже =Н а Н=N Ш=W немножко похожи и в транслите их нет Яя Ёё Ээ Чч Ъъ Ьь Щщ 29 ~ 03 84 5 6 17 Как запомнить: ~ над Ёё на клаве, заглавная почти не используется - слов с Ё оч.мало и точки плохо видно лучше заменять на Е где на смысл не влияет и ё где влияет. Слова с ё НЕ после е, а в конце. Так что ё надо поменьше употреблять - с ней проблем много в современных программах. Сортировка в БД, словари, орфографическая проверка, все слова с Ё неправильно сортируют. символ ~ в дос 8.3 именах занят, но он уже давно не нужен. 9= Я-похожа немножко нет одной палки. 2-тоже чем то похожа, нужна реже 3 похожа на э, Э на 0 тоже круглая :) 03-скорая помощь была 4 похожа на Ч и Четыре 8 в два раза больше 4 и Ч больше ч примерно в 2 раза :) 5=Ъъ верхний хвост есть но в другую строну. Заглавная не нужна - нет слов с Ъ. 6= Ьь почти похоже. но сейчас пишут '-одиночной кавычка, но это ограничитель строк или ударение. в английском это знак типа дефиса в рус. вобщем лучше 6 вместо ' 7=Щ-состоит из 7 палочек 1 похожа на 7 и 1 меньше 7 - код Щ меньше щ (Щтирлиц-агент-007 тока русский) учитесь писать транслитом-2 - это латиница - везде работает и понятно. цифры конечно заняты, но зато преобразование однозначное.
Шрифты и локализация
Здесь проблем тоже много, платформ, ОС много, везде по разному, настройки сложные и иногда кривые. тут выход такой - шрифт это 256 картинок символов, но реально нужны только 33+33-5 (ЪЬЫЙЁ-не нужны) по мере надобности загрузяться в кеш браузера как аватары форума. слово составляется из набора этих картинок, ширина символа= ширине картинки*масштаб. для моноширных ширина фиксированная. буквы также можно рисовать по точкам точка это блок div 1х1 с цветом фона - цвет точки. набор этих блоков 16х16 это знакоместо символов, работает медленно, но символы можно рисовать динамически по файлу с данными о начертании(типа шрифт).
Сжатие букв на уровне клиента
Вобщето сжать файл html и отправть в gzip пара пустяков но 1)сервер надо настраивать - а многом лень. 2)закачка на сервер всё равно идет без сжатия, а для хостов типа ucoz кодировка utf-8 _обязательна_ иначе каша и каракули. декомпрессия ява-скриптом динамическая или ява-аплетом или прокси плюсы:трафик закачки меньше и кодировка win (1251) минусы:надо доп. ПО или скрипты включать(что не хорошо)