Компьютерный учебник

Unicode и Кодовые страницы


     Наиболее распространенной кодировкой текста для  обмена  информацией  является
ASCII -  7-битная компьютерная кодировка  для  представления  латинского  алфавита,
десятичных  цифр,  некоторых   знаков   препинания,   арифметических   операций   и
управляющих символов (вариант ASCII без национальных символов называется US-ASCII).
Впоследствии оказалось удобнее использовать 8-битные кодировки  (кодовые страницы),
где нижнюю половину кодовой таблицы (0—127) занимают  символы  US-ASCII, а  верхнюю
(128—255) — разные другие нужные символы (например, символы кириллицы). 

     Проблемы с перекодировкой из одной таблицы в  другую,  а  также  необходимость
показывать на странице текста различные языки привели к созданию Юникод (Unicode) —
стандарта кодирования символов, позволяющего  представить  знаки  практически  всех
письменных языков. Применение этого стандарта позволяет закодировать очень  большое
число символов из разных письменностей: в документах  Unicode  могут  соседствовать
китайские иероглифы, математические символы, буквы греческого алфавита, латиницы  и
кириллицы, при этом становятся ненужными кодовые страницы.  В  Unicode  первые  128
символов совпадают с  соответствующими  символами  US-ASCII.  Unicode  представляет
собой кодировку с фиксированным  размером  символа в 16 бит (UTF16),то  есть  общее
число базовых кодов - 65 536 (кодовое пространство Unicode может быть расширено  до
2**20 + 2**16 (1 114 112) символов).

     Наряду с UTF16 был изобретен формат UTF8, реализующий  представление  Unicode,
совместимое с 8-битным кодированием текста. Текст, состоящий только  из символов  с
номером меньше 128, при записи  в  UTF8  превращается  в  обычный  текст  ASCII.  И
наоборот, в тексте UTF8 любой байт со значением меньше 128 изображает символ  ASCII
с тем же кодом. Остальные символы Unicode изображаются последовательностями  длиной
от 2 до 4 байтов. Проще говоря, в формате UTF8 символы латинского  алфавита,  знаки
препинания и управляющие символы ASCII записываются кодами  US-ASCII,  a  остальные
символы кодируются при помощи нескольких октетов со старшим битом 1.  Использование
кодировки UTF8 часто аргументируется рядом причин: 

• Даже если программа не распознаёт Unicode, то латинские буквы, арабские  цифры  и
  знаки препинания будут отображаться правильно. 
• В случае, если латинские буквы и  простейшие  знаки  препинания  (включая пробел)
  занимают существенный объём  текста  (например,  в  европейских  языках,  включая
  основанные на кириллице), UTF8 даёт выигрыш по объёму по сравнению с UTF16.
• Необходимость в UTF8  объясняется  еще  и  тем,  что  большинство  браузеров  не
  понимают формат UTF16. 

В меню для перекодировок предусмотрена явная работа с кодировкой Unicode_(UTF16).Эта
кодировка также неявно  используется  при  осуществлении  перекодировки  символав  с
использованием кодовых страниц в виде CP_N_ , где N - номер кодовой страницы. Номера
некоторых кодовых страниц зпаданы в меню кодировок явно: СР_1252_(WIN), CP_866_(DOS),
CP_65001_(UTF8),а другие можно посмотреть в списке, который становится доступным при
выборе в меню опции CP_..._(Кодовая страница номер ...) и открывается по кнопке {Реестр кодов}.
В меню