В меню
Unicode и Кодовые страницы
Наиболее распространенной кодировкой текста для обмена информацией является
ASCII - 7-битная компьютерная кодировка для представления латинского алфавита,
десятичных цифр, некоторых знаков препинания, арифметических операций и
управляющих символов (вариант ASCII без национальных символов называется US-ASCII).
Впоследствии оказалось удобнее использовать 8-битные кодировки (кодовые страницы),
где нижнюю половину кодовой таблицы (0—127) занимают символы US-ASCII, а верхнюю
(128—255) — разные другие нужные символы (например, символы кириллицы).
Проблемы с перекодировкой из одной таблицы в другую, а также необходимость
показывать на странице текста различные языки привели к созданию Юникод (Unicode) —
стандарта кодирования символов, позволяющего представить знаки практически всех
письменных языков. Применение этого стандарта позволяет закодировать очень большое
число символов из разных письменностей: в документах Unicode могут соседствовать
китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и
кириллицы, при этом становятся ненужными кодовые страницы. В Unicode первые 128
символов совпадают с соответствующими символами US-ASCII. Unicode представляет
собой кодировку с фиксированным размером символа в 16 бит (UTF16),то есть общее
число базовых кодов - 65 536 (кодовое пространство Unicode может быть расширено до
2**20 + 2**16 (1 114 112) символов).
Наряду с UTF16 был изобретен формат UTF8, реализующий представление Unicode,
совместимое с 8-битным кодированием текста. Текст, состоящий только из символов с
номером меньше 128, при записи в UTF8 превращается в обычный текст ASCII. И
наоборот, в тексте UTF8 любой байт со значением меньше 128 изображает символ ASCII
с тем же кодом. Остальные символы Unicode изображаются последовательностями длиной
от 2 до 4 байтов. Проще говоря, в формате UTF8 символы латинского алфавита, знаки
препинания и управляющие символы ASCII записываются кодами US-ASCII, a остальные
символы кодируются при помощи нескольких октетов со старшим битом 1. Использование
кодировки UTF8 часто аргументируется рядом причин:
• Даже если программа не распознаёт Unicode, то латинские буквы, арабские цифры и
знаки препинания будут отображаться правильно.
• В случае, если латинские буквы и простейшие знаки препинания (включая пробел)
занимают существенный объём текста (например, в европейских языках, включая
основанные на кириллице), UTF8 даёт выигрыш по объёму по сравнению с UTF16.
• Необходимость в UTF8 объясняется еще и тем, что большинство браузеров не
понимают формат UTF16.
В меню для перекодировок предусмотрена явная работа с кодировкой Unicode_(UTF16).Эта
кодировка также неявно используется при осуществлении перекодировки символав с
использованием кодовых страниц в виде CP_N_ , где N - номер кодовой страницы. Номера
некоторых кодовых страниц зпаданы в меню кодировок явно: СР_1252_(WIN), CP_866_(DOS),
CP_65001_(UTF8),а другие можно посмотреть в списке, который становится доступным при
выборе в меню опции CP_..._(Кодовая страница номер ...) и открывается по кнопке {Реестр кодов}.