Кодировка Unicode

Рубрики: Начинающим   Комментарии (0)

Как была создана Unicode. Кодировка Unicode (Юникод) была создана в конце 1980-х — начале 1990-х годов группой сотрудников Xerox, Apple и других фирм. Они задались целью создать вместо множества однобайтных кодировок одиу, универсальную кодировку. Эта инициатива нашла поддержку у многих производителей программного обеспечения и других организаций. В 1991 г. был учреждён Unicode-консорциум (добровольная некоммерческая организация), он и занимается совершенствованием, публикацией, внедрением и популяризацией Unicode.

Какие символы есть в этой кодировке? В кодировке Unicode имеются номера (коды):

  • для множества языков, основанных на латинице, кириллице и других алфавитах — иврита, арабского, греческого, армянского, грузинского, тайского и других языков со своим особым алфавитом;
  • для китайских, японских и корейских иероглифов (это самая большая часть кодировки Unicode — более 70000 символов);
  • для большого количества математических, технических, декоративных, лингвистических и других символов.

В версии 4.0 кодировки Unicode определено 96382 различных символов. Двух байтов для кодирования всех символов кодировки Unicode не хватает.

Информацию о том, какие символы имеются в кодировке Unicode, и о кодах этих символов, можно посмотреть в Интернете на сайте Unicode-консорциума: http://www.unicode.org/chaits .

Поддержка Unicode в программах. Многие современные программы и операционные системы поддерживают кодировку Unicode. Например, редактор документов Microsoft Word, начиная с версии 97, издательская система Adobe InDesign, интернет-браузер Internet Explorer используют для хранения обрабатываемой ими текстовой информации кодировку Unicode. Такие программы называются юникодными.

Юникодные программы удобно использовать при подготовке многоязычных документов. В этих программах Вы можете непосредственно использовать тысячи символов, содержащихся в современных TrueType и ОрепТуре-шрифтах.

Поддержка Unicode в шрифтах. В операционной системе Windows 95/98/NT/2000/XP шрифты типа TrueType (.TTF-шрифты), а в Windows 2000 и ХР также и ОреnТурe-шрифты (расширение .0TF или .TTF) должны содержать Unicode-коды символов, определённых в шрифте. Более того, эти коды и используются для доступа к описаниям символов в текстовых шрифтах: чтобы вывести символ из шрифта на экран или печать, операционная система должна «назвать» Unicode-код этого символа.

В одном TrueType или ОреnТуре-шрифте могут содержаться описания тысяч и даже десятков тысяч символов самых разных языков, а также специальных символов. Поэтому в документе можно писать текст на разных языках, оформляя их одним шрифтом, и фрагменты текста на разных языках при этом будут гармонировать друг с другом. Это очень удобно.

Замечания. 1. В «классических» шрифтах, поставляемых в составе Windows 95/98/NT/2000/XP (Arial, Courier New и Times New Roman) имеются символы для кириллицы, западноевропейских, восточноевропейских, балтийских языков, турецкого и греческого языка. А в шрифтах Arial и Tahoma есть также символы арабского языка и иврита.

2. Шрифт Arial Unicode MS, поставляемый с Microsoft Office, содержит приблизительно 40 тысяч символов (впрочем, в основном это иероглифы).

Метки:  

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Подтвердите, что Вы не бот — выберите самый большой кружок: