Что такое кодировка символов

Рубрики: Начинающим   Комментарии (0)

Компьютеры могут обрабатывать информацию только в числовой форме. Поэтому при обработке текстов в компьютере каждому символу текста должно быть сопоставлено некоторое число. Таблица соответствия между набором символов и числами (числовыми кодами символов) называется кодировкой символов.

Кодировка символов используется при вводе текстов и документов в компьютер и при выводе текстов, сообщений и документов для чтения человеком (например, монитор, принтер и т. д.).

Замечание. Таблицы кодировки иногда называют кодовыми страницами.

Виды кодировок

Сейчас наиболее распространены два вида кодировок:

  • однобайтные кодировки, в которых для кодирования одного символа текста используется один байт (8 бит);
  • кодировка Unicode (Юникод) — в ней для кодирования одного символа текста используются два или четыре байта.

Однобайтные кодировки позволяют закодировать до 256 различных символов (1 байт — это 8 битов, а 256 — это 28). Такие кодировки применялись ещё на самых первых компьютерах, с середины XX века. До 1990-х годов все кодировки символов, практически используемые в компьютерах, были однобайтными.

Однобайтные кодировки были вполне приемлемы для большинства пользователей — ведь 256 кодов символов вполне достаточны для кодирования текстов на большинстве языков. Но, когда компьютеры стали широко использоваться во всём мире, количество однобайтных кодировок стало исчисляться сотнями. Ведь языков люди используют очень много, часто эти языки имеют свой особый алфавит (греческий, иврит и т. д.), а потому для них нужна своя кодировка. К тому же, часто для одного языка входили в употребление несколько кодировок. Всё это стало приводить к сложностям и путанице, особенно при создании многоязычных документов и в международном общении. Поэтому сейчас вместо многочисленных однобайтных кодировок всё шире используется универсальная кодировка Unicode.

Unicode кодировка

Кодировка Unicode. В последние годы всё большее применение находит кодировка Unicode (Юникод). В ней для кодирования каждого символа обычно используется два байта, а для некоторых символов — 4 байта (двух байт оказалось мало).

В кодировке Unicode имеются коды для практически всех применяемых символов (букв алфавитов разных языков, математических, декоративных символов и т. д.). Это очень удобно, поэтому многие новые программы для кодирования текстовой информации используют кодировку Unicode.

Метки:  

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Подтвердите, что Вы не бот — выберите самый большой кружок: