Character
Каждый "абстрактный" символ имеет изображение -- glyph. Считается, что каждый символ имеет "каноническое" изображение , то есть такое, которое позволяет однозначно
идентифицировать данный символ, то есть распознать и отличить его от других. Таким образом, в модели POSIX и UNICODE не уделяется никакого внимания вариантам начертания символа, то есть шрифтам (fonts) во всем их многообразии, . Поэтому все, что изображено на примере ниже, будет одним и тем же "абстрактным" символом :
ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А (LATIN CAPITAL LETTER A):
В стандарте UNICODE кроме определенного изображения каждому символу присвоено определенное имя :
A | U+0041 | LATIN CAPITAL LETTER A | ||
a | U+0061 | LATIN SMALL LETTER A | ||
Ю | U+042E | CYRILLIC CAPITAL LETTER YU | ||
1 | U+0031 | DIGIT ONE | ||
+ | U+002B | PLUS SIGN | ||
U+03A9 | GREEK CAPITAL LETTER OMEGA | |||
U+2569 | BOX DRAWINGS DOUBLE UP AND HORIZONTAL | |||
и так далее. |
В настоящее время в стандарт , входят практчески все употребимые символы (~40.000), и им соответственно присвоены стандартные имена. Последнее значительное изменение -- введение символа валюты EURO в сентябре 1998 г.
Посмотреть набор символов UNICODE
можно здесь : .
Таким образом, для нас символ
(character) - это единица тектовой информации, имеющая определенное изображение и определенное имя.