Предварительно составленный персонаж - Precomposed character

Предварительно составленный символ (альтернативный составной символ или разложимый символ ) - это объект Unicode, который также может быть определен как последовательность одного или нескольких других символов. Предварительно составленный символ обычно может представлять собой букву с диакритическим знаком , например é (латинская строчная буква e с острым ударением ). Технически é (U + 00E9) - это символ, который можно разложить на эквивалентную строку базовой буквы e (U + 0065) и сочетания акцента (U + 0301). Точно так же лигатуры - это предварительные композиции составляющих их букв или графем .

Предварительно составленные символы - это устаревшее решение для представления множества специальных букв в различных наборах символов . В Unicode они включены в первую очередь для помощи компьютерным системам с неполной поддержкой Unicode, где эквивалентные разложенные символы могут отображаться некорректно.

Сравнение предварительно составленных и разложенных символов

В следующем примере есть обычная шведская фамилия Åström, записанная двумя альтернативными способами: первая с предварительно составленными Å (U + 00C5) и ö (U + 00F6), а вторая - с использованием разложенной базовой буквы A ( U + 0041) с объединяющим кольцом выше (U + 030A) и o (U + 006F) с объединяющим диэрезисом (U + 0308).

  1. Å , ул ö м (U + 00C5U + 0073 U + 0074 U + 0072U + 00F6U + 006D)
  2. Острем (U + 0041 U + 030A U + 0073 U + 0074 U + 0072 U + 006F U + 0308 U + 006D)

За исключением разных цветов, два решения эквивалентны и должны отображаться одинаково. Однако на практике некоторые реализации Unicode все еще испытывают трудности с разложенными символами. В худшем случае объединение диакритических знаков может игнорироваться или отображаться как нераспознанные символы после их базовых букв, поскольку они не включены во все шрифты . Чтобы преодолеть проблемы, некоторые приложения могут просто попытаться заменить разложенные символы эквивалентными заранее составленными символами.

Однако с неполным шрифтом предварительно составленные символы также могут быть проблематичными, особенно если они более экзотичны, как в следующем примере (показывающем реконструированное протоиндоевропейское слово для слова "собака"):

  1. ḱṷṓ п (U + 1E31 U + 1E77 U + 1E53U + 006E)
  2. ḱṷṓn (U + 006B U + 0301 U + 0075 U + 032D U + 006F U + 0304 U + 0301 U + 006E)

В некоторых случаях предварительно составленные зеленые k , u и o с диакритическими знаками могут отображаться как нераспознанные символы или их типографский вид может сильно отличаться от последней буквы n без диакритики. Во второй строке базовые буквы должны, по крайней мере, отображаться правильно, даже если объединяющие диакритические знаки не могут быть распознаны.

OpenType имеет ccmp «тег функции» для определения глифов, которые представляют собой композиции или декомпозиции, включающие комбинирование символов.

Китайские символы

Теоретически большинство китайских иероглифов, закодированных с помощью ханьской унификации и аналогичных схем, можно рассматривать как предварительно составленные символы, поскольку они могут быть сокращены (разложены) до составляющих их штрихов и описаний идеограмм с помощью языков описания китайских символов . Такой подход может уменьшить количество символов в наборе символов с десятков тысяч до нескольких сотен. С другой стороны, такой сильно разложенный набор символов привел бы к проблемам при поиске и редактировании программного обеспечения и потребовал бы большего количества байтов кодирования для каждого документа.

Смотрите также

Источники

внешние ссылки

  • Free Idg Serif , производная от шрифта FreeSerif с добавленными объявлениями предварительно составленных символов.