Объединение Хань - Han unification

Различия для одного и того же символа Unicode (U + 8FD4) в региональных версиях Source Han Sans

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, квадраты или другие символы .

Объединение Хан является попыткой авторами Unicode и универсального набора символов для отображения нескольких наборов символов из символов хань из так называемых CJK языков в единый набор унифицированных символов . Иероглифы хань - это общая черта письменного китайского ( ханзи ), японского ( кандзи ) и корейского ( ханджа ).

Современные китайские, японские и корейские шрифты обычно используют региональные или исторические варианты данного ханьского символа . В формулировке Unicode была предпринята попытка унифицировать эти варианты, рассматривая их как разные глифы, представляющие одну и ту же « графему » или орфографическую единицу, следовательно, «объединение ханьцев», в результате чего репертуар персонажей иногда сокращался до Unihan . Тем не менее, многие символы имеют региональные варианты, присвоенные различным кодовым точкам , например, традиционный 個(U + 500B) или упрощенный 个(U + 4E2A).

Unihan также может ссылаться на базу данных Unihan, поддерживаемую Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах Han, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношение в различных языков и английского определения. База данных доступна для общественности в виде текстовых файлов и через интерактивный веб-сайт. Последний также включает репрезентативные глифы и определения составных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставляются для удобства и не являются формальной частью стандарта Unicode).

Обоснование и противоречие

Стандарт Unicode подробно описывает принципы объединения хань. Группа идеографических исследований (IRG), состоящая из экспертов из китайскоязычных стран, Северной и Южной Кореи, Японии, Вьетнама и других стран, отвечает за этот процесс.

Одним из возможных объяснений является желание ограничить размер полного набора символов Unicode, где символы CJK, представленные дискретными идеограммами, могут приближаться к 100000 символов или превышать их. Версия 1 Unicode была разработана для размещения в 16 битах, и только 20 940 символов (32%) из возможных 65 536 были зарезервированы для этих унифицированных иероглифов CJK . Позже Unicode был расширен до 21 бита, что позволило использовать гораздо больше символов CJK (назначено 92 865 символов, есть место для большего количества).

Статья Тайная жизнь Unicode , размещенная на IBM DeveloperWorks, пытается частично проиллюстрировать мотивацию объединения Хань:

Проблема проистекает из того факта, что Unicode кодирует символы, а не «глифы», которые являются визуальным представлением символов. Существует четыре основных традиции форм восточноазиатских иероглифов: традиционный китайский, упрощенный китайский, японский и корейский. Хотя корневой символ Han может быть одинаковым для языков CJK, глифы, обычно используемые для одних и тех же символов, могут не совпадать. Например, традиционный китайский глиф «трава» использует четыре штриха для радикала «трава» [ ⺿ ], тогда как упрощенные китайские, японские и корейские глифы [ ⺾ ] используют три. Но для символа травы (U + 8349) [草] существует только одна точка Unicode, независимо от системы письма. Другой пример - идеограмма слова «один», которая отличается в китайском, японском и корейском языках. Многие думают, что три версии нужно кодировать по-разному.

Фактически, три идеограммы для «одного» (一,壹или壱) кодируются отдельно в Unicode, поскольку они не считаются национальными вариантами. Первая форма распространена во всех трех странах, а вторая и третья используются для финансовых инструментов для предотвращения подделки (их можно рассматривать как варианты).

Однако объединение ханьцев также вызвало значительные противоречия, особенно среди японской общественности, которая вместе с грамотными нациями имеет историю протестов против уничтожения исторически и культурно значимых вариантов. (См. Кандзи § Орфографическая реформа и списки иероглифов . Сегодня список символов, официально признанных для использования в именах собственных, продолжает расширяться скромными темпами.)

В 1993 году Японская ассоциация развития электронной промышленности (JEIDA) опубликовала брошюру под названием «未来の文字コード体系には不安をい» (мы с нетерпением ждем появления системы кодирования символов JPNO 20985671 в будущем ), в которой резюмируются основные критические замечания в адрес подход Han Unification, принятый в Unicode.

Графемы против глифов

Латинская строчная буква « а » имеет очень разные глифы, которые представляют конкретные экземпляры одной и той же абстрактной графемы. Хотя носитель любого языка, использующий латинский шрифт, распознает эти два символа как одну и ту же графему, другим они могут показаться совершенно не связанными друг с другом.

Графема является наименьшим абстрактная единица означает в системе записи. Любая графема имеет много возможных выражений глифов, но все они распознаются как одна и та же графема теми, кто обладает знаниями в области чтения и записи конкретной системы письма. Хотя Unicode обычно назначает символы кодовым точкам для выражения графем в системе письма, Стандарт Unicode ( раздел 3.4 D7 ) делает это с осторожностью:

Абстрактный символ не обязательно соответствует тому, что пользователь считает «персонажем», и его не следует путать с графемой .

Однако эта цитата относится к тому факту, что некоторые графемы состоят из нескольких символов. Так, например, символ U + 0061 - ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A в сочетании с U + 030A ◌̊ КОМБИНИРУЮЩЕЕ КОЛЬЦО ВЫШЕ (т. Е. Комбинация «å») может быть понят пользователем как единая графема, состоящая из нескольких аннотаций Unicode. символы. Кроме того, Unicode также назначает некоторые кодовые точки небольшому количеству (кроме соображений совместимости) символов форматирования, пробелов и других абстрактных символов, которые не являются графемами, но вместо этого используются для управления разрывами между строками, словами, графемами и графемы кластеры. Благодаря унифицированным идеографам Хань, стандарт Unicode отходит от предшествующей практики в назначении абстрактных символов не как графемы, а в соответствии с основным значением графемы: то, что лингвисты иногда называют семемами . Таким образом, это отклонение не просто объясняется часто цитируемым различием между абстрактным символом и глифом, но больше связано с различием между абстрактным символом, назначенным как графема, и абстрактным символом, назначенным как семема. Напротив, рассмотрим объединение знаков препинания и диакритики в ASCII , где графемы с очень разными значениями (например, апостроф и одиночная кавычка) объединены, потому что глифы одинаковы. Для Unihan персонажей объединяет не их внешний вид, а их определение или значение.

Представление графемы различными глифами означает, что графема имеет вариации глифов, которые обычно определяются путем выбора того или иного шрифта или использования функций замены глифов, когда несколько глифов включены в один шрифт. Такие варианты глифов считаются Unicode функцией протоколов форматированного текста и не обрабатываются должным образом целями Unicode для простого текста. Однако, когда переход от одного глифа к другому представляет собой переход от одной графемы к другой - где глиф не может, например, означать ту же самую графему, понимаемую как маленькая буква «а», - Юникод разделяет их на отдельные кодовые точки. Для Unihan то же самое происходит всякий раз, когда изменяется абстрактное значение, однако вместо того, чтобы говорить об абстрактном значении графемы (буква «а»), объединение идеографов Хань назначает новую кодовую точку для каждого другого значения - даже если это значение выражается отдельными графемами на разных языках. Хотя графема, такая как «ö», может означать что-то другое на английском языке (используемом в слове «coördinated»), чем на немецком, это все же та же графема, и ее можно легко объединить, чтобы английский и немецкий языки могли иметь общую абстрактная латинская система письма (вместе с самой латынью). Этот пример также указывает на другую причину, по которой «абстрактный символ» и графема как абстрактная единица письменного языка не обязательно взаимно однозначно отображаются. В английском языке сочетание диэрезиса, «» и «o», которое он модифицирует, можно рассматривать как две отдельные графемы, тогда как в таких языках, как шведский, буква «ö» может рассматриваться как одна графема. Точно так же на английском языке точка на «i» понимается как часть графемы «i», тогда как в других языках, таких как турецкий, точка может рассматриваться как отдельная графема, добавленная к «ı» без точки.

Чтобы иметь дело с использованием разных графем для одной и той же семемы Unihan, Unicode полагался на несколько механизмов, особенно в том, что касается визуализации текста. Один из них заключался в том, чтобы рассматривать это как простую проблему со шрифтом, чтобы можно было использовать разные шрифты для отображения китайского, японского или корейского языков. Кроме того, форматы шрифтов, такие как OpenType, позволяют отображать альтернативные глифы в соответствии с языком, чтобы система визуализации текста могла обращаться к настройкам среды пользователя, чтобы определить, какой глиф использовать. Проблема с этими подходами заключается в том, что они не соответствуют целям Unicode по определению последовательного способа кодирования многоязычного текста.

Поэтому вместо того, чтобы рассматривать проблему как проблему с форматированным текстом для альтернативных глифов, Unicode добавил концепцию селекторов вариантов , впервые представленную в версии 3.2 и дополненную в версии 4.0. Хотя селекторы вариантов обрабатываются как комбинирующие символы, они не имеют связанного диакритического знака или знака. Вместо этого, комбинируясь с базовым символом, они сигнализируют, что последовательность из двух символов выбирает вариант (обычно с точки зрения графемы, но также с точки зрения основного значения, как в случае имени местоположения или другого имени собственного) основного символа. Таким образом, это не выбор альтернативного глифа, а выбор варианта графемы или варианта базового абстрактного символа. Однако такую двухсимвольную последовательность можно легко сопоставить с отдельным глифом в современных шрифтах. Поскольку Unicode назначил 256 отдельных селекторов вариантов, он способен назначить 256 вариантов для любой идеограммы Хана. Такие вариации могут быть специфичными для того или иного языка и обеспечивать возможность кодирования простого текста, который включает такие вариации графемы.

Unihan "абстрактные персонажи"

Поскольку стандарт Unihan кодирует «абстрактные символы», а не «глифы», графические артефакты, создаваемые Unicode, считаются временными техническими препятствиями и, в лучшем случае, косметическими. Однако, опять же, особенно в Японии, отчасти из-за того, как китайские иероглифы исторически были включены в японские системы письма, невозможность указать конкретный вариант считалась существенным препятствием для использования Юникода в научной работе. Например, объединение слова «трава» (объяснено выше) означает, что исторический текст не может быть закодирован таким образом, чтобы сохранить его специфическую орфографию. Вместо этого, например, ученый должен будет найти нужный глиф в определенном шрифте, чтобы передать текст в том виде, в каком он написан, что противоречит цели унифицированного набора символов. Unicode отреагировал на эти потребности, назначив селекторы вариантов, чтобы авторы могли выбирать варианты графем определенных иероглифов (или даже других символов).

Небольшие различия в графическом представлении также являются проблематичными, если они влияют на удобочитаемость или принадлежат неправильной культурной традиции. Помимо того, что некоторые шрифты Unicode становятся непригодными для использования в текстах, включающих несколько «языков Unihan», имена или другая орфографически чувствительная терминология могут отображаться неправильно. (Имена собственные имеют тенденцию быть особенно консервативными с точки зрения орфографии - сравните это с изменением написания имени для соответствия языковой реформе в США или Великобритании.) Хотя это можно рассматривать в первую очередь как проблему графического представления или визуализации, которую необходимо преодолеть с помощью более искусных шрифтов. , широкое использование Unicode затруднит сохранение таких различий. Проблема одного символа, представляющего семантически разные понятия, также присутствует в латинской части Unicode. Символ Unicode для апострофа такой же, как и символ для правой одинарной кавычки ('). С другой стороны, столица латинской буквы не унифицированы с греческой буквой Л или кириллице буквой А . Это, конечно, желательно по причинам совместимости и касается гораздо меньшего набора буквенных символов.

Хотя аспект унификации Unicode вызывает споры в некоторых кругах по причинам, указанным выше, сам Unicode теперь кодирует огромное количество редко используемых символов более или менее антикварного характера.

Некоторые разногласия проистекают из того факта, что само решение об объединении хань было принято первоначальным Консорциумом Unicode, который в то время представлял собой консорциум североамериканских компаний и организаций (большинство из которых находились в Калифорнии), но не включал восточноазиатских представители правительства. Первоначальная цель дизайна заключалась в создании 16-битного стандарта, и поэтому унификация Han была критическим шагом во избежание дублирования десятков тысяч символов. Позже от этого 16-битного требования отказались, что сделало размер набора символов менее важной проблемой сегодня.

Позднее разногласия распространились на представительную на международном уровне ISO: первоначальная группа CJK Joint Research Group (CJK-JRG) поддержала предложение (DIS 10646) о неунифицированном наборе символов, «которое было отклонено в пользу унификации с унифицированным консорциумом Unicode. набор символов голосами американских и европейских членов ISO »(хотя позиция Японии была неясной). Одобрение унификации Unicode Han было необходимым шагом для горячего слияния ISO 10646 / Unicode.

Большая часть споров вокруг объединения Хань основана на различии между глифами , как определено в Unicode, и связанной, но отличной идее графем . Unicode назначает абстрактные символы (графемы), в отличие от глифов, которые представляют собой определенные визуальные представления символа в определенном шрифте . Один символ может быть представлен множеством различных глифов, например «g» или «a», оба из которых могут иметь один цикл ( ɑ , ɡ ) или два ( a , g ). Тем не менее, для читателя языков, основанных на латинском алфавите, оба варианта символа «а» воспринимаются как одна и та же графема. Графемы, представленные в национальных стандартах кодирования символов, были добавлены в Unicode, как того требует правило Unicode Source Separation, даже если они могут состоять из уже имеющихся символов. Стандарты национальных кодов символов, существующие в языках CJK, являются значительно более сложными, учитывая технологические ограничения, в соответствии с которыми они развивались, и поэтому официальных участников CJK в объединении Хань, возможно, можно было реформировать.

В отличие от европейских версий, шрифты CJK Unicode, из-за унификации Хань, имеют большие, но нерегулярные образцы перекрытия, требующие шрифтов для конкретных языков. К сожалению, языковые шрифты также затрудняют доступ к варианту, который, как и в примере с «травой», чаще встречается в другом языковом стиле. (То есть было бы трудно получить доступ к «траве» с четырехстрочным радикалом, более типичным для традиционного китайского языка в японской среде, где шрифты обычно изображают трехстрочный радикал.) Сторонники Unihan склонны отдавать предпочтение языкам разметки. для определения языковых строк, но это не обеспечит использование конкретного варианта в данном случае, только специфический для языка шрифт с большей вероятностью будет отображать символ как этот вариант. (На этом этапе проявляются чисто стилистические различия, поскольку выбранные японские и китайские шрифты вряд ли будут визуально совместимы.)

Китайские пользователи, похоже, меньше возражают против унификации ханьцев, в основном потому, что Unicode не пытался объединить упрощенные китайские символы с традиционными китайскими иероглифами . (Упрощенные китайские символы используются носителями китайского языка в Китайской Народной Республике , Сингапуре и Малайзии . Традиционные китайские символы используются в Гонконге и Тайване ( Big5 ), и они, с некоторыми отличиями, более знакомы корейским и японским пользователям. ) Unicode считается нейтральным по отношению к этой политически заряженной проблеме и закодировал символы упрощенного и традиционного китайских символов отдельно (например, идеограф для «отбросить» -丟U + 4E1F для традиционного китайского Big5 # A5E1 и丢U + 4E22 для упрощенного китайского. GB # 2210). Также следует отметить, что традиционные и упрощенные символы должны кодироваться отдельно в соответствии с правилами Unicode Han Unification, поскольку они различаются в ранее существовавших наборах символов PRC. Кроме того, как и в случае с другими вариантами, символы от традиционного к упрощенному не связаны друг с другом.

Альтернативы

Есть несколько альтернативных наборов символов, которые не кодируются в соответствии с принципом объединения Хань и, следовательно, свободны от его ограничений:

Эти зависящие от региона наборы символов также считаются не затронутыми Объединением Хань из-за их региональной природы:

ISO / IEC 2022 (на основе кодов последовательности для переключения между наборами символов китайского, японского и корейского языков - следовательно, без унификации)
Расширения Big5
GCCS и его преемник HKSCS

Однако ни один из этих альтернативных стандартов не получил такого широкого распространения, как Unicode , который теперь является базовым набором символов для многих новых стандартов и протоколов, принятых на международном уровне и встроен в архитектуру операционных систем ( Microsoft Windows , Apple macOS и многие другие). Unix-подобные системы), языки программирования ( Perl , Python , C # , Java , Common Lisp , APL , C , C ++ ) и библиотеки (IBM International Components for Unicode (ICU) вместе с Pango , Graphite , Scribe , Uniscribe и Механизмы рендеринга ATSUI ), форматы шрифтов ( TrueType и OpenType ) и так далее.

В марте 1989 года система на основе (B) TRON была принята японской правительственной организацией «Центр образовательных вычислений» в качестве предпочтительной системы школьного образования, включая обязательное образование . Однако в апреле в отчете Управления торгового представителя США под названием «Национальный отчет об оценке внешней торговли за 1989 год» эта система была определена как торговый барьер в Японии. В отчете утверждалось, что принятие японским правительством системы на основе TRON выгодно японским производителям и, таким образом, исключает американские операционные системы с огромного нового рынка; в частности, в отчете в качестве примеров перечислены MS-DOS, OS / 2 и UNIX. Офис USTR предположительно находился под влиянием Microsoft, поскольку его бывшему офицеру Тому Робертсону тогда Microsoft предложила прибыльную должность. В то время как сама система TRON впоследствии была удалена из списка санкций по разделу 301 Закона о торговле 1974 года после протестов организации в мае 1989 года торговый спор вызвал Министерство международной торговли и промышленности принять запрос от Масаеси Сына к отменить выбор Центром образовательных вычислений системы на базе TRON для использования образовательных компьютеров. Этот инцидент считается символическим событием потери импульса и возможной гибели системы BTRON, что привело к широкому распространению MS-DOS в Японии и, в конечном итоге, к принятию Unicode с его преемником Windows.

Слияние всех эквивалентных персонажей

Не было никакого стремления к полной семантической унификации всех семантически связанных символов, хотя эта идея будет относиться к соответствующим пользователям восточноазиатских языков одинаково, независимо от того, пишут ли они на корейском, упрощенном китайском, традиционном китайском, японском языке Кюдзитай, японском языке Синдзитай или Вьетнамский. Вместо того, чтобы некоторые варианты получали отдельные точки кода, в то время как другие группы вариантов должны иметь общие точки кода, все варианты могли быть надежно выражены только с помощью тегов метаданных (например, форматирование CSS на веб-страницах). Нагрузка будет на всех тех , кто использует различные версии直,別,兩,兔, независимо от того , что разница будет в связи с упрощением, международной дисперсии или внутри национальной дисперсии. Однако для некоторых платформ (например, смартфонов) устройство может поставляться с предустановленным только одним шрифтом. Системный шрифт должен определять глиф по умолчанию для каждой кодовой точки, и эти глифы могут сильно различаться, указывая на разные лежащие в основе графемы.

Следовательно, использование языковой разметки в качестве подхода сталкивается с двумя основными проблемами. Во-первых, есть контексты, в которых языковая разметка недоступна (фиксация кода, простой текст). Во-вторых, любое решение потребует, чтобы каждая операционная система была предустановлена с множеством глифов для семантически идентичных символов, имеющих множество вариантов. Помимо стандартных наборов символов в упрощенном китайском, традиционном китайском, корейском, вьетнамском, японском языке Кюдзитай и японском языке Синдзитай, существуют также «древние» формы символов, которые представляют интерес для историков, лингвистов и филологов.

База данных Unicode Unihan уже установила связи между многими символами. База данных Unicode уже каталогизирует связи между вариантными символами с разными кодовыми точками. Однако для символов с общей кодовой точкой изображение эталонного глифа обычно смещено в сторону традиционной китайской версии. Кроме того, решение о том, классифицировать ли пары как семантические варианты или z-варианты , не всегда непротиворечиво или ясно, несмотря на рационализации в справочнике.

Так называемые семантические варианты丟(U + 4E1F) и丢(U + 4E22) являются примерами, которые Unicode дает как существенно отличающиеся по своим абстрактным формам, в то время как Unicode перечисляет佛и仏как z-варианты, различающиеся только шрифтом. укладка. Как ни парадоксально, Unicode считает兩и両почти идентичными z-вариантами, в то же время классифицируя их как существенно разные семантические варианты. Также бывают случаи, когда некоторые пары символов одновременно являются семантическими вариантами и специализированными семантическими вариантами и упрощенными вариантами:個(U + 500B) и个(U + 4E2A). Бывают случаи не взаимной эквивалентности. Например, запись в базе данных Unihan для亀(U + 4E80) считает龜(U + 9F9C) своим z-вариантом, но запись для龜не перечисляет亀как z-вариант, хотя龜, очевидно, уже был базы данных в то время , что запись для亀была написана.

Некоторые канцелярские ошибки привели к дублированию полностью идентичных символов, таких как﨣(U + FA23) и 𧺯 (U + 27EAF). Если в шрифте есть глифы, закодированные для обеих точек, так что один шрифт используется для обеих, они должны выглядеть одинаково. Эти случаи перечислены как z-варианты, несмотря на то, что у них нет никакой вариации. Были добавлены намеренно дублированные символы, чтобы облегчить побитовое двустороннее преобразование . Поскольку двустороннее преобразование было одним из первых аргументов в пользу Unicode, это означало, что если используемый национальный стандарт без необходимости дублирует символ, Unicode должен делать то же самое. Unicode называет эти намеренные дублирования « вариантами совместимости », как и 漢 (U + FA9A), который называет漢(U + 6F22) своим вариантом совместимости. Пока приложение использует один и тот же шрифт для обоих, они должны выглядеть одинаково. Иногда, как в случае車с U + 8ECA и U + F902, добавленный символ совместимости перечисляет уже существующую версию車как как вариант совместимости, так и его z-вариант. Поле варианта совместимости переопределяет поле варианта z, вызывая нормализацию во всех формах, включая каноническую эквивалентность. Несмотря на название, варианты совместимости фактически канонически эквивалентны и объединены в любую схему нормализации Unicode, а не только в рамках нормализации совместимости. Это похоже на то, как U + 212B Å ANGSTROM SIGN канонически эквивалентен заранее составленной латинской заглавной букве A U + 00C5 Å с кольцом вверху . Многие программы (например, программа MediaWiki, на которой размещена Википедия) заменят все канонически эквивалентные символы, которые не рекомендуются (например, символ Ангстрема), на рекомендуемый эквивалент. Несмотря на название, «варианты совместимости» CJK являются канонически эквивалентными символами, а не символами совместимости.

漢 (U + FA9A) был добавлен в базу данных позже, чем漢(U + 6F22), и его запись информирует пользователя об информации о совместимости. С другой стороны,漢(U + 6F22) не имеет этой эквивалентности, указанной в этой записи. Unicode требует, чтобы все записи, однажды допущенные, не могли изменить совместимость или эквивалентность, чтобы правила нормализации для уже существующих символов не менялись.

Некоторые пары «традиционный» и «упрощенный» также считаются семантическими вариантами. Согласно определениям Unicode, имеет смысл, что все упрощения (которые не приводят к слиянию совершенно разных символов для их гомофонии) будут формой семантического варианта. Unicode классифицирует丟и丢как соответствующие традиционные и упрощенные варианты друг друга, а также как семантические варианты друг друга. Однако, в то время как Unicode классифицирует億(U + 5104) и亿(U + 4EBF) как соответствующие традиционные и упрощенные варианты друг друга, Unicode не считает億и亿семантическими вариантами друг друга.

Unicode утверждает, что «в идеале в стандарте Unicode не должно быть пар z-вариантов». Казалось бы, цель состоит в том, чтобы, по крайней мере, унифицировать все второстепенные варианты, избыточности совместимости и случайные избыточности, оставляя дифференциацию шрифтам и языковым тегам. Это противоречит заявленной цели Unicode - убрать эти накладные расходы и позволить любому количеству любых мировых скриптов находиться в одном документе с одной системой кодирования. В первой главе руководства говорится, что «с помощью Unicode индустрия информационных технологий заменила растущие наборы символов стабильностью данных, глобальной совместимостью и обменом данными, упрощенным программным обеспечением и сокращением затрат на разработку. Взяв набор символов ASCII в качестве отправной точки, Стандарт Unicode выходит далеко за рамки ограниченной способности ASCII кодировать только прописные и строчные буквы от A до Z. Он обеспечивает возможность кодирования всех символов, используемых для письменных языков мира - можно закодировать более 1 миллиона символов. Отсутствие escape-последовательности или управляющий код необходим для указания любого символа на любом языке. Кодировка символов Unicode трактует буквенные символы, идеографические символы и символы эквивалентно, что означает, что они могут использоваться в любой комбинации и с одинаковыми возможностями ».

Это оставляет нам возможность остановиться на одной единой эталонной графеме для всех z-вариантов, что вызывает споры, поскольку немногие за пределами Японии признают佛и仏эквивалентными. Даже в Японии эти варианты находятся на разных сторонах большого упрощения, называемого Синдзитай. По сравнению с Unicode, упрощение PRC для侣(U + 4FA3) и侶(U + 4FB6) стало бы существенной разницей. Такой план также устранил бы очень визуально отличные вариации для таких символов, как直(U + 76F4) и雇(U + 96C7).

Можно было бы ожидать, что все упрощенные символы одновременно будут также z-вариантами или семантическими вариантами со своими традиционными аналогами, но многие таковыми не являются. Легче объяснить странный случай, когда семантические варианты могут быть одновременно как семантическими вариантами, так и специализированными вариантами, когда определение Unicode состоит в том, что специализированные семантические варианты имеют одно и то же значение только в определенных контекстах. Языки используют их по-разному. Пара, символы которой на 100% заменяют друг друга в японском языке, может оказаться не такой гибкой в китайском языке. Таким образом, любое полное слияние рекомендуемых кодовых точек должно было бы поддерживать некоторые варианты, которые лишь незначительно отличаются по внешнему виду, даже если значение на 100% одинаково для всех контекстов на одном языке, потому что на другом языке два символа не могут быть на 100% отброшены. -в заменах.

Примеры языковых глифов

В каждой строке следующей таблицы один и тот же символ повторяется во всех шести столбцах. Однако каждый столбец помечен ( langатрибутом) как принадлежащий к разному языку: китайскому ( упрощенный и два типа традиционных ), японскому , корейскому или вьетнамскому . Браузер должен выбрать для каждого символа, а символ (от шрифта ) , подходящего для указанного языка. (Помимо фактических вариаций символов - ищите различия в порядке, количестве или направлении штрихов - гарнитуры могут также отражать разные типографские стили, как в алфавитах с засечками и без засечек.) Это работает только для резервного выбора глифов, если у вас установлены шрифты CJK. в вашей системе, и шрифт, выбранный для отображения этой статьи, не содержит глифов для этих символов.

Кодовая точка	Китайский (упрощенный) ( `zh-Hans`)	Китайский (традиционный) ( `zh-Hant`)	Китайский (традиционный, Гонконг) ( `zh-Hant-HK`)	Японский ( `ja`)	Корейский ( `ko`)	Вьетнамский ( `vi-Hani`)	английский
U + 4ECA	今	今	今	今	今	今	Теперь
U + 4EE4	令	令	令	令	令	令	причина / команда
U + 514D	免	免	免	免	免	免	освобожденный / запасной
U + 5165	入	入	入	入	入	入	входить
U + 5168	全	全	全	全	全	全	все / всего
U + 5173	关	关	关	关	关	关	закрыть (упрощенный) / смех (традиционный)
U + 5177	具	具	具	具	具	具	орудие труда
U + 5203	刃	刃	刃	刃	刃	刃	острие ножа
U + 5316	化	化	化	化	化	化	преобразовать / изменить
U + 5916	外	外	外	外	外	外	вне
U + 60C5	情	情	情	情	情	情	чувство
U + 624D	才	才	才	才	才	才	талант
U + 62B5	抵	抵	抵	抵	抵	抵	прибыть / сопротивляться
U + 6B21	次	次	次	次	次	次	вторичный / подписка
U + 6D77	海	海	海	海	海	海	море
U + 76F4	直	直	直	直	直	直	прямой / прямой
U + 771F	真	真	真	真	真	真	правда
U + 793a	示	示	示	示	示	示	Показать
U + 795E	神	神	神	神	神	神	Бог
U + 7A7A	空	空	空	空	空	空	пустой / воздух
U + 8005	者	者	者	者	者	者	тот, кто делает / -ist / -er
U + 8349	草	草	草	草	草	草	трава
U + 8525	蔥	蔥	蔥	蔥	蔥	蔥	лук
U + 89D2	角	角	角	角	角	角	край / рог
U + 9053	道	道	道	道	道	道	путь / путь / дорога
U + 96C7	雇	雇	雇	雇	雇	雇	нанять
U + 9AA8	骨	骨	骨	骨	骨	骨	кость

Ни один вариант символа, который является эксклюзивным для корейского или вьетнамского, не получил своей собственной кодовой точки, тогда как почти все японские варианты Синдзитай или варианты упрощенного китайского имеют отдельные кодовые точки и однозначные ссылочные глифы в стандарте Unicode.

В двадцатом веке страны Восточной Азии создали свои собственные стандарты кодирования. В каждом стандарте сосуществовали варианты с разными кодовыми точками, отсюда и отдельные кодовые точки в Unicode для определенных наборов вариантов. Если взять упрощенный китайский в качестве примера, два варианта символов內(U + 5167) и内(U + 5185) отличаются точно так же, как корейский и не корейский варианты全(U + 5168). Каждый соответствующий вариант первого символа имеет либо入(U + 5165), либо人(U + 4EBA). Каждый соответствующий вариант второго символа имеет либо入(U + 5165), либо人(U + 4EBA). Оба варианта первого символа имеют свои собственные отличные кодовые точки. Однако два варианта второго символа должны были иметь один и тот же код.

Обоснование Unicode дает, что национальный орган по стандартизации в КНР из различных кодовых точек для двух вариаций первого символа內/内, в то время как Корея никогда не делала отдельные точки коды для различных вариантов全. Для этого есть причина, не имеющая ничего общего с тем, как домашние тела видят самих персонажей. В двадцатом веке Китай прошел через процесс, который изменил (если не упростить) несколько символов. Во время этого перехода возникла необходимость кодировать оба варианта в одном документе. Корейский язык всегда использовал вариант全с радикалом入(U + 5165) наверху. Следовательно, не было причин кодировать оба варианта. В документах на корейском языке, созданных в двадцатом веке, было мало оснований для представления обеих версий в одном документе.

Почти все варианты, которые были разработаны или стандартизированы КНР, получили отдельные кодовые точки просто благодаря удачному переходу от упрощенного китайского языка к эпохе вычислений. Однако эта привилегия, похоже, применяется непоследовательно, тогда как большинство упрощений, выполненных в Японии и материковом Китае с кодовыми точками в национальных стандартах, включая символы, упрощенные по-разному в каждой стране, действительно вошли в Unicode как отдельные кодовые точки.

Шестьдесят два «упрощенных» символа Синдзитай с различными кодовыми точками в Японии были объединены с их традиционными эквивалентами Кюдзитай, такими как海. Это может вызвать проблемы для стратегии языковых тегов. Не существует универсального тега для традиционной и «упрощенной» версий японского языка, как для китайского. Таким образом, любой японский писатель хочет , чтобы отобразить Kyūjitai форму海может иметь помечать характер как «традиционный китайский» или траст , что японский шрифт ИСПОЛЬЗУЕТ получателя только глифы Kyūjitai, но теги традиционный китайский и упрощенный китайский язык может быть необходимо , чтобы показать две формы бок о бок в японском учебнике. Однако это помешало бы использовать один и тот же шрифт для всего документа. В Юникоде есть два разных кода для海, но только "по соображениям совместимости". Любой Unicode-совместимый шрифт должен отображать эквивалентные кодовые точки версий Kyūjitai и Shinjitai в Unicode как одинаковые. Неофициально шрифт может отображать海 по- разному: 海 (U + 6D77) как версия Синдзитай и 海 (U + FA45) как версия Кюдзитай (которая идентична традиционной письменной версии на китайском и корейском языках).

Радикал糸(U + 7CF8) используется в таких символах, как紅/红, с двумя вариантами, вторая форма - просто курсивная форма. Радикальные компоненты紅(U + 7D05) и红(U + 7EA2) семантически идентичны, и глифы различаются только последним с использованием курсивной версии компонента糸. Однако в материковом Китае органы стандартизации хотели стандартизировать курсивную форму при использовании в таких символах, как红. Поскольку это изменение произошло относительно недавно, был переходный период. И紅(U + 7D05), и红(U + 7EA2) получили отдельные кодовые точки в органах стандартов кодирования текста КНР, поэтому документы на китайском языке могут использовать обе версии. Два варианта также получили разные кодовые точки в Unicode.

Случай радикала艸(U + 8278) показывает, насколько произвольно обстоит дело. При использовании для создания символов, подобных草(U + 8349), радикал располагался наверху, но имел две разные формы. Традиционный китайский и корейский используют четырехтактную версию. В верхней части草должно быть что - то , что выглядит как два плюс знаков ( ⺿ ). Упрощенный китайский, японский кюдзитай и японский язык синдзитай используют трехстрочную версию, например, два знака плюс, разделяющих их горизонтальные штрихи ( ⺾ , то есть草). Органы кодирования текста КНР не кодировали два варианта по-разному. Тот факт, что почти каждое другое изменение, внесенное КНР, каким бы незначительным оно ни было, действительно требовало наличия собственного кода, предполагает, что это исключение могло быть непреднамеренным. Unicode скопировал существующие стандарты как есть, сохранив такие нарушения.

Консорциум Unicode обнаружил ошибки и в других случаях. Множество блоков Unicode для идеографов CJK Han имеют избыточность в исходных стандартах, избыточность, вызванную ошибочным импортом исходных стандартов, а также случайные слияния, которые позже исправляются, создавая прецедент для разобщения символов.

Для носителей языка варианты могут быть непонятными или неприемлемыми в образованном контексте. Носители английского языка могут понимать написанную от руки заметку «4P5 кг» как «495 кг», но написание девяти наоборот (так, чтобы они выглядели как «P») может вызвать неприятные ощущения и будет считаться неправильным в любой школе. Аналогичным образом, для пользователей одного языка CJK, читающих документ с «чужими» глифами: варианты骨могут отображаться как зеркальные изображения,者может не иметь штриха / иметь посторонний штрих, а令может быть нечитаемым или может быть перепутано с今 в зависимости от какой вариант令(например,令) используется.

Примеры некоторых неунифицированных идеографов Хань

В некоторых случаях, когда изменения наиболее заметны, Unicode закодировал вариантные символы, что избавляет от необходимости переключаться между шрифтами или langатрибутами. Однако некоторые варианты с возможно минимальными различиями получают разные кодовые точки, и не каждый вариант с возможно существенными изменениями получает уникальную кодовую точку. В качестве примера возьмем такой символ, как入(U + 5165), для которого единственный способ отобразить варианты - изменить шрифт (или langатрибут), как описано в предыдущей таблице. С другой стороны, для內(U + 5167), вариант内(U + 5185) получает уникальный элемент кода. Для некоторых символов, таких как兌/兑(U + 514C / U + 5151), любой метод может использоваться для отображения различных глифов. В следующей таблице в каждой строке сравниваются варианты, которым были присвоены разные кодовые точки. Для краткости обратите внимание, что варианты shinjitai с разными компонентами обычно (и неудивительно) принимают уникальные кодовые точки (например, 氣 / 気). Они не будут здесь появляться, как и упрощенные китайские иероглифы, которые имеют последовательно упрощенные радикальные компоненты (например, 紅 / 红, 語 / 语). Этот список не является исчерпывающим.

Упрощенный	Традиционный	Японский	Другой вариант	английский
U + 4E22 丢	U + 4E1F 丟			терять
U + 4E24 两	U + 5169 兩	U + 4E21 両	U + 34B3 㒳	два, оба
U + 4E58 乘	U + 4E58 乘	U + 4E57 乗	U + 6909 椉	ездить
U + 4EA7 产	U + 7522 產	U + 7523 産		рожать
U + 4FA3 侣	U + 4FB6 侶			товарищ
U + 5151 兑	U + 514C 兌			платить наличными
U + 5185 内	U + 5167 內			внутри
U + 522B 别	U + 5225 別			Покинуть
U + 7985 禅	U + 79AA 禪	U + 7985 禅		медитация (дзен)
U + 7A0E 税	U + 7A05 稅			налоги
U + 997F 饿	U + 9913 餓			голодный
U + 9AD8 高	U + 9AD8 高		U + 9AD9 髙	высокий
U + 9F9F 龟	U + 9F9C 龜	U + 4E80 亀		черепаха
U + 7814 硏	U + 7814 硏	U + 784F 研		исследовать
Источники : Китайско-английский словарь MDBG.

База данных идеографических вариаций (IVD)

Чтобы решить проблемы, вызванные объединением Хань, был создан технический стандарт Unicode, известный как База данных вариаций идентификаторов Unicode, чтобы решить проблему указания конкретного глифа в текстовой среде. Регистрируя коллекции глифов в базе данных идеографических вариаций (IVD), можно использовать селекторы идеографических вариаций для формирования последовательности идеографических вариаций (IVS), чтобы указать или ограничить соответствующий глиф при обработке текста в среде Unicode.

Диапазоны Unicode

Идеографические символы, присвоенные Unicode, появляются в следующих блоках:

CJK Unified Ideographs (4E00–9FFF) (также известный как URO, сокращение от Unified Repertoire and Ordering)
CJK Unified Ideographs Extension A (3400–4DBF)
Расширение B унифицированных иероглифов CJK (20000–2A6DF)
CJK Unified Ideographs Extension C (2A700–2B73F)
Расширение унифицированных иероглифов CJK D (2B740–2B81F)
Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
Расширение унифицированных иероглифов CJK F (2CEB0–2EBEF)
CJK Unified Ideographs Extension G (30000–3134F)
Идеографы совместимости CJK (F900 – FAFF) (двенадцать символов в FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29 на самом деле являются «унифицированными идеограммами», а не «идеограммами совместимости»)

Unicode включает поддержку радикалов CJKV, штрихов, знаков препинания, знаков и символов в следующих блоках:

Приложение CJK Radicals (2E80–2EFF)
Инсульт CJK (31C0–31EF)
Символы и знаки препинания CJK (3000–303F)
Символы идеографического описания (2FF0–2FFF)

В этих блоках появляются дополнительные символы совместимости (использование которых не рекомендуется):

Совместимость с CJK (3300–33FF)
Формы совместимости CJK (FE30 – FE4F)
Идеографы совместимости CJK (F900 – FAFF)
Приложение к идеографам совместимости с CJK (2F800–2FA1F)
Приложенные буквы и месяцы CJK (3200–32FF)
Прилагаемое идеографическое приложение (1F200–1F2FF)
Kangxi Radicals (2F00–2FDF)

Эти символы совместимости (за исключением двенадцати унифицированных иероглифов в блоке CJK Compatibility Ideographs) включены для совместимости с устаревшими системами обработки текста и другими устаревшими наборами символов. Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами.

Ядро международных идеографов

Ядро международных идеографов (IICore) представляет собой подмножество идеографов 9810, полученных из таблиц унифицированных идеографов CJK, предназначенное для реализации в устройствах с ограниченной памятью, возможностями ввода / вывода и / или приложениями, в которых используется полный репертуар идеографов ISO 10646. неосуществимо. В текущем стандарте 9810 символов.

Файлы базы данных Unihan

Проект Unihan всегда старался сделать свою базу данных сборки доступной.

Проект libUnihan предоставляет нормализованную базу данных SQLite Unihan и соответствующую библиотеку C. Все таблицы в этой базе данных имеют пятую нормальную форму . libUnihan выпускается под лицензией LGPL , а его база данных, UnihanDb, выпускается под лицензией MIT .

Languages

In other projects