Корейский язык и компьютеры - Korean language and computers

Южнокорейский стандартный макет Дубеолсик (двухкомпонентный).

Система письма корейского языка , хангыль , представляет собой алфавит, состоящий из блоков слогов ; символы нельзя писать слева направо. Из-за этого каждый возможный слог в корейском языке должен быть либо отображен как блоки слогов с помощью шрифта , либо кодироваться отдельно. Unicode использует последний вариант. Например, слог 하 (ha) состоит из символов ㅎ (h) и ㅏ (a), но оба они кодируются отдельно.

Стандартная северокорейская раскладка Дубеолсик

Кодировки символов

В RFC 1557 описан метод, известный как ISO-2022-KR, для 7-битного кодирования корейских символов в электронной почте . Если разрешено 8 бит, предпочтительнее кодирование EUC-KR . Эти две кодировки объединяют US-ASCII ( ISO 646 ) с корейским стандартом KS X 1001 : 1992 (ранее называвшимся KS C 5601: 1987). В Северной Корее используется отдельный набор символов под названием KPS 9566 , который очень похож на KS X 1001.

Международный стандарт Unicode содержит специальные символы для представления корейского языка в фонетической системе родного хангыля . Unicode поддерживает два способа. Способ , используемый Microsoft Windows , чтобы иметь каждый из 11,172 слоговых комбинаций в качестве кода и предварительно сформированного шрифт характера. Другой способ - закодировать буквы ( jamos ) и позволить программе объединить их в правильные комбинации, что не поддерживается в Windows. Конечно, для первого способа требуется больше памяти шрифтов, но он дает возможность получить более точные формы, поскольку сложно создать полностью стилистически правильные комбинации, которые могут быть предпочтительнее при создании документов.

Существует также возможность просто укладки (последовательность) срединные (ы) ( юнсон ) - и затем (последовательность) окончательный (s) ( jongseong ) и / или Средний корейскую марку тангажа, при необходимости - на вершине (последовательность) начальных букв ( выбранонг ), если в шрифте есть медиальный и конечный джамо с интервалом нулевой ширины, которые вставляются слева от курсора или каретки, таким образом появляясь в нужном месте ниже или справа от начальный. Если в слоге есть горизонтальная медиальная часть ( , , , или ), начальная буква , вероятно, будет располагаться дальше слева в полном слоге, чем в случае предварительно сформированных слогов, из-за пространства, которое должно быть зарезервировано для вертикального слога. medial, придавая эстетически плохой вид тому, что может быть единственным способом отображения среднекорейского текста хангыль, не прибегая к изображениям, латинизации, замене устаревших джамо или нестандартных кодировок. Однако большинство современных шрифтов этого не поддерживают.

Стандарт Unicode также попытался создать унифицированный набор символов CJK, который может представлять китайские ( Hanzi ), а также японские ( Kanji ) и корейские ( Hanja ) производные этого сценария посредством процесса унификации Han , который не различает ни по языку, ни по языку. область для отображения китайских иероглифов, если различные типографские традиции не привели к серьезным различиям в том, как выглядит персонаж - см. Изображение: Xin-jiu-zixing.png, где приведены примеры символов, внешний вид которых недавно претерпел лишь незначительные изменения в материковом Китае . Объединение ханьцев было встречено некоторой критикой.

Ввод текста

На клавиатуре корейского компьютера текст обычно вводится простым нажатием клавиши соответствующего джамо ; операционная система создает каждый составной символ на лету. В зависимости от IME и раскладки клавиатуры, двойные согласные можно вводить, удерживая кнопку Shift. Когда все хамо, составляющие слоговой блок, введены, пользователь может инициировать преобразование в ханджа или другие специальные символы с помощью сочетания клавиш или кнопки интерфейса; На южнокорейских клавиатурах для этого есть отдельная клавиша. Последующее полуавтоматическое преобразование ханья в различной степени поддерживается текстовыми процессорами.

При использовании клавиатуры на другом языке большинство операционных систем требуют, чтобы пользователь набирал текст с использованием оригинальной корейской раскладки клавиатуры, наиболее распространенной из которых является 2 (du) -beolsik . Это контрастирует с некоторыми другими языками, такими как японский, где текст можно вводить с использованием системы латинизации на неродных клавиатурах.

Не так, как большинство операционных систем, таких как Linux, позволяют engine / hangul / hangul-keyboard = 'ro' , что приводит к клавиатуре ромаджа, где ввод «seonggye» приводит к 성계. В этой конфигурации ㄲ получается с помощью "gg", а не shift-g. Это позволяет вводить «jasanGun» для получения 자산 군 вместо ввода «jasangun», которое давало бы 자 상운.

История корейских пишущих машинок

Предварительное разделение Кореи

История корейского ввода текста связана с историей корейских пишущих машин (타자기) до компьютеров. Неясно, какая была первая корейская пишущая машинка. По словам Чан Бон Сона, Гораций Грант Андервуд создал корейскую пишущую машинку примерно в 1900-х годах. В 1914 году Ли Вон Ик, который жил в Америке, сделал «первую» пишущую машинку. В 1927 году Сон Ки Джу изобрел первую пишущую машинку дубеолсик, находясь в Чикаго, но сегодня ее не существует. Тем не менее, его пишущая машинка 1934 года хранится в музее хангыля как самая старая из существующих корейских пишущих машинок. Изобретение пишущей машинки привело к развитию других писателей типа , изобретенных в 1945 году Ким Джуна поется и 1950 по Конге Бюнг свататься .

Дивизия Кореи

Изначально в Южной Корее был стандарт Небеолсик, но позже, в 1985 году, стандартом стал Дубеолсик.

Ханджа

Помимо проблем с преобразованием, упомянутых выше, некоторые корейские шрифты изначально не включают ханджа. В то же время текущие текстовые процессоры не позволяют пользователю указывать, какой шрифт использовать в качестве запасного варианта для любой ханджи, которая может встречаться в тексте. В этом случае каждая последовательность ханья должна быть вручную отформатирована, чтобы она отображалась желаемым шрифтом.

Особые ситуации

Отображение текста в вертикальных строках плохо или совсем не поддерживается HTML и большинством текстовых процессоров, хотя это не проблема для современного корейского языка, поскольку он обычно пишется горизонтально. Однако до второй половины 20 века корейский язык часто писали вертикально. Тексты 15-го века, написанные на хангыле, имели отметки высоты тона слева от слогов, которые включены в Unicode, хотя большинство современных шрифтов также не поддерживают их должным образом.

См. Раздел о кодировках символов выше для устаревшего хамо.

Программ

Известные программы, специально разработанные для использования на корейском языке, включают:

Хангыль в Юникоде

Персонажи хангыль джамо в Юникоде
Совместимость с хангылем Блок Jamo в Юникоде

Буквы хангыль подробно описаны в нескольких отдельных частях спецификации Unicode:

Блок слогов хангыль

Предварительно составленные слоги хангыль в блоке слогов хангыль в Юникоде определяются алгоритмически с использованием следующей формулы:

[(начальный) × 588 + (средний) × 28 + (конечный)] + 44032
  • Начальные согласные
  • Средние гласные
  • Конечные согласные

Например, если кто-то хочет найти кодовую точку « » в Юникоде:

  • Значение начальной согласной ㅎ равно 18.
  • Значение средней гласной ㅏ равно 0.
  • Значение последней согласной ㄴ равно 4.

Подставляя эти значения в формулу выше, получаем [(18 × 588) + (0 × 28) + 4] + 44032 = 54620. Это означает, что значение Unicode для 한 равно 54620 в десятичной системе счисления 한по числовой ссылке на символ , и U + D55C в шестнадцатеричном формате Unicode.

Совместимость хангыль Джамо блок

Совместимость с хангылом Блок Jamo является частью Unicode, который был выделен для совместимости с набором символов KS X 1001 . Обычно он используется для представления какого-то хангыль-джамо отдельно, без разделения начального и конечного .

Блоки хангыль-джамо

Блоки хангыль джамо , хангыль джамо расширенный-A и хангыль джамо расширенный-B содержат начальное джамо , среднее джамо и последнее джамо , включая устаревшее джамо.

Код города Ханьян для частного использования

Hangul (текстовый процессор) поставляется со шрифтами от Hanyang Information and Communication . Их шрифты отображают устаревшие символы хангыль в область частного использования Unicode. Несмотря на использование области частного использования вместо выделенных кодовых точек, отображение Hanyang было по состоянию на 2007 год самым популярным способом представления устаревшего хангыля в Южной Корее.

Начиная с Hangul 2010, Hancom отказался от кода Hanyang PUA и решил представлять устаревшие символы хангыль с помощью хангыль джамо в Unicode.

Смотрите также

использованная литература

внешние ссылки