Японский язык и компьютеры - Japanese language and computers

Японская клавиатура кана

Применительно к японскому языку и компьютерам возникает множество проблем адаптации, некоторые из которых характерны только для японского, а другие общие для языков с очень большим количеством символов. Количество символов, необходимых для записи на английском языке, довольно невелико, поэтому для кодирования каждого английского символа можно использовать только один байт (2 8 = 256 возможных значений). Однако количество символов в японском языке намного превышает 256 и, следовательно, не может быть закодировано с использованием одного байта. Таким образом, японский язык кодируется с использованием двух или более байтов в так называемой «двухбайтовой» или «многобайтовой» кодировке. Возникающие проблемы связаны с транслитерацией и латинизацией , кодировкой символов и вводом японского текста.

Кодировки символов

Существует несколько стандартных методов кодирования японских символов для использования на компьютере, включая JIS , Shift-JIS , EUC и Unicode . Если составить карту набора кана - дело несложное, то кандзи оказалось сложнее. Несмотря на усилия, ни одна из схем кодирования не стала стандартом де-факто, и к 2000-м годам использовалось несколько стандартов кодирования. По состоянию на 2017 год доля трафика UTF-8 в Интернете увеличилась до более чем 90% во всем мире, и только 1,2% приходилось на использование Shift-JIS и EUC. Тем не менее, несколько популярных веб-сайтов, включая 2channel и kakaku.com , все еще используют Shift-JIS.

До 2000-х годов большинство японских электронных писем было в ISO-2022-JP («кодировка JIS»), а веб-страницы в Shift-JIS, а мобильные телефоны в Японии обычно использовали ту или иную форму расширенного кода Unix . Если программе не удается определить используемую схему кодирования, это может вызвать моджибаке (文字 化 け, «неправильно преобразованные, искаженные / мусорные символы», буквально «преобразованные символы») и, следовательно, нечитаемый текст на компьютерах.

Карта Kanji ROM, установленная в PC-98 , хранит около 3000 символов и обеспечивает быстрое отображение. У него также была оперативная память для хранения гайдзи.
Встроенные устройства по-прежнему используют кана половинной ширины

Первой, получившей широкое распространение кодировкой, стала JIS X 0201 , которая представляет собой однобайтовую кодировку , охватывающую только стандартные 7-битные символы ASCII с расширениями катаканы половинной ширины . Это широко использовалось в системах, которые не были достаточно мощными и не имели хранилища для обработки иероглифов (включая старое встроенное оборудование, такое как кассовые аппараты), потому что преобразование кана-кандзи требовало сложного процесса, а вывод в кандзи требовал большого объема памяти и высокого разрешения. Это означает, что с помощью этой техники поддерживалась только катакана, а не кандзи. Некоторые встроенные дисплеи все еще имеют это ограничение.

Развитие кодировок кандзи стало началом раскола. Shift JIS поддерживает иероглифы и был разработан для полной обратной совместимости с JIS X 0201 и, таким образом, используется во многих встроенных электронных устройствах. Однако у Shift JIS есть досадное свойство: он часто ломает любой анализатор (программное обеспечение, считывающее закодированный текст), который специально не предназначен для его обработки.

Например, некоторые символы Shift-JIS включают обратную косую черту (005C "\") во втором байте, которая используется как escape-символ .

8d 5c 82 ред 82 c8 82 а2

Синтаксический анализатор, не поддерживающий Shift JIS, распознает 005C как недопустимую escape-последовательность и удалит ее. Следовательно, фраза вызывает моджибаке.

8d   82 ред 82 c8 82 а2

Это может произойти, например, в языке программирования C , когда в текстовых строках есть Shift-JIS. Этого не происходит в HTML, поскольку ASCII 0x00–0x3F (который включает ",% и" и некоторые другие используемые escape-символы и разделители строк) не отображаются как второй байт в Shift-JIS.

EUC , с другой стороны, намного лучше обрабатывается парсерами, которые были написаны для 7-битного ASCII (и, таким образом, кодировки EUC используются в UNIX, где большая часть кода обработки файлов исторически писалась только для английских кодировок). Но EUC не имеет обратной совместимости с JIS X 0201, первой основной японской кодировкой. Дальнейшие сложности возникают из-за того, что исходные стандарты электронной почты в Интернете поддерживают только 7-битные протоколы передачи. Таким образом, RFC  1468ISO-2022-JP », часто просто называемый кодировкой JIS ) был разработан для отправки и получения электронной почты.

Гайдзи используется в субтитрах японского телевидения.

В стандарты набора символов, такие как JIS , включены не все обязательные символы, поэтому иногда в качестве дополнения к набору символов используются гайдзи (外 字«внешние символы»). Gaiji может быть в виде пакетов внешних шрифтов, где обычные символы были заменены новыми символами или новые символы были добавлены к неиспользуемым позициям символов. Однако гайджи непрактичны в среде Интернета, поскольку для использования гайджи набор шрифтов должен быть передан вместе с текстом. В результате такие символы записываются с аналогичными или более простыми символами на месте, или может потребоваться кодирование текста с использованием большего набора символов (например, Unicode), который поддерживает требуемый символ.

Unicode был предназначен для решения всех проблем с кодировкой на всех языках. UTF-8 кодирование используется для кодирования Unicode в веб - страницах , не имеет недостатков , что Shift-JIS есть. Юникод поддерживается международным программным обеспечением, что устраняет необходимость в гайдзи. Однако до сих пор существуют разногласия. Для японского языка иероглифы кандзи объединены с китайскими; то есть символу, который считается одним и тем же в японском и китайском языках, присваивается один номер, даже если внешний вид на самом деле несколько отличается, а точный внешний вид остается на усмотрение шрифта, соответствующего языку. Этот процесс, названный объединением ханьцев , вызвал споры. Предыдущие кодировки в Японии, Тайване , материковом Китае и Корее обрабатывали только один язык, а Unicode - все. Однако обработка кандзи / китайского языка была разработана комитетом, состоящим из представителей всех четырех стран / регионов.

Ввод текста

В письменном японском языке используется несколько разных шрифтов: кандзи (китайские иероглифы), 2 набора кана (фонетические слоговые буквы) и латинские буквы. Хотя кана и латинские буквы можно набирать прямо на компьютере, ввод кандзи - более сложный процесс, поскольку кандзи гораздо больше, чем клавиш на большинстве клавиатур. Для ввода кандзи на современных компьютерах сначала обычно вводится чтение кандзи, затем редактор метода ввода (IME), также иногда известный как интерфейсный процессор, показывает список подходящих кандзи, которые являются фонетическим соответствием, и позволяет пользователь, чтобы выбрать правильный кандзи. Более продвинутые IME работают не по словам, а по фразам, что увеличивает вероятность получения желаемых символов в качестве первого из представленных вариантов. Ввод значений кандзи может осуществляться либо посредством латинизации ( ромадзи ньюрёку, ロ ー マ 字 入 力), либо путем прямого ввода кана ( кана ньюрёку,か な 入 力). Ввод ромадзи более распространен на ПК и других полноразмерных клавиатурах (хотя прямой ввод также широко поддерживается), тогда как прямой ввод кана обычно используется на мобильных телефонах и аналогичных устройствах - каждая из 10 цифр (1–9,0) соответствует в один из 10 столбцов в таблице каны годзюон , и несколько нажатий выберите строку.

Есть две основные системы латинизации японского языка, известные как Кунрей-сики и Хепберн ; на практике «клавиатура ромадзи» (также известная как вапуро ромадзи или «ромадзи текстового процессора») обычно допускает вольную комбинацию обоих. Реализации IME могут даже обрабатывать ключи для букв, не используемых в какой-либо схеме латинизации, такой как L , преобразовывая их в наиболее подходящий эквивалент. При вводе кана каждая клавиша на клавиатуре напрямую соответствует одной кане. JIS клавиатура система является национальным стандартом, но есть альтернативы, такие как большой палец переключения клавиатура , обычно используемых среди профессиональных машинисток.

Направление текста

LibreOffice Writer поддерживает опцию нисходящего текста

На японском можно писать в двух направлениях . Стиль Ёкогаки пишет слева направо, сверху вниз, как в английском языке. Стиль Татегаки сначала пишет сверху вниз, а затем перемещается справа налево.

Чтобы конкурировать с Ichitaro , Microsoft предоставила несколько обновлений для ранних японских версий Microsoft Word, включая поддержку нисходящего текста, таких как Word 5.0 Power Up Kit и Word 98.

QuarkXPress был самым популярным программным обеспечением DTP в Японии в 1990-х годах, даже если у него был длинный цикл разработки. Однако из-за отсутствия поддержки нисходящего текста его превзошла Adobe InDesign, которая имела сильную поддержку нисходящего текста через несколько обновлений.

В настоящее время обработка нисходящего текста не завершена. Например, HTML не поддерживает татэгаки, и японские пользователи должны использовать таблицы HTML для его имитации. Однако уровень CSS 3 включает свойство « writing-mode », которое может отображать татегаки, если задано значение « vertical-rl » (то есть сверху вниз, справа налево). Текстовые процессоры и программное обеспечение DTP имеют более полную поддержку для этого.

Смотрите также

использованная литература

внешние ссылки