Алфавитный порядок - Alphabetical order

Алфавитный порядок - это система, в которой строки символов размещаются в порядке, основанном на положении символов в обычном порядке алфавита . Это один из методов сопоставления . В математике лексикографический порядок - это обобщение алфавитного порядка на другие типы данных, такие как последовательности цифр или чисел.

При применении к строкам или последовательностям, которые могут содержать цифры, числа или элементы более сложного типа, помимо буквенных символов, алфавитный порядок обычно называется лексикографическим порядком .

Чтобы определить, какая из двух строк символов будет первой при расположении в алфавитном порядке, сравниваются их первые буквы . Если они различаются, то строка, первая буква которой идет раньше в алфавите, идет раньше другой строки. Если первые буквы совпадают, то сравниваются вторые буквы и так далее. Если достигается позиция, в которой в одной строке больше нет букв для сравнения, а в другой - нет, то считается, что первая (более короткая) строка идет первой в алфавитном порядке.

Заглавные буквы (верхний регистр) обычно считаются идентичными соответствующим строчным буквам для целей алфавитного упорядочения, хотя могут быть приняты соглашения для обработки ситуаций, когда две строки отличаются только заглавными буквами. Также существуют различные соглашения для обработки строк, содержащих пробелы , измененные буквы (например, с диакритическими знаками ) и небуквенные символы, такие как знаки препинания .

В результате размещения набора слов или строк в алфавитном порядке все строки, начинающиеся с одной и той же буквы, группируются вместе; внутри этой группы все слова, начинающиеся с одной и той же двухбуквенной последовательности, сгруппированы вместе; и так далее. Таким образом, система стремится максимизировать количество общих начальных букв между соседними словами.

История

Алфавитный порядок был впервые использован в 1-м тысячелетии до н.э. северо-западными семитскими писцами, использующими систему Абджад . Однако ряд других методов классификации и упорядочивания материала, включая географический, хронологический , иерархический и по категориям , на протяжении столетий предпочитался алфавитному порядку.

Библия датируется BCE шестых-7th вв. В Книге Иеремии пророк использует замещающий шифр Атбаш , основанный на алфавитном порядке. Точно так же библейские авторы использовали акростихи, основанные на (упорядоченном) еврейском алфавите .

Первое эффективное использование алфавитного порядка в качестве инструмента каталогизации среди ученых, возможно, было в древней Александрии, в Великой Александрийской библиотеке , которая была основана около 300 г. до н. Э. Поэт и ученый Каллимах , который работал там, как полагают, создал первый в мире библиотечный каталог , известный как Pinakes , со свитками, разложенными на полках в алфавитном порядке по первым буквам имен авторов.

В I веке до нашей эры римский писатель Варрон составил алфавитные списки авторов и названий. Во II веке н.э. Секст Помпей Фест написал энциклопедическое воплощение произведений Верриуса Флакка , De verborum migatu , с записями в алфавитном порядке. В III веке н.э. Гарпократ написал гомеровский лексикон, алфавитный по всем буквам. В 10 веке автор Суды использовал алфавитный порядок с фонетическими вариациями.

Алфавитный порядок в качестве вспомогательного средства для консультации начал входить в мейнстрим интеллектуальной жизни Западной Европы во второй половине XII века, когда были разработаны алфавитные инструменты, помогающие проповедникам анализировать библейский словарный запас. Это привело к составлению алфавитных соответствий Библии доминиканскими монахами в Париже в 13 веке при Хью де Сен-Шер . Старые справочные материалы, такие как « Толкование еврейских имен» Св. Иеронима, были упорядочены по алфавиту для облегчения просмотра. Ученые изначально сопротивлялись использованию алфавитного порядка, ожидая, что их ученики будут овладевать своей областью обучения в соответствии с его собственными рациональными структурами; его успех был обусловлен такими инструментами, как указатель Роберта Килвардби к произведениям Св. Августина , который помог читателям получить доступ к полному оригинальному тексту, а не зависеть от компиляций отрывков, которые стали заметными в схоластике 12 века . Принятие алфавитного порядка было частью перехода от приматов памяти к письменным произведениям. Идея упорядочения информации по алфавиту также встретила сопротивление составителей энциклопедий в XII и XIII веках, которые все были набожными церковниками. Они предпочли организовать свой материал теологически - в порядке творения Бога, начиная с Деуса (имеется в виду Бог).

В 1604 году Роберту Каудри пришлось объяснять в Table Alphabeticall , первом одноязычном словаре английского языка : «Теперь, если слово, которое вы хотите найти, начинается с (a), то посмотрите в начале этой таблицы, но если с (v) посмотри ближе к концу ». Хотя еще в 1803 году Сэмюэл Тейлор Кольридж осуждал энциклопедии за «расположение, определяемое случайностью начальных букв», сегодня многие списки основаны на этом принципе.

Упорядочение в алфавитном порядке можно рассматривать как фактор демократизации доступа к информации, поскольку не требуется обширных предварительных знаний, чтобы найти то, что было необходимо.

Заказ латиницей

Основной порядок и примеры

Стандартный порядок современного основного латинского алфавита ISO :

АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЫЭЮЯ

Ниже приводится пример простого алфавитного упорядочивания:

  • В качестве; Астра; Астролябия; Астрономия; Астрофизика; В; Атаман; Атака; Баа

Другой пример:

  • Ракушка; Быть; Был; Выгода; Согнутый

Вышеупомянутые слова расположены в алфавитном порядке. Как идет перед Aster , потому что они начинаются с тех же двух букв и , как не имеет больше букв , после что в то время как Aster делает. Следующие три слова идут после астры, потому что их четвертая буква (первая, которая отличается) - это r , которая идет после е (четвертая буква астры ) в алфавите. Сами слова расположены в порядке их шестой буквы ( l , n и p соответственно). Затем идет Ат , который отличается от предыдущих слов второй буквой ( t идет после s ). Атаман идет после Ата по той же причине, по которой Астер пришел после Аса . Атака следует за атаманом на основе сравнения их третьих букв, а Баа следует за всеми остальными, потому что у него другая первая буква.

Обработка многословных строк

Когда некоторые из упорядочиваемых строк состоят из более чем одного слова, т. Е. Содержат пробелы или другие разделители, такие как дефисы , тогда можно использовать два основных подхода. В первом подходе все строки сначала упорядочиваются в соответствии с их первым словом, как в последовательности:

  • Дуб; Дубовый холм; Oak Ridge; Окли Парк; Oakley River
    где все строки, начинающиеся с отдельного слова Oak, предшествуют всем строкам, начинающимся с Oakley , потому что Oak предшествует Oakley в алфавитном порядке.

Во втором подходе строки располагаются в алфавитном порядке, как если бы в них не было пробелов, что дает последовательность:

  • Дуб; Дубовый холм; Окли Парк; Река Окли; Oak Ridge
    где Oak Ridge теперь идет после струнных Oakley , как если бы это было написано "Oakridge".

Второй подход обычно используется в словарях, поэтому издатели часто называют его упорядочением по словарям . Первый подход часто использовался в книжных указателях , хотя каждый издатель традиционно устанавливал свои собственные стандарты для того, какой подход использовать в них; До 1975 года не существовало стандарта ISO для указателей книг ( ISO 999 ).

Особые случаи

Измененные буквы

Во французском языке измененные буквы (например, с диакритическими знаками ) обрабатываются так же, как базовая буква для целей алфавитного упорядочения. Например, между роком и розой идет роль , как если бы это была написанная роль . Однако языки, которые используют такие буквы систематически, обычно имеют свои собственные правила упорядочивания. См. Раздел « Соглашения для конкретных языков» ниже.

Заказ по фамилии

В большинстве культур, где фамилии пишутся после имен , все же желательно сначала сортировать списки имен (как в телефонных справочниках) по фамилии. В этом случае необходимо изменить порядок имен для правильной сортировки. Например, Хуана Эрнандеса и Брайана О'Лири следует отсортировать как «Эрнандес, Хуан» и «О'Лири, Брайан», даже если они написаны иначе. Уловить это правило в компьютерном алгоритме сопоставления сложно, и простые попытки обязательно потерпят неудачу. Например, если в распоряжении алгоритма нет обширного списка фамилий, невозможно определить, является ли «Джиллиан Люсиль ван дер Ваал» «Ван дер Ваал, Джиллиан Люсиль», «Ваал, Джиллиан Люсиль ван дер», или даже «Люсиль ван дер Ваал, Джиллиан».

Упорядочивание по фамилии часто встречается в академическом контексте. В рамках одной статьи с несколькими авторами упорядочивание авторов в алфавитном порядке по фамилии, а не с помощью других методов, таких как обратный стаж или субъективная степень вклада в статью, рассматривается как способ «признательности за аналогичный вклад» или «избежать [ing] дисгармония в сотрудничающих группах ». Было обнаружено, что практика в некоторых областях упорядочивания цитат в библиографиях по фамилиям их авторов создает предвзятость в пользу авторов с фамилиями, которые появляются раньше в алфавите, в то время как этот эффект не проявляется в полях, в которых библиографии упорядочены в хронологическом порядке.

Те и другие общие слова

Если фраза начинается с очень распространенного слова (например, «the», «a» или «an», которое в грамматике называется артиклем), это слово иногда игнорируется или перемещается в конец фразы, но это не всегда кейс. Например, книгу « Сияние » можно трактовать как «Сияние» или «Сияние» и, следовательно, до названия книги « Лето Сэма », хотя ее также можно трактовать просто как «Сияние» и после « Лето Сэма ». Точно так же « Морщинка во времени » может трактоваться как «Морщинка во времени», «Морщинка во времени, A» или «Морщинка во времени». Все три метода алфавита довольно легко создать с помощью алгоритма, но многие программы вместо этого полагаются на простой лексикографический порядок .

Префиксы Mac

Префиксы M ' и Mc в ирландских и шотландских фамилиях являются аббревиатурами для Mac и иногда располагаются в алфавитном порядке, как будто написано Mac полностью. Таким образом, Мак-Кинли мог быть указан перед Макинтошем (как если бы он был написан как «Мак-Кинли»). С появлением компьютерно-сортированных списков этот тип алфавита встречается реже, хотя он все еще используется в британских телефонных справочниках.

Префикс St

Приставка St или St. является сокращением от «Saint» и традиционно приводится в алфавитном порядке, как если бы написание было Saint полностью. Таким образом, в географическом справочнике Святой Иоанн мог бы быть указан перед Салемом (как если бы он был написан как «Святой Иоанн»). С появлением компьютерно-сортированных списков этот тип алфавита встречается реже, хотя иногда он все еще используется.

Лигатуры

Лигатуры (две или более буквы, объединенные в один символ), которые не считаются отдельными буквами, такие как Æ и Œ в английском языке, обычно сопоставляются так, как если бы буквы были отдельными - «эфир» и «эфир» были бы упорядочены одинаково относительно все остальные слова. Это верно даже тогда, когда лигатура не является чисто стилистической, например, в заимствованных словах и торговых марках.

Может потребоваться принятие специальных правил для сортировки строк, которые различаются только в зависимости от того, соединены ли две буквы лигатурой.

Обработка цифр

Когда некоторые строки содержат цифры (или другие небуквенные символы), возможны различные подходы. Иногда такие символы рассматриваются так, как если бы они стояли до или после всех букв алфавита. Другой метод заключается в сортировке чисел в алфавитном порядке, как они будут записаны: например, 1776 будет отсортирован, как если бы записано «семнадцать семьдесят шесть», а 24 heures du Mans, как если бы написано «vingt-quatre ...» (французский язык) на «двадцать четыре»). Когда цифры или другие символы используются в качестве специальных графических форм букв, как, например, 1337 для leet или фильм Seven (который был стилизован под Se7en ), они могут быть отсортированы, как если бы они были этими буквами. Естественный порядок сортировки упорядочивает строки в алфавитном порядке, за исключением того, что многозначные числа обрабатываются как один символ и упорядочиваются по значению числа, закодированного цифрами.

Конкретные языковые соглашения

Языки, в которых используется расширенный латинский алфавит, обычно имеют свои собственные правила обращения с дополнительными буквами. Также в некоторых языках определенные диграфы обрабатываются как отдельные буквы для целей сопоставления. Например, 29-буквенный алфавит испанского языка рассматривает ñ как базовую букву, следующую за n , и раньше рассматривал орграфы ch и ll как базовые буквы, следующие за c и l , соответственно. Ch и ll по-прежнему считаются буквами, но теперь они расположены по алфавиту как двухбуквенные комбинации. (Новое правило алфавитизации было выпущено Королевской испанской академией в 1994 году.) С другой стороны, орграф rr следует за rqu, как и ожидалось, и сделал это даже до правила алфавитизации 1994 года.

В некоторых случаях, например в Кайова , алфавит был полностью изменен.

Правила алфавита, применяемые к различным языкам, перечислены ниже.

  • В азербайджанском к стандартному латинскому алфавиту есть восемь дополнительных букв. Пять из них - гласные: i, ı, ö, ü, ə и три - согласные: ç, ş, ğ. Алфавит такой же, как турецкий , с теми же звуками, написанными теми же буквами, за исключением трех дополнительных букв: q, x и ə для звуков, которых нет в турецком языке. Хотя все «турецкие буквы» упорядочены в их «нормальном» алфавитном порядке, как в турецком, три дополнительных буквы сопоставляются произвольно после букв, звуки которых близки к их. Итак, q сопоставляется сразу после k, x (произносится как немецкое ch ) сопоставлено сразу после h, а ə (произносится примерно как английское сокращение a ) сопоставлено сразу после e.
  • В бретонском языке нет «c», «q», «x», но есть орграфы «ch» и «c'h», которые сопоставляются между «b» и «d». Например: «buzhugenn, chug, c'hoar, daeraouenn» (дождевой червь, сок, сестра, слеза).
  • В боснийском , хорватском и сербском и других родственных языков южнославянских, пять акцентированных символов и трех соединенных символов сортируются после оригиналов: ..., C, C, C, D, DZ, Диджей, E, ..., L , LJ, M, N, NJ, O, ..., S, Š, T, ..., Z, Ž.
  • В чешском и словацком языках гласные с ударением имеют вторичный вес при сопоставлении - по сравнению с другими буквами они рассматриваются как их формы без ударения (A-Á, E-É-Ě, I-Í, O-Ó-Ô, U-Ú-Ů , Y-Ý), но затем они сортируются после букв без ударения (например, правильный лексикографический порядок: baa, baá, báa, bab, báb, bac, bác, bač, báč). Согласные с ударением (те, что с кароном ) имеют первичный упорядочивающий вес и размещаются сразу после их безударных двойников, за исключением Ď, Ň и Ť, которые снова имеют вторичный вес. CH считается отдельным письмом и идет между H и I . В словацком DZ и также считаются отдельными буквами и располагаются между Ď и E (A-Á-Ä-BC-Č-D-Ď-DZ-DŽ-E-É ...).
  • В датском и норвежском алфавитах также присутствуют те же дополнительные гласные, что и в шведском (см. Ниже), но в другом порядке и с другими знаками (..., X, Y, Z, Æ , Ø , Å ). Кроме того, «Aa» сопоставляется как эквивалент «Å». В датском алфавите «W» традиционно рассматривается как вариант «V», но сегодня «W» считается отдельной буквой.
  • В голландском языке комбинация IJ (обозначающая IJ ) раньше должна была быть сопоставлена ​​как Y (или иногда как отдельная буква: Y <IJ <Z), но в настоящее время в основном сопоставлена ​​как 2 буквы (II <IJ <IK). Исключение составляют телефонные справочники; IJ всегда сопоставляется здесь как Y, потому что во многих голландских фамилиях Y используется там, где современное написание требует IJ. Обратите внимание, что слово, начинающееся с ij, которое пишется с большой буквы, также пишется с большой буквы, например, город Эймёйден , река Эйссел и страна Эйсланд ( Исландия ).
  • В эсперанто согласные с акцентами с циркумфлексом ( ĉ , ĝ , ĥ , ĵ , ŝ ), а также ŭ (u с breve ) считаются отдельными буквами и сопоставляются отдельно (c, ĉ, d, e, f, g, ĝ, h, ĥ, i, j, ĵ ... s, ŝ, t, u, ŭ, v, z).
  • В эстонском языке õ , ä , ö и ü считаются отдельными буквами и сопоставляются после w . Буквы š , z и ž появляются только в заимствованных словах и иностранных именах собственных и следуют за буквой s в эстонском алфавите , который в остальном не отличается от основного латинского алфавита.
  • В фарерском алфавите также есть некоторые дополнительные буквы датского, норвежского и шведского языков, а именно Æ и Ø . Кроме того, Фарерская алфавит использует исландский ETH, который следует за D . Пять из шести гласных A , I , O , U и Y могут иметь ударение и после этого считаются отдельными буквами. Согласные C , Q , X , W и Z не встречаются. Следовательно, первые пять букв - это A , Á , B , D и Ð , а последние пять - это V , Y , Ý , Æ , Ø.
  • На филиппинском (тагальском) и других филиппинских языках буква Ng рассматривается как отдельная буква. Оно произносится как «пение», «пинг-понг» и т. Д. Само по себе оно произносится как « нанг» , но в общей филиппинской орфографии оно пишется так, как если бы это были две отдельные буквы (п и г). Кроме того, производные от букв (например, Ñ ) следуют сразу за базовой буквой. Филиппинский также пишется с диакритическими знаками, но они используются очень редко (кроме тильды ). (Филиппинская орфография также включает орфографию.)
  • В Финском алфавите и сопоставление правило такие же , как и шведский.
  • Во французском языке последний акцент в данном слове определяет порядок. Например, во французском языке следующие четыре слова будут отсортированы таким образом: cote <côte <coté <côté.
  • В немецком языке буквы с умлаутом ( Ä , Ö , Ü ) обычно обрабатываются так же, как и их версии без умлаута; ß всегда сортируется как ss. Это делает алфавитный порядок Arbeit, Arg, Ärgerlich, Argument, Arm, Assistant, Aßlar, Assoziation. Для телефонных справочников и подобных списков имен умлауты должны быть сопоставлены как буквенные комбинации «ae», «oe», «ue», потому что некоторые немецкие фамилии появляются как с умлаутом, так и в неавторизованной форме с «e». "(Мюллер / Мюллер). Это составляет алфавитный порядок Udet, Übelacker, Uell, Ülle, Ueve, Üxküll, Uffenbach.
  • В Hungarian гласные есть акценты, умляуты и двойные акценты, в то время как согласные написаны с одно-, двух- (орграфами) или тройными (триграф) символы. При сопоставлении гласные с ударением эквивалентны их аналогам без ударения, а двойные и тройные символы следуют за их одиночными оригиналами. Венгерский алфавитный порядок: A = Á , B, C, Cs , D, Dz , Dzs , E = É , F, G, Gy , H, I = Í , J, K, L, Ly , M, N, Ny. , O = Ó , Ö = Ő , P, Q, R, S, Sz , T, Ty , U = , Ü = Ű , V, W, X, Y, Z, Zs . (До 1984 года dz и dzs не считались отдельными буквами для сопоставления, а по две буквы каждая, вместо этого d + z и d + zs.) Это означает, что, например, nádcukor должен предшествовать nádcsomó (даже если s обычно предшествует u ), поскольку c предшествует cs в сопоставлении. Различие в длине гласных следует учитывать только в том случае, если два слова идентичны в остальном (например, egér, éger ). Пробелы и дефисы внутри фраз при сопоставлении игнорируются. Ch также встречается в некоторых словах как орграф, но не рассматривается как графема сама по себе с точки зрения сопоставления.
    Особенность венгерской сортировки является то , что по контракту форма двойного ди- и триграфов (например, GGY от г + Gy или ddzs из ДЗСА + ДЗСА ) должно быть составлено так , как будто они были написаны в полном объеме (независимо от факта сокращения и элементы ди- или триграфов). Например, kaszinó должно предшествовать kassza (даже если 4-й символ z обычно идет после s в алфавите), потому что четвертый «символ» ( графема ) слова kassza считается вторым sz (разложение ssz на sz + sz ) , который следует за ikaszinó ).
  • В исландском , Þ добавляется, и D следует Ð . За каждой гласной (A, E, I, O, U, Y) следует соответствующий ей с ударением : Á, É, Í, Ó, Ú, Ý. Z нет, поэтому алфавит заканчивается: ... X, Y, Ý, Þ , Æ , Ö.
    • Обе буквы также использовались англосаксонскими писцами, которые также использовали руническую букву Wynn для обозначения / w /.
    • Þ (называемый шипом; строчная) также является рунической буквой.
    • Ð (называемый eth; нижний регистр ð) - это буква D с добавленным штрихом.
  • Kiowa упорядочивается по фонетическим принципам, как и брахмические сценарии , а не по историческому латинскому порядку. Сначала идут гласные, затем прекращаются согласные, расположенные от передней части к задней части рта и от отрицательного к положительному времени начала голоса , затем аффрикаты, фрикативные, жидкие и носовые:
A, AU, E, I, O, U, B, F, P, V, D, J, T, TH, G, C, K, Q, CH, X, S, Z, L, Y, W, H, M, N
  • В литовском языке , особенно литовские буквы, идут после своих латинских оригиналов. Другое изменение состоит в том, что Y стоит непосредственно перед J : ... G, H, I, Į, Y, J, K ...
  • В польском языке специально польские буквы, полученные из латинского алфавита, сортируются после их оригиналов: A, Ą, B, C, Ć, D, E, Ę, ..., L, Ł, M, N, Ń, O, Ó , P, ..., S, Ś, T, ..., Z, Ź, Ż. Орграфы для целей сопоставления обрабатываются так, как если бы они были двумя отдельными буквами.
  • В португальском языке порядок сортировки такой же, как в английском: A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z. Орграфы и буквы с диакритическими знаками в алфавит не входят.
  • В румынском языке специальные символы, полученные из латинского алфавита, сортируются после их оригиналов: A, Ă, Â, ..., I, Î, ..., S, Ș, T, Ț, ..., Z.
  • Испанский не лечить (до 1994 года) «CH» и «LL» , как отдельные буквы, давая упорядоченность Синко , кредо , Chispa и лом , Лузы , лама . Это уже не так, поскольку в 1994 году RAE перешла на более традиционное использование, и теперь LL сопоставляется между LK и LM, а CH - между CG и CI. Шесть символов с диакритическими знаками Á, É, Í, Ó, Ú, Ü рассматриваются как оригинальные буквы A, E, I, O, U, например: radio , ráfaga , rana , rápido , rastrillo . Единственный вопрос сопоставления, относящийся к испанскому языку, - это Ñ ( eñe ) как другая буква, сопоставленная после N.
  • В шведском алфавите есть три дополнительных гласных, помещенных в его конец (..., X, Y, Z, Å , Ä , Ö ), аналогично датскому и норвежскому алфавиту, но с другими глифами и другим порядком сопоставления. Буква «W» рассматривалась как вариант «V», но в 13-м издании Svenska Akademiens ordlista (2006) «W» считалась отдельной буквой.
  • В турецком алфавите есть 6 дополнительных букв: ç, ğ, ı, ö, ş и ü (но без q, w и x). Они сопоставляются с ç после c, ğ после g, ı до i, ö после o, ş после s и ü после u. Первоначально, когда в 1928 году был введен алфавит, ı был сопоставлен после i, но порядок был изменен позже, так что буквы, имеющие форму, содержащую точки, седили или другие украшающие знаки, всегда следовали за буквами с соответствующими голыми формами. Обратите внимание, что в турецкой орфографии буква I - это большая буква без точки ı, тогда как İ - большая точка с точкой i.
  • Во многих тюркских языках (например, азербайджанский или Jaꞑalif орфографию для татарских ), раньше было письмо ГСГ (Ƣƣ), вступивший между G и H . Сейчас он не используется.
  • Во вьетнамском языке есть 7 дополнительных букв: ă , â , đ , ê , ô , ơ , ư, в то время как f , j , w , z отсутствуют, хотя они все еще используются (например, адрес в Интернете, иностранный заимствованный язык). . «f» заменяется комбинацией «ph». То же, что и для «w», это «qu».
  • В Volapük ä , ö и ü считаются отдельными буквами и сопоставляются отдельно (a, ä, b ... o, ö, p ... u, ü, v), а q и w отсутствуют.
  • В валлийском языке орграфы CH, DD, FF, NG, LL, PH, RH и TH рассматриваются как отдельные буквы, и каждый из них перечисляется после первого символа пары (за исключением NG, который указан после G), что дает порядок A, B, C, CH, D, DD, E, F, FF, G, NG, H и так далее. Однако иногда случается, что сложение слов приводит к сопоставлению двух букв, которые не образуют орграф. Примером может служить слово LLONGYFARCH (составлено из LLON + GYFARCH). В результате получается такой порядок, как, например, LAWR, LWCUS, LLONG, LLOM, LLONGYFARCH (NG - это орграф в LLONG, но не в LLONGYFARCH). Комбинация букв R + H (в отличие от орграфа RH) может аналогичным образом возникать при сопоставлении в составных словах, хотя это, как правило, не приводит к появлению пар, в которых неправильная идентификация может повлиять на упорядочение. Для других потенциально сбивающих с толку сочетаний букв, которые могут возникнуть, а именно D + D и L + L, в написании используется дефис (например, AD-DAL, CHWIL-LYS).

Автоматизация

Алгоритмы сопоставления (в сочетании с алгоритмами сортировки ) используются в компьютерном программировании для размещения строк в алфавитном порядке. Стандартный пример - алгоритм сортировки Unicode , который можно использовать для помещения строк, содержащих любые символы Unicode, в алфавитный порядок (расширение). Его можно сделать так, чтобы он соответствовал большинству языковых соглашений, описанных выше, настроив его таблицу сопоставления по умолчанию. Несколько таких настроек собраны в Common Locale Data Repository .

Подобные заказы

Принцип алфавитного порядка по-прежнему может применяться к языкам, в которых, строго говоря, не используется алфавит - например, они могут быть написаны с использованием слогового алфавита или abugida - при условии, что используемые символы имеют установленный порядок.

Для систем логографического письма, таких как китайские ханзи или японские иероглифы , метод сортировки по радикалам и штрихам часто используется как способ определения порядка символов. В японском языке иногда используется порядок произношения, чаще всего с порядком Годзюон , но иногда и с более старым порядком Ироха .

В математике лексикографический порядок - это средство упорядочивания последовательностей способом, аналогичным тому, который используется для создания алфавитного порядка.

Некоторые компьютерные приложения используют вариант алфавитного порядка, который может быть достигнут с помощью очень простого алгоритма , основанного исключительно на кодах ASCII или Unicode для символов. Это может иметь нестандартные эффекты, такие как размещение всех заглавных букв перед строчными. См. ASCIIбетический порядок .

Словарь рифм основан на сортировку слов в алфавитном порядке , начиная от последнего к первой букве слова.

Смотрите также

использованная литература

дальнейшее чтение

  • Шовен, Ивонн. Pratique du classement alphabétique . 4-е изд. Париж: Борда, 1977 г. ISBN  2-04-010155-1
  • Фландрия, Юдифь . Место для всего: любопытная история алфавитного порядка . Нью-Йорк: Basic Books / Hatchette Books, 2020. ISBN  978-1-5416-7507-0