Международный химический идентификатор - International Chemical Identifier

ИнЧИ
Разработчики) ИнЧИ Траст
Первый выпуск 15 апреля 2005 г. ( 2005-04-15 )
Стабильный выпуск
1.06 / 15 декабря 2020 г . ; 5 месяцев назад ( 2020-12-15 )
Операционная система Microsoft Windows и Unix-подобные
Платформа IA-32 и x86-64
Доступно в английский
Лицензия Лицензия IUPAC / InChI Trust
Веб-сайт www .inchi-trust .org

ИЮПАК Международного химический идентификатор ( InChI / ɪ п я / В -chee или / ɪ ŋ к я / ING -kee ) является текстовым идентификатором для химических веществ , предназначенных для обеспечения стандартного способа для кодирования молекулярной информации и облегчения поиск такой информации в базах данных и в сети. Формат и алгоритмы, изначально разработанные IUPAC (Международный союз теоретической и прикладной химии) и NIST (Национальный институт стандартов и технологий) с 2000 по 2005 год, не являются собственностью компании.

Идентификаторы описывают химические вещества в терминах слоев информации - атомов и их соединений связи, таутомерной информации, изотопной информации, стереохимии и электронной информации заряда. Не все слои должны быть предоставлены; например, слой таутомера может быть опущен, если этот тип информации не имеет отношения к конкретному приложению. Алгоритм InChI преобразует входную структурную информацию в уникальный идентификатор InChI в трехэтапном процессе: нормализация (для удаления избыточной информации), канонизация (для создания уникальной числовой метки для каждого атома) и сериализация (для получения строки символов). .

InChI отличаются от широко используемых регистрационных номеров CAS по трем параметрам: во-первых, они свободно используются и не являются собственностью; во-вторых, они могут быть рассчитаны на основе структурной информации и не должны назначаться какой-либо организацией; и в-третьих, большая часть информации в InChI доступна для чтения человеком (с практикой). Таким образом, InChI можно рассматривать как сродни общей и чрезвычайно формализованной версии имен IUPAC . Они могут выражать больше информации, чем более простая нотация SMILES, и отличаются тем, что каждая структура имеет уникальную строку InChI, что важно для приложений баз данных. Информация о трехмерных координатах атомов не представлена ​​в InChI; для этой цели можно использовать такой формат, как PDB .

InChIKey, иногда называемый хешированным InChI, представляет собой сжатое цифровое представление InChI фиксированной длины (27 символов), которое не доступно для понимания человеком. Спецификация InChIKey была выпущена в сентябре 2007 года для облегчения поиска в Интернете химических соединений, поскольку это было проблематично для полноразмерного InChI. В отличие от InChI, InChIKey не уникален: хотя коллизии могут быть рассчитаны как очень редкие, они случаются.

В январе 2009 года была выпущена версия 1.02 программы InChI. Это предоставило средства для генерации так называемого стандартного InChI, который не позволяет пользователю выбирать параметры при работе со стереохимией и таутомерными слоями строки InChI. Стандартный InChIKey является хешированной версией стандартной строки InChI. Стандартный InChI упростит сравнение строк и ключей InChI, сгенерированных различными группами и впоследствии доступных через различные источники, такие как базы данных и веб-ресурсы.

Постоянное развитие стандарта поддерживается с 2010 г. некоммерческой организацией InChI Trust , членом которой является IUPAC. Текущая версия программного обеспечения - 1.06 и была выпущена в декабре 2020 года. До 1.04 программное обеспечение было свободно доступно под лицензией LGPL с открытым исходным кодом , но теперь оно использует специальную лицензию под названием IUPAC-InChI Trust License.

Поколение

Чтобы избежать генерации различных InChI для таутомерных структур, перед генерацией InChI вводимая химическая структура нормализуется, чтобы уменьшить ее до так называемой основной родительской структуры. Это может включать изменение порядка размещения облигаций, перестановку формальных сборов и, возможно, добавление и удаление протонов. Различные структуры ввода могут дать один и тот же результат; например, уксусная кислота и ацетат будут давать одну и ту же исходную структуру ядра, структуру уксусной кислоты. Основная родительская структура может быть отключена, состоящая из более чем одного компонента, и в этом случае подслои в InChI обычно состоят из подслоев для каждого компонента, разделенных точками с запятой (точки для подслоя химической формулы). все атомы металла отключены во время нормализации; так, например, InChI для тетраэтилсвинца будет иметь пять компонентов: один для свинца и четыре для этильных групп.

Первый, основной слой InChI относится к этой основной родительской структуре, давая его химическую формулу, неводородную связность без порядка связи ( /cподслой) и водородную связность ( /hподслой). /qЧасть зарядового слоя дает свой заряд, а /pЧасть зарядового слоя сообщает, сколько протонов (ионов водорода) необходимо добавить или удалить из него, чтобы восстановить исходную структуру. Если он присутствует, стереохимическая слой, с подслоями /b, /t, /mи /s, дает стереохимическую информацию, а также изотопный слой /i(который может содержать подслои /h, /b, /t, /mи /s) дает изотопную информацию. Это единственные слои, которые могут встречаться в стандартном InChI.

Если пользователь хочет указать точный таутомер, /fможет быть добавлен фиксированный слой водорода , который может содержать различные дополнительные подслои; это невозможно сделать в стандартном InChI, поэтому разные таутомеры будут иметь один и тот же стандартный InChI (например, аланин будет давать один и тот же стандартный InChI, независимо от того, вводится ли он в нейтральной или цвиттерионной форме). Наконец, можно добавить нестандартный повторно связанный /rслой, что эффективно дает новый InChI, генерируемый без разрыва связей с атомами металла. Он может содержать различные подслои, в том числе /f.

Формат и слои

Формат InChI
Тип интернет-СМИ
химический / x-inchi
Тип формата формат химического файла

Каждый InChI начинается со строки " InChI=", за которой следует номер текущей версии 1. Если InChI является стандартным, за ним следует буква Sдля стандартных InChI , которая представляет собой полностью стандартизованный вариант InChI, сохраняющий тот же уровень внимания к деталям структуры и те же соглашения для восприятия рисования. Оставшаяся информация структурирована как последовательность уровней и подуровней, каждый из которых предоставляет один определенный тип информации. Слои и подслои разделяются разделителем « /» и начинаются с характерной префиксной буквы (за исключением подслоя химической формулы основного слоя). Шесть слоев с важными подслоями:

  1. Основной слой
    • Химическая формула (без префикса). Это единственный подслой, который должен встречаться в каждом InChI.
    • Атомные соединения (префикс: " c"). Атомы в химической формуле (кроме атомов водорода) пронумерованы последовательно; этот подслой описывает, какие атомы связаны связями с другими.
    • Атомы водорода (префикс: " h"). Описывает, сколько атомов водорода связано с каждым из остальных атомов.
  2. Слой заряда
    • подслой заряда (префикс: " q")
    • подслой протонов (префикс: " p" для "протонов")
  3. Стереохимический слой
    • двойные связи и кумулены (префикс: " b")
    • тетраэдрическая стереохимия атомов и алленов (приставки: " t", " m")
    • тип стереохимической информации (префикс: " s")
  4. Изотопный слой (префиксы: " i", " h", а также " b", " t", " m", " s" для изотопной стереохимии)
  5. Слой с фиксированным H (префикс: " f"); содержит некоторые или все вышеперечисленные типы слоев, кроме соединений атомов; может заканчиваться oподслоем " "; никогда не входил в стандартный ИнХИ
  6. Повторно подключенный слой (префикс: " r"); содержит весь InChI структуры с пересоединенными атомами металла; никогда не входил в стандартный ИнХИ

Формат префикса-разделителя имеет то преимущество, что пользователь может легко использовать поиск по шаблону для поиска идентификаторов, которые совпадают только на определенных уровнях.

Примеры
Структурная формула стандартный InChI
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

InChIKey

Сжатый 27-символьный InChIKey представляет собой хешированную версию полного InChI (с использованием алгоритма SHA-256 ), предназначенную для упрощения поиска химических соединений в Интернете. Стандарт InChIKey является Хешированным аналогом стандартного InChI . Большинство химических структур в Интернете до 2007 года были представлены в виде файлов GIF , в которых невозможно было выполнить поиск по химическому содержанию. Полный InChI оказался слишком длинным для удобного поиска, поэтому был разработан InChIKey. Существует очень малая, но отличная от нуля вероятность того, что две разные молекулы имеют один и тот же InChIKey, но вероятность дублирования только первых 14 символов была оценена как только одно дублирование в 75 базах данных, каждая из которых содержит один миллиард уникальных структур. Поскольку все базы данных в настоящее время имеют менее 50 миллионов структур, такое дублирование в настоящее время представляется маловероятным. Недавнее исследование более подробно изучает частоту столкновений, обнаруживая, что экспериментальная частота столкновений соответствует теоретическим ожиданиям.

InChIKey в настоящее время состоит из трех частей, разделенных дефисом, из 14, 10 и одного символа (ов) соответственно, например XXXXXXXXXXXXXX-YYYYYYYYFV-P. Первые 14 символов являются результатом хэша SHA-256 информации о подключении (основной уровень и /qподуровень уровня заряда) InChI. Вторая часть состоит из 8 символов, полученных в результате хеширования оставшихся слоев InChI, одного символа, указывающего тип InChIKey ( Sдля стандартного и Nнестандартного), и символа, указывающего используемую версию InChI (в настоящее время Aдля версии 1. ) и, наконец, один символ в конце указует протонирование сердцевинной материнской структуры, соответствующий /pподслой заряда слоя ( Nбез всякой протонировании, O, P, ... , если необходимо добавить протоны и M, L... если они удалить.)

Пример

Структура морфина

Морфин имеет структуру, показанную справа. Стандартный InChI для морфина - InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1 это стандартный InChI для морфина BQJCRHHNABKAKU-KBQPJGBKSA-N.

Резолверы InChI

Поскольку InChI не может быть реконструирован из InChIKey, InChIKey всегда необходимо связать с исходным InChI, чтобы вернуться к исходной структуре. InChI Resolvers действуют как служба поиска для создания этих ссылок, а услуги прототипов доступны в Национальном институте рака , службе UniChem в Европейском институте биоинформатики и PubChem . У ChemSpider был резолвер до июля 2015 года, когда он был выведен из эксплуатации.

Имя

Первоначально формат назывался IChI (химический идентификатор IUPAC), затем в июле 2004 г. был переименован в INChI (химический идентификатор IUPAC-NIST) и снова переименован в ноябре 2004 г. в InChI (международный химический идентификатор IUPAC), товарный знак IUPAC.

Постоянное развитие

Научное руководство стандартом InChI осуществляется Подкомитетом IUPAC Division VIII, а финансирование подгрупп, исследующих и определяющих расширение стандарта, осуществляется как IUPAC, так и InChI Trust . InChI Trust финансирует разработку, тестирование и документирование InChI. Текущие расширения определяются для работы с полимерами и смесями , структурами Маркуша , реакциями и металлоорганическими соединениями , и после того, как они будут приняты Подкомитетом Отдела VIII, будут добавлены в алгоритм.

Программное обеспечение

InChI Trust разработал программное обеспечение для генерации InChI, InChIKey и других идентификаторов. История выпуска этого программного обеспечения приводится ниже.

Программное обеспечение и версия Дата Лицензия Комментарии
ИнЧИ v. 1 Апрель 2005 г.
ИнЧИ v. 1.01 Август 2006 г.
ИнЧИ v. 1.02beta Сентябрь 2007 г. LGPL 2.1 Добавляет функциональность InChIKey.
ИнЧИ v. 1.02 Январь 2009 г. LGPL 2.1 Изменен формат для InChIKey.
Представляет стандартный InChI.
ИнЧИ v. 1.03 Июнь 2010 г. LGPL 2.1
Исходный код InChI v. 1.03 docs Март 2011 г.
ИнЧИ v. 1.04 Сентябрь 2011 г. IUPAC / InChI Trust, лицензия InChI 1.0 Новая лицензия.
Добавлена ​​поддержка элементов 105-112.
Поддержка CML удалена.
ИнЧИ v. 1.05 Январь 2017 г. IUPAC / InChI Trust, лицензия InChI 1.0 Добавлена ​​поддержка элементов 113-118.
Экспериментальная полимерная подложка.
Экспериментальная поддержка больших молекул.
РИНЧИ v. 1.00 Март 2017 г. IUPAC / InChI доверяют лицензии InChI 1.0 и в стиле BSD Вычисляет реакцию InChis.
ИнЧИ v. 1.06 Декабрь 2020 г. IUPAC / InChI Trust, лицензия InChI 1.0 Доработанная полимерная опора.

Принятие

InChI был принят во многих больших и малых базах данных, включая ChemSpider , ChEMBL , Golm Metabolome Database , OpenPHACTS и PubChem . Однако принятие не является простым, и многие базы данных показывают несоответствие между химическими структурами и InChI, которые они содержат, что является проблемой для связывания баз данных.

Смотрите также

Примечания и ссылки

Внешние ссылки

  • Сайт ИЮПАК ИнЧИ
  • Описание алгоритма канонизации
  • Поиск в Google для InCh - это презентация для W3C.
  • InChI Release 1.02 Окончательная версия InChI 1.02 и объяснение стандарта InChI, январь 2009 г.
  • NCI / CADD Chemical Identifier Resolver Создает и разрешает InChI / InChIKeys и многие другие химические идентификаторы
  • Онлайн-редактор молекул PubChem , поддерживающий SMILES / SMARTS и InChI
  • ChemSpider Compound APIs ChemSpider REST API, который позволяет генерировать InChI и преобразовывать InChI в структуру (также SMILES и создание других свойств)
  • MarvinSketch от ChemAxon , реализация для рисования структур (или открытия файлов других форматов) и вывода в формат файла InChI
  • BKchem реализует собственный парсер InChI и использует реализацию IUPAC для генерации строк InChI.
  • CompoundSearch реализует поиск спектральных библиотек InChI и InChI Key.
  • SpectraBase реализует поиск спектральных библиотек InChI и InChI Key.
  • JSME - это бесплатный молекулярный редактор на основе JavaScript, который генерирует InChI и InChI Key в веб-браузере, что позволяет легко выполнять поиск химических соединений в Интернете.