Извлечение знаний - Knowledge extraction

Извлечение знаний - это создание знаний из структурированных ( реляционные базы данных , XML ) и неструктурированных ( текст , документы, изображения ) источников. Полученные в результате знания должны быть в машиночитаемом и машинно-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации ( NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему . Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.

Группа RDB2RDF W3C в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных . Другой популярный пример извлечения знаний - это преобразование Википедии в структурированные данные, а также сопоставление с существующими знаниями (см. DBpedia и Freebase ).

Обзор

После стандартизации языков представления знаний, таких как RDF и OWL , в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентичности , открытия знаний и изучения онтологий. В общем процессе используются традиционные методы извлечения и извлечения, преобразования и загрузки информации (ETL), которые преобразуют данные из источников в структурированные форматы.

Следующие критерии могут использоваться для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных):

Источник Какие источники данных охвачены: текст, реляционные базы данных, XML, CSV
Экспозиция Как извлеченные знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете запросить это?
Синхронизация Выполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения результата (двунаправленные)
Повторное использование словарей Инструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы "firstName" можно сопоставить с foaf: firstName. Некоторые автоматические подходы не могут отображать словарь.
Автоматизация Степень поддержки / автоматизации экстракции. Ручной, графический, полуавтоматический, автоматический.
Требуется онтология предметной области Для сопоставления с ней необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема изучается из источника ( изучение онтологии ).

Примеры

Связывание сущностей

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, Extractiv и PoolParty Extractor анализируют произвольный текст с помощью распознавания именованных сущностей, а затем устраняют неоднозначность кандидатов с помощью разрешения имен и связывают найденные сущности с хранилищем знаний DBpedia ( демо Dandelion dataTXT или веб-демо DBpedia Spotlight или Демо-версия PoolParty Extractor ).

В среду президент Обама призвал Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика предусматривает более щедрую помощь.

Поскольку президент Обама связан с ресурсом DBpedia LinkedData , дополнительная информация может быть получена автоматически, и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Person (используя FOAF (программное обеспечение) ) и типу Presidents of the United States ( с помощью YAGO ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных в RDF

  1. Triplify , D2R Server, Ultrawrap и Virtuoso RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем users один столбец (например, имя ) или совокупность столбцов (например, first_name и last_name ) должны предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту. Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице с именем wifeTo может быть определен как симметричное отношение, а домашняя страница столбца может быть преобразована в свойство из словаря FOAF под названием foaf: homepage , таким образом квалифицируя его как обратное функциональное свойство . Затем каждую запись пользовательской таблицы можно сделать экземпляром класса foaf: Person (Ontology Population). Кроме того, знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_id равен 2, запись принадлежит классу Teacher), либо с помощью (полу) автоматизированных методов ( изучение онтологии ). Вот пример преобразования:
Имя замужем за домашняя страница status_id
Питер Мэри http://example.org/Peters_page 1
Клаус Ева http://example.org/Claus_page 2
 :Peter :marriedTo :Mary .  
 :marriedTo a owl:SymmetricProperty .  
 :Peter foaf:homepage  <http://example.org/Peters_page> .  
 :Peter a foaf:Person .   
 :Peter a :Student .  
 :Claus a :Teacher .

Извлечение из структурированных источников в RDF

Отображение 1: 1 таблиц / представлений RDB в сущности / атрибуты / значения RDF

При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущность-связь (ERD). Обычно каждая сущность представлена ​​в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а отношения между сущностями указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр объекта, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

  • Каждый столбец в таблице является атрибутом (т. Е. Предикатом).
  • Каждое значение столбца является значением атрибута (т. Е. Объекта)
  • Каждый ключ строки представляет собой идентификатор объекта (т. Е. Тему).
  • Каждая строка представляет экземпляр объекта
  • Каждая строка (экземпляр объекта) представлена ​​в RDF набором троек с общим субъектом (идентификатором объекта).

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:

  1. создать класс RDFS для каждой таблицы
  2. преобразовать все первичные и внешние ключи в IRI
  3. назначить предикат IRI каждому столбцу
  4. назначить предикат rdf: type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице
  5. для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Раннее упоминание об этом базовом или прямом отображении можно найти в сравнении Тима Бернерса-Ли модели ER с моделью RDF.

Сложные отображения реляционных баз данных в RDF

Упомянутое выше сопоставление 1: 1 предоставляет унаследованные данные в виде RDF простым способом, дополнительные уточнения могут быть использованы для повышения полезности вывода RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-реляционном несоответствии импеданса ), и ее необходимо реконструировать . С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1. Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы частично совпадают с изучением онтологии ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий (например, столбцы с несколькими значениями являются кандидатами на превращение в категории) . Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологий ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.

XML

Поскольку XML имеет древовидную структуру, любые данные могут быть легко представлены в RDF, который имеет структуру графа. XML2RDF - один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT может использоваться как стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / инструментов

Имя Источник данных Экспозиция данных Синхронизация данных Язык отображения Повторное использование словарного запаса Картографический автомат. Треб. Онтология домена Использует графический интерфейс
Прямое отображение реляционных данных в RDF Реляционные данные SPARQL / ETL динамичный N / A ложный автоматический ложный ложный
CSV2RDF4LOD CSV ETL статический RDF правда руководство по эксплуатации ложный ложный
CoNLL-RDF TSV, CoNLL Поток SPARQL / RDF статический никто правда автоматический (зависящий от предметной области, для случаев использования в языковых технологиях, сохраняет отношения между строками) ложный ложный
Конвертировать2RDF Текстовый файл с разделителями ETL статический RDF / DAML правда руководство по эксплуатации ложный правда
Сервер D2R RDB SPARQL двунаправленный Карта D2R правда руководство по эксплуатации ложный ложный
DartGrid RDB собственный язык запросов динамичный Визуальный инструмент правда руководство по эксплуатации ложный правда
DataMaster RDB ETL статический проприетарный правда руководство по эксплуатации правда правда
Расширение RDF от Google Refine CSV, XML ETL статический никто полуавтоматический ложный правда
Krextor XML ETL статический xslt правда руководство по эксплуатации правда ложный
МАПОНТО RDB ETL статический проприетарный правда руководство по эксплуатации правда ложный
МЕТАморфозы RDB ETL статический проприетарный язык сопоставления на основе xml правда руководство по эксплуатации ложный правда
MappingMaster CSV ETL статический MappingMaster правда GUI ложный правда
ODEMapster RDB ETL статический проприетарный правда руководство по эксплуатации правда правда
Плагин OntoWiki CSV Importer - DataCube и Tabular CSV ETL статический Словарь RDF Data Cube Vocaublary правда полуавтоматический ложный правда
Poolparty Extraktor (PPX) XML, текст LinkedData динамичный RDF (SKOS) правда полуавтоматический правда ложный
RDBToOnto RDB ETL статический никто ложный автоматически, пользователь, кроме того, имеет возможность точно настроить результаты ложный правда
RDF 123 CSV ETL статический ложный ложный руководство по эксплуатации ложный правда
RDOTE RDB ETL статический SQL правда руководство по эксплуатации правда правда
Relational.OWL RDB ETL статический никто ложный автоматический ложный ложный
T2LD CSV ETL статический ложный ложный автоматический ложный ложный
Словарь куба данных RDF Многомерные статистические данные в электронных таблицах Словарь куба данных правда руководство по эксплуатации ложный
Композитор TopBraid CSV ETL статический SKOS ложный полуавтоматический ложный правда
Утроить RDB LinkedData динамичный SQL правда руководство по эксплуатации ложный ложный
Ультраобёртка RDB SPARQL / ETL динамичный R2RML правда полуавтоматический ложный правда
Виртуозные представления RDF RDB SPARQL динамичный Язык мета-схемы правда полуавтоматический ложный правда
Виртуозный спонджер структурированные и полуструктурированные источники данных SPARQL динамичный Виртуоз PL и XSLT правда полуавтоматический ложный ложный
VisAVis RDB RDQL динамичный SQL правда руководство по эксплуатации правда правда
XLWrap: электронная таблица в RDF CSV ETL статический Синтаксис TriG правда руководство по эксплуатации ложный ложный
XML в RDF XML ETL статический ложный ложный автоматический ложный ложный

Извлечение из источников на естественном языке

Большая часть информации, содержащейся в деловых документах (около 80%), закодирована на естественном языке и, следовательно, неструктурирована. Поскольку неструктурированные данные представляют собой серьезную проблему для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация / обработка естественного языка (NLP)

В качестве этапа предварительной обработки при извлечении знаний может потребоваться выполнение лингвистической аннотации с помощью одного или нескольких инструментов НЛП . Отдельные модули в рабочем процессе НЛП обычно основываются на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, относящиеся к извлечению знаний, включают:

  • теги части речи (POS)
  • лемматизация (LEMMA) или стемминг (STEM)
  • устранение неоднозначности смысла слов (WSD, относящаяся к семантической аннотации ниже)
  • распознавание именованных объектов (NER, также см. IE ниже)
  • синтаксический анализ, часто использующий синтаксические зависимости (DEP)
  • неглубокий синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
  • разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача создания связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
  • маркировка семантической роли (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
  • синтаксический анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)

В NLP такие данные обычно представлены в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:

  • Формат обмена NLP (NIF, для многих часто используемых типов аннотаций)
  • Веб-аннотация (WA, часто используется для связывания сущностей)
  • CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV)

Другие форматы, зависящие от платформы, включают

  • Формат обмена LAPPS (LIF, используется в LAPPS Grid)
  • Формат аннотаций NLP (NAF, используется в системе управления рабочим процессом NewsReader)

Традиционное извлечение информации (IE)

Традиционное извлечение информации - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

Задача распознавания именованных сущностей состоит в том, чтобы распознать и классифицировать все именованные сущности, содержащиеся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.

Разрешение Coreference идентифицирует в тексте эквивалентные сущности, которые были распознаны NER. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектом и их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешающей способности кореференции.

Во время конструирования элемента шаблона система IE определяет описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.

Построение отношения шаблона определяет отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.

В шаблоне сценария производственные события, которые описаны в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицированных TR.

Извлечение информации на основе онтологий (OBIE)

Извлечение информации на основе онтологий - это подполе извлечения информации, с помощью которого, по крайней мере, одна онтология используется для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепций , экземпляров и отношений используемых онтологий в тексте, который после процесса будет структурирован в онтологию. Таким образом, входные онтологии составляют модель извлекаемой информации.

Обучение онтологии (OL)

Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей области из текста на естественном языке. Поскольку создание онтологий вручную чрезвычайно трудоемко и требует много времени, есть большая мотивация для автоматизации процесса.

Семантическая аннотация (SA)

Во время семантической аннотации текст на естественном языке дополняется метаданными (часто представленными в RDFa ), которые должны сделать семантику содержащихся терминов машинно-понятной. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, получается знание, какое значение термина в обрабатываемом контексте было предназначено, и, следовательно, значение текста основывается на машиночитаемых данных с возможностью делать выводы. Семантическая аннотация обычно разделяется на следующие две подзадачи.

  1. Извлечение терминологии
  2. Связывание сущностей

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, которые соответствуют концепции, извлекаются с помощью предметно-ориентированного лексикона, чтобы связать их при связывании сущностей.

В сущности устанавливается связь между извлеченными лексическими терминами из исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia . Для этого с помощью лексики выявляются подходящие концепции по нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим синтаксическим анализом в понимании обработки естественного языка (также называемой «семантической аннотацией»): семантический синтаксический анализ направлен на полное машиночитаемое представление естественного языка. , в то время как семантическая аннотация в смысле извлечения знаний затрагивает только очень элементарный аспект этого.

Инструменты

Следующие критерии могут использоваться для категоризации инструментов, извлекающих знания из текста на естественном языке.

Источник Какие входные форматы могут обрабатываться инструментом (например, простой текст, HTML или PDF)?
Доступ к парадигме Может ли инструмент запрашивать источник данных или для процесса извлечения требуется полный дамп?
Синхронизация данных Синхронизирован ли результат процесса извлечения с источником?
Использует онтологию вывода Связывает ли инструмент результат с онтологией?
Картографическая автоматизация Насколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)?
Требуется онтология Нужна ли инструменту онтология для извлечения?
Использует графический интерфейс Предлагает ли инструмент графический пользовательский интерфейс?
Подход Какой подход (IE, OBIE, OL или SA) используется инструментом?
Извлеченные сущности Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены инструментом?
Прикладные методы Какие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )?
Модель вывода Какая модель используется для представления результата работы инструмента (например, RDF или OWL)?
Поддерживаемые домены Какие области поддерживаются (например, экономика или биология)?
Поддерживаемые языки Какие языки можно обрабатывать (например, английский или немецкий)?

В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.

Имя Источник Доступ к парадигме Синхронизация данных Использует онтологию вывода Картографическая автоматизация Требуется онтология Использует графический интерфейс Подход Извлеченные сущности Прикладные методы Модель вывода Поддерживаемые домены Поддерживаемые языки
[1] простой текст, HTML, XML, SGML свалка нет да автоматический да да IE именованные сущности, отношения, события языковые правила проприетарный независимый от домена Английский, испанский, арабский, китайский, индонезийский
АлхимияAPI простой текст, HTML автоматический да SA многоязычный
ЭННИ простой текст свалка да да IE алгоритмы конечного состояния многоязычный
ASIUM простой текст свалка полуавтоматический да ПР концепции, иерархия понятий НЛП, кластеризация
Исчерпывающая экстракция интенсивности автоматический IE именованные сущности, отношения, события НЛП
Одуванчик API простой текст, HTML, URL ОТДЫХАТЬ нет нет автоматический нет да SA именованные сущности, концепции Статистические методы JSON независимый от домена многоязычный
Обзор DBpedia простой текст, HTML дамп, SPARQL да да автоматический нет да SA аннотация к каждому слову, аннотация к непрерывным словам НЛП, статистические методы, машинное обучение RDFa независимый от домена английский
EntityClassifier.eu простой текст, HTML свалка да да автоматический нет да IE, OL, SA аннотация к каждому слову, аннотация к непрерывным словам основанная на правилах грамматика XML независимый от домена Английский, немецкий, голландский
ФРЕД простой текст дамп, REST API да да автоматический нет да IE, OL, SA, шаблоны проектирования онтологий, семантика фреймов (много-) словесная аннотация NIF или EarMark, предикаты, экземпляры, композиционная семантика, таксономии понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональность НЛП, машинное обучение, эвристические правила RDF / OWL независимый от домена Английский, другие языки через перевод
iDocument HTML, PDF, DOC SPARQL да да OBIE экземпляры, значения свойств НЛП личное дело
NetOwl Extractor простой текст, HTML, XML, SGML, PDF, MS Office свалка Нет да Автоматический да да IE именованные сущности, отношения, события НЛП XML, JSON, RDF-OWL и другие несколько доменов Английский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский
OntoGen полуавтоматический да ПР понятия, иерархия понятий, нетаксономические отношения, экземпляры НЛП, машинное обучение, кластеризация
OntoLearn простой текст, HTML свалка нет да автоматический да нет ПР концепции, иерархия понятий, экземпляры НЛП, статистические методы проприетарный независимый от домена английский
OntoLearn Reloaded простой текст, HTML свалка нет да автоматический да нет ПР концепции, иерархия понятий, экземпляры НЛП, статистические методы проприетарный независимый от домена английский
ОнтоСифон HTML, PDF, DOC дамп, поисковые запросы нет да автоматический да нет OBIE понятия, отношения, примеры НЛП, статистические методы RDF независимый от домена английский
onX простой текст свалка нет да полуавтоматический да нет OBIE экземпляры, значения свойств типа данных эвристические методы проприетарный независимый от домена независимый от языка
OpenCalais простой текст, HTML, XML свалка нет да автоматический да нет SA аннотации к сущностям, аннотации к событиям, аннотации к фактам НЛП, машинное обучение RDF независимый от домена Английский, французский, испанский
PoolParty Extractor простой текст, HTML, DOC, ODT свалка нет да автоматический да да OBIE именованные сущности, концепции, отношения, концепции, которые классифицируют текст, обогащения НЛП, машинное обучение, статистические методы RDF, OWL независимый от домена Английский, немецкий, испанский, французский
Росока простой текст, HTML, XML, SGML, PDF, MS Office свалка да да Автоматический нет да IE извлечение именованных сущностей, разрешение сущностей, извлечение взаимосвязей, атрибуты, концепции, многовекторный анализ тональности , геотеги, идентификация языка НЛП, машинное обучение XML, JSON, POJO, RDF несколько доменов Многоязычный 200+ языков
СКОБИ простой текст, HTML свалка нет да автоматический нет нет OBIE экземпляры, значения свойств, типы RDFS НЛП, машинное обучение RDF, RDFa независимый от домена Английский, немецкий
SemTag HTML свалка нет да автоматический да нет SA машинное обучение запись в базе данных независимый от домена независимый от языка
умный FIX простой текст, HTML, PDF, DOC, электронная почта свалка да нет автоматический нет да OBIE названные объекты НЛП, машинное обучение проприетарный независимый от домена Английский, немецкий, французский, голландский, польский
Text2Onto простой текст, HTML, PDF свалка да нет полуавтоматический да да ПР концепции, иерархия понятий, нетаксономические отношения, экземпляры, аксиомы НЛП, статистические методы, машинное обучение, методы на основе правил СОВА деомен-независимый Английский, немецкий, испанский
Text-To-Onto простой текст, HTML, PDF, PostScript свалка полуавтоматический да да ПР понятия, иерархия понятий, нетаксономические отношения, лексические объекты, относящиеся к концепциям, лексические объекты, относящиеся к отношениям НЛП, машинное обучение, кластеризация, статистические методы Немецкий
ThatNeedle Простой текст свалка автоматический нет концепции, отношения, иерархия НЛП, проприетарный JSON несколько доменов английский
Вики-машина простой текст, HTML, PDF, DOC свалка нет да автоматический да да SA аннотации к существительным собственным, аннотации к существительным нарицательным машинное обучение RDFa независимый от домена Английский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder IE именованные сущности, отношения, события многоязычный

Открытие знаний

Обнаружение знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые можно рассматривать как знания о данных. Это часто описывается как получение знаний из входных данных. Открытие знаний возникло из области интеллектуального анализа данных и тесно связано с ней как с точки зрения методологии, так и с точки зрения терминологии.

Наиболее известной отраслью интеллектуального анализа данных является обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания , полученные посредством процесса могут стать дополнительными данными , которые могут быть использованы для дальнейшего использования и открытия. Часто результаты открытия знаний не поддаются действию, обнаружение знаний , требующее действий , также известное как интеллектуальный анализ данных на основе предметной области , направлено на обнаружение и предоставление действенных знаний и идей.

Еще одно многообещающее применение обнаружения знаний - это модернизация программного обеспечения , обнаружение слабых мест и соответствие требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией реверс-инжиниринга . Обычно знания, полученные с помощью существующего программного обеспечения, представлены в форме моделей, к которым при необходимости могут быть сделаны конкретные запросы. Отношения субъекта является частым форматом представления знаний , полученных из существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию метамодели обнаружения знаний (KDM), которая определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных , поскольку существующие программные артефакты имеют огромное значение для управления рисками и бизнеса , что является ключом к оценке и развитию программных систем. Вместо добычи отдельных наборов данных , добыча программного обеспечения фокусируется на метаданных , такие как потоки процесса (например , данные потоки, потоки управления, и карты вызовов), архитектура, схемы баз данных и бизнес - правила / условие / процесс.

Входные данные

Форматы вывода

Смотрите также

использованная литература