Извлечение знаний - Knowledge extraction

Извлечение знаний - это создание знаний из структурированных ( реляционные базы данных , XML ) и неструктурированных ( текст , документы, изображения ) источников. Полученные в результате знания должны быть в машиночитаемом и машинно-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации ( NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему . Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.

Группа RDB2RDF W3C в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных . Другой популярный пример извлечения знаний - это преобразование Википедии в структурированные данные, а также сопоставление с существующими знаниями (см. DBpedia и Freebase ).

Обзор

После стандартизации языков представления знаний, таких как RDF и OWL , в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентичности , открытия знаний и изучения онтологий. В общем процессе используются традиционные методы извлечения и извлечения, преобразования и загрузки информации (ETL), которые преобразуют данные из источников в структурированные форматы.

Следующие критерии могут использоваться для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных):

Источник	Какие источники данных охвачены: текст, реляционные базы данных, XML, CSV
Экспозиция	Как извлеченные знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете запросить это?
Синхронизация	Выполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения результата (двунаправленные)
Повторное использование словарей	Инструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы "firstName" можно сопоставить с foaf: firstName. Некоторые автоматические подходы не могут отображать словарь.
Автоматизация	Степень поддержки / автоматизации экстракции. Ручной, графический, полуавтоматический, автоматический.
Требуется онтология предметной области	Для сопоставления с ней необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема изучается из источника ( изучение онтологии ).

Примеры

Связывание сущностей

DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, Extractiv и PoolParty Extractor анализируют произвольный текст с помощью распознавания именованных сущностей, а затем устраняют неоднозначность кандидатов с помощью разрешения имен и связывают найденные сущности с хранилищем знаний DBpedia ( демо Dandelion dataTXT или веб-демо DBpedia Spotlight или Демо-версия PoolParty Extractor ).

В среду президент Обама призвал Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика предусматривает более щедрую помощь.

Поскольку президент Обама связан с ресурсом DBpedia LinkedData , дополнительная информация может быть получена автоматически, и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Person (используя FOAF (программное обеспечение) ) и типу Presidents of the United States ( с помощью YAGO ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных в RDF

Triplify , D2R Server, Ultrawrap и Virtuoso RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем users один столбец (например, имя ) или совокупность столбцов (например, first_name и last_name ) должны предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту. Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице с именем wifeTo может быть определен как симметричное отношение, а домашняя страница столбца может быть преобразована в свойство из словаря FOAF под названием foaf: homepage , таким образом квалифицируя его как обратное функциональное свойство . Затем каждую запись пользовательской таблицы можно сделать экземпляром класса foaf: Person (Ontology Population). Кроме того, знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_id равен 2, запись принадлежит классу Teacher), либо с помощью (полу) автоматизированных методов ( изучение онтологии ). Вот пример преобразования:

Имя	замужем за	домашняя страница	status_id
Питер	Мэри	http://example.org/Peters_page	1
Клаус	Ева	http://example.org/Claus_page	2

 :Peter :marriedTo :Mary .  
 :marriedTo a owl:SymmetricProperty .  
 :Peter foaf:homepage  <http://example.org/Peters_page> .  
 :Peter a foaf:Person .   
 :Peter a :Student .  
 :Claus a :Teacher .

Извлечение из структурированных источников в RDF

Отображение 1: 1 таблиц / представлений RDB в сущности / атрибуты / значения RDF

При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущность-связь (ERD). Обычно каждая сущность представлена в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а отношения между сущностями указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр объекта, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

Каждый столбец в таблице является атрибутом (т. Е. Предикатом).
Каждое значение столбца является значением атрибута (т. Е. Объекта)
Каждый ключ строки представляет собой идентификатор объекта (т. Е. Тему).
Каждая строка представляет экземпляр объекта
Каждая строка (экземпляр объекта) представлена в RDF набором троек с общим субъектом (идентификатором объекта).

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:

создать класс RDFS для каждой таблицы
преобразовать все первичные и внешние ключи в IRI
назначить предикат IRI каждому столбцу
назначить предикат rdf: type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице
для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Раннее упоминание об этом базовом или прямом отображении можно найти в сравнении Тима Бернерса-Ли модели ER с моделью RDF.

Сложные отображения реляционных баз данных в RDF

Упомянутое выше сопоставление 1: 1 предоставляет унаследованные данные в виде RDF простым способом, дополнительные уточнения могут быть использованы для повышения полезности вывода RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-реляционном несоответствии импеданса ), и ее необходимо реконструировать . С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1. Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы частично совпадают с изучением онтологии ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий (например, столбцы с несколькими значениями являются кандидатами на превращение в категории) . Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологий ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.

XML

Поскольку XML имеет древовидную структуру, любые данные могут быть легко представлены в RDF, который имеет структуру графа. XML2RDF - один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT может использоваться как стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / инструментов

Имя	Источник данных	Экспозиция данных	Синхронизация данных	Язык отображения	Повторное использование словарного запаса	Картографический автомат.	Треб. Онтология домена	Использует графический интерфейс
Прямое отображение реляционных данных в RDF	Реляционные данные	SPARQL / ETL	динамичный	N / A	ложный	автоматический	ложный	ложный
CSV2RDF4LOD	CSV	ETL	статический	RDF	правда	руководство по эксплуатации	ложный	ложный
CoNLL-RDF	TSV, CoNLL	Поток SPARQL / RDF	статический	никто	правда	автоматический (зависящий от предметной области, для случаев использования в языковых технологиях, сохраняет отношения между строками)	ложный	ложный
Конвертировать2RDF	Текстовый файл с разделителями	ETL	статический	RDF / DAML	правда	руководство по эксплуатации	ложный	правда
Сервер D2R	RDB	SPARQL	двунаправленный	Карта D2R	правда	руководство по эксплуатации	ложный	ложный
DartGrid	RDB	собственный язык запросов	динамичный	Визуальный инструмент	правда	руководство по эксплуатации	ложный	правда
DataMaster	RDB	ETL	статический	проприетарный	правда	руководство по эксплуатации	правда	правда
Расширение RDF от Google Refine	CSV, XML	ETL	статический	никто		полуавтоматический	ложный	правда
Krextor	XML	ETL	статический	xslt	правда	руководство по эксплуатации	правда	ложный
МАПОНТО	RDB	ETL	статический	проприетарный	правда	руководство по эксплуатации	правда	ложный
МЕТАморфозы	RDB	ETL	статический	проприетарный язык сопоставления на основе xml	правда	руководство по эксплуатации	ложный	правда
MappingMaster	CSV	ETL	статический	MappingMaster	правда	GUI	ложный	правда
ODEMapster	RDB	ETL	статический	проприетарный	правда	руководство по эксплуатации	правда	правда
Плагин OntoWiki CSV Importer - DataCube и Tabular	CSV	ETL	статический	Словарь RDF Data Cube Vocaublary	правда	полуавтоматический	ложный	правда
Poolparty Extraktor (PPX)	XML, текст	LinkedData	динамичный	RDF (SKOS)	правда	полуавтоматический	правда	ложный
RDBToOnto	RDB	ETL	статический	никто	ложный	автоматически, пользователь, кроме того, имеет возможность точно настроить результаты	ложный	правда
RDF 123	CSV	ETL	статический	ложный	ложный	руководство по эксплуатации	ложный	правда
RDOTE	RDB	ETL	статический	SQL	правда	руководство по эксплуатации	правда	правда
Relational.OWL	RDB	ETL	статический	никто	ложный	автоматический	ложный	ложный
T2LD	CSV	ETL	статический	ложный	ложный	автоматический	ложный	ложный
Словарь куба данных RDF	Многомерные статистические данные в электронных таблицах			Словарь куба данных	правда	руководство по эксплуатации	ложный
Композитор TopBraid	CSV	ETL	статический	SKOS	ложный	полуавтоматический	ложный	правда
Утроить	RDB	LinkedData	динамичный	SQL	правда	руководство по эксплуатации	ложный	ложный
Ультраобёртка	RDB	SPARQL / ETL	динамичный	R2RML	правда	полуавтоматический	ложный	правда
Виртуозные представления RDF	RDB	SPARQL	динамичный	Язык мета-схемы	правда	полуавтоматический	ложный	правда
Виртуозный спонджер	структурированные и полуструктурированные источники данных	SPARQL	динамичный	Виртуоз PL и XSLT	правда	полуавтоматический	ложный	ложный
VisAVis	RDB	RDQL	динамичный	SQL	правда	руководство по эксплуатации	правда	правда
XLWrap: электронная таблица в RDF	CSV	ETL	статический	Синтаксис TriG	правда	руководство по эксплуатации	ложный	ложный
XML в RDF	XML	ETL	статический	ложный	ложный	автоматический	ложный	ложный

Извлечение из источников на естественном языке

Большая часть информации, содержащейся в деловых документах (около 80%), закодирована на естественном языке и, следовательно, неструктурирована. Поскольку неструктурированные данные представляют собой серьезную проблему для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация / обработка естественного языка (NLP)

В качестве этапа предварительной обработки при извлечении знаний может потребоваться выполнение лингвистической аннотации с помощью одного или нескольких инструментов НЛП . Отдельные модули в рабочем процессе НЛП обычно основываются на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, относящиеся к извлечению знаний, включают:

теги части речи (POS)
лемматизация (LEMMA) или стемминг (STEM)
устранение неоднозначности смысла слов (WSD, относящаяся к семантической аннотации ниже)
распознавание именованных объектов (NER, также см. IE ниже)
синтаксический анализ, часто использующий синтаксические зависимости (DEP)
неглубокий синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача создания связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
маркировка семантической роли (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
синтаксический анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)

В NLP такие данные обычно представлены в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:

Формат обмена NLP (NIF, для многих часто используемых типов аннотаций)
Веб-аннотация (WA, часто используется для связывания сущностей)
CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV)

Другие форматы, зависящие от платформы, включают

Формат обмена LAPPS (LIF, используется в LAPPS Grid)
Формат аннотаций NLP (NAF, используется в системе управления рабочим процессом NewsReader)

Традиционное извлечение информации (IE)

Традиционное извлечение информации - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

Признание именной организации (NER)
Разрешение Coreference (CO)
Построение элемента шаблона (TE)
Построение отношения шаблона (TR)
Изготовление шаблонного сценария (ST)

Задача распознавания именованных сущностей состоит в том, чтобы распознать и классифицировать все именованные сущности, содержащиеся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.

Разрешение Coreference идентифицирует в тексте эквивалентные сущности, которые были распознаны NER. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектом и их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешающей способности кореференции.

Во время конструирования элемента шаблона система IE определяет описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.

Построение отношения шаблона определяет отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.

В шаблоне сценария производственные события, которые описаны в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицированных TR.

Извлечение информации на основе онтологий (OBIE)

Извлечение информации на основе онтологий - это подполе извлечения информации, с помощью которого, по крайней мере, одна онтология используется для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепций , экземпляров и отношений используемых онтологий в тексте, который после процесса будет структурирован в онтологию. Таким образом, входные онтологии составляют модель извлекаемой информации.

Обучение онтологии (OL)

Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей области из текста на естественном языке. Поскольку создание онтологий вручную чрезвычайно трудоемко и требует много времени, есть большая мотивация для автоматизации процесса.

Семантическая аннотация (SA)

Во время семантической аннотации текст на естественном языке дополняется метаданными (часто представленными в RDFa ), которые должны сделать семантику содержащихся терминов машинно-понятной. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, получается знание, какое значение термина в обрабатываемом контексте было предназначено, и, следовательно, значение текста основывается на машиночитаемых данных с возможностью делать выводы. Семантическая аннотация обычно разделяется на следующие две подзадачи.

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, которые соответствуют концепции, извлекаются с помощью предметно-ориентированного лексикона, чтобы связать их при связывании сущностей.

В сущности устанавливается связь между извлеченными лексическими терминами из исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia . Для этого с помощью лексики выявляются подходящие концепции по нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим синтаксическим анализом в понимании обработки естественного языка (также называемой «семантической аннотацией»): семантический синтаксический анализ направлен на полное машиночитаемое представление естественного языка. , в то время как семантическая аннотация в смысле извлечения знаний затрагивает только очень элементарный аспект этого.

Инструменты

Следующие критерии могут использоваться для категоризации инструментов, извлекающих знания из текста на естественном языке.

Источник	Какие входные форматы могут обрабатываться инструментом (например, простой текст, HTML или PDF)?
Доступ к парадигме	Может ли инструмент запрашивать источник данных или для процесса извлечения требуется полный дамп?
Синхронизация данных	Синхронизирован ли результат процесса извлечения с источником?
Использует онтологию вывода	Связывает ли инструмент результат с онтологией?
Картографическая автоматизация	Насколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)?
Требуется онтология	Нужна ли инструменту онтология для извлечения?
Использует графический интерфейс	Предлагает ли инструмент графический пользовательский интерфейс?
Подход	Какой подход (IE, OBIE, OL или SA) используется инструментом?
Извлеченные сущности	Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены инструментом?
Прикладные методы	Какие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )?
Модель вывода	Какая модель используется для представления результата работы инструмента (например, RDF или OWL)?
Поддерживаемые домены	Какие области поддерживаются (например, экономика или биология)?
Поддерживаемые языки	Какие языки можно обрабатывать (например, английский или немецкий)?

В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.

Имя	Источник	Доступ к парадигме	Синхронизация данных	Использует онтологию вывода	Картографическая автоматизация	Требуется онтология	Использует графический интерфейс	Подход	Извлеченные сущности	Прикладные методы	Модель вывода	Поддерживаемые домены	Поддерживаемые языки
[1]	простой текст, HTML, XML, SGML	свалка	нет	да	автоматический	да	да	IE	именованные сущности, отношения, события	языковые правила	проприетарный	независимый от домена	Английский, испанский, арабский, китайский, индонезийский
АлхимияAPI	простой текст, HTML				автоматический		да	SA					многоязычный
ЭННИ	простой текст	свалка				да	да	IE		алгоритмы конечного состояния			многоязычный
ASIUM	простой текст	свалка			полуавтоматический		да	ПР	концепции, иерархия понятий	НЛП, кластеризация
Исчерпывающая экстракция интенсивности					автоматический			IE	именованные сущности, отношения, события	НЛП
Одуванчик API	простой текст, HTML, URL	ОТДЫХАТЬ	нет	нет	автоматический	нет	да	SA	именованные сущности, концепции	Статистические методы	JSON	независимый от домена	многоязычный
Обзор DBpedia	простой текст, HTML	дамп, SPARQL	да	да	автоматический	нет	да	SA	аннотация к каждому слову, аннотация к непрерывным словам	НЛП, статистические методы, машинное обучение	RDFa	независимый от домена	английский
EntityClassifier.eu	простой текст, HTML	свалка	да	да	автоматический	нет	да	IE, OL, SA	аннотация к каждому слову, аннотация к непрерывным словам	основанная на правилах грамматика	XML	независимый от домена	Английский, немецкий, голландский
ФРЕД	простой текст	дамп, REST API	да	да	автоматический	нет	да	IE, OL, SA, шаблоны проектирования онтологий, семантика фреймов	(много-) словесная аннотация NIF или EarMark, предикаты, экземпляры, композиционная семантика, таксономии понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональность	НЛП, машинное обучение, эвристические правила	RDF / OWL	независимый от домена	Английский, другие языки через перевод
iDocument	HTML, PDF, DOC	SPARQL		да			да	OBIE	экземпляры, значения свойств	НЛП		личное дело
NetOwl Extractor	простой текст, HTML, XML, SGML, PDF, MS Office	свалка	Нет	да	Автоматический	да	да	IE	именованные сущности, отношения, события	НЛП	XML, JSON, RDF-OWL и другие	несколько доменов	Английский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский
OntoGen					полуавтоматический		да	ПР	понятия, иерархия понятий, нетаксономические отношения, экземпляры	НЛП, машинное обучение, кластеризация
OntoLearn	простой текст, HTML	свалка	нет	да	автоматический	да	нет	ПР	концепции, иерархия понятий, экземпляры	НЛП, статистические методы	проприетарный	независимый от домена	английский
OntoLearn Reloaded	простой текст, HTML	свалка	нет	да	автоматический	да	нет	ПР	концепции, иерархия понятий, экземпляры	НЛП, статистические методы	проприетарный	независимый от домена	английский
ОнтоСифон	HTML, PDF, DOC	дамп, поисковые запросы	нет	да	автоматический	да	нет	OBIE	понятия, отношения, примеры	НЛП, статистические методы	RDF	независимый от домена	английский
onX	простой текст	свалка	нет	да	полуавтоматический	да	нет	OBIE	экземпляры, значения свойств типа данных	эвристические методы	проприетарный	независимый от домена	независимый от языка
OpenCalais	простой текст, HTML, XML	свалка	нет	да	автоматический	да	нет	SA	аннотации к сущностям, аннотации к событиям, аннотации к фактам	НЛП, машинное обучение	RDF	независимый от домена	Английский, французский, испанский
PoolParty Extractor	простой текст, HTML, DOC, ODT	свалка	нет	да	автоматический	да	да	OBIE	именованные сущности, концепции, отношения, концепции, которые классифицируют текст, обогащения	НЛП, машинное обучение, статистические методы	RDF, OWL	независимый от домена	Английский, немецкий, испанский, французский
Росока	простой текст, HTML, XML, SGML, PDF, MS Office	свалка	да	да	Автоматический	нет	да	IE	извлечение именованных сущностей, разрешение сущностей, извлечение взаимосвязей, атрибуты, концепции, многовекторный анализ тональности , геотеги, идентификация языка	НЛП, машинное обучение	XML, JSON, POJO, RDF	несколько доменов	Многоязычный 200+ языков
СКОБИ	простой текст, HTML	свалка	нет	да	автоматический	нет	нет	OBIE	экземпляры, значения свойств, типы RDFS	НЛП, машинное обучение	RDF, RDFa	независимый от домена	Английский, немецкий
SemTag	HTML	свалка	нет	да	автоматический	да	нет	SA		машинное обучение	запись в базе данных	независимый от домена	независимый от языка
умный FIX	простой текст, HTML, PDF, DOC, электронная почта	свалка	да	нет	автоматический	нет	да	OBIE	названные объекты	НЛП, машинное обучение	проприетарный	независимый от домена	Английский, немецкий, французский, голландский, польский
Text2Onto	простой текст, HTML, PDF	свалка	да	нет	полуавтоматический	да	да	ПР	концепции, иерархия понятий, нетаксономические отношения, экземпляры, аксиомы	НЛП, статистические методы, машинное обучение, методы на основе правил	СОВА	деомен-независимый	Английский, немецкий, испанский
Text-To-Onto	простой текст, HTML, PDF, PostScript	свалка			полуавтоматический	да	да	ПР	понятия, иерархия понятий, нетаксономические отношения, лексические объекты, относящиеся к концепциям, лексические объекты, относящиеся к отношениям	НЛП, машинное обучение, кластеризация, статистические методы			Немецкий
ThatNeedle	Простой текст	свалка			автоматический		нет		концепции, отношения, иерархия	НЛП, проприетарный	JSON	несколько доменов	английский
Вики-машина	простой текст, HTML, PDF, DOC	свалка	нет	да	автоматический	да	да	SA	аннотации к существительным собственным, аннотации к существительным нарицательным	машинное обучение	RDFa	независимый от домена	Английский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder								IE	именованные сущности, отношения, события				многоязычный

Открытие знаний

Обнаружение знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые можно рассматривать как знания о данных. Это часто описывается как получение знаний из входных данных. Открытие знаний возникло из области интеллектуального анализа данных и тесно связано с ней как с точки зрения методологии, так и с точки зрения терминологии.

Наиболее известной отраслью интеллектуального анализа данных является обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания , полученные посредством процесса могут стать дополнительными данными , которые могут быть использованы для дальнейшего использования и открытия. Часто результаты открытия знаний не поддаются действию, обнаружение знаний , требующее действий , также известное как интеллектуальный анализ данных на основе предметной области , направлено на обнаружение и предоставление действенных знаний и идей.

Еще одно многообещающее применение обнаружения знаний - это модернизация программного обеспечения , обнаружение слабых мест и соответствие требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией реверс-инжиниринга . Обычно знания, полученные с помощью существующего программного обеспечения, представлены в форме моделей, к которым при необходимости могут быть сделаны конкретные запросы. Отношения субъекта является частым форматом представления знаний , полученных из существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию метамодели обнаружения знаний (KDM), которая определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных , поскольку существующие программные артефакты имеют огромное значение для управления рисками и бизнеса , что является ключом к оценке и развитию программных систем. Вместо добычи отдельных наборов данных , добыча программного обеспечения фокусируется на метаданных , такие как потоки процесса (например , данные потоки, потоки управления, и карты вызовов), архитектура, схемы баз данных и бизнес - правила / условие / процесс.

Languages

In other projects