Партнерство по созданию текста - Text Creation Partnership

Текст Создание партнерства ( TCP ) является организацией , не некоммерческое основе в библиотеке Мичиганского университета с 2000 года Его цель состоит в том, чтобы производить крупномасштабные полнотекстовых электронных ресурсов (особенно в гуманитарных науках) от имени и учреждения-члены (особенно академические библиотеки) и научные издатели, в соответствии с соглашением, рассчитанным на удовлетворение потребностей обоих, и при этом продемонстрировать ценность бизнес-модели, которая рассматривает корпоративных и некоммерческих поставщиков информации как потенциально дружелюбных сотрудников, а не как антагонистические продавцы и покупатели соответственно.

Проекты

На сегодняшний день TCP спонсировала четыре проекта по созданию текста. Первым и самым крупным является "EEBO-TCP (Phase I)" (2001–2009), попытка создать структурно размеченные полнотекстовые транскрипции 25 000+ из примерно 125 000 книг, которые можно найти в журналах Pollard и Redgrave. и каталоги Wing с краткими названиями ранних английских печатных книг или среди трактатов Томасона , то есть почти из всех книг, брошюр и рекламных листовок, изданных на английском или в Англии до 1700 года. Книги были отобраны и расшифрованы с цифровых сканированных изображений. производится ProQuest Information and Learning и распространяется ими в виде веб-продукта под названием « Early English Books Online » (EEBO). Сканы, с которых были расшифрованы тексты, сами были сделаны из копий микрофильмов, сделанных на протяжении многих лет ProQuest и ее предшествующими компаниями, включая оригинальный University Microfilms, Inc. Этап I EEBO-TCP завершился в конце 2009 года, расшифровав около 25 300 названий и сразу же перешел в EEBO-TCP Phase II (2009–), продолжение проекта, посвященного преобразованию всех оставшихся уникальных англоязычных монографий (примерно 45 000 дополнительных названий).

Третьим проектом TCP был Evans-TCP (2003–2007 гг., Работа продолжалась до 2010 г.), попытка переписать 6000 из 36000 названий до 1800 г., перечисленных в Американской библиографии Чарльза Эванса , и распространить их снова в виде изображений страниц, отсканированных из копии микрофильмов, произведенные Readex , подразделением NewsBank, Inc. под названием « Архив Америки » («Ранние американские отпечатки, серия I: Эванс, 1639–1800»). Evans-TCP выпустила электронные тексты почти для 5000 книг.

Последним проектом TCP был ECCO-TCP (2005–2010, некоторые работы продолжаются), попытка расшифровать 10 000 книг восемнадцатого века из 136 000 наименований, имеющихся на веб-ресурсе Thomson-Gale "Eighteen-Century Collections". Онлайн »(ECCO). ECCO-TCP исчерпал финансирование в 2010 году после расшифровки около 3000 (и редактирования около 2400) заголовков.

Общие черты проекта

Все четыре текстовых проекта TCP очень похожи. В каждом случае:

  1. TCP создает текст из коммерческих файлов изображений, которые, в свою очередь, были созданы из копий на микрофильмах ранних книг.
  2. Коммерческие поставщики изображений получают то, что по сути является полнотекстовым индексом к своему графическому продукту, гораздо дешевле, чем это стоило бы произвести сами: добавленную стоимость к их продукту.
  3. Библиотеки-партнеры фактически владеют, а не просто лицензируют полученные тексты, и могут (при определенных условиях) самостоятельно монтировать тексты в любой системе, которая им нравится, или использовать тексты для внутренних целей как инструмент обучения и обучения.
  4. Тексты создаются в соответствии со стандартами, определяемыми библиотекой, единообразны для множества наборов данных и потенциально доступны для перекрестного поиска.
  5. Поскольку они создаются совместно, тексты относительно недороги (из расчета на каждую книгу) и становятся все дороже с каждой библиотекой, которая присоединяется к партнерству.
  6. В конечном итоге тексты будут доступны для широкой публики.
  7. Отбор текстов для преобразования, хотя и отличается от проекта к проекту, в каждом случае следует схожим принципам: разнообразие, значимость, репрезентативность, недопущение дублирования; особые запросы от преподавателей или научных инициатив в организациях-членах также обычно выполняются.
  8. До сих пор TCP был в первую очередь заинтересован в создании текстов, а не в создании «продукта»; хотя тексты из всех трех проектов монтируются или будут монтироваться на серверах библиотеки Мичиганского университета, сайт в Мичигане не является официальным сайтом TCP: любая партнерская библиотека с соответствующими ресурсами и гарантиями может делать то же самое. Тексты EEBO-TCP, например, обслуживаются Мичиганом, ProQuest, Цифровой библиотекой Оксфордского университета и Чикагским университетом.

Организация

TCP находится под контролем Совета директоров, состоящего в основном из старших администраторов библиотек партнерских учреждений, представителей корпоративных партнеров и Совета по библиотечным и информационным ресурсам (CLIR). Совету помогает в вопросах отбора и стипендии академическая консультативная группа, в которую входят преподаватели в области раннего современного английского и американистики.

ПТС поддерживает неформальные связи с рядом университетских научных текстовых проектов, особенно в том, что касается предоставления им исходных текстов для работы. Представленные учреждения включают Северо-Западный университет (Иллинойс), Оксфордский университет (Великобритания), Вашингтонский университет (Сент-Луис), Сиднейский университет (Австралия), Университет Торонто (ОН) и Университет Виктории (Британская Колумбия). TCP также работал со студентами, ежегодно спонсируя конкурс эссе для студентов, созывая рабочие группы по использованию текстов TCP в педагогике и обращаясь к ученым и студентам за идеями по выбору и использованию.

Создание текстов осуществляется через Службу создания цифровых библиотек (DLPS) Мичиганского университета, имеющую обширный опыт в производстве электронных текстов в кодировке SGML / XML. DLPS помогает Бодлеанская система цифровых библиотек Оксфордского университета и услуги (BDLSS), в том числе покойный Себастьян Ратц . Небольшие производственные операции с неполным рабочим днем ​​были также начаты в двух других библиотеках: Центре исследований реформации и возрождения в Библиотеке Пратта (Университет Виктории в Университете Торонто), специализирующемся на латинских книгах; и Национальная библиотека Уэльса (Llyfrgell Genedlaethol Cymru) в Аберистуите, специализирующаяся на валлийских книгах.

Стандарты

Все четыре текстовых проекта TCP создаются одинаковым образом и в соответствии с одними и теми же стандартами, которые задокументированы, по крайней мере частично, на веб-сайте TCP.

  1. Точность. TCP стремится создавать тексты, которые максимально точно транскрибируются с заданным общим уровнем точности 99,995% или лучше (то есть одна ошибка или меньше на 20 000 символов).
  2. Ключ. Учитывая характер материала, единственный метод обеспечения такой точности с экономической точки зрения заключался в том, что бухгалтерские книги вводились по контракту фирмами, занимающимися преобразованием данных.
  3. Контроль качества. Точность транскрипции и пригодность разметки во всех случаях оценивает группа библиотечных корректоров и рецензентов, управляемая DLPS Мичиганского университета.
  4. Кодировка. Все результирующие текстовые файлы размечены в допустимом SGML или XML (SGML заархивирован, XML экспортируется) в соответствии с частным «описанием типа документа» (DTD), полученным из версии P3 / P4 стандарта Text Encoding Initiative (TEI).
  5. Целенаправленная разметка. По сравнению с полным TEI, TCP DTD очень прост и предназначен для захвата только функций, наиболее полезных для четкого отображения, интеллектуальной навигации и продуктивного поиска. Практика TCP заключается в том, чтобы фиксировать, насколько это возможно, общую иерархическую структуру каждой книги (части, разделы, главы и т. Д.); особенности, которые имеют тенденцию отмечать начало и конец разделов (заголовки, эксплициты, приветствия, прощальные слова, строки дат, подписи, эпиграфы и т. д.); наиболее значимые элементы дискурса и организации (абзацы в прозе, строки и строфы в стихах, речи, выступающие и сценические постановки в драме, заметки, цитаты, последовательные нумерации всех видов); и только самые важные аспекты физического форматирования (разрывы страниц, списки, таблицы, изменение шрифтов).
  6. Верность оригиналу. В каждом случае текст предназначен для представления книги в том виде, в котором она была напечатана, насколько это возможно. Ошибки принтера сохраняются, изменения, написанные от руки, игнорируются, повторяющиеся отсканированные изображения опускаются, неупорядоченные изображения вводятся в предполагаемом порядке, а большинство необычных символов оригинала сохраняется.
  7. Легкость чтения и поиска. В то же время, хотя транскрипции выполняются посимвольно, TCP, исходя из теории, что вся транскрипция является своего рода переводом из одной символической системы в другую, имеет тенденцию определять символы в терминах их значения, а не их значения. форма и сопоставление эксцентричных буквенных форм со значимыми современными эквивалентами, как правило, в соответствии с определением Unicode для «символа».
  8. Языки. Хотя большинство текстов TCP на английском языке, многие - нет. Книги и разделы книг не на английском языке помечены соответствующим языковым кодом, но иначе не различаются.
  9. Пропущенный материал. TCP создает текст в латинском алфавите . Нетекстовые материалы, такие как нотные записи, математические формулы и иллюстрации (за исключением любого текста, который они могут содержать), опускаются, а их расположение отмечается специальным тегом. Расширенный текст в нелатинских алфавитах (греческий, иврит, персидский и т. Д.) Также опускается.

Достижения и перспективы

По состоянию на апрель 2011 года TCP создала около 40 000 полнотекстовых транскрипций ранних книг с возможностью поиска и навигации, базу данных непревзойденного объема, масштаба и полезности для студентов во многих областях. Сможет ли он продолжить создание оставшихся 38000 текстов, включенных в его недавние амбициозные планы (для фазы II EEBO-TCP), будет зависеть от обоснованности его первоначального видения, вытекающего из теории, что библиотеки могут и должны сотрудничать, чтобы стать производители и разработчики стандартов, а не потребители; и что университеты и коммерческие фирмы, несмотря на их очень разные жизненные циклы, ограничения и мотивы, могут присоединиться к прочным партнерским отношениям, выгодным для всех сторон.

По состоянию на 1 января 2015 года полный текст фазы I EEBO был выпущен по лицензии Creative Commons и может быть свободно загружен и распространен.

В 2014 году в рамках Фазы II было доступно 28 466 наименований. По состоянию на июль 2015 года ProQuest имел эксклюзивное право в течение пяти лет на распространение коллекции EEBO-TCP Phase II. По истечении этих пяти лет тексты станут общедоступными.

Смотрите также

Ссылки

внешняя ссылка