Контролируемый словарный запас

Контролируемые словари обеспечивают способ организации знаний для последующего извлечения. Они используются в схемах предметной индексации, тематических заголовках, тезаурусах, таксономиях и других системах организации знаний. Контролируемые словарные схемы требуют использования предопределенных, разрешенных терминов, которые были предварительно выбраны разработчиками схем, в отличие от словарей естественного языка, которые не имеют таких ограничений.

В области библиотечного дела и информатики[править]

В библиотечном деле и информатике контролируемый словарь-это тщательно отобранный список слов и фраз, которые используются для обозначения единиц информации (документа или работы), чтобы их было легче найти с помощью поиска.[3][4] Контролируемые словари решают проблемы омографов, синонимов и многозначностей путем биекции между понятиями и разрешенными терминами. Короче говоря, контролируемые словари уменьшают двусмысленность, присущую обычным человеческим языкам, где одному и тому же понятию можно давать разные названия, и обеспечивают согласованность.

Например, в предметных рубрик Библиотеки Конгресса[5] (а заголовку система, которая использует управляемый словарь), официальный условий предметных рубрик в этом случае—должен быть выбран для обработки выбор варианта написания одного и того же слова (американским и британским), выбор среди научно-популярных терминов (таракан против Перепланируя Американа), а выбор между синонимами (автомобиль против автомобиля), среди других непростых вопросов.

Выбор разрешенных терминов основан на принципах пользовательского ордера (какие термины могут использовать пользователи), литературного ордера (какие термины обычно используются в литературе и документах) и структурного ордера (термины, выбранные с учетом структуры, объема контролируемого словаря).

Контролируемые словари также обычно решают проблему омографов с классификаторами. Например, термин " пул " должен быть квалифицирован для обозначения либо плавательного бассейна, либо игрового пула, чтобы гарантировать, что каждый разрешенный термин или заголовок относится только к одному понятию.

Типы, используемые в библиотеках[править]

В библиотеках используются два основных вида инструментов контролируемой лексики: тематические рубрики и тезаурусы. Хотя различия между ними уменьшаются, все еще существуют некоторые незначительные различия.

Исторически тематические заголовки были разработаны для описания книг в библиотечных каталогах каталогизаторами, в то время как тезаурусы использовались индексаторами для применения терминов индекса к документам и статьям. Тематические рубрики, как правило, шире по охвату, описывая целые книги, в то время как тезаурусы, как правило, более специализированы, охватывая очень конкретные дисциплины. Также из-за системы картотеки в заголовках тем, как правило, содержатся термины, расположенные в косвенном порядке (хотя с появлением автоматизированных систем это удаляется), в то время как термины тезауруса всегда находятся в прямом порядке. Предметные заголовки также, как правило, используют более предварительную координацию терминов, так что разработчик контролируемого словаря будет объединять различные понятия вместе, чтобы сформировать один разрешенный предметный заголовок. (например, дети и терроризм), в то время как тезаурусы, как правило, используют прямые термины в единственном числе. Наконец, в тезаурусе перечислены не только эквивалентные термины, но и более узкие, более широкие термины и связанные с ними термины среди различных разрешенных и неавторизованных терминов, в то время как исторически большинство тематических заголовков этого не делали.

Например, Тематический заголовок Библиотеки Конгресса сам по себе не имел большой синдетической структуры до 1943 года, и только в 1985 году он начал использовать термины тезаурусного типа "Более широкий термин" и "Узкий термин".

Термины выбираются и организуются подготовленными специалистами (в том числе библиотекарями и учеными-информатиками), которые обладают знаниями в данной предметной области. Термины с контролируемой лексикой могут точно описать, о чем на самом деле идет речь в данном документе, даже если сами термины не встречаются в тексте документа. Хорошо известные системы тематических рубрик включают систему Библиотеки Конгресса, MeSH и Sears. Хорошо известные тезаурусы включают Тезаурус по искусству и архитектуре и тезаурус ЭРИКА.

Выбор разрешенных терминов для использования является сложным делом, помимо областей, уже рассмотренных выше, дизайнер должен учитывать специфику выбранного термина, следует ли использовать прямой ввод, согласованность и стабильность языка. Наконец, еще одним важным вопросом является количество предварительной координации (в этом случае степень перечисления по сравнению с синтезом становится проблемой) и последующей координации в системе.

Контролируемые словарные элементы (термины/фразы), используемые в качестве тегов для облегчения процесса идентификации содержимого документов или других объектов информационной системы (например, СУБД, веб-служб), квалифицируются как метаданные.

Языки индексирования[править]

Существует три основных типа языков индексирования.

Контролируемый язык индексирования – индексатор может использовать только утвержденные термины для описания документа
Язык индексирования на естественном языке – для описания документа можно использовать любой термин из рассматриваемого документа
Свободный язык индексирования – для описания документа можно использовать любой термин (не только из документа).

При индексировании документа индексатор также должен выбрать уровень полноты индексирования, уровень детализации, в котором описывается документ. Например, при использовании низкой исчерпывающей индексации незначительные аспекты работы не будут описываться терминами индекса. В целом, чем выше исчерпываемость индексации, тем больше терминов индексируется для каждого документа.

В последние годы стал популярен бесплатный текстовый поиск как средство доступа к документам. Это предполагает использование индексации на естественном языке с исчерпывающим максимальным значением индексации (индексируется каждое слово в тексте). Было проведено множество исследований для сравнения эффективности и результативности поиска в свободном тексте с документами, которые были проиндексированы экспертами с использованием нескольких хорошо подобранных контролируемых словарных дескрипторов.

Преимущества[править]

Часто утверждается, что контролируемые словари повышают точность поиска в свободном тексте, например, уменьшают количество ненужных элементов в списке поиска. Эти несущественные элементы (ложные срабатывания) часто вызваны присущей естественному языку двусмысленностью. Возьмем, к примеру, английское слово футбол. Футбол-это название, данное ряду различных командных видов спорта. Во всем мире самым популярным из этих командных видов спорта является футбол ассоциации, который в нескольких странах также называют футболом. Слово футбол также применяется к регби-футболу (союз регби и лига регби), американскому футболу, Австралийский футбол по правилам, гэльский футбол и канадский футбол. Таким образом, поиск по футболу приведет к получению документов, касающихся нескольких совершенно разных видов спорта. Контролируемый словарь решает эту проблему, помечая документы таким образом, чтобы исключить двусмысленности.

По сравнению со свободным поиском текста использование контролируемого словаря может значительно повысить производительность информационно-поисковой системы, если производительность измеряется точностью (процент документов в списке поиска, которые действительно имеют отношение к теме поиска).

В некоторых случаях контролируемая лексика также может улучшить запоминание, потому что, в отличие от схем естественного языка, после поиска правильного авторизованного термина нет необходимости искать другие термины, которые могут быть синонимами этого термина.

Проблемы[править]

Контролируемый поиск по словарному запасу может привести к неудовлетворительному запоминанию, поскольку он не сможет извлечь некоторые документы, которые действительно имеют отношение к вопросу поиска.

Это особенно проблематично, когда вопрос поиска включает термины, которые достаточно близки к предметной области, так что индексатор, возможно, решил пометить его другим термином (но поисковик может рассмотреть то же самое). По сути, этого может избежать только опытный пользователь контролируемой лексики, чье понимание лексики совпадает с пониманием индексатора.

Другая возможность заключается в том, что статья просто не помечена индексатором, поскольку исчерпываемость индексации невелика. Например, в статье может быть упомянуто о футболе как о второстепенном фокусе, и индексатор может решить не помечать ее словом "футбол", потому что это недостаточно важно по сравнению с основным фокусом. Но оказывается, что для искателя эта статья актуальна, и, следовательно, отзыв не удается. Бесплатный текстовый поиск автоматически подберет эту статью независимо от того, что.

С другой стороны, поиск по свободному тексту обладает высокой степенью исчерпываемости (выполняется поиск по каждому слову), поэтому, хотя он имеет гораздо меньшую точность, он имеет потенциал для быстрого запоминания, пока поисковик преодолевает проблему синонимов, вводя каждую комбинацию.

Контролируемые словари могут быстро устаревать в быстро развивающихся областях знаний, если только авторизованные термины не обновляются регулярно. Даже в идеальном сценарии контролируемый словарный запас часто менее специфичен, чем слова самого текста. Индексаторы, пытающиеся выбрать соответствующие термины индекса, могут неправильно истолковать автора, в то время как эта конкретная проблема не является фактором в свободном тексте, поскольку в нем используются собственные слова автора.

Использование контролируемых словарей может быть дорогостоящим по сравнению со свободным текстовым поиском, поскольку для индексации каждой записи необходимы специалисты-люди или дорогостоящие автоматизированные системы. Кроме того, пользователь должен быть знаком со схемой контролируемой лексики, чтобы наилучшим образом использовать систему. Но, как уже упоминалось, контроль синонимов, омографов может помочь повысить точность.

Для оказания помощи в создании контролируемых словарей было разработано множество методологий, включая комплексную классификацию, которая позволяет описывать данную запись данных или документ несколькими способами.

Приложения[править]

Контролируемые словари, такие как тематические рубрики Библиотеки Конгресса, являются важным компонентом библиографии, изучения и классификации книг. Первоначально они были разработаны в области библиотечного дела и информатики. В 1950-х годах правительственные учреждения начали разрабатывать контролируемые словари для растущей журнальной литературы в специализированных областях; примером могут служить заголовки медицинских тем (MeSH), разработанные Национальной медицинской библиотекой США. Впоследствии появились коммерческие фирмы (называемые службами абстрагирования и индексации), которые индексировали быстро растущую литературу во всех областях знаний. В 1960-х годах на основе коммутируемой сети X. 25 была создана индустрия онлайн-библиографических баз данных. Эти услуги редко предоставлялись широкой публике, поскольку ими было трудно пользоваться; поисковую работу выполняли специализированные библиотекари, называемые посредниками по поиску. В 1980-х годах появились первые полнотекстовые базы данных; эти базы данных содержат полный текст статей индекса, а также библиографическую информацию. Онлайновые библиографические базы данных перекочевали в Интернет и теперь находятся в открытом доступе; однако большинство из них являются собственностью и могут быть дорогостоящими в использовании. Студенты, обучающиеся в колледжах и университетах, могут иметь доступ к некоторым из этих услуг бесплатно; некоторые из этих услуг могут быть доступны бесплатно в публичной библиотеке.

Техническая связь[править]

В крупных организациях для улучшения технической коммуникации могут быть введены контролируемые словари. Использование контролируемого словарного запаса гарантирует, что все используют одно и то же слово для обозначения одного и того же. Эта согласованность терминов является одной из наиболее важных концепций в техническом написании и управлении знаниями, когда прилагаются усилия для использования одного и того же слова во всем документе или организации вместо немного разных для обозначения одного и того же.

Семантическая сеть и структурированные данные[править]

Поиск в Интернете может быть значительно улучшен за счет разработки контролируемого словаря для описания веб-страниц; использование такого словаря может привести к созданию Семантической сети, в которой содержимое веб-страниц описывается с использованием машиночитаемой схемы метаданных. Одним из первых предложений по такой схеме является Дублинская основная инициатива. Примером контролируемого словаря, который можно использовать для индексирования веб-страниц, является PSH.

Маловероятно, что одна схема метаданных когда-либо преуспеет в описании содержимого всей сети.[6] Для создания семантической сети может потребоваться использование двух или более систем метаданных для описания содержимого веб-страницы. Язык фасетных метаданных с возможностью обмена (XFML) предназначен для того, чтобы создатели управляемого словаря могли публиковать системы метаданных и обмениваться ими. XFML разработан на принципах фасетной классификации.

Контролируемые словари семантической сети определяют понятия и отношения (термины), используемые для описания области интересов или проблемной области. Например, чтобы объявить человека в машиночитаемом формате, словарный запас необходим, что имеет формальное определение "человек", вроде как друг моего друга (в foaf) словарь, в котором есть класс Person, который определяет характерные свойства человека, в том числе, но не ограничиваясь, имя, почетные префикс, место работы, адрес электронной почты и домашней страницы, или лицо, словарный запас Schema.org. Аналогично, книгу можно описать, используя книжный словарь Schema.org[9] и общие термины публикации из основного словаря Дублина, событие со словарем событий Schema.org, и так далее.

Чтобы использовать машиночитаемые термины из любого контролируемого словаря, веб-дизайнеры могут выбирать из множества форматов аннотаций, включая RDFa, микроданные HTML5 или JSON-LD в разметке или сериализации RDF (RDF/XML, Turtle, N3, TriG, TriX) во внешних файлах.

Смотрите также[править]

Пруф[править]

lov.linkeddata.es/dataset/lov/