facebook
twitter
vk
instagram
linkedin
google+
tumblr
akademia
youtube
skype
mendeley
Wiki
Global international scientific
analytical project
GISAP
GISAP logotip

XML-РАЗМЕТКА ЛИНГВИСТИЧЕСКОЙ ИНФОРМАЦИИ ЭЛЕКТРОННОГО ГИПЕРТЕКСТА

Автор Доклада: 
Концевая Г.М., Концевой М.П.
Награда: 
XML-РАЗМЕТКА ЛИНГВИСТИЧЕСКОЙ ИНФОРМАЦИИ ЭЛЕКТРОННОГО ГИПЕРТЕКСТА

УДК 81'373.611'322 004.4:81'322 81'322

XML-РАЗМЕТКА ЛИНГВИСТИЧЕСКОЙ ИНФОРМАЦИИ ЭЛЕКТРОННОГО ГИПЕРТЕКСТА

Концевая Галина Михайловна, канд. филол. наук, доцент
Концевой Михаил Петрович, науч. сотрудник
Брестский государственный университет

В докладе рассматриваются возможности метаязыка XML, в качестве инструментария разметки лингвистической информации электронного гипертекста.
Ключевые слова: Расширяемый язык разметки гипертекста, разметка, метаданные.

The report examines the possibility of a meta-language XML, the markup language as a tool of information electronic hypertext.
In the article problems of legal regulation of a domain nomination and a transfer are analyzed. Approaches to their permission are offered.

Keywords: XML, Extensible Markup Language, marking, TEI, metadata.
 

Важным фактором эффективности использования вычислительных методов в лингвистическом анализе электронного гипертекста является лежащий в его основе язык гипертекстовой разметки. Язык разметки документов ? это набор специальных инструкций (управляющих дескрипторов, тегов), предназначенных для формирования в документах определенной структуры и определения отношений между элементами этой структуры. Теги языка определенным образом кодируются, выделяются относительно основного содержимого документа и служат в качестве инструкций для программы, создающей механизм нелинейного просмотра информации и производящей показ содержимого.
Существуют различные языки разметки (Hypertext Markup Language, Wiki, Dictionary Specification Language и т.д.), конструктивные параметры которых недопустимо игнорировать в исследовании электронного гипертекста, так как именно они обуславливают многие существенные особенности, определяют границы и характер его функционирования.

HTML (Hypertext Markup Language) ? самый известный язык гипертекстовой разметки, созданный специально для организации информации в Интернете и являющийся одной из ключевых составляющих технологии WWW. HTML – упрощенная версия стандартного метаязыка разметки SGML (Standart Generalised Markup Language), который определяет допустимый набор тегов, их атрибуты и внутреннюю структуру документа. Язык HTML, гораздо более простой и удобный, чем SGML, позволяет определять оформление элементов документа и имеет некий ограниченный (но не строгий) набор тегов разметки. HTML использует в качестве элемента гипертекстовой базы данных текстовый файл и является открытым стандартом, что сделало его важнейшим механизмом представления информации в Web.

Однако современные сетевые сервисы и приложения нуждаются не столько в языке представления данных на экране клиента, сколько в механизме определения семантической структуры документа, описания содержащихся в нем элементов в целях машинного анализа. HTML успешно справляется с задачей описания текстовой информации и отображением ее в браузере для восприятия пользователем. Однако сами отображаемые данные никак не связаны с теми тегами, которые используются для форматирования, поэтому у программ-анализаторов нет возможности использовать теги HTML для семантического поиска, извлечения и анализа заданных фрагментов документа. Семантическая разметка HTML и метаданные без обязательной привязки описания гипертекста к его содержанию на практике сводится фальсифицируется, что приводит к существенному осложнению семантического анализа. Можно сделать вывод, что HTML уже сегодня не удовлетворяет в полной мере требованиям к универсальному языку гипертекстовой разметки и область его применения будет все более ограничиваться теми областями, где возможности машинного семантического анализа гипертекстовых массивов не являются критичными и первоочередными.

XML (Extensible Markup Language) ? это метаязык разметки, описывающий грамматики других языков и средства верификации составления гипертекстовых документов [1].

Уже сегодня XML, несомненно, стал стандартом де-факто. Все ведущие поставщики программного обеспечения (не только Web, но и систем баз данных) включают в свои программные продукты поддержку языка. Так, новые форматы документов MS Office 2007 (расширение имен *docx, *docm, *dotx, *docm) представляет собой zip-контейнеры с XML-файлами, на XML основан и конкурирующий ODF (Open Document Format). XML лежит в основе популярных форматов eText (FictionBook и ePub). Все современные браузеры имеют поддержку XML.

Спецификации XML позволяют определять множество допустимых в XML-документе тегов разметки и их атрибутов, ассоциируя с ними по умолчанию некоторую семантику (стандарт пространства имен XML ? Namespaces in XML); обогащают имеющиеся в языке возможности описания с помощью DTD структуры XML-документов (стандарт XML Schema); дают возможность описывать семантику XML-документов с различной степенью формализованности (стандарт RDF); управляют представлением XML-документов на стороне клиента (CSS и XSL), описывают трансформации XML-документов (XSLT).

Одной из важнейших целей создания XML является привнесение в гипертекстовую информационную среду метаданных, описывающих свойства поддерживаемых в ней информационных ресурсов. Прежде всего, метаданные позволяют описывать структуры XML-документов и их смысловое содержание (семантику). Благодаря этому обеспечиваются возможности автоматической проверки правильности структуры XML-документов и снижения уровня информационного шума при поиске информационных ресурсов в Веб с помощью различных поисковых машин. Явное описание семантики XML-документов необходимо также для обеспечения взаимосвязи интернет-приложений. В частности, становится возможным создание принципиально новых приложений высокого уровня, основанных на интеграции информационных технологий и обеспечивающих интеграцию неоднородных информационных ресурсов. Это направление связано с созданием информационных систем нового класса, функционирующих в электронной гипертекстовой среде и называемых электронными библиотеками.

В стандартах платформы XML предусмотрено несколько средств описания и представления метаданных. Для определения логической структуры XML-документов специальные синтаксические конструкции предусмотрены в языке XML.

XML не содержит тегов, предназначенных для гипертекстовой разметки, но определяет порядок их создания и набор инструкций, позволяющий создавать приложения и подмножества данных, уникальные для решения пользовательских задач. Для создания XML-документа в простейшем случае достаточно обычного текстового редактора. Любой набор стандартных тегов может быть легко расширен заданием новых тегов и выбором порядка их следования. Сам процесс создания XML-документа очень прост и требует лишь базовых знаний синтаксиса и понимания тех задач, которые мы хотим выполнить, используя XML в качестве языка разметки.

При создании конкретного языка разметки могут быть использованы любые имена (на основе допустимых символов из спецификации XML), соответствующие контексту. В этом и заключается гибкость и расширяемость XML-производных языков ? они создаются разработчиком «на лету», согласно его представлениям о структуре документа, а затем могут использоваться универсальными программами просмотра наравне с любыми другими XML-производными языками, т.к. вся необходимая для синтаксического анализа информация заключена внутри документа [2].

Таким образом, у разработчиков появляется уникальная возможность вводить собственные команды, позволяющие им наиболее эффективно определять и описывать данные, содержащиеся в документе. Автор документа создает его структуру, строит необходимые связи между элементами, используя те команды, которые удовлетворяют его требованиям, и добивается такого типа разметки, который необходим ему для выполнения операций просмотра, поиска, анализа документа.

XML-документы должны удовлетворять следующим требованиям:

  • в заголовке документа помещается объявление XML, в котором указывается язык разметки, номер его версии и дополнительная информация;
  • каждый открывающий тег, определяющий некоторую область данных в документе, обязательно должен иметь закрывающий тег;
  • учитывается регистр символов;
  • все значения атрибутов, используемых в определении тегов, должны быть заключены в кавычки;
  • вложенность тегов строго контролируется;
  • вся информация, располагающаяся между начальным и конечным тегами, рассматривается в XML как данные, и поэтому учитываются все символы форматирования (пробелы, переводы строк и т.п.).

Если XML-документ не нарушает приведенных правил, то он называется формально-правильным и все анализаторы, предназначенные для разбора и анализа XML- документов, смогут работать с ним корректно.

Кроме проверки на формальное соответствие грамматике языка, в документе могут присутствовать средства контроля над содержанием документа, за соблюдением правил, определяющих необходимые соотношения между элементами и формирующих структуру документа. Для того чтобы обеспечить проверку корректности XML-документов, необходимо использовать анализаторы, производящие такую проверку и называемые верифицирующими. Существует два способа контроля правильности XML-документа: DTD-определения (Document Type Definition) и схемы данных (Semantic Schema).

Чтобы утвердить список допустимых элементов нашего нового языка, их возможное содержимое и атрибуты, мы должны создать DTD-определения (единственный стандартный способ описания грамматики). В XML-документах DTD определяет набор действительных элементов, идентифицирует элементы, которые могут находиться в других элементах, и определяет действительные атрибуты для каждого из них. Синтаксис DTD весьма своеобразный, и от автора требуются дополнительные усилия при создании таких документов. Документы, созданные без правил DTD, будут правильно обрабатываться программой-анализатором, если они удовлетворяют основным требованиям синтаксиса XML. Контроль типов элементов и корректности отношений между ними в этом случае будет полностью возлагаться на автора документа и должен выполняться в ручном режиме. До тех пор, пока грамматика нового языка не описана, его может использовать только автор. Он будет вынужден для автоматизации анализа документа (синтаксического, семантического) применять специально разработанное программное обеспечение, а не универсальные программы-анализаторы. В DTD для XML используются правила описания элементов и их атрибутов, категорий (макроопределений), форматов бинарных данных. Все они описывают основные конструкции языка – элементы, атрибуты, символьные константы, внешние файлы бинарных данных. Для того, чтобы использовать DTD в документе, можно описать его во внешнем файле и при описании DTD просто указать ссылку на этот файл или же непосредственно внутри самого документа выделить область, в которой определить нужные правила.

Возможность создания собственных тегов, наиболее точно соответствующих конкретной предметной области и решаемым задачам, может создавать конфликтные ситуации, когда один и тот же документ будет содержать информацию для нескольких обработчиков одновременно. В этом случае названия некоторых элементов или их атрибутов могут совпасть, что вызовет либо ошибку в XML-анализаторе, либо неправильное представление документа. Для предотвращения таких конфликтов определяются уникальные названия элементов и их атрибутов путем добавления к их обычным именам некоторых универсальных неповторяющихся префиксов. Для этого применяется механизм Namespaces.

Semantic Schema являются альтернативным способом создания правил построения XML-документов. По сравнению с DTD, схемы данных обладают более мощными средствами для определения сложных структур данных, обеспечивают более понятный способ описания грамматики языка, способны легко модернизироваться и расширяться. Безусловным достоинством схем является также то, что они позволяют описывать правила для XML-документа средствами самого же XML. Однако это не означает, что схемы могут полностью заменить DTD-описания – этот способ определения грамматики языка используется сейчас практически всеми верифицирующими анализаторами XML, а сами схемы, как обычные XML-элементы, тоже описываются DTD. Но серьезные возможности нового языка и его относительная простота, безусловно, дают основания утверждать, что будущий стандарт найдет широкое применение в качестве удобного и эффективного средства проверки корректности составления документов.

Экстралингвистическая, или метаразметка, сообщает сведения о данных. Метаразметку можно условно подразделить на внешнюю, структурную и техническую разметки. Внешняя разметка содержит сведения об авторе и сведения о тексте (автор, название, год и место издания, жанр и тематика). Структурная разметка маркирует главы, абзацы, предложения и словоформы. Техническая разметка отмечает кодировку, даты обработки, исполнителей и источник электронной версии. Метаразметка нужна для исследования условий существования языка, выявления в нём взаимосвязей и для изучения отдельных подмножеств языка.

Собственно лингвистическая разметка заключается в приписывании текстам (их компонентам) специальных меток, которые обеспечивают возможность автоматически идентифицировать тексты по различным параметрам, осуществлять их синтаксический и семантический анализ.

Разметка лингвистических данных лежит в основе корпусной лингвистики и должна соответствовать Leech’s seven maxims of annotation [100]:

  • It should be possible to remove the annotation from an annotated corpus in order to revert to the raw corpus.
  • It should be possible to extract the annotations by themselves from the text. This is the flip side of maxim 1. Taking points 1 and 2 together, the annotated corpus shuld allow the maximim flexibility for manipulation by the user.
  • The annoatation scheme should be based on guidelines which are available to the end user. Most corpora have a manual which contains full details of the annotation scheme and guidelines issued to the annotators. This enables the user to understand fully what each instance of annotation represents without resorting to guesswork, and to understand in cases of ambiguity why a particular annotation decision was made at that point.
  • It should be made clear how and by whom the annotation was carried out. A corpus may be annotated manually, either by a single person or by a number of different people; alternatively the annotation may be carried out automatically by a computer program whose output may or may not be corrected by human beings.
  • The end user should be made aware that the corpus annotation is not infallible, but simply a potentially useful tool. Any act of corpus annotation is, by defintion also an act of interpretation, either of the stucture of the text or of its content.
  • Annotation schemes should be based as far as possible on widely agreed and theory-neutral principles. For example, parsed corpora often adopt a basic context-free phrase structure grammar rather than implementing a narrower specific grammatical theory such as Chomsky's Principals and Parameters framework.
  • No annotation scheme has the a priori right to be considered as a standard. Standards emerge through practical consensus.

Полная лингвистическая разметка включает в себя: морфологическую (выделение аффиксов, сложных слов и т.п.); лемматизацию (указание для каждой словоформы из текста ее исходной формы); морфо-синтаксическую (выделение основ, определение части речи и признаков грамматических категорий); синтаксическую (синтаксические связи, типы и члены предложений и т.п.); семантическую (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т.п.); дискурсивную (реплики, коммуникативные акты и т.п.) [3].

Комплексный подход к лингвистической XML-разметки реализуется в рамках проекта
TEI (Text Encoding Initiative) [5] и стандарта XCES (Corpus Encoding Standard for XML) [6]. В качестве программного инструментария для лингвистической XML-разметки наиболее функциональны и универсальны кросс-платформенные приложения для редактирования XML-данных: Oxygen XML Editor и Serna Enterprise XML.

Полная реализация возможностей XML-разметки осуществляется в Semantic Web (Семантической паутине) – интеллектуальной информационной сети, которая является языковой и технологической надстройкой над Интернетом, призванной сделать размещённую в нем информацию понятной для компьютеров.

Литература:

  • 1 Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation. [Электронный ресурс]. – Режим доступа: http://www.w3.org/TR/2000/REC-xml-20001006. Дата доступа: 25.03.2011
  • 2 Концевая Г.М., Концевой, М. П. Компьютерный семантический анализ XML-реализации гипертекста / М.П. Концевой, Г.М. Концевая // Гипертекст как объект лингвистического исследования : материалы Всероссийской научно-практической конференции с международным участием, 15 марта 2010 г., Самара, РФ. – Самара : ПГСГА, 2010. – С. 61 – 66.
  • 3 Leech's Maxims of Annotation [Электронный ресурс]. – Режим доступа: http://www.lancs.ac.uk/fss/courses/ling/corpus/Corpus2/2MAXIMS.HTM. Дата доступа: 25.03.2011.
  • 4 Архипов А.В. Разметка лингвистическая [Электронный ресурс]. – Режим доступа: http://www.lomonosov-fund.ru/enc/ru/encyclopedia:0127221#r1_1. Дата доступа: 25.03.2011.
  • 5 Text Encoding Initiative [Электронный ресурс]. – Режим доступа: http://www.tei-c.org Дата доступа: 25.03.2011.
  • 6 Corpus Encoding Standard for XML [Электронный ресурс]. – Режим доступа: http://xml.coverpages.org/xces.html Дата доступа: 25.03.2011. 
0
Ваша оценка: Нет
Партнеры
 
 
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
Would you like to know all the news about GISAP project and be up to date of all news from GISAP? Register for free news right now and you will be receiving them on your e-mail right away as soon as they are published on GISAP portal.