ISO 24611:2012
(Main)Language resource management — Morpho-syntactic annotation framework (MAF)
Language resource management — Morpho-syntactic annotation framework (MAF)
ISO 24611:2012 provides a framework for the representation of annotations of word-forms in texts; such annotations concern tokens, their relationship with lexical units, and their morpho-syntactic properties.It describes a metamodel for morpho-syntactic annotation that relates to a reference to the data categories contained in the ISOCat data category registry (DCR, as defined in ISO 12620). It also describes an XML serialization for morpho-syntactic annotations, with equivalences to the guidelines of the TEI (text encoding initiative).
Gestion des ressources langagières — Cadre d'annotation morphosyntaxique (MAF)
L'ISO 24611:2012 fournit un cadre pour la représentation des annotations des mots-formes dans les textes; ces annotations concernent les segments, leurs relations avec les unités lexicales, et leurs propriétés morphosyntaxiques. Elle présente un métamodèle pour l'annotation morphosyntaxique qui référence les catégories de données dans le registre des catégories de données ISOCat (DCR tel que défini dans l'ISO 12620). Elle décrit aussi une sérialisation XML pour l'annotation morphosyntaxique, avec les équivalences des lignes directrices de la TEI (Text Encoding Initiative).
Upravljanje z jezikovnimi viri - Ogrodje za oblikoskladenjsko označevanje (MAF)
Ta mednarodni standard zagotavlja ogrodje za predstavitev označevanja besednih oblik v besedilih; to označevanje vključuje žetone, njihov odnos z leksikalnimi enotami in njihove oblikoskladenjske lastnosti. Opisuje metamodel za oblikoskladenjsko označevanje, ki je povezan s sklicevanjem na podatkovne kategorije iz registra kategorij podatkov ISOCat (kot ga določa ISO 12620). Prav tako opisuje serializacijo oblikoskladenjskega označevanja XML z upoštevanjem smernic TEI (iniciativa za zapis besedil).
General Information
Relations
Standards Content (Sample)
SLOVENSKI STANDARD
01-julij-2013
Upravljanje z jezikovnimi viri - Ogrodje za oblikoskladenjsko označevanje (MAF)
Language resource management -- Morpho-syntactic annotation framework (MAF)
Gestion des ressources langagières -- Cadre d'annotation morphosyntaxique (MAF)
Ta slovenski standard je istoveten z: ISO 24611:2012
ICS:
01.020 Terminologija (načela in Terminology (principles and
koordinacija) coordination)
01.140.20 Informacijske vede Information sciences
35.240.30 Uporabniške rešitve IT v IT applications in information,
informatiki, dokumentiranju in documentation and
založništvu publishing
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.
INTERNATIONAL ISO
STANDARD 24611
First edition
2012-11-01
Language resource management —
Morpho-syntactic annotation framework
(MAF)
Gestion des ressources langagières — Cadre d'annotation
morphosyntaxique (MAF)
Reference number
©
ISO 2012
© ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved
Contents Page
Foreword . v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 The MAF meta-model . 4
4.1 Overview . 4
4.2 MAF Meta-model . 4
5 Segmenting with tokens . 6
5.1 General . 6
5.2 Formal description: . 7
5.3 Embedding notation . 7
5.4 Alternate representation for TEI based documents . 8
5.5 Stand-off notation . 9
5.6 Informative attributes . 9
5.7 Completing the inline token notation . 10
5.7.1 Joining tokens in embedded mode . 10
5.7.2 Overlapping tokens . 11
6 Word-forms as linguistic units . 11
6.1 Formal description: . 12
6.2 Token attachment . 12
6.2.1 One token; one word-form . 12
6.2.2 Several contiguous tokens; one word-form . 12
6.2.3 Several discontinuous tokens; one word-form . 13
6.2.4 Zero token; one word-form . 13
6.2.5 One token; several word-forms . 14
6.3 Referring to lexical entries . 14
6.4 Compound word-forms . 15
6.5 Identification of word-forms within a TEI-compliant document . 15
7 Morpho-syntactic content . 18
7.1 General . 18
7.2 Using feature structures . 18
7.3 Compact morpho-syntactic tags . 18
7.4 FSR libraries . 19
7.5 Designing tagsets . 20
7.6 Formal description: . 22
8 Handling ambiguities . 22
8.1 Word-form content ambiguities . 22
8.2 Lexical Ambiguities . 23
8.3 Structural ambiguities . 23
8.3.1 Structural ambiguities with word-forms . 23
8.3.2 Structural ambiguities with tokens . 24
8.4 Simplified structuring variants . 24
8.4.1 Non-ambiguous linear representation . 24
8.4.2 Mixed linear and lattice representation . 25
8.5 Expanding the simplified variants . 26
8.5.1 Separating tokens and word-forms . 26
8.5.2 Wrapping into local lattices . 26
8.5.3 Merging local lattices .27
8.5.4 Removing .28
8.6 Formal description: and .29
Annex A (informative) Encoded example using the MAF serialization .30
Annex B (normative) MAF specification .33
B.1 Elements .33
B.1.1 .33
B.1.2 .34
B.1.3 .34
B.1.4 .35
B.1.5 .35
B.1.6 .36
B.1.7 .36
B.1.8 .37
B.2 Model classes .38
B.3 Attribute classes .38
B.3.1 att.token.information .38
B.3.2 att.token.join .39
B.3.3 att.token.span .39
B.3.4 att.wordForm.content .39
B.3.5 att.wordForm.tokens .40
B.4 Macros .40
B.4.1 data.certainty .40
B.4.2 data.code .40
B.4.3 data.count .40
B.4.4 data.duration.w3c .41
B.4.5 data.enumerated .41
B.4.6 data.key .41
B.4.7 data.language .42
B.4.8 data.name .43
B.4.9 data.numeric .43
B.4.10 data.pointer .43
B.4.11 data.probability .44
B.4.12 data.temporal.w3c.44
B.4.13 data.truthValue .44
B.4.14 data.word .45
B.4.15 data.xTruth
...
МЕЖДУНАРОДНЫЙ ISO
СТАНДАРТ 24611
Первое издание
2012-11-01
Управление языковыми ресурсами.
Морфосинтаксическая аннотационная
система (MAF)
Language resource management. – Morpho-syntactic
annotation framework (MAF)
Ответственность за подготовку русской версии несѐт GOST R
(Российская Федерация) в соответствии со статьѐй 18.1 Устава ISO
Ссылочный номер
©
ISO 2012
ДОКУМЕНТ ЗАЩИЩЁН АВТОРСКИМ ПРАВОМ
© ISO 2012
Все права сохраняются. Если не указано иное, никакую часть настоящей публикации нельзя копировать или использовать в
какой-либо форме или каким-либо электронным или механическим способом, включая фотокопии и микрофильмы, без
предварительного получения письменного согласия ISO по указанному ниже адресу или организации-члена ISO в стране
запрашивающей стороны.
Бюро ISO по авторским правам:
Case postale 56 CH-1211 Geneva 20
Тел.: + 41 22 749 01 11
Факс: + 41 22 749 09 47
Эл. почта: copyright@iso.org
Веб-сайт: www.iso.org
Опубликовано в Швейцарии
©
ii ISO 2012 – Все права сохраняются
Содержание Страница
Предисловие. v
Введение . vi
1 Область применения . 1
2 Нормативные ссылки . 1
3 Термины и определения . 1
4 Метамодель MAF . 4
4.1 Общий обзор . 4
4.2 Метамодель MAF . 5
5 Сегментирование с помощью лексем . 6
5.1 Общие замечания . 6
5.2 Формальное описание: . 7
5.3 Нотация вложения . 7
5.4 Альтернативное представление документов на основе рекомендаций TEI . 8
5.5 Автономная аннотация . 8
5.6 Информативные атрибуты . 9
5.7 Улучшение строковой формы записи лексем . 10
5.7.1 Соединение лексем в режиме вложения . 10
5.7.2 Перекрещивающиеся лексемы . 10
6 Словоформы как лингвистические единицы . 11
6.1 Формальное описание словоформы: . 12
6.2 Присоединение лексических единиц . 12
6.2.1 Одна лексическая единица - одна словоформа . 12
6.2.2 Несколько неразрывных лексем – одна словоформа . 12
6.2.3 Несколько дискретных лексем – одна словоформа . 12
6.2.4 Нулевое число лексем – одна словоформа . 13
6.2.5 Одна лексема – несколько словоформ. 14
6.3 Ссылки на лексические статьи . 14
6.4 Сложносоставные словоформы . 15
6.5 Идентификация словоформ в рамках TEI-совместимого документа . 15
7 Морфосинтаксическое содержание . 18
7.1 Общие замечания . 18
7.2 Использование признаковых структур . 18
7.3 Компактные морфосинтаксические теги . 19
7.4 Библиотеки FSR . 19
7.5 Построение теговых наборов . 20
7.6 Формализованное описание: . 22
8 Обработка неопределѐнностей . 22
8.1 Неопределѐнности содержания словоформ . 22
8.2 Лексические неопределѐнности . 23
8.3 Структурные неопределѐнности . 23
8.3.1 Структурные неопределѐнности словоформ . 23
8.3.2 Структурные неопределѐнности, связанные с лексемами . 24
8.4 Упрощѐнные варианты структурирования . 24
8.4.1 Непротиворечивое линейное представление . 24
8.4.2 Смешанное линейно-решѐточное представление . 25
8.5 Расширение упрощѐнных вариантов . 26
8.5.1 Разбиение лексем и словоформ . 26
8.5.2 Свѐртывание в локальные решѐтки . 26
8.5.3 Слияние локальных решѐток . 27
8.5.4 Удаление элемента . 28
8.6 Формализованное описание элементов и . 29
Приложение A (информативное) Пример кодирования с использованием сериализации MAF . 30
iii
Приложение B (информативное) Спецификация MAF . 33
B.1 Элементы . 33
B.1.1 . 33
B.1.2 . 34
B.1.3 . 34
B.1.4 . 35
B.1.5 . 35
B.1.6 . 36
B.1.7 . 36
B.1.8 . 37
B.2 Классы моделей . 38
B.3 Классы атрибутов . 38
B.3.1 att.token.information . 38
B.3.2 att.token.join . 39
B.3.3 att.token.span . 39
B.3.4 att.wordForm.content . 39
B.3.5 att.wordForm.tokens . 40
B.4 Макросы . 40
B.4.1 data.certainty . 40
B.4.2 data.code . 40
B.4.3 data.count . 40
B.4.4 data.duration.w3c . 41
B.4.5 data.enumerated . 41
B.4.6 data.key . 41
B.4.7 data.language . 42
B.4.8 data.name . 43
B.4.9 data.numeric . 43
B.4.10 data.pointer . 43
B.4.11 data.probability . 44
B.4.12 data.temporal.w3c . 44
B.4.13 data.truthValue . 44
B.4.14 data.word. 45
B.4.15 data.xTruthValue . 45
Приложение C (нормативное) Категории морфосинтаксических данных . 46
Библиография . 62
iv
Предисловие
Международная организация по стандартизации (ISO) является всемирной федерацией национальных
организаций по стандартизации (комитетов-членов ISO). Разработка международных стандартов
обычно осуществляется техническими комитетами ISO. Каждый комитет-член, заинтересованный в
деятельности, для которой был создан технический комитет, имеет право быть представленным в этом
комитете. Международные правительственные и неправительственные организации, имеющие связь с
ISO, также принимают участие в работе. ISO работает в тесном сотрудничестве с Международной
электротехнической комиссией (IEC) по всем вопросам стандартизации в области электротехники.
Проекты международных стандартов разрабатываются согласно правилам, приведѐнным в Директивах
ISO/IEC, Часть 2.
Разработка международных стандартов является основной задачей технических комитетов. Проекты
международных стандартов, принятые техническими комитетами, р
...
МЕЖДУНАРОДНЫЙ ISO
СТАНДАРТ 24611
Первое издание
2012-11-01
Управление языковыми ресурсами.
Морфосинтаксическая аннотационная
система (MAF)
Language resource management. – Morpho-syntactic
annotation framework (MAF)
Ответственность за подготовку русской версии несѐт GOST R
(Российская Федерация) в соответствии со статьѐй 18.1 Устава ISO
Ссылочный номер
©
ISO 2012
ДОКУМЕНТ ЗАЩИЩЁН АВТОРСКИМ ПРАВОМ
© ISO 2012
Все права сохраняются. Если не указано иное, никакую часть настоящей публикации нельзя копировать или использовать в
какой-либо форме или каким-либо электронным или механическим способом, включая фотокопии и микрофильмы, без
предварительного получения письменного согласия ISO по указанному ниже адресу или организации-члена ISO в стране
запрашивающей стороны.
Бюро ISO по авторским правам:
Case postale 56 CH-1211 Geneva 20
Тел.: + 41 22 749 01 11
Факс: + 41 22 749 09 47
Эл. почта: copyright@iso.org
Веб-сайт: www.iso.org
Опубликовано в Швейцарии
©
ii ISO 2012 – Все права сохраняются
Содержание Страница
Предисловие. v
Введение . vi
1 Область применения . 1
2 Нормативные ссылки . 1
3 Термины и определения . 1
4 Метамодель MAF . 4
4.1 Общий обзор . 4
4.2 Метамодель MAF . 5
5 Сегментирование с помощью лексем . 6
5.1 Общие замечания . 6
5.2 Формальное описание: . 7
5.3 Нотация вложения . 7
5.4 Альтернативное представление документов на основе рекомендаций TEI . 8
5.5 Автономная аннотация . 8
5.6 Информативные атрибуты . 9
5.7 Улучшение строковой формы записи лексем . 10
5.7.1 Соединение лексем в режиме вложения . 10
5.7.2 Перекрещивающиеся лексемы . 10
6 Словоформы как лингвистические единицы . 11
6.1 Формальное описание словоформы: . 12
6.2 Присоединение лексических единиц . 12
6.2.1 Одна лексическая единица - одна словоформа . 12
6.2.2 Несколько неразрывных лексем – одна словоформа . 12
6.2.3 Несколько дискретных лексем – одна словоформа . 12
6.2.4 Нулевое число лексем – одна словоформа . 13
6.2.5 Одна лексема – несколько словоформ. 14
6.3 Ссылки на лексические статьи . 14
6.4 Сложносоставные словоформы . 15
6.5 Идентификация словоформ в рамках TEI-совместимого документа . 15
7 Морфосинтаксическое содержание . 18
7.1 Общие замечания . 18
7.2 Использование признаковых структур . 18
7.3 Компактные морфосинтаксические теги . 19
7.4 Библиотеки FSR . 19
7.5 Построение теговых наборов . 20
7.6 Формализованное описание: . 22
8 Обработка неопределѐнностей . 22
8.1 Неопределѐнности содержания словоформ . 22
8.2 Лексические неопределѐнности . 23
8.3 Структурные неопределѐнности . 23
8.3.1 Структурные неопределѐнности словоформ . 23
8.3.2 Структурные неопределѐнности, связанные с лексемами . 24
8.4 Упрощѐнные варианты структурирования . 24
8.4.1 Непротиворечивое линейное представление . 24
8.4.2 Смешанное линейно-решѐточное представление . 25
8.5 Расширение упрощѐнных вариантов . 26
8.5.1 Разбиение лексем и словоформ . 26
8.5.2 Свѐртывание в локальные решѐтки . 26
8.5.3 Слияние локальных решѐток . 27
8.5.4 Удаление элемента . 28
8.6 Формализованное описание элементов и . 29
Приложение A (информативное) Пример кодирования с использованием сериализации MAF . 30
iii
Приложение B (информативное) Спецификация MAF . 33
B.1 Элементы . 33
B.1.1 . 33
B.1.2 . 34
B.1.3 . 34
B.1.4 . 35
B.1.5 . 35
B.1.6 . 36
B.1.7 . 36
B.1.8 . 37
B.2 Классы моделей . 38
B.3 Классы атрибутов . 38
B.3.1 att.token.information . 38
B.3.2 att.token.join . 39
B.3.3 att.token.span . 39
B.3.4 att.wordForm.content . 39
B.3.5 att.wordForm.tokens . 40
B.4 Макросы . 40
B.4.1 data.certainty . 40
B.4.2 data.code . 40
B.4.3 data.count . 40
B.4.4 data.duration.w3c . 41
B.4.5 data.enumerated . 41
B.4.6 data.key . 41
B.4.7 data.language . 42
B.4.8 data.name . 43
B.4.9 data.numeric . 43
B.4.10 data.pointer . 43
B.4.11 data.probability . 44
B.4.12 data.temporal.w3c . 44
B.4.13 data.truthValue . 44
B.4.14 data.word. 45
B.4.15 data.xTruthValue . 45
Приложение C (нормативное) Категории морфосинтаксических данных . 46
Библиография . 62
iv
Предисловие
Международная организация по стандартизации (ISO) является всемирной федерацией национальных
организаций по стандартизации (комитетов-членов ISO). Разработка международных стандартов
обычно осуществляется техническими комитетами ISO. Каждый комитет-член, заинтересованный в
деятельности, для которой был создан технический комитет, имеет право быть представленным в этом
комитете. Международные правительственные и неправительственные организации, имеющие связь с
ISO, также принимают участие в работе. ISO работает в тесном сотрудничестве с Международной
электротехнической комиссией (IEC) по всем вопросам стандартизации в области электротехники.
Проекты международных стандартов разрабатываются согласно правилам, приведѐнным в Директивах
ISO/IEC, Часть 2.
Разработка международных стандартов является основной задачей технических комитетов. Проекты
международных стандартов, принятые техническими комитетами, р
...












Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.