Language resource management -- Morpho-syntactic annotation framework (MAF)

ISO 24611:2012 provides a framework for the representation of annotations of word-forms in texts; such annotations concern tokens, their relationship with lexical units, and their morpho-syntactic properties.It describes a metamodel for morpho-syntactic annotation that relates to a reference to the data categories contained in the ISOCat data category registry (DCR, as defined in ISO 12620). It also describes an XML serialization for morpho-syntactic annotations, with equivalences to the guidelines of the TEI (text encoding initiative).

Gestion des ressources langagières -- Cadre d'annotation morphosyntaxique (MAF)

L'ISO 24611:2012 fournit un cadre pour la représentation des annotations des mots-formes dans les textes; ces annotations concernent les segments, leurs relations avec les unités lexicales, et leurs propriétés morphosyntaxiques.
Elle présente un métamodèle pour l'annotation morphosyntaxique qui référence les catégories de données dans le registre des catégories de données ISOCat (DCR tel que défini dans l'ISO 12620). Elle décrit aussi une sérialisation XML pour l'annotation morphosyntaxique, avec les équivalences des lignes directrices de la TEI (Text Encoding Initiative).

Upravljanje z jezikovnimi viri - Ogrodje za oblikoskladenjsko označevanje (MAF)

Ta mednarodni standard zagotavlja ogrodje za predstavitev označevanja besednih oblik v besedilih; to označevanje vključuje žetone, njihov odnos z leksikalnimi enotami in njihove oblikoskladenjske lastnosti. Opisuje metamodel za oblikoskladenjsko označevanje, ki je povezan s sklicevanjem na podatkovne kategorije iz registra kategorij podatkov ISOCat (kot ga določa ISO 12620). Prav tako opisuje serializacijo oblikoskladenjskega označevanja XML z upoštevanjem smernic TEI (iniciativa za zapis besedil).

General Information

Status
Published
Publication Date
06-Jun-2013
Current Stage
6060 - National Implementation/Publication (Adopted Project)
Start Date
31-May-2013
Due Date
05-Aug-2013
Completion Date
07-Jun-2013

Relations

Buy Standard

Standard
ISO 24611:2013 - BARVE
English language
65 pages
sale 10% off
Preview
sale 10% off
Preview
e-Library read for
1 day
Standard
ISO 24611:2013
English language
65 pages
sale 10% off
Preview
sale 10% off
Preview
e-Library read for
1 day
Standard
ISO 24611:2012 - Language resource management — Morpho-syntactic annotation framework (MAF) Released:10/19/2012
English language
58 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 24611:2012 - Language resource management -- Morpho-syntactic annotation framework (MAF)
English language
58 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 24611:2012 - Gestion des ressources langagières — Cadre d'annotation morphosyntaxique (MAF) Released:6/30/2016
French language
63 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 24611:2012 - Gestion des ressources langagieres -- Cadre d'annotation morphosyntaxique (MAF)
French language
63 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 24611:2012 - Language resource management — Morpho-syntactic annotation framework (MAF) Released:8/20/2014
Russian language
58 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 24611:2012
Russian language
80 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


SLOVENSKI STANDARD
01-julij-2013
Upravljanje z jezikovnimi viri - Ogrodje za oblikoskladenjsko označevanje (MAF)
Language resource management -- Morpho-syntactic annotation framework (MAF)
Gestion des ressources langagières -- Cadre d'annotation morphosyntaxique (MAF)
Ta slovenski standard je istoveten z: ISO 24611:2012
ICS:
01.020 Terminologija (načela in Terminology (principles and
koordinacija) coordination)
01.140.20 Informacijske vede Information sciences
35.240.30 Uporabniške rešitve IT v IT applications in information,
informatiki, dokumentiranju in documentation and
založništvu publishing
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.

INTERNATIONAL ISO
STANDARD 24611
First edition
2012-11-01
Language resource management —
Morpho-syntactic annotation framework
(MAF)
Gestion des ressources langagières — Cadre d'annotation
morphosyntaxique (MAF)
Reference number
©
ISO 2012
©  ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56  CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved

Contents Page
Foreword . v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 The MAF meta-model . 4
4.1 Overview . 4
4.2 MAF Meta-model . 4
5 Segmenting with tokens . 6
5.1 General . 6
5.2 Formal description: . 7
5.3 Embedding notation . 7
5.4 Alternate representation for TEI based documents . 8
5.5 Stand-off notation . 9
5.6 Informative attributes . 9
5.7 Completing the inline token notation . 10
5.7.1 Joining tokens in embedded mode . 10
5.7.2 Overlapping tokens . 11
6 Word-forms as linguistic units . 11
6.1 Formal description: . 12
6.2 Token attachment . 12
6.2.1 One token; one word-form . 12
6.2.2 Several contiguous tokens; one word-form . 12
6.2.3 Several discontinuous tokens; one word-form . 13
6.2.4 Zero token; one word-form . 13
6.2.5 One token; several word-forms . 14
6.3 Referring to lexical entries . 14
6.4 Compound word-forms . 15
6.5 Identification of word-forms within a TEI-compliant document . 15
7 Morpho-syntactic content . 18
7.1 General . 18
7.2 Using feature structures . 18
7.3 Compact morpho-syntactic tags . 18
7.4 FSR libraries . 19
7.5 Designing tagsets . 20
7.6 Formal description: . 22
8 Handling ambiguities . 22
8.1 Word-form content ambiguities . 22
8.2 Lexical Ambiguities . 23
8.3 Structural ambiguities . 23
8.3.1 Structural ambiguities with word-forms . 23
8.3.2 Structural ambiguities with tokens . 24
8.4 Simplified structuring variants . 24
8.4.1 Non-ambiguous linear representation . 24
8.4.2 Mixed linear and lattice representation . 25
8.5 Expanding the simplified variants . 26
8.5.1 Separating tokens and word-forms . 26
8.5.2 Wrapping into local lattices . 26
8.5.3 Merging local lattices .27
8.5.4 Removing .28
8.6 Formal description: and .29
Annex A (informative) Encoded example using the MAF serialization .30
Annex B (normative) MAF specification .33
B.1 Elements .33
B.1.1 .33
B.1.2 .34
B.1.3 .34
B.1.4 .35
B.1.5 .35
B.1.6 .36
B.1.7 .36
B.1.8 .37
B.2 Model classes .38
B.3 Attribute classes .38
B.3.1 att.token.information .38
B.3.2 att.token.join .39
B.3.3 att.token.span .39
B.3.4 att.wordForm.content .39
B.3.5 att.wordForm.tokens .40
B.4 Macros .40
B.4.1 data.certainty .40
B.4.2 data.code .40
B.4.3 data.count .40
B.4.4 data.duration.w3c .41
B.4.5 data.enumerated .41
B.4.6 data.key .41
B.4.7 data.language .42
B.4.8 data.name .43
B.4.9 data.numeric .43
B.4.10 data.pointer .43
B.4.11 data.probability .44
B.4.12 data.temporal.w3c.44
B.4.13 data.truthValue .44
B.4.14 data.word .45
B.4.15 data.xTruth
...


SLOVENSKI STANDARD
01-julij-2013
8SUDYOMDQMH]MH]LNRYQLPLYLUL2JURGMH]DREOLNRVNODGHQMVNRR]QDþHYDQMH 0$)
Language resource management -- Morpho-syntactic annotation framework (MAF)
Gestion des ressources langagières -- Cadre d'annotation morphosyntaxique (MAF)
Ta slovenski standard je istoveten z: ISO 24611:2012
ICS:
01.020 7HUPLQRORJLMD QDþHODLQ Terminology (principles and
NRRUGLQDFLMD coordination)
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.

INTERNATIONAL ISO
STANDARD 24611
First edition
2012-11-01
Language resource management —
Morpho-syntactic annotation framework
(MAF)
Gestion des ressources langagières — Cadre d'annotation
morphosyntaxique (MAF)
Reference number
©
ISO 2012
©  ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56  CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved

Contents Page
Foreword . v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 The MAF meta-model . 4
4.1 Overview . 4
4.2 MAF Meta-model . 4
5 Segmenting with tokens . 6
5.1 General . 6
5.2 Formal description: . 7
5.3 Embedding notation . 7
5.4 Alternate representation for TEI based documents . 8
5.5 Stand-off notation . 9
5.6 Informative attributes . 9
5.7 Completing the inline token notation . 10
5.7.1 Joining tokens in embedded mode . 10
5.7.2 Overlapping tokens . 11
6 Word-forms as linguistic units . 11
6.1 Formal description: . 12
6.2 Token attachment . 12
6.2.1 One token; one word-form . 12
6.2.2 Several contiguous tokens; one word-form . 12
6.2.3 Several discontinuous tokens; one word-form . 13
6.2.4 Zero token; one word-form . 13
6.2.5 One token; several word-forms . 14
6.3 Referring to lexical entries . 14
6.4 Compound word-forms . 15
6.5 Identification of word-forms within a TEI-compliant document . 15
7 Morpho-syntactic content . 18
7.1 General . 18
7.2 Using feature structures . 18
7.3 Compact morpho-syntactic tags . 18
7.4 FSR libraries . 19
7.5 Designing tagsets . 20
7.6 Formal description: . 22
8 Handling ambiguities . 22
8.1 Word-form content ambiguities . 22
8.2 Lexical Ambiguities . 23
8.3 Structural ambiguities . 23
8.3.1 Structural ambiguities with word-forms . 23
8.3.2 Structural ambiguities with tokens . 24
8.4 Simplified structuring variants . 24
8.4.1 Non-ambiguous linear representation . 24
8.4.2 Mixed linear and lattice representation . 25
8.5 Expanding the simplified variants . 26
8.5.1 Separating tokens and word-forms . 26
8.5.2 Wrapping into local lattices . 26
8.5.3 Merging local lattices .27
8.5.4 Removing .28
8.6 Formal description: and .29
Annex A (informative) Encoded example using the MAF serialization .30
Annex B (normative) MAF specification .33
B.1 Elements .33
B.1.1 .33
B.1.2 .34
B.1.3 .34
B.1.4 .35
B.1.5 .35
B.1.6 .36
B.1.7 .36
B.1.8 .37
B.2 Model classes .38
B.3 Attribute classes .38
B.3.1 att.token.information .38
B.3.2 att.token.join .39
B.3.3 att.token.span .39
B.3.4 att.wordForm.content .39
B.3.5 att.wordForm.tokens .40
B.4 Macros .40
B.4.1 data.certainty .40
B.4.2 data.code .40
B.4.3 data.count .40
B.4.4 data.duration.w3c .41
B.4.5 data.enumerated .41
B.4.6 data.key .41
B.4.7 data.language .42
B.4.8 data.name .43
B.4.9 data.numeric .43
B.4.10 data.pointer .43
B.4.11 data.probability .44
B.4.12 data.temporal.w3c.44
B.4.13 data.truthValue .44
B.4.14 data.word .45
B.4.15 data.xTruthValue .45
Annex C (normative) Morpho-syntactic data
...


INTERNATIONAL ISO
STANDARD 24611
First edition
2012-11-01
Language resource management —
Morpho-syntactic annotation framework
(MAF)
Gestion des ressources langagières — Cadre d'annotation
morphosyntaxique (MAF)
Reference number
©
ISO 2012
©  ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56  CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved

Contents Page
Foreword . v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 The MAF meta-model . 4
4.1 Overview . 4
4.2 MAF Meta-model . 4
5 Segmenting with tokens . 6
5.1 General . 6
5.2 Formal description: . 7
5.3 Embedding notation . 7
5.4 Alternate representation for TEI based documents . 8
5.5 Stand-off notation . 9
5.6 Informative attributes . 9
5.7 Completing the inline token notation . 10
5.7.1 Joining tokens in embedded mode . 10
5.7.2 Overlapping tokens . 11
6 Word-forms as linguistic units . 11
6.1 Formal description: . 12
6.2 Token attachment . 12
6.2.1 One token; one word-form . 12
6.2.2 Several contiguous tokens; one word-form . 12
6.2.3 Several discontinuous tokens; one word-form . 13
6.2.4 Zero token; one word-form . 13
6.2.5 One token; several word-forms . 14
6.3 Referring to lexical entries . 14
6.4 Compound word-forms . 15
6.5 Identification of word-forms within a TEI-compliant document . 15
7 Morpho-syntactic content . 18
7.1 General . 18
7.2 Using feature structures . 18
7.3 Compact morpho-syntactic tags . 18
7.4 FSR libraries . 19
7.5 Designing tagsets . 20
7.6 Formal description: . 22
8 Handling ambiguities . 22
8.1 Word-form content ambiguities . 22
8.2 Lexical Ambiguities . 23
8.3 Structural ambiguities . 23
8.3.1 Structural ambiguities with word-forms . 23
8.3.2 Structural ambiguities with tokens . 24
8.4 Simplified structuring variants . 24
8.4.1 Non-ambiguous linear representation . 24
8.4.2 Mixed linear and lattice representation . 25
8.5 Expanding the simplified variants . 26
8.5.1 Separating tokens and word-forms . 26
8.5.2 Wrapping into local lattices . 26
8.5.3 Merging local lattices .27
8.5.4 Removing .28
8.6 Formal description: and .29
Annex A (informative) Encoded example using the MAF serialization .30
Annex B (normative) MAF specification .33
B.1 Elements .33
B.1.1 .33
B.1.2 .34
B.1.3 .34
B.1.4 .35
B.1.5 .35
B.1.6 .36
B.1.7 .36
B.1.8 .37
B.2 Model classes .38
B.3 Attribute classes .38
B.3.1 att.token.information .38
B.3.2 att.token.join .39
B.3.3 att.token.span .39
B.3.4 att.wordForm.content .39
B.3.5 att.wordForm.tokens .40
B.4 Macros .40
B.4.1 data.certainty .40
B.4.2 data.code .40
B.4.3 data.count .40
B.4.4 data.duration.w3c .41
B.4.5 data.enumerated .41
B.4.6 data.key .41
B.4.7 data.language .42
B.4.8 data.name .43
B.4.9 data.numeric .43
B.4.10 data.pointer .43
B.4.11 data.probability .44
B.4.12 data.temporal.w3c.44
B.4.13 data.truthValue .44
B.4.14 data.word .45
B.4.15 data.xTruthValue .45
Annex C (normative) Morpho-syntactic data categories .46
Bibliography .58

iv © ISO 2012 – All rights reserved

Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, g
...


INTERNATIONAL ISO
STANDARD 24611
First edition
2012-11-01
Language resource management —
Morpho-syntactic annotation framework
(MAF)
Gestion des ressources langagières — Cadre d'annotation
morphosyntaxique (MAF)
Reference number
©
ISO 2012
©  ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56  CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved

Contents Page
Foreword . v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 The MAF meta-model . 4
4.1 Overview . 4
4.2 MAF Meta-model . 4
5 Segmenting with tokens . 6
5.1 General . 6
5.2 Formal description: . 7
5.3 Embedding notation . 7
5.4 Alternate representation for TEI based documents . 8
5.5 Stand-off notation . 9
5.6 Informative attributes . 9
5.7 Completing the inline token notation . 10
5.7.1 Joining tokens in embedded mode . 10
5.7.2 Overlapping tokens . 11
6 Word-forms as linguistic units . 11
6.1 Formal description: . 12
6.2 Token attachment . 12
6.2.1 One token; one word-form . 12
6.2.2 Several contiguous tokens; one word-form . 12
6.2.3 Several discontinuous tokens; one word-form . 13
6.2.4 Zero token; one word-form . 13
6.2.5 One token; several word-forms . 14
6.3 Referring to lexical entries . 14
6.4 Compound word-forms . 15
6.5 Identification of word-forms within a TEI-compliant document . 15
7 Morpho-syntactic content . 18
7.1 General . 18
7.2 Using feature structures . 18
7.3 Compact morpho-syntactic tags . 18
7.4 FSR libraries . 19
7.5 Designing tagsets . 20
7.6 Formal description: . 22
8 Handling ambiguities . 22
8.1 Word-form content ambiguities . 22
8.2 Lexical Ambiguities . 23
8.3 Structural ambiguities . 23
8.3.1 Structural ambiguities with word-forms . 23
8.3.2 Structural ambiguities with tokens . 24
8.4 Simplified structuring variants . 24
8.4.1 Non-ambiguous linear representation . 24
8.4.2 Mixed linear and lattice representation . 25
8.5 Expanding the simplified variants . 26
8.5.1 Separating tokens and word-forms . 26
8.5.2 Wrapping into local lattices . 26
8.5.3 Merging local lattices .27
8.5.4 Removing .28
8.6 Formal description: and .29
Annex A (informative) Encoded example using the MAF serialization .30
Annex B (normative) MAF specification .33
B.1 Elements .33
B.1.1 .33
B.1.2 .34
B.1.3 .34
B.1.4 .35
B.1.5 .35
B.1.6 .36
B.1.7 .36
B.1.8 .37
B.2 Model classes .38
B.3 Attribute classes .38
B.3.1 att.token.information .38
B.3.2 att.token.join .39
B.3.3 att.token.span .39
B.3.4 att.wordForm.content .39
B.3.5 att.wordForm.tokens .40
B.4 Macros .40
B.4.1 data.certainty .40
B.4.2 data.code .40
B.4.3 data.count .40
B.4.4 data.duration.w3c .41
B.4.5 data.enumerated .41
B.4.6 data.key .41
B.4.7 data.language .42
B.4.8 data.name .43
B.4.9 data.numeric .43
B.4.10 data.pointer .43
B.4.11 data.probability .44
B.4.12 data.temporal.w3c.44
B.4.13 data.truthValue .44
B.4.14 data.word .45
B.4.15 data.xTruthValue .45
Annex C (normative) Morpho-syntactic data categories .46
Bibliography .58

iv © ISO 2012 – All rights reserved

Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, g
...


NORME ISO
INTERNATIONALE 24611
Première édition
2012-11-01
Gestion des ressources langagières —
Cadre d'annotation morphosyntaxique
(MAF)
Language resource management — Morpho-syntactic annotation
framework (MAF)
Numéro de référence
©
ISO 2012
DOCUMENT PROTÉGÉ PAR COPYRIGHT

©  ISO 2012, Publié en Suisse
Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie, l’affichage sur l’internet ou sur un
Intranet, sans autorisation écrite préalable. Les demandes d’autorisation peuvent être adressées à l’ISO à l’adresse ci-après ou au comité
membre de l’ISO dans le pays du demandeur.
ISO copyright office
Ch. de Blandonnet 8  CP 401
CH-1214 Vernier, Geneva, Switzerland
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
copyright@iso.org
www.iso.org
ii © ISO 2012 – Tous droits réservés

Sommaire Page
Avant-propos . v
Introduction . vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Le métamodèle MAF . 4
4.1 Vue d’ensemble . 4
4.2 Métamodèle MAF . 5
5 Segmentation . 6
5.1 Aspect général . 6
5.2 Description formelle: . 7
5.3 Notation enchâssée . 8
5.4 Représentation alternative pour les documents conformes à la TEI . 8
5.5 Notation déportée . 9
5.6 Attributs informatifs . 10
5.7 Compléter la notation enchâssée . 10
5.7.1 Joindre des segments dans le mode enchâssé . 11
5.7.2 Segments chevauchants . 11
6 Les mots-formes en tant qu’unités linguistiques . 12
6.1 Description formelle: . 13
6.2 Attachement de segment . 13
6.2.1 Un segment, un mot-forme . 13
6.2.2 Plusieurs segments contigus, un mot-forme . 13
6.2.3 Plusieurs segments discontigus, un mot forme . 13
6.2.4 Absence de segment, un mot-forme . 14
6.2.5 Un segment, plusieurs mots-formes . 14
6.3 Référencer les entrées lexicales . 15
6.4 Mots-formes composés . 16
6.5 Identification des mots-formes au sein d’un document conforme à la TEI . 16
7 Contenu morphosyntaxique . 19
7.1 Aspect général . 19
7.2 Utiliser les structures de traits . 19
7.3 Balises morphosyntaxiques compactes. 20
7.4 Les bibliothèques FSR . 20
7.5 Conception des ensembles de balises . 21
7.6 Description formelle: . 23
8 Gestion des ambiguïtés . 23
8.1 Ambiguïtés du contenu des mots-formes . 23
8.2 Ambiguïtés lexicales . 24
8.3 Ambiguïtés structurelles . 24
8.3.1 Ambiguïtés structurelles avec des mots-formes . 24
8.3.2 Ambiguïtés structurelles avec les segments . 25
8.4 Variantes structurées simplement . 25
8.4.1 Représentation linéaire non ambiguë . 25
8.4.2 Représentation mixte linéaire et en treillis . 26
8.5 Expanser les variantes simplifiées . 27
8.5.1 Séparer les segments et les mots-formes . 27
8.5.2 Envelopper dans les treillis locaux . 27
8.5.3 Fusion de treillis locaux . 28
8.5.4 Suppression de . 30
8.6 Description formelle: and . 30
Annexe A (informative) Exemple encodé selon la sérialisation MAF . 31
Annexe B (normative) Spécification MAF . 34
B.1 Eléments . 34
B.1.1 . 34
B.1.2 . 35
B.1.3 . 35
B.1.4 . 36
B.1.5 . 36
B.1.6 . 37
B.1.7 . 37
B.1.8 . 38
B.2 Classes de modèles . 39
B.3 Classes d’attributs . 39
B.3.1 att.token.information . 39
B.3.2 att.token.join . 40
B.3.3 att.token.span . 40
B.3.4 att.wordForm.content . 40
B.3.5 att.wordForm.tokens . 41
B.4
Macros . 41
B.4.1 data.certainty. 41
B.4.2 data.code . 41
B.4.3 data.count . 42
B.4.4 data.duration.w3c . 42
B.4.5 data.enumerated . 42
B.4.6 data.key. 43
B.4.7 data.language . 43
B.4.8 data.name . 44
B.4.9 data.numeric . 45
B.4.10 data.pointer . 45
B.4.11 data.probability . 46
B.4.12 data.temporal.w3c . 46
B.4.13 data.truthValue . 46
B.4.14 data.word . 47
B.4.15 data.xTruthValue . 47
Annexe C (normative) Catégories de données morphosyntaxiques . 48
Bibliographie .
...


NORME ISO
INTERNATIONALE 24611
Première édition
2012-11-01
Gestion des ressources langagières —
Cadre d'annotation morphosyntaxique
(MAF)
Language resource management — Morpho-syntactic annotation
framework (MAF)
Numéro de référence
©
ISO 2012
DOCUMENT PROTÉGÉ PAR COPYRIGHT

©  ISO 2012, Publié en Suisse
Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie, l’affichage sur l’internet ou sur un
Intranet, sans autorisation écrite préalable. Les demandes d’autorisation peuvent être adressées à l’ISO à l’adresse ci-après ou au comité
membre de l’ISO dans le pays du demandeur.
ISO copyright office
Ch. de Blandonnet 8  CP 401
CH-1214 Vernier, Geneva, Switzerland
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
copyright@iso.org
www.iso.org
ii © ISO 2012 – Tous droits réservés

Sommaire Page
Avant-propos . v
Introduction . vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Le métamodèle MAF . 4
4.1 Vue d’ensemble . 4
4.2 Métamodèle MAF . 5
5 Segmentation . 6
5.1 Aspect général . 6
5.2 Description formelle: . 7
5.3 Notation enchâssée . 8
5.4 Représentation alternative pour les documents conformes à la TEI . 8
5.5 Notation déportée . 9
5.6 Attributs informatifs . 10
5.7 Compléter la notation enchâssée . 10
5.7.1 Joindre des segments dans le mode enchâssé . 11
5.7.2 Segments chevauchants . 11
6 Les mots-formes en tant qu’unités linguistiques . 12
6.1 Description formelle: . 13
6.2 Attachement de segment . 13
6.2.1 Un segment, un mot-forme . 13
6.2.2 Plusieurs segments contigus, un mot-forme . 13
6.2.3 Plusieurs segments discontigus, un mot forme . 13
6.2.4 Absence de segment, un mot-forme . 14
6.2.5 Un segment, plusieurs mots-formes . 14
6.3 Référencer les entrées lexicales . 15
6.4 Mots-formes composés . 16
6.5 Identification des mots-formes au sein d’un document conforme à la TEI . 16
7 Contenu morphosyntaxique . 19
7.1 Aspect général . 19
7.2 Utiliser les structures de traits . 19
7.3 Balises morphosyntaxiques compactes. 20
7.4 Les bibliothèques FSR . 20
7.5 Conception des ensembles de balises . 21
7.6 Description formelle: . 23
8 Gestion des ambiguïtés . 23
8.1 Ambiguïtés du contenu des mots-formes . 23
8.2 Ambiguïtés lexicales . 24
8.3 Ambiguïtés structurelles . 24
8.3.1 Ambiguïtés structurelles avec des mots-formes . 24
8.3.2 Ambiguïtés structurelles avec les segments . 25
8.4 Variantes structurées simplement . 25
8.4.1 Représentation linéaire non ambiguë . 25
8.4.2 Représentation mixte linéaire et en treillis . 26
8.5 Expanser les variantes simplifiées . 27
8.5.1 Séparer les segments et les mots-formes . 27
8.5.2 Envelopper dans les treillis locaux . 27
8.5.3 Fusion de treillis locaux . 28
8.5.4 Suppression de . 30
8.6 Description formelle: and . 30
Annexe A (informative) Exemple encodé selon la sérialisation MAF . 31
Annexe B (normative) Spécification MAF . 34
B.1 Eléments . 34
B.1.1 . 34
B.1.2 . 35
B.1.3 . 35
B.1.4 . 36
B.1.5 . 36
B.1.6 . 37
B.1.7 . 37
B.1.8 . 38
B.2 Classes de modèles . 39
B.3 Classes d’attributs . 39
B.3.1 att.token.information . 39
B.3.2 att.token.join . 40
B.3.3 att.token.span . 40
B.3.4 att.wordForm.content . 40
B.3.5 att.wordForm.tokens . 41
B.4
Macros . 41
B.4.1 data.certainty. 41
B.4.2 data.code . 41
B.4.3 data.count . 42
B.4.4 data.duration.w3c . 42
B.4.5 data.enumerated . 42
B.4.6 data.key. 43
B.4.7 data.language . 43
B.4.8 data.name . 44
B.4.9 data.numeric . 45
B.4.10 data.pointer . 45
B.4.11 data.probability . 46
B.4.12 data.temporal.w3c . 46
B.4.13 data.truthValue . 46
B.4.14 data.word . 47
B.4.15 data.xTruthValue . 47
Annexe C (normative) Catégories de données morphosyntaxiques . 48
Bibliographie .
...


МЕЖДУНАРОДНЫЙ ISO
СТАНДАРТ 24611
Первое издание
2012-11-01
Управление языковыми ресурсами.
Морфосинтаксическая аннотационная
система (MAF)
Language resource management. – Morpho-syntactic
annotation framework (MAF)
Ответственность за подготовку русской версии несѐт GOST R
(Российская Федерация) в соответствии со статьѐй 18.1 Устава ISO

Ссылочный номер
©
ISO 2012
ДОКУМЕНТ ЗАЩИЩЁН АВТОРСКИМ ПРАВОМ

©  ISO 2012
Все права сохраняются. Если не указано иное, никакую часть настоящей публикации нельзя копировать или использовать в
какой-либо форме или каким-либо электронным или механическим способом, включая фотокопии и микрофильмы, без
предварительного получения письменного согласия ISO по указанному ниже адресу или организации-члена ISO в стране
запрашивающей стороны.
Бюро ISO по авторским правам:
Case postale 56 CH-1211 Geneva 20
Тел.: + 41 22 749 01 11
Факс: + 41 22 749 09 47
Эл. почта: copyright@iso.org
Веб-сайт: www.iso.org
Опубликовано в Швейцарии
©
ii ISO 2012 – Все права сохраняются

Содержание Страница
Предисловие. v
Введение . vi
1 Область применения . 1
2 Нормативные ссылки . 1
3 Термины и определения . 1
4 Метамодель MAF . 4
4.1 Общий обзор . 4
4.2 Метамодель MAF . 5
5 Сегментирование с помощью лексем . 6
5.1 Общие замечания . 6
5.2 Формальное описание: . 7
5.3 Нотация вложения . 7
5.4 Альтернативное представление документов на основе рекомендаций TEI . 8
5.5 Автономная аннотация . 8
5.6 Информативные атрибуты . 9
5.7 Улучшение строковой формы записи лексем . 10
5.7.1 Соединение лексем в режиме вложения . 10
5.7.2 Перекрещивающиеся лексемы . 10
6 Словоформы как лингвистические единицы . 11
6.1 Формальное описание словоформы: . 12
6.2 Присоединение лексических единиц . 12
6.2.1 Одна лексическая единица - одна словоформа . 12
6.2.2 Несколько неразрывных лексем – одна словоформа . 12
6.2.3 Несколько дискретных лексем – одна словоформа . 12
6.2.4 Нулевое число лексем – одна словоформа . 13
6.2.5 Одна лексема – несколько словоформ. 14
6.3 Ссылки на лексические статьи . 14
6.4 Сложносоставные словоформы . 15
6.5 Идентификация словоформ в рамках TEI-совместимого документа . 15
7 Морфосинтаксическое содержание . 18
7.1 Общие замечания . 18
7.2 Использование признаковых структур . 18
7.3 Компактные морфосинтаксические теги . 19
7.4 Библиотеки FSR . 19
7.5 Построение теговых наборов . 20
7.6 Формализованное описание: . 22
8 Обработка неопределѐнностей . 22
8.1 Неопределѐнности содержания словоформ . 22
8.2 Лексические неопределѐнности . 23
8.3 Структурные неопределѐнности . 23
8.3.1 Структурные неопределѐнности словоформ . 23
8.3.2 Структурные неопределѐнности, связанные с лексемами . 24
8.4 Упрощѐнные варианты структурирования . 24
8.4.1 Непротиворечивое линейное представление . 24
8.4.2 Смешанное линейно-решѐточное представление . 25
8.5 Расширение упрощѐнных вариантов . 26
8.5.1 Разбиение лексем и словоформ . 26
8.5.2 Свѐртывание в локальные решѐтки . 26
8.5.3 Слияние локальных решѐток . 27
8.5.4 Удаление элемента . 28
8.6 Формализованное описание элементов и . 29
Приложение A (информативное) Пример кодирования с использованием сериализации MAF . 30
iii
Приложение B (информативное) Спецификация MAF . 33
B.1 Элементы . 33
B.1.1 . 33
B.1.2 . 34
B.1.3 . 34
B.1.4 . 35
B.1.5 . 35
B.1.6 . 36
B.1.7 . 36
B.1.8 . 37
B.2 Классы моделей . 38
B.3 Классы атрибутов . 38
B.3.1 att.token.information . 38
B.3.2 att.token.join . 39
B.3.3 att.token.span . 39
B.3.4 att.wordForm.content . 39
B.3.5 att.wordForm.tokens . 40
B.4 Макросы . 40
B.4.1 data.certainty . 40
B.4.2 data.code . 40
B.4.3 data.count . 40
B.4.4 data.duration.w3c . 41
B.4.5 data.enumerated . 41
B.4.6 data.key . 41
B.4.7 data.language . 42
B.4.8 data.name . 43
B.4.9 data.numeric . 43
B.4.10 data.pointer . 43
B.4.11 data.probability . 44
B.4.12 data.temporal.w3c . 44
B.4.13 data.truthValue . 44
B.4.14 data.word. 45
B.4.15 data.xTruthValue . 45
Приложение C (нормативное) Категории морфосинтаксических данных . 46
Библиография . 62
iv
Предисловие
Международная организация по стандартизации (ISO) является всемирной федерацией национальных
организаций по стандартизации (комитетов-членов ISO). Разработка международных стандартов
обычно осуществляется техническими комитетами ISO. Каждый комитет-член, заинтересованный в
деятельности, для которой был создан технический комитет, имеет право быть представленным в этом
комитете. Международные правительственные и неправительственные организации, имеющие связь с
ISO, также принимают участие в работе. ISO работает в тесном сотрудничестве с Международной
электротехнической комиссией (IEC) по всем вопросам стандартизации в области электротехники.
Проекты международных стандартов разрабатываются согласно правилам, приведѐнным в Директивах
ISO/IEC, Часть 2.
Разработка международных стандартов является основной задачей технических комитетов. Проекты
международных стандартов, принятые техническими комитетами, р
...


МЕЖДУНАРОДНЫЙ ISO
СТАНДАРТ 24611
Первое издание
2012-11-01
Управление языковыми ресурсами.
Морфосинтаксическая аннотационная
система (MAF)
Language resource management. – Morpho-syntactic
annotation framework (MAF)
Ответственность за подготовку русской версии несѐт GOST R
(Российская Федерация) в соответствии со статьѐй 18.1 Устава ISO

Ссылочный номер
©
ISO 2012
ДОКУМЕНТ ЗАЩИЩЁН АВТОРСКИМ ПРАВОМ

©  ISO 2012
Все права сохраняются. Если не указано иное, никакую часть настоящей публикации нельзя копировать или использовать в
какой-либо форме или каким-либо электронным или механическим способом, включая фотокопии и микрофильмы, без
предварительного получения письменного согласия ISO по указанному ниже адресу или организации-члена ISO в стране
запрашивающей стороны.
Бюро ISO по авторским правам:
Case postale 56 CH-1211 Geneva 20
Тел.: + 41 22 749 01 11
Факс: + 41 22 749 09 47
Эл. почта: copyright@iso.org
Веб-сайт: www.iso.org
Опубликовано в Швейцарии
©
ii ISO 2012 – Все права сохраняются

Содержание Страница
Предисловие. v
Введение . vi
1 Область применения . 1
2 Нормативные ссылки . 1
3 Термины и определения . 1
4 Метамодель MAF . 4
4.1 Общий обзор . 4
4.2 Метамодель MAF . 5
5 Сегментирование с помощью лексем . 6
5.1 Общие замечания . 6
5.2 Формальное описание: . 7
5.3 Нотация вложения . 7
5.4 Альтернативное представление документов на основе рекомендаций TEI . 8
5.5 Автономная аннотация . 8
5.6 Информативные атрибуты . 9
5.7 Улучшение строковой формы записи лексем . 10
5.7.1 Соединение лексем в режиме вложения . 10
5.7.2 Перекрещивающиеся лексемы . 10
6 Словоформы как лингвистические единицы . 11
6.1 Формальное описание словоформы: . 12
6.2 Присоединение лексических единиц . 12
6.2.1 Одна лексическая единица - одна словоформа . 12
6.2.2 Несколько неразрывных лексем – одна словоформа . 12
6.2.3 Несколько дискретных лексем – одна словоформа . 12
6.2.4 Нулевое число лексем – одна словоформа . 13
6.2.5 Одна лексема – несколько словоформ. 14
6.3 Ссылки на лексические статьи . 14
6.4 Сложносоставные словоформы . 15
6.5 Идентификация словоформ в рамках TEI-совместимого документа . 15
7 Морфосинтаксическое содержание . 18
7.1 Общие замечания . 18
7.2 Использование признаковых структур . 18
7.3 Компактные морфосинтаксические теги . 19
7.4 Библиотеки FSR . 19
7.5 Построение теговых наборов . 20
7.6 Формализованное описание: . 22
8 Обработка неопределѐнностей . 22
8.1 Неопределѐнности содержания словоформ . 22
8.2 Лексические неопределѐнности . 23
8.3 Структурные неопределѐнности . 23
8.3.1 Структурные неопределѐнности словоформ . 23
8.3.2 Структурные неопределѐнности, связанные с лексемами . 24
8.4 Упрощѐнные варианты структурирования . 24
8.4.1 Непротиворечивое линейное представление . 24
8.4.2 Смешанное линейно-решѐточное представление . 25
8.5 Расширение упрощѐнных вариантов . 26
8.5.1 Разбиение лексем и словоформ . 26
8.5.2 Свѐртывание в локальные решѐтки . 26
8.5.3 Слияние локальных решѐток . 27
8.5.4 Удаление элемента . 28
8.6 Формализованное описание элементов и . 29
Приложение A (информативное) Пример кодирования с использованием сериализации MAF . 30
iii
Приложение B (информативное) Спецификация MAF . 33
B.1 Элементы . 33
B.1.1 . 33
B.1.2 . 34
B.1.3 . 34
B.1.4 . 35
B.1.5 . 35
B.1.6 . 36
B.1.7 . 36
B.1.8 . 37
B.2 Классы моделей . 38
B.3 Классы атрибутов . 38
B.3.1 att.token.information . 38
B.3.2 att.token.join . 39
B.3.3 att.token.span . 39
B.3.4 att.wordForm.content . 39
B.3.5 att.wordForm.tokens . 40
B.4 Макросы . 40
B.4.1 data.certainty . 40
B.4.2 data.code . 40
B.4.3 data.count . 40
B.4.4 data.duration.w3c . 41
B.4.5 data.enumerated . 41
B.4.6 data.key . 41
B.4.7 data.language . 42
B.4.8 data.name . 43
B.4.9 data.numeric . 43
B.4.10 data.pointer . 43
B.4.11 data.probability . 44
B.4.12 data.temporal.w3c . 44
B.4.13 data.truthValue . 44
B.4.14 data.word. 45
B.4.15 data.xTruthValue . 45
Приложение C (нормативное) Категории морфосинтаксических данных . 46
Библиография . 62
iv
Предисловие
Международная организация по стандартизации (ISO) является всемирной федерацией национальных
организаций по стандартизации (комитетов-членов ISO). Разработка международных стандартов
обычно осуществляется техническими комитетами ISO. Каждый комитет-член, заинтересованный в
деятельности, для которой был создан технический комитет, имеет право быть представленным в этом
комитете. Международные правительственные и неправительственные организации, имеющие связь с
ISO, также принимают участие в работе. ISO работает в тесном сотрудничестве с Международной
электротехнической комиссией (IEC) по всем вопросам стандартизации в области электротехники.
Проекты международных стандартов разрабатываются согласно правилам, приведѐнным в Директивах
ISO/IEC, Часть 2.
Разработка международных стандартов является основной задачей технических комитетов. Проекты
международных стандартов, принятые техническими комитетами, р
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.