SIST ISO 24610-2:2013
(Main)Language resource management -- Feature structures -- Part 2: Feature system declaration
Language resource management -- Feature structures -- Part 2: Feature system declaration
ISO 24610-2:2011 provides a format to represent, store or exchange feature structures in natural language applications, for both annotation and production of linguistic data. It is ultimately designed to provide a computer format to define a type hierarchy and to declare the constraints that bear on a set of feature specifications and operations on feature structures, thus offering means to check the conformance of each feature structure with regards to a reference specification. Feature structures are an essential part of many linguistic formalisms as well as an underlying mechanism for representing the information consumed or produced by and for language engineering applications.
A feature system declaration (FSD) is an auxiliary file used in conjunction with a certain type of text that makes use of fs (that is, feature structure) elements. The FSD serves four purposes. 1) It provides an encoding by which types and their subtyping and inheritance relationships can be introduced and defined, thus laying the basis for constructing a feature system. 2) It provides a mechanism by which the encoder can list all of the feature names and feature values and give a prose description as to what each represents. 3) It provides a mechanism by which type constraints can be declared, against which typed feature structures are validated relative to a given theory stated in typed feature logic. These constraints may involve constraints on the range of a feature's value, constraints on which features are permitted within certain types of feature structures, or constraints that prevent the co-occurrence of certain feature-value pairs. The source of these constraints is normally the empirical domain being modelled. 4) It provides a mechanism by which the encoder can define the intended interpretation of underspecified feature structures. This involves defining default values (whether literal or computed) for missing features.
The scheme described in ISO 24610-2:2011 may be used to document any feature system, but is primarily intended for use with the typed feature structure representation defined in ISO 24610-1. The feature structure representations of ISO 24610-1 specify data structures that are subject to the typing conventions and constraints specified using ISO 24610-2:2011. The feature structure representations of ISO 24610-1 are also used within some of the elements defined in ISO 24610-2:2011.
Gestion des ressources langagières -- Structures de traits -- Partie 2: Déclaration de système de structures de traits
Upravljanje z jezikovnimi viri - Strukture lastnosti - 2. del: Deklaracija sistema lastnosti
Ta del standarda ISO 24610 zagotavlja format za predstavitev, shranjevanje in izmenjavo struktur lastnosti v aplikacijah za naravni jezik za označevanje in oblikovanje jezikovnih podatkov. Njegov glavni namen je zagotovitev računalniškega formata za določanje hierarhije tipov in opis omejitev, ki veljajo za sklop specifikacij lastnosti in operacij na strukturah lastnosti, in tako nudi način za preverjanje skladnosti vsake strukture lastnosti glede na referenčno specifikacijo. Strukture lastnosti so ključni sestavni del številnih jezikovnih formalizmov in osnovni mehanizmi za predstavitev informacij, ki jih predelajo ali oblikujejo aplikacije za jezikovno inženirstvo, ali ki so oblikovane za te aplikacije. Deklaracija sistema lastnosti (FSD) je pomožna datoteka, ki se uporablja z določeno vrsto besedila, in uporablja elemente struktur lastnosti. FSD ima štiri namene. – Zagotavlja kodiranje, prek katerega se lahko uvedejo in definirajo tipi in njihovi podtipi ter odnosi dedovanja, s čimer se postavijo temelji za gradnjo sistema lastnosti. – Zagotavlja mehanizem, s katerim lahko kodirnik oblikuje seznam vseh imen lastnosti in vrednosti lastnosti ter besedilu doda opis o tem, kaj predstavlja. – Zagotavlja mehanizem, s katerim se lahko navedejo omejitve tipa in s čimer se potrdijo tipizirane strukture lastnosti glede na dano teorijo, navedeno v logiki tipiziranih lastnosti. Te omejitve lahko vključujejo omejitve glede razpona vrednosti lastnosti, omejitve glede tega, katere lastnosti so dovoljene v določenih vrstah struktur lastnosti, ali omejitve, ki onemogočajo sopojavitev določenih parov lastnost-vrednost. Vir teh omejitev je običajno empirično modeliranje. – Zagotavlja mehanizem, s katerim lahko kodirnik določi želeno interpretacijo premalo specificiranih struktur lastnosti. To vključuje določanje privzetih vrednosti (dobesednih ali izračunanih) za manjkajoče vrednosti. Shema, ki jo opisuje ta del standarda ISO 24610, se lahko uporablja za dokumentiranje katerega koli sistema lastnosti, a je v prvi vrsti namenjena uporabi pri predstavitvi tipiziranih struktur lastnosti iz standarda ISO 24610-1. Predstavitve struktur lastnosti iz standarda ISO 24610-1 določajo strukture podatkov, za katere veljajo tipološke norme in omejitve, določene s pomočjo standarda ISO 24610-2. Predstavitve struktur lastnosti iz standarda ISO 24610-1 se uporabljajo tudi pri nekaterih elementih, določenih v standardu ISO 24610-2.
General Information
Standards Content (Sample)
SLOVENSKI STANDARD
01-julij-2013
Upravljanje z jezikovnimi viri - Strukture lastnosti - 2. del: Deklaracija sistema
lastnosti
Language resource management -- Feature structures -- Part 2: Feature system
declaration
Gestion des ressources langagières -- Structures de traits -- Partie 2: Déclaration de
système de structures de traits
Ta slovenski standard je istoveten z: ISO 24610-2:2011
ICS:
01.020 Terminologija (načela in Terminology (principles and
koordinacija) coordination)
01.140.20 Informacijske vede Information sciences
35.240.30 Uporabniške rešitve IT v IT applications in information,
informatiki, dokumentiranju in documentation and
založništvu publishing
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.
INTERNATIONAL ISO
STANDARD 24610-2
First edition
2011-10-01
Language resource management —
Feature structures —
Part 2:
Feature system declaration
Gestion des ressources langagières — Structures de traits —
Partie 2: Déclaration de système de structures de traits
Reference number
©
ISO 2011
© ISO 2011
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2011 – All rights reserved
Contents Page
Foreword . iv
Introduction . v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 2
4 Overall structure . 5
5 Basic concepts . 6
5.1 Typed feature structures reviewed . 6
5.2 Types . 7
5.3 Type inheritance hierarchies . 9
5.4 Type constraints . 11
5.5 Optional (default) values and underspecification . 12
5.6 Subsumption . 12
6 Defining well-formedness versus validity. 14
6.1 Overview . 14
6.2 ISO 24610 . 14
7 A feature system for a grammar . 19
7.1 Overview . 19
7.2 Sample FSDs . 20
8 Declaration of a feature system . 23
8.1 Overview . 24
8.2 Linking a text to feature system declarations . 24
8.3 Overall structure of a feature system declaration . 25
8.4 Feature declarations . 27
8.5 Feature structure constraints . 33
Annex A (normative) XML schema for feature structures . 36
Annex B (informative) A complete example . 46
Bibliography . 50
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 24610-2 was prepared by Technical Committee ISO/TC 37, Terminology and other language and content
resources, Subcommittee SC 4, Language resource management.
ISO 24610 consists of the following parts, under the general title Language resource management — Feature
structures:
Part 1: Feature structure representation
Part 2: Feature system declaration
iv © ISO 2011 – All rights reserved
Introduction
ISO 24610 is organized in two separate main parts.
Part 1, Feature structure representation, is dedicated to the description of feature structures, providing an
informal and yet explicit outline of their characteristics, as well as an XML-based structured way of
representing feature structures in general and typed feature structures in particular. It is designed to lay a
basis for constructing an XML-based reference format for exchanging (typed) feature structures between
applications.
Part 2, Feature system declaration, will provide an implementation standard for XML-based typed feature
structures, first by defining a set of types and their hierarchy, then by formulating type constraints on a set
of features and their respective admissible feature values and finally by introducing a set of validity
conditions on feature structures for particular applications, especially related to the goal of language
resource management.
A feature structure is a general-purpose data structure that identifies and groups together individual features
by assigning a particular value to each. Because of the generality of feature structures, they can be used to
represent many different kinds of information. Interrelations among various pieces of information and their
instantiation in markup provide a meta-language for representing linguistic content. Moreover, this
instantiation allows a specification of a set of features and values associated with specific types and their
restrictions, by means of feature system declarations, or other XML mechanisms to be discussed in this part
of ISO 24610.
Some of the statements here are copied from ISO 24610-1:2006 in order to make this part standalone without
referring to part 1.
INTERNATIONAL STANDARD ISO 24610-2:2011(E)
Language resource management — Feature structures —
Part 2:
Feature system declaration
1 Scope
This part of ISO 24610 provides a format to represent, store or exchange feature structures in natural
language applications, for both annotation and production of linguistic data. It is ultimately designed to provide
a computer format to define a type hierarchy and to declare the constraints that bear on a set of feature
specifications and operations on feature structures, thus offering means to check the conformance of each
feature structure with regards to a reference specification. Feature structures are an essential part of many
linguistic formalisms as well as an underlying mechanism for representing the information consumed or
produced by and for language engineering applications.
A feature system declaration (FSD) is an auxiliary file used in conjunction with a certain type of text that
makes use of fs (that is, feature structure) elements. The FSD serves four purposes.
It provides an encoding by which types and their subtyping and inheritance relationships can be
introduced and defined, thus laying the basis for constructing a feature system.
It provides a mechanism by which the encoder can list all of the feature names and feature values and
give a prose description as to what each represents.
It provides a mechanism by which type constraints can be declared, against which typed feature
structures are validated relative to a given theory stated in typed feature logic. These constraints may
involve constraints on the range of a feature's value, constraints on which features are permitted within
certain types of feature structures, or constraints that prevent the co-occurrence of certain feature-value
pairs. The source of these constraints is normally the empirical domain being modelled.
It provides a mechanism by which the encoder can define the intended interpretation of underspecified
feature structures. This involves defining default values (whether literal or computed) for missing features.
The scheme described in this part of ISO 24610 may be used to document any feature system, but is primarily
intended for use with the typed feature structure representation defined in ISO 24610-1. The feature structure
representations of ISO 24610-1 specify data structures that are subject to the typing conventions and
constraints specified using ISO 24610-2. The feature structure representations of ISO 24610-1 are also used
within some of the elements defined in ISO 24610-2.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO 24610-1:2006, Language resource management — Feature structures — Part 1: Feature structure
representation
ISO/IEC 19757-2, Information technology — Document Schema Definition Language (DSDL) — Part 2:
Regular-grammar-based validation — RELAX NG
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 19757-2 and the following apply.
3.1
admissibility constraint
feature admissibility constraint
specification of a set of admissible features (3.2) and admissible feature values (3.3) associated with a
specific type (3.24)
3.2
admissible feature
appropriate feature
feature which any feature structure (3.14) of a given type (3.24) may bear a value (3.17) for
NOTE This term is often interpreted elsewhere to mean obligatory, i.e. feature structures of the given type must bear
a value for every admissible feature. This term does not imply that the feature is obligatory here.
3.3
admissible feature value
admissible value
value restriction
range restriction
value (3.17) that the value of an admissible feature (3.2) must be subsumed by in feature structures (3.14)
of a given type (3.24)
3.4
atomic type
user-defined type (3.24) with no admissible features (3.2) declared or inherited
3.5
bag
multiset
triple of an integer n, a set S and a function that maps the integers in the range, 1 to n, to elements of S
NOTE A bag is halfway between a set (in that its elements are unordered) and a list (in that particular elements can
occur more than once).
3.6
built-in
non-user-defined element that may appear in place of a feature structure (3.14), for example, as a feature
value (3.17)
NOTE Built-ins can be atomic
...
SLOVENSKI STANDARD
01-julij-2013
Upravljanje z jezikovnimi viri - Strukture lastnosti - 2. del: Deklaracija sistema
lastnosti
Language resource management -- Feature structures -- Part 2: Feature system
declaration
Gestion des ressources langagières -- Structures de traits -- Partie 2: Déclaration de
système de structures de traits
Ta slovenski standard je istoveten z: ISO 24610-2:2011
ICS:
01.140.20 Informacijske vede Information sciences
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.
INTERNATIONAL ISO
STANDARD 24610-2
First edition
2011-10-01
Language resource management —
Feature structures —
Part 2:
Feature system declaration
Gestion des ressources langagières — Structures de traits —
Partie 2: Déclaration de système de structures de traits
Reference number
©
ISO 2011
© ISO 2011
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2011 – All rights reserved
Contents Page
Foreword . iv
Introduction . v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 2
4 Overall structure . 5
5 Basic concepts . 6
5.1 Typed feature structures reviewed . 6
5.2 Types . 7
5.3 Type inheritance hierarchies . 9
5.4 Type constraints . 11
5.5 Optional (default) values and underspecification . 12
5.6 Subsumption . 12
6 Defining well-formedness versus validity. 14
6.1 Overview . 14
6.2 ISO 24610 . 14
7 A feature system for a grammar . 19
7.1 Overview . 19
7.2 Sample FSDs . 20
8 Declaration of a feature system . 23
8.1 Overview . 24
8.2 Linking a text to feature system declarations . 24
8.3 Overall structure of a feature system declaration . 25
8.4 Feature declarations . 27
8.5 Feature structure constraints . 33
Annex A (normative) XML schema for feature structures . 36
Annex B (informative) A complete example . 46
Bibliography . 50
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 24610-2 was prepared by Technical Committee ISO/TC 37, Terminology and other language and content
resources, Subcommittee SC 4, Language resource management.
ISO 24610 consists of the following parts, under the general title Language resource management — Feature
structures:
Part 1: Feature structure representation
Part 2: Feature system declaration
iv © ISO 2011 – All rights reserved
Introduction
ISO 24610 is organized in two separate main parts.
Part 1, Feature structure representation, is dedicated to the description of feature structures, providing an
informal and yet explicit outline of their characteristics, as well as an XML-based structured way of
representing feature structures in general and typed feature structures in particular. It is designed to lay a
basis for constructing an XML-based reference format for exchanging (typed) feature structures between
applications.
Part 2, Feature system declaration, will provide an implementation standard for XML-based typed feature
structures, first by defining a set of types and their hierarchy, then by formulating type constraints on a set
of features and their respective admissible feature values and finally by introducing a set of validity
conditions on feature structures for particular applications, especially related to the goal of language
resource management.
A feature structure is a general-purpose data structure that identifies and groups together individual features
by assigning a particular value to each. Because of the generality of feature structures, they can be used to
represent many different kinds of information. Interrelations among various pieces of information and their
instantiation in markup provide a meta-language for representing linguistic content. Moreover, this
instantiation allows a specification of a set of features and values associated with specific types and their
restrictions, by means of feature system declarations, or other XML mechanisms to be discussed in this part
of ISO 24610.
Some of the statements here are copied from ISO 24610-1:2006 in order to make this part standalone without
referring to part 1.
INTERNATIONAL STANDARD ISO 24610-2:2011(E)
Language resource management — Feature structures —
Part 2:
Feature system declaration
1 Scope
This part of ISO 24610 provides a format to represent, store or exchange feature structures in natural
language applications, for both annotation and production of linguistic data. It is ultimately designed to provide
a computer format to define a type hierarchy and to declare the constraints that bear on a set of feature
specifications and operations on feature structures, thus offering means to check the conformance of each
feature structure with regards to a reference specification. Feature structures are an essential part of many
linguistic formalisms as well as an underlying mechanism for representing the information consumed or
produced by and for language engineering applications.
A feature system declaration (FSD) is an auxiliary file used in conjunction with a certain type of text that
makes use of fs (that is, feature structure) elements. The FSD serves four purposes.
It provides an encoding by which types and their subtyping and inheritance relationships can be
introduced and defined, thus laying the basis for constructing a feature system.
It provides a mechanism by which the encoder can list all of the feature names and feature values and
give a prose description as to what each represents.
It provides a mechanism by which type constraints can be declared, against which typed feature
structures are validated relative to a given theory stated in typed feature logic. These constraints may
involve constraints on the range of a feature's value, constraints on which features are permitted within
certain types of feature structures, or constraints that prevent the co-occurrence of certain feature-value
pairs. The source of these constraints is normally the empirical domain being modelled.
It provides a mechanism by which the encoder can define the intended interpretation of underspecified
feature structures. This involves defining default values (whether literal or computed) for missing features.
The scheme described in this part of ISO 24610 may be used to document any feature system, but is primarily
intended for use with the typed feature structure representation defined in ISO 24610-1. The feature structure
representations of ISO 24610-1 specify data structures that are subject to the typing conventions and
constraints specified using ISO 24610-2. The feature structure representations of ISO 24610-1 are also used
within some of the elements defined in ISO 24610-2.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO 24610-1:2006, Language resource management — Feature structures — Part 1: Feature structure
representation
ISO/IEC 19757-2, Information technology — Document Schema Definition Language (DSDL) — Part 2:
Regular-grammar-based validation — RELAX NG
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 19757-2 and the following apply.
3.1
admissibility constraint
feature admissibility constraint
specification of a set of admissible features (3.2) and admissible feature values (3.3) associated with a
specific type (3.24)
3.2
admissible feature
appropriate feature
feature which any feature structure (3.14) of a given type (3.24) may bear a value (3.17) for
NOTE This term is often interpreted elsewhere to mean obligatory, i.e. feature structures of the given type must bear
a value for every admissible feature. This term does not imply that the feature is obligatory here.
3.3
admissible feature value
admissible value
value restriction
range restriction
value (3.17) that the value of an admissible feature (3.2) must be subsumed by in feature structures (3.14)
of a given type (3.24)
3.4
atomic type
user-defined type (3.24) with no admissible features (3.2) declared or inherited
3.5
bag
multiset
triple of an integer n, a set S and a function that maps the integers in the range, 1 to n, to elements of S
NOTE A bag is halfway between a set (in that its elements are unordered) and a list (in that particular elements can
occur more than once).
3.6
built-in
non-user-defined element that may appear in place of a feature structure (3.14), for example, as a feature
value (3.17)
NOTE Built-ins can be atomic or complex. The atomic built-ins are numeric, string, symbol and binary. The complex
built-ins are collections (3.7) and applications of the operators, i.e. alternation, negation and merge (5.2.4).
3.7
collecti
...
INTERNATIONAL ISO
STANDARD 24610-2
First edition
2011-10-01
Language resource management —
Feature structures —
Part 2:
Feature system declaration
Gestion des ressources langagières — Structures de traits —
Partie 2: Déclaration de système de structures de traits
Reference number
©
ISO 2011
© ISO 2011
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2011 – All rights reserved
Contents Page
Foreword . iv
Introduction . v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 2
4 Overall structure . 5
5 Basic concepts . 6
5.1 Typed feature structures reviewed . 6
5.2 Types . 7
5.3 Type inheritance hierarchies . 9
5.4 Type constraints . 11
5.5 Optional (default) values and underspecification . 12
5.6 Subsumption . 12
6 Defining well-formedness versus validity. 14
6.1 Overview . 14
6.2 ISO 24610 . 14
7 A feature system for a grammar . 19
7.1 Overview . 19
7.2 Sample FSDs . 20
8 Declaration of a feature system . 23
8.1 Overview . 24
8.2 Linking a text to feature system declarations . 24
8.3 Overall structure of a feature system declaration . 25
8.4 Feature declarations . 27
8.5 Feature structure constraints . 33
Annex A (normative) XML schema for feature structures . 36
Annex B (informative) A complete example . 46
Bibliography . 50
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 24610-2 was prepared by Technical Committee ISO/TC 37, Terminology and other language and content
resources, Subcommittee SC 4, Language resource management.
ISO 24610 consists of the following parts, under the general title Language resource management — Feature
structures:
Part 1: Feature structure representation
Part 2: Feature system declaration
iv © ISO 2011 – All rights reserved
Introduction
ISO 24610 is organized in two separate main parts.
Part 1, Feature structure representation, is dedicated to the description of feature structures, providing an
informal and yet explicit outline of their characteristics, as well as an XML-based structured way of
representing feature structures in general and typed feature structures in particular. It is designed to lay a
basis for constructing an XML-based reference format for exchanging (typed) feature structures between
applications.
Part 2, Feature system declaration, will provide an implementation standard for XML-based typed feature
structures, first by defining a set of types and their hierarchy, then by formulating type constraints on a set
of features and their respective admissible feature values and finally by introducing a set of validity
conditions on feature structures for particular applications, especially related to the goal of language
resource management.
A feature structure is a general-purpose data structure that identifies and groups together individual features
by assigning a particular value to each. Because of the generality of feature structures, they can be used to
represent many different kinds of information. Interrelations among various pieces of information and their
instantiation in markup provide a meta-language for representing linguistic content. Moreover, this
instantiation allows a specification of a set of features and values associated with specific types and their
restrictions, by means of feature system declarations, or other XML mechanisms to be discussed in this part
of ISO 24610.
Some of the statements here are copied from ISO 24610-1:2006 in order to make this part standalone without
referring to part 1.
INTERNATIONAL STANDARD ISO 24610-2:2011(E)
Language resource management — Feature structures —
Part 2:
Feature system declaration
1 Scope
This part of ISO 24610 provides a format to represent, store or exchange feature structures in natural
language applications, for both annotation and production of linguistic data. It is ultimately designed to provide
a computer format to define a type hierarchy and to declare the constraints that bear on a set of feature
specifications and operations on feature structures, thus offering means to check the conformance of each
feature structure with regards to a reference specification. Feature structures are an essential part of many
linguistic formalisms as well as an underlying mechanism for representing the information consumed or
produced by and for language engineering applications.
A feature system declaration (FSD) is an auxiliary file used in conjunction with a certain type of text that
makes use of fs (that is, feature structure) elements. The FSD serves four purposes.
It provides an encoding by which types and their subtyping and inheritance relationships can be
introduced and defined, thus laying the basis for constructing a feature system.
It provides a mechanism by which the encoder can list all of the feature names and feature values and
give a prose description as to what each represents.
It provides a mechanism by which type constraints can be declared, against which typed feature
structures are validated relative to a given theory stated in typed feature logic. These constraints may
involve constraints on the range of a feature's value, constraints on which features are permitted within
certain types of feature structures, or constraints that prevent the co-occurrence of certain feature-value
pairs. The source of these constraints is normally the empirical domain being modelled.
It provides a mechanism by which the encoder can define the intended interpretation of underspecified
feature structures. This involves defining default values (whether literal or computed) for missing features.
The scheme described in this part of ISO 24610 may be used to document any feature system, but is primarily
intended for use with the typed feature structure representation defined in ISO 24610-1. The feature structure
representations of ISO 24610-1 specify data structures that are subject to the typing conventions and
constraints specified using ISO 24610-2. The feature structure representations of ISO 24610-1 are also used
within some of the elements defined in ISO 24610-2.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO 24610-1:2006, Language resource management — Feature structures — Part 1: Feature structure
representation
ISO/IEC 19757-2, Information technology — Document Schema Definition Language (DSDL) — Part 2:
Regular-grammar-based validation — RELAX NG
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 19757-2 and the following apply.
3.1
admissibility constraint
feature admissibility constraint
specification of a set of admissible features (3.2) and admissible feature values (3.3) associated with a
specific type (3.24)
3.2
admissible feature
appropriate feature
feature which any feature structure (3.14) of a given type (3.24) may bear a value (3.17) for
NOTE This term is often interpreted elsewhere to mean obligatory, i.e. feature structures of the given type must bear
a value for every admissible feature. This term does not imply that the feature is obligatory here.
3.3
admissible feature value
admissible value
value restriction
range restriction
value (3.17) that the value of an admissible feature (3.2) must be subsumed by in feature structures (3.14)
of a given type (3.24)
3.4
atomic type
user-defined type (3.24) with no admissible features (3.2) declared or inherited
3.5
bag
multiset
triple of an integer n, a set S and a function that maps the integers in the range, 1 to n, to elements of S
NOTE A bag is halfway between a set (in that its elements are unordered) and a list (in that particular elements can
occur more than once).
3.6
built-in
non-user-defined element that may appear in place of a feature structure (3.14), for example, as a feature
value (3.17)
NOTE Built-ins can be atomic or complex. The atomic built-ins are numeric, string, symbol and binary. The complex
built-ins are collections (3.7) and applications of the operators, i.e. alternation, negation and merge (5.2.4).
3.7
collection
feature value (3.17) consisting of potentially many values, organized as a list, set or bag (3.5)
3.8
constraint
unit of specification that identifies some collection of feature structures (3.14) as invalid
NOTE 1 All constraints are implicational in their syntactic form, although some are distinguished as admissibility
constraints. See validity (3.31) and 5.4. All feature structures not explicitly excluded as invalid are considered to be valid.
NOTE 2 A feature structure that has not been so identified by any of the constraints in a feature system is considered
to be valid.
2 © ISO 2011 – All rights reserved
3.9
default value
value (3.17) otherwise assigned to a feature (3.12) when one is not specified
EXAMPLE Masculine is the default value of the grammatical gender in Dutch.
NOTE A feature structure may not bear a feature without a corresponding value.
3.10
empty feature structure
featur
...
INTERNATIONAL ISO
STANDARD 24610-2
First edition
2011-10-01
Language resource management —
Feature structures —
Part 2:
Feature system declaration
Gestion des ressources langagières — Structures de traits —
Partie 2: Déclaration de système de structures de traits
Reference number
©
ISO 2011
© ISO 2011
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2011 – All rights reserved
Contents Page
Foreword . iv
Introduction . v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 2
4 Overall structure . 5
5 Basic concepts . 6
5.1 Typed feature structures reviewed . 6
5.2 Types . 7
5.3 Type inheritance hierarchies . 9
5.4 Type constraints . 11
5.5 Optional (default) values and underspecification . 12
5.6 Subsumption . 12
6 Defining well-formedness versus validity. 14
6.1 Overview . 14
6.2 ISO 24610 . 14
7 A feature system for a grammar . 19
7.1 Overview . 19
7.2 Sample FSDs . 20
8 Declaration of a feature system . 23
8.1 Overview . 24
8.2 Linking a text to feature system declarations . 24
8.3 Overall structure of a feature system declaration . 25
8.4 Feature declarations . 27
8.5 Feature structure constraints . 33
Annex A (normative) XML schema for feature structures . 36
Annex B (informative) A complete example . 46
Bibliography . 50
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 24610-2 was prepared by Technical Committee ISO/TC 37, Terminology and other language and content
resources, Subcommittee SC 4, Language resource management.
ISO 24610 consists of the following parts, under the general title Language resource management — Feature
structures:
Part 1: Feature structure representation
Part 2: Feature system declaration
iv © ISO 2011 – All rights reserved
Introduction
ISO 24610 is organized in two separate main parts.
Part 1, Feature structure representation, is dedicated to the description of feature structures, providing an
informal and yet explicit outline of their characteristics, as well as an XML-based structured way of
representing feature structures in general and typed feature structures in particular. It is designed to lay a
basis for constructing an XML-based reference format for exchanging (typed) feature structures between
applications.
Part 2, Feature system declaration, will provide an implementation standard for XML-based typed feature
structures, first by defining a set of types and their hierarchy, then by formulating type constraints on a set
of features and their respective admissible feature values and finally by introducing a set of validity
conditions on feature structures for particular applications, especially related to the goal of language
resource management.
A feature structure is a general-purpose data structure that identifies and groups together individual features
by assigning a particular value to each. Because of the generality of feature structures, they can be used to
represent many different kinds of information. Interrelations among various pieces of information and their
instantiation in markup provide a meta-language for representing linguistic content. Moreover, this
instantiation allows a specification of a set of features and values associated with specific types and their
restrictions, by means of feature system declarations, or other XML mechanisms to be discussed in this part
of ISO 24610.
Some of the statements here are copied from ISO 24610-1:2006 in order to make this part standalone without
referring to part 1.
INTERNATIONAL STANDARD ISO 24610-2:2011(E)
Language resource management — Feature structures —
Part 2:
Feature system declaration
1 Scope
This part of ISO 24610 provides a format to represent, store or exchange feature structures in natural
language applications, for both annotation and production of linguistic data. It is ultimately designed to provide
a computer format to define a type hierarchy and to declare the constraints that bear on a set of feature
specifications and operations on feature structures, thus offering means to check the conformance of each
feature structure with regards to a reference specification. Feature structures are an essential part of many
linguistic formalisms as well as an underlying mechanism for representing the information consumed or
produced by and for language engineering applications.
A feature system declaration (FSD) is an auxiliary file used in conjunction with a certain type of text that
makes use of fs (that is, feature structure) elements. The FSD serves four purposes.
It provides an encoding by which types and their subtyping and inheritance relationships can be
introduced and defined, thus laying the basis for constructing a feature system.
It provides a mechanism by which the encoder can list all of the feature names and feature values and
give a prose description as to what each represents.
It provides a mechanism by which type constraints can be declared, against which typed feature
structures are validated relative to a given theory stated in typed feature logic. These constraints may
involve constraints on the range of a feature's value, constraints on which features are permitted within
certain types of feature structures, or constraints that prevent the co-occurrence of certain feature-value
pairs. The source of these constraints is normally the empirical domain being modelled.
It provides a mechanism by which the encoder can define the intended interpretation of underspecified
feature structures. This involves defining default values (whether literal or computed) for missing features.
The scheme described in this part of ISO 24610 may be used to document any feature system, but is primarily
intended for use with the typed feature structure representation defined in ISO 24610-1. The feature structure
representations of ISO 24610-1 specify data structures that are subject to the typing conventions and
constraints specified using ISO 24610-2. The feature structure representations of ISO 24610-1 are also used
within some of the elements defined in ISO 24610-2.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO 24610-1:2006, Language resource management — Feature structures — Part 1: Feature structure
representation
ISO/IEC 19757-2, Information technology — Document Schema Definition Language (DSDL) — Part 2:
Regular-grammar-based validation — RELAX NG
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 19757-2 and the following apply.
3.1
admissibility constraint
feature admissibility constraint
specification of a set of admissible features (3.2) and admissible feature values (3.3) associated with a
specific type (3.24)
3.2
admissible feature
appropriate feature
feature which any feature structure (3.14) of a given type (3.24) may bear a value (3.17) for
NOTE This term is often interpreted elsewhere to mean obligatory, i.e. feature structures of the given type must bear
a value for every admissible feature. This term does not imply that the feature is obligatory here.
3.3
admissible feature value
admissible value
value restriction
range restriction
value (3.17) that the value of an admissible feature (3.2) must be subsumed by in feature structures (3.14)
of a given type (3.24)
3.4
atomic type
user-defined type (3.24) with no admissible features (3.2) declared or inherited
3.5
bag
multiset
triple of an integer n, a set S and a function that maps the integers in the range, 1 to n, to elements of S
NOTE A bag is halfway between a set (in that its elements are unordered) and a list (in that particular elements can
occur more than once).
3.6
built-in
non-user-defined element that may appear in place of a feature structure (3.14), for example, as a feature
value (3.17)
NOTE Built-ins can be atomic or complex. The atomic built-ins are numeric, string, symbol and binary. The complex
built-ins are collections (3.7) and applications of the operators, i.e. alternation, negation and merge (5.2.4).
3.7
collection
feature value (3.17) consisting of potentially many values, organized as a list, set or bag (3.5)
3.8
constraint
unit of specification that identifies some collection of feature structures (3.14) as invalid
NOTE 1 All constraints are implicational in their syntactic form, although some are distinguished as admissibility
constraints. See validity (3.31) and 5.4. All feature structures not explicitly excluded as invalid are considered to be valid.
NOTE 2 A feature structure that has not been so identified by any of the constraints in a feature system is considered
to be valid.
2 © ISO 2011 – All rights reserved
3.9
default value
value (3.17) otherwise assigned to a feature (3.12) when one is not specified
EXAMPLE Masculine is the default value of the grammatical gender in Dutch.
NOTE A feature structure may not bear a feature without a corresponding value.
3.10
empty feature structure
featur
...
МЕЖДУНАРОДНЫЙ ISO
СТАНДАРТ 24610-2
Первое издание
2011-10-01
Управление языковыми ресурсами.
Структуры элементов.
Часть 2.
Декларация системы элементов
Language resource management. – Feature structures –
Part 2:
Feature system declaration
Ответственность за подготовку русской версии несѐт GOST R
(Российская Федерация) в соответствии со статьѐй 18.1 Устава ISO
Ссылочный номер
©
ISO 2011
ДОКУМЕНТ ЗАЩИЩЁН АВТОРСКИМ ПРАВОМ
© ISO 2011
Все права сохраняются. Если не указано иное, никакую часть настоящей публикации нельзя копировать или использовать в
какой-либо форме или каким-либо электронным или механическим способом, включая фотокопии и микрофильмы, без
предварительного письменного согласия издателя.
ISO copyright office
Case postale 56 CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Опубликовано в Швейцарии
©
ii ISO 2011 – Все права сохраняются
Содержание Страница
Предисловие .iv
Введение .v
1 Область применения .1
2 Нормативные ссылки .1
3 Термины и определения .2
4 Общая структура стандарта .6
5 Базовые понятия .7
5.1 Рассматриваемые типизированные структуры элементов .7
5.2 Типы .8
5.3 Иерархии наследования типов . 11
5.4 Ограничения для типов . 12
5.5 Опциональные (стандартные) значения и недоопределение . 13
5.6 Категоризация . 14
6 Определение формальной правильности и адекватности . 16
6.1 Общее описание . 16
6.2 О стандарте ISO 24610 . 17
7 Система элементов для грамматики. 22
7.1 Общие сведения . 22
7.2 Выборочные FSD. 23
8 Декларация системы элементов . 27
8.1 Общие сведения . 27
8.2 Привязка текста к декларациям систем элементов . 28
8.3 Общая структура декларации системы элементов. 29
8.4 Декларации элементов . 31
8.5 Ограничения структуры элементов . 37
Приложение A (нормативное) Схема XML для структур элементов . 40
Приложение B (информативное) Детализированный пример . 50
Библиография . 54
©
ISO 2011 – Все права сохраняются iii
Предисловие
Международная организация по стандартизации (ISO) является всемирной федерацией национальных
организаций по стандартизации (комитетов-членов ISO). Разработка международных стандартов
обычно осуществляется техническими комитетами ISO. Каждый комитет-член, заинтересованный в
деятельности, для которой был создан технический комитет, имеет право быть представленным в этом
комитете. Международные правительственные и неправительственные организации, имеющие связь с
ISO, также принимают участие в работе. ISO работает в тесном сотрудничестве с Международной
электротехнической комиссией (IEC) по всем вопросам стандартизации в области электротехники.
Проекты международных стандартов разрабатываются согласно правилам, приведѐнным в Директивах
ISO/IEC, Часть 2.
Разработка международных стандартов является основной задачей технических комитетов. Проекты
международных стандартов, принятые техническими комитетами, рассылаются комитетам-членам на
голосование. Для публикации в качестве международного стандарта требуется одобрение не менее
75 % комитетов-членов, принявших участие в голосовании.
Принимается во внимание тот факт, что некоторые из элементов настоящей части стандарта ISO 9735
могут быть объектом патентных прав. ISO не принимает на себя обязательств по определению
отдельных или всех таких патентных прав.
ISO 24610-2 был подготовлен Техническим комитетом ISO/TC 37, Терминология и другие языковые и
информационные ресурсы, Подкомитет SC 4, Управление языковыми ресурсами.
В целом серия ISO 24610 состоит из следующих частей, объединѐнных общим названием Управление
языковыми ресурсами. Структуры элементов:
Часть 1. Представление структуры элементов
Часть 2. Декларация системы элементов
©
iv ISO 2011 – Все права сохраняются
Введение
ISO 24610 состоит из двух отдельных важных частей.
Часть 1, Представление структуры элементов, посвящена описанию структур, обеспечивающих
неформальное, но достаточно явное выражение их характеристик, а также описанию
представления структур элементов с использованием языка XML вообще и различных типов таких
структур, в частности. В этой части закладываются основы правильного форматирования
конструируемых XML-ссылок, обеспечивающих обмен структурами элементов (возможно, с
выделением типов) между приложениями.
Часть 2, Декларация системы элементов, предоставляет стандартный метод реализации
различных типов структур элементов в языковой среде XML: сначала путѐм определения
множества типов и их иерархии; затем посредством формулирования ограничений, касающихся
различных типов, на множестве элементов и их допустимых значений, и, наконец, путѐм введения
множества условий, касающихся надѐжности структур элементов в аспекте их использования в
конкретных приложениях, - особенно, в целях управления языковыми ресурсами.
Структура элементов – это структура данных общего назначения, которая идентифицирует и
группирует отдельные элементы посредством присваивания каждому из них конкретного значения.
Благодаря универсальности структур элементов они могут использоваться для представления самых
разных типов информации. Существующие связи между различными «порциями» информации и их
реализация в языке разметки образуют некоторый метаязык для представления контента
лингвистического характера. Более того, подобная реализация позволяет сформировать описание
множества элементов и значений, соответствующих конкретным типам и их ограничениям,
посредством декларирования системы элементов или с помощью других механизмов языка XML,
обсуждаемых в данной части ISO 24610.
Некоторые положения данной части заимствованы из ISO 24610-1:2006 в целях обеспечения полной
независимости части 2 от части 1.
©
ISO 2011 – Все права сохраняются v
МЕЖДУНАРОДНЫЙ СТАНДАРТ ISO 24610-2:2011(R)
Управление языковыми ресурсами. Структуры элементов.
Часть 2.
Декларация системы элементов
1 Область применения
В данной части ISO 24610 предлагается формат представления, хранения и обмена для структур
элементов в прикладных системах, основанных на использовании естественного языка, как для
аннотирования, так и для формирования лингвистических данных. Основная цель состоит в том, чтобы
предложить такой формат машинной обработки, который позволяет определить иерархию типов и
декларировать ограничения, накладываемые на множество спецификаций элементов и на операции со
структурами элементов, обеспечивая таким образом средства контроля соответствия каждой
структуры элементов их базовой спецификации. Структуры элементов – это важнейшая часть многих
формализаций в лингвистике и основополагающий механизм представления информации,
используемой или порождаемой в приложениях, связанных с построением языковых систем.
Декларация системы элементов (FSD -feature system declaration) представляет собой вспомогательный
файл, относящийся к тексту конкретного типа, в рамках которого используются структурированные
элементы. Такая декларация служит четырѐм основным целям.
Обеспечивает кодирование, посредством которого могут вводиться и определяться типы и
подтипы, образующие основу для конструирования системы элементов;
Предоставляет механизм, с помощью которого кодировщик может сформировать список имѐн всех
элементов с соответствующими значениями и дать текстовое описание сущности каждого из них;
Реализует механизм декларирования разных типов ограничений, в соответствии с которыми
осуществляется контроль достоверности различных типов структур элементов на основе
использования теоретических принципов, установленных логикой выделения типов элементов;
этими ограничениями могут задаваться диапазон допустимых значений элемента, разрешѐнные
типы структур элементов или запрет на совместное вхождение в ту или иную структуру
определѐнных пар значений элементов; первоисточником таких ограничений обычно бывает
подлежащая моделированию предметная область;
Предоставляет механизм, посредством которого кодировщик может определять подразумеваемую
интерпретацию недоопределѐнных структур элементов: например, механизм определения
значений по умолчанию (литеральных или вычисляемых) для опущенных элементов.
Схема, описанная в данной части ISO 24610, может применяться для документирования любой
системы элементов, но предназначена, главным образом, для использования в рамках представлений
типизированных структур элементов, определѐнных в ISO 24610-1. Такие представления задают
структуры данных, подчиняющиеся условиям выделения типов и конкретным ограничениям,
определяемым с помощью ISO 24610-2. Представления структур элементов по ISO 24610-1
используются также применительно к некоторым элементам, определѐнным в ISO 24610-2.
2 Нормативные ссылки
Для применения данного документа необходимо обеспечение соответствия приведѐнным ниже
нормативным документам. Применительно к недатированным ссылочным документам (с плавающими
ссылками) действующим остаѐтся самое последнее издание нормативного документа.
©
ISO 2011 – Все права сохраняются 1
ISO 24610-1:2006, Управление языковыми ресурсами. Структуры элементов. Часть 1:
Представление структур элементов
ISO/IEC 19757-2, Информационные технологии. Язык определения схемы документа (DSDL).
Часть 2. Валидация на основе регулярной грамматики. RELAX NG
3 Термины и определения
Для целей данного документа используются термины и определения из стандарта ISO 19757-2, а
также терминология, приведѐнная ниже.
3.1
ограничение по допустимости
admissibility constraint
ограничение по разрешѐнным элементам
feature admissibility constraint
спецификация множества разрешѐнных элементов (3.2) и допустимых значений элементов (3.3),
ассоциируемая с конкретным типом (3.24)
3.2
разрешѐнный элемент
admissible feature
подходящий элемент
appropriate feature
элемент, для которого соответствующая структура элементов (3.14) определѐнного типа (3.24) может
нести в себе конкретное значение (3.17)
ПРИМЕЧАНИЕ В некоторых интерпретациях этот термин часто приобретает оттенок обязательности, то есть
считается, что структуры элементов конкретного типа должны содержать в себе значение для каждого
разрешѐнного элемента. Однако в нашем случае данный термин не предполагает обязательного присутствия
элемента.
3.3
разрешѐнное значение элемента
admissible feature value
допустимое значение
admissible value
ограничение по значениям
value restriction
ограничение по диапазону
range restriction
значение (3.17), которое должно быть отнесено к категории допустимых элементов (3.2) в
структурах элементов (3.14) данного типа (3.24)
3.4
атомарный тип
atomic type
пользовательский тип (3.24), который не имеет декларируемых или наследуемых допустимых
элементов (3.2)
3.5
множество с повторяющимися элементами
bag
мультимножество
multiset
триплет, образованный целым числом n, множеством S и функцией отображения целых чисел в
диапазоне от 1 до n, в элементы S
©
ISO 2011 – Все права сохраняются
ПРИМЕЧАНИЕ Множество с повторяющимися элементами – это промежуточный объект между обычным
множеством (как совокупностью неупорядоченных элементов) и списком (где отдельные элементы могут
встречаться многократно).
3.6
встроенный элемент
built-in
элемент, не определяемый пользователем, но могущий появиться вместо структуры элементов
(3.14), например, в качестве значения элемента (3.17)
ПРИМЕЧАНИЕ Встроенные элементы могут быть атомарными или составными. К первым относятся
численные, строковые, символьные и двоичные элементы; ко вторым - коллекции (3.7) и применяемые
логические операторы: например, дизъюнкция, отрицание и слиян
...
МЕЖДУНАРОДНЫЙ ISO
СТАНДАРТ 24610-2
Первое издание
2011-10-01
Управление языковыми ресурсами.
Структуры элементов.
Часть 2.
Декларация системы элементов
Language resource management. – Feature structures –
Part 2:
Feature system declaration
Ответственность за подготовку русской версии несѐт GOST R
(Российская Федерация) в соответствии со статьѐй 18.1 Устава ISO
Ссылочный номер
©
ISO 2011
ДОКУМЕНТ ЗАЩИЩЁН АВТОРСКИМ ПРАВОМ
© ISO 2011
Все права сохраняются. Если не указано иное, никакую часть настоящей публикации нельзя копировать или использовать в
какой-либо форме или каким-либо электронным или механическим способом, включая фотокопии и микрофильмы, без
предварительного письменного согласия издателя.
ISO copyright office
Case postale 56 CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Опубликовано в Швейцарии
©
ii ISO 2011 – Все права сохраняются
Содержание Страница
Предисловие .iv
Введение .v
1 Область применения .1
2 Нормативные ссылки .1
3 Термины и определения .2
4 Общая структура стандарта .6
5 Базовые понятия .7
5.1 Рассматриваемые типизированные структуры элементов .7
5.2 Типы .8
5.3 Иерархии наследования типов . 11
5.4 Ограничения для типов . 12
5.5 Опциональные (стандартные) значения и недоопределение . 13
5.6 Категоризация . 14
6 Определение формальной правильности и адекватности . 16
6.1 Общее описание . 16
6.2 О стандарте ISO 24610 . 17
7 Система элементов для грамматики. 22
7.1 Общие сведения . 22
7.2 Выборочные FSD. 23
8 Декларация системы элементов . 27
8.1 Общие сведения . 27
8.2 Привязка текста к декларациям систем элементов . 28
8.3 Общая структура декларации системы элементов. 29
8.4 Декларации элементов . 31
8.5 Ограничения структуры элементов . 37
Приложение A (нормативное) Схема XML для структур элементов . 40
Приложение B (информативное) Детализированный пример . 50
Библиография . 54
©
ISO 2011 – Все права сохраняются iii
Предисловие
Международная организация по стандартизации (ISO) является всемирной федерацией национальных
организаций по стандартизации (комитетов-членов ISO). Разработка международных стандартов
обычно осуществляется техническими комитетами ISO. Каждый комитет-член, заинтересованный в
деятельности, для которой был создан технический комитет, имеет право быть представленным в этом
комитете. Международные правительственные и неправительственные организации, имеющие связь с
ISO, также принимают участие в работе. ISO работает в тесном сотрудничестве с Международной
электротехнической комиссией (IEC) по всем вопросам стандартизации в области электротехники.
Проекты международных стандартов разрабатываются согласно правилам, приведѐнным в Директивах
ISO/IEC, Часть 2.
Разработка международных стандартов является основной задачей технических комитетов. Проекты
международных стандартов, принятые техническими комитетами, рассылаются комитетам-членам на
голосование. Для публикации в качестве международного стандарта требуется одобрение не менее
75 % комитетов-членов, принявших участие в голосовании.
Принимается во внимание тот факт, что некоторые из элементов настоящей части стандарта ISO 9735
могут быть объектом патентных прав. ISO не принимает на себя обязательств по определению
отдельных или всех таких патентных прав.
ISO 24610-2 был подготовлен Техническим комитетом ISO/TC 37, Терминология и другие языковые и
информационные ресурсы, Подкомитет SC 4, Управление языковыми ресурсами.
В целом серия ISO 24610 состоит из следующих частей, объединѐнных общим названием Управление
языковыми ресурсами. Структуры элементов:
Часть 1. Представление структуры элементов
Часть 2. Декларация системы элементов
©
iv ISO 2011 – Все права сохраняются
Введение
ISO 24610 состоит из двух отдельных важных частей.
Часть 1, Представление структуры элементов, посвящена описанию структур, обеспечивающих
неформальное, но достаточно явное выражение их характеристик, а также описанию
представления структур элементов с использованием языка XML вообще и различных типов таких
структур, в частности. В этой части закладываются основы правильного форматирования
конструируемых XML-ссылок, обеспечивающих обмен структурами элементов (возможно, с
выделением типов) между приложениями.
Часть 2, Декларация системы элементов, предоставляет стандартный метод реализации
различных типов структур элементов в языковой среде XML: сначала путѐм определения
множества типов и их иерархии; затем посредством формулирования ограничений, касающихся
различных типов, на множестве элементов и их допустимых значений, и, наконец, путѐм введения
множества условий, касающихся надѐжности структур элементов в аспекте их использования в
конкретных приложениях, - особенно, в целях управления языковыми ресурсами.
Структура элементов – это структура данных общего назначения, которая идентифицирует и
группирует отдельные элементы посредством присваивания каждому из них конкретного значения.
Благодаря универсальности структур элементов они могут использоваться для представления самых
разных типов информации. Существующие связи между различными «порциями» информации и их
реализация в языке разметки образуют некоторый метаязык для представления контента
лингвистического характера. Более того, подобная реализация позволяет сформировать описание
множества элементов и значений, соответствующих конкретным типам и их ограничениям,
посредством декларирования системы элементов или с помощью других механизмов языка XML,
обсуждаемых в данной части ISO 24610.
Некоторые положения данной части заимствованы из ISO 24610-1:2006 в целях обеспечения полной
независимости части 2 от части 1.
©
ISO 2011 – Все права сохраняются v
МЕЖДУНАРОДНЫЙ СТАНДАРТ ISO 24610-2:2011(R)
Управление языковыми ресурсами. Структуры элементов.
Часть 2.
Декларация системы элементов
1 Область применения
В данной части ISO 24610 предлагается формат представления, хранения и обмена для структур
элементов в прикладных системах, основанных на использовании естественного языка, как для
аннотирования, так и для формирования лингвистических данных. Основная цель состоит в том, чтобы
предложить такой формат машинной обработки, который позволяет определить иерархию типов и
декларировать ограничения, накладываемые на множество спецификаций элементов и на операции со
структурами элементов, обеспечивая таким образом средства контроля соответствия каждой
структуры элементов их базовой спецификации. Структуры элементов – это важнейшая часть многих
формализаций в лингвистике и основополагающий механизм представления информации,
используемой или порождаемой в приложениях, связанных с построением языковых систем.
Декларация системы элементов (FSD -feature system declaration) представляет собой вспомогательный
файл, относящийся к тексту конкретного типа, в рамках которого используются структурированные
элементы. Такая декларация служит четырѐм основным целям.
Обеспечивает кодирование, посредством которого могут вводиться и определяться типы и
подтипы, образующие основу для конструирования системы элементов;
Предоставляет механизм, с помощью которого кодировщик может сформировать список имѐн всех
элементов с соответствующими значениями и дать текстовое описание сущности каждого из них;
Реализует механизм декларирования разных типов ограничений, в соответствии с которыми
осуществляется контроль достоверности различных типов структур элементов на основе
использования теоретических принципов, установленных логикой выделения типов элементов;
этими ограничениями могут задаваться диапазон допустимых значений элемента, разрешѐнные
типы структур элементов или запрет на совместное вхождение в ту или иную структуру
определѐнных пар значений элементов; первоисточником таких ограничений обычно бывает
подлежащая моделированию предметная область;
Предоставляет механизм, посредством которого кодировщик может определять подразумеваемую
интерпретацию недоопределѐнных структур элементов: например, механизм определения
значений по умолчанию (литеральных или вычисляемых) для опущенных элементов.
Схема, описанная в данной части ISO 24610, может применяться для документирования любой
системы элементов, но предназначена, главным образом, для использования в рамках представлений
типизированных структур элементов, определѐнных в ISO 24610-1. Такие представления задают
структуры данных, подчиняющиеся условиям выделения типов и конкретным ограничениям,
определяемым с помощью ISO 24610-2. Представления структур элементов по ISO 24610-1
используются также применительно к некоторым элементам, определѐнным в ISO 24610-2.
2 Нормативные ссылки
Для применения данного документа необходимо обеспечение соответствия приведѐнным ниже
нормативным документам. Применительно к недатированным ссылочным документам (с плавающими
ссылками) действующим остаѐтся самое последнее издание нормативного документа.
©
ISO 2011 – Все права сохраняются 1
ISO 24610-1:2006, Управление языковыми ресурсами. Структуры элементов. Часть 1:
Представление структур элементов
ISO/IEC 19757-2, Информационные технологии. Язык определения схемы документа (DSDL).
Часть 2. Валидация на основе регулярной грамматики. RELAX NG
3 Термины и определения
Для целей данного документа используются термины и определения из стандарта ISO 19757-2, а
также терминология, приведѐнная ниже.
3.1
ограничение по допустимости
admissibility constraint
ограничение по разрешѐнным элементам
feature admissibility constraint
спецификация множества разрешѐнных элементов (3.2) и допустимых значений элементов (3.3),
ассоциируемая с конкретным типом (3.24)
3.2
разрешѐнный элемент
admissible feature
подходящий элемент
appropriate feature
элемент, для которого соответствующая структура элементов (3.14) определѐнного типа (3.24) может
нести в себе конкретное значение (3.17)
ПРИМЕЧАНИЕ В некоторых интерпретациях этот термин часто приобретает оттенок обязательности, то есть
считается, что структуры элементов конкретного типа должны содержать в себе значение для каждого
разрешѐнного элемента. Однако в нашем случае данный термин не предполагает обязательного присутствия
элемента.
3.3
разрешѐнное значение элемента
admissible feature value
допустимое значение
admissible value
ограничение по значениям
value restriction
ограничение по диапазону
range restriction
значение (3.17), которое должно быть отнесено к категории допустимых элементов (3.2) в
структурах элементов (3.14) данного типа (3.24)
3.4
атомарный тип
atomic type
пользовательский тип (3.24), который не имеет декларируемых или наследуемых допустимых
элементов (3.2)
3.5
множество с повторяющимися элементами
bag
мультимножество
multiset
триплет, образованный целым числом n, множеством S и функцией отображения целых чисел в
диапазоне от 1 до n, в элементы S
©
ISO 2011 – Все права сохраняются
ПРИМЕЧАНИЕ Множество с повторяющимися элементами – это промежуточный объект между обычным
множеством (как совокупностью неупорядоченных элементов) и списком (где отдельные элементы могут
встречаться многократно).
3.6
встроенный элемент
built-in
элемент, не определяемый пользователем, но могущий появиться вместо структуры элементов
(3.14), например, в качестве значения элемента (3.17)
ПРИМЕЧАНИЕ Встроенные элементы могут быть атомарными или составными. К первым относятся
численные, строковые, символьные и двоичные элементы; ко вторым - коллекции (3.7) и применяемые
логические операторы: например, дизъюнкция, отрицание и слиян
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.