ISO/IEC 14651:2020
(Main)Information technology — International string ordering and comparison — Method for comparing character strings and description of the common template tailorable ordering
Information technology — International string ordering and comparison — Method for comparing character strings and description of the common template tailorable ordering
This document defines the following. — A reference comparison method. This method is applicable to two character strings to determine their collating order in a sorted list. The method can be applied to strings containing characters from the full repertoire of ISO/IEC 10646. This method is also applicable to subsets of that repertoire, such as those of the different ISO/IEC 8-bit standard character sets, or any other character set, standardized or not, to produce ordering results valid (after tailoring) for a given set of languages for each script. This method uses collation tables derived either from the Common Template Table defined in this document or from one of its tailorings. This method provides a reference format. The format is described using the Backus-Naur Form (BNF). This format is used to describe the Common Template Table. The format is used normatively within this document. — A Common Template Table. A given tailoring of the Common Template Table is used by the reference comparison method. The Common Template Table describes an order for all characters encoded in the Unicode 13.0 standard,[27] included in ISO/IEC 10646:2020. It allows for a specification of a fully deterministic ordering. This table enables the specification of a string ordering adapted to local ordering rules, without requiring an implementer to have knowledge of all the different scripts already encoded in the Universal Coded Character Set (UCS). NOTE 1 This Common Template Table is to be modified to suit the needs of a local environment. The main worldwide benefit is that, for other scripts, often no modification is required and the order will remain as consistent as possible and predictable from an international point of view. NOTE 2 The character repertoire used in this document is equivalent to that of the Unicode Standard version 13.0[27]. — A reference name. The reference name refers to this particular version of the Common Template Table, for use as a reference when tailoring. In particular, this name implies that the table is linked to a particular stage of development of the ISO/IEC 10646 Universal coded character set. — Requirements for a declaration of the differences (delta) between the collation table and the Common Template Table. This document does not mandate the following. — A specific comparison method; any equivalent method giving the same results is acceptable. — A specific format for describing or tailoring tables in a given implementation. — Specific symbols to be used by implementations, except for the name of the Common Template Table. — Any specific user interface for choosing options. — Any specific internal format for intermediate keys used when comparing, nor for the table used. The use of numeric keys is not mandated either. — A context-dependent ordering. — Any particular preparation of character strings prior to comparison. NOTE 1 It is normally necessary to do preparation of character strings prior to comparison even if it is not prescribed by this document (see Annex C). NOTE 2 Annex D describes problems that gave way to this International Standard with their anticipated solutions.
Technologies de l'information — Classement international et comparaison de chaînes de caractères — Méthode de comparaison de chaînes de caractères et description du modèle commun et adaptable d'ordre de classement
Le présent document définit ce qui suit. — Une méthode de référence pour la comparaison de deux chaînes de caractères ayant pour but de déterminer leur ordre de classement dans une liste triée. La méthode s'applique à des chaînes utilisant le répertoire complet de l'ISO/IEC 10646, des sous-répertoires tels que ceux des divers jeux normalisés ISO/IEC à 8 bits ou tout autre jeu de caractères, normalisé ou non, et permet de produire des résultats de tri valables (après adaptation) pour un ensemble de langues de chaque système d'écriture. Cette méthode de référence utilise des tables de tri dérivées soit de la table-modèle commune de classement définie dans le présent document, soit d'une de ses adaptations. La méthode procure un format de référence de la table-modèle commune. Ce format est décrit en notation BNF (forme de Backus-Naur, Backus-Naur Form). Son emploi est normatif dans le présent document. — Une table-modèle commune de classement utilisée par la méthode de référence. Cette table décrit un ordre de base pour tous les caractères du standard Unicode 13.027 compris dans l'ISO/IEC 10646:2020. Tout cela permet de spécifier un ordre complètement déterministe. Cette table constitue le point de départ permettant de préciser un ordre de classement adapté aux règles de classement locales, sans qu'il soit nécessaire de connaître tous les systèmes d'écriture repris dans le jeu universel de caractères codés (JUC). NOTE 1 Cette table-modèle commune de classement est destinée à être modifiée pour satisfaire aux besoins d'environnements locaux. L'avantage principal de cette pratique, sur le plan mondial, réside dans le fait que, pour d'autres systèmes d'écriture que celui de l'utilisateur, aucune modification n'est nécessaire et cet ordre demeurera aussi cohérent que possible et prévisible dans un contexte international. NOTE 2 Le répertoire de caractères utilisé dans le présent document est équivalent à celui du standard Unicode, version 13.0[27]. — Un nom de référence représentant cette version particulière de la table-modèle commune, à utiliser comme point de départ à toute adaptation. Ce nom implique notamment que la table est liée à un stade de développement particulier du jeu universel de caractères codés (ISO/IEC 10646). — Des exigences pour la déclaration de différences (delta) entre une table de tri et la table-modèle commune. Le présent document ne spécifie pas ce qui suit. — Une méthode particulière de comparaison; toute méthode équivalente conduisant aux mêmes résultats est acceptable. — Un format précis pour décrire ou pour adapter les tables dans une mise en œuvre donnée. — Des symboles précis à utiliser par les mises en œuvre, sauf pour ce qui est du nom de la table-modèle commune de classement. — Une interface utilisateur particulière destinée à choisir les options. — Un format interne particulier pour les clés intermédiaires utilisées dans les comparaisons ou pour la table de tri. L'utilisation de clés numériques n'est pas spécifiée non plus. — Un ordre dépendant du contexte. — Un prétraitement particulier des chaînes de caractères avant comparaison. NOTE 1 Bien que ceci ne soit pas spécifié par le présent document, il s'avère souvent nécessaire de préparer les chaînes de caractères avant leur comparaison (cf. l'Annexe C). NOTE 2 L'Annexe D décrit les problèmes qui ont donné lieu à la présente Norme internationale avec leurs solutions anticipées.
General Information
Relations
Buy Standard
Standards Content (Sample)
INTERNATIONAL ISO/IEC
STANDARD 14651
Sixth edition
2020-12
Information technology —
International string ordering and
comparison — Method for comparing
character strings and description
of the common template tailorable
ordering
Technologies de l'information — Classement international et
comparaison de chaînes de caractères — Méthode de comparaison de
chaînes de caractères et description du modèle commun et adaptable
d'ordre de classement
Reference number
©
ISO/IEC 2020
© ISO/IEC 2020
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO/IEC 2020 – All rights reserved
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 2
3 Terms and definitions . 2
4 Symbols and conventions . 3
5 Conformance . 3
6 String comparison . 4
6.1 Preparation of character strings prior to comparison . 4
6.2 Key building and comparison. 5
6.2.1 Preliminary considerations . 5
6.2.2 Reference ordering key formation . . 6
6.2.3 Reference comparison method for ordering character strings . 8
6.2.4 Key ordering definition . 9
6.3 Common Template Table: Formation and interpretation .10
6.3.1 General.10
6.3.2 BNF syntax rules for the Common Template Table in Annex A .10
6.3.3 Well-formedness conditions .12
6.3.4 Interpretation of tailored tables .13
6.3.5 Evaluation of weight tables .15
6.3.6 Conditions for considering specific table equivalences .15
6.3.7 Conditions for results to be considered equivalent .15
6.4 Declaration of a delta .15
6.5 Name of the Common Template Table and name declaration .17
Annex A (normative) Common Template Table .18
Annex B (informative) Example tailoring deltas .20
Annex C (informative) Preparation .29
Annex D (informative) Tutorial on solutions brought by this document to problems of
lexical ordering .45
Annex E (informative) Searching and fuzzy matches .49
Bibliography .51
© ISO/IEC 2020 – All rights reserved iii
Foreword
ISO (the International Organization for Standardization) and IEC (the International Electrotechnical
Commission) form the specialized system for worldwide standardization. National bodies that
are members of ISO or IEC participate in the development of International Standards through
technical committees established by the respective organization to deal with particular fields of
technical activity. ISO and IEC technical committees collaborate in fields of mutual interest. Other
international organizations, governmental and non-governmental, in liaison with ISO and IEC, also
take part in the work.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for
the different types of document should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject
of patent rights. ISO and IEC shall not be held responsible for identifying any or all such patent
rights. Details of any patent rights identified during the development of the document will be in the
Introduction and/or on the ISO list of patent declarations received (see www .iso .org/ patents) or the IEC
list of patent declarations received (see patents.iec.ch).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/IEC JTC 1, Information technology,
Subcommittee SC 2, Coded character sets.
This sixth edition cancels and replaces the fifth edition (ISO/IEC 14651:2019), which has been
technically revised.
The main changes compared to the previous edition are as follows:
— ordering data has been added for the new characters standardized in the sixth edition of
ISO/IEC 10646 (2020);
— the content of 6.2.2 has been revised for more completeness;
— the weights of character U+A9B5 (JAVANESE VOWEL SIGN TOLONG) have been changed, as the
latter is considered a variant of character U+A9B4 (JAVANESE VOWEL SIGN TARUNG). This needed
to be fixed.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO/IEC 2020 – All rights reserved
Introduction
This document provides a method, applicable around the world, for ordering text data, and provides
a Common Template Table which, when tailored, can meet a given language’s ordering requirements
while retaining reasonable ordering for other scripts.
The Common Template Table requires some tailoring in different local environments. Conformance to
this document requires that all deviations from the template, called “deltas”, be declared to document
resultant discrepancies.
This document describes a method to order text data independently of context.
ISO/IEC TR 30112 has specifications for ordering that informatively complement the specifications in
this document and indicates where additional information can be sought on ordering keywords defined
in this document.
© ISO/IEC 2020 – All rights reserved v
INTERNATIONAL STANDARD ISO/IEC 14651:2020(E)
Information technology — International string ordering
and comparison — Method for comparing character
strings and description of the common template tailorable
ordering
1 Scope
This document defines the following.
— A reference comparison method. This method is applicable to two character strings to determine
their collating order in a sorted list. The method can be applied to strings containing characters from
the full repertoire of ISO/IEC 10646. This method is also applicable to subsets of that repertoire,
such as those of the different ISO/IEC 8-bit standard character sets, or any other character set,
standardized or not, to produce ordering results valid (after tailoring) for a given set of languages
for each script. This method uses collation tables derived either from the Common Template Table
defined in this document or from one of its tailorings. This method provides a reference format. The
format is described using the Backus-Naur Form (BNF). This format is used to describe the Common
Template Table. The format is used normatively within this document.
— A Common Template Table. A given tailoring of the Common Template Table is used by the reference
comparison method. The Common Template Table describes an order for all characters encoded
[27]
in the Unicode 13.0 standard, included in ISO/IEC 10646:2020. It allows for a specification of
a fully deterministic ordering. This table enables the specification of a string ordering adapted to
local ordering rules, without requiring an implementer to have knowledge of all the different scripts
already encoded in the Universal Coded Character Set (UCS).
NOTE 1 This Common Template Table is to be modified to suit the needs of a local environment. The main
worldwide benefit is that, for other scripts, often no modification is required and the order will remain as
consistent as possible and predictable from an international point of view.
NOTE 2 The character repertoire used in this document is equivalent to that of the Unicode Standard
[27]
version 13.0 .
— A reference name. The reference name refers to this particular version of the Common Template
Table, for use as a reference when tailoring. In particular, this name implies that the table is linked
to a particular stage of development of the ISO/IEC 10646 Universal coded character set.
— Requirements for a declaration of the differences (delta) between the collation table and the Common
Template Table.
This document does not mandate the following.
— A specific comparison method; any equivalent method giving the same results is acceptable.
— A specific format for describing or tailoring tables in a given implementation.
— Specific symbols to be used by implementations, except for the name of the Common Template Table.
— Any specific user interface for choosing options.
— Any specific internal format for intermediate keys used when comparing, nor for the table used. The
use of numeric keys is not mandated either.
— A context-dependent ordering.
— Any particular preparation of character strings prior to comparison.
© ISO/IEC 2020 – All rights reserved 1
NOTE 1 It is normally necessary to do preparation of character strings prior to comparison even if it is not
prescribed by this document (see Annex C).
NOTE 2 Annex D describes problems that gave way to this International Standard with their anticipated
solutions.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content
constitutes requirements of this document. For dated references, only the edition cited applies. For
undated references, the latest edition of the referenced document (including any amendments) applies.
ISO/IEC 10646:2020, Information technology — Universal Coded Character Set (UCS)
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
— IEC Electropedia: availab
...
NORME ISO/IEC
INTERNATIONALE 14651
Sixième édition
2020-12
Technologies de l'information —
Classement international et
comparaison de chaînes de caractères
— Méthode de comparaison de
chaînes de caractères et description
du modèle commun et adaptable
d'ordre de classement
Information technology — International string ordering and
comparison — Method for comparing character strings and
description of the common template tailorable ordering
Numéro de référence
©
ISO/IEC 2020
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO/IEC 2020
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO/IEC 2020 – Tous droits réservés
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d'application . 1
2 Références normatives . 2
3 Termes et définitions . 2
4 Symboles et conventions . 3
5 Conformité . 3
6 Comparaison de chaînes . 4
6.1 Prétraitement des chaînes de caractères avant comparaison . 4
6.2 Construction des clés et comparaison . 5
6.2.1 Préliminaires . 5
6.2.2 Méthode de référence de construction des clés . 6
6.2.3 Méthode de comparaison de référence pour le tri des chaînes de caractères. 8
6.2.4 Méthode de comparaison de référence pour le tri des chaînes de caractères. 9
6.3 Table-modèle commune: composition et interprétation.10
6.3.1 Généralités .10
6.3.2 Règles de syntaxe BNF pour la table-modèle commune de l’Annexe A . .10
6.3.3 Contraintes de forme . .12
6.3.4 Interprétation des tables adaptées .14
6.3.5 Évaluation des tables de poids .15
6.3.6 Conditions d’équivalence de tables spécifiques .15
6.3.7 Conditions d’équivalence des résultats .16
6.4 Déclaration d’un delta .16
6.5 Nom de la table-modèle commune et déclaration de nom .18
Annexe A (normative) Table-modèle commune .19
Annexe B (informative) Exemples de deltas d’adaptation .21
Annexe C (informative) Prétraitement .31
Annexe D (informative) Annexe didactique sur les solutions apportées par le présent
document aux problèmes de tri lexical .47
Annexe E (informative) Recherches et correspondances floues .51
Bibliographie .53
© ISO/IEC 2020 – Tous droits réservés iii
Avant-propos
L'ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique
internationale) forment le système spécialisé de la normalisation mondiale. Les organismes
nationaux membres de l'ISO ou de l’IEC participent au développement de Normes internationales
par l'intermédiaire des comités techniques créés par l'organisation concernée afin de s'occuper des
domaines particuliers de l'activité technique. Les comités techniques de l'ISO et de l’IEC collaborent
dans des domaines d'intérêt commun. D'autres organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO et l’IEC, participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L'attention est attirée sur le fait que certains des éléments du présent document peuvent faire l'objet
de droits de propriété intellectuelle ou de droits analogues. L'ISO et l’IEC ne sauraient être tenues pour
responsables de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails
concernant les références aux droits de propriété intellectuelle ou autres droits analogues identifiés
lors de l'élaboration du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations
de brevets reçues par l'ISO (voir www .iso .org/ brevets) ou dans la liste des déclarations de brevets
reçues par l'IEC (voir patents.iec.ch).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion
de l'ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir: www .iso .org/ iso/ avant -propos.
Le présent document a été élaboré par le comité technique ISO/IEC/JTC 1, Technologies de l'information,
sous-comité SC 2, Jeux de caractères codés.
Cette sixième édition annule et remplace la cinquième édition (ISO/IEC 14651:2019), qui a fait l'objet
d'une révision technique.
Les principales modifications par rapport à l’édition précédente sont les suivantes:
— le présent document ajoute les données de classement des nouveaux caractères normalisés dans la
sixième édition de l’ISO/IEC 10646 (2020) ;
— le contenu de 6.2.2 a été révisé pour le rendre plus complet ;
— les poids du caractère U+A9B5 (DIACRITIQUE VOYELLE JAVANAISE TOLONG) ont été modifiés,
car ce dernier est considéré comme une variante du caractère U+A9B4 (DIACRITIQUE VOYELLE
JAVANAISE TARUNG). Cela se devait d’être corrigé.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l’adresse www .iso .org/ members .html.
iv © ISO/IEC 2020 – Tous droits réservés
Introduction
Le présent document fournit une méthode universelle de mise en ordre des données textuelles. Elle
fournit également une table-modèle commune qui, lorsqu'elle est adaptée, peut satisfaire aux exigences
de tri d’une langue donnée, tout en triant de manière raisonnable les autres écritures.
La table-modèle commune est conçue de sorte qu’une adaptation s’avère nécessaire pour chaque
environnement local. C’est pourquoi la conformité au présent document requiert que les modifications
à cette table commune, appelées «deltas», soient déclarées de manière à documenter les différences
dans les résultats.
Le présent document décrit une méthode pour classer l’information textuelle de manière indépendante
du contexte.
L’ISO/IEC TR 30112 contient des dispositions pour le tri complémentaires à celles du présent document;
on y trouve aussi des renseignements complémentaires sur les mots-clés définis dans le présent
document et utilisés pour le tri.
© ISO/IEC 2020 – Tous droits réservés v
NORME INTERNATIONALE ISO/IEC 14651:2020(F)
Technologies de l'information — Classement international
et comparaison de chaînes de caractères — Méthode de
comparaison de chaînes de caractères et description du
modèle commun et adaptable d'ordre de classement
1 Domaine d'application
Le présent document définit ce qui suit.
— Une méthode de référence pour la comparaison de deux chaînes de caractères ayant pour but de
déterminer leur ordre de classement dans une liste triée. La méthode s'applique à des chaînes
utilisant le répertoire complet de l’ISO/IEC 10646, des sous-répertoires tels que ceux des divers
jeux normalisés ISO/IEC à 8 bits ou tout autre jeu de caractères, normalisé ou non, et permet de
produire des résultats de tri valables (après adaptation) pour un ensemble de langues de chaque
système d’écriture. Cette méthode de référence utilise des tables de tri dérivées soit de la table-
modèle commune de classement définie dans le présent document, soit d’une de ses adaptations.
La méthode procure un format de référence de la table-modèle commune. Ce format est décrit en
notation BNF (forme de Backus-Naur, Backus-Naur Form). Son emploi est normatif dans le présent
document.
— Une table-modèle commune de classement utilisée par la méthode de référence. Cette table
décrit un ordre de base pour tous les caractères du standard Unicode 13.0 compris dans
l’ISO/IEC 10646:2020. Tout cela permet de spécifier un ordre complètement déterministe. Cette
table constitue le point de départ permettant de préciser un ordre de classement adapté aux règles
de classement locales, sans qu’il soit nécessaire de connaître tous les systèmes d’écriture repris
dans le jeu universel de caractères codés (JUC).
NOTE 1 Cette table-modèle commune de classement est destinée à être modifiée pour satisfaire aux
besoins d'environnements locaux. L'avantage principal de cette pratique, sur le plan mondial, réside dans le
fait que, pour d'autres systèmes d’écriture que celui de l’utilisateur, aucune modification n’est nécessaire et
cet ordre demeurera aussi cohérent que possible et prévisible dans un contexte international.
NOTE 2 Le répertoire de caractères utilisé dans le présent document est équivalent à celui du standard
[27]
Unicode, version 13.0 .
— Un nom de référence représentant cette version particulière de la table-modèle commune, à utiliser
comme point de départ à toute adaptation. Ce nom implique notamment que la table est liée à un
stade de développement particulier du jeu universel de caractères codés (ISO/IEC 10646).
— Des exigences pour la déclaration de différences (delta) entre une table de tri et la table-modèle
commune.
Le présent document ne spécifie pas ce qui suit.
— Une méthode particulière de comparaison; toute méthode équivalente conduisant aux mêmes
résultats est acceptable.
— Un format précis pour décrire ou pour adapter les tables dans une mise en œuvre donnée.
— Des symboles précis à utiliser par les mises en œuvre, sauf pour ce qui est du nom de la table-modèle
commune de classement.
— Une interface utilisateur particulière destinée à choisir les options.
© ISO/IEC 2020 – Tous droits réservés 1
— Un format interne particulier pour les clés intermédiaires utilisées dans les comparaisons ou pour
la table de tri. L’utilisation de clés numériques n’est pas spécifiée non plus.
— Un ordre dépendant du contexte.
— Un prétraitement particulier des chaînes de
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.