ISO/IEC 10646-1:2000
(Main)Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
Technologies de l'information — Jeu universel de caractères codés sur plusieurs octets (JUC) — Partie 1: Architecture et plan multilingue de base
General Information
- Status
- Withdrawn
- Publication Date
- 04-Oct-2000
- Withdrawal Date
- 04-Oct-2000
- Technical Committee
- ISO/IEC JTC 1/SC 2 - Coded character sets
- Drafting Committee
- ISO/IEC JTC 1/SC 2/WG 2 - Universal coded character set
- Current Stage
- 9599 - Withdrawal of International Standard
- Start Date
- 08-Apr-2004
- Completion Date
- 30-Oct-2025
Relations
- Effective Date
- 06-Jun-2022
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Revised
ISO/IEC 10646:2003 - Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
- Effective Date
- 15-Apr-2008
ISO/IEC 10646-1:2000 - Information technology -- Universal Multiple-Octet Coded Character Set (UCS)
ISO/IEC 10646-1:2000 - Information technology -- Universal Multiple-Octet Coded Character Set (UCS)
ISO/IEC 10646-1:2000 - Technologies de l'information -- Jeu universel de caracteres codés sur plusieurs octets (JUC)
ISO/IEC 10646-1:2000 - Technologies de l'information -- Jeu universel de caracteres codés sur plusieurs octets (JUC)
Frequently Asked Questions
ISO/IEC 10646-1:2000 is a standard published by the International Organization for Standardization (ISO). Its full title is "Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane". This standard covers: Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
ISO/IEC 10646-1:2000 is classified under the following ICS (International Classification for Standards) categories: 35.040 - Information coding; 35.040.10 - Coding of character sets. The ICS classification helps identify the subject area and facilitates finding related standards.
ISO/IEC 10646-1:2000 has the following relationships with other standards: It is inter standard links to ISO/IEC 10646-1:2000/Amd 1:2002, ISO/IEC 10646-1:1993/Amd 16:1998, ISO/IEC 10646-1:1993/Amd 21:1999, ISO/IEC 10646-1:1993/Amd 13:1998, ISO/IEC 10646-1:1993/Amd 4:1996, ISO/IEC 10646-1:1993/Cor 2:1998, ISO/IEC 10646-1:1993/Amd 6:1997, ISO/IEC 10646-1:1993/Amd 8:1997, ISO/IEC 10646-1:1993/Amd 10:1998, ISO/IEC 10646-1:1993/Amd 23:1999, ISO/IEC 10646-1:1993/Amd 3:1996, ISO/IEC 10646-1:1993/Amd 9:1997, ISO/IEC 10646:2003, ISO/IEC 10646-1:1993/Amd 1:1996, ISO/IEC 10646-1:1993/Amd 12:1998. Understanding these relationships helps ensure you are using the most current and applicable version of the standard.
You can purchase ISO/IEC 10646-1:2000 directly from iTeh Standards. The document is available in PDF format and is delivered instantly after payment. Add the standard to your cart and complete the secure checkout process. iTeh Standards is an authorized distributor of ISO standards.
Standards Content (Sample)
INTERNATIONAL ISO/IEC
STANDARD 10646-1
Second edition
2000-09-15
Information technology — Universal
Multiple-Octet Coded Character Set
(UCS) —
Part 1:
Architecture and Basic Multilingual Plane
Technologies de l'information — Jeu universel de caractères codés sur
plusieurs octets (JUC) —
Partie 1: Architecture et plan multilingue de base
Reference number
©
ISO/IEC 2000
PDF disclaimer
This PDF file may contain embedded typefaces. In accordance with Adobe's licensing policy, this file may be printed or viewed but shall not
be edited unless the typefaces which are embedded are licensed to and installed on the computer performing the editing. In downloading this
file, parties accept therein the responsibility of not infringing Adobe's licensing policy. The ISO Central Secretariat accepts no liability in this
area.
Adobe is a trademark of Adobe Systems Incorporated.
Details of the software products used to create this PDF file can be found in the General Info relative to the file; the PDF-creation parameters
were optimized for printing. Every care has been taken to ensure that the file is suitable for use by ISO member bodies. In the unlikely event
that a problem relating to it is found, please inform the Central Secretariat at the address given below.
© ISO/IEC 2000
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means, electronic
or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or ISO's member body
in the country of the requester.
ISO copyright office
Case postale 56 � CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.ch
Web www.iso.ch
Printed in Switzerland
ii © ISO/IEC 2000 – All rights reserved
© ISO/IEC ISO/IEC 10646-1 : 2000(E)
Contents
Page
1 Scope . 1
2 Conformance .1
3 Normative references .2
4 Definitions .2
5 General structure of the UCS .4
6 Basic structure and nomenclature .4
7 General requirements for the UCS .8
8 The Basic Multilingual plane .8
9 Other planes .8
10 Private use groups, planes, and zones . 8
11 Revision and updating of the UCS . 9
12 Subsets . 9
13 Coded representation forms of the UCS . 9
14 Implementation levels . 9
15 Use of control functions with the UCS .10
16 Declaration of identification of features . 10
17 Structure of the code tables and lists . 11
18 Block names .12
19 Characters in bi-directional context .12
20 Special characters .12
21 Presentation forms of characters . 13
22 Compatibility characters .13
23 Order of characters . 13
24 Combining characters . 13
25 Special features of individual scripts . 14
26 Code tables and lists of character names . 15
27 CJK unified ideographs . 304
Annexes
A Collections of graphic characters for subsets . 879
B List of combining characters . 885
C Transformation format for 16 planes of Group 00 (UTF-16) . 890
D UCS Transformation Format 8 (UTF-8) . 893
E Mirrored characters in Arabic bi-directional context . 897
F Alternate format characters . 899
iii
ISO/IEC 10646-1 : 2000(E) © ISO/IEC
G Alphabetically sorted list of character names . 904
H The use of “signatures” to identify UCS . 951
J Recommendation for combined receiving/originating devices
with internal storage . 952
K Notations of octet value representations . 953
L Character naming guidelines . 954
M Sources of characters . 956
N External references to character repertoires .959
P Additional information on characters . 961
Q Code mapping table for Hangul syllables . 964
R Names of Hangul syllables . 974
S Procedure for the unification and arrangement of CJK ideographs . 985
iv
© ISO/IEC ISO/IEC 10646-1:2000(E)
Foreword
ISO (the International Organization for Standardization) and IEC (the International
Electrotechnical Commission) form the specialized system for worldwide
standardization. National bodies that are members of ISO or IEC participate in the
development of International Standards through technical committees established
by the respective organization to deal with particular fields of technical activity.
ISO and IEC technical committees collaborate in fields of mutual interest. Other
international organizations, governmental and non-governmental, in liaison with
ISO and IEC, also take part in the work.
International Standards are drafted in accordance with the rules given in the
ISO/IEC Directives, Part 3.
In the field of information technology, ISO and IEC have established a joint
technical committee, ISO/IEC JTC 1. Draft International Standards adopted by the
joint technical committee are circulated to national bodies for voting. Publication as
an International Standard requires approval by at least 75 % of the national bodies
casting a vote.
Attention is drawn to the possibility that some of the elements of this part of
ISO/IEC 10646 may be the subject of patent rights. ISO and IEC shall not be held
responsible for identifying any or all such patent rights.
International Standard ISO/IEC 10646-1 was prepared by Joint Technical
Committee ISO/IEC JTC 1, Information technology, Subcommittee SC 2, Coded
character sets.
This second edition cancels and replaces the first edition (ISO/IEC 10646-1:1993),
which has been technically revised. It also incorporates Amendments 1 to 13, 16
to 21 and 23, and Technical Corrigenda 1 and 2 to the first edition.
ISO/IEC 10646 consists of the following parts, under the general title Information
technology — Universal Multiple-Octet Coded Character Set (UCS):
— Part 1: Architecture and Basic Multilingual Plane
— Part 2: Secondary Multilingual Plane for scripts and symbols, Supplementary
Plane for CJK Ideographs, Special Purpose Plane
Additional parts will specify other planes.
Annexes A to D form a normative part of this part of ISO/IEC 10646. Annexes E to
S are for information only.
v
ISO/IEC 10646-1 : 2000(E) © ISO/IEC
Introduction
ISO/IEC 10646 specifies the Universal Multiple-Octet Coded Character Set
(UCS). It is applicable to the representation, transmission, interchange,
processing, storage, input and presentation of the written form of the languages
(scripts) of the world as well as additional symbols.
This part of ISO/IEC 10646 specifies the overall architecture and the Basic
Multilingual Plane (BMP) of the UCS.
vi
INTERNATIONAL STANDARD © ISO/IEC ISO/IEC 10646-1 : 2000(E)
Information technology — Universal Multiple-Octet
Coded Character Set (UCS) —
Part 1:
Architecture and Basic Multilingual Plane
is provided by national standards organizations or other
1 Scope
qualified experts.
ISO/IEC 10646 specifies the Universal Multiple-Octet
Coded Character Set (UCS). It is applicable to the
2 Conformance
representation, transmission, interchange, process-
ing, storage, input, and presentation of the written
2.1 General
form of the languages of the world as well as of
Whenever private use characters are used as spec-
additional symbols.
ified in ISO/IEC 10646, the characters themselves
This part of ISO/IEC 10646 specifies the overall shall not be covered by these conformance require-
ments.
architecture, and
- defines terms used in ISO/IEC 10646; 2.2 Conformance of information interchange
A coded-character-data-element (CC-data-element)
- describes the general structure of the coded char-
within coded information for interchange is in
acter set;
conformance with ISO/IEC 10646 if
- specifies the Basic Multilingual Plane (BMP) of the
a) all the coded representations of graphic char-
UCS, and defines a set of graphic characters used in
acters within that CC-data-element conform to
scripts and the written form of languages on a world-
clauses 6 and 7, to an identified form chosen from
wide scale;
clause 13 or annex C or annex D, and to an iden-
- specifies the names for the graphic characters of
tified implementation level chosen from clause 14;
the BMP, and their coded representations;
b) all the graphic characters represented within that
- specifies the four-octet (32-bit) canonical form of
CC-data-element are taken from those within an
the UCS: UCS-4;
identified subset (clause 12);
- specifies a two-octet (16-bit) BMP form of the UCS:
c) all the coded representations of control functions
UCS-2;
within that CC-data-element conform to clause 15.
- specifies the coded representations for control
A claim of conformance shall identify the adopted
functions;
form, the adopted implementation level and the
adopted subset by means of a list of collections
- specifies the management of future additions to this
and/or characters.
coded character set.
2.3 Conformance of devices
The UCS is a coding system different from that spec-
ified in ISO/IEC 2022. The method to designate UCS A device is in conformance with ISO/IEC 10646 if it
from ISO/IEC 2022 is specified in 16.2. conforms to the requirements of item a) below, and
either or both of items b) and c).
NOTE 1 - The Unicode Standard, Version 3.0, provides a set
of characters, names, and coded representations that are
NOTE - The term device is defined (in 4.18) as a compon-
identical with those in this Part 1 of this International
ent of information processing equipment which can transmit
Standard. It additionallly provides details of character
and/or receive coded information within CC-data-elements. A
properties, processing algorithms, and definitions that are
device may be a conventional input/output device, or a
useful to implementors.
process such as an application program or gateway function.
NOTE 2 - It is intended that character code positions for add-
A claim of conformance shall identify the document
itional scripts and symbols will be allocated in this Part 1 of
that contains the description specified in a) below,
this International Standard when sufficient input and review
and shall identify the adopted form(s), the adopted
ISO/IEC 10646-1 : 2000(E) © ISO/IEC
implementation level, the adopted subset (by means ISO/IEC 6429:1992, Information technology —
of a list of collections and/or characters), and the Control functions for coded character sets.
selection of control functions adopted in accordance
with clause 15.
4 Terms and definitions
a) Device description: A device that conforms to
For the purposes of this part of ISO/IEC 10646, the
ISO/IEC 10646 shall be the subject of a description
following terms and definitions apply:
that identifies the means by which the user may
supply characters to the device and/or may recog-
4.1 Basic Multilingual Plane (BMP): Plane 00 of
nize them when they are made available to the user,
Group 00.
as specified respectively, in subclauses b), and c)
4.2 block: A contiguous range of code positions to
below.
which a set of characters that share common
b) Originating device: An originating device shall
characteristics, such as script, are allocated. A block
allow its user to supply any characters from an
does not overlap another block. One or more of the
adopted subset, and be capable of transmitting their
code positions within a block may have no character
coded representations within a CC-data-element in
allocated to it.
accordance with the adopted form and implemen-
4.3 canonical form: The form with which characters
tation level.
of this coded character set are specified using four
c) Receiving device: A receiving device shall be
octets to represent each character.
capable of receiving and interpreting any coded
4.4 CC-data-element (coded-character-data-ele-
representation of characters that are within a CC-
ment): An element of interchanged information that
data-element in accordance with the adopted form
is specified to consist of a sequence of coded
and implementation level, and shall make any cor-
representations of characters, in accordance with
responding characters from the adopted subset
one or more identified standards for coded character
available to the user in such a way that the user can
sets.
identify them.
4.5 cell: The place within a row at which an indiv-
Any corresponding characters that are not within the
idual character may be allocated.
adopted subset shall be indicated to the user. The
way used for indicating them need not distinguish
4.6 character: A member of a set of elements used
them from each other.
for the organization, control, or representation of
data.
NOTE 1 - An indication to the user may consist of making
available the same character to represent all characters not
4.7 character boundary: Within a stream of octets
in the adopted subset, or providing a distinctive audible or
the demarcation between the last octet of the coded
visible signal when appropriate to the type of user.
representation of a character and the first octet of
NOTE 2 - See also annex J for receiving devices with re-
that of the next coded character.
transmission capability.
4.8 coded character: A character together with its
coded representation.
3 Normative references
4.9 coded character set: A set of unambiguous
The following normative documents contain provis-
rules that establishes a character set and the rela-
ions which, through reference in this text, constitute
tionship between the characters of the set and their
provisions of this part of ISO/IEC 10646. For dated
coded representation.
references, subsequent amendments to, or revisions
of, any of these publications do not apply. However,
4.10 code table: A table showing the characters
parties to agreements based on this part of ISO/IEC
allocated to the octets in a code.
10646 are encouraged to investigate the possibility
4.11 collection: A set of coded characters which is
of applying the most recent editions of the normative
numbered and named and which consists of those
documents indicated below. For undated references,
coded characters whose code positions lie within
the latest edition of the normative document referred
one or more identified ranges.
to applies. Members of ISO and IEC maintain
registers of currently valid International Standards.
NOTE - If any of the identified ranges include code positions
to which no character is allocated, the repertoire of the
collection will change if an additional character is assigned to
any of those positions at a future amendment of this
ISO/IEC 2022:1994, Information technology —
International Standard. However it is intended that the
Character code structure and extension techniques.
collection number and name will remain unchanged in future
editions of this International Standard.
© ISO/IEC ISO/IEC 10646-1 : 2000(E)
4.12 combining character: A member of an ident- 16 as the first of a pair of RC-elements which repre-
ified subset of the coded character set of ISO/IEC sents a character from a plane other than the BMP.
10646 intended for combination with the preceding
4.24 interchange: The transfer of character coded
non-combining graphic character, or with a seq-
data from one user to another, using telecommunica-
uence of combining characters preceded by a non-
tion means or interchangeable media.
combining character (see also 4.14).
4.25 interworking: The process of permitting two or
NOTE - This part of ISO/IEC 10646 specifies several subset
more systems, each employing different coded
collections which include combining characters.
character sets, meaningfully to interchange
4.13 compatibility character: A graphic character
character coded data; conversion between the two
included as a coded character of ISO/IEC 10646
codes may be involved.
primarily for compatibility with existing coded char-
4.26 low-half zone: a set of cells reserved for use in
acter sets.
UTF-16 (see annex C); an RC-element correspond-
4.14 composite sequence: A sequence of graphic
ing to any of these cells may be used in UTF-16 as
characters consisting of a non-combining character
the second of a pair of RC-elements which repre-
followed by one or more combining characters (see
sents a character from a plane other than the BMP.
also 4.12).
4.27 octet: An ordered sequence of eight bits con-
NOTE 1 - A graphic symbol for a composite sequence
sidered as a unit.
generally consists of the combination of the graphic symbols
of each character in the sequence.
4.28 plane: A subdivision of a group; of 256 x 256
NOTE 2 - A composite sequence is not a character and
cells
therefore is not a member of the repertoire of ISO/IEC
10646.
4.29 presentation; to present: The process of
writing, printing, or displaying a graphic symbol.
4.15 control function: An action that affects the
recording, processing, transmission, or interpretation
4.30 presentation form: In the presentation of some
of data, and that has a coded representation consist-
scripts, a form of a graphic symbol representing a
ing of one or more octets.
character that depends on the position of the char-
acter relative to other characters.
4.16 default state: The state that is assumed when
no state has been explicitly specified.
4.31 private use plane: A plane within this coded
character set the contents of which is not specified
4.17 detailed code table: A code table showing the
in ISO/IEC 10646 (see clause 10)
individual characters, and normally showing a partial
row.
4.32 RC-element: a two-octet sequence comprising
the R-octet and the C-octet (see 6.2) from the four
4.18 device: A component of information processing
octet sequence (in the canonical form) that corre-
equipment which can transmit and/or receive coded
sponds to a cell in the coding space of this coded
information within CC-data-elements. (It may be an
character set.
input/output device in the conventional sense, or a
process such as an application program or gateway
4.33 repertoire: A specified set of characters that
function.)
are represented in a coded character set.
4.19 fixed collection: A collection in which every
4.34 row: A subdivision of a plane; of 256 cells.
code position within the identified range(s) has a
4.35 script: A set of graphic characters used for the
character allocated to it, and which is intended to
written form of one or more languages.
remain unchanged in future editions of this Inter-
national Standard.
4.36 supplementary plane: A plane that accom-
modates characters which have not been allocated
4.20 graphic character: A character, other than a
to the Basic Multilingual Plane.
control function, that has a visual representation
normally handwritten, printed, or displayed.
4.37 unpaired RC-element: An RC-element in a
CC-data element that is either:
4.21 graphic symbol: The visual representation of a
graphic character or of a composite sequence.
an RC-element from the high-half zone that is not
immediately followed by an RC-element from the
4.22 group: A subdivision of the coding space of this
low-half zone, or
coded character set; of 256 x 256 x 256 cells.
an RC-element from the low-half zone that is not
4.23 high-half zone: a set of cells reserved for use
immediately preceded by a high-half RC-element
in UTF-16 (see annex C); an RC-element corre-
from the high-half zone.
sponding to any of these cells may be used in UTF-
ISO/IEC 10646-1 : 2000(E) © ISO/IEC
4.38 user: A person or other entity that invokes the The planes that are reserved for private use are
service provided by a device. (This entity may be a specified in clause 10. The contents of the cells in
process such as an application program if the private use zones are not specified in ISO/IEC
“device” is a code converter or a gateway function, 10646.
for example.)
Each character is located within the coded character
4.39 zone: A sequence of cells of a code table, set in terms of its Group-octet, Plane-octet, Row-
comprising one or more rows, either in whole or in octet, and Cell-octet.
part, containing characters of a particular class (for
In addition to the canonical form, a two-octet BMP
example see clause 8).
form is specified. Thus, the Basic Multilingual Plane
can be used as a two-octet coded character set
identified as UCS-2.
5 General structure of the UCS
Subsets of the coding space may be used in order to
The general structure of the Universal Multiple-Octet
Coded Character Set (referred to hereafter as “this give a sub-repertoire of graphic characters.
coded character set”) is described in this explanatory
A UCS Transformation Format (UTF-16) is specified
clause, and is illustrated in figures 1 and 2. The
in annex C which can be used to represent char-
normative specification of the structure is given in
acters from 16 planes of group 00, additional to the
the following clauses.
BMP, in a form that is compatible with the two-octet
BMP form.
The value of any octet is expressed in hexadecimal
notation from 00 to FF in ISO/IEC 10646 (see
Another UCS Transformation Format (UTF-8) is
annex K).
specified in annex D which can be used to transmit
The canonical form of this coded character set – the text data through communication systems which are
sensitive to octet values for control characters coded
way in which it is to be conceived – uses a four-
dimensional coding space, regarded as a single according to the 8-bit structure of ISO/IEC 2022, and
to ISO/IEC 4873. UTF-8 also avoids the use of octet
entity, consisting of 128 three-dimensional groups.
values according to ISO/IEC 4873 which have spec-
NOTE - Thus, bit 8 of the most significant octet in the
ial significance during the parsing of file-name char-
canonical form of a coded character can be used for internal
processing purposes within a device as long as it is set to acter strings in widely-used file-handling systems.
zero within a conforming CC-data-element.
Each group consists of 256 two-dimensional planes.
6 Basic structure and nomenclature
Each plane consists of 256 one-dimensional rows,
6.1 Structure
each row containing 256 cells. A character is located
and coded at a cell within this coding space or the
The Universal Multiple-Octet Coded Character Set
cell is declared unused.
as specified in ISO/IEC 10646 shall be regarded as
a single entity.
In the canonical form, four octets are used to repre-
sent each character, and they specify the group,
This entire coded character set shall be conceived of
plane, row and cell, respectively. The canonical form
as comprising 128 groups of 256 planes. Each plane
consists of four octets since two octets are not
shall be regarded as containing 256 rows of char-
sufficient to cover all the characters in the world, and
acters, each row containing 256 cells. In a code
a 32-bit representation follows modern processor
table representing the contents of a plane (such as
architectures.
in figure 2), the horizontal axis shall represent the
least significant octet, with its smaller value to the
The four-octet canonical form can be used as a four-
left; and the vertical axis shall represent the more
octet coded character set, in which case it is called
significant octet, with its smaller value at the top.
UCS-4.
Each axis of the coding space shall be coded by one
The first plane (Plane 00 of Group 00) is called the
octet. Within each octet the most significant bit shall
Basic Multilingual Plane. The Basic Multilingual
be bit 8 and the least significant bit shall be bit 1.
Plane includes characters in general use in alpha-
Accordingly, the weight allocated to each bit shall be
betic, syllabic, and ideographic scripts together with
various symbols and digits.
bit 8 bit 7 bit 6 bit 5 bit 4 bit 3 bit 2 bit 1
The subsequent planes are regarded as supple-
128 64 32 16 8 4 2 1
mentary or private use planes, which will ac-
commodate additional graphic characters (see
clause 9).
© ISO/IEC ISO/IEC 10646-1 : 2000(E)
Group 7F
Plane 00 of Group 7F
Group 01
Group 00
Plane 00 of Group 01
Each plane: Plane FF of Group 00
256 x 256
cells
Plane 00 of Group 00
Figure 1 - Entire coding space of the Universal Multiple-Octet Coded Character Set
ISO/IEC 10646-1 : 2000(E) © ISO/IEC
Supplementary planes
Cell-octet
00 80 FF
Row-
octet
FF
E0
0F Private use planes
0F, 10, E0 - FF
D8.DF S-zone
E0.F8 Private use zone 01
F9.FF 00
Basic Multilingual Plane Plane-octet
NOTE - Labels “S-zone” and “Private use zone” are specified in clause 8.
Figure 2 - Group 00 of the Universal Multiple-Octet Coded Character Set
© ISO/IEC ISO/IEC 10646-1 : 2000(E)
Guidelines to be used for constructing the names of
6.2 Coding of characters
characters in cases a. and b. are given in annex L.
In the canonical form of the coded character set,
6.5 Short identifiers for characters
each character within the entire coded character set
shall be represented by a sequence of four octets. ISO/IEC 10646 defines a short identifier for each
The most significant octet of this sequence shall be character. The short identifier for any character is
the group-octet. The least significant octet of this distinct from the short identifier for any other charac-
sequence shall be the cell-octet. Thus this sequence ter.
may be represented as
NOTE - These short identifiers are independent of the
language in which this standard is written, and are thus
m.s. l.s.
retained in all translations of the text.
Group-octet Plane-octet Row-octet Cell-octet
The following alternative forms of notation of a short
identifier are defined here.
where m.s. means the most significant octet, and l.s.
a. The eight-digit form of short identifier shall con-
means the least significant octet.
sist of the sequence of eight hexadecimal digits that
represents the code position of the character (see
For brevity, the octets may be termed
6.2).
m.s. l.s.
b. The four-digit form of short identifier shall consist
G-octet P-octet R-octet C-octet
of the last four digits of the eight-digit form. It is not
defined if the first four digits of the eight-digit form
are not all zeroes; that is, for characters allocated
Where appropriate, these may be further abbrevi-
outside the Basic Multilingual Plane.
ated to G, P, R, and C.
c. The character “-” (HYPHEN-MINUS) may, as an
The value of any octet shall be represented by two
option, precede the 8-digit form of short identifier.
hexadecimal digits, for example: 31 or FE. When a
single character is to be identified in terms of the
d. The character “+” (PLUS SIGN) may, as an
values of its group, plane, row, and cell, this shall be
option, precede the 4-digit form of short identifier.
represented such as:
e. The prefix letter “U” (LATIN CAPITAL LETTER
0000 0030 for DIGIT ZERO
U) may, as an option, precede any of the four forms
of short identifier defined in a. to d. above.
0000 0041 for LATIN CAPITAL LETTER A
The capital letters A to F, and U that appear within
When referring to characters within an identified
short identifiers may be replaced by the correspond-
plane, the leading four digits (for G-octet and P-
ing small letters.
octet) may be omitted. For example, within plane 00,
0030 may be used to refer to DIGIT ZERO.
The full syntax of the notation of a short identifier, in
Backus-Naur form, is:
6.3 Octet order
The sequence of the octets that represent a char-
{ U | u } [ {+}xxxx | {-}xxxxxxxx ]
acter, and the most significant and least significant
where “x” represents one hexadecimal digit (0 to 9, A
ends of it, shall be maintained as shown above.
to F, or a to f), for example:
When serialized as octets, a more significant octet
shall precede less significant octets. When not
-hhhhhhhh +kkkk
serialized as octets, the order of octets may be
Uhhhhhhhh U+kkkk
specified by agreement between sender and recip-
where hhhhhhhh indicates the eight-digit form and
ient (see 16.1 and annex H).
kkkk indicates the four-digit form.
6.4 Naming of characters
NOTE 1 - As an example the short identifier for LATIN
SMALL LETTER LONG S (see tables for Row 01 in
ISO/IEC 10646 assigns a unique name to each char-
clause 26) may be notated in any of the following
acter. The name of a character either:
forms:
a. denotes the customary meaning of the character,
0000017F -0000017F U0000017F U-0000017F
or
017F +017F U017F U+017F
b. describes the shape of the corresponding graphic
Any of the capital letters may be replaced by the
symbol, or
corresponding small letter.
c. follows the rule given in clause 27 for Chinese
NOTE 2 - Two special prefixed forms of notation have
/Japanese/Korean (CJK) unified ideographs.
also been used, in which the letter T (LATIN CAPITAL
LETTER T or LATIN SMALL LETTER T) replaces the
ISO/IEC 10646-1 : 2000(E) © ISO/IEC
letter U in the corresponding prefixed forms. The
DELETE (see clause 15). Code positions 0000 0080
forms of notation that included the prefix letter T
to 0000 009F are reserved for control characters.
indicated that the short identifier refers to a character
Code positions 0000 D800 to 0000 DFFF are re-
in ISO/IEC 10646-1 First Edition (before the applic-
ation of any Amendments), whereas the forms of served for the use of UTF-16 (see annex C). These
notation that include the prefix letter U always indicate
positions are known as the S-zone.
that the short identifier refers to a character in
Code positions 0000 E000 to 0000 F8FF are re-
ISO/IEC 10646 at the most recent state of amend-
served for private use (see clause 10). These
ment. Corresponding short identifiers of the form T-
xxxxxxxx and U-xxxxxxxx refer to the same character positions are known as the private use zone.
except when xxxxxxxx lies in the range 00003400 to
Code postions 0000 FFFE and 0000 FFFF are re-
00004DFF inclusive. Forms of notation that include no
served.
prefix letter always indicate a reference to the most
recent state of amendment of ISO/IEC 10646, unless
otherwise qualified.
9 Other planes
9.1 Planes reserved for future standardization
7 General requirements for the UCS
Planes 11 to DF in Group 00 and Planes 00 to FF in
The following requirements apply to the entire coded
Groups 01 to 5F are reserved for future stand-
character set.
ardization, and thus those code positions shall not
be used for any other purpose.
a) The values of P-, and R-, and C-octets used for
representing graphic characters shall be in the
9.2 Planes accessible by UTF-16
range 00 to FF. The values of G-octets used for
Each code position in Planes 01 to 10 of Group 00
representation of graphic characters shall be in
has a unique mapping to a four-octet sequence in
the range 00 to 7F. On any plane, code positions
accordance with the UTF-16 form of coded
FFFE and FFFF shall not be used.
representation (see annex C). This form is com-
NOTE - Code position FFFE is reserved for “signature” (see
patible with the two-octet BMP form of UCS-2 (see
annex H). Code position FFFF can be used for internal
13.1).
processing uses requiring a numeric value that is guaranteed
not to be a coded character, such as in terminating tables, or
Code positions in Planes 11 to FF of Group 00, or in
signaling end-of-text. Since it is the largest two-octet value, it
Planes 00 to FF of other groups, do not have a
may also be used as the final value in binary or sequential
searching index. mapping to the UTF-16 form.
b) Code positions to which a character is not alloc-
ated, except for the positions reserved for
10 Private use groups, planes, and
private use characters or for transformation
zones
formats, are reserved for future standardization
10.1 Private use characters
and shall not be used for any other purpose.
Future editions of ISO/IEC 10646 will not
Private use characters are not restrained in any way
allocate any characters to code positions
by ISO/IEC 10646. Private use characters can be
reserved for private use characters or for
used to provide user-defined characters. For ex-
transformation formats.
ample, this is a common requirement for users of
ideographic scripts.
c) The same graphic character shall not be alloc-
ated to more than one code position. There are NOTE 1 - For meaningful interchange of private use char-
acters, an agreement, independent of ISO/IEC 10646, is
graphic characters with similar shapes in the
necessary between sender and recipient.
coded character set; they are used for different
purposes and have different character names.
Private use characters can be used for dynamically-
redefinable character applications.
NOTE 2 - For meaningful interchange of dynamically-rede-
8 The Basic Multilingual Plane
finable characters, an agreement, independent of ISO/IEC
Plane 00 of Group 00 shall be the Basic Multilingual 10646 is necessary between sender and recipient. ISO/IEC
10646 does not specify the techniques for defining or setting
Plane (BMP). The BMP can be used as a two-octet
up dynamically-redefinable characters.
coded character set in which case it shall be called
UCS-2 (see 13.1). 10.2 Code positions for private use characters
The code positions of the 32 groups from Group 60
Code positions 0000 0000 to 0000 001F in the BMP
to Group 7F shall be for private use.
are reserved for control characters, and code pos-
ition 0000 007F is reserved for the character
© ISO/IEC ISO/IEC 10646-1 : 2000(E)
The code positions of Plane 0F and Plane 10, and of UTF-16 and UTF-8, are specified in annexes C and
the 32 planes from Plane E0 to Plane FF, of Group D respectively.
00 shall be for private use.
NOTE - The characters from the ISO/IEC 646 IRV repertoire
are coded by simple zero extensions to their coded
The 6400 code positions E000 to F8FF of the Basic
representations in ISO/IEC 646 IRV. Therefore, their coded
Multilingual Plane shall be for private use.
representations have the same integer values when
represented as 8-bit, 16-bit, or 32-bit integers. For imple-
The contents of these code positions are not spec-
mentations sensitive to a zero-valued octet (e.g. for use as a
ified in ISO/IEC 10646 (see 10.1).
string terminator), use of 8-bit based array data type should
be avoided as any zero-valued octet may be interpreted
incorrectly. Use of data types at least 16-bits wide is more
suitable for UCS-2, and use of data types at least 32-bits
11 Revision and updating of the UCS
wide is more suitable for UCS-4.
The revision and updating of this coded character
13.1 Two-octet BMP form
set will be carried out by ISO/IEC JTC1/SC2.
This coded representation form permits the use of
NOTE - It is intended that in future editions of ISO/IEC
characters from the Basic Multilingual Plane with
10646, the names and allocation of the characters in this
edition will remain unchanged.
each character represented by two octets.
Within a CC-data-element conforming to the two-
octet BMP form, a character from the Basic Multi-
12 Subsets
lingual Plane shall be represented by two octets
ISO/IEC 10646 provides the specification of subsets
comprising the R-octet and the C-octet as specified
of coded graphic characters for use in interchange,
in 6.2 (i.e. its RC-element).
by originating devices, and by receiving devices.
NOTE - A coded graphic character using the two-octet BMP
There are two alternatives for the specification of
form may be implemented by a 16-bit integer for processing.
subsets: limited subset and selected subset. An
13.2 Four-octet canonical form
adopted subset may comprise either of them, or a
The canonical form permits the use of all the char-
combination of the two.
acters of ISO/IEC 10646, with each character repre-
12.1 Limited subset
sented by four octets.
A limited subset consists of a list of graphic char-
Within a CC-data-element conforming to the four-
acters in the specified subset. This specification
octet canonical form, every character shall be repre-
allows applications and devices that were developed
sented by four octets comprising the G-octet, the P-
using other codes to interwork with this coded char-
octet, the R-octet, and the C-octet as specified in
acter set.
6.2.
A claim of conformance referring to a limited subset
NOTE - A coded graphic character using the four-octet
shall list the graphic characters in the subset by the
canonical form may be implemented by a 32-bit integer for
names of graphic characters or code positions as
processing.
defined in ISO/IEC 10646.
12.2 Selected subset
14 Implementation levels
A selected subset consists of a list of collections of
ISO/IEC 10646 specifies three levels of implemen-
graphic characters as defined in ISO/IEC 10646. The
tation. Combining characters are described in 24 and
collections from which the selection may be made
listed in annex B.
are listed in an annex of each part of ISO/IEC 10646
14.1 Implementation level 1
(see annex A). A selected subset shall always
automatically include the Cells 20 to 7E of Row 00 of
When implementation level 1 is used, a CC-data-
Plane 00 of Group 00.
element shall not contain coded representations of
combining characters (see clause B.1) nor of char-
A claim of conformance referring to a selected sub-
acters from HANGUL JAMO block (see clause 25).
set shall list the collections chosen as defined in
When implementation level 1 is used the unique-
ISO/IEC 10646.
spelling rule shall apply (25.2).
14.2 Implementation level 2
13 Coded representation forms of the
When implementation level 2 is used, a CC-data-
UCS
element shall not contain coded representations of
ISO/IEC 10646 provides four alternative forms of
characters listed in clause B.2. When implementa-
coded representation of characters. Two of these
tion level 2 is used the unique-spelling rule shall
forms are specified in this clause, and two others,
apply (25.2).
ISO/IEC 10646-1 : 2000(E) © ISO/IEC
14.3 Implementation level 3
16 Declaration of identification of
When implementation level 3 is used, a CC-data- features
element may contain coded representations of any
16.1 Purpose and context of identification
characters.
CC-data-elements conforming to ISO/IEC 10646 are
intended to form all or part of a composite unit of
15 Use of control functions with the coded information that is interchanged between an
originator and a recipient. The identification of
UCS
ISO/IEC 10646 (including the form), the implemen-
This coded character set provides for use of control
tation level, and any subset of the coding space that
functions encoded according to ISO/IEC 6429 or
have been adopted by the originator must also be
similarly structured standards for control functions,
available to the recipient. The route by which such
and standards derived from these. A set or subset of
identification is communicated to the recipient is out-
such coded control functions may be used in con-
side the scope of ISO/IEC 10646.
junction with this coded character set. These stand-
ards encode a control function as a sequence of one However, some standards for interchange of coded
or more octets. information may permit, or require, that the coded
representation of the identification applicable to the
When a control character of ISO/IEC 6429 is used
CC-data-element forms a part of the interchanged
with this coded character set, its coded repre-
information. This clause specifies a coded represen-
sentation as specified in ISO/IEC 6429 shall be
tation for the identification of UCS with an imple-
padded to correspond with the number of octets in
mentation level and a subset of ISO/IEC 10646, and
the adopted form (see clause 13 and annexes C and
also of a C0 and a C1 set of control functions from
D). Thus, the least significant octet shall be the bit
ISO/IEC 6429 for use in conjunction with ISO/IEC
combination specified in ISO/IEC 6429, and the
10646. Such coded representations provide all or
more significant octet(s) shall be zeros.
part of an identification data element, which may be
included in information interchange in accordance
For example, the control character FORM FEED is
with the relevant standard.
represented by “000C” in the two-octet form, and
“0000 000C” in the four-octet form.
If two or more of the identifications are present, the
order of those identifications shall follow the order as
For escape sequences, control sequences, and con-
specified in this clause.
trol strings (see ISO/IEC 6429) consisting of a coded
control character followed by additional bit combin-
NOTE - An alternative method of identification is described in
ations in the range 20 to 7F, each bit combination
annex N.
shall be padded by octet(s) with value 00.
16.2 Identification of UCS coded representation
For example, the escape sequence “ESC 02/00
form with implementation level
04/00” is represented by “001B 0020 0040” in the
When the escape sequences from ISO/IEC 2022 are
two-octet form, and “0000 001B 0000 0020 0000
used, the identification of a coded representation
0040” in the four-octet form.
form of UCS (see clause 13) and an implementation
...
© ISO/IEC ISO/IEC 10646-1:2000(E)
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
掀
099/096 099/112 捰 099/128 掀
E-2B46 3-647C 0-3751 E-2B48 2-3568 2-354C 0-4F46 1-5A6C 0-5957 1-7527
6360 6370 6380
E-1138 3-6892 0-2349 E-1140 2-2172 2-2144 0-4738 1-5876 0-5755 1-8507
捱
099/097 099/113 捱 099/129 掁
0-3C71 0-5E5F 1-5A5E 1-3F7C 1-665B 0-3773 3-4968 2-3565 2-3552
6361 6371 6381
0-2881 0-6263 1-5862 1-3192 1-7059 0-2383 3-4172 2-2169 2-2150
099/098 099/114 捲捲 099/130 掂掂
0-3B3B 1-7847 1-5A56 0-377E 0-4F6C 1-5730 0-3560 2-354D 1-4025 2-3553 1-5733
6362 6372 6382
0-2727 1-8839 1-5854 0-2394 0-4776 1-5516 0-2164 2-2145 1-3205 2-2151 1-5519
掃
099/099 099/115 099/131 掃
0-3537 3-4A53 3-3626 1-4928 1-5A61 0-415D 0-6137 1-5734
6363 6373 6383
0-2123 3-4251 3-2206 1-4108 1-5865 0-3361 0-6523 1-5520
捴 掄
099/100 099/116 捴 099/132 掄
E-2B47 3-647D 0-3762 E-2B49 3-3632 1-3F7D 2-354D 1-4255 1-5A65 1-4026 1-5F4D
6364 6374 6384
E-1139 3-6893 0-2366 E-1141 3-2218 1-3193 2-2145 1-3453 1-5869 1-3206 1-6345
捥 捵
099/101 捥 099/117 捵 099/133 掅
5-4C59 2-354B 1-3F78 2-3547 0-377A 5-4C4F 2-355B 1-3F7E 2-354E 3-4A49 2-3564 2-3554
6365 6375 6385
5-4457 2-2143 1-3188 2-2139 0-2390 5-4447 2-2159 1-3194 2-2146 3-4241 2-2168 2-2152
捦 捶
099/102 捦 099/118 捶 099/134 掆
5-4C51 3-3631 1-3F79 2-3548 0-3437 1-5F4D 0-5959 1-7040 E-2B4D 3-3623 2-3555
6366 6376 6386
5-4449 3-2217 1-3189 2-2140 0-2023 1-6345 0-5757 1-8032 E-1145 3-2203 2-2153
099/103 捧捧 099/119 捷捷 099/135 掇掇
0-4575 1-5A5B 0-4A7B 0-5C69 1-572D 0-3D5D 1-5A5A 0-3E39 0-745F 1-5731 0-365E 2-3557 1-4027 1-6F46 1-5735
6367 6377 6387
0-3785 1-5859 0-4291 0-6073 1-5513 0-2961 1-5858 0-3025 0-8463 1-5517 0-2262 2-2155 1-3207 1-7938 1-5521
捨 捸 授
099/104 捨 099/120 捸 099/136 授
1-4961 1-5A6F 0-3C4E 0-5E57 1-572E E-2B4A 2-3563 1-4021 2-354F 0-4A5A 1-5A66 0-3C78 0-6223 1-5736
6368 6378 6388
1-4165 1-5879 0-2846 0-6255 1-5514 E-1142 2-2167 1-3201 2-2147 0-4258 1-5870 0-2888 0-6603 1-5522
捩 掉
099/105 捩 099/121 099/137 掉
0-5E66 1-5A6E 0-5960 1-5E54 E-2B4B 3-3622 0-3574 1-5A60 0-595C 0-537C 1-5737
6369 6379 6389
0-6270 1-5878 0-5764 1-6252 E-1143 3-2202 0-2184 1-5864 0-5760 0-5192 1-5523
捺 掊
099/106 099/122 捺 099/138 掊
5-4C53 3-3627 0-5E60 1-5A70 0-4668 0-5174 1-5732 0-5E65 2-354C 1-4028 1-6237
636A 637A 638A
5-4451 3-2207 0-6264 1-5880 0-3872 0-4984 1-5518 0-6269 2-2144 1-3208 1-6623
捫 捻
099/107 捫 099/123 捻 099/139
1-5E51 1-5A63 0-595F 1-6072 0-446D 1-5A6D 0-4731 0-523A 0-3772 5-4C56 3-357D
636B 637B 638B
1-6249 1-5867 0-5763 1-6482 0-3677 1-5877 0-3917 0-5026 0-2382 5-4454 3-2193
099/108 捬捬 099/124 捼捼 099/140 掌掌
5-4C55 3-3629 1-3F7A 2-3549 E-2B4C 2-355F 1-4022 2-3550 0-5546 1-5F3F 0-3E38 0-6D66
636C 637C 638C
5-4453 3-2209 1-3190 2-2141 E-1144 2-2163 1-3202 2-2148 0-5338 1-6331 0-3024 0-7770
捭 捽
099/109 捭 099/125 捽 099/141 掍
0-5E63 2-355D 1-3F7B 2-354A 3-4A58 2-354E 1-4023 2-3551 0-3771 3-4A52 2-3567 2-3556
636D 637D 638D
0-6267 2-2161 1-3191 2-2142 3-4256 2-2146 1-3203 2-2149 0-2381 3-4250 2-2171 2-2154
据 掎
099/110 据 099/126 099/142 掎
0-3E5D 2-3559 0-3F78 0-4B5F 1-572F 3-4A5B 3-357C 0-5E61 2-3555 0-5956 1-5B6C
636E 637E 638E
0-3061 2-2157 0-3188 0-4363 1-5515 3-4259 3-2192 0-6265 2-2153 0-5754 1-5976
捿 掏
099/111 捯 099/127 捿 099/143 掏
3-4A4F 2-3556 2-354B 5-4C4B 3-362B 1-4024 0-5F72 0-4C4D 1-5A6B 0-595B 1-5D3C 1-5738
636F 637F 638F
3-4247 2-2154 2-2143 5-4443 3-2211 1-3204 0-6382 0-4445 1-5875 0-5759 1-6128 1-5524
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
掐 掠
099/144 掐 099/160 掠 099/176 掰
0-467E 2-3558 1-4029 2-3557 0-4253 1-5A54 0-4E2B 0-5553 1-573D 0-6A7E 2-3B77 2-3567
6390 63A0 63B0
0-3894 2-2156 1-3209 2-2155 0-3451 1-5852 0-4611 0-5351 1-5529 0-7494 2-2787 2-2171
採
099/145 掑 099/161 採 099/177 掱
E-2B4E 2-3566 2-3558 0-376A E-2B50 1-5A68 0-3A4E 0-7375 1-573E 3-494D 2-3B76 2-3568
6391 63A1 63B1
E-1146 2-2170 2-2156 0-2374 E-1148 1-5872 0-2646 0-8385 1-5530 3-4145 2-2786 2-2172
099/146 排排 099/162 探探 099/178 掲
0-4545 1-5A6A 0-4753 0-5B49 1-5739 0-4C3D 1-5A58 0-4335 0-772E 1-573F E-2B51 3-362D 0-3747
6392 63A2 63B2
0-3737 1-5874 0-3951 0-5941 1-5525 0-4429 1-5856 0-3521 0-8714 1-5531 E-1149 3-2213 0-2339
掣
099/147 099/163 掣 099/179
5-4C4C 3-3624 0-3338 1-5F3E 0-595A 2-3560 1-5740 0-4230
6393 63A3 63B3
5-4444 3-2204 0-1924 1-6330 0-5758 2-2164 1-5532 0-3416
掔 掤 掴
099/148 掔 099/164 掤 099/180
3-4949 2-3B75 1-402A 2-3559 3-4A55 2-3560 1-402F 2-3561 0-5E62 0-444F
6394 63A4 63B4
3-4141 2-2785 1-3210 2-2157 3-4253 2-2164 1-3215 2-2165 0-6266 0-3647
掕 接 掵
099/149 掕 099/165 接 099/181
3-4A4A 4-3177 1-402B 2-355A 0-3D53 1-5A59 0-405C 0-6F48 1-5741 E-2B52 0-595E
6395 63A5 63B5
3-4242 4-1787 1-3211 2-2158 0-2951 1-5857 0-3260 0-7940 1-5533 E-1150 0-5762
掖 掦
099/150 掖 099/166 掦 099/182
0-5234 1-5A57 0-5955 0-647A 5-4C4E 4-3223 1-4030 2-3562 E-2B53 3-647E
6396 63A6 63B6
0-5020 1-5855 0-5753 0-6890 5-4446 4-1803 1-3216 2-2166 E-1151 3-6894
099/151 掗 099/167 控控 099/183
3-4A25 2-3553 2-355B 0-3F58 1-5A55 0-3935 0-4D73 1-5742 0-5640
6397 63A7 63B7
3-4205 2-2151 2-2159 0-3156 1-5853 0-2521 0-4583 1-5534 0-5432
掘 推
099/152 掘 099/168 推 099/184
0-3E72 1-5A5C 0-3721 0-4F5E 1-573A 0-4D46 1-5A64 0-3F64 0-754F 1-5743 0-3527
6398 63A8 63B8
0-3082 1-5860 0-2301 0-4762 1-5526 0-4538 1-5868 0-3168 0-8547 1-5535 0-2107
掙 掩
099/153 掙 099/169 掩 099/185
1-5575 1-5A67 1-402C 2-355C 1-573B 0-515A 1-5A5F 0-3166 0-6573 0-376D 1-7C3C
6399 63A9 63B9
1-5385 1-5871 1-3212 2-2160 1-5527 0-4958 1-5863 0-1770 0-6983 0-2377 1-9228
掚 措
099/154 掚 099/170 措 099/186
5-4C34 4-3178 1-402D 2-355D 0-346B 1-5A5D 0-413C 0-7042 1-5744 0-3274 3-362E
639A 63AA 63BA
5-4420 4-1788 1-3213 2-2161 0-2075 1-5861 0-3328 0-8034 1-5536 0-1884 3-2214
掛 掫 掻
099/155 掛 099/171 掫 099/187 掻
E-2B4F 1-5A62 0-335D 0-4E50 1-573C 3-4A4B 2-3554 0-5958 2-3563 E-2B54 0-415F 2-3569
639B 63AB 63BB
E-1147 1-5866 0-1961 0-4648 1-5528 3-4243 2-2152 0-5756 2-2167 E-1152 0-3363 2-2173
099/156 掜 099/172 掬掬 099/188
3-4A54 2-355C 1-6771 0-5E64 1-5A69 0-3545 1-5A75 1-5745 0-5E68
639C 63AC 63BC
3-4252 2-2160 1-7181 0-6268 1-5873 0-2137 1-5885 1-5537 0-6272
掭 掽
099/157 掝 099/173 掭 099/189 掽
3-4A4D 2-3552 2-355E 0-5E5D 2-3551 1-4031 2-3564 E-2B55 2-354F 1-4034 2-356A
639D 63AD 63BD
3-4245 2-2150 2-2162 0-6261 2-2149 1-3217 2-2168 E-1153 2-2147 1-3220 2-2174
掞 掮 掾
099/158 掞 099/174 掮 099/190 掾
3-4A59 2-3550 1-402E 2-355F 0-5E67 2-355E 1-4032 2-3565 1-5746 0-5E72 2-3C29 0-5961 1-6747
639E 63AE 63BE
3-4257 2-2148 1-3214 2-2163 0-6271 2-2162 1-3218 2-2169 1-5538 0-6282 2-2809 0-5765 1-7139
掟 掯
099/159 掟 099/175 掯 099/191 掿
3-4A5A 2-3562 0-595D 1-6C57 3-4A50 2-355A 1-4033 2-3566 5-4C46 3-3B71 2-356B 0-3827
639F 63AF 63BF
3-4258 2-2166 0-5761 1-7655 3-4248 2-2158 1-3219 2-2170 5-4438 3-2781 2-2175 0-2407
© ISO/IEC ISO/IEC 10646-1:2000(E)
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
揀 提 揠
099/192 揀 099/208 提 099/224 揠
1-3C70 1-5F41 0-5963 0-4A51 1-5747 0-4C61 1-5F48 0-4473 0-702B 1-574B 0-5E6B 2-3C22 1-403E 1-663E
63C0 63D0 63E0
1-2880 1-6333 0-5767 0-4249 1-5539 0-4465 1-6340 0-3683 0-8011 1-5543 0-6275 2-2802 1-3230 1-7030
揁 揑 握
099/193 揁 099/209 揑 099/225 握
5-4B7C 3-3B70 1-4035 2-356C 0-3829 E-2B56 3-3B73 1-4039 2-3576 0-4E55 1-5F49 0-302E 0-6444
63C1 63D1 63E1
5-4392 3-2780 1-3221 2-2176 0-2409 E-1154 3-2783 1-3225 2-2186 0-4653 1-6341 0-1614 0-6836
099/194 揂 099/210 插插 099/226 揢
5-4C71 2-3C2F 2-356D 1-5748 0-3265 1-5F46 0-5967 2-3577 1-574C 3-4A74 3-3B66 2-3623
63C2 63D2 63E2
5-4481 2-2815 2-2177 1-5540 0-1869 1-6338 0-5771 2-2187 1-5544 3-4284 3-2770 2-2203
揃 揓 揣
099/195 揃 099/211 揓 099/227 揣
3-4A72 2-3B7C 0-4237 1-6B7A 5-4C6E 2-3C2E 1-403A 2-3578 0-3427 1-5F47 0-5965 1-7061
63C3 63D3 63E3
3-4282 2-2792 0-3423 1-7590 5-4478 2-2814 1-3226 2-2188 0-2007 1-6339 0-5769 1-8065
揄 揔
099/196 揄 099/212 揔 099/228 揤
0-5E6D 2-3C2C 0-5969 0-6A71 5-4C69 4-3771 1-403B 2-3579 3-4A46 2-2F3B 2-3624
63C4 63D4 63E4
0-6277 2-2812 0-5773 0-7481 5-4473 4-2381 1-3227 2-2189 3-4238 2-1527 2-2204
揅 揕 揥
099/197 揅 099/213 揕 099/229 揥
5-4B4B 2-427D 1-4036 2-356E 3-4A60 2-3C24 1-403C 2-357A 0-377D 3-4A71 2-3B79 1-403F 2-3625
63C5 63D5 63E5
5-4343 2-3493 1-3222 2-2178 3-4264 2-2804 1-3228 2-2190 0-2393 3-4281 2-2789 1-3231 2-2205
揆 揖
099/198 揆 099/214 揖 099/230 揦
0-5E71 1-5F44 0-5964 0-5026 1-5749 0-523E 1-5F4A 0-4D2C 0-6B67 1-574D 3-4A64 3-3B68 2-3626
63C6 63D6 63E6
0-6281 1-6336 0-5768 0-4806 1-5541 0-5030 1-6342 0-4512 0-7571 1-5545 3-4268 3-2772 2-2206
099/199 揇 099/215 揗 099/231 揧
5-4C5C 2-3C30 2-356F E-2B57 2-3C35 2-357B 5-4B4A 2-433D 2-3627
63C7 63D7 63E7
5-4460 2-2816 2-2179 E-1155 2-2821 2-2191 5-4342 2-3529 2-2207
揈
099/200 揈 099/216 揘 099/232 揨
5-4C6A 2-3C33 1-4037 2-3570 3-4A6D 2-3C2D 2-357C 5-4C6D 2-3B7A 2-3628
63C8 63D8 63E8
5-4474 2-2819 1-3223 2-2180 3-4277 2-2813 2-2192 5-4477 2-2790 2-2208
揉 揩
099/201 揉 099/217 揙 099/233 揩
0-4860 1-5F43 0-5966 1-696C 3-4A75 2-3C36 2-357D 0-3F2B 1-5F42 0-5962 1-576A
63C9 63D9 63E9
0-4064 1-6335 0-5770 1-7376 3-4285 2-2822 2-2193 0-3111 1-6334 0-5766 1-5574
揚 揪
099/202 揊 099/218 揚 099/234 揪
5-4C5D 2-3C21 2-3571 1-516F 1-5F52 0-4D48 0-6540 1-574E 0-3E3E 1-5F4F 1-4040 2-3629
63CA 63DA 63EA
5-4461 2-2801 2-2181 1-4979 1-6350 0-4540 0-6932 1-5546 0-3030 1-6347 1-3232 2-2209
換
099/203 揋 099/219 換 099/235 揫
5-4C61 2-3C32 2-3572 1-3B3B 1-5F50 0-3439 0-7C35 E-2B58 2-4321 1-7041
63CB 63DB 63EB
5-4465 2-2818 2-2182 1-2727 1-6348 0-2025 0-9221 E-1156 2-3501 1-8033
099/204 揌 099/220 揜揜 099/236 揬揬
5-4C62 2-3C31 2-3573 3-4A6F 2-3C2B 1-403D 2-357E 5-4C74 4-3760 1-4041 2-362A 0-377E
63CC 63DC 63EC
5-4466 2-2817 2-2183 3-4279 2-2811 1-3229 2-2194 5-4484 4-2364 1-3233 2-2210 0-2394
099/205 揍 099/221 揝 099/237 揭
0-5761 1-5F45 2-3574 5-4C6B 2-3C2A 2-3621 0-3D52 1-5F4B 0-4C29 1-574F
63CD 63DD 63ED
0-5565 1-6337 2-2184 5-4475 2-2810 2-2201 0-2950 1-6343 0-4409 1-5547
揎 揮
099/206 揎 099/222 揞 099/238 揮
0-5E6F 2-3B78 1-4038 2-3575 0-5E6E 3-3B67 2-3622 0-377B 1-3B53 1-5F4C 0-3478 0-7D46 1-5750
63CE 63DE 63EE
0-6279 2-2788 1-3224 2-2185 0-6278 3-2771 2-2202 0-2391 1-2751 1-6344 0-2088 0-9338 1-5548
描
099/207 描 099/223 揟 099/239 揯
0-4368 1-5F40 0-4941 0-595A 1-574A 3-4A78 2-3C28 1-6429 E-2B59 2-3B7B 2-362B
63CF 63DF 63EF
0-3572 1-6332 0-4133 0-5758 1-5542 3-4288 2-2808 1-6809 E-1157 2-2791 2-2211
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
搐
099/240 揰 100/000 100/016 搐
5-4C63 2-3C34 2-362C 0-3273 0-3424 2-4322 1-4049 2-3637
63F0 6400 6410
5-4467 2-2820 2-2212 0-1883 0-2004 2-3502 1-3241 2-2223
099/241 揱 100/001 100/017 搑
3-494E 2-427E 2-362D 0-3869 3-4A61 3-413A 2-3638
63F1 6401 6411
3-4146 2-3494 2-2213 0-2473 3-4265 3-3326 2-2224
099/242 揲揲 100/002 100/018 搒搒
0-5E69 2-3C25 1-4042 1-644A 0-4227 3-4B22 2-4323 1-404A 1-6148
63F2 6402 6412
0-6273 2-2805 1-3234 1-6842 0-3407 3-4302 2-3503 1-3242 1-6540
揳 搓
099/243 揳 100/003 100/019 搓
3-4A5F 2-3B7E 1-4043 2-362E 1-5751 E-2B5D 3-6521 0-346A 1-642A 0-596D 2-3639 0-383C
63F3 6403 6413
3-4263 2-2794 1-3235 2-2214 1-5549 E-1161 3-6901 0-2074 1-6810 0-5777 2-2225 0-2428
援 搔
099/244 援 100/004 100/020 搔
0-542E 1-5F4E 0-3167 0-6A35 1-5752 3-4A73 0-4926 1-6433 1-404B 0-6138 1-5755
63F4 6404 6414
0-5214 1-6346 0-1771 0-7421 1-5550 3-4283 0-4106 1-6819 1-3243 0-6524 1-5553
揵
099/245 揵 100/005 100/021 搕
3-4A5C 2-3C26 1-4044 1-5822 0-3D41 5-4C7D 2-432A 2-363A
63F5 6405 6415
3-4260 2-2806 1-3236 1-5602 0-2933 5-4493 2-3510 2-2226
揶 搆 搖
099/246 揶 100/006 搆 100/022 搖
0-5E5E 2-3C23 0-5968 0-652A E-2B5E 1-6438 0-596C 1-5A56 0-382F E-2B61 1-6436 0-596A 0-6874 1-5756
63F6 6406 6416
0-6262 2-2803 0-5772 0-6910 E-1162 1-6824 0-5776 1-5854 0-2415 E-1165 1-6822 0-5774 0-7284 1-5554
099/247 揷 100/007 100/023 搗搗
E-2B5A 3-3B72 0-5F3A E-2B5F 3-4149 1-3537 1-6437 0-5971 0-537D 1-5757
63F7 6407 6417
E-1158 3-2782 0-6326 E-1163 3-3341 1-2123 1-6823 0-5781 0-5193 1-5555
揸 搘
099/248 揸 100/008 搈 100/024 搘
0-5E6A 3-3B6D 1-4045 2-362F 3-4B24 3-4132 2-3632 0-3831 5-4C7C 2-432B 1-404C 2-363B
63F8 6408 6418
0-6274 3-2777 1-3237 2-2215 3-4304 3-3318 2-2218 0-2417 5-4492 2-3511 1-3244 2-2227
揹 搉
099/249 揹 100/009 搉 100/025 搙
E-2B5B 1-5F53 1-4046 2-3630 E-2B60 2-4324 1-4047 1-5733 3-4A7A 3-4138 2-363C
63F9 6409 6419
E-1159 1-6351 1-3238 2-2216 E-1164 2-3504 1-3239 1-5519 3-4290 3-3324 2-2228
揺 搊
099/250 揺 100/010 搊 100/026 搚
E-2B5C 4-376F 0-4D49 2-3631 3-497E 2-4337 1-4048 2-3633 0-383D 5-4D34 2-4338 2-363D
63FA 640A 641A
E-1160 4-2379 0-4541 2-2217 3-4194 2-3523 1-3240 2-2219 0-2429 5-4520 2-3524 2-2229
099/251 100/011 搋 100/027 搛
3-4A66 0-5E75 2-433C 2-3634 0-5E76 2-433E 2-363E 0-3834
63FB 640B 641B
3-4270 0-6285 2-3528 2-2220 0-6286 2-3530 2-2230 0-2420
099/252 100/012 搌 100/028 搜搜
1-7C3D 0-5E78 2-4330 2-3635 0-4B51 1-6432 0-5953 0-6224 1-5758
63FC 640C 641C
1-9229 0-6288 2-3516 2-2221 0-4349 1-6818 0-5751 0-6604 1-5556
損
099/253 100/013 損 100/029
0-403F 1-4B70 1-6434 0-423B 0-615F 1-5753 5-4D27 3-413E 0-382D
63FD 640D 641D
0-3231 1-4380 1-6820 0-3427 0-6563 1-5551 5-4507 3-3330 0-2413
搞
099/254 100/014 搎 100/030 搞
3-4A69 3-3B6F 0-382B 3-4A37 2-4341 2-3636 0-3832 0-3863 1-642C 1-404D 2-363F 0-382E
63FE 640E 641E
3-4273 3-2779 0-2411 3-4223 2-3533 2-2222 0-2418 0-2467 1-6812 1-3245 2-2231 0-2414
搏
099/255 100/015 搏 100/031 搟
0-5E6C 0-322B 1-6431 0-5973 0-5A51 1-5754 5-4C35 2-4329 2-3640
63FF 640F 641F
0-6276 0-1811 1-6817 0-5783 0-5849 1-5552 5-4421 2-3509 2-2232
© ISO/IEC ISO/IEC 10646-1:2000(E)
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
搠 搰
100/032 搠 100/048 搰 100/064
0-5E77 2-4325 1-404E 2-3641 3-4A6B 2-4332 1-4055 1-593C E-2B69 2-4339
6420 6430 6440
0-6287 2-3505 1-3246 2-2233 3-4275 2-3518 1-3253 1-5728 E-1173 2-3525
100/033 搡 100/049 搱 100/065 摁
0-5E7A 2-4340 2-3642 3-4B26 3-4136 2-3648 0-5E74 2-4334 2-3652
6421 6431 6441
0-6290 2-3532 2-2234 3-4306 3-3322 2-2240 0-6284 2-3520 2-2250
100/034 搢搢 100/050 搲 100/066 摂
3-4A79 2-432E 1-404F 0-724A 3-4B23 3-4133 2-3649 E-2B6A 0-405D
6422 6432 6442
3-4289 2-3514 1-3247 0-8242 3-4303 3-3319 2-2241 E-1174 0-3261
100/035 搣 100/051 搳 100/067
3-4A7B 2-432F 2-3643 5-4D31 2-4327 2-364A E-2B6B 2-4328
6423 6433 6443
3-4291 2-3515 2-2235 5-4517 2-3507 2-2242 E-1175 2-3508
搤 搴
100/036 搤 100/052 搴 100/068
E-2B62 2-4326 1-4050 1-666A 0-653A 1-687A 0-596B 2-364B 0-4963
6424 6434 6444
E-1166 2-3506 1-3248 1-7074 0-6926 1-7290 0-5775 2-2243 0-4167
搥 搵
100/037 搥 100/053 搵 100/069
E-2B63 2-433A 1-4051 1-7042 E-2B67 2-4335 1-4056 2-364C 0-5E73
6425 6435 6445
E-1167 2-3526 1-3249 1-8034 E-1171 2-3521 1-3254 2-2244 0-6283
搦 搶
100/038 搦 100/054 搶 100/070
0-5E79 2-4331 0-596E 2-3644 1-4740 1-6435 0-596F 1-6E6C 0-305A 3-4144
6426 6436 6446
0-6289 2-3517 0-5778 2-2236 1-3932 1-6821 0-5779 1-7876 0-1658 3-3336
100/039 搧 100/055 搷 100/071
5-4D32 2-433B 2-3645 5-4D21 2-432D 2-364D 0-5221 3-4145
6427 6437 6447
5-4518 2-3527 2-2237 5-4501 2-3513 2-2245 0-5001 3-3337
搨
100/040 搨 100/056 搸 100/072
E-2B64 2-4333 0-5972 1-714D 5-4C78 3-4134 2-364E 0-3177
6428 6438 6448
E-1168 2-3519 0-5782 1-8145 5-4488 3-3320 2-2246 0-1787
搩
100/041 搩 100/057 搹 100/073
E-2B65 3-413D 1-4052 2-3646 5-4D23 2-432C 2-364F E-2B6C 3-6676
6429 6439 6449
E-1169 3-3329 1-3250 2-2238 5-4503 2-3512 2-2247 E-1176 3-7086
搪 携
100/042 搪 100/058 携 100/074
0-4C42 1-642D 1-4053 1-5D23 0-502F 3-4148 0-3748 0-7D4D 0-4C2F
642A 643A 644A
0-4434 1-6813 1-3251 1-6103 0-4815 3-3340 0-2340 0-9345 0-4415
摋
100/043 搫 100/059 100/075 摋
3-4950 2-4A40 1-6139 5-4B4C 3-4725 3-4A2F 2-4A50 1-4059 2-3653
642B 643B 644B
3-4148 2-4232 1-6525 5-4344 3-3905 3-4215 2-4248 1-3257 2-2251
100/044 搬搬 100/060 100/076 摌
0-3061 1-6430 0-4842 0-5A66 1-5759 5-4D30 3-4142 3-4A32 3-4678 2-3654
642C 643C 644C
0-1665 1-6816 0-4034 0-5870 1-5557 5-4516 3-3334 3-4218 3-3888 2-2252
搭 搽
100/045 搭 100/061 搽 100/077 摍
0-346E 1-642E 0-456B 0-7733 1-575A 0-326B 1-642F 1-4057 2-3650 5-4D45 2-4A41 2-3655
642D 643D 644D
0-2078 1-6814 0-3775 0-8719 1-5558 0-1875 1-6815 1-3255 2-2248 5-4537 2-4233 2-2253
搾 摎
100/046 搮 100/062 搾 100/078 摎
E-2B66 2-433F 2-3647 0-3836 E-2B68 1-642B 0-3A71 0-7336 3-4B38 2-4A4C 0-5977 2-3656
642E 643E 644E
E-1170 2-3531 2-2239 0-2422 E-1172 1-6811 0-2681 0-8322 3-4324 2-4244 0-5787 2-2254
搯 搿 摏
100/047 搯 100/063 搿 100/079 摏
5-4D29 2-4336 1-4054 1-5D3D 0-6B21 2-4A55 1-4058 2-3651 5-4D37 3-4728 1-405A 2-3657
642F 643F 644F
5-4509 2-3522 1-3252 1-6129 0-7501 2-4253 1-3256 2-2249 5-4523 3-3908 1-3258 2-2255
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
摠
100/080 摐 100/096 摠 100/112 摰
3-4969 2-4A53 2-3658 5-4D3F 2-4A52 1-4064 0-7544 3-4951 2-5055 2-366C
6450 6460 6470
3-4173 2-4251 2-2256 5-4531 2-4250 1-3268 0-8536 3-4149 2-4853 2-2276
摑 摡
100/081 摑 100/097 摡 100/113
1-5E62 1-6878 1-405B 2-3659 3-4A76 2-3C27 1-4065 2-3665 3-4B32 3-4722 0-3850
6451 6461 6471
1-6266 1-7288 1-3259 2-2257 3-4286 2-2807 1-3269 2-2269 3-4318 3-3902 0-2448
100/082 摒摒 100/098 100/114 摲
0-5E70 1-5F51 1-405C 2-365A 3-4B30 3-4721 3-4A4E 2-4A46 2-366D
6452 6462 6472
0-6280 1-6349 1-3260 2-2258 3-4316 3-3901 3-4246 2-4238 2-2277
摓 摣 摳
100/083 摓 100/099 摣 100/115 摳
5-4D2B 2-4A51 1-405D 2-365B 0-383F 3-4B2F 4-435E 1-4066 2-3666 1-3F59 2-4A47 1-4068 1-5A57 0-384C
6453 6463 6473
5-4511 2-4249 1-3261 2-2259 0-2431 3-4315 4-3562 1-3270 2-2270 1-3157 2-4239 1-3272 1-5855 0-2444
摔 摴
100/084 摔 100/100 100/116 摴
0-4B24 1-6873 1-405E 2-365C 5-4D3B 3-472A 5-4D3C 2-4A44 1-4069 2-366E
6454 6464 6474
0-4304 1-7283 1-3262 2-2260 5-4527 3-3910 5-4528 2-4236 1-3273 2-2278
100/085 100/101 摥 100/117 摵
3-4A62 3-467E E-2B6E 2-4A59 2-3667 3-4B2D 2-4A49 2-366F
6455 6465 6475
3-4266 3-3894 E-1178 2-4257 2-2271 3-4313 2-4241 2-2279
摶
100/086 100/102 摦 100/118 摶
3-4B34 3-4724 3-4B2E 2-4A4A 2-3668 1-5E52 2-4A45 0-5976 2-3670
6456 6466 6476
3-4320 3-3904 3-4314 2-4242 2-2272 1-6250 2-4237 0-5786 2-2280
100/087 摗 100/103 摧摧 100/119 摷
3-4B2A 3-467A 2-365D 0-345D 1-6879 0-5974 1-7034 5-4D48 2-4A5A 2-3671
6457 6467 6477
3-4310 3-3890 2-2261 0-2061 1-7289 0-5784 1-8020 5-4540 2-4258 2-2281
摘 摸
100/088 摘 100/104 100/120 摸
0-552A 1-6872 0-4526 0-6E57 1-575B 5-4D57 2-5061 0-437E 1-6875 0-4C4E 0-5938 1-575C
6458 6468 6478
0-5310 1-7282 0-3706 0-7855 1-5559 5-4555 2-4865 0-3594 1-7285 0-4446 0-5724 1-5560
摩
100/089 摙 100/105 摩 100/121 摹
3-4A3A 2-4A58 2-365E 0-384E 0-4426 1-6C77 0-4B60 0-5824 0-4421 1-6C79 0-5939 1-575D
6459 6469 6479
3-4226 2-4256 2-2262 0-2446 0-3606 1-7687 0-4364 0-5604 0-3601 1-7689 0-5725 1-5561
摚 摺
100/090 摚 100/106 100/122 摺
3-4B31 4-435D 1-405F 2-365F 5-4C6C 3-4723 0-3852 0-5F21 1-6877 0-4022 0-6F49 0-3844
645A 646A 647A
3-4317 4-3561 1-3263 2-2263 5-4476 3-3903 0-2450 0-6301 1-7287 0-3202 0-7941 0-2436
摛 摻
100/091 摛 100/107 摫 100/123 摻
E-2B6D 2-4A42 1-4060 2-3660 5-4C43 2-4A57 2-3669 1-3274 1-687C 1-406A 1-6452
645B 646B 647B
E-1177 2-4234 1-3264 2-2264 5-4435 2-4255 2-2273 1-1884 1-7292 1-3274 1-6850
100/092 摜摜 100/108 摬 100/124 摼
1-5E68 2-4A4F 1-4061 2-3661 3-4B36 2-4A56 2-366A 3-4A3C 3-467B 2-3672 0-384A
645C 646C 647C
1-6272 2-4247 1-3265 2-2265 3-4322 2-4254 2-2274 3-4228 3-3891 2-2282 0-2442
摝 摭 摽
100/093 摝 100/109 摭 100/125 摽
3-4B35 2-4A43 1-4062 2-3662 0-5E7D 1-687B 1-4067 1-6F2C 3-4B2C 2-4A48 1-406B 1-7248
645D 646D 647D
3-4321 2-4235 1-3266 2-2266 0-6293 1-7291 1-3271 1-7912 3-4312 2-4240 1-3275 1-8240
100/094 摞 100/110 摮 100/126
0-5E7B 2-4A4E 2-3663 3-494F 2-5054 2-366B 5-4D59 3-4729
645E 646E 647E
0-6291 2-4246 2-2267 3-4147 2-4852 2-2275 5-4557 3-3909
摟 摯
100/095 摟 100/111 摯 100/127 摿
1-4227 1-6876 1-4063 2-3664 0-384F 1-563F 1-6C78 0-5975 0-7227 E-2B6F 2-4A54 2-3673
645F 646F 647F
1-3407 1-7286 1-3267 2-2268 0-2447 1-5431 1-7688 0-5785 0-8207 E-1179 2-4252 2-2283
© ISO/IEC ISO/IEC 10646-1:2000(E)
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
撐
100/128 100/144 撐 100/160 撠
E-2B70 3-4C2D E-2B73 1-6C7D 1-406F 1-7159 3-4B3C 2-5057 2-3724
6480 6490 64A0
E-1180 3-4413 E-1183 1-7693 1-3279 1-8157 3-4328 2-4855 2-2304
撑 撡
100/129 100/145 撑 100/161 撡
E-2B71 3-4726 0-3345 3-4C3B 1-4070 0-774B 1-575E 5-4D5B 3-4C3E 1-4076 2-3725
6481 6491 64A1
E-1181 3-3906 0-1937 3-4427 1-3280 0-8743 1-5562 5-4559 3-4430 1-3286 2-2305
100/130 撂 100/146 撒撒 100/162 撢
0-414C 2-4A4D 2-3674 0-4876 1-6D25 0-3B35 0-5F2E 1-575F 5-4D4E 1-6D2C 2-3726 1-5762
6482 6492 64A2
0-3344 2-4245 2-2284 0-4086 1-7705 0-2721 0-6314 1-5563 5-4546 1-7712 2-2306 1-5566
撃 撓 撣
100/131 100/147 撓 100/163 撣
E-2B72 3-4C35 0-3762 1-4453 1-6D22 0-597A 0-6875 1-5760 1-3527 2-505F 1-4077 2-3727
6483 6493 64A3
E-1182 3-4421 0-2366 1-3651 1-7702 0-5790 0-7285 1-5564 1-2107 2-4863 1-3287 2-2307
撤
100/132 100/148 100/164 撤
0-5E7C 5-4D50 3-4C31 0-385B 0-3337 1-6874 0-4531 0-744C 1-5763
6484 6494 64A4
0-6292 5-4548 3-4417 0-2459 0-1923 1-7284 0-3717 0-8444 1-5567
撅 撕 撥
100/133 撅 100/149 撕 100/165 撥
0-3E6F 2-5058 1-406C 1-5B2D 0-385E 0-4B3A 1-6D23 0-5979 1-642A 1-3226 1-6D21 0-597B 0-5A7C
6485 6495 64A5
0-3079 2-4856 1-3276 1-5913 0-2462 0-4326 1-7703 0-5789 1-6810 1-1806 1-7701 0-5791 0-5892
撦
100/134 100/150 撖 100/166 撦
5-4B4D 3-4C38 0-5E7E 2-5056 2-367D E-2B76 2-4A4B 1-4078 2-3728
6486 6496 64A6
5-4345 3-4424 0-6294 2-4854 2-2293 E-1186 2-4243 1-3288 2-2308
100/135 撇撇 100/151 撗 100/167
0-4632 1-6871 1-406D 2-3675 5-4D39 2-5059 2-367E E-2B77 3-4C3F
6487 6497 64A7
0-3818 1-7281 1-3277 2-2285 5-4525 2-4857 2-2294 E-1187 3-4431
撈 撘 撨
100/136 撈 100/152 撘 100/168 撨
1-404C 1-6C7C 0-597D 0-564E 0-3859 E-2B74 2-5063 1-4071 2-3721 3-4B3F 3-4C34 1-4079 2-3729
6488 6498 64A8
1-3244 1-7692 0-5793 0-5446 0-2457 E-1184 2-4867 1-3281 2-2301 3-4331 3-4420 1-3289 2-2309
撙 撩
100/137 撉 100/153 撙 100/169 撩
5-4B4E 2-5735 2-3676 0-5F24 1-6D2B 1-4072 1-6D64 0-4143 1-6D24 0-597C 1-5F35 1-5764
6489 6499 64A9
5-4346 2-5521 2-2286 0-6304 1-7711 1-3282 1-7768 0-3335 1-7704 0-5792 1-6321 1-5568
撚
100/138 撊 100/154 撚 100/170
3-4A43 2-505D 2-3677 E-2B75 1-6D29 0-4732 0-5235 E-2B78 3-4C3D
648A 649A 64AA
3-4235 2-4861 2-2287 E-1185 1-7709 0-3918 0-5021 E-1188 3-4429
撛 撫
100/139 撋 100/155 撛 100/171 撫
5-4C3E 2-505C 2-3678 3-4B45 3-4C2E 1-4073 2-3722 1-3827 1-6D28 0-496F 0-5968 1-5765
648B 649B 64AB
5-4430 2-4860 2-2288 3-4337 3-4414 1-3283 2-2302 1-2407 1-7708 0-4179 0-5772 1-5569
100/140 撌 100/156 撜 100/172 撬撬
3-4A6A 2-505E 2-3679 0-385D 3-4B47 2-505A 2-3723 0-474B 1-6D2A 1-407A 2-372A
648C 649C 64AC
3-4274 2-4862 2-2289 0-2461 3-4339 2-4858 2-2303 0-3943 1-7710 1-3290 2-2310
撝 播
100/141 撍 100/157 撝 100/173 播
3-4B3D 3-4C30 2-367A 5-4B66 2-3B7D 1-4074 1-7479 0-3861 0-3225 1-6D27 0-4745 0-776B 1-5766
648D 649D 64AD
3-4329 3-4416 2-2290 5-4370 2-2793 1-3284 1-8489 0-2465 0-1805 1-7707 0-3937 0-8775 1-5570
撞 撮
100/142 撎 100/158 撞 100/174 撮
3-4B3A 3-4C2F 2-367B 0-385C 0-5732 1-6C7A 0-4635 0-5355 1-5761 0-3469 1-6D26 0-3B23 0-7549 1-5767
648E 649E 64AE
3-4326 3-4415 2-2291 0-2460 0-5518 1-7690 0-3821 0-5153 1-5565 0-2073 1-7706 0-2703 0-8541 1-5571
撏 撟
100/143 撏 100/159 撟 100/175
3-4A34 2-505B 1-406E 2-367C 1-5E58 2-5060 1-4075 1-5A37 0-3849 5-4D43 3-4C3A
648F 649F 64AF
3-4220 2-4859 1-3278 2-2292 1-6256 2-4864 1-3285 1-5823 0-2441 5-4535 3-4426
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
撰 擐
100/176 撰 100/192 100/208 擐
0-572B 1-6C7E 0-4071 0-733C 1-5768 0-5F26 3-5070 0-5F27 2-5731 1-4127 1-7439
64B0 64C0 64D0
0-5511 1-7694 0-3281 0-8328 1-5572 0-6306 3-4880 0-6307 2-5517 1-3307 1-8425
擁 擑
100/177 撱 100/193 擁 100/209 擑
E-2B79 2-5062 2-372B 1-5335 1-705F 0-4D4A 0-6836 3-4B3E 3-5076 1-4128 2-3734
64B1 64C1 64D1
E-1189 2-4866 2-2311 1-5121 1-8063 0-4542 0-7222 3-4330 3-4886 1-3308 2-2320
100/178 撲撲 100/194 擂擂 100/210 擒擒
1-464B 1-6C7B 0-4B50 0-5A52 0-3864 0-405E 1-7066 0-5A27 2-372F 0-475C 1-7069 0-5A22 0-5053
64B2 64C2 64D2
1-3843 1-7691 0-4348 0-5850 0-2468 0-3262 1-8070 0-5807 2-2315 0-3960 1-8073 0-5802 0-4851
撳
100/179 撳 100/195 擃 100/211 擓
1-5E6C 1-6D2D 1-407B 2-372C 5-4C2C 2-5736 2-3730 0-386E E-2B7E 3-506F 2-3735
64B3 64C3 64D3
1-6276 1-7713 1-3291 2-2312 5-4412 2-5522 2-2316 0-2478 E-1194 3-4879 2-2321
擄 擔
100/180 100/196 擄 100/212 擔
3-4B44 3-4C39 0-3858 1-4230 1-7064 1-4121 0-564F 1-3523 1-706A 0-593F 0-533D
64B4 64C4 64D4
3-4336 3-4425 0-2456 1-3416 1-8068 1-3301 0-5447 1-2103 1-8074 0-5731 0-5129
擅 擕
100/181 100/197 擅 100/213 擕
0-446C 0-4943 1-705E 0-5A23 0-743A 1-5769 E-2C21 3-5079 1-4129 1-747C
64B5 64C5 64D5
0-3676 0-4135 1-8062 0-5803 0-8426 1-5573 E-1201 3-4889 1-3309 1-8492
100/182 100/198 擆 100/214 擖
E-2B7A 3-6522 3-4B28 3-4C32 2-3731 3-4B3B 2-5730 2-3736
64B6 64C6 64D6
E-1190 3-6902 3-4308 3-4418 2-2317 3-4327 2-5516 2-2322
100/183 100/199 擇擇 100/215 擗擗
0-5F22 1-5471 1-7065 0-5A24 0-7749 1-576A 0-5F28 2-572F 1-412A 1-6161
64B7 64C7 64D7
0-6302 1-5281 1-8069 0-5804 0-8741 1-5574 0-6308 2-5515 1-3310 1-6565
擘
100/184 100/200 100/216 擘
0-5F23 E-2B7C 3-5077 0-6B22 1-7365 0-5A26 0-5B7B
64B8 64C8 64D8
0-6303 E-1192 3-4887 0-7502 1-8369 0-5806 0-5991
撹 擉
100/185 撹 100/201 擉 100/217 擙
E-2B7B 3-4C37 0-3349 2-372D 5-4D64 2-5733 1-4122 1-6E49 0-386F E-2C22 2-5739 2-3737
64B9 64C9 64D9
E-1191 3-4423 0-1941 2-2313 5-4568 2-5519 1-3302 1-7841 0-2479 E-1202 2-5525 2-2323
擊 據
100/186 100/202 擊 100/218 據
0-5F25 1-3B77 1-7364 1-4123 0-4C2A 1-3E5D 1-7063 0-5A21 0-4B60 1-576B
64BA 64CA 64DA
0-6305 1-2787 1-8368 1-3303 0-4410 1-3061 1-8067 0-5801 0-4364 1-5575
撻 擋
100/187 撻 100/203 擋 100/219 擛
1-4C22 1-7061 0-5A25 0-5335 1-3532 1-7060 1-4124 2-3732 E-2C23 2-5737 2-3738 0-386A
64BB 64CB 64DB
1-4402 1-8065 0-5805 0-5121 1-2118 1-8064 1-3304 2-2318 E-1203 2-5523 2-2324 0-2474
100/188 撼撼 100/204 擌 100/220
0-3A33 1-7062 0-597E 1-574C E-2B7D 5-545E 1-4125 E-2C24 3-5075
64BC 64CC 64DC
0-2619 1-8066 0-5794 1-5544 E-1193 5-5262 1-3305 E-1204 3-4885
撽 操
100/189 撽 100/205 操 100/221
3-4B4A 2-5734 1-407C 2-372E 0-3259 1-7067 0-4160 0-7043 1-7C3E
64BD 64CD 64DD
3-4342 2-5520 1-3292 2-2314 0-1857 1-8071 0-3364 0-8035 1-9230
撾 擎
100/190 撾 100/206 擎 100/222
1-4E4E 1-706B 1-407D 1-5950 0-4766 1-7363 1-4126 0-4C56 0-4B53
64BE 64CE 64DE
1-4646 1-8075 1-3293 1-5748 0-3970 1-8367 1-3306 0-4454 0-4351
撿
100/191 撿 100/207 擏 100/223 擟
1-3C71 1-7068 1-407E 1-582B 5-4D4C 2-5732 2-3733 E-2C25 3-5464 2-3739
64BF 64CF 64DF
1-2881 1-8072 1-3294 1-5611 5-4544 2-5518 2-2319 E-1205 3-5268 2-2325
© ISO/IEC ISO/IEC 10646-1:2000(E)
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
擠 擰 攀
100/224 擠 100/240 擰 101/000 攀
1-3C37 1-7366 0-5A2B 1-6C67 1-4521 1-7367 1-4130 2-373D 0-454A 1-7838 0-5A35 0-5A67
64E0 64F0 6500
1-2823 1-8370 0-5811 1-7671 1-3701 1-8371 1-3316 2-2329 0-3742 1-8824 0-5821 0-5871
擡 擱 攁
100/225 擡 100/241 擱 101/001 攁
5-4D68 3-5467 0-5A2C 0-5364 1-3869 1-736A 0-5A28 1-5734 0-3874 5-4D6E 2-6161 1-4135 2-3745
64E1 64F1 6501
5-4572 3-5271 0-5812 0-5168 1-2473 1-8374 0-5808 1-5520 0-2484 5-4578 2-6565 1-3321 2-2337
100/226 擢擢 100/242 擲擲 101/002 攂
0-5F2A 1-736B 0-4527 0-7677 1-5640 1-7645 0-5A33 0-742D 1-576E 5-4D73 4-5B36 1-5F28
64E2 64F2 6502
0-6310 1-8375 0-3707 0-8687 1-5432 1-8637 0-5819 0-8413 1-5578 5-4583 4-5922 1-6308
擣
100/227 擣 100/243 擳 101/003 攃
E-2C26 2-5C75 0-5A2E 1-5D3E 3-4974 2-5738 2-373E 3-4B4F 2-6162 2-3746
64E3 64F3 6503
E-1206 2-6085 0-5814 1-6130 3-4184 2-5524 2-2330 3-4347 2-6566 2-2338
擤 擴 攄
100/228 擤 100/244 擴 101/004 攄
0-5F29 2-5C77 1-412B 2-373A 1-4029 1-7644 0-5A32 0-7C2A 0-3924 1-5E73 2-615E 1-4136 0-774C 0-3922
64E4 64F4 6504
0-6309 2-6087 1-3311 2-2326 1-3209 1-8636 0-5818 0-9210 0-2504 1-6283 2-6562 1-3322 0-8744 0-2502
擥 擵 攅
100/229 擥 100/245 擵 101/005 攅
5-4B41 3-576B 1-412C 0-553A E-2C29 7-3F62 1-4131 2-373F 5-4D4B 3-576E 0-5A39 2-3747
64E5 64F5 6505
5-4333 3-5575 1-3312 0-5326 E-1209 7-3166 1-3317 2-2331 5-4543 3-5578 0-5825 2-2339
擦 擶
100/230 擦 100/246 101/006 攆
0-3241 1-7368 0-3B24 0-734D 1-576C E-2C2A 3-576A 0-5A31 1-446C 1-7647 2-3748
64E6 64F6 6506
0-1833 1-8372 0-2704 0-8345 1-5576 E-1210 3-5574 0-5817 1-3676 1-8639 2-2340
100/231 擧擧 100/247 擷擷 101/007 攇
E-2C27 3-576D 0-5A29 0-4B61 1-5F22 1-764A 1-4132 2-3740 3-4B59 2-654D 1-7343
64E7 64F7 6507
E-1207 3-5577 0-5809 0-4365 1-6302 1-8642 1-3318 2-2332 3-4357 2-6945 1-8335
攈
100/232 100/248 101/008 攈
5-4D6B 2-5C78 3-4B56 2-6160 0-3928 5-4D77 3-5A3B 1-4137 2-3749
64E8 64F8 6508
5-4575 2-6088 3-4354 2-6564 0-2508 5-4587 3-5827 1-3323 2-2341
擩 攉
100/233 擩 100/249 101/009 攉
3-4B50 2-5C74 1-412D 2-373B E-2C2B 3-5770 0-5F2B 2-6550 1-4138 2-374A
64E9 64F9 6509
3-4348 2-6084 1-3313 2-2327 E-1211 3-5580 0-6311 2-6948 1-3324 2-2342
擪 擺 攊
100/234 100/250 擺 101/010 攊
3-303C 3-576C 1-412E 1-305A 1-7648 0-5A34 0-776C 0-3879 E-2C2C 3-5A3C 1-4139 1-5E46
64EA 64FA 650A
3-1628 3-5576 1-3314 1-1658 1-8640 0-5820 0-8776 0-2489 E-1212 3-5828 1-3325 1-6238
擻
100/235 擫 100/251 擻 101/011 攋
5-4B79 2-5C76 2-373C 1-4B53 1-7649 1-4133 2-3741 3-4B49 3-5A3A 2-374B
64EB 64FB 650B
5-4389 2-6086 2-2328 1-4351 1-8641 1-3319 2-2333 3-4341 3-5826 2-2343
100/236 擬擬 100/252 擼 101/012 攌
1-4462 1-7369 0-353C 0-6B74 1-576D 1-5F23 2-6163 2-3742 0-3926 3-4B58 2-6551 2-374C
64EC 64FC 650C
1-3666 1-8373 0-2128 0-7584 1-5577 1-6303 2-6567 2-2334 0-2506 3-4356 2-6949 2-2344
擭 擽
100/237 擭 100/253 擽 101/013 攍
3-4B48 1-736C 1-412F 1-742F 3-4A21 2-615F 0-5A36 2-3743 5-4D78 2-654F 2-374D
64ED 64FD 650D
3-4340 1-8376 1-3315 1-8415 3-4201 2-6563 0-5822 2-2335 5-4588 2-6947 2-2345
擾
100/238 100/254 擾 101/014 攎
E-2C28 3-5469 1-4845 1-7646 0-3E71 0-6876 1-576F 3-4979 2-6552 2-374E
64EE 64FE 650E
E-1208 3-5273 1-4037 1-8638 0-3081 0-7286 1-5579 3-4189 2-6950 2-2346
擯 擿 攏
100/239 擯 100/255 擿 101/015 攏
1-3177 2-5C73 0-5A2F 1-6339 3-4B51 2-615D 1-4134 2-3744 1-4223 1-7839 1-413A 1-5F22 0-3933
64EF 64FF 650F
1-1787 2-6083 0-5815 1-6725 3-4349 2-6561 1-3320 2-2336 1-3403 1-8825 1-3326 1-6302 0-2519
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
101/016 攐 101/032 攠 101/048
5-4D7A 2-654E 2-374F 3-4B5D 2-6D4F 2-3758 1-7C3F 6-236C
6510 6520 6530
5-4590 2-6946 2-2347 3-4361 2-7747 2-2356 1-9231 6-0376
攱
101/017 101/033 攡 101/049 攱
5-4C72 3-5E31 0-3931 3-4B21 2-6D4E 2-3759 5-5D7B 3-2C72 1-4146 2-3760
6511 6521 6531
5-4482 3-6217 0-2517 3-4301 2-7746 2-2357 5-6191 3-1282 1-3338 2-2364
101/018 101/034 攢攢 101/050 攲
0-545C 1-545C 2-6D51 1-4142 1-6E4F 3-4368 2-3C37 1-5B6D
6512 6522 6532
0-5260 1-5260 2-7749 1-3334 1-7847 3-3572 2-2823 1-5977
攓 攣
101/019 攓 101/035 攣 101/051 攳
5-4E21 2-687A 1-413B 2-3750 1-424E 1-7C37 0-5A3B 0-557D 5-4642 2-573A 2-3761
6513 6523 6533
5-4601 2-7290 1-3327 2-2348 1-3446 1-9223 0-5827 0-5393 5-3834 2-5526 2-2365
攔 攤 攴
101/020 攔 101/036 攤 101/052 攴
1-4039 1-796F 1-413C 1-5E22 1-5770 1-4C2F 1-7B61 0-5A3A 1-7143 0-3937 0-6A37 3-2167 0-5A3D 2-3762
6514 6524 6534
1-3225 1-8979 1-3328 1-6202 1-5580 1-4415 1-9165 0-5826 1-8135 0-2523 0-7423 3-0171 0-5829 2-2366
攵
101/021 攕 101/037 攥 101/053 攵
5-4D7C 2-6879 2-3751 0-5F2C 2-6F2C 2-375A 0-6B36 3-2168 0-5A3E 2-3763
6515 6525 6535
5-4592 2-7289 2-2349 0-6312 2-7912 2-2358 0-7522 3-0172 0-5830 2-2367
攖 攦 收
101/022 攖 101/038 攦 101/054 收
1-5E7C 2-6878 1-413D 2-3752 3-4A39 2-6D50 1-4143 2-375B 0-4A55 1-482D 0-5A40 0-6225 1-5777
6516 6526 6536
1-6292 2-7288 1-3329 2-2350 3-4225 2-7748 1-3335 2-2359 0-4253 1-4013 0-5832 0-6605 1-5587
101/023 攗 101/039 攧 101/055 攷攷
3-4B5B 2-6877 2-3753 3-4B57 3-5F49 2-375C E-2C31 2-224D 0-5A3F 0-4D39 1-5778
6517 6527 6537
3-4359 2-7287 2-2351 3-4355 3-6341 2-2360 E-1217 2-0245 0-5831 0-4525 1-5588
攘 攸
101/024 攘 101/040 101/056 攸
0-4841 1-796E 0-5A37 0-6541 1-5771 E-2C2F 3-6032 0-587C 1-4A53 0-5A41 0-6A72
6518 6528 6538
0-4033 1-8978 0-5823 0-6933 1-5581 E-1215 3-6418 0-5692 1-4251 0-5833 0-7482
攙 攩 改
101/025 攙 101/041 攩 101/057 改
1-3273 1-7970 1-413E 1-6E5B 1-5772 E-2C30 2-6F2B 1-4144 2-375D 0-3844 1-4A51 0-327E 0-4B47
6519 6529 6539
1-1883 1-8980 1-3330 1-7859 1-5582 E-1216 2-7911 1-3336 2-2361 0-2436 1-4249 0-1894 0-4339
攪 攺
101/026 101/042 攪 101/058 攺
E-2C2D 3-6523 1-3D41 1-7C39 0-5978 0-4E66 5-3E6E 4-243F 1-4147 2-3764
651A 652A 653A
E-1213 3-6903 1-2933 1-9225 0-5788 0-4670 5-3078 4-0431 1-3339 2-2368
攛 攫 攻
101/027 攛 101/043 攫 101/059 攻
1-5F25 2-6B5B 1-413F 2-3754 0-3E70 1-7C38 0-5A3C 0-7C2B 0-3925 1-4A52 0-3936 0-4D74 1-5779
651B 652B 653B
1-6305 2-7559 1-3331 2-2352 0-3080 1-9224 0-5828 0-9211 0-2505 1-4250 0-2522 0-4584 1-5589
101/028 攜攜 101/044 攬攬 101/060 攼攼
E-2C2E 1-7A6D 0-5A38 2-3755 1-5773 1-403F 1-7C5F 0-5A30 0-553B 1-5775 5-3547 4-243E 1-4148 2-3765
651C 652C 653C
E-1214 1-9077 0-5824 2-2353 1-5583 1-3231 1-9263 0-5816 0-5327 1-5585 5-2139 4-0430 1-3340 2-2369
攝 攽
101/029 攝 101/045 攭 101/061 攽
1-4963 1-7A6C 0-5970 0-606E 1-5774 5-4E26 2-7037 2-375E 5-4935 2-2722 1-4149 1-613A
651D 652D 653D
1-4167 1-9076 0-5780 0-6478 1-5584 5-4606 2-8023 2-2362 5-4121 2-0702 1-3341 1-6526
攞 攮 放
101/030 攞 101/046 攮 101/062 放
5-4C50 3-5F4A 1-4140 2-3756 0-3938 0-5F2D 2-707D 1-4145 2-375F 0-393C 0-3745 1-4D73 0-4A7C 0-5B2F 1-577A
651E 652E 653E
5-4448 3-6342 1-3332 2-2354 0-2524 0-6313 2-8093 1-3337 2-2363 0-2528 0-2337 1-4583 0-4292 0-5915 1-5590
攟 支 政
101/031 攟 101/047 支 101/063 政
5-4E25 3-5F4B 1-4141 2-3757 0-5627 1-4545 0-3B59 0-7228 1-5776 0-557E 1-5149 0-402F 0-6F59 1-577B
651F 652F 653F
5-4605 3-6343 1-3333 2-2355 0-5407 1-3737 0-2757 0-8208 1-5586 0-5394 1-4941 0-3215 0-7957 1-5591
© ISO/IEC ISO/IEC 10646-1:2000(E)
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
敐 敠
101/064 敀 101/080 敐 101/096 敠
5-5B53 3-2C74 2-3766 5-6E38 4-322B 1-414D 2-376C 5-4921 3-3B75 1-4151 2-3773
6540 6550 6560
5-5951 3-1284 2-2370 5-7824 4-1811 1-3345 2-2376 5-4101 3-2785 1-3349 2-2383
救
101/065 敁 101/081 救 101/097 敡
5-486F 2-2A68 2-3767 0-3E48 1-5A73 0-355F 0-4F2D 1-5821 5-487C 3-3B76 2-3774
6541 6551 6561
5-4079 2-1072 2-2371 0-3040 1-5883 0-2163 0-4713 1-5601 5-4092 3-2786 2-2384
101/066 101/082 敒敒 101/098 敢敢
E-2C32 3-2C76 E-2C37 4-322F 1-414E 2-376D 0-3852 1-5F56 0-343A 0-4A72 1-5828
6542 6552 6562
E-1218 3-1286 E-1223 4-1815 1-3346 2-2377 0-2450 1-6354 0-2026 0-4282 1-5608
敃 散
101/067 敃 101/083 敓 101/099 散
5-4936 2-2A69 1-414A 2-3768 E-2C38 2-3569 2-376E 0-4922 1-5F57 0-3B36 0-5F24 1-5829
6543 6553 6563
5-4122 2-1073 1-3342 2-2372 E-1224 2-2173 2-2378 0-4102 1-6355 0-2722 0-6304 1-5609
敔
101/068 敄 101/084 敔 101/100 敤
5-5E7C 3-2C73 2-3769 3-4740 1-5A7A 1-414F 1-6727 5-487B 2-3C3A 2-3775
6544 6554 6564
5-6292 3-1283 2-2373 3-3932 1-5890 1-3347 1-7107 5-4091 2-2826 2-2385
故 敕
101/069 故 101/085 敕 101/101 敥
0-394A 1-514A 0-384E 0-4D3A 1-577C 0-6B37 1-5A79 0-5A45 1-707C 1-5822 E-2C3A 2-3C3D 2-3776
6545 6555 6565
0-2542 1-4942 0-2446 0-4526 1-5592 0-7523 1-5889 0-5837 1-8092 1-5602 E-1226 2-2829 2-2386
敖 敦
101/070 敆 101/086 敖 101/102 敦
3-4725 2-2F50 2-376A 0-303D 1-5A72 0-5A44 0-6779 1-5823 0-3658 1-5F55 0-4658 0-5444 1-582A
6546 6556 6566
3-3905 2-1548 2-2374 0-1629 1-5882 0-5836 0-7189 1-5603 0-2256 1-6353 0-3856 0-5236 1-5610
101/071 敇 101/087 敗敗 101/103 敧敧
E-2C33 4-2D43 1-414B 1-305C 1-5A75 0-4754 0-7828 1-5824 3-4727 2-3C38 1-4152 2-3777
6547 6557 6567
E-1219 4-1335 1-3343 1-1660 1-5885 0-3952 0-8808 1-5604 3-3907 2-2824 1-3350 2-2387
效 敘
101/072 效 101/088 敘 101/104
0-5027 1-5566 0-5A43 0-7C79 1-577D E-2C39 1-5A78 0-5A47 2-376F 1-5825 E-2C3B 2-3C3C
6548 6558 6568
0-4807 1-5370 0-5835 0-9289 1-5593 E-1225 1-5888 0-5839 2-2379 1-5605 E-1227 2-2828
敉 教
101/073 敉 101/089 教 101/105
0-744D 1-5567 1-414C 1-607B 0-3D4C 1-5A74 0-3635 2-3770 1-5826 8-7C37
6549 6559 6569
0-8445 1-5371 1-3344 1-6491 0-2944 1-5884 0-2221 2-2380 1-5606 8-9223
101/074 敊 101/090 101/106
3-4723 2-2F4F 2-376B 5-493D 3-3634 E-2C3C 2-3C39
654A 655A 656A
3-3903 2-1547 2-2375 5-4129 3-2220 E-1228 2-2825
敫
101/075 101/091 101/107 敫
E-2C34 3-313D 0-4132 0-6B38 3-414B 1-4153 2-3778
654B 655B 656B
E-1220 3-1729 0-3318 0-7524 3-3343 1-3351 2-2388
101/076 101/092 敜 101/108 敬敬
0-3550 4-2D44 3-4742 2-3C3B 2-3771 0-3E34 1-6439 0-3749 0-4C57 1-582B
654C 655C 656C
0-2148 4-1336 3-3934 2-2827 2-2381 0-3020 1-6825 0-2341 0-4455 1-5611
敍 敝
101/077 敍 101/093 敝 101/109 敭
E-2C35 3-3637 0-5A46 0-5F73 0-3156 1-5A71 0-5A49 1-7234 1-5827 E-2C3D 3-414E 0-6542
654D 655D 656D
E-1221 3-2223 0-5838 0-6383 0-1754 1-5881 0-5841 1-8220 1-5607 E-1229 3-3346 0-6934
敞
101/078 敎 101/094 敞 101/110
E-2C36 3-3636 0-4E67 0-3328 1-5F54 0-5A48 0-7362 3-4732 4-3D5D
654E 655E 656E
E-1222 3-2222 0-4671 0-1908 1-6352 0-5840 0-8366 3-3918 4-2961
敏 敟
101/079 敏 101/095 敟 101/111 敯
0-4374 1-5A77 0-4952 0-5A42 1-577E 5-4940 3-3B74 1-4150 2-3772 5-492A 2-4342 2-3779
654F 655F 656F
0-3584 1-5887 0-4150 0-5834 1-5594 5-4132 3-2784 1-3348 2-2382 5-4110 2-3534 2-2389
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
数 斐
101/112 数 101/128 斀 101/144 斐
0-4A7D 3-414D 0-3F74 2-377A 3-4738 2-5C7A 2-3823 0-6C33 1-5F59 0-4865 0-5D6C 1-5832
6570 6580 6590
0-4293 3-3345 0-3184 2-2390 3-3924 2-6090 2-2403 0-7619 1-6357 0-4069 0-6176 1-5618
斁 斑
101/113 敱 101/129 斁 101/145 斑
3-4724 3-4730 2-377B 3-473D 2-5C79 1-4156 1-5D62 0-305F 1-5F58 0-4843 0-5A68
6571 6581 6591
3-3904 3-3916 2-2391 3-3929 2-6089 1-3354 1-6166 0-1663 1-6356 0-4035 0-5872
101/114 敲敲 101/130 斂斂 101/146 斒斒
0-4743 1-687D 0-5A4A 0-4D3B 1-582C 1-4132 1-736D 0-5A4C 0-5630 5-507A 2-4343 1-4159 2-3828
6572 6582 6592
0-3935 1-7293 0-5842 0-4527 1-5612 1-3318 1-8377 0-5844 0-5416 5-4890 2-3535 1-3357 2-2408
斃
101/115 101/131 斃 101/147
E-2C3E 2-4A5B 1-3150 1-736E 0-5A4D 0-784A 0-6C35
6573 6583 6593
E-1230 2-4259 1-1748 1-8378 0-5845 0-8842 0-7621
整
101/116 整 101/132 斄 101/148 斔
0-557B 1-706C 0-4030 0-6F5A 1-582D 3-4748 2-6553 2-3824 5-507B 2-6164 2-3829
6574 6584 6594
0-5391 1-8076 0-3216 0-7958 1-5613 3-3940 2-6951 2-2404 5-4891 2-6568 2-2409
敵 斅 斕
101/117 敵 101/133 斅 101/149 斕
1-3550 1-6D2E 0-4528 0-6E58 1-582E 5-487E 3-5C41 1-4157 0-7C7A 1-6C35 1-7A6E 1-415A 2-382A
6575 6585 6595
1-2148 1-7714 0-3708 0-7856 1-5614 5-4094 3-6033 1-3355 0-9290 1-7621 1-9078 1-3358 2-2410
101/118 敶 101/134 101/150
5-493F 2-5064 2-377C 3-4743 E-2C48 2-6F2D
6576 6586 6596
5-4131 2-4868 2-2392 3-3935 E-1240 2-7913
101/119 敷敷 101/135 文文 101/151 斗斗
0-3773 1-6D2F 0-495F 0-5D27 0-4E44 1-4546 0-4A38 0-597E 1-5830 0-3637 1-4547 0-454D 0-5460 1-5833
6577 6587 6597
0-2383 1-7715 0-4163 0-6107 0-4636 1-3738 0-4224 0-5794 1-5616 0-2223 1-3739 0-3745 0-5264 1-5619
數 斈 斘
101/120 數 101/136 斈 101/152
1-4A7D 1-6D30 0-5A4B 0-6226 1-582F 5-5077 3-2558 0-555D 2-3825 E-2C49 4-2441 1-415B
6578 6588 6598
1-4293 1-7716 0-5843 0-6606 1-5615 5-4887 3-0556 0-5361 2-2405 E-1241 4-0433 1-3359
斉 料
101/121 敹 101/137 斉 101/153 料
3-4746 2-5066 2-377D E-2C44 3-2939 0-4046 2-3826 0-414F 1-5568 0-4E41 0-5679 1-5834
6579 6589 6599
3-3938 2-4870 2-2393 E-1236 3-0925 0-3238 2-2406 0-3347 1-5372 0-4633 0-5489 1-5620
敺 斊
101/122 敺 101/138 101/154
E-2C3F 2-5065 1-4154 2-377E E-2C45 4-2D47 1-4158 E-2C4A 3-3142
657A 658A 659A
E-1231 2-4869 1-3352 2-2394 E-1237 4-1339 1-3356 E-1242 3-1734
斛
101/123 101/139 101/155 斛
E-2C40 2-5067 0-552B 3-3140 0-757A 1-5A7C 0-5A4F 0-4D57
657B 658B 659B
E-1232 2-4871 0-5311 3-1732 0-8590 1-5892 0-5847 0-4555
101/124 敼 101/140 斌斌 101/156 斜斜
E-2C41 2-573C 2-3821 0-3173 2-3C3E 0-494C 0-5E30 0-5031 1-5A7B 0-3C50 0-5E58 1-5835
657C 658C 659C
E-1233 2-5528 2-2401 0-1783 2-2830 0-4144 0-6216 0-4817 1-5891 0-2848 0-6256 1-5621
敽 斝
101/125 101/141 101/157 斝
E-2C42 1-4155 E-2C46 3-3638 3-5065 2-3C3F 1-415C 1-5727
657D 658D 659D
E-1234 1-3353 E-1238 3-2224 3-4869 2-2831 1-3360 1-5507
斎
101/126 敾 101/142 斎 101/158 斞
E-2C43 0-6040 E-2C47 3-3639 0-3A58 2-3827 1-5831 5-525E 2-3C40 2-382B
657E 658E 659E
E-1235 0-6432 E-1239 3-2225 0-2656 2-2407 1-5617 5-5062 2-2832 2-2411
斟
101/127 敿 101/143 101/159 斟
3-473F 2-573B 2-3822 8-2D69 0-5565 1-643A 0-5A50 0-7278 1-5836
657F 658F 659F
3-3931 2-5527 2-2402 8-1373 0-5369 1-6826 0-5848 0-8288 1-5622
© ISO/IEC ISO/IEC 10646-1:2000(E)
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Hanzi-T Kanji Hanja ChuNom
斠 新
101/160 斠 101/176 新 101/192 旀
3-5067 2-4A5C 1-415D 2-382C 0-5042 1-643B 0-3F37 0-6366 1-583C 1-7D3C 2-3839
65A0 65B0 65C0
3-4871 2-4260 1-3361 2-2412 0-4834 1-6827 0-3123 0-6770 1-5628 1-9328 2-2425
斡 旁
101/161 斡 101/177 斱 101/193 旁
0-4E53 1-687E 0-3036 0-6456 E-2C4C 4-3D63 1-6B2D 0-4554 1-5569 0-5A55 0-5B31 1-5840
65A1 65B1 65C1
0-4651 1-7294 0-1622 0-6854 E-1244 4-2967 1-7513 0-3752 1-5373 0-5853 0-5917 1-5632
101/162 斢 101/178 斲斲 101/194 旂旂
3-7B75 2-573D 2-382D E-2C4D 2-5068 1-4161 1-6E4A 8-2D7E 2-2F54 1-4165 1-5B6E
65A2 65B2 65C2
3-9185 2-5529 2-2413 E-1245 2-4872 1-3365 1-7842 8-1394 2-1552 1-3369 1-5978
斣 斳 旃
101/163 斣 101/179 斳 101/195 旃
3-5069 4-563F 1-415E 2-382E 5-4E64 2-5069 1-4162 2-3834 0-6C39 2-2F52 0-5A53 1-6B7B
65A3 65B3 65C3
3-4873 4-5431 1-3362 2-2414 5-4668 2-4873 1-3366 2-2420 0-7625 2-1550 0-5851 1-7591
斤 斴 旄
101/164 斤 101/180 斴 101/196 旄
0-3D6F 1-4548 0-3654 0-5045 1-5837 E-2C4E 4-504E 1-4163 2-3835 0-6C38 2-2F53 0-5A56 1-604E
65A4 65B4 65C4
0-2979 1-3740 0-2252 0-4837 1-5623 E-1246 4-4846 1-3367 2-2421 0-7624 2-1551 0-5854 1-6446
斥 旅
101/165 斥 101/181 斵 101/197 旅
0-3362 1-4658 0-404D 0-742E 1-5838 E-2C4F 3-546B 2-3836 0-4243 1-556A 0-4E39 0-5569 1-5841
65A5 65B5 65C5
0-1966 1-3856 0-3245 0-8414 1-5624 E-1247 3-5275 2-2422 0-3435 1-5374 0-4625 0-5373 1-5633
斦 旆
101/166 斦 101/182 斶 101/198 旆
5-4E5D 3-293B 1-415F 2-382F 3-4C36 2-5C7B 2-3837 0-6C37 2-2F51 0-5A54 1-7179
65A6 65B6 65C6
5-4661 3-0927 1-3363 2-2415 3-4422 2-6091 2-2423 0-7623 2-1549 0-5852 1-8189
101/167 斧斧 101/183 斷斷 101/199
0-382B 1-4D74 0-4960 0-5D28 1-5839 1-364F 1-764B 0-5A52 0-5328 3-4F44 3-363C
65A7 65B7 65C7
0-2411 1-4584 0-4164 0-6108 1-5625 1-2247 1-8643 0-5850 0-5108 3-4736 3-2228
旈
101/168 斨 101/184 斸 101/200 旈
3-3A39 2-2723 2-3830 3-4C35 2-707E 2-3838 E-2C51 4-3234 1-4166 2-383A
65A8 65B8 65C8
3-2625 2-0703 2-2416 3-4421 2-8094 2-2424 E-1249 4-1820 1-3370 2-2426
方 旉
101/169 101/185 方 101/201
0-5536 0-373D 1-4549 0-4A7D 0-5B30 1-583D 5-5124 3-363F 1-4167
65A9 65B9 65C9
0-5322 0-2329 1-3741 0-4293 0-5916 1-5629 5-4904 3-2231 1-3371
101/170 斪 101/186 101/202 旊
5-4E5F 2-2A6A 2-3831 3-4F40 3-293C 3-4F43 3-363D 1-6149
65AA 65BA 65CA
5-4663 2-1074 2-2417 3-4732 3-0928 3-4735 3-2229 1-6541
斫 旋
101/171 斫 101/187 101/203 旋
0-6D3D 1-514B 0-5A51 0-6D45 5-5121 2-2724 0-507D 1-5B21 0-407B 0-6041 1-5842
65AB 65BB 65CB
0-7729 1-4943 0-5849 0-7737 5-4901 2-0704 0-4893 1-5901 0-3291 0-6433 1-5634
101/172 斬斬 101/188 於於 101/204 旌旌
1-5536 1-5A7D 0-3B42 0-7356 1-583A 0-6C36 1-4D75 0-3177 0-655A 1-583E 0-6C3A 1-5B22 0-5A57 0-6F5B 1-5843
65AC 65BC 65CC
1-5322 1-5893 0-2734 0-8354 1-5626 0-7622 1-4585 0-1787 0-6958 1-5630 0-7626 1-5902 0-5855 0-7959 1-5635
断 施
101/173 断 101/189 施 101/205 旍
0-364F 3-363A 0-4347 2-3832 1-583B 0-4A29 1-514C 0-3B5C 0-633F 1-583F 5-5128 2-356A 2-383B
65AD 65BD 65CD
0-2247 3-2226 0-3539 2-2418 1-5627 0-4209 1-4944 0-2760 0-6731 1-5631 5-4908 2-2174 2-2427
斮 旎
101/174 斮 101/190 101/206 旎
E-2C4B 2-3C41 1-4160 2-3833 E-2C50 3-2C77 0-6C3B 1-5B23 1-4168 2-383C
65AE 65BE 65CE
E-1243 2-2833 1-3364 2-2419 E-1248 3-1287 0-7627 1-5903 1-3372 2-2428
斯 斿 族
101/175 斯 101/191 斿 101/207 族
0-4B39 1-5F5A 0-3B5B 0-5E59 5-5122 2-2A6B 1-4164 1-696D 0-5765 1-5A7E 0-4232 0-7069 1-5844
65AF 65BF 65CF
0-4325 1-6358 0-2759 0-6257 5-4902 2-1075 1-3368 1-7377 0-5569 1-5894 0-3418 0-8073 1-5636
Row/Cell Row/Cell Row/Cell
C J K V C J K V C J K V
Hex Code G-Hanzi-T Kanji Hanja ChuNom Hex Code G-Ha
...
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
Annexe A
(normative)
Collections de caractères graphiques pour les sous-ensembles
A.1 Collections des caractères graphiques codés
23 KANNARA 0C80 - 0CFF
Les collections suivantes sont tirées du plan
200C, 200D
multilingue de base. Un astérisque (*) dans la
24 MALAYALAM 0D00 - 0D7F
colonne des positions indique que cette collection
200C, 200D
est fixe.
25 THAÏ 0E00 - 0E7F
Numéro et nom de collection Positions
26 LAO 0E80 - 0EFF
1 LATIN DE BASE 0020 - 007E *
27 GÉORGIEN DE BASE 10D0 - 10FF
2 SUPPLÉMENT LATIN-1 00A0 - 00FF *
28 GÉORGIEN ÉTENDU 10A0 - 10CF
3 LATIN ÉTENDU A 0100 - 017F *
29 JAMOS HANGÛL 1100 - 11FF
4 LATIN ÉTENDU B 0180 - 024F
30 LATIN ÉTENDU
ADDITIONNEL 1E00 - 1EFF
5 ALPHABET PHONÉTIQUE 0250 - 02AF
31 GREC ÉTENDU 1F00 - 1FFF
6 MODIFICATEURS DE LETTRE 02B0 - 02FF
32 PONCTUATION GÉNÉRALE 2000 - 206F
7 SIGNES COMBINATOIRES 0300 - 036F
33 EXPOSANTS ET INDICES 2070 - 209F
8 GREC DE BASE 0370 - 03CF
34 SYMBOLES MONÉTAIRES 20A0 - 20CF
9 COPTE & SYMBOLES GRECS 03D0 - 03FF
35 SIGNES COMBINATOIRES
10 CYRILLIQUE 0400 - 04FF
POUR SYMBOLES 20D0 - 20FF
11 ARMÉNIEN 0530 - 058F
36 SYMBOLES DE TYPE LETTRE 2100 - 214F
12 HÉBREU DE BASE 05D0 - 05EA *
37 FORMES NUMÉRIQUES 2150 - 218F
13 HÉBREU ÉTENDU 0590 - 05CF
38 FLÈCHES 2190 - 21FF
05EB - 05FF
39 OPÉRATEURS
14 ARABE DE BASE 0600 - 065F
MATHÉMATIQUES 2200 - 22FF
15 ARABE ÉTENDU 0660 - 06FF
40 SIGNES TECHNIQUES DIVERS 2300 - 23FF
16 DÉVANÂGARÎ 0900 - 097F
41 PICTOGRAMMES DE
200C, 200D
COMMANDE 2400 - 243F
17 BENGALI 0980 - 09FF
42 RECONNAISSANCE OPTIQUE
200C, 200D
DE CARACTÈRES 2440 - 245F
18 GOURMOUKHÎ 0A00 - 0A7F
43 ALPHANUMÉRIQUES
200C, 200D
CERCLÉS 2460 - 24FF
19 GOUDJARATI 0A80 - 0AFF
44 FILETS 2500 - 257F *
200C, 200D
45 PAVÉS 2580 - 259F
20 ORIYA 0B00 - 0B7F
200C, 200D
46 FORMES GÉOMÉTRIQUES 25A0 - 25FF
21 TAMOUL 0B80 - 0BFF
47 SYMBOLES DIVERS 2600 - 26FF
200C, 200D
48 CASSEAU 2700 - 27BF
22 TÉLOUGOU 0C00 - 0C7F
200C, 200D
49 SYMBOLES ET PONCTUATION
CJC 3000 - 303F
ISO/CEI 10646-1 : 2000(F) ã ISO/CEI
50 HIRAGANA 3040 - 309F 82 OGAM 1680 - 169F
51 KATAKANA 30A0 - 30FF 83 RUNES 16A0 - 16FF
52 BOPOMOFO 3100 - 312F 84 SINGHALAIS 0D80 - 0DFF
31A0 - 31BF
85 SYRIAQUE 0700 - 074F
53 JAMOS DE COMPATIBILITÉ
86 THÂNA 0780 - 07BF
HANGÛL 3130 - 318F
87 BIRMAN DE BASE 1000 - 104F
54 DIVERS CJC 3190 - 319F
200C, 200D
55 LETTRES ET MOIS CJC
88 KHMER 1780 - 17FF
CERCLÉS 3200 - 32FF
200C, 200D
56 COMPATIBILITÉ CJC 3300 - 33FF
89 MONGOL 1800 - 18AF
57, 58, 59 (Ces numéros de collection ne doivent
90 BIRMAN ÉTENDU 1050 - 109F
pas être utilisés, voir note 2.)
91 TIBÉTAIN 0F00 - 0FFF
60 IDÉOGRAMMES UNIFIÉS CJC 4E00 - 9FFF
61 ZONE À USAGE PRIVÉ E000 - F8FF
Les collections suivantes rassemblent des
62 IDÉOGRAMMES DE
caractères utilisés pour des formats optionnels ou
COMPATIBILITÉ CJC F900 - FAFF
des formats particuliers à un système d'écriture. Se
reporter l'annexe F pour de plus amples infor-
63 FORMES DE PRÉSENTATION
ALPHABÉTIQUES FB00 - FB4F mations.
64 FORMES DE PRÉSENTATIONS
200 INDICATEURS DE FRON-
ARABES A FB50 - FDFF
TIÈRE À CHASSE NULLE 200B - 200D
65 DEMI-SIGNES FEFF
COMBINATOIRES FE20 - FE2F
201 SÉPARATEURS DE
66 FORMES DE COMPATIBILITÉ FORMATAGE 2028 - 2029
CJC FE30 - FE4F
202 SIGNES DE FORMATAGE
67 PETITES VARIANTES DE BIDIRECTIONNEL 200E - 200F
FORMES FE50 - FE6F
203 ENCHÂSSEMENTS DE FOR-
68 FORMES DE PRÉSENTATIONS MATAGE BIDIRECTIONNEL 202A - 202E
ARABES B FE70 - FEFE
204 BOURRES HANGÛL 3164, FFA0
69 FORMES DE DEMI ET PLEINE
205 SÉLECTEURS DE FORMAGE
CHASSE FF00 - FFEF
DE CARACTÈRES 206A - 206D
70 CARACTÈRES SPÉCIAUX FFF0 - FFFD
206 SÉLECTEURS DE FORME
71 SYLLABAIRE HANGÛL AC00 - D7A3 * NUMÉRIQUE 206E - 206F
72 TIBÉTAIN DE BASE 0F00 - 0FBF 207 CARACTÈRES DE DESCRIPTION
IDÉOGRAPHIQUE 2FF0 - 2FFF
73 ÉTHIOPIEN 1200 - 137F
74 SYLLABAIRES AUTOCHTONES
Les numéros suivants désignent des collections qui
CANADIENS 1400 - 167F
constituent l'union de collections déclarées ci-
75 CHÉROKÎ 13A0 - 13FF dessus.
76 SYLLABAIRE YI A000 - A48F
250 CARACTÈRES DE FORMATAGE
77 CLÉS YI A490 - A4CF GÉNÉRAUX Collections 200 - 203
251 CARACTÈRES DE FORMATAGE PROPRES
78 CLÉS CHINOISES (K'ANG-HSI) 2F00 - 2FDF
À UNE ÉCRITURE Collections 204 - 207
79 CLÉS CJC
SUPPLÉMENTAIRES 2E80 - 2EFF
Ci-dessous d'autres collections.
80 COMBINAISONS BRAILLE 2800 - 28FF
81 EXTENSION A AUX IDÉO- 270 CARACTÈRES COMBINATOIRES OU
GRAMMES UNIFIÉS CJC 3400 - 4DBF DIACRITIQUES
FA1F, FA23 Caractères répertoriés dans l'annexe B.1
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
271 CARACTÈRES COMBINATOIRES OU Copte 9
DIACRITIQUES B Cyrillique 10
Caractères répertoriés dans l'annexe B.2 Demi chasse 69
Demi-signe 65
299 (Ce numéro de collection ne doit pas être
Dévanâgarî 16
utilisé, voir A.3.2.)
Devise 34
Diacritique 7, 35, 65, 270, 271
300 PMB 0000 - D7FF
Enchâssement 203
E000 - FFFD
Éthiopien 73
301 PMB-AMD.7 voir A.3.1 * Exposant 33
Filet 44
302 PMB DEUXIÈME ÉDITION voir A.3.3 *
Flèche 38
Forme 37, 46, 63, 64, 67, 68,
205, 206
Les collections suivantes se situent en dehors du
Formatage 201, 202, 203, 250, 251
plan multilingue de base.
Frontière 200
Géométrie (forme) 46
Géorgien 27, 28
400 PLANS À USAGE PRIVÉ G=00,
Goudjarati 19
P=0F, 10, & E0 - FF
Gourmoukhî 18
500 GROUPES À USAGE PRIVÉ G=60 - 7F
Grec 8, 9, 31
Hangûl 29, 53, 71, 204
Hébreu 12, 13
NOTE 1 : L'utilisation des niveaux de mise en œuvre 1 et 2
Hiragana 50
restreint le répertoire de certaines collections de caractères
Idéogramme 60, 62, 81, 207
(voir 24.4). Les collections suivantes comprennent des
Indicateur 200
caractères combinatoires : 7, 10, 13 à 26, 35, 49, 50, 63, 65,
Indice 33
72, 84, 85, 86, 87, 88, 89, 90, et 91.
Jamo 28, 53
NOTE 2 : Les collections n° 57, 58, et 59 étaient décrites
K'ang-hsi 78
dans la première édition de cette norme internationale, elles
Kangxi 78
sont maintenant supprimées.
Kannara 23
NOTE 3 : On trouve ci-dessous, dans l'ordre alphabétique, Katakana 51
les termes principaux ou mots-clés utilisés dans les noms de
Khmer 88
collection. Les numéros de collection de toutes les
Lao 26
collections qui comprennent un mot-clé sont indiqués en
Latin 1, 2, 3, 4, 30
regard de ce mot-clé. Ces termes ne fournissent pas une
Lettre 36, 55
référence croisée complète vers toutes les collections où des
Malayalam 24
caractères qui partagent un certain attribut, comme le type
Mathématique 39
d'écriture, se retrouvent. Bien que la plupart des termes
Modificateur 6
identifient un attribut commun aux caractères de cette
Mois 55
collection, certains caractères possédant cet attribut peuvent
Mongol 89
se retrouver dans d'autres collections dont les numéros
Monnaie 34
n'apparaissent pas dans l'entrée correspondant à ce terme.
Numérique 37
Alphabétique 63
Ogam 82
Alphanumérique 43
Opérateur 39
API 5
Oriya 20
Arabe 14, 15, 64, 68
Pavé 45
Arménien 11
Petite variante 67
Autochtone canadien 74
Phonétique 5
Bengali 17
Pictogramme 41
Bidirectionnel 202, 203
Pleine chasse 69
Birman 87, 90
PMB 300, 301, 302 (299)
Bopomofo 52
Ponctuation 32, 49
Bourre 204
Présentation 63, 64, 68
Braille 80
Reconnaissance optique
Caractère combinatoire v. diacritique
de caractères 42
Casseau 48
Rune 83
Cerclé 43, 55
Sélecteur 205, 206
Chasse nulle 200
Singhalais 84
Chérokî 75
Spécial (caractère) 70
Chinois 78
Syllabaire 71, 74, 76
CJC 49, 54, 55, 56, 60, 62,
Symbole 9, 34, 35, 36, 47, 49.
66, 79, 81
Syriaque 85
Clés 77, 78, 79
Tamoul 21
Combinatoire (caractère) v. diacritique
Technique 40
Commande 41
Télougou 22
Compatibilité 53, 56, 62, 66
ISO/CEI 10646-1 : 2000(F) ã ISO/CEI
Thaï 25 ALPHANUMÉRIQUES CERCLÉS 2460 - 24FF
Thâna 86 FILETS 2500 - 257F
Tibétain 72, 91 PAVÉS 2580 - 259F
Usage privé 61, 400, 500 FORMES GÉOMETRIQUES 25A0 - 25FF
Yi 76, 77 SYMBOLES DIVERS 2600 - 26FF
CASSEAU 2700 - 27BF
COMBINAISONS BRAILLE 2800 - 28FF
A.2 Blocs dans le PMB
SUPPLÉMENT CLÉS CJC 2E80 - 2EFF
Les blocs suivants sont définis dans le plan multi-
CLÉS CHINOISES (K'ANG-HSI) 2F00 - 2FDF
lingue de base. Ils sont classés dans l'ordre de leur
DESCRIPTION IDÉOGRAPHIQUE 2FF0 - 2FFF
position de code.
SYMBOLES ET PONCTUATION CJC 3000 - 303F
HIRAGANA 3040 - 309F
Nom du bloc de à
KATAKANA 30A0 - 30FF
BOPOMOFO 3100 - 312F
LATIN DE BASE 0020 - 007E
JAMOS DE COMPATIBILITÉ HANGÛL 3130 - 318F
SUPPLÉMENT LATIN-1 00A0 - 00FF
KANBUN (DIVERS CJC) 3190 - 319F
LATIN ÉTENDU A 0100 - 017F
BOPOMOFO ÉTENDU 31A0 - 31BF
LATIN ÉTENDU B 0180 - 024F
LETTRES ET MOIS CJC CERCLÉS 3200 - 32FF
ALPHABET PHONÉTIQUE 0250 - 02AF
COMPATIBILITÉ CJC 3300 - 33FF
MODIFICATEURS DE LETTRES 02B0 - 02FF
EXTENSION A AUX IDÉOGRAMMES
SIGNES COMBINATOIRES 0300 - 036F
UNIFIÉS CJC 3400 - 4DBF
GREC ET COPTE 0370 - 03FF
IDÉOGRAMMES UNIFIÉS CJC 4E00 - 9FFF
CYRILLIQUE 0400 - 04FF
SYLLABAIRE YI DES MONTS-FRAIS A000 - A48F
ARMÉNIEN 0530 - 058F
CLÉS YI A490 - A4CF
HÉBREU 0590 - 05FF
SYLLABAIRE HANGÛL AC00 - D7A3
ARABE 0600 - 06FF
ZONE À USAGE PRIVÉ E000 - F8FF
SYRIAQUE 0700 - 074F
IDÉOGRAMMES DE COMPATIBILITÉ
THÂNA 0780 - 07BF
CJC F900 - FAFF
DÉVANÂGARÎ 0900 - 097F
FORMES DE PRÉSENTATION
BENGALI 0980 - 09FF
ALPHABÉTIQUES FB00 - FB4F
GOURMOUKHÎ 0A00 - 0A7F
FORMES DE PRÉSENTATION
GOUDJARATI 0A80 - 0AFF
ARABES A FB50 - FDFF
ORIYA 0B00 - 0B7F
DEMI-SIGNES COMBINATOIRES FE20 - FE2F
TAMOUL 0B80 - 0BFF
FORMES DE COMPATIBILITÉ CJC FE30 - FE4F
TÉLOUGOU 0C00 - 0C7F
PETITES VARIANTES DE FORME FE50 - FE6F
KANNARA 0C80 - 0CFF
FORMES DE PRÉSENTATION
MALAYALAM 0D00 - 0D7F
ARABES B FE70 - FEFE
SINGHALAIS 0D80 - 0DFF
FORMES DE DEMI ET PLEINE CHASSE FF00 - FFEF
THAÏ 0E00 - 0E7F
CARACTÈRES SPÉCIAUX FFF0 - FFFD
LAO 0E80 - 0EFF
TIBÉTAIN 0F00 - 0FFF
A.3 Collections fixes de l'ensemble du PMB
BIRMAN 1000 - 109F
GÉORGIEN 10A0 - 10FF
A.3.1 301 PMB-AMD.7
JAMOS HANGÛL 1100 - 11FF
La collection 301 PMB-AMD.7 énumérée ci-dessous
ÉTHIOPIEN 1200 - 137F
est une collection fixe (4.9). Elle est constituée
CHÉROKÎ 13A0 - 13FF
uniquement des caractères codés qui faisaient partie
SYLLABAIRES AUTOCHTONES
CANADIENS 1400 - 167F du PMB de la première édition de cette norme
OGAM 1680 - 169F
internationale telle qu'amendée jusqu'à l'AMD.7. Par
RUNES 16A0 - 16FF
conséquent, le répertoire de cette collection n'est
KHMER 1780 - 17FF
pas susceptible d'être modifié si de nouveaux
MONGOL 1800 - 18AF
caractères venaient à être ajoutés au PMB par des
LATIN ÉTENDU ADDITIONNEL 1E00 - 1EFF
amendements ultérieurs.
GREC ÉTENDU 1F00 - 1FFF
PONCTUATION GÉNÉRALE 2000 - 206F
NOTE : Le répertoire de la collection 300 PMB est, en
EXPOSANTS ET INDICES 2070 - 209F
revanche, susceptible d'être modifié si de nouveaux
SYMBOLES MONÉTAIRES 20A0 - 20CF
caractères étaient ajoutés au PMB à la suite d’amendements
SIGNES COMBINATOIRES
à cette norme internationale.
POUR SYMBOLES 20D0 - 20FF
La collection 301 PMB-AMD.7 est définie par les
SYMBOLES DE TYPE LETTRE 2100 - 214F
FORMES NUMÉRIQUES 2150 - 218F intervalles suivants de positions de codes, précisés
FLÈCHES 2190 - 21FF
pour chaque rangée ou série de rangées contigües.
OPÉRATEURS MATHÉMATIQUES 2200 - 22FF
Rangées Positions (cellules)
SIGNES TECHNIQUES DIVERS 2300 - 23FF
PICTOGRAMMES DE COMMANDE 2400 - 243F
00 20-7E A0-FF
RECONNAISSANCE OPTIQUE DE
01 00-F5 FA-FF
CARACTÈRES 2440 - 245F
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
02 00-17 50-A8 B0-DE E0-E9
A.3.2 299 PMB PREMIÈRE ÉDITION
03 00-45 60-61 74-75 7A 7E 84-8A 8C 8E-A1
Le numéro et le nom de collection
A3-CE D0-D6 DA DC DE E0 E2-F3
04 01-0C 0E-4F 51-5C 5E-86 90-C4 C7-C8 CB-
299 PMB PREMIÈRE ÉDITION
CC D0-EB EE-F5 F8-F9
sont réservés et identifient la collection fixe
05 31-56 59-5F 61-87 89 91-A1 A3-B9 BB-C4
D0-EA F0-F4 constituée par tous les caractères codés qui
06 0C 1B 1F 21-3A 40-52 60-6D 70-B7 BA-BE
faisaient partie du PMB dans sa première édition.
C0-CE D0-ED F0-F9
Cette collection n’est plus conforme à la présente
09 01-03 05-39 3C-4D 50-54 58-70 81-83 85-8C
norme internationale.
8F-90 93-A8 AA-B0 B2 B6-B9 BC BE-C4 C7-
C8 CB-CD D7 DC-DD DF-E3 E6-FA NOTE : La spécification de la collection 299 PMB
0A 02 05-0A 0F-10 13-28 2A-30 32-33 35-36 38-
PREMIÈRE ÉDITION avait trait à la collection 301
39 3C 3E-42 47-48 4B-4D 59-5C 5E 66-74
PMD-AMD.7, à l'exception du remplacement des
81-83 85-8B 8D 8F-91 93-A8 AA-B0 B2-B3
entrées correspondantes dans la liste ci-dessus par
B5-B9 BC-C5 C7-C9 CB-CD D0 E0 E6-EF
les entrées qui se trouvent ci-dessous.
0B 01-03 05-0C 0F-10 13-28 2A-30 32-33 36-39
3C-43 47-48 4B-4D 56-57 5C-5D 5F-61 66-70 rangées positions
05 31-56 59-5F 61-87 89 B0-B9 BB-C3
82-83 85-8A 8E-90 92-25 99-9A 9C 9E-9F
D0-EA F0-F4
A3-A4 A8-AA AE-B5 B7-B9 BE-C2 C6-C8
0F [pas de positions]
CA-CD D7 E7-F2
1E 00-9A A0-F9
0C 01-03 05-0C 0E-10 12-28 2A-33 35-39 3E-44
20 00-2E 30-46 6A-70 74-8E A0-AA D0-E1
46-48 4A-4D 55-56 60-61 66-6F 82-83 85-8C
AC-D7 [pas de positions]
8E-90 92-A8 AA-B3 B5-B9 BE-C4 C6-C8 CA-
ainsi que l'entrée suivante :
CD D5-D6 DE E0-E1 E6-EF
34-4D 3400-4DFF
0D 02-03 05-0C 0E-10 12-28 2A-39 3E-43 46-48 pour les intervalles de position de code des trois collections
(57, 58, 59) de caractères codés; collections supprimées de
4A-4D 57 60-61 66-6F
cette norme internationale depuis sa première édition.
0E 01-3A 3F-5B 81-82 84 87-88 8A 8D 94-97
99-9F A1-A3 A5 A7 AA-AB AD-B9 BB-BD
C0-C4 C6 C8-CD D0-D9 DC-DD
0F 00-47 49-69 71-8B 90-95 97 99-AD B1-B7
B9
10 A0-C5 D0-F6 FB
11 00-59 5F-A2 A8-F9
1E 00-9B A0-F9
1F 00-15 18-1D 20-45 48-4D 50-57 59 5B 5D
5F-7D 80-B4 B6-C4 C6-D3 D6-DB DD-EF F2-
F4 F6-FE
20 00-2E 30-46 6A-70 74-8E A0-AB D0-E1
21 00-38 53-82 90-EA
22 00-F1
23 00 02-7A
24 00-24 40-4A 60-EA
25 00-95 A0-EF
26 00-13 1A-6F
27 01-04 06-09 0C-27 29-4B 4D 4F-52 56 58-5E
61-67 76-94 98-AF B1-BE
30 00-37 3F 41-94 99-9E A1-FE
31 05-2C 31-8E 90-9F
32 00-1C 20-43 60-7B 7F-B0 C0-CB D0-FE
33 00-76 7B-DD E0-FE
4E-9F 4E00-9FA5
AC-D7 AC00-D7A3
E0-F8 E000-F8FF
F9-FA F900-FA2D
FB 00-06 13-17 1E-36 38-3C 3E 40-41 43-44
46-B1 D3-FF
FC 00-FF
FD 00-3F 50-8F 92-C7 F0-FB
FE 20-23 30-44 49-52 54-66 68-6B 70-72 74 76-
FC FF
FF 01-5E 61-BE C2-C7 CA-CF D2-D7 DA-DC
E0-E6 E8-EE FD
ISO/CEI 10646-1 : 2000(F) ã ISO/CEI
0F 00-47 49-6A 71-8B 90-97 99-BC BE-CC CF
A.3.3 302 PMB DEUXIÈME ÉDITION
10 00-21 23-27 29-2A 2C-32 36-39 40-59 A0-C5
La collection fixe 302 PMB DEUXIÈME ÉDITION
D0-F6 FB
comprend uniquement les caractères codés définis
11 00-59 5F-A2 A8-F9
dans le PMB de cette seconde édition de l'ISO/CEI
12 20-26 28-46 48 4A-4D 50-56 58 5A-5D 60-86
10646-1. Par conséquent, le répertoire de cette
88 8A-8D 90-AE B0 B2-B5 B8-BE C0 C2-C5
collection n'est pas susceptible de modification si de C8-CE D0-D6 D8-EE F0-FF
13 00-0E 10 12-15 18-1E 20-46 48-5A 61-7C
nouveaux caractères devaient être ajoutés au PMB
A0-F4
par des amendements ultérieurs.
14-15 1401-15FF
La collection 302 PMB DEUXIÈME ÉDITION est
16 00-76 80-9C A0-F0
définie par les intervalles suivants de positions de 17 80-DC E0-E9
18 00-0E 10-19 20-77 80-A9
codes, précisés pour chaque rangée ou série de
1E 00-9B A0-F9
rangées contigües.
1F 00-15 18-1D 20-45 48-4D 50-57 59 5B 5D
Rangées Positions (cellules)
5F-7D 80-B4 B6-C4 C6-D3 D6-DB DD-EF F2-
F4 F6-FE
00 20-7E A0-FF
20 00-46 48-4D 6A-70 74-8E A0-AF D0-E3
01 00-FF
21 00-3A 53-83 90-F3
02 00-33 50-AD B0-EE
22 00-F1
03 00-4E 60-62 74-75 7A 7E 84-8A 8C 8E-A1
23 00-7B 7D-9A
A3-CE D0-D7 DA-F3
24 00-26 40-4A 60-EA
04 00-86 88-89 8C-C4 C7-C8 CB-CC D0-F5 F8-
25 00-95 A0-F7
F9
26 00-13 19-71
05 31-56 59-5F 61-87 89-8A 91-A1 A3-B9 BB-
27 01-04 06-09 0C-27 29-4B 4D 4F-52 56 58-5E
C4 D0-EA F0-F4
61-67 76-94 98-AF B1-BE
06 0C 1B 1F 21-3A 40-55 60-6D 70-ED F0-FE
28 00-FF
07 00-0D 0F-2C 30-4A 80-BF
2E 80-99 9B-F3
09 01-03 05-39 3C-4D 50-54 58-70 81-83 85-8C
2F 00-D5 F0-FB
8F-90 93-A8 AA-B0 B2 B6-B9 BC BE-C4 C7-
30 00-3A 3E-3F 41-94 99-9E A1-FE
C8 CB-CD D7 DC-DD DF-E3 E6-FA
31 05-2C 31-8E 90-B7
0A 02 05-0A 0F-10 13-28 2A-30 32-33 35-36 38-
32 00-1C 20-43 60-7B 7F-B0 C0-CB D0-FE
39 3C 3E-42 47-48 4B-4D 59-5C 5E 66-74
33 00-76 7B-DD E0-FE
81-83 85-8B 8D 8F-91 93-A8 AA-B0 B2-B3
34-4D 3400-4DBF
B5-B9 BC-C5 C7-C9 CB-CD D0 E0 E6-EF
4E-9F 4E00-9FA5
0B 01-03 05-0C 0F-10 13-28 2A-30 32-33 36-39
A0-A3 A000-A3FF
3C-43 47-48 4B-4D 56-57 5C-5D 5F-61 66-70
A4 00-8C 90-A1 A4-B3 B5-C0 C2-C4 C6
82-83 85-8A 8E-90 92-25 99-9A 9C 9E-9F
AC-D7 AC00-D7A3
A3-A4 A8-AA AE-B5 B7-B9 BE-C2 C6-C8
E0-F8 E000-F8FF
CA-CD D7 E7-F2
F9-FA F900-FA2D
0C 01-03 05-0C 0E-10 12-28 2A-33 35-39 3E-44
FB 00-06 13-17 1D-36 38-3C 3E 40-41 43-44
46-48 4A-4D 55-56 60-61 66-6F 82-83 85-8C
46-B1 D3-FF
8E-90 92-A8 AA-B3 B5-B9 BE-C4 C6-C8 CA-
FC 00-FF
CD D5-D6 DE E0-E1 E6-EF
FD 00-3F 50-8F 92-C7 F0-FB
0D 02-03 05-0C 0E-10 12-28 2A-39 3E-43 46-48
FE 20-23 30-44 49-52 54-66 68-6B 70-72 74 76-
4A-4D 57 60-61 66-6F 82-83 85-96 9A-B1
FC FF
B3-BB BD C0-C6 CA CF-D4 D6 D8-DF F2-
FF 01-5E 61-BE C2-C7 CA-CF D2-D7 DA-DC
F4
E0-E6 E8-EE F9-FD
0E 01-3A 3F-5B 81-82 84 87-88 8A 8D 94-97
99-9F A1-A3 A5 A7 AA-AB AD-B9 BB-BD
C0-C4 C6 C8-CD D0-D9 DC-DD
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
Annexe B
(normative)
Liste des caractères combinatoires
05B8 POINT HÉBREU QAMATS
B.1 Liste de tous les caractères combinatoires
05B9 POINT HÉBREU HOLAM
Les caractères des collections de sous-ensembles
05BB POINT HÉBREU KOUBOUTS
suivantes sont des caractères combinatoires :
05BC POINT HÉBREU DAGUÈCH OU MAPIQ
SIGNES COMBINATOIRES (0300 à 036F), SIGNES
05BD POINT HÉBREU METEG
05BF POINT HÉBREU RAFE
COMBINATOIRES POUR SYMBOLES (20D0 à
05C1 POINT HÉBREU CHIN
20FF) et DEMI-SIGNES COMBINATOIRES (FE20 à
05C2 POINT HÉBREU SIN
FE2F). Les caractères suivants doivent également
05C4 SIGNE HÉBREU POINT SUPÉRIEUR
être considérés comme combinatoires.
064B FATHATAN ARABE
064C DAMMATAN ARABE
0483 DIACRITIQUE CYRILLIQUE TITLO
064D KASRATAN ARABE
0484 DIACRITIQUE CYRILLIQUE DE PALATALISATION
064E FATHA ARABE
0485 DIACRITIQUE CYRILLIQUE DASIA PNEUMATA
064F DAMMA ARABE
0486 DIACRITIQUE CYRILLIQUE PSILI PNEUMATA
0650 KASRA ARABE
0488 SIGNE CYRILLIQUE CENTAINE DE MILLIERS
0651 CHADDA ARABE
0489 SIGNE CYRILLIQUE MILLIONS
0652 SOUKOUN ARABE
0591 ACCENT HÉBREU ATNAH
0653 MADDA ARABE EN CHEF
0592 ACCENT HÉBREU SEGOLTA
0654 HAMZA ARABE EN CHEF
0593 ACCENT HÉBREU CHALCHELET
0655 HAMZA ARABE SOUSCRIT
0594 ACCENT HÉBREU ZAQEF QATON
0670 LETTRE ARABE ALIF EN CHEF
0595 ACCENT HÉBREU ZAQEF GADOL
06D7 LIGATURE ARABE MINUSCULE QAF EN CHEF
0596 ACCENT HÉBREU TARHA
LAM ALIF MAKSOURA
0597 ACCENT HÉBREU RAVIA
06D8 LETTRE ARABE MINUSCULE MÎM EN CHEF
0598 ACCENT HÉBREU ZARQA
INITIAL
0599 ACCENT HÉBREU QADMA
06D9 LETTRE ARABE MINUSCULE ALIF LAM EN CHEF
059A ACCENT HÉBREU YETIV
06DA LETTRE ARABE MINUSCULE DJÎM EN CHEF
059B ACCENT HÉBREU TEVIR
06DB TROIS POINTS EN CHEF ARABE
059C ACCENT HÉBREU GERICH
06DC LETTRE ARABE MINUSCULE SÎN EN CHEF
059D ACCENT HÉBREU GERICH MOUQDAM
06DD FIN DE AYAH ARABE
059E ACCENT HÉBREU CHENÉ GRICHINE
06DE DÉBUT DE ROUB EL HIZB ARABE
059F ACCENT HÉBREU KARNÉ FARAH
06DF ZÉRO ARRONDI EN CHEF ARABE
05A0 ACCENT HÉBREU TALCHAH
06E0 ZÉRO RECTANGULAIRE EN CHEF ARABE
05A1 ACCENT HÉBREU PAZER GADOL
06E1 PARTIE HAUTE DE KHA' SANS POINT EN CHEF
05A3 ACCENT HÉBREU CHOFAR HOLEKH
ARABE
05A4 ACCENT HÉBREU CHOFAR MEHOUPPAKH
06E2 LETTRE ARABE MINUSCULE MÎM EN CHEF ISOLÉ
05A5 ACCENT HÉBREU MÂRIKH
06E3 LETTRE ARABE MINUSCULE SÎN SOUSCRIT
05A6 ACCENT HÉBREU TERÉ TÂMÉ
06E4 LETTRE ARABE MINUSCULE MADDA EN CHEF
05A7 ACCENT HÉBREU DARGA
06E7 LETTRE ARABE MINUSCULE YA' EN CHEF
05A8 ACCENT HÉBREU QADMA
06E8 LETTRE ARABE MINUSCULE NOÛN EN CHEF
05A9 ACCENT HÉBREU TARSA
06EA POINT CONTOUR SOUSCRIT ARABE
05AA ACCENT HÉBREU YARÉAH BEN YOMO
06EB POINT CONTOUR EN CHEF ARABE
05AB ACCENT HÉBREU OLEH
06EC POINT PLEIN SOUSCRIT ARABE
05AC ACCENT HÉBREU ILOUZ
06ED LETTRE ARABE MINUSCULE MÎM SOUSCRIT
05AD ACCENT HÉBREU DEHI
0711 LETTRE SYRIAQUE ÂLAPH EN CHEF
05AE ACCENT HÉBREU TSINOR
0730 PETHÂHHÂ SYRIAQUE EN CHEF
05AF CERCLE MASSORÉTIQUE
0731 PETHÂHHÂ SYRIAQUE SOUSCRIT
05B0 POINT HÉBREU CHEVA
0732 PETHÂHHÂ SYRIAQUE POINTÉ
05B1 POINT HÉBREU HATAF SEGOL
0733 ZEQÂPHÂ SYRIAQUE EN CHEF
05B2 POINT HÉBREU HATAF PATAH
0734 ZEQÂPHÂ SYRIAQUE SOUSCRIT
05B3 POINT HÉBREU HATAF QAMATS
0735 ZEQÂPHÂ SYRIAQUE POINTILLÉ
05B4 POINT HÉBREU HIRIK
0736 REVÂSSÂ SYRIAQUE EN CHEF
05B5 POINT HÉBREU TSÉRÈ
0737 REVÂSSÂ SYRIAQUE SOUSCRIT
05B6 POINT HÉBREU SÈGOL
0738 ZELÂMÂ SYRIAQUE POINTILLÉ HORIZONTAL
05B7 POINT HÉBREU PATAH
ISO/CEI 10646-1 : 2000(F) ã ISO/CEI
0739 ZELÂMÂ SYRIAQUE POINTILLÉ OBLIQUE
0983 SYMBOLE BENGALI VISARGA
073A HHEVÂSSÂ SYRIAQUE EN CHEF 09BC SYMBOLE BENGALI NOUKTA
073B HHEVÂSSÂ SYRIAQUE SOUSCRIT 09BE VOYELLE DIACRITIQUE BENGALI Â
073C HHEVÂSSÂ/'ESSÂSÂ SYRIAQUE POINTÉ 09BF VOYELLE DIACRITIQUE BENGALI I
073D 'ESSÂSÂ SYRIAQUE EN CHEF 09C0 VOYELLE DIACRITIQUE BENGALI Î
073E 'ESSÂSÂ SYRIAQUE SOUSCRIT 09C1 VOYELLE DIACRITIQUE BENGALI OU
073F REWÂHHÂ SYRIAQUE 09C2 VOYELLE DIACRITIQUE BENGALI OÛ
0740 POINT FÉMININ SYRIAQUE 09C3 VOYELLE DIACRITIQUE BENGALI R VOCALIQUE
0741 QOUCHCHÂI SYRIAQUE 09C4 VOYELLE DIACRITIQUE BENGALI RR VOCALIQUE
0742 ROUKKÂKH SYRIAQUE 09C7 VOYELLE DIACRITIQUE BENGALI É
0743 DEUX POINTS VERTICAUX SYRIAQUES EN CHEF 09C8 VOYELLE DIACRITIQUE BENGALI AÏ
0744 DEUX POINTS VERTICAUX SYRIAQUES 09CB VOYELLE DIACRITIQUE BENGALI Ô
SOUSCRITS 09CC VOYELLE DIACRITIQUE BENGALI AOU
0745 TROIS POINTS SYRIAQUES EN CHEF 09CD SYMBOLE BENGALI VIRÂMA
0746 TROIS POINTS SYRIAQUES SOUSCRITS 09D7 SIGNE DE LONGUEUR BENGALI AOU
0747 LIGNE OBLIQUE SYRIAQUE EN CHEF 09E2 VOYELLE DIACRITIQUE BENGALI L VOCALIQUE
0748 LIGNE OBLIQUE SYRIAQUE SOUSCRITE 09E3 VOYELLE DIACRITIQUE BENGALI LL VOCALIQUE
0749 MUSIQUE SYRIAQUE 0A02 SYMBOLE GOURMOUKHÎ BINDI
074A BARREKH SYRIAQUE 0A3C SYMBOLE GOURMOUKHÎ NOUKTA
07A6 THÂNA ABAFILI 0A3E VOYELLE DIACRITIQUE GOURMOUKHÎ Â
07A7 THÂNA ÂBÂFILI 0A3F VOYELLE DIACRITIQUE GOURMOUKHÎ I
07A8 THÂNA IBIFILI 0A40 VOYELLE DIACRITIQUE GOURMOUKHÎ Î
07A9 THÂNA ÎBÎFILI 0A41 VOYELLE DIACRITIQUE GOURMOUKHÎ OU
07AA THÂNA OUBOUFILI 0A42 VOYELLE DIACRITIQUE GOURMOUKHÎ OÛ
07AB THÂNA OÛBOÛFILI 0A47 VOYELLE DIACRITIQUE GOURMOUKHÎ Ê
07AC THÂNA ÉBÉFILI 0A48 VOYELLE DIACRITIQUE GOURMOUKHÎ AÏ
07AD THÂNA ÊBÊFILI 0A4B VOYELLE DIACRITIQUE GOURMOUKHÎ Ô
07AE THÂNA OBOFILI 0A4C VOYELLE DIACRITIQUE GOURMOUKHÎ AOU
07AF THÂNA ÔBÔFILI 0A4D SYMBOLE GOURMOUKHÎ VIRÂMA
07B0 THÂNA SOUKOUN 0A70 TIPPI GOURMOUKHÎ
0901 SYMBOLE DÉVANÂGARÎ TCHANDRABINDOU 0A71 ADDAK GOURMOUKHÎ
0902 SYMBOLE DÉVANÂGARÎ ANOUSVÂRA 0A81 SYMBOLE GOUDJARATI TCHANDRABINDOU
0903 SYMBOLE DÉVANÂGARÎ VISARGA 0A82 SYMBOLE GOUDJARATI ANOUSVÂRA
093C SYMBOLE DÉVANÂGARÎ NOUKTA 0A83 SYMBOLE GOUDJARATI VISARGA
093E VOYELLE DIACRITIQUE DÉVANÂGARÎ Â 0ABC SYMBOLE GOUDJARATI NOUKTA
093F VOYELLE DIACRITIQUE DÉVANÂGARÎ I 0ABE VOYELLE DIACRITIQUE GOUDJARATI Â
0940 VOYELLE DIACRITIQUE DÉVANÂGARÎ Î 0ABF VOYELLE DIACRITIQUE GOUDJARATI I
0941 VOYELLE DIACRITIQUE DÉVANÂGARÎ OU 0AC0 VOYELLE DIACRITIQUE GOUDJARATI Î
0942 VOYELLE DIACRITIQUE DÉVANÂGARÎ OÛ 0AC1 VOYELLE DIACRITIQUE GOUDJARATI OU
0943 VOYELLE DIACRITIQUE DÉVANÂGARÎ R 0AC2 VOYELLE DIACRITIQUE GOUDJARATI OÛ
VOCALIQUE 0AC3 VOYELLE DIACRITIQUE GOUDJARATI R
0944 VOYELLE DIACRITIQUE DÉVANÂGARÎ RR VOCALIQUE
VOCALIQUE 0AC4 VOYELLE DIACRITIQUE GOUDJARATI RR
0945 VOYELLE DIACRITIQUE DÉVANÂGARÎ É VOCALIQUE
TCHANDRA 0AC5 VOYELLE DIACRITIQUE GOUDJARATI É
0946 VOYELLE DIACRITIQUE DÉVANÂGARÎ É BREF TCHANDRA
0947 VOYELLE DIACRITIQUE DÉVANÂGARÎ É 0AC7 VOYELLE DIACRITIQUE GOUDJARATI É
0948 VOYELLE DIACRITIQUE DÉVANÂGARÎ AÏ 0AC8 VOYELLE DIACRITIQUE GOUDJARATI AÏ
0949 VOYELLE DIACRITIQUE DÉVANÂGARÎ O 0AC9 VOYELLE DIACRITIQUE GOUDJARATI O
TCHANDRA TCHANDRA
094A VOYELLE DIACRITIQUE DÉVANÂGARÎ O BREF 0ACB VOYELLE DIACRITIQUE GOUDJARATI Ô
094B VOYELLE DIACRITIQUE DÉVANÂGARÎ Ô 0ACC VOYELLE DIACRITIQUE GOUDJARATI AOU
094C VOYELLE DIACRITIQUE DÉVANÂGARÎ AOU 0ACD SYMBOLE GOUDJARATI VIRÂMA
094D SYMBOLE DÉVANÂGARÎ VIRÂMA 0B01 SYMBOLE ORIYA TCHANDRABINDOU
0951 SIGNE D'ACCENTUATION DÉVANÂGARÎ 0B02 SYMBOLE ORIYA ANOUSVÂRA
OUDATTA 0B03 SYMBOLE ORIYA VISARGA
0952 SIGNE D'ACCENTUATION DÉVANÂGARÎ 0B3C SYMBOLE ORIYA NOUKTA
ANOUDATTA 0B3E VOYELLE DIACRITIQUE ORIYA Â
0953 ACCENT GRAVE DÉVANÂGARÎ 0B3F VOYELLE DIACRITIQUE ORIYA I
0954 ACCENT AIGU DÉVANÂGARÎ 0B40 VOYELLE DIACRITIQUE ORIYA Î
0962 VOYELLE DIACRITIQUE DÉVANÂGARÎ L 0B41 VOYELLE DIACRITIQUE ORIYA OU
VOCALIQUE 0B42 VOYELLE DIACRITIQUE ORIYA OÛ
0963 VOYELLE DIACRITIQUE DÉVANÂGARÎ LL 0B43 VOYELLE DIACRITIQUE ORIYA R VOCALIQUE
VOCALIQUE 0B47 VOYELLE DIACRITIQUE ORIYA É
0981 SYMBOLE BENGALI TCHANDRABINDOU 0B48 VOYELLE DIACRITIQUE ORIYA AÏ
0982 SYMBOLE BENGALI ANOUSVÂRA 0B4B VOYELLE DIACRITIQUE ORIYA Ô
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
0B4C VOYELLE DIACRITIQUE ORIYA AOU
0D43 VOYELLE DIACRITIQUE MALAYALAM R
0B4D SYMBOLE ORIYA VIRÂMA VOCALIQUE
0B56 SIGNE DE LONGUEUR ORIYA AÏ 0D46 VOYELLE DIACRITIQUE MALAYALAM É
0B57 SIGNE DE LONGUEUR ORIYA AOU 0D47 VOYELLE DIACRITIQUE MALAYALAM Ê
0B82 SYMBOLE TAMOUL ANOUSVÂRA 0D48 VOYELLE DIACRITIQUE MALAYALAM AÏ
0B83 SYMBOLE TAMOUL VISARGA 0D4A VOYELLE DIACRITIQUE MALAYALAM O
0BBE VOYELLE DIACRITIQUE TAMOUL Â 0D4B VOYELLE DIACRITIQUE MALAYALAM Ô
0BBF VOYELLE DIACRITIQUE TAMOUL I 0D4C VOYELLE DIACRITIQUE MALAYALAM AOU
0BC0 VOYELLE DIACRITIQUE TAMOUL Î 0D4D SYMBOLE MALAYALAM VIRÂMA
0BC1 VOYELLE DIACRITIQUE TAMOUL OU 0D57 SIGNE DE LONGUEUR MALAYALAM AOU
0BC2 VOYELLE DIACRITIQUE TAMOUL OÛ 0D82 SYMBOLE SINGHALAIS ANOUSVÂRAYA
0BC6 VOYELLE DIACRITIQUE TAMOUL É 0D83 SYMBOLE SINGHALAIS VISARGAYA
0BC7 VOYELLE DIACRITIQUE TAMOUL Ê 0DCA SYMBOLE SINGHALAIS AL-LAKOUNA
0BC8 VOYELLE DIACRITIQUE TAMOUL AÏ 0DCF VOYELLE DIACRITIQUE SINGHALAISE ÆLA-PILLA
0BCA VOYELLE DIACRITIQUE TAMOUL O 0DD0 VOYELLE DIACRITIQUE SINGHALAISE KÉTTI
0BCB VOYELLE DIACRITIQUE TAMOUL Ô ÆDA-PILLA
0BCC VOYELLE DIACRITIQUE TAMOUL AOU 0DD1 VOYELLE DIACRITIQUE SINGHALAISE DIGA ÆDA-
0BCD SYMBOLE TAMOUL VIRÂMA PILLA
0BD7 SIGNE DE LONGUEUR TAMOUL AOU 0DD2 VOYELLE DIACRITIQUE SINGHALAISE KÉTTI IS-
0C01 SYMBOLE TÉLOUGOU TCHANDRABINDOU PILLA
0C02 SYMBOLE TÉLOUGOU ANOUSVÂRA 0DD3 VOYELLE DIACRITIQUE SINGHALAISE DIGA IS-
0C03 SYMBOLE TÉLOUGOU VISARGA PILLA
0C3E VOYELLE DIACRITIQUE TÉLOUGOU Â 0DD4 VOYELLE DIACRITIQUE SINGHALAISE KÉTTI PÂ-
0C3F VOYELLE DIACRITIQUE TÉLOUGOU I PILLA
0C40 VOYELLE DIACRITIQUE TÉLOUGOU Î 0DD6 VOYELLE DIACRITIQUE SINGHALAISE DIGA PÂ-
0C41 VOYELLE DIACRITIQUE TÉLOUGOU OU PILLA
0C42 VOYELLE DIACRITIQUE TÉLOUGOU OÛ 0DD8 VOYELLE DIACRITIQUE SINGHALAISE GÆTTA-
0C43 VOYELLE DIACRITIQUE TÉLOUGOU R PILLA
VOCALIQUE 0DD9 VOYELLE DIACRITIQUE SINGHALAISE
0C44 VOYELLE DIACRITIQUE TÉLOUGOU RR KOMBOUVA
VOCALIQUE 0DDA VOYELLE DIACRITIQUE SINGHALAIS DIGA
0C46 VOYELLE DIACRITIQUE TÉLOUGOU E KOMBOUVA
0C47 VOYELLE DIACRITIQUE TÉLOUGOU Ê 0DDB VOYELLE DIACRITIQUE SINGHALAISE KOMBOU
0C48 VOYELLE DIACRITIQUE TÉLOUGOU AÏ DEKA
0C4A VOYELLE DIACRITIQUE TÉLOUGOU O 0DDC VOYELLE DIACRITIQUE SINGHALAIS KOMBOUVA
0C4B VOYELLE DIACRITIQUE TÉLOUGOU Ô HAA ÆLA-PILLA
0C4C VOYELLE DIACRITIQUE TÉLOUGOU AOU 0DDD VOYELLE DIACRITIQUE SINGHALAISE
0C4D SYMBOLE TÉLOUGOU VIRÂMA KOMBOUVA HAA DIGA ÆLA-PILLA
0C55 SIGNE DE LONGUEUR TÉLOUGOU 0DDE VOYELLE DIACRITIQUE SINGHALAISE
0C56 SIGNE DE LONGUEUR TÉLOUGOU AÏ KOMBOUVA HAA GAYANOUKITTA
0C82 SYMBOLE KANNARA ANOUSVÂRA 0DDF VOYELLE DIACRITIQUE SINGHALAIS
0C83 SYMBOLE KANNARA VISARGA GAYANOUKITTA
0CBE VOYELLE DIACRITIQUE KANNARA Â 0DF2 VOYELLE DIACRITIQUE SINGHALAISE DIGA
0CBF VOYELLE DIACRITIQUE KANNARA I GÆTTA-PILLA
0CC0 VOYELLE DIACRITIQUE KANNARA Î 0DF3 VOYELLE DIACRITIQUE SINGHALAISE DIGA
0CC1 VOYELLE DIACRITIQUE KANNARA OU GAYANOUKITTA
0CC2 VOYELLE DIACRITIQUE KANNARA OÛ 0E31 LETTRE THAÏE MAI HAN AKAT
0CC3 VOYELLE DIACRITIQUE KANNARA R VOCALIQUE 0E34 LETTRE THAÏE SARA I
0CC4 VOYELLE DIACRITIQUE KANNARA RR 0E35 LETTRE THAÏE SARA Î
VOCALIQUE 0E36 LETTRE THAÏE SARA OUÉ
0CC6 VOYELLE DIACRITIQUE KANNARA É 0E37 LETTRE THAÏE SARA OUÊ
0CC7 VOYELLE DIACRITIQUE KANNARA Ê 0E38 LETTRE THAÏE SARA OU
0CC8 VOYELLE DIACRITIQUE KANNARA AÏ 0E39 LETTRE THAÏE SARA OÛ
0CCA VOYELLE DIACRITIQUE KANNARA O 0E3A LETTRE THAÏE PHINTHOU
0CCB VOYELLE DIACRITIQUE KANNARA Ô 0E47 LETTRE THAÏE MAÏTAÏKHOU
0CCC VOYELLE DIACRITIQUE KANNARA AOU 0E48 LETTRE THAÏE MAÏ EK
0CCD SYMBOLE KANNARA VIRÂMA 0E49 LETTRE THAÏE MAÏ THO
0CD5 SIGNE DE LONGUEUR KANNARA 0E4A LETTRE THAÏE MAÏ TRI
0CD6 SIGNE DE LONGUEUR KANNARA AÏ 0E4B LETTRE THAÏE MAÏ TCHATTAWA
0D02 SYMBOLE MALAYALAM ANOUSVÂRA 0E4C LETTRE THAÏE THANTHAKHAT
0D03 SYMBOLE MALAYALAM VISARGA 0E4D LETTRE THAÏE NIKHAHIT
0D3E VOYELLE DIACRITIQUE MALAYALAM Â 0E4E LETTRE THAÏE YAMAKKAN
0D3F VOYELLE DIACRITIQUE MALAYALAM I 0EB1 VOYELLE DIACRITIQUE LAOTIENNE MAÏ KAN
0D40 VOYELLE DIACRITIQUE MALAYALAM Î 0EB4 VOYELLE DIACRITIQUE LAOTIENNE I
0D41 VOYELLE DIACRITIQUE MALAYALAM OU 0EB5 VOYELLE DIACRITIQUE LAOTIENNE Î
0D42 VOYELLE DIACRITIQUE MALAYALAM OÛ 0EB6 VOYELLE DIACRITIQUE LAOTIENNE U
ISO/CEI 10646-1 : 2000(F) ã ISO/CEI
0EB7 VOYELLE DIACRITIQUE LAOTIENNE UU
0FA8 LETTRE TIBÉTAINE MA SUBJOINTE
0EB8 VOYELLE DIACRITIQUE LAOTIENNE OU 0FA9 LETTRE TIBÉTAINE TSA SUBJOINTE
0EB9 VOYELLE DIACRITIQUE LAOTIENNE OÛ 0FAA LETTRE TIBÉTAINE TSHA SUBJOINTE
0EBB VOYELLE DIACRITIQUE LAOTIENNE MAÏ KON 0FAB LETTRE TIBÉTAINE DZA SUBJOINTE
0EBC DEMI-VOYELLE DIACRITIQUE LAOTIENNE LO 0FAC LETTRE TIBÉTAINE DZHA SUBJOINTE
0EC8 MARQUE DE TON LAOTIEN MAÏ ÉK 0FAD LETTRE TIBÉTAINE WA SUBJOINTE
0EC9 MARQUE DE TON LAOTIEN MAÏ THO 0FAE LETTRE TIBÉTAINE ZHA SUBJOINTE
0ECA MARQUE DE TON LAOTIEN MAÏ TI 0FAF LETTRE TIBÉTAINE ZA SUBJOINTE
0ECB MARQUE DE TON LAOTIEN MA TCHATAWA 0FB0 LETTRE TIBÉTAINE 'A SUBJOINTE
0ECC SIGNE D'ANNULATION LAOTIEN 0FB1 LETTRE TIBÉTAINE YA SUBJOINTE
0ECD SYMBOLE LAOTIEN NIGGAHITA 0FB2 LETTRE TIBÉTAINE RA SUBJOINTE
0F18 SIGNE TIBÉTAIN ASTROLOGIQUE 'KHYUD PA 0FB3 LETTRE TIBÉTAINE LA SUBJOINTE
0F19 SIGNE TIBÉTAIN ASTROLOGIQUE SDONG 0FB4 LETTRE TIBÉTAINE SHA UBJOINTE
TSHUGS 0FB5 LETTRE TIBÉTAINE SSA SUBJOINTE
0F35 SIGNE TIBÉTAIN NGAS BZUNG ÑI ZLA 0FB6 LETTRE TIBÉTAINE SA SUBJOINTE
0F37 SIGNE TIBÉTAIN NGAS BZUNG SGOR RTAGS 0FB7 LETTRE TIBÉTAINE HA SUBJOINTE
0F39 SIGNE TIBÉTAIN TSA 'PHRU 0FB8 LETTRE TIBÉTAINE A SUBJOINTE
0F3E SIGNE TIBÉTAIN YAR TSHES 0FB9 LETTRE TIBÉTAINE KSSA SUBJOINTE KSSA
0F3F SIGNE TIBÉTAIN MAR TSHES 0FBA LETTRE TIBÉTAINE WA SUBJOINTE À FORME
0F71 VOYELLE DIACRITIQUE TIBÉTAINE Â FIXE
0F72 VOYELLE DIACRITIQUE TIBÉTAINE I 0FBB LETTRE TIBÉTAINE SUBJOINTE YA À FORME
0F73 VOYELLE DIACRITIQUE TIBÉTAINE Î FIXE
0F74 VOYELLE DIACRITIQUE TIBÉTAINE OU 0FBC LETTRE TIBÉTAINE SUBJOINTE RA À FORME
0F75 VOYELLE DIACRITIQUE TIBÉTAINE OÛ FIXE
0F76 VOYELLE DIACRITIQUE TIBÉTAINE R VOCALIQUE 0FC6 SYMBOLE TIBÉTAIN PADMA GDAN
0F77 VOYELLE DIACRITIQUE TIBÉTAINE RR 102C VOYELLE DIACRITIQUE BIRMANE Â
VOCALIQUE 102D VOYELLE DIACRITIQUE BIRMANE I
0F78 VOYELLE DIACRITIQUE TIBÉTAINE L VOCALIQUE 102E VOYELLE DIACRITIQUE BIRMANE Î
0F79 VOYELLE DIACRITIQUE TIBÉTAINE LL 102F VOYELLE DIACRITIQUE BIRMANE OU
VOCALIQUE 1030 VOYELLE DIACRITIQUE BIRMANE OÛ
0F7A VOYELLE DIACRITIQUE TIBÉTAINE É 1031 VOYELLE DIACRITIQUE BIRMANE É
0F7B VOYELLE DIACRITIQUE TIBÉTAINE Ê 1032 VOYELLE DIACRITIQUE BIRMANE AÏ
0F7C VOYELLE DIACRITIQUE TIBÉTAINE O 1036 SYMBOLE BIRMAN ANOUSVÂRA
0F7D VOYELLE DIACRITIQUE TIBÉTAINE Ô 1037 POINT SOUSCRIT BIRMAN
0F7E SIGNE TIBÉTAIN RJES SO NGA RO 1038 VISARGA BIRMAN
0F7F SIGNE TIBÉTAIN RNAM BCAD 1039 SYMBOLE BIRMAN VIRÂMA
0F80 VOYELLE DIACRITIQUE I RÉFLÉCHI 1056 VOYELLE DIACRITIQUE BIRMANE R VOCALIQUE
0F81 VOYELLE DIACRITIQUE Î RÉFLÉCHI 1057 VOYELLE DIACRITIQUE BIRMANE RR VOCALIQUE
0F82 SIGNE TIBÉTAIN ÑI ZLA NÂ DA 1058 VOYELLE DIACRITIQUE BIRMANE L VOCALIQUE
0F83 SIGNE TIBÉTAIN SNA LDAN 1059 VOYELLE DIACRITIQUE BIRMANE LL VOCALIQUE
0F84 SIGNE TIBÉTAIN HALANTA 17B4 VOYELLE KHMÈRE INHÉRENTE A
0F86 SIGNE TIBÉTAIN LCI RTAGS 17B5 VOYELLE KHMÈRE INHÉRENTE Â
0F87 SIGNE TIBÉTAIN YANG RTAGS 17B6 VOYELLE DIACRITIQUE KHMÈRE Â
0F90 LETTRE TIBÉTAINE KA SUBJOINTE 17B7 VOYELLE DIACRITIQUE KHMÈRE I
0F91 LETTRE TIBÉTAINE KHA SUBJOINTE 17B8 VOYELLE DIACRITIQUE KHMÈRE Î
0F92 LETTRE TIBÉTAINE GA SUBJOINTE 17B9 VOYELLE DIACRITIQUE KHMÈRE Ü
0F93 LETTRE TIBÉTAINE GHA SUBJOINTE 17BA VOYELLE DIACRITIQUE KHMÈRE ÜÜ
0F94 LETTRE TIBÉTAINE NGA SUBJOINTE 17BB VOYELLE DIACRITIQUE KHMÈRE OU
0F95 LETTRE TIBÉTAINE CA SUBJOINTE 17BC VOYELLE DIACRITIQUE KHMÈRE OÛ
0F96 LETTRE TIBÉTAINE CHA SUBJOINTE 17BD VOYELLE DIACRITIQUE KHMÈRE OUA
0F97 LETTRE TIBÉTAINE JA SUBJOINTE 17BE VOYELLE DIACRITIQUE KHMÈRE OE
0F99 LETTRE TIBÉTAINE ÑASUBJOINTE 17BF VOYELLE DIACRITIQUE KHMÈRE ÜŒ
0F9A LETTRE TIBÉTAINE TTA SUBJOINTE 17C0 VOYELLE DIACRITIQUE KHMÈRE IÉ
0F9B LETTRE TIBÉTAINE TTHA SUBJOINTE 17C1 VOYELLE DIACRITIQUE KHMÈRE É
0F9C LETTRE TIBÉTAINE DDA SUBJOINTE 17C2 VOYELLE DIACRITIQUE KHMÈRE È
0F9D LETTRE TIBÉTAINE DDHA SUBJOINTE 17C3 VOYELLE DIACRITIQUE KHMÈRE AÏ
0F9E LETTRE TIBÉTAINE NNA SUBJOINTE 17C4 VOYELLE DIACRITIQUE KHMÈRE Ô
0F9F LETTRE TIBÉTAINE TA SUBJOINTE 17C5 VOYELLE DIACRITIQUE KHMÈRE AOU
0FA0 LETTRE TIBÉTAINE THA SUBJOINTE 17C6 SIGNE KHMER NIKAHIT
0FA1 LETTRE TIBÉTAINE DA SUBJOINTE 17C7 SIGNE KHMER RÉAHMOUK
0FA2 LETTRE TIBÉTAINE DHA SUBJOINTE 17C8 SIGNE KHMER YOÛKALÉAPINTOU
0FA3 LETTRE TIBÉTAINE NA SUBJOINTE 17C9 SIGNE KHMER MOÛSIKATOAN
0FA4 LETTRE TIBÉTAINE PA SUBJOINTE 17CA SIGNE KHMER TRÎSAP
0FA5 LETTRE TIBÉTAINE PHA SUBJOINTE 17CB SIGNE KHMER BANTOTCH
0FA6 LETTRE TIBÉTAINE BA SUBJOINTE 17CC SIGNE KHMER ROBAT
0FA7 LETTRE TIBÉTAINE BHA SUBJOINTE 17CD SIGNE KHMER TOANDAKHIAT
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
17CE SIGNE KHMER KAKABAT
17CF SIGNE KHMER AHSDA
17D0 SIGNE KHMER SAÑÑOK SAÑÑA
17D1 SIGNE KHMER VIRIAM
17D2 SIGNE KHMER TCHOENG
17D3 SIGNE KHMER BATHAMASAT
18A9 LETTRE MONGOLE DAGALGA ALI GALI
302A MARQUE IDÉOGRAPHIQUE DE TON FIXE
302B MARQUE IDÉOGRAPHIQUE DE TON ASCENDANT
302C MARQUE IDÉOGRAPHIQUE DE TON SORTANT
302D MARQUE IDÉOGRAPHIQUE DE TON ENTRANT
302E MARQUE DE TON HANGÛL POINT
302F MARQUE DE TON HANGÛL DOUBLE POINT
3099 DIACRITIQUE KATAKANA-HIRAGANA SON VOISÉ
309A DIACRITIQUE KATAKANA-HIRAGANA SON SEMI-
VOISÉ
FB1E POINT HÉBREU JUDÉO-ESPAGNOL VARIKA
ISO/CEI 10646-1 : 2000(F) ã ISO/CEI
05A7 ACCENT HÉBREU DARGA
B.2 Liste des caractères interdits au niveau 2 de
05A8 ACCENT HÉBREU QADMA
mise en œuvre
05A9 ACCENT HÉBREU TARSA
Les caractères des collections de sous-ensembles
05AA ACCENT HÉBREU YARÉAH BEN YOMO
suivantes sont interdits au niveau 2 de mise en
05AB ACCENT HÉBREU OLEH
œuvre : SIGNES COMBINATOIRES (0300 à 036F), 05AC ACCENT HÉBREU ILOUZ
05AD ACCENT HÉBREU DEHI
SIGNES COMBINATOIRES POUR SYMBOLES
05AE ACCENT HÉBREU TSINOR
(20D0 à 20FF), JAMOS HANGÛL (1100 à 11FF) et
05AF CERCLE MASSORÉTIQUE
DEMI-SIGNES COMBINATOIRES (FE20 à FE2F).
05C4 SIGNE HÉBREU POINT SUPÉRIEUR
Les caractères suivants sont également interdits :
093C SYMBOLE DÉVANÂGARÎ NOUKTA
0953 ACCENT GRAVE DÉVANÂGARÎ
NOTE : Cette liste est un sous-ensemble de la liste de
0954 ACCENT AIGU DÉVANÂGARÎ
l’article B.1, exception faite des JAMOS HANGÛL (voir 25.1).
09BC SYMBOLE BENGALI NOUKTA
0483 DIACRITIQUE CYRILLIQUE TITLO
09D7 SIGNE DE LONGUEUR BENGALI AOU
0484 DIACRITIQUE CYRILLIQUE DE PALATALISATION
0A3C SYMBOLE GOURMOUKHÎ NOUKTA
0485 DIACRITIQUE CYRILLIQUE DASIA PNEUMATA
0A70 TIPPI GOURMOUKHÎ
0486 DIACRITIQUE CYRILLIQUE PSILI PNEUMATA
0A71 ADDAK GOURMOUKHÎ
0591 ACCENT HÉBREU ATNAH
0ABC SYMBOLE GOUDJARATI NOUKTA
0592 ACCENT HÉBREU SEGOLTA
0B3C SYMBOLE ORIYA NOUKTA
0593 ACCENT HÉBREU CHALCHELET
0B56 SIGNE DE LONGUEUR ORIYA AÏ
0594 ACCENT HÉBREU ZAQEF QATON
0B57 SIGNE DE LONGUEUR ORIYA AOU
0595 ACCENT HÉBREU ZAQEF GADOL
0BD7 SIGNE DE LONGUEUR TAMOUL AOU
0596 ACCENT HÉBREU TARHA
0C55 SIGNE DE LONGUEUR TÉLOUGOU
0597 ACCENT HÉBREU RAVIA
0C56 SIGNE DE LONGUEUR TÉLOUGOU AÏ
0598 ACCENT HÉBREU ZARQA
0CD5 SIGNE DE LONGUEUR KANNARA
0599 ACCENT HÉBREU QADMA
0CD6 SIGNE DE LONGUEUR KANNARA AÏ
059A ACCENT HÉBREU YETIV
0D57 SIGNE DE LONGUEUR MALAYALAM AOU
059B ACCENT HÉBREU TEVIR
0F39 SIGNE TIBÉTAIN TSA 'PHRU
059C ACCENT HÉBREU GERICH
302A MARQUE IDÉOGRAPHIQUE DE TON FIXE
059D ACCENT HÉBREU GERICH MOUQDAM
302B MARQUE IDÉOGRAPHIQUE DE TON ASCENDANT
059E ACCENT HÉBREU CHENÉ GRICHINE
302C MARQUE IDÉOGRAPHIQUE DE TON SORTANT
059F ACCENT HÉBREU KARNÉ FARAH
302D MARQUE IDÉOGRAPHIQUE DE TON ENTRANT
05A0 ACCENT HÉBREU TALCHAH
302E MARQUE DE TON HANGÛL POINT
05A1 ACCENT HÉBREU PAZER GADOL
302F MARQUE DE TON HANGÛL DOUBLE POINT
05A3 ACCENT HÉBREU CHOFAR HOLEKH
3099 DIACRITIQUE KATAKANA-HIRAGANA SON VOISÉ
05A4 ACCENT HÉBREU CHOFAR MEHOUPPAKH
309A DIACRITIQUE KATAKANA-HIRAGANA SON SEMI-
05A5 ACCENT HÉBREU MÂRIKH
VOISÉ
05A6 ACCENT HÉBREU TERÉ TÂMÉ
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
Annexe C
(normative)
Format transformé pour 16 plans du groupe 00 (UTF-16)
NOTE : Le standard Unicode, version 3.0, définit les formes
UTF-16 fournit une représentation codée pour plus
suivantes d’UTF-16 :
d’un million de caractères graphiques de l’UCS-4 en
- UTF-16 : ordre des octets (6.3) non précisé et signature
une forme compatible avec la forme à deux octets
(annexe H) optionnelle ;
du PMB de l’UCS-2 (section 13.1). De la sorte, les - UTF-16BE : l’octet de poids fort précède l’octet de poids
faible, tel que précisé en 6.2 ; sans signature ;
caractères UCS-4 peuvent coexister avec des
- UTF-16LE : l’octet de poids faible précède l’octet de poids
données de caractères codés conformes à l’UCS-2.
fort ; sans signature.
En UTF-16, chaque caractère graphique du
C.2 Notation
répertoire de l’UCS-2 conserve sa représentation
1. Tous les nombres sont en notation hexa-
codée UCS-2. En outre, les représentations codées
décimale.
des caractères d’un bloc contigu formé de 16 plans
du groupe 00 (1 048 576 positions) sont formées de
2. Les seizets UTF-16 sont séparés par des points-
paires de seizets (4.32), où chacun des seizets
virgules.
correspond à une cellule d’un bloc contigu de 8
3. Le symbole « % » indique l’opération modulo,
rangées du PMB (2 048 positions). Ces positions
par exemple ; x % y = x modulo y.
sont réservées à cette forme de représentation
4. Le symbole « / » indique l’opération de division
codée et ne peuvent pas être utilisées à d’autres
entière ; par exemple, 7 / 3 = 2.
fins.
5. La hiérarchie des opérations est :
C.1 Définition d’UTF-16
division entière > opération modulo >
On définit UTF-16 de la manière suivante :
multiplication entière > addition entière.
1. La demi-zone haute d'indirection est constituée
C.3 De la forme UCS-4 à la forme UTF-16
des 4 rangées D8 à DB du PMB, c'est-à-dire des
UCS-4 (4-octets) UTF-16, seizets
1 024 positions de la zone S à partir de D800
jusqu'à DBFF.
x = 0000 0000 . x % 0001 0000;
0000 FFFF (cf. Note)
2. La demi-zone basse d'indirection est constituée
des 4 rangées DC à DF du PMB, c’est-à-dire
x = 0001 0000 . y; z;
des 1 024 positions de la zone S de DC00 à
0010 FFFF
DFFF.
où y = ((x - 0001 0000) / 400) + D800
3. Toutes les cellules des demi-zones haute et
z = ((x - 0001 0000) % 400) + DC00
basse sont réservées de façon définitive à la
forme de représentation codée UTF-16.
x = 0011 0000 . (la transformation
7FFF FFFF n’est pas définie)
4. En UTF-16, tout caractère du PMB est
représenté par son code UCS-2, telle que décrit
NOTE : Les positions de 0000 D800 à 0000 DFFF sont
réservées à la forme UTF-16 et ne concernent pas la forme
dans le corps de cette Norme internationale.
UCS-4. Les valeurs 0000 FFFE et 0000 FFFF sont aussi
5. En UTF-16, tout caractère du JUC dont la
exclues (voir article 8). La transformation de ces valeurs par
UTF-16 n’est pas définie.
représentation codée UCS-4 se retrouve dans
l'intervalle de 0001 0000 à 0010 FFFF est
représenté par une suite de seizets de la zone
S, le premier étant un seizet de la demi-zone
haute, le second un seizet la demi-zone basse.
L’algorithme de passage d’UCS-4 à UTF-16
pour ces caractères est décrit en C.3 ,
l’algorithme assurant le passage inverse est
décrit en C.4.
ISO/CEI 10646-1 : 2000(F) ã ISO/CEI
Exemple : de l’UTF-16 au système de codage ISO 2022 se fera
conformément à l'article 16.5, ceci pour un retour ou
La séquence UCS-4 [0000 0048] [0000 0069]
un transfert depuis le JUC.
[0001 0000] [0000 0021] [0000 0021]
C.6 Seizets non appariés : interprétation par les
représente « Hi<0001 0000>!! ».
dispositifs de réception
Elle se transforme sous UTF-16 en :
Selon C.1, un seizet non apparié (4.33) n’est pas
conforme à l’UTF-16.
[0048] [0069] [D800] [DC00] [0021] [0021]
Si un dispositif de réception ayant adopté la forme
Interprétée en UCS-2, cette suite vaut :
UTF-16 reçoit un seizet non apparié à la suite
« Hi
d’erreurs :
!! »
• dans le dispositif de départ,
C.4 De la forme UTF-16 à la forme UCS-4
• ou dans l’échange entre dispositifs de départ et
UTF-16, seizets UCS-4 (4-octets) de réception,
• ou enfin dans le dispositif de réception lui-même,
x = 0000; . D7FF; x
x = E000; . FFFF; x
le seizet non apparié sera interprété de la même
manière qu’un caractère qui ne fait pas partie du
paire (x, y) telle que
sous-ensemble adopté tel qu'il a été identifié pour le
x = D800; . DBFF; ((x - D800) * 400
dispositif (voir 2.3c).
y = DC00; . DFFF; + (y - DC00))
NOTE : Puisque qu’un seizet de la demi-zone haute suivi
+ 0001 0000
d’un seizet de la demi-zone basse est une suite conforme à
l’UTF-16, le seul type de suite syntaxiquement mal formée
Exemple :
possible est un seizet non apparié.
La suite UTF-16
Exemple :
[0048] [0069] [D800] [DC00] [0021] [0021]
Un dispositif qui ne gère que le répertoire latin de
base et utilise des carreaux ( à) pour l’affichage des
devient en UCS-4
caractères situés en dehors de ce répertoire
[0000 0048] [0000 0069] [0001 0000]
afficherait :
[0000 0021] [0000 0021]
« La lettre grecque S est la forme majuscule de la
et représente « Hi<0001 0000>!! ».
lettre s. »
C.5 Identification de l’UTF-16
comme :
Quand on utilise les séquences d’échappement de
« La lettre grecque à est la forme majuscule de la
l’ISO/CEI 2022, il y a lieu d'identifier qu'il est fait
lettre à. »
recours à l’UTF-16 et à un niveau de mise en œuvre
(cf. article 14) par une séquence de désignation
Par conséquent, un dispositif qui peut interpréter
choisie dans la liste suivante :
l’UTF-16 devra également afficher un carreau pour
chaque seizet non apparié.
ESC 02/05 02/15 04/10
UTF-16 avec niveau de mise en œuvre 1
C.7 Dispositifs de réception : recommandations
Quand un dispositif de réception interprète des
ESC 02/05 02/15 04/11
données CC conforme à UTF-16, les recom-
UTF-16 avec niveau de mise en œuvre 2
mandations suivantes s'appliquent :
ESC 02/05 02/15 04/12
1. L’UTF-16 est conçu pour être compatible avec la
UTF-16 avec niveau de mise en œuvre 3
forme à deux octets UCS-2 du PMB (13.1). Les
Si une telle séquence d’échappement apparaît dans
demi-zones haute et basse sont situées dans
un flux de données CC conforme à l’ISO/CEI 2022,
deux régions séparées, auxquelles aucun
elle ne devra comprendre que les combinaisons de
caractère ne peut être affecté. La fonction de
bits indiquées ci-dessus.
tout seizet (élément de deux octets) d’un flux
UTF-16 est ainsi immédiatement identifiable par
Si une telle séquence d’échappement apparaît dans
sa valeur, sans égard au contexte.
un flux de données CC conforme à l’ISO/CEI 10646,
elle sera bourrée conformément à l’article 15.
Par exemple, la suite UTF-16 valide [0048]
[0069] [D800] [DC00] [0021] [0021] peut être
Lors de l'utilisation de séquences d’échappement
interprétée, par un dispositif de réception ayant
ISO 2022, l’identification d'un retour ou d'un transfert
ã ISO/CEI ISO/CEI 10646-1 : 2000(F)
seulement adopté l’UCS-2, comme la (F) Mise en œuvre UTF-16 faible :
représentation codée de Interprétation d’un sous-ensemble non nul
de paires.
« Hi!! »
Aucune garantie d’intégrité des paires.
Cette forme de compatibilité est possible parce
(I) Mise en œuvre UTF-16 informée :
que les seizets de la zone S sont interprétés soit
Aucune interprétation de paires.
selon l’UTF-16 par les dispositifs ayant adopté
Garantie d’intégrité des paires.
l’UTF-16, soit comme des caractères inconnus
par les dispositifs n’ayant adopté que l’UCS-2. (C) Mise en œuvre UTF-16 complète :
Un dispositif de départ peut ainsi transmettre de Inte
...
NORME ISO/CEI
INTERNATIONALE 10646-1
Deuxième édition
2000-09-15
Technologies de l'information — Jeu
universel de caractères codés sur
plusieurs octets (JUC) —
Partie 1:
Architecture et plan multilingue de base
Information technology — Universal Multiple-Octet Coded Character
Set (UCS) —
Part 1: Architecture and Basic Multilingual Plane
Numéro de référence
ISO/CEI 10646-1:2000(F)
©
ISO/CEI 2000
ISO/CEI 10646-1:2000(F)
PDF – Exonération de responsabilité
Le présent fichier PDF peut contenir des polices de caractères intégrées. Conformément aux conditions de licence d'Adobe, ce fichier peut
être imprimé ou visualisé, mais ne doit pas être modifiéà moins que l'ordinateur employéà cet effet ne bénéficie d'une licence autorisant
l'utilisation de ces polices et que celles-ci y soient installées. Lors du téléchargement de ce fichier, les parties concernées acceptent de fait la
responsabilité de ne pas enfreindre les conditions de licence d'Adobe. Le Secrétariat central de l'ISO décline toute responsabilité en la
matière.
Adobe est une marque déposée d'Adobe Systems Incorporated.
Les détails relatifs aux produits logiciels utilisés pour la créationduprésent fichier PDF sont disponibles dans la rubrique General Info du
fichier; les paramètres de création PDF ont été optimisés pour l'impression. Toutes les mesures ont été prises pour garantir l'exploitation de
ce fichier par les comités membres de l'ISO. Dans le cas peu probable où surviendrait un problème d'utilisation, veuillez en informer le
Secrétariat central à l'adresse donnée ci-dessous.
© ISO/CEI 2000
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous quelque
forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l'accord écrit de l’ISO à
l’adresse ci-aprèsouducomité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 � CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax. + 41 22 749 09 47
E-mail copyright@iso.ch
Web www.iso.ch
Imprimé en Suisse
ii © ISO/CEI 2000 – Tous droits réservés
© ISO/CEI ISO/CEI 10646-1 : 2000(F)
Sommaire
Page
1 Domaine d’application .1
2 Conformité .1
3 Références normatives.2
4 Définitions.2
5 Structure générale du JUC.4
6 Structure de base et nomenclature .5
7 Caractéristiques particulières du JUC.8
8 Plan multilingue de base .8
9 Autres plans.9
10 Groupes, plans et zones à usage privé.9
11 Révision et mise à jour du JUC .9
12 Sous-ensembles.9
13 Formes de représentation codée du JUC .10
14 Niveaux de mise en œuvre.10
15 Utilisation des fonctions de commande avec le JUC .10
16 Déclaration d’identification des caractéristiques .11
17 Structure des tableaux et des listes de code.12
18 Noms de bloc.13
19 Caractères en contexte bidirectionnel.13
20 Caractères spéciaux.13
21 Formes de présentation des caractères.13
22 Caractères de compatibilité.14
23 Ordre des caractères.14
24 Caractères combinatoires ou diacritiques .14
25 Caractéristiques de certains systèmes d'écriture.15
26 Tableaux de code et listes de noms de caractères.16
27 Idéogrammes unifiés CJC .306
Annexes
A Collections de caractères graphiques pour les sous-ensembles.883
B Liste des caractères combinatoires.889
C Format de transformation pour 16 plans du groupe 00 (UTF-16) .895
D Format transformé 8 du JUC (UTF-8) .898
E Caractères miroirs en contexte bidirectionnel arabe.902
F Caractères de formatage optionnels .904
iii
ISO/CEI 10646-1 : 2000(F) © ISO/CEI
G Liste alphabétique des noms de caractères . 909
H L’utilisation de « signatures » pour identifier le JUC. 964
J Recommandations pour les dispositifs combinés de réception et
d'émission à mémoire interne. 965
K Notation des représentations de valeurs d’octet. 966
L Conseils pour le choix des noms de caractères . 967
M Sources des caractères . 970
N Références externes à des répertoires de caractères. 974
P Information complémentaire sur les caractères. 976
Q Correspondance des syllabes hangûl. 979
R Noms des syllabes hangûl. 989
S Procédure pour l'unification et la disposition des idéogrammes CJC. 1000
iv
© ISO/CEI ISO/CEI 10646-1 : 2000(F)
Avant-propos
L'ISO (Organisation internationale de normalisation) et la CEI (Commission
électrotechnique internationale) forment le système spécialisé de la normalisation
mondiale. Les organismes nationaux membres de l'ISO ou de la CEI participent au
développement de Normes internationales par l'intermédiaire des comités
techniques créés par l'organisation concernée afin de s'occuper des domaines
particuliers de l'activité technique. Les comités techniques de l'ISO et de la CEI
collaborent dans des domaines d'intérêt commun. D'autres organisations
internationales, gouvernementales et non gouvernementales, en liaison avec l'ISO
et la CEI participent également aux travaux.
Les Normes internationales sont rédigées conformément aux règles données dans
les Directives ISO/CEI, Partie 3.
Dans le domaine des technologies de l'information, l'ISO et la CEI ont créé un
comité technique mixte, l'ISO/CEI JTC 1. Les projets de Normes internationales
adoptés par le comité technique mixte sont soumis aux organismes nationaux pour
vote. Leur publication comme Normes internationales requiert l'approbation de
75 % au moins des organismes nationaux votants.
L’attention est appelée sur le fait que certains des élémentsdelaprésente partie
de l’ISO/CEI 10646 peuvent faire l’objet de droits de propriété intellectuelle ou de
droits analogues. L’ISO et la CEI ne sauraient être tenues pour responsables de
ne pas avoir identifié de tels droits de propriété et averti de leur existence.
La Norme internationale ISO/CEI 10646-1 a étéélaborée par le comité technique
mixte ISO/CEI JTC 1, Technologies de l'information, sous-comité SC 2, Jeux de
caractères codés.
Cette deuxième édition annule et remplace la première édition
(ISO/CEI 10646-1:1993), qui a fait l'objet d'une révision technique. Elle incorpore
aussi les Amendements 1 à 13, 16 à 21, et 23, ainsi que les Rectificatifs
techniques 1 et 2, relatifs à la première édition.
L'ISO/CEI 10646 comprend les parties suivantes, présentées sous le titre général
Technologies de l'information — Jeu universel de caractères codés sur plusieurs
octets (JUC):
� Partie 1: Architecture et plan multilingue de base
� Partie 2: Plan multilingue secondaire pour caractères et symboles, plan
supplémentaire pour idéogrammes CJK, plan à but particulier
Des parties complémentaires définiront d'autres plans.
Les annexes A à D constituent des éléments normatifs de la présente partie de
l'ISO/CEI 10646. Les annexes E à S sont données uniquement à titre
d'information.
v
ISO/CEI 10646-1 : 2000(F) © ISO/CEI
Introduction
L’ISO/CEI 10646 normalise le jeu universel de caractères codés sur plusieurs
octets (JUC). Elle s’applique à la représentation, à la transmission, à l’échange,
au traitement, à la sauvegarde, à la saisie et à la présentation des langues du
monde sous forme écrite et de symboles complémentaires.
La présente partie de l’ISO/CEI 10646 traite de l’architecture globale et du plan
multilingue de base du JUC.
vi
ISO/CEI 10646-1 : 2000(F)
NORME INTERNATIONALE © ISO/CEI
Technologies de l'information — Jeu universel de
caractères codés sur plusieurs octets (JUC) —
Partie 1:
Architecture et plan multilingue de base
partie 1 de la présente norme internationale après réception
1 Domaine d'application
de suffisamment de données et analyse par les organismes
de normalisation nationaux ou des experts compétents.
L'ISO/CEI 10646 normalise le jeu universel de
caractères codés sur plusieurs octets (JUC). Elle
s'applique à la représentation, à la transmission, à 2 Conformité
l'échange, au traitement, au stockage, à la saisie et à
2.1 Généralités
la présentation des langues du monde sous forme
En cas d’utilisation de caractères à usage privé, telle
écrite et de symboles complémentaires.
que précisée dans l'ISO/CEI 10646, les présentes
La présente partie de l'ISO/CEI 10646 traite de
exigences de conformité ne s’appliquent pas à ces
l'architecture générale et
caractères.
· définit les termes utilisés dans l'ISO/CEI 10646 ;
2.2 Conformité de l'échange d'information
Une donnée sous forme de caractères codés
· décrit la structure générale du jeu de caractères
(donnée CC), au sein d'une information codée
codés ;
destinée à être échangée, est en conformité avec
· décrit le plan multilingue de base (PMB) du JUC et
l'ISO/CEI 10646 si
définit un ensemble de caractères graphiques utilisés
a) toutes les représentations codées des caractères
dans la forme écrite des langues à l'échelle
graphiques de la donnée CC sont conformes aux
mondiale ;
articles 6 et 7, à une forme identifiée choisie dans
· nomme et établit la représentation codée des
l'article 13, dans l’annexe C ou dans l’annexe D et à
caractères graphiques du PMB ;
un niveau de mise en œuvre identifié choisi selon
l'article 14 ;
· prescrit la forme canonique à quatre octets (32 bits)
du JUC : UCS-4 ;
b) tous les caractères graphiques représentés dans
cette donnée CC proviennent d’un sous-ensemble
· précise une forme du PMB à deux octets (16 bits)
identifié (article 12) ;
pour le JUC : UCS-2 ;
c) toutes les représentations codées des fonctions
· établit la représentation codée des fonctions de
de commande dans cette donnée CC sont conformes
commandes ;
à l'article 15.
· établit la gestion de tout développement ultérieur du
Une déclaration de conformité doit identifier la forme
présent jeu de caractères codés.
adoptée, le niveau de mise en œuvre adopté et, au
moyen d'une liste de collections ou de caractères, le
Le JUC est un système de codage différent de celui
sous-ensemble adopté.
décrit dans l'ISO/CEI 2022. La méthode employée
pour désigner le JUC à partir de l'ISO/CEI 2022 est
2.3 Conformité des dispositifs
précisée en 16.2.
Un dispositif est en conformité avec l'ISO/CEI 10646
NOTE 1 : Le standard Unicode, version 3.0, établit un jeu de
s'il satisfait aux exigences du point a) ci-dessous,
caractères et des représentations codées identiques à ceux
ainsi qu’à celles du point b) ou du point c) ou des
de la partie 1 de la présente norme internationale. Il fournit
également des précisions sur les propriétés des caractères
deux.
ainsi que des algorithmes de traitement et des définitions
NOTE : Le terme dispositif est défini (en 4.12) comme
utiles aux développeurs de logiciels.
élément d'un matériel de traitement de l'information qui peut
NOTE 2 : Il est prévu que des positions de code de caractère
transmettre ou recevoir des informations codées dans des
pour des écritures supplémentaires soient attribuées dans la
données CC. Un dispositif peut être une unité d'entrée-sortie
ISO/CEI 10646-1 : 2000(F) © ISO/CEI
classique ou un processus tel qu'un programme d'application rences non datées, la der nière é dition du document
ou une fonction passerelle.
normatif en référence s'applique. Les membres de
l'ISO et de la CEI possèdent le registre des Normes
Une déclaration de conformité doit identifier le
internationales en vigueur.
document contenant la description mentionnée en a)
ci-dessous ainsi que la ou les formes adoptées, le
niveau de mise en œuvre adopté et, au moyen d'une
ISO/CEI 2022:1994, Technologies de l'information —
liste de collections ou de caractères, le sous-
Structure de code de caractères et techniques
ensemble et la liste des fonctions de commande
d'extension.
adoptés selon l'article 15.
ISO/CEI 6429:1992, Technologies de l'information —
a) Description d'un dispositif : un dispositif conforme
Fonctions de commande pour les jeux de caractères
à l'ISO/CEI 10646 doit faire l'objet d'une description
codés.
identifiant les moyens permettant à l'utilisateur de
fournir des caractères au dispositif ou de les
reconnaître lorsqu'ils sont mis à sa disposition,
4 Termes et définitions
comme précisé respectivement aux paragraphes b)
Pour les besoins de la présente partie de l'ISO/CEI
et c) ci-dessous.
10646, les termes et définitions suivants s'appliquent:
b) Dispositif d’émission : un dispositif d’émission doit
4.1 bloc : collection contiguë de caractères
permettre à son utilisateur de fournir tous les
partageant des caractéristiques communes, par
caractères d'un sous-ensemble adopté et être
exemple l’appartenance à un système d'écriture. Un
capable de transmettre leurs représentations codées
bloc n'en chevauche pas un autre. Une ou plusieurs
dans une donnée CC conformément à la forme et au
positions de code au sein d'un bloc peuvent n'être
niveau de mise en œuvre adoptés.
associées à aucun caractère.
c) Dispositif de réception : un dispositif de réception
doit être capable de recevoir et d'interpréter toute
4.2 caractère : élément d'un ensemble utilisé pour
représentation codée des caractères d'une donnée
organiser, commander ou représenter des données.
CC conformément à la forme et au niveau de mise en
4.3 caractère codé : un caractère et sa
œuvre adoptés et doit mettre à la disposition de
représentation codée.
l'utilisateur, de manière à lui permettre de les
identifier, tous les caractères correspondants du
4.4 caractère combinatoire : élément d'un sous-
sous-ensemble adopté.
ensemble identifié du jeu de caractères codés de
Tous les caractères qui ne sont pas dans le sous- l'ISO/CEI 10646 destiné à se combiner avec le
caractère graphique non-combinatoire précédent, ou
ensemble adopté doivent être signalés à l'utilisateur.
La façon de les lui signaler ne doit pas avec une suite de caractères combinatoires précédée
d’un caractère non-combinatoire (voir également
nécessairement permettre de les distinguer les uns
des autres. 4.34).
NOTE 1 : L'indication fournie à l'utilisateur peut consister à
NOTE : La présente partie de l'ISO/CEI 10646 définit
rendre disponible un caractère particulier pour représenter
plusieurs groupes de sous-ensembles comprenant des
tous ceux qui ne sont pas dans le sous-ensemble adopté ou à
caractères combinatoires.
fournir un signal audible ou visible distinct adapté au type
d'utilisateur.
4.5 caractère de compatibilité : caractère
graphique inclus comme caractère codé de l'ISO/CEI
NOTE 2 : Voir également l'annexe J pour les dispositifs de
10646 principalement pour assurer la compatibilité
réception ayant une possibilité de retransmission.
avec des jeux de caractères codés existants.
4.6 caractère graphique : caractère, autre qu'une
3 Références normatives
fonction de commande, qui a une représentation
Les documents normatifs suivants contiennent des
visuelle normalement manuscrite, imprimée ou
dispositions qui, par suite de la référence qui y est faite,
affichée.
constituent des dispositions valables pour la présente
partie de l'ISO/CEI 10646. Pour les références datées,
4.7 cellule : place dans une rangée à laquelle un
les amendements ultérieurs ou les révisions de ces
caractère isolé peut être affecté.
publications ne s'appliquent pas. Toutefois, les parties
prenantes aux accords fondés sur la présente partie 4.8 collection : un ensemble de caractères codés
qui est numéroté et nommé et qui comprend les
de l'ISO/CEI 10646 sont invitées à rechercher la
possibilité d'appliquer les éditions les plus récentes des caractères codés dont les positions de codes sont
documents normatifs indiqués ci-après. Pour les réfé- comprises dans les intervalles spécifiés.
© ISO/CEI ISO/CEI 10646-1 : 2000(F)
NOTE : Si un des intervalles spécifiés comprend des
4.18 forme canonique : forme de représentation
positions de code auxquelles aucun caractère n'a été
d’un caractère du JUC utilisant quatre octets.
associé, le répertoire de cette collection changera si un
nouveau caractère venait à être affecté à une de ces
4.19 forme de présentation : dans la présentation
positions par une modification de cette norme internationale.
de certaines écritures, forme du symbole graphique
Cependant, il est prévu que le numéro de la collection et son
nom ne changeront pas dans les prochaines éditions de la
représentant un caractère en fonction de la position
présente norme internationale.
de ce caractère par rapport aux autres.
4.9 collection fixe : une collection où chaque
4.20 frontière de caractères : limite, dans une
position de code dans le ou les intervalles spécifiés
chaîne d'octets, entre le dernier octet de la
est associée à un caractère et qui devrait rester
représentation codée d'un caractère et le premier
inchangée dans les prochaines éditions de cette
octet de celle du caractère codé suivant.
norme internationale.
4.21 groupe : subdivision de l'espace de codage du
4.10 demi-zone basse : un ensemble de cellules
présent jeu de caractères codés, formé de 256 × 256
réservées pour utilisation par UTF-16 (voir annexe
× 256 cellules.
C) ; un seizet correspondant à l’une de ces cellules
peut être le second d’une paire de seizets
4.22 interopérabilité : processus permettant à deux
représentant un caractère d’un plan autre que le
ou plusieurs systèmes utilisant chacun des jeux de
PMB.
caractères codés différents d'échanger des données
constituées de caractères codés ; il peut y avoir
4.11 demi-zone haute : un ensemble de cellules
conversion entre les codes deux à deux.
réservées pour utilisation par UTF-16 (voir annexe
C) ; un seizet correspondant à l’une de ces cellules
4.23 jeu de caractères codés : ensemble de règles
peut être le premier d’une paire de seizets
univoques qui définissent un groupe de caractères et
représentant un caractère d’un plan autre que le
établissent une correspondance entre chaque
PMB.
caractère et sa représentation codée.
4.12 dispositif : élément d'un matériel de traitement
4.24 octet : suite ordonnée de huit bits considérée
de l'information qui peut transmettre ou recevoir des
comme une unité.
informations codées dans des données CC (il peut
4.25 plan : subdivision d'un groupe ; se composant
s'agir d'une unité d'entrée-sortie au sens classique ou
de 256 x 256 cellules.
d'un processus tel qu'un programme d'application ou
une fonction passerelle).
4.26 plan à usage privé : plan du présent jeu de
caractères codés dont le contenu n'est pas prescrit
4.13 donnée CC (donnée sous forme de
par l'ISO/CEI 10646 (voir article 10).
caractères codés) : élément d'une information
échangée, composé d'une suite de représentations
4.27 plan multilingue de base (PMB) : plan 00 du
codées de caractères, conformément à une ou
groupe 00.
plusieurs normes identifiées de jeux de caractères
codés.
4.28 plan supplémentaire : plan admettant des
caractères qui n'ont pas été affectés au plan
4.14 échange : transfert de données de caractères
multilingue de base.
codés d'un utilisateur à un autre, en utilisant des
moyens de télécommunication ou des supports
4.29 présentation ; présenter : opération d'écri-
interchangeables.
ture, d'impression ou d'affichage d'un symbole
graphique.
4.15 écriture : ensemble de caractères graphiques
utilisé dans la forme écrite d'une ou de plusieurs
4.30 rangée : subdivision d'un plan composée de
langues.
256 cellules.
4.16 état implicite : état présumé lorsque aucun
4.31 répertoire : ensemble précis de caractères
état n'a été explicitement retenu.
représentés dans un jeu de caractères codés.
4.17 fonction de commande : opération qui affecte
4.32 seizet (élément RC) : une suite de deux octets
l'enregistrement, le traitement, la transmission ou
comprenant l’octet R et l’octet C (voir 6.2) de la suite
l'interprétation des données et qui a une
de 4 octets (dans la forme canonique) correspondant
représentation codée formée d'un ou de plusieurs
à une cellule de l’espace de codage de ce jeu de
octets.
caractères codés.
ISO/CEI 10646-1 : 2000(F) © ISO/CEI
NOTE : Ainsi, le bit 8 de l'octet de poids fort dans la forme
4.33 seizet non apparié : seizet dans une donnée
canonique d'un caractère codé peut être utilisé pour les
CC qui est soit :
besoins du traitement interne dans un dispositif tant qu'il a la
valeur zéro dans une donnée CC conforme.
• un seizet de la demi-zone haute qui n’est pas
immédiatement suivi d’un seizet de la demi-zone Chaque groupe est composé de 256 plans à deux
basse ; dimensions et chaque plan de 256 rangées à une
dimension, chaque rangée contenant 256 cellules. Un
• un seizet de la demi-zone basse qui n’est pas
caractère est situé et codé au niveau d'une cellule
immédiatement précédé d’un seizet de la demi-
dans cet espace de codage ; une cellule peut être
zone haute.
déclarée inutilisée.
4.34 séquence composite : suite de caractères
Sous la forme canonique, les quatre octets utilisés
graphiques se composant d'un caractère non-
pour représenter chaque caractère correspondent
combinatoire suivi d'un ou de plusieurs caractères
respectivement au groupe, au plan, à la rangée et à
combinatoires (voir également 4.4).
la cellule. La forme canonique est composé de quatre
NOTE 1 : Le symbole graphique d'une séquence composite
octets car, d’une part, deux octets sont insuffisants
est généralement composé de la combinaison des symboles
pour couvrir tous les caractères possibles et, d’autre
graphiques de chaque caractère dans la séquence.
part, une représentation sur 32 bits s’accorde avec
NOTE 2 : Une séquence composite n'est pas un caractère et
les architectures des processeurs modernes.
ne fait donc pas partie du répertoire de l'ISO/CEI 10646.
La forme canonique à quatre octets peut être utilisée
4.35 symbole graphique : représentation visuelle
comme jeu de caractères codés à quatre octets et
d'un caractère graphique ou d'une séquence
s'appelle alors UCS-4.
composite.
Le premier plan (plan 00 du groupe 00) est appelé
4.36 tableau de code : tableau indiquant les
plan multilingue de base. Ce plan comporte des
caractères affectés aux octets d'un code.
caractères usuels dans les écritures alphabétiques,
syllabiques et idéographiques ainsi que divers
4.37 tableau de code détaillé : tableau de code
chiffres et symboles.
indiquant les caractères isolés et couvrant
normalement une partie de rangée.
Les plans ci-dessous sont considérés comme des
plans supplémentaires ou à usage privé admettant
4.38 utilisateur : personne ou autre entité recourant
d'autres caractères graphiques (voir l'article 9).
au service assuré par le dispositif. (Cette entité peut
être un processus tel qu'un programme d'application
Les plans réservés à l’usage privé sont précisés à
si « le dispositif » est un convertisseur de code ou
l’article 10. Le contenu des cellules des zones à
une fonction passerelle, par exemple).
usage privé n'est pas précisé dans l'ISO/CEI 10646.
L'emplacement de chaque caractère dans le JUC est
4.39 zone : suite de cellules d'un tableau de code
fonction de ses octets de groupe, de plan, de rangée
comportant une ou plusieurs rangées, complètes ou
et de cellule.
partielles, contenant des caractères d'une catégorie
particulière (voir article 8).
En plus de la forme canonique, on définit une forme
du PMB à deux octets. Le plan multilingue de base
peut ainsi être utilisé comme jeu de caractères codés
5 Structure générale du JUC
à deux octets dont l'identification est UCS-2.
La structure générale du jeu universel de caractères
Des sous-ensembles de l'espace de codage peuvent
codés sur plusieurs octets (dénommé ci-après « le
être utilisés afin d’obtenir un sous-répertoire de
présent jeu de caractères codés ») est décrite dans le
caractères graphiques.
présent article explicatif et illustrée par les figures 1 et
2. La description normative de la structure est donnée
Un format transformé du JUC (UTF-16) est décrit à
dans les articles suivants.
l’annexe C ; il peut être utilisé pour représenter des
caractères de 16 plans du groupe 00, en sus du
La valeur de chaque octet est exprimée en notation
PMB, sous une forme compatible avec la forme à
hexadécimale de 00 à FF dans l'ISO/CEI 10646 (voir
deux octets du PMB.
l'annexe K).
Un format transformé du JUC (UTF-8) est décrit à
La forme canonique du présent jeu de caractères
l’annexe D ; il peut être utilisé pour transmettre des
codés – la manière dont il doit être conçu – utilise un
données textuelles par des systèmes de
espace de codage à quatre dimensions considéré
communication utilisant les valeurs d’octets
comme une entité unique composée de 128 groupes
correspondant aux caractères de commande codés
à trois dimensions.
selon la structure à 8 bits de l’ISO/CEI 2022 et selon
© ISO/CEI ISO/CEI 10646-1 : 2000(F)
l’ISO/CEI 4873. UTF-8 évite aussi l’utilisation de poids fort poids faible
valeurs d’octet selon l’ISO/CEI 4873 qui ont une
octet G octet P Octet R octet C
signification particulière lors du traitement de noms
de fichiers dans des systèmes de fichiers courants.
Le cas échéant, on peut encore les abréger en G, P,
6 Structure de base et nomenclature R et C.
6.1 Structure
La valeur de chaque octet doit être représentée par
deux chiffres hexadécimaux, par exemple : 31 ou FE.
Le jeu universel de caractères codés sur plusieurs
Si un seul caractère doit être identifié en termes des
octets défini par l'ISO/CEI 10646 doit être perçu
valeurs de ses groupe, plan, rangée et cellule, la
comme une seule entité.
représentation doit être la suivante :
L’ensemble du présent jeu de caractères codés doit
0000 0030 pour CHIFFRE ZÉRO
être considéré comme formé de 128 groupes de 256
plans. Chaque plan est formé de 256 rangées de
0000 0041 pour LETTRE MAJUSCULE LATINE A
caractères, chaque rangée contenant 256 cellules.
Pour désigner des caractères dans un plan, on peut
Dans un tableau de code représentant le contenu
supprimer les quatre premiers zéros (pour les octets
d'un plan (comme à la figure 2), l'axe horizontal doit
G et P). Par exemple, 0030 peut être utilisé pour
représenter l'octet de poids faible, avec sa plus petite
désigner CHIFFRE ZÉRO.
valeur à gauche, et l'axe vertical doit représenter
l'octet de poids fort avec sa plus petite valeur en haut.
6.3 Ordre des octets
Un octet doit coder chaque axe de l'espace de
La suite d'octets représentant un caractère ainsi que
codage. Dans chaque octet, le bit de poids fort sera
ses terminaisons de poids fort et de poids faible
le bit 8 et le bit de poids faible le bit 1.
doivent suivre l'ordre et la position indiqués ci-
dessus. Dans le cas d'une mise en série sous forme
En conséquence, le poids attribué à chaque bit doit
d'octets, un octet de poids fort doit précéder les
être :
octets de poids faible. En l'absence de mise en série
bit 8 bit 7 bit 6 bit 5 bit 4 bit 3 bit 2 bit 1 sous forme d'octets, l'ordre des octets peut être
convenu entre l'émetteur et le destinataire (voir 16.1
128 64 32 16 8 4 2 1
et l'annexe H).
6.4 Choix des noms des caractères
6.2 Codage des caractères
Chaque caractère graphique de l'ISO/CEI 10646 est
Dans la forme canonique du jeu de caractères codés,
identifié par un nom unique pour une version en une
chaque caractère du jeu complet de caractères codés
langue donnée. Le nom d'un caractère doit :
doit être représenté par une suite de quatre octets.
a. ou refléter sa signification habituelle ;
L'octet de poids fort de cette suite doit être l'octet de
b. ou décrire la forme du symbole graphique
groupe, l'octet de poids faible devant être l'octet de
correspondant ;
cellule. Cette suite peut donc être représentée ainsi :
c. ou suivre la règle de l'article 27 dans le cas des
poids fort poids faible
idéogrammes unifiés chinois/japonais/coréens.
octet de octet de octet de octet de
Des conseils pour la création des noms de caractères
groupe plan rangée cellule
dans les cas a. et b. ci-dessus sont donnés à
l'annexe L.
Pour plus de concision, les octets peuvent être
désignés comme suit :
ISO/CEI 10646-1 : 2000(F) © ISO/CEI
Groupe 7F
Plan 00 du groupe 7F
Groupe 01
Groupe 00
Plan 00 du groupe 01
Chaque plan : Plan FF du groupe 00
256 x 256
cellules
Plan 00 du groupe 00
Figure 1 : Espace de codage complet du jeu universel de caractères codés sur plusieurs
octets
© ISO/CEI ISO/CEI 10646-1 : 2000(F)
Plans supplémentaires
Octet de cellule
00 80 FF
Octet de
rangée
FF
E0
0F Plans à usage privé
0F, 10, E0 - FF
D8.DF Zone-S
E0.F8 Zone à usage privé 01
F9.FF 00
Plan multilingue de base Octet de plan
NOTE : la Zone-S et la zone à usage privée sont décrites à l'article 8.
Figure 2 : Groupe 00 du jeu universel de caractères codés sur plusieurs octets
ISO/CEI 10646-1 : 2000(F) © ISO/CEI
NOTE 2 : Il existe deux autres formes préfixées de la
6.5 Identificateur abrégé des caractères
notation, pour lesquelles la lettre T (LETTRE MAJUSCULE
L'ISO/CEI 10646 définit un identificateur abrégé pour
LATINE T ou LETTRE MINUSCULE LATINE T) remplace la
lettre U des formes préfixées correspondantes. Les formes de
chaque caractère. Les identificateurs abrégés de
notation qui utilisent le préfixe T indiquent que l'identificateur
deux caractères distincts sont distincts.
abrégé fait référence à un caractère de la première édition de
NOTE : Ces identificateurs abrégés sont indépendants de la l'ISO/CEI 10646-1 (avant tout amendement), alors que les
langue dans laquelle la norme est écrite et sont conservés formes de notation qui utilisent le préfixe U indiquent toujours
pour toute traduction de ce texte. que l'identificateur abrégé se réfère au caractère de la version
ISO/CEI 10646 la plus récemment amendée. Les
On définit les formes permises de notation d'un identificateurs abrégés des formes T-xxxxxxxx et U-xxxxxxxx
correspondants font référence au même caractère sauf quand
identificateur abrégé comme suit :
xxxxxxxx est inclus dans l'intervalle fermé
[ 00003400, 00004DFF ]. Les formes de notation qui
a. La forme à huit chiffres d'un identificateur abrégé
n'incluent pas de préfixe font toujours référence à la norme
sera composée de la suite des huit chiffres
ISO/CEI 10646 comportant les corrections les plus récentes,
hexadécimaux qui représente la position de code du
sauf stipulation du contraire.
caractère (voir 6.2).
b. La forme à 4 chiffres d'un identificateur abrégé
7 Caractéristiques particulières du JUC
sera composée des 4 derniers chiffres de la forme à
Les caractéristiques suivantes s'appliquent au jeu de
8 chiffres. Cette forme n'est pas définie si les quatre
caractères codés dans sa totalité.
premiers chiffres de la forme à 8 chiffres ne sont pas
zéro, en d'autres termes, pour les caractères situés
a) Les valeurs des octets P, R et C utilisés pour
hors du plan multilingue de base.
représenter des caractères graphiques doivent se
situer dans la plage de 00 à FF. Les valeurs des
c. Le caractère « -» (TIRET) peut, de manière
octets G utilisés pour la représentation des
optionnelle, précéder la forme à 8 chiffres de
caractères graphiques doivent se situer dans la
l'identificateur abrégé.
plage de 00 à 7F. Les positions FFFE et FFFF ne
d. Le caractère « + » (SIGNE PLUS) peut, de
doivent être utilisées dans aucun plan.
manière optionnelle, précéder la forme à 4 chiffres de
NOTE : La position de code FFFE est réservée à la
l'identificateur abrégé.
« signature » (voir l'annexe H). La position de code FFFF peut
être utilisée, notamment, pour des traitements internes qui
e. Le préfixe « U » (LETTRE MAJUSCULE LATINE
requièrent une valeur numérique qui ne saurait être un
U) peut, de manière optionnelle, précéder toutes les
caractère codé (par exemple pour signaler fin de tableau ou
formes de l'identificateur abrégé définies dans les
fin de texte). Puisqu’il s’agit de la plus grande valeur à deux
paragraphes a. à d. ci-dessus. octets, elle peut également être utilisée comme valeur finale
dans un index de recherche binaire ou séquentielle.
Les majuscules A à F, ainsi que U, qui peuvent
b) À l'exception des positions réservées pour des
apparaître au sein d'un identificateur abrégé peuvent
caractères à usage privé ou pour des formats
être remplacés par leurs minuscules corres-
transformés, les positions auxquelles aucun
pondantes.
caractère n'est attribué sont réservées pour une
La syntaxe complète de la notation des identificateurs
normalisation future et ne doivent pas être
abrégés, dans la forme de Backus-Naur, est donc :
utilisées à d'autres fins. Les éditions à venir de
l'ISO/CEI 10646 n’attribueront aucun caractère
{ U | u } [ {+}xxxx | {-}xxxxxxxx ]
aux positions réservées aux caractères à usage
où « x » représente un chiffre hexadécimal (0 à 9, A à
privé ou aux formats transformés.
F, ou a à f), par exemple:
c) Le même caractère graphique ne doit pas être
-hhhhhhhh +kkkk
attribué à plus d'une position de code. Il existe des
Uhhhhhhhh U+kkkk
caractères graphiques ayant des formes
où hhhhhhhh indique une forme à 8 chiffres et kkkk
semblables dans le jeu de caractères codés ; ils
celle à 4 chiffres.
sont utilisés à des fins diverses et portent des
noms de caractères différents.
NOTE 1 : À titre d'exemple, l'identificateur abrégé de LETTRE
MINUSCULE LATINE S LONG (voir les tables de la rangée
01 à l'article 26) peut prendre les formes suivantes :
8 Plan multilingue de base
0000017F -0000017F U0000017F U-0000017F
017F +017F U017F U+017F
Le plan 00 du groupe 00 constitue le plan multilingue
de base (PMB). Le PMB peut être utilisé comme jeu
Toutes les majuscules peuvent être remplacées par les
de caractères codés à deux octets et sera alors
minuscules correspondantes.
appelé UCS-2 (voir 13.1).
© ISO/CEI ISO/CEI 10646-1 : 2000(F)
Les positions 0000 0000 à 0000 001F du PMB sont 10.2 Positions de code des caractères à usage
réservées à des caractères de commande, la position privé
0000 007F étant réservée au caractère
Les positions des 32 groupes, du groupe 60 au
SUPPRESSION (voir article 15). Les positions
groupe 7Fsont réservés à l'usage privé.
0000 0080 à 0000 009F sont réservées pour des
Les positions du plan 0F, du plan 10 et des 32 plans
caractères de commande.
de E0 à FF du groupe 00 sont à usage privé.
Les positions 0000 D800 à 0000 DFFF sont
Les 6400 positions de code de E000 à F8FF du plan
réservées à l'utilisation de l'UTF-16 (voir annexe C).
multilingue de base sont à usage privé.
On nomme ces positions la zone-S.
Le contenu de ces positions n'est pas décrit dans
Les positions 0000 E000 à 0000 F8FF sont réservées
l'ISO/CEI 10646 (voir 10.1).
à l'usage privé (voir article 10). On nomme ces
positions la zone à usage privé.
Les positions 0000 FFFE à 0000 FFFF sont 11 Révision et mise à jour du JUC
réservées.
La révision et la mise à jour du présent jeu de
caractères codés seront effectuées par l'ISO/CEI
JTC1/SC2.
9 Autres plans
NOTE : Dans les éditions à venir de l'ISO/CEI 10646, il est
9.1 Plans réservés à la normalisation à venir
envisagé de conserver les noms et l'affectation des
Les plans 11 à DF du groupe 00 et les plans 00 à FF caractères de la présente édition.
des groupes 01 à 5F sont destinés à une future
normalisation, ces positions ne doivent donc pas être
12 Sous-ensembles
utilisées à d'autres fins.
L'ISO/CEI 10646 définit des sous-ensembles de
9.2 Plans accessibles par UTF-16
caractères graphiques codés utilisés lors d'un
Chaque position des plans 01 à 10 du groupe 00 est
échange par des dispositifs de réception et
reliée bijectivement à une suite de quatre octets selon
d’émission.
la forme de représentation codée UTF-16 (voir
Deux types de sous-ensembles peuvent être définis :
annexe C). Cette forme est compatible avec la forme
les sous-ensembles limités et les sous-ensembles
à deux octets du PMB UCS-2 (voir 13.1).
sélectionnés. Un sous-ensemble adopté peut
Il n'existe pas de correspondance entre la forme
comprendre l'un des deux ou une combinaison de
UTF-16 et les positions des plans 11 à FF du groupe
ces deux types.
00 ou celles des plans 00 à FF pour les autres
groupes.
12.1 Sous-ensemble limité
Un sous-ensemble limité est composé d'une liste de
10 Groupes, plans et zones à usage privé
caractères graphiques dans le sous-ensemble visé.
Cette description permet l'interopérabilité, avec le
présent jeu de caractères codés, d'applications et
10.1 Caractères à usage privé
d'appareils qui utilisent d'autres codes.
L'ISO/CEI 10646 ne limite aucunement les caractères
à usage privé. Ceux-ci peuvent être utilisés par
Une déclaration de conformité concernant un sous-
l'utilisateur pour définir ses propres caractères. Il
ensemble limité doit énumérer les caractères
s’agit, par exemple, d’un besoin habituel pour les
graphiques du sous-ensemble en donnant les noms
utilisateurs d'écritures idéographiques.
des caractères graphiques ou les positions définis
dans l'ISO/CEI 10646.
NOTE 1 : L'échange utile de caractères à usage privé
nécessite un accord indépendant de l'ISO/CEI 10646 entre
l'émetteur et le destinataire.
12.2 Sous-ensemble sélectionné
Les caractères à usage privé peuvent être utilisés
Un sous-ensemble sélectionné est composé d'une
pour des applications de caractères dynamiquement
liste de collections de caractères graphiques définis
redéfinissables.
dans l'ISO/CEI 10646. Les collections pouvant servir
NOTE 2 : L'échange utile de caractères dynamiquement
à la sélection sont énumérées à l'annexe A de
redéfinissables nécessite un accord indépendamment de
chaque partie de l'ISO/CEI 10646. Un sous-ensemble
l'ISO/CEI 10646 entre l'émetteur et le destinataire. L'ISO/CEI
sélectionné inclura d'office les cellules 20 à 7E de la
10646 ne précise pas les techniques de définition ou de
création des caractères dynamiquement redéfinissables. rangée 00 du plan 00 du groupe 00.
ISO/CEI 10646-1 : 2000(F) © ISO/CEI
Une déclaration de conformité concernant un sous- 14.1 Niveau 1 de mise en œuvre
ensemble sélectionné doit énumérer les collections
Lorsque l'on utilise le niveau 1 de mise en œuvre,
choisies définies dans l'ISO/CEI 10646.
une donnée CC ne doit contenir ni représentations
codées de caractères combinatoires (voir article B.1)
ni caractères du bloc JAMOS HANGÛL (voir article
13 Formes de représentation codée du
25). Au niveau 1 de mise en œuvre, la règle de
JUC
l'épellation unique s'appliquera (25.2).
L'ISO/CEI 10646 prévoit quatre possibilités de
14.2 Niveau 2 de mise en œuvre
représentation codée des caractères. Deux de celles-
Lorsque l'on utilise le niveau 2 de mise en œuvre,
ci sont spécifiées dans cet article, les deux autres —-
une donnée CC ne doit pas contenir de
UTF-16 et UTF-8 —- sont définies dans les annexes
représentations codées des caractères énumérés à
C et D respectivement.
l'article B.2. Au niveau 1 de mise en œuvre, la règle
NOTE : Les caractères issus du répertoire de la version de
de l'épellation unique s'appliquera (25.2).
référence internationale de l'ISO/CEI 646 sont codés à l'aide
d'une simple extension par des zéros de leurs représentations
14.3 Niveau 3 de mise en œuvre
codées dans l'ISO/CEI 646. Leurs représentations codées ont
donc les mêmes valeurs sous forme d'entiers à 8, 16 ou 32
Lorsque l'on utilise le niveau 3 de mise en œuvre,
bits. Pour les mises en œuvre sensibles à un octet à valeur
une donnée CC peut contenir des représentations
zéro (par exemple pour marquer la fin d'une chaîne de
codées de tous les caractères.
caractères), il convient d'éviter d'utiliser un type de données
représentant des caractères à 8 bits, car tout octet à valeur
zéro peut être mal interprété. Il est préférable d'utiliser des
types de données d'au moins 16 bits pour l'UCS-2 et d'au
15 Utilisation des fonctions de
moins 32 bits pour l'UCS-4.
commande avec le JUC
13.1 Forme du PMB à deux octets
Le présent jeu de caractères codés permet d'utiliser
Cette forme de représentation codée permet d'utiliser
des fonctions de commandes codées selon l'ISO/CEI
des caractères du plan multilingue de base en 6429 ou des normes de structure similaire relatives
représentant chaque caractère par deux octets.
aux fonctions de commande et des normes qui en
sont dérivées. Un ensemble ou un sous-ensemble de
Dans une donnée CC respectant la forme du PMB à
ces fonctions de commande codées peut être utilisé
deux octets, un caractère du plan multilingue de base
en association avec le présent jeu de caractères
sera représenté par deux octets comprenant l'octet R
codés. Ces normes codent une fonction de
et l'octet C, tel que précisé en 6.2 (c’est à dire par
commande sous forme d’une séquence d'un ou
son seizet).
plusieurs octets.
NOTE : Un caractère graphique codé utilisant la forme du
Lorsqu'un caractère de commande de l'ISO/CEI 6429
PMB à deux octets peut être mis en œuvre au niveau du
traitement par un entier de 16 bits.
est utilisé avec le présent jeu de caractères codés, sa
représentation codée définie dans l'ISO/CEI 6429
sera « bourrée » pour correspondre au nombre
13.2 Forme canonique à quatre octets
d'octets de la forme adoptée (voir article 13 ainsi que
La forme canonique permet d'utiliser tous les
les annexes C et D). Ainsi, l'octet de poids faible sera
caractères de l'ISO/CEI 10646, en représentant
la combinaison binaire définie dans l'ISO/CEI 6429 et
chaque caractère par quatre octets.
le ou les octets de poids fort doivent être nuls.
Dans une donnée CC respectant la forme canonique
Par exemple, le caractère de commande PAGE
à quatre octets, chaque caractère sera représenté
SUIVANTE est représenté par « 000C » dans la
par quatre octets comprenant les octets G, P, R et C,
forme à deux octets et par « 0000 000C » dans la
tel que précisé en 6.2.
forme à quatre octets.
NOTE : Un caractère graphique codé utilisant la forme
Pour les séquences d'échappement, les séquences
canonique à quatre octets peut être mis en œuvre au niveau
de commande et les chaînes de commande (voir
du traitement par un entier de 32 bits.
l'ISO/CEI 6429) se composant d'un caractère de
commande codé suivi de combinaisons binaires
14 Niveaux de mise en œuvre
supplémentaires dans la plage 20 à 7F, chaque
combinaison binaire sera bourrée avec un ou
L'ISO/CEI 10646 définit trois niveaux de mise en
plusieurs octets « de bourre » ayant la valeur 00.
œuvre. Les caractères comb
...






















Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...