Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 1: Systems

Specifies the system layer of the coding. Was developed principally to support the combination of the video and audio coding methods defined in ISO/IEC 11172-2 and ISO/IEC 11172-3. The system layer supports the following basic functions: the synchronization of multiple compressed streams on playback, the interleaving of multiple compressed streams into a single stream, the initializiation of buffering for playback start up, continuous buffer management, and time identification.

Technologies de l'information — Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'à environ 1,5 Mbit/s — Partie 1: Systèmes

La présente partie de l'ISO/CEI 11172 spécifie la Couche Système du codage. Elle est principalement destinée à prendre en charge la combinaison des méthodes de codage vidéo et audio définies dans l'ISO/CEI 11172-2 et l'ISO/CEI 11172-3. La Couche Système assure cinq fonctions de base : a) la synchronisation, lors de la restitution de plusieurs trains binaires comprimés; b) l'entrelacement de plusieurs trains binaires comprimés en un même train binaire; c) l'initialisation du tamponnage au début de la restitution; d) la gestion permanente des tampons; e) la détermination du temps. Un train binaire multiplexé ISO/CEI 11172 est structuré en deux couches : une couche externe, la Couche Système ; une couche interne : la Couche Compression. La Couche Système assure les fonctions nécessaires pour l'utilisation d'un ou plusieurs trains binaires de données comprimées dans un système. Les parties audio et vidéo de la présente norme définiss

General Information

Status
Published
Publication Date
11-Aug-1993
Current Stage
9020 - International Standard under periodical review
Start Date
15-Apr-2026
Completion Date
15-Apr-2026

Relations

Effective Date
06-Jun-2022
Effective Date
15-Apr-2008

Overview

ISO/IEC 11172-1:1993 defines the Systems layer for coding moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s. Developed as part of the ISO/IEC 11172 suite (the MPEG-1 family), this Part 1 specification describes how multiple compressed streams (video, audio, and other elementary streams) are combined, timed and managed so they can be stored or transmitted as a single, synchronized bitstream. The Systems layer does not specify compression algorithms (those are in Parts 2 and 3) but specifies how compressed data are packaged, timed and delivered for reliable playback.

Key Topics and Requirements

  • Multiplexing and interleaving: Rules for combining multiple elementary streams into one serialized stream suitable for digital storage media (DSM) or channels.
  • Synchronization: Presentation Time Stamps (PTS) used to synchronize playback of multiple streams. PTS units are specified (90 kHz time base).
  • Pack and packet layers: Two sub-layers - the pack layer for multiplex-wide operations (clock adjustment, buffer management) and the packet layer for stream-specific operations (demultiplexing, per-stream timestamps).
  • Buffer initialization & continuous buffer management: Mechanisms and constraints to avoid decoder buffer underflow or overflow during startup and continuous playback.
  • System Target Decoder (STD): A reference model used to parameterize timing and buffering requirements so encoders can ensure streams play correctly on compliant decoders.
  • Stream identification and demultiplexing: Packet headers include stream ID codes to reconstruct elementary streams.
  • Timing and clock tolerance: Encoder/decoder requirements related to clock correction, target arrival schedules in pack headers, and decoder compensation for retrieval variations.

Applications and Who Uses It

ISO/IEC 11172-1 is essential for:

  • Codec implementers and multimedia software developers building decoders/encoders that interleave audio/video data reliably.
  • Consumer electronics and hardware engineers designing players, recorders, or media devices that read MPEG-system multiplexed streams.
  • Digital content producers and archiving systems ensuring synchronized playback of audio and video on DSMs and channels.
  • Streaming and storage system designers who need standards for timing, buffer control, and multiplexing semantics.

Practical uses include synchronized playback from digital storage media, media authoring tools that produce compliant bitstreams, and any system that must manage timing and buffering of combined audio/video streams.

Related Standards

  • ISO/IEC 11172-2:1993 - Video (compression layer)
  • ISO/IEC 11172-3:1993 - Audio (compression layer)
  • ISO/IEC 11172-4 - Compliance testing (as referenced in the suite)

Keywords: ISO/IEC 11172-1, MPEG Systems, Systems layer, multiplexing, synchronization, buffer management, presentation time-stamp, System Target Decoder, digital storage media, 1.5 Mbit/s.

Buy Documents

Standard

ISO/IEC 11172-1:1993 - Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 1: Systems Released:8/12/1993

English language (53 pages)
sale 15% off
Preview
sale 15% off
Preview
Standard

ISO/IEC 11172-1:1993 - Technologies de l'information — Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s — Partie 1: Systemes Released:5/19/1994

French language (62 pages)
sale 15% off
Preview
sale 15% off
Preview
Standard

ISO/IEC 11172-1:1993 - Technologies de l'information — Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s — Partie 1: Systemes Released:5/19/1994

French language (62 pages)
sale 15% off
Preview
sale 15% off
Preview

Get Certified

Connect with accredited certification bodies for this standard

BSI Group

BSI (British Standards Institution) is the business standards company that helps organizations make excellence a habit.

UKAS United Kingdom Verified

NYCE

Mexican standards and certification body.

EMA Mexico Verified

Sponsored listings

Frequently Asked Questions

ISO/IEC 11172-1:1993 is a standard published by the International Organization for Standardization (ISO). Its full title is "Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 1: Systems". This standard covers: Specifies the system layer of the coding. Was developed principally to support the combination of the video and audio coding methods defined in ISO/IEC 11172-2 and ISO/IEC 11172-3. The system layer supports the following basic functions: the synchronization of multiple compressed streams on playback, the interleaving of multiple compressed streams into a single stream, the initializiation of buffering for playback start up, continuous buffer management, and time identification.

Specifies the system layer of the coding. Was developed principally to support the combination of the video and audio coding methods defined in ISO/IEC 11172-2 and ISO/IEC 11172-3. The system layer supports the following basic functions: the synchronization of multiple compressed streams on playback, the interleaving of multiple compressed streams into a single stream, the initializiation of buffering for playback start up, continuous buffer management, and time identification.

ISO/IEC 11172-1:1993 is classified under the following ICS (International Classification for Standards) categories: 35.040 - Information coding; 35.040.40 - Coding of audio, video, multimedia and hypermedia information. The ICS classification helps identify the subject area and facilitates finding related standards.

ISO/IEC 11172-1:1993 has the following relationships with other standards: It is inter standard links to ISO/IEC 11172-1:1993/Cor 2:1999; is excused to ISO/IEC 11172-1:1993/Cor 2:1999. Understanding these relationships helps ensure you are using the most current and applicable version of the standard.

ISO/IEC 11172-1:1993 is available in PDF format for immediate download after purchase. The document can be added to your cart and obtained through the secure checkout process. Digital delivery ensures instant access to the complete standard document.

Standards Content (Sample)


INTERNATIONAL ISO/IEC
STANDARD 11172-1
First edition
1993-08-0 1
Information technology - Coding of
moving pictures and associated audio for
digital storage media at up to about
1,5 Mbit/s -
Part 1:
Systems
- Codage de I’image animee et du son
Technologies de I’informa tion
associ6 pour /es supports de stockage num&ique jusqu’a environ
1,5 Mbit/s -
Partie 1: Systemes
Reference number
ISO/IEC 11172-1 :1993(E)
ISOAEC 11172~1:1993 (E)
Page
Contents
iii
Foreword .
iv
Introduction .
........................................................................................
Section 1: General
1.1 Scope .
............................................................................ 1
1.2 Normative references
.......................................................................... 3
Section 2: Technical elements
.
2.1 Defini tions .
..................................................................
2.2 Symbols and abbreviations
...................................................
2.3 Method of describing bit stream Syntax
2.4 Requirements .
Annexes
A Description of the System coding layer .
B List of patent holders .
0 ISO/IEC 1993
AI1 rights reserved. No part of this publication may be reproduced or utilized in any form or by
any means, electronie or mechanical, including photocopying and microfilm, without
permission in writing from the publisher.
ISOLEC Copyright Office l Case Postale 56 l CH 1211 Geneve 20 l Switzerland
Printed in Switzerland.
ii
ISOAEC 11172~1:1993 (E)
o ISOAEC
Foreword
ISO (the International Organization for Standardization) and IEC (the Inter-
national Electrotechnical Commission) form the specialized System for
worldwide standardization. National bodies that are members of ISO or
IEC participate in the development of International Standards through
technical committees established by the respective organization to deal
with particular fields of technical activity. ISO and IEC technical com-
mittees collaborate in fields of mutual interest. Other international organ-
izations, governmental and non-governmental, in liaison with ISO and IEC,
also take part in the work.
In the field of information technology, ISO and IEC have established a joint
technical committee, ISO/IEC JTC 1. Draft International Standards adopted
by the joint technical committee are circulated to national bodies for vot-
ing. Publication as an International Standard requires approval by at least
75 % of the national bodies casting a vote.
International Standard lSO/IEC 11172-1 was prepared by Joint Technical
Committee ISO/IEC JTC 1, Information technology, Sub-Committee SC 29,
Coded representation of audio, picture, multimedia and hypermedia infor-
ma tion.
lSO/IEC 11172 consists of the following Parts, under the general title In-
forma tion technology - Coding of moving pictures and associated audio
for digital storage media at up to about 1,5 Mbit/s:
- Part 7: Systems
- Part 2: Video
- Part 3: Audio
- Part 4: Compliance testing
Annexes A and B of this part of lSO/IEC 11172 are for information only.
. . .
ISOAEC 11172~1:1993 (E) 0 ISOAEC
Introduction
Note -- Readers interested in an overview of the MPEG Systems layer should read this Introduction and then
proceed to annex A, before retuming to the clauses 1 and 2. Since the System target decoder concept is
referred to throughout both the normative and informative clauses of this part of ISO/IEC 11172, it may
also be useful to refer to clause 2.4, and particularly 2.4.2, where the System target decoder is described.
The Systems specification addresses the Problem of combining one or more data streams from the Video and
audio parts of this International Standard with timing information to ferm a Single stream. Once combined
into a Single stream, the data are in a form well suited to digital storage or transmission. The syntactical
and semantic rules imposed by this Systems specification enable synchronized playback without overflow or
underflow of decoder buffers under a wide range of stream retrieval or receipt conditions. The scope of
syntactical and semantic rules set forth in the Systems specification differ: the syntactical rules apply to
Systems layer coding only, and do not extend to the compression layer coding of the Video and audio
specifications; by contrast, the semantic rules apply to the combined stream in its entirety.
The Systems specification does not specify the architecture or implementation of encoder or decoders.
However, bitstream properties do impose functional and performante requirements on encoders and decoders.
For instance, encoders must meet minimum clock tolerante requirements. Notwithstanding this and other
requirements, a considerable degree of freedom exists in the design and implementation of encoders and
decoders.
A prototypical audio/video decoder System is depicted in figure 1 to illustrate the function of an ISO/IEC
11172 decoder. The architecture is not unique -- System Decoder functions including decoder timing control
might equally well be distributed among elementar-y stream decoders and the Medium Specific Decoder -- but
this figure is useful for discussion. The prototypical decoder design does not imply any normative
requirement for the design of an ISO/IEC 11172 decoder. Indeed non-audio/video data is also allowed, but
not shown.
m-----B----
r ISO/IEC 11172
I
Audi
DeuKied
I
I
audio
I
ISO1 1172
I
Stream
_ I
Digital II3ecodm 1
Storage
Medium
ISO/IEC 11172
Prototypical ISO/IEC 11172 decoder
Figure 1 --
The prototypical ISO/IEC 11172 decoder shown in figure 1 is composed of System, Video, and Audio
decoders conforming to Parts 1,2, and 3, respectively, of ISOAEC 11172. In this decoder the multiplexed
coded representation of one or more audio and/or Video streams is assumed to be stored on a digital storage
medium (DSM), or network, in some medium-specific format. The medium specific format is not governed
by this International Standard, nor is the medium-specific decoding part of the prototypical ISO/IEC 11172
dtXOdH.
The prototypical decoder accepts as input an ISO/lEC 11172 multiplexed stream and relies on a System
Decoder to extract timing information from the stream. The System Decoder demultiplexes the stream, and
the elementary streams so produced serve as inputs to Video and Audio decoders, whose outputs are decoded
Video and audio Signals. Included in the design, but not shown in the figure, is the flow of timing
information among the System Decoder, the Video and Audio Decoders, and the Medium Specific Decoder.
iv
0 ISOAEC ISOAEC 11172-1: 1993 (E)
The Video and Audio Decoders are synchronized with each other and with the DSM using this timing
information.
ISO/IEC 11172 multiplexed streams are constructed in two layers: a System layer and a compression layer.
The input stream to the System Decoder has a System layer wrapped about a compression layer. Input
streams to the Video and Audio decoders have only the compression layer.
Operations performed by the System Decoder either apply to the entire ISO/IEC 11172 multiplexed stream
(“multiplex-wide operations”), or to individual elementary streams (“stream-specific opemtions”). The
ISO/IEC 11172 System layer is divided into two sub-layers, one for multiplex-wide operations (the pack
layer), and one for stream-specific operations (the packet layer).
0.1 Multiplex-wide operations (pack layer)
Multiplex-wide operations include the coordination of data retrieval off the DSM, the adjustment of clocks,
and the management of buffers. The tasks are intimately related. If the rate of data delivery off the DSM is
controllable, then DSM delivery may be adjusted so that decoder buffers neither overflow nor underflow;
but if the DSM rate is not controllable, then elementar-y stream decoders must Slave their timing to the
DSM to avoid Overflow or underflow.
ISO/IEC 11172 multiplexed streams are composed of Packs whose headers facilitate the above tasks. Pack
headers specify intended times at which each byte is to enter the System decoder from the DSM, and this
target arrival schedule serves as a reference for clock correction and buffer management. The schedule need
not be followed exactly by decoders, but they must compensate for deviations about it.
An additional multiplex-wide Operation is a decoder’s ability to establish what resources are required to
decode an ISO/IEC 11172 multiplexed stream. The first pack of each ISO/IEC 11172 multiplexed stream
conveys Parameters to assist decoders in this task. Included, for example, are the stream’s maximum data
rate and the highest number of simultaneous Video channels.
Individual stream operations (packet layer)
0.2
The principal stream -specific operations are 1) demultiplexing, and 2) synchronizing playback of multiple
elementar-y streams. These topics are discus sed next.
0.2.1 Demultiplexing
On encoding, ISO/IEC 11172 multiplexed streams Elementary streams may include private, reserved, and padding stre and Video streams. The streams are temporally subdivided into packets, and the packets are serialized. A
packet co~~tahs coded bytes from one and only one elementary stream.
Both fixed and variable packet lengths are allowed subject to constraints in 2.4.3.3 and in 2.4.5 and 2.4.6.
On decoding, demultiplex ing is required to reconstitute elementar-y stre(ams from the IS O/IEC 11172
is made possible by stream id Codes in packet headers
mul tiplexed stream. This -
0.2.2 Synchronization
Synchronization cunong multiple strecams is effected with presentation time stamps in the ISO/IEC 11172
multiplexed stream. The time stamps are in units of 90kHz. Playback of N streams is synchronized by
adjusting the playback of all streams to a master time base rather than by adjusting the playback of one
stream to match that of another. The master time base may be one of the N decoders’ clocks, the DSM or
channel clock, or it may be some extemal clock.
Because presentation time-stamps apply to the decoding of individual elementar-y streams, they reside in the
packet layer. End-to-end synchronization occurs when encoders record time-stamps at Capture time, when
the time stamps propagate with associated coded data to decoders, and when decoders use those time-stamps
to schedule presentations.
Synchronization is also possible with DSM timing time stamps in the multiplexed data st.re
ISOAEC 11172-1: 1993 (E) o ISOAEC
0.2.3 Relation to compression layer
The packet layer is independent of the compression layer in some senses, but not in all. It is independent in
the sense that packets need not start at compression layer start codes, as defined in parts 2 and 3. For
example, a Video packet may statt at any byte in the Video stream. However, time stamps encoded in
packet headers apply to presentation times of compression layer co~vXructs (namely, presentation units).
0.3 System reference decoder
Part 1 of ISO/IEC 11172 employs a “System target decoder,” (SID) to provide a formalism for timing and
buffering relationships. Because the STD is parameterized in terms of fields defined in ISO/IEC 11172 (for
example, buffer sizes) each ISO/IEC 11172 multiplexed stream leads to its own parameterization of the
STD. It is up to encoders to ensure that bitstreams they produce will play in normal Speed, forward play on
corresponding STDs. Physical decoders may assume that a stream plays properly on its SID; the physical
decoder must compensate for ways in which its design differs from that of the STD.
Vi
INTERNATIONAL STANDARD o lSo’IEC ISO/IEC 11172-1:1993 (E)
Information technology - Coding of moving
pictures and associated audio for digital storage
media at up to about 1,5 Mbit/s -
Part 1:
Systems
Section 1: General
1.1 Scope
This patt of ISO/IEC 11172 specifies the System layer of the coding. It was developed principally to
support the combination of the Video and audio coding methods defined in ISO/IEC 11172-2 and ISO/IEC
11172-3. The System layer supports five basic functions:
a) the synchronization of multiple compressed streams on playback,
b) the interleaving of multiple compressed streams into a Single stream,
c) the initialization of buffering for playback Start up,
d) continuous buffer management, and
e) time identification.
An ISO/IEC 11172 multiplexed bit stream is constructed in two layers: the outermost layer is the System
layer, and the innermost is the compression layer. The System layer provides the functions necessary for
using one or more compressed data streams in a System. The Video and audio parts of this specification
define the compression coding layer for audio and Video data. Coding of other types of data is not defined by
the specification, but is supported by the System layer provided that the other types of data adhere to the
constraints defined in clause 2.4.
1.2 Normative references
The following International Standards contain provisions which, through reference in this text, constitute
provisions of this part of ISO/IEC 11172. At the time of publication, the editions indicated were valid. All
standards are subject to revision, and Parties to agreements bczsed on this pczrt of ISO 11172 are encouraged
to investigate the possibility of applying the most recent editions of the Standyards indicated below.
Members of IEC and ISO maintain registers of currently valid International Standards.
ISO/IEC 11172-2:1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 MbitLs - Part 2: Video.
ISO/IEC 11172-3: 1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 Mbit/s - Part 3 Audio.
CCIR Recommendation 601-2 Encoding Parameters of digital television for Studios.
CCIR Report 624-4 Characteristics of Systems for monochrome and colour television.
CCIR Recommendation 648 Recording of audio Signals.
CCIR Report 955-2 Sound broadcasting by satellite for portable and mobile receivers, including Annex IV
Summry description of Advanced Digital System II.

o ISO/IEC
ISOAEC 11172~1:1993 (E)
CCIIT Recommendation J. 17 Pre-emphasis used on Sound-Programme Circuits.
IEEE Draft Standard PllWD2 1990 Specijkation for the implementation of 8x 8 inverse discrete cosine
transform”.
IEC publication 908:1987 CD Digital Audi0 System.

o ISOAEC ISOAEC 11172-1: 1993 (E)
Section 2: Technical elements
2.1 Definitions
For the purposes of ISO/IEC 11172, the following definitions apply. If specific to a part, this is noted in
Square brackets.
2.1.1 ac coefficient [Video]: Any DCT coefficient for which the frequency in one or both dimensions
is non-Zero.
In the case of compressed audio an access unit is an audio access unit. In
2.1 .2 access unit [System]:
an access un it is the coded representation of a picture.
the case of compressed Video
n [audio]: A subdivision of the digital representation of an audio Signal
2. 1.3 adaptive segmentatio
in variable Segments of time.
2.1.4 adaptive bit allocation [audio]: The assignment of bits to subbands in a time and frequency
varying fashion according to a psychoacoustic model.
2.1.5 adaptive noise allocation [audio]: The assignment of coding noise to freq uency bands in a
time and frequency varying fashion according to a psychoacoustic model.
2.1.6 alias [audio]: Mirrored Signal component resulting from sub-Nyquist sampling.
2.1.7 analysis filterbank [audio]: Filterbank in the encoder that transforms a broadband PCM audio
Signal into a set of subsampled subband scunples.
2.1.8 audio access unit [audio]: For Layers 1 and 11 part of the encoded bitstream which ca.11 be decoded by itself, where decoded means “fully reconstructed
Sound”. For Layer 111 an audio access unit is part of the bitstream that is decodable with the use of
previously acquired main information.
2.1.9 audio buffer [audio]: A buffer in the System target decoder for storage of compressed audio data.
2.1.10 audio sequence [audio]: A non-interrupted series of audio frames in which the following
Parameters are not changed:
-ID
- Layer
- Sampling Frequency
- For Layer 1 and 11: Bitrate index
2.1.11 backward motion vector [Video]: A motion vector that is used for motion compensation
from a reference picture at a later time in display Order.
2.1.12 Bark [audio]: Unit of critical band rate. The Bark scale is a non-linear mapping of the frequency
scale over the audio range closely corresponding with the frequency selectivity of the human ear across the
band.
2.1.13 bidirectionally predictive-coded picture;
B-picture [Video]: A picture that is coded
using motion compensated prediction from a pcist andlor future reference picture.
2.1.14 bitrate: The rate at which the compressed bitstream is delivered from the storage medium to the
input of a decoder.
2.1.15 block companding [audio]: Normalizing of the digital representation of an audio Signal
within a certain time period.
2.1.16 block [Video]: An 8-row by 8-column orthogonal block of pels.
2.1.17 bound [audio]: The lowest subband in which intensity stereo coding is used.

ISOAEC 11172~1:1993 (E) o ISOAEC
2.1.18 byte aligned: A bit in a coded bitstream is byte-aligned if its position is a multiple of 8-bits
from the first bit in the stream.
2.1.19 byte: Sequence of 8-bits.
2.1.20 channel: A digital medium that stores or transports an ISO/IEC 11172 stream.
2.1.21 channel [audio]: The left and right channels of a stereo Signal
2.1.22 chrominance (component) [Video]: A matrix, block or Single pel representing one of the
two colour differente Signals related to the Primar-y colours in the manner defined in CCIR Ret 601. The
Symbols used for the colour differente Signals are Cr and Cb.
2.1.23 coded audio bitstream [audio]: A coded representation of an audio Signal as specified in
ISO/IEC 11172-3.
2.1.24 coded Video bitstream [Video]: A coded representation of a series of one or more pictures as
specified in ISO/IEC 11172-2.
2.1.25 coded Order [Video]: The Order in which the pictures are stored and decoded. This Order is not
necessarily the same as the display Order.
2.1.26 coded representation: A data element as represented in its encoded form.
2.1.27 coding Parameters [Video]: The set of user-definable Parameters that ch‘aracterize a coded Video
bitstream. Bitstreams are characterised by coding Parameters. Decoders that they are capable of decoding.
2.1.28 component [Video]: A matrix, block or Single pel from one of the three matrices (luminance
and two chrominance) that make up a picture.
2.1.29 compression: Reduction in the number of bits used to represent an item of data.
2.1.30 constant bitrate coded Video [Video]: A compressed Video bitstream with a constant
average bitrate.
2.1.31 constant bitrate: Operation where the bitrate is constant from Start to finish of the compressed
bitstream.
2.1.32 constrained Parameters [Video]: The values of the set of coding pclrameters defined in
2.4.3.2 of ISO/IEC 11172-2.
2.1.33 constrained System Parameter stream (CSPS) [System]: An ISO/IEC 11172
multiplexed stream for which the constraints defined in 2.4.6 of this pczrt of ISO/IEC 11172 apply.
2.1.34 CRC: Cyclic redundancy Code.
2.1.35 critical band rate [audio]: Psychoacoustic function of frequency. At a given audible
frequency it is proportional to the number of critical bands below that frequency. The units of the critical
band rate scale arc Barks.
2.1.36 critical band [audio]: Psychoacoustic measure in the spectral domain which corresponds to the
frequency selectivity of the human ear. This selectivity is expressed in Bark.
2.137 data element: An item of data as represented before encoding and after decoding.
2.138 dc-coefficient [Video]: The DCT coefficient for which the frequency is zero in both
dimensions.
ISOAEC 11172-1: 1993 (E)
0 ISOAEC
2.1.39 dc-coded picture; D-picture [Video]: A picture that is coded using only information from
itself. Of the DCT coefficients in the coded representation, only the dc-coefficients are present.
2.1.40 DCT coefficient: The amplitude of a specific cosine basis function.
2.1.41 decoded stream: The decoded reconstruction of a compressed bitstream.
2.1.42 decoder input buffer [Video]: The first-in first-out (FIFO) buffer specified in the Video
buffering verifier.
2.1.43 decoder input rate [Video]: The data rate specified in the Video buffering verifier and encoded
in the coded Video bitstream.
2.1.44 decoder: An embodiment of a decoding process.
2.1.45 decoding (process): The process defined in ISO/IEC 11172 that reads an input coded bitstream
and produces decoded pictures or audio samples.
2.1.46 decoding time-stamp; DTS [System]: A field that may be present in a packet header that
indicates the time that an access unit is decoded in the System target decoder.
storage or transmission to
2.1.47 de-emphasis [ audio]: Filtering applied to a linear distortion due to emphasis.
2.1.48 dequantization [Video]: The process of rescaling the quantized DCT coefficients after their
representation in the bitstream has been decoded and before they are presented to the inverse DCT.
2.1.49 digital storage media; DSM: A digital storage or transmission device or System.
2.1.50 discrete cosine transform; DCT [Video]: Either the forward discrete cosine transform or the
inverse discrete cosine transform. The DCT is an invertible, discrete orthogonal transformation. The
inverse DCT is defined in annex A of ISO/IEC 11172-2.
2.1.51 display Order [Video]: The Order in which the decoded pictures should be displayed. Normally
this is the same Order in which they wer-e presented at the input of the encoder.
2.1.52 dual channel mode [audio]: A mode, where two audio channels with independent Programme
contents (e.g. bilingual) care encoded within one bitstream. The coding process is the s mode.
2.1.53 editing: The process by which one or more compressed bitstreams are manipulated to produce a
new compressed bitstream. Conforming edited bitstreams must meet the requirements defined in ISOLIEC
11172.
2.1.54 elementary stream [System]: A generic term for one of the coded Video, coded audio or other
coded bitstreams.
2.1.55 emphasis [audio]: Filtering applied to an audio Signal before storage or transmission to
improve the signal-to-noise ratio at high frequencies.
2.1.56 encoder: An embodiment of an encoding process.
2.1.57 encoding (process): A process, not specified in ISO/IEC 11172, that reads a stream of input
pictures or audio samples and produces a valid coded bitstream as defined in ISO/IEC 11172.
2.1.58 entropy coding: Variable length lossless coding of the digital representation of a Signal to
reduce redundancy.
2.1.59 fast forward playback [Video]: The process of displaying a sequence, or parts of a sequence,
of pictures in display-order faster than real-time.

ISOAEC 11172~1:1993 (E) 0 ISOAEC
2.1.60 FFT: Fast Fourier Transformation. A fast algorithm for perfonning a discrete Fourier transform
(an orthogonal transform).
2.1.61 filterbank [audio]: A set of band-pass filters covering the entire audio frequency range.
2.1.62 fixed Segmentation [ audio]: A subdivision of the digital representation of an audio Signal
into fixed Segments of time.
2.1.63 forbidden: The term “forbidden” when used in the clauses defining the coded bitstream indicates
that the value shall never be used. This is usually to avoid emulation of start Codes.
2.1.64 forced updating [Video]: The process by which macroblocks are intra-coded from time-to-time
to ensure that mismatch errors between the inverse DCT processes in encoders and decoders cannot build up
excessively.
mo tion
2.1.65 forward motion vector [Video]: A vector that is used for motion compensation from
a reference picture at an earlier time in display Order.
2.1.66 frame [audio]: A part of the audio Signal that corresponds to audio PCM samples from an
Audio Access Unit.
2.1.67 free format [audio]: Any bitrate other than the defined bitrates that is less than the maximum
valid bitrate for each layer.
2.1.68 future reference picture [v tideo]: The future reference picture is the reference picture that
occurs at a later time than the current picture in display Order.
2.1.69 granules [Layer 11] [audio]: The set of 3 consecutive subband samples from all 32 subbands
that are considered together before qu 2.1.70 granules [Layer 1111 [audio]: 576 frequency lines that carry their own side information.
2.1.71 group of pictures [Video]: A series of one or more coded pictures intended to assist random
access. The group of pictures is one of the layers in the coding syntax defined in ISO/IEC 11172-2.
2.1.72 Hann window [audio]: A time function applied scunple-by-scunple to a block of audio samples
before Fourier transformation.
2.1.73 Huffman coding: A specific method for entropy coding.
2.1.74 hybrid filterbank [audio]: A serial combination of subband filterbank and MDCT.
2.1.75 IMDCT [audio]: Inverse Modified Discrete Cosine Transform.
2.1.76 intensity stereo [audio]: A method of exploiting stereo irrelevante or redundancy in
stereophonic audio Programmes bc?sed on retaining at high frequencies only the energy envelope of the right
and left channels.
2.1.77 interlace [Video]: The property of conventional television pictures where alternating lines of
the picture represent different instances in time.
2.1.78 intra coding [Video]: Coding of a macroblock or picture that uses information only from that
macroblock or picture.
2.1.79 intra-coded picture; 1-picture [Video]: A picture coded using information only from itself.
2.1.80 ISO/IEC 11172 (multiplexed) stream [System]: A bitstream composed of Zero or more
elementar-y streams combined in the manner defined in this p‘art of ISO/IEC 11172.

o ISOAEC ISOAEC 11172~1:1993 (E)
2.1.81 joint stereo coding [audio]: Any method that exploits stereophonic irrelevante or
stereophonic redundancy.
2.1.82 joint stereo mode [audio]: A mode of the audio coding algorithm using joint stereo coding.
2.1.83 layer [audio]: One of the levels in the coding hierarchy of the audio System defined in ISO/IEC
11172-3.
2.1.84 layer [Video and Systems]: One of the levels in the data hierarchy of the Video and System
specifications defmed in this part of ISO/IEC 11172 and ISO/IEC 11172-2.
2.1.85 luminance (component) [Video]: A matrix, block or Single pel representing a monochrome
representation of the Signal and related to the primary colours in the manner defined in CCIR Ret 601. The
Symbol used for luminance is Y.
2.1.86 macroblock [Video]: The four 8 by 8 blocks of luminance data and the two corresponding 8 by
8 blocks of chrominance data coming from a 16 by 16 section of the luminance component of the picture.
Macroblock is sometimes used to refer to the pel data and sometimes to the coded representation of the pel
values and other data elements defined in the macroblock layer of the syntax defined in ISO/IEC 11172-2.
The usage is clear from the context.
2.1.87 mapping [audio]: Conversion of an audio Signal from time to frequency domain by subband
filtering and/or by MDCT.
2.1.88 masking [ audio] : A property of the human auditory System by which an audio Signal cannot be
perceived in the presence of another au dio Signal .
2.1.89 masking threshold [audio]: A function in frequency and time below which an audio Signal
cannot be perceived by the human auditory System.
2.1.90 MDCT [ audio]: Modified Discrete Cosine Transform.
2.1.91 motion compensation [Video]: The use of motion vectors to improve the efficiency of the
prediction of pel values. The prediction uses motion vectors to provide offsets into the past and/or future
reference pictures containing previously decoded pel values that are used to ferm the prediction error Signal.
2.1.92 motion estimation [Video]: The process of estimating motion vectors during the encoding
process.
2.1.93 motion vector [Video]: A two- dimensional that provides
vector used for motion compensation
an offset from the coordinate position in the current pi cture to the coordinates in a reference pi .cture.
2.1.94 MS stereo [audio]: A method of exploiting stereo irrelevante or redundancy in stereophonic
audio programmes bLzsed on coding the sum and differente Signal instead of the left and right channels.
2.1.95 non-intra coding [Video]: Coding of a macroblock or picture that uses information both from
itself and from macroblocks and pictures occurring at other times.
2.1.96 non-tonal component [audio]: A noise-like component of an audio Signal.
2.1.97 Nyquist sampling: Sampling at or above twice the maximum bandwidth of a Signal.
2.1.98 pack [System]: A pack consists of a pack header followed by one or more packets. It is a layer
in the System coding syntax described in this pclrt of ISODEX 11172.
2.1.99 packet data [System]: Contiguous bytes of data from an elementar-y stream present in a packet.
2.1.100 packet header [System]: The data structure used to convey information about the elementary
stream data contained in the packet data.
ISOAEC 11172~1:1993 (E) o ISOAEC
2.1.101 packet [System]: A packet consists of a header followed by a number of contiguous bytes
from an elementar-y data stream. It is a layer in the System coding syntax described in this part of ISO/IEC
11172.
2.1.102 padding [audio]: A method to adjust the average length in time of an audio frame to the
duration of the corresponding PCM samples, by conditionally adding a slot to the audio frame.
2.1.103 past reference picture [Video]: The past reference picture is the reference picture that occurs
at an earlier time than the current picture in display Order.
2.1.104 pel aspect ratio [Video]: The ratio of the nominal vertical height of pel 011 the display to its
nominal horizontal width.
2.1.105 pel [Video]: Picture element.
The reciprocal of the picture rate.
2.1.106 picture period [Video]:
2.1.107 picture rate [Video]: The nominal rate at which pictures should be output from the decoding
process.
2.1.108 picture [Video]: Source, coded or reconstructed image data. A Source or reconstructed picture
consists of three rectangular matrices of 8-bit numbers representing the luminance and two chrominance
Signals. The Picture layer is one of the layers in the coding Syntax defined in ISO/IEC 11172-2. Note that
the term “picture” is always used in ISO/IEC 11172 in preference to the tenns field or frame.
2.1.109 Polyphase filterbank [audio]: A set of equal bandwidth filters with special Phase
interrelationships, allowing for an efficient implementation of the filterbank.
2.1.110 prediction [Video]: The use of a predictor to provide an estimate of the pel value or data
element currently being decoded.
2.1.111 predictive-coded picture; P-picture [Video]: A picture that is coded using motion
compensated prediction from the past reference picture.
2.1.112 prediction error [Video]: The differente between the actual value of a pel or data element and
its predictor.
2.1.113 predictor [Video]: A linear combination of previously decoded pel values or data elements.
2.1.114 presentation time-stamp; PTS [System]: A field that may be presen t in a packet
that indicates the time that a presentation unit is presented in the System tat-get decoder.
2.1.115 presentation unit; PU [System]: A decoded audio access unit or a decoded picture.
2.1.116 psychoacoustic model [audio]: A mathematical model of the masking behaviour of the
human auditory System.
2.1.117 quantization matrix [Video]: A set of sixty-four 8-bit values used by the dequantizer.
2.1.118 quantized DCT coefficients [Video]: DCT coefficients before dequantization. A variable
length coded representation of quantized DCT coefficients is stored as part of the compressed Video
bitstream.
2.1.119 quantizer scalefactor [Video]: A data element represented in the bitstream and used by the
decoding process to scale the dequantization.
ISO/IEC 11172~1:1993 (E)
0 ISOAEC
random access: The process of beginning to read coded bi tstream at an arbitrary
2.1.120 and decode the
Point.
2.1.121 reference picture [Video]: Reference pictures are the nearest adjacent 1- or P-pictures to the
current picture in display Order.
2.1.122 reorder buffer [Video]: A buffer in the System target for storage of a reconstructed I-
decoder
P-picture.
picture or a reconstructed
Decoding of
2.1.123 requantization [audio]: coded subband samples in Order to recover the original
quantized values.
2.1.124 reserved: The term “reserved” when used in the clauses defining the coded bitstream indicates
that the value may be used in the future for ISOAEC defined extensions.
playback [Video]: The process of displaying the picture
2.1.125 reverse sequence in the reverse of
display Order.
2.1.126 scalefactor band [audio]: A set of frequency lines in Layer 111 which are scaled by one
scalefactor.
2.1.127 scalefactor index [audio]: A numerical code for a scalefactor.
2.1.128 scalefactor [audio]: Factor by which a set of values is scaled before quantization.
header [Video]: A block
2.1.129 sequence of data in the coded bi tstream containing the
representation of a number of data elements.
2.1.130 side information: Information in the bitstream necessary for controlling the decoder.
2.1.131 skipped macroblock [Video]: A macroblock for which no data are stored.
2.1.132 Slice [Video]: A series of macroblocks. It is one of the layers of the coding Syntax defined in
ISO/IEC 11172-2.
2.1.133 slot [audio]: A slot is an elementar-y pczrt in the bitstre,un. In Layer 1 a slot equals four bytes,
in Layers 11 and 111 one byte.
2.1.134 Source stream: A Single non-multiplexed stream of samples before compression coding.
2.1.135 spreading function [audio]: A function that describes the frequency spread of masking.
2.1.136 Start Codes [System and Video]: 32-bit Codes embedded in that coded bitstream that are
unique. are used for sev ,er-a1 purposes including identifying some of the layers in the coding Syntax.
JJ=Y
2.1.137 STD input buffer [System]: A first-in first-out buffer at the input of the System target
decoder for storage of compressed data from elementar-y streams before decoding.
2.1.138 stereo mode [audio]: Mode, where two audio channels which form a stereo pair (left and
right) are encoded within one bitstream. The coding process is the same as for the dual channel mode.
2.1.139 stuffing (bits); stuffing (bytes) : Code-words that may be inserted into the compressed
bitstream that are discarded in the decoding process. Their purpose is to incre 2.1.140 subband [audio]: Subdivision of the audio frequency band.
2.1.141 subband filterbank [audio]: A set of band filters covering the entire audio f.equency rage.
111 ISO/IEC 11172-3 the subband filterbank is a Polyphase filterbank.

ISOAEC 111724: 1993 (E) 0 ISOAEC
2.1.142 subband samples [audio]: The subband filterbank within the audio encoder creates a filtered
and subsampled representation of the input audio stream. The filtered samples are called subband samples.
From 384 time-consecutive input audio samples, 12 time-consecutive subband samples each of the 32 subbands.
2.1.143 syncword [audio]: A 12-bit code embedded in the audio bitstream that identifies the start of a
frame.
2.1.144 Synthesis filterbank [audio]: Filterbank in the decoder that reconstructs a PCM audio
Signal from subband samples.
2.1.145 System header [System]: The System header is a data structure defined in this part of
ISO/IEC 11172 that carries information summarising the System characteristics of the ISO/IEC 11172
mul tiplexed stream.
2.1.146 System target decoder; STD [System]: A hypothetical reference model of a decoding
process used to describe the semantics of an ISO/IEC 11172 multiplexed bitstream.
2.1.147 time-stamp [System]: A term that indicates the time of an event.
2.1.148 triplet [audio]: A set of 3 consecutive subband samples from one subband. A triplet from
each of the 32 subbands forms a granule.
2.1.149 tonal component [audio]: A sinusoid-like component of an audio Signal.
2.1.150 variable bitrate: Operation where the bitrate vczries with time during the decoding of a
compressed bitstream.
2.1.151 variable length coding; VLC: A reversible procedure for coding that assigns shorter code-
words to frequent events and longer code-words to less frequent events.
2.1.152 Video buffering verifier; VBV [Video]: A hypothetical decoder that is conceptually
connected to the output of the encoder. Its purpose is to provide a constraint on the variability of the data
rate that an encoder or editing process may produce.
2.1.153 Video sequence [Video]: A series of one or more groups of pictures. It is one of the layers of
the coding Syntax defined in ISO/IEC 11172-2.
2.1.154 zig-zag scanning Order [Video]: A specific sequential ordering of the DCT coefficients from
(approximately) the lowest spatial frequency to the highest.
ISO/IEC 11172~1:1993 (E)
0 ISOAEC
2.2 Symbols and abbreviations
The mathematical Operators used to describe this International Standard at-e similar to those used in the C
programming language. However, integer division with truncation and rounding are specifically defined.
The bitwise Operators arc defined assuming twos-complement representation of integers. Numbering and
counting loops generally begin from Zero.
2.2.1 Arithmetic Operators
Addition.
+
Subtraction (as a binar-y Operator) or negation (as a unary Operator).
++ Increment.
--
Decrement.
*
Mul tiplication.
A
Power.
Integer division with truncation of the result toward Zero. For exarnple, 7/4 and -7/-4 are
l
truncated to 1 and -7/4 and 7/-4 arc truncated to -1.
// Integer division with rounding to the nearest integer. Half-integer values are rounded away
from zero unless otherwise specified. For example 3//2 is rounded to 2, and -3//2 is rounded
to -2.
DIV Integer division with truncation of the result towards-c=.
I x I = x when x > 0
I I Absolute value.
lxI=Owhenx==O
1x1 = -x when x < 0
% Modulus Operator. Defined only for positive numbers.
= 1 x >o
Sign(x)
sign( )
--
0 x 0
-1 --
x Nearest integer Operator. Returns the nearest integer value to the real-valued argument. Half-
NINu >
integer values are rounded away from Zero.
sin Sine.
cos Cosine.
Exponen tinl .
exp
Yf Square root.
Logarithm to base ten.
log10
Logarithm to base e.
log,
Logcuithm to base 2.
log2
2.2.2 Logical Operators
Logical OR.
II
Logical AND.
&&
0 ISOAEC
ISOAEC 11172-1: 1993 (E)
.
1 . 2 . 3 .,“~lN~~erators
> Greater than.
s Greater than or equal to.
< Less than.
<= Less than or equal to.
Equal to.
!z
Not equal to.
max [,.,] the maximum value in the argument list.
min [,.,] the minimum value in the argument list.
2.2.4 Bitwise Operators
A twos complement number representation is assumed where the bitwise Operators & AND.
I OR .
>> Shift right with sign extension.
<< Shift left with Zero fill.
2.2.5 Assignment
Assignment Operator.
2.2.6 Mnemonics
The following mnemonics are defined to describe the different data types used in the coded bit-stream.
bslbf Bit string, left bit first, where “left” is the Order in which bit strings are written in
ISO/IEC 11172. Bit strings arc written as a string of 1s and Os within Single quote
m significance.
Channel. If ch has the value 0, the left ch(anne1 of a stereo Signal or the first of two
ch
independent Signals is indicated. (Audio)
Number of channels; equal to 1 for singlechannel mode, 2 in other modes. (Audio)
nch
Granule of 3 * 32 subband samples in audio Layer 11, 18 * 32 sub-band samples in
&r
audio Layer 111. (Audio)
The main data portion of the bitst.re,un contains the scalefactors, Huffman encoded
main-data
data, and &cillary information. (Audio)
The location in the bitstream of the beginning of the main-data for the frcune. The
main-databeg
location is equal to the ending location of the previous frame’s main data plus one bit.
It is calculated from the maindata-end value of the previous frame. (Audio)
The number of main-data bits used for scalefactors. (Audio)
part2Jength
ISOAEC 1117201:1993 (E)
o ISOAEC
Remainder polynomial coefficients, highest Order first. (Audio)
rpchof
Subband. (Audio)
sb
The number of the lowest sub-band for which no bits are allocated. (Audio)
sblimi t
Scalefactor selection information. (Audio)
scfsi
Number of scalefactor band (long block scalefactor band) from which Point on window
switch-Point-1
switching is used. (Audio)
switch-Point-s Number of scalefactor band (short block scalefactor band) from which Point on window
switching is used. (Audio)
Unsigned integer, most significant bit first.
uimsbf
Variable length Code, left bit fnst, where “left” refers to the Order in which the VLC
vlclbf
Codes are written.
Number of the actual time slot in case of block_type==2,0 < window < 2. (Audio)
window
The byte Order sf multi-byte words is most significant byte first.
2.2.7 Constants
n: 3,14159265358.
e 2,71828182845.
2.3 Method of describing bit stream Syntax
The bit stream retrieved by the decoder is described in 2.4.3. Esch data item in the bit stream is in bold
type. It is described by its name, its length in bits, and a mnemonic for its type and Order of transmission.
The action caused by a decoded data element in a bit stre on data elements previously decoded. The decoding of the data elements and definition of the state variables
used in their decoding care described in 2.4.4. The following constructs when data elements arc present, and are in normal type:
Note this syntax uses the ‘C-Code convention that a variable or expression evaluating to a non-Zero value is
equivalent to a con dition that is true.
while ( condition ) If the condition is true, then the group of data elements occurs next
t
data element in the data stream. This repeats until the condition is not true.
-
w
data element The data element always occurs at least once.
-
) while ( condition ) The data element is repeated until the condition is not true.
If the condition is true, then the first of data elements occurs
if ( condition) (
group
data element next in the data stream.
-
If the condition is not true, then elements
else (
group
data element occurs next in the data stream.
-
0 ISOAEC
ISOAEC 11172-1: 1993 (E)
for (exprl; expr2; expr3) ( exprl is an expression specifying the in
...


NORME
lSO/CEI
INTERNATIONALE
11172-1
Première édition
1993-08-01
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ 1,5 Mbit/s -
Partie 1:
Systèmes
Information technology
- Coding of moving pictures and associated
audio for digital s torage media at up to about 1,5 Mbit/s -
Part 1: Systems
Numéro de référence
ISO/CEI 1 Il 72-l :1993(F)
ISO/CEI 11172-l :1993 (F)
Sommaire
. . .
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
iv
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
: Généralités .
Section 1
1.1 Objet .
...................................................................... 1
1.2 Références normatives
: Eléments techniques . 3
Section 2
2.1 Définitions .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .*. 12
2.2 Symboles et abréviations
.................
2.3 Méthode de description de la syntaxe du train binaire 15
Spécifications . 17
2.4
Annexes
Description de la Couche de codage Système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
A
B Liste des détenteurs de brevets . . . . . . . . . . . . . . . . . . .“.
0 ISO/CEI 1993
Droits de reproduction réserves. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
ecrit de l’editeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-I 211 Genève 20 l Suisse
Version française tirée en 1994
Imprime en Suisse
ii
0 ISO/CEI ISO/CEI 11172-l :1993 (F)
Avant-propos
L’ISO (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de 1’ISO et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec I’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, I’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote.
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172- 1 a été élaborée par le comité technique
ISOICEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de 1 ‘information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,5 Mbit/s:
- Partie I: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A et B de la présente partie de l’ISO/CEI 11172 sont données
uniquement à titre d’information.
. . .
III
ISO/CEI 11172-I :1993 (F) 0 lSO/CEI
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Système MPEG
peut lire cette introduction puis passer à l’annexe informative A, avant de revenir aux articles
1 et 2. Comme il est fait référence au concept de Décodeur de Référence Système dans
l’ensemble des articles normatifs et informatifs de la présente partie de l’ISO/CEI 11172, il
peut également être utile de se référer à 2.4, et en particulier à 2.4.2 ofi est décrit le Décodeur
de Référence Système.
Les spécifications de la Couche Système répondent au besoin de combiner un ou plusieurs trains de
données, tels que spécifiés dans les parties vidéo et audio de la présente Norme internationale, avec
des informations de synchronisation, pour former un train binaire unique. Ainsi combinées, les
données ont une forme appropriée au stockage ou à la transmission numérique. Les règles
syntaxiques et sémantiques données dans les présentes spécifications de la Couche Système
permettent une relecture synchronisée sans débordement ni sous-remplissage des tampons du
décodeur, dans des conditions très diverses de restitution ou de réception du train de données. Les
règles syntaxiques et sémantiques prescrites dans la spécification des systèmes ont des domaines
d’application différents : les règles syntaxiques s’appliquent uniquement au codage dans la Couche
Système et ne concernent pas les spécifications de codage vidéo et audio relevant de la Couche
Compression ; les règles sémantiques, par contre, s’appliquent au train binaire combiné intégral.
Les spécifications de la Couche Système ne concernent ni l’architecture des codeurs ou décodeurs, ni
leur réalisation. Les propriétés du train binaire imposent toutefois des spécifications fonctionnelles et
de performances aux codeurs et décodeurs. Par exemple, les codeurs doivent répondre à des
spécifications minimales en matière de tolérance des horloges. Malgré ces impératifs (et d’autres), on
dispose d’une latitude considérable pour la conception et la réalisation des codeurs et décodeurs.
Un prototype de système de décodeur audio/vidéo est représenté sur la figure 1, comme exemple de
réalisation de la fonction décodeur ISO/CEI 11172. Cette architecture n’est pas unique : les
fonctions du décodeur système (incluant le contrôle de la synchronisation du décodeur) peuvent
également être réparties entre des décodeurs de trains binaires élémentaires et un décodeur
spécifique au support. Cette figure est utile comme support de présentation. La conception du
décodeur prototype n’implique aucune prescription normative quant à la conception d’un décodeur
ISO/CEI 11172. Il est, bien sûr, permis de traiter uniquement des données non-audio/vidéo, mais ce
cas n’est pas représenté.
Train binaire
Audio
audio ISO 11172
I
I décodée
Décodeur ,
audio
I
1)
t \
Train binaire
ISO 11172 I
.
i a
l
I
Contrôle d--
@
* de
r 9 l’horloge
Support I
b
m
a
de stockage
numérique
t 3 1
I
Video
décodée
Décodeur
I
vidéo
r
Train binaire
vidéo ISO 11172
Figure 1 - Décodeur prototype ISO/CEI 11172

0 ISO/CEI ISO/CEI 11172-l : 1993 (F)
Le decodeur prototype ISO/CEI 11172 représenté sur la figure 1 est composé de Décodeurs
Système, Vidéo et Audio, respectivement conformes aux Parties 1, 2 et 3 de l’ISO/CEI 11172. Dans
ce décodeur, on suppose que la représentation codée multiplexée d’un ou plusieurs trains audio et/ou
vidéo est enregistrée sur un support de stockage numérique (DSM), ou transmise par un réseau, dans
un certain format, spécifique au support de stockage ou de transmission. Ce format spécifique au
support, ainsi que la partie du décodeur prototype ISO/CEI 11172 spécifique au support, ne relèvent
pas de la présente Norme internationale.
Le décodeur prototype accepte comme entrée un train binaire ISO/CEI 11172 et en extrait les
informations de synchronisation à l’aide d’un décodeur système. Le décodeur système démultiplexe le
train binaire en trains binaires élémentaires, entrées des décodeurs vidéo et audio, dont les sorties
sont ensuite décodées en signaux vidéo et audio. La conception porte également sur les flux
d’informations de synchronisation - non représenté sur la figure - entre le décodeur système, les
décodeurs vidéo et audio et le décodeur spécifique au support. Ces informations de synchronisation
permettent la synchronisation des décodeurs vidéo et audio l’un par rapport à l’autre, et avec le DSM.
Les trains binaires multiplexés ISO/CEI 11172 sont structurés en deux couches : une Couche
Système et une Couche Compression. Le train binaire d’entrée du décodeur système comporte une
Couche Système enveloppant une Couche Compression. Les trains binaires d’entrée des décodeurs
vidéo et audio comportent uniquement une Couche Compression.
Les opérations effectuées par le décodeur système s’appliquent à l’ensemble du train binaire
multiplexé ISO/CEI 11172 (“opérations au niveau multiplex”) ou à des trains binaires élémentaires
individuels (“opérations spécifiques à un train binaire”). La Couche Système ISO/CEI 11172 est
divisee-en deux sous-couches, l’une concernant les opérations au niveau multiplex (Couche Pack) et
l’autre les opérations-spécifiques à un train binaire (Couche Paquet).
01 . Opérations au niveau multiplex (Couche Pack)
Les opérations au niveau du multiplex comprennent la coordination de la récupération de données à
partir du DSM, le réglage des horloges et la gestion des tampons. Ces fonctions sont intimement
liées. Si le débit de restitution des données à partir du DSM est contrôlable, il est possible de le
régler en sorte d’éviter un débordement ou un sous-remplissage des tampons du décodeur ; s’il n’est
pas contrôlable, les décodeurs de trains binaires élémentaires doivent se synchroniser sur le DSM
pour éviter un tel débordement ou un sous-remplissage.
Les trains binaires multiplexés ISO/CEI 11172 sont composés de packs dont les en-têtes facilitent la
réalisation des fonctions ci-dessus. Les en-têtes des packs spécifient le moment auquel chaque octet
lu sur le DSM est sensé enter dans le décodeur système. Le “timing” (ou structure de synchronisation)
d’arrivée ainsi défini sert de référence pour la correction des horloges et la gestion des tampons. Les
décodeurs ne sont pas tenus de suivre exactement ce timing, mais doivent compenser les écarts par
rapport à celui-ci.
Relève également du niveau multiplex, la capacité du décodeur de déterminer les ressources
nécessaires pour décoder un train binaire ISO/CEI 11172. Le premier pack de chaque train binaire
ISO/CEI 11172 véhicule des paramètres destinés à aider les décodeurs dans cette tâche ; par
exemple : le débit de données maximum du train binaire et le nombre maximum de canaux vidéo
simultanés.
02 .
Opérations spécifiques à un train binaire individuel (Couche
Paquet)
Les principales opérations spécifiques à un train binaire sont : (1) le démultiplexage et (2) la
restitution synchronisée de plusieurs trains binaires élémentaires. Ces opérations sont décrites ci-
après.
0 lSO/CEI
ISO/CEI 11172-l :1993 (F)
0.2.1 Démultiplexage
Lors du codage, les trains binaires multiplexés ISO/CEI 11172 sont formés par le multiplexage de
trains binaires élémentaires. Les dits trains binaires élémentaires peuvent inclure des trains binaires
privés réservés et de bourrage, en plus des trains binaires audio et vidéo ISO/CEI 11172. Les trains
binaires font l’objet d’une subdivision temporelle en paquets, lesquels sont mis en série. Un paquet
contient des octets codés provenant d’un train binaire élémentaire et un seul.
Des paquets de longueur fixe et variable sont permis, sous réserve des contraintes stipulées en 2.4.3.3,
2.4.5 et 2.4.6.
Lors du décodage, le démultiplexage doit reconstituer des trains binaires élémentaires à partir du
train binaire multiplexé ISO/CEI 11172. Cette reconstitution est rendue possible par la présence de
codes d’identification de train binaire stream-id dans les en-têtes de paquet.
0.2.2 Synchronisation
binaires est effectuée à l’aide des estampilles de
La synchronisation entre plusieurs trains
présentation du train binaire multiplexé ISO/CEI 11172. Les estampilles sont exprimées en unités
égales à la période d’une horloge à 90 kHz. La synchronisation de la restitution de N trains binaires
est obtenue par calage de tous ces trains binaires sur une base de temps mère, et non par calage de la
restitution d’un train binaire sur celle d’un autre. La base de temps mère peut être une des horloges
des N décodeurs, l’horloge du DSM ou du canal, ou une horloge externe quelconque.
Les estampilles de présentation relèvent de la Couche Paquet, car elles s’appliquent au décodage de
trains binaires élémentaires individuels. La synchronisation de bout en bout comprend l’estampillage
opéré par les codeurs lors de l’acquisition des données, la propagation des estampilles avec les
données codées vers les décodeurs, et l’utilisation de ces estampilles par les décodeurs pour la
synchronisation des présentations.
réalisée par des estampilles
La synchronisation peut également être de synchronisation du DSM
jalonnant le train de données multiplexé.
0.2.3 Relations avec la Couche Compression
La Couche Paquet n’est pas entièrement indépendante de la Couche Compression. Elle en est
indépendante en ce sens que les paquets ne commencent pas nécessairement aux codes de début de
la Couche Compression, tels que définis dans les Parties 2 et 3 : par exemple, un paquet vidéo peut
commencer à n’importe quel octet du train vidéo. Par contre, les estampilles codées dans les en-têtes
de paquet définissent les moments de présentation de structures de données relevant de la Couche
Compression (à savoir, d’unités de présentation).
0.3 Décodeur de Référence Système
La Partie 1 de l’ISO/CEI 11172 utilise un “Décodeur de Référence Système” (STD) pour formaliser
les relations de synchronisation et de tamponnage. Comme le STD est paramétré en termes de
champs définis dans l’ISO/CEI 11172 (par exemple, tailles de tampon), chaque train binaire
ISO/CEI 11172 détermine un paramétrage particulier du STD. Il appartient aux codeurs de garantir
que les trains binaires qu’ils produisent seront restitués en lecture avant et à vitesse normale dans les
STD correspondant. Un décodeur physique suppose qu’un train binaire est restitué correctement sur
son STD : il compense les effets les différences entre sa conception et celle du STD.
vi
NORME INTERNATIONALE @ lsO/CEI ISO/CEI II 1724:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 Mbit/s -
Partie 1:
Systèmes
Section 1 : Généralités
1.1 Objet
La présente partie de l’ISO/CEI 11172 spécifie la Couche Système du codage. Elle est
principalement destinée à prendre en charge la combinaison des méthodes de codage vidéo et-audio
définies dans l’JSO/CEI 11172-2 et l’ISO/CEI 11172-3. La Couche Système assure cinq fonctions de
base :
la synchronisation, lors de la restitution de plusieurs trains binaires comprimés ;
l’entrelacement de plusieurs trains binaires comprimés en un même train binaire ;
W
l’initialisation du tamponnage au début de la restitution ;
la gestion permanente des tampons ;
la détermination du temps.
e>
Un train binaire multiplexé ISO/CEI 11172 est structuré en deux couches : une couche externe, la
Couche Systeme ; une couche interne : la Couche Compression. La Couche Système assure les
fonctions nécessaires pour l’utilisation d’un ou plusieurs trains binaires de données comprimées dans
un système. Les parties audio et vidéo de la présente norme définissent la couche de codage de
compression de données audio et vidéo. Le codage d’autres types de données n’est pas spécifié par la
norme, mais il est pris en charge par la Couche Système, à condition que ces autres types de données
soient conformes aux restrictions prescrites en 2.4.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de 1’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
Codage de l’image animée et du son associé
ISO/CEI 11172-2:1993, Technologies de l’irzfom~ation -
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 2 : Vïdéo.
ISO/CEI 11172-2:1993, Technologies de I’infomlation - Codage de l’image animée et du son associé
pour les suppotis de stockage numétique jusqu’à environ 1,5 Mbit/s - Partie 3 : Audio.
Recommandation CCIR 601-2, Paramètres de codage de télévision numétique pour studios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.

ISO/CEI 11172-l : 1993 (F) o ISO/CEI
Rapport CCIR 955-2, Radiodifision du son par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué II.
Recommandation CCITT 5.17, Préaccentuation utilisée sur les circuits du programme son.
Projet de norme IEEE Pll8O/D2 1.990, Spécifications de mise en oeuvre de la transformation en
cosinus discrète inverse 8x8.
CEI 9083987, Système audio numérique CD.
ISO/CEI 1117201:19Q3 (F)
o lSO/CEI
Section 2 : Eléments techniques
2.1 Définitions
Les définitions suivantes s’appliquent, pour les besoins d’ISO/CEI 11172. L’expression équivalente en
anglais est entre crochets maigres, en italiques. La partie à laquelle une définition est éventuellement
spécifique est indiquée entre crochets gras.
2.1.1 coefficient AC fac coeflcient] [vidéo] : Tout coefficient DCT dont la fréquence est non
nulle dans au moins une dimension.
: Unité d’accès audio, dans le cas d’un signal audio
2.102 unité d’accès [access unit] [système]
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4 affectation binaire adaptative [adaptative bit allocation] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocation] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [alias] [audio] : Composante en miroir du signal, résultant d’un échantillonnage à une
fréquence inférieure à la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [analysis filterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches 1 et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une “reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio buj’fer] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
: Suite ininterrompue de trames audio dans
2.1.10 séquence audio [audio sequence] [audio]
laquelle les paramètres suivants sont constants :
- ID,
couche,
- fréquence d’échantillonnage,
- pour les Couches 1 et II : indice de débit binaire.
2.1.11
vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilise
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taux de bande critique (tonie). L’échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement a la
sélectivité en fréquence de l’oreille humaine sur la bande.
image B [bidirectionali” predictive-coded
2.1.13 image codée par prédiction bidirectionnelle ;
picture; B-picture] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
o lSO/CEI
lSO/CEI 11172-I : 1993 (F)
: Débit auquel le train binaire comprimé est reçu du support de
2.1.14 débit binaire [bitrate]
stockage à l’entrée d’un décodeur.
2.1.15 compression-expansion par blocs [block companding] [audio] : Normalisation de la
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
2.1.16 bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.17 sous-bande limite [bound] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensité est utilisé.
2.1.18 calé a l’octet [byte ali’zed] : Un bit d’un train binaire codé est calé à l’octet si sa position à
partir du premier bit de ce train binaire, est un multiple de 8 bits.
octet [byte] : Suite de huit bits.
2.1.19
stocke ou transporte un train binaire
2.120 canal [channel] : Support numérique qui
ISO/CEI 11172.
2.1.21 voie [channel] [audio] : Voie gauche ou droite d’un signal stéréo.
2.122 chrominance (composante) [chrominance (component)] [vidéo] : Matrice, bloc ou
échantillon de pixels représentant un des deux signaux de différences de couleur associés aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
2.f.23 train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d’un signal
audio, telle que spécifiée dans l’ISO/CEI 11172-3.
2.1.24 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans l’ISO/CEI 11172-2.
2.1.25 ordre de codage [coded order] [vidéo] : Ordre dans lequel les images sont stockées et
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
représentation codée [coded representation] [vidéo] : Elément de données, tel que
2.1.26
représenté dans sa forme codee.
2.1.27 paramètres de codage [codingparameters] [vidéo] : L’ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.128 composante [component] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.1.29
compression [compression] : Réduction du nombre de bits utilisés pour représenter un
élément de données.
2,130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [constrained parameters] [vidéo] : Valeurs des paramètres de codage
de l’ensemble défini en 2.4.3.2 dans l’ISO/CEI 11172-2.
2.133 train binaire à paramètres système restreints (C§PS) [constrained system parameter stream
(CSPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6. de la présente partie de l’ISO/CEI 11172.
2.134 CRC [Cyclic redundancy code; CRCJ : Code à redondance cyclique.
ISO/CEI 11172-1:1993 (F)
0 lSO/CEI
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
2.136 bande critique [critical band] [audio] : Mesure psychoacoustique relevant du domaine
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
2.138 coefficient DC [dc-coeflcient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
les deux dimensions.
image codée DC ; image D [dc-coded picture; D-picture] [vidéo] : Image codée en utilisant
2.139
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DOcoefficient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded stream] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input buffer] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidéo codé.
2.1.44 décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decoding(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire codé d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage g DTS [decoding time-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Decodeur de Référence Système.
2.1.47
désaccentuation [de-emphasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [dequantization] [vidéo] : Processus de remise à l’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storuge media; DSMJ : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50 transformation en cosinus discrète ; DCT [discrete cosinus transform; DCT] [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A dans
l’ISO/CEI 11172-2.
2.1.51 ordre d’affichage [display order] [vidéo] : Ordre dans lequel les images décodées devraient
être affichées, normalement le même que celui dans lequel elles ont été présentées à l’entrée du
codeur.
2.1.52 mode à deux canaux [duul channel mode] [audio] : Mode dans lequel deux canaux audio
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
ISO/CEI 11172-l :1993 (F) o ISO/CEI
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
pour produire un nouveau train binaire comprimé. Les trains binaires édités conformes doivent
répondre aux spécifications définies dans l’ISO/CEI 11172.
: Terme générique pour désigner
2.1.54 train binaire élémentaire [elementary stream] [système]
un des trains binaires binaires codés vidéo, audio ou autres.
2.1.55 accentuation [emphasis] [audio] : Filtrage appliqué à un signal audio avant stockage ou
transmission, pour améliorer le rapport signal/bruit aux fréquences élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans l’ISO/CEI 11172.
2.1.58 codage entropique [entropy coding] : Codage de longueur variable, sans bruit, de la
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59 accéléré avant Vast forward playback] [vidéo] l . Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fast Fourier Traîufonn; FFTJ : Transformation de Fourier rapide. Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres Flterbartk] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62 segmentation fixe ped segmentation] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fixes.
2.1.63 interdit(e) [forbidden] l . Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, général1 ement pour éviter l’émulation de
codes de début.
2.1.64 rafraîchissement systématique Vorced updating] [vidéo] Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant [forward nzotiou vector] [vidéo] : Vecteur mouvement utilisé pour
située à un instant antérieur dans
la compensation du mouvement, d’après une image de référence,
l’ordre d’affichage.
2.1.66 trame [frame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67 format libre rree fomat] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans l’ISO/CEI 11172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de référence future ptture reference image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.
2.1.69 granules [Couche II] [granules [Layer 11/1 [audio] l . L’ensemble des 3 échantillons
consécutifs en sous-bande, pour les 32 sous-bandes considérées dans leur ensemble avant
quantification. Ils correspondent à 96 échantillons MIC.
2.1.70 granules [Couche III] banztles [Layer Ml] [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
0 ISO/CEI ISO/CEI 11172-l : 1993 (F)
2.1.71 groupe d’images [group of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter l’accès direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans l’ISO/CEI 11172-2.
2.1.72 fenêtre de Hann [Hann window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73
codage de Huffman [Hufffnan coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [hybrid filterbank] [audio] : Combinaison en serie d’un banc de
filtres en sous-bande et d’une MDCT.
2.1.75 IMDCT [Inverse Modified Discrete Cosinus Transfomt] [audio] : Transformation en cosinus
discrète modifiée inverse.
2.1.76 stéréo intensité [intensity strereo] [audio] :
Méthode d’exploitation du caractère non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [interlace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [intra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image 1 [intra-coded picture; 1-picture] [vidéo] : Image codée en
utilisant uniquement ses propres informations.
2.1.80 train binaire (multiplexé) ISO/CEI 11172 [L!$O/CEI 11172 (mulriiplexed) stream]
[système] : Train binaire composé de zéro, un ou plusieurs trains binaires élémentaires, combinés
comme défini dans la présente partie de l’ISO/CEI 11172.
2.1.81 codage stéréo combiné point stereo coding] [audio] : Toute méthode exploitant le caractère
non significatif ou la redondance de la stéréophonie.
2.1.82 mode stéréo combiné point stereo mode] [audio] : Mode de l’algorithme de codage audio,
utilisant le codage stéréo combiné.
2.1.83 couche [Zayer] [audio] : Un des niveaux de la hiérarchie de codage du système audio défini
dans l’ISO/CEI 11172-3.
2.1.84 couche [rayer] [vidéo et système] : Un des niveaux de la hiérarchie de données des
spécifications vidéo et système, définies dans la présente partie de l’ISO/CEI 11172 et dans
l’ISO/CEI 11172-2.
2.1.85 luminance (composante) [Zuminance (component)] [vidéo] : Matrice, bloc OU éckmtillon de
pixels constituant une représentation monochrome des signaux, et associé aux couleurs primaires,
comme défini dans la Recommandation du CCIR 601. Le symbole utilisé pour la luminance est Y.
2.1.86 macrobloc [macroblock] [vidéo] : Les quatre blocs 8 x 8 de données de luminance et les
deux blocs 8 x 8 correspondants de données de chrominance, provenant d’une section 16 x 16 de la
composante de luminance de l’image. Le macrobloc est utilisé tantôt pour se référer aux données du
pixel, tantôt pour se référer à la représentation codée du pixel et à d’autres éléments de données
définis dans la Couche Macrobloc de la syntaxe spécifiée dans l’ISO/CEI 111722 L’utilisation de ce
mot est clairement déterminée d’après le contexte.
2.1.87
mappage [mapping] [audio] : Conversion d’un signal audio d’un domaine temporel dans un
domaine fréquenciel par filtrage en sous-bande et/ou par MDCT.
2.1.88
masquage [masking] [audio] : Propriété du système auditif humain, exprimant le fait qu’un
signal audio ne peut pas être perçu en présence d’un autre signal audio.
0 lSO/CEI
ISO/CEI 11172-l : 1993 (F)
: Niveau, fonction de la fréquence et du
2.1.89 seuil de masquage [masking threshold] [audio]
temps, en-dessous duquel un signal audio ne peut pas être perçu par le système auditif humain.
MDCT [Modified Discrete Cosine Transfom; MDCTJ [audio] : Transformation en cosinus
2.1.90
discrète modifiée.
2.1.91 compensation du mouvement [motion compensation] [vidéo] : Utilisation de vecteurs
mouvement pour améliorer l’efficacité de prédiction des valeurs des pixels. La prédiction utilise, pour
former le signal d’erreur, des vecteurs mouvement fournissant des décalages par rapport à des images
de référence antérieures et/ou futures, contenant des pixels déjà décodés.
vecteurs
estimation du mouvement [motion estimation] [vidéo] : Processus d’estimation des
2.1.92
mouvement lors du processus de codage.
2.1.93 vecteur mouvement [motion vector] [vidéo] : Vecteur à deux dimensions utilisé pour la
compensation du mouvement, fournissant un décalage entre la position (déterminée par ses
coordonnées) dans l’image courante et la position dans une image de référence.
2.1.94 stéréo MS [MS stereo] [audio] : Méthode d’exploitation du caractère non significatif ou de
la redondance stéréophonique de programmes audio stéréo, et basée sur le codage des signaux de
somme et de différence, au lieu des voies droite et gauche.
codage (en mode) non-intra [non-intra coding] [vidéo] : Codage d’un macrobloc ou d’une
2.1.95
image, qui utilise des informations provenant à la fois de ce macrobloc ou de cette image, et de
macroblocs et d’images se présentant à d’autres moments.
2.1.96 composante non tonale [non-tonal component] [audio] : Composante de type bruit d’un
signal audio.
2J.97 échantillonnage de Nyquist [Nyquist sampling] : Echantillonnage à une fréquence double de
la largeur de bande maximale d’un signal, ou supérieure.
2.1.98 pack back] [système] : Un pack consiste en un en-tête de pack suivi d’un ou plusieurs
paquets. La Couche Pack de la syntaxe de codage système est décrite dans la présente partie de
l’ISO/CEI 11172.
2.1.99 données d’un paquet Ilpacket data] [système] : Octets de données consécutifs d’un train
binaire élémentaire, contenus dans un paquet.
2.1.100 en-tête de paquet Ipack header] [système] : Structure de données utilisée pour véhiculer des
informations sur les donnees du train binaire élémentaire contenu dans les données du paquet.
2.1.101 paquet Ipacket] [système]
: Un paquet consiste en un en-tête suivi d’un certain nombre
d’octets appartenant à un train de données élémentaire. La Couche Paquet de la syntaxe de codage
système est décrite dans la présente partie de l’ISO/CEI 11172.
2.1.102 bourrage [padding] [audio] : Méthode d’adaptation de la longueur temporelle moyenne
d’une trame audio à la durée des échantillons MIC correspondants, par concaténationnelle
conditionnelle d’un segment à la trame audio.
2.1.103 image de référence antérieure [past reference picture] [vidéo] : Image de référence située à
un moment antérieur à l’image courante, dans l’ordre d’affichage.
2.1.104 facteur d’aspect du pixel beZ aspect ratio] [vidéo]
: Rapport de la hauteur (verticale)
nominale du pixel affiché, à sa largeur (horizontale) nominale.
2.1.105 pixel [peZ] [vidéo] : Elément d’image.
2.1.106 période d’image [pictirepen’od] [vidéo] : Inverse de la fréquence d’image.
2.1.107 fréquence d’image Cpicture rate] [vidéo] : Fréquence nominale à laquelle des images
devraient se présenter à la sortie du processus de décodage.
0 lSO/CEI ISO/CEI 11172-1:1993 (F)
2.1.108 image [image] [vidéo] : Données d’image source, codée ou reconstruite. Une image consiste
en trois matrices rectangulaires de nombres de 8 bits représentant le signal de luminance et les deux
signaux de chrominance. La Couche Image est l’une des couches de la syntaxe de codage définie dans
l’ISO/CEI 11172-2. A noter que, dans l’ISO/CEI 11172, le terme “image” es4 toujours utilisé de
préférence à “trame”.
2.1.109 banc de filtres polyphase [polyphase j7Zter banc] [audio] : Ensemble de filtres de même
largeur de bande, présentant entre eux des relations de phase spécifiques, permettant une réalisation
efficace du banc de filtres
2.1.110 prédiction [prediction] [vidéo] : Utilisation d’un prédicteur pour fournir une estimation du
pixel ou de l’élément de données en cours de décodage.
2.Llll image codée par prédiction ; image P brediction coded picture; P-picture] [vidéo] : Image
codée en utilisant une prédiction compensée en mouvement d’après l’image de référence antérieure.
2.1.112 erreur de prédiction [prediction ewor] [vidéo] : Différence entre la valeur réelle d’un pixel
ou d’un élément de données et son prédicteur.
2.1.113 prédicteur [predictor] [vidéo] : Combinaison linéaire de pixels ou d’éléments de données
préalablement décodés.
2.1.114 estampille de présentation ; PTS Cpresentation time-stamp; PTS] [système] : Champ
pouvant figurer dans un en-tête de paquet pour indiquer le moment auquel une unité de présentation
est sensée être présentée dans le Décodeur de Référence Système.
PU [presentation unit; PUJ : Unité d’accès audio décodée ou image
2.1.115 unité de présentation ;
décodée.
2.1.1116 modèle psychoacoustique [psychoacousric model] [audio] : Modèle mathématique du
comportement en matière de masquage, du système auditif humain.
2.1.117 matrice de quantification [quantization mat&] [vidéo] : Ensemble de 64 valeurs de 8 bits,
utilisées pour la mise à l’échelle lors de la déquantification.
2.1.118 coeffkients DCT quantifiés [quantized DCT coeficients] : Coefficient DCT avant
déquantifïcation. Une représentation codée à longueur variable, des coefficients DCT quantifiés, est
stockée comme partie du train binaire vidéo comprimé.
2.1.119 facteur d’échelle de quantification [quantizer scalefactor] : Elément de données représenté
dans le train binaire et utilisé par le processus de décodage pour déterminer la mise à l’échelle lors
de la déquantifïcation.
commencer la lecture et le décodage
2.1.120 accès direct [random access] : Processus consistant à
du train binaire codé en un point arbitraire de ce train.
2.1.121 image de référence [referencepictzdre] [vidéo] : Les images de référence sonf les images 1 OU
P les plus proches de l’image courante, dans l’ordre de balayage.
2.1.122 tampon de remise en ordre [reorder bufier] [vidéo] : Mémoire-tampon du Décodeur de
Référence Système, utilisée pour le stockage d’une image 1 reconstruite et/ou d’une image P
reconstruite.
2.1.123 requantification [requantization] [audio] : Décodage d’échantillons en sous-bande codés
pour rétablir les valeurs quantifiées initiales.
réservé(e) [reserved] : L’adjectif “réservé” est utilisé dans les paragraphes définissant le train
2.1.124
binaire codé pour indiquer que la valeur concernée pourra être utilisée ultérieurement pour des
extensions définies par l’ISO/CEI.
2.1.125 restitution arrière [reverse playback] [vidéo] : Processus d’affichage de la séquence
d’images en ordre inverse de l’ordre d’affichage normal.
o lSO/CEI
ISO/CEI 11172-I A993 (F)
l Ensemble de raies de la Couche III,
2.1.126 bande de facteur d’échelle [scalefactor band] [audio] .
auxquelles est appliqué un même facteur d’échelle.
2.1.127 indice de facteur d’échelle [scalefactor index] [audio] : Code numérique d’un facteur
d’échelle.
2.1.128 facteur d’échelle [scalefactor] [audio] : Facteur de mise à l’échelle d’un ensemble de valeurs
avant quantification.
Bloc de données du train binaire codé
2.1.129 en-tête de séquence [sequence header] [vidéo] .
contenant la représentation codée d’un certain nombres d’éléments de données.
2.1.130 informations annexes [side informations] : Informations du train binaire codé, nécessaires
pour le contrôle du décodeur.
2.1.131 macrobloc sauté [skipped macroblock] [vidéo] : Macrobloc pour lequel aucune donnée n’est
stockée.
2.1.132 bande [vidéo] : Suite de macroblocs. La Couche Bande est une des couches de la syntaxe de
codage définie dans l’ISO/CEI 11172-2.
2.1.133 segment [sZot] [audio] : Partie élémentaire du train binaire. Dans la Couche 1, le segment
est égal à quatre octets ; dans les Couches II et III, il est égal à un octet.
2.1.134 train binaire source [source stream] : Train unique d’échantillons non-multiplexé, avant
codage avec compression.
2.1.135 fonction d’étalement de la Coch]ée [spreading function] [audio] : Fonction décrivant
l’étendue en fréquence du masquage.
2.1.136 codes de début [start codes] [système et vidéo] : Codes uniques de 32 bits insérés dans le
train binaire codé. Ils ont plusieurs rôles, dont l’identification de certaines des couches de la syntaxe
de codage.
2.1.137 tampon d’entrée du STD [STD input bnffer] [système] : Première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), située à l’entrée du Décodeur de Référence
Système et destinée au stockage avant décodage des données comprimées provenant des trains
binaires élémentaires.
2.1.138 mode stéréo [stereo mode] [audio] : Mode dans lequel les deux voies audio (
...


NORME ISO/CEI
I N T E R NAT I O NA LE
11172-1
Premiere Bdition
1993-08-01
Technologies de l'information - Codage
de l'image animée et du son associé pour
les supports de stockage numérique
jusqu'à environ 1,5 Mbit/s -
Partie 1:
Systèmes
Information technology - Coding of moving pictures and associated
audio for digital storage media at up to about 1,5 Mbit/s -
Part 1: Systems
Numéro de reference
ISO/CEI 1 11 72-1 '1 993(F)
ISO/CEI 1 1 1 72-1 : 1993 (F)
Sommaire
Page
iii
Avant-propos .
iv
Introduction .
Section 1 : Généralités . .
1.1 Objet .
1.2 Références normatives .
Section 2 : Elements techniques . . .
2.1 Definitions .
2.2 Symboles et abréviations . - . .
2.3 Méthode de description de la syntaxe du train binaire .
2.4 Spécifications .
Annexes
A Description de la Couche de codage Système .
B Liste des détenteurs de brevets . 59
O ISO/CEI 1993
Droits de reproduction r.dserv6s. Sauf prescription diffbrente, aucune partie de cette publi-
cation ne peut etre reproduite ni utilis.de sous quelque forme que ce soit et par aucun pro-
c.dd6, Blectronique ou mbcanique, y compris la photocopie et les microfilms, sans l'accord
Bcrit de 1'6diteur.
ISO/CEI Copyright Office Case Postale 56 CH-1211 Genbve 20 Suisse
Version française tir& en 1994
imprime en Suisse
ii
ISO/CEI 11172-1:1993 (F)
Q ISO/CEI
Avant-propos
L'ISO (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1'ISO ou de la CE1 participent
au développement de Normes internationales par l'intermédiaire des comités
techniques créés par l'organisation concernée afin de s'occuper des différents
domaines particuliers de l'activité technique. Les comités techniques de I'ISO et de
la CE1 collaborent dans des domaines d'intérêt commun. D'autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec I'ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l'information, I'ISO et la CE1 ont créé un
comité technique mixte, I'ISO/CEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote.
Leur publication comme Normes internationales requiert l'approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISO/CEI 11 172-1 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l'information, sous-comité SC 29, Codage du
son, de l'image, de l'information multimédia et hypermédia.
LISO/CEI 11 172 comprend les parties suivantes, présentées sous le titre général
Technologies de l'information - Codage de l'image animée et du son associé
pour les supports de stockage numérique jusqu'à environ 1,5 Mbitis:
-Partie I: Systèmes
- Partie 2: Vidéo
-Partie 3: Audio
-Partie 4: Tests de conformité
Les annexes A et B de la présente partie de l'ISO/CEI 11172 sont données
uniquement à titre d'information.
iii
ISO/CEI 1 1 172-1 1993 (F) 0 ISOKEI
Introduction
~ ~ ~
NOTE - Le lecteur intéressé par une présentation générale de la Couche Système MPEG
peut lire cette introduction puis passer à l’annexe informative A, avant de revenir aux articles
1 et 2. Comme il est fait référence au concept de Décodeur de Référence Système dans
l’ensemble des articles normatifs et informatifs de la présente partie de l’ISO/CEI 11172, il
peut également être utile de se référer à 2.4, et en particulier à 2.4.2 où est décrit le Décodeur
de Référence Système.
Les spécifications de la Couche Système répondent au besoin de combiner un ou plusieurs trains de
données, tels que spécifiés dans les parties vidéo et audio de la présente Norme internationale, avec
des informations de synchronisation, pour former un train binaire unique. Ainsi combinées, les
données ont une forme appropriée au stockage ou à la transmission numkrique. Les règles
syntaxiques et sémantiques données dans les présentes spécifications de la Couche Système
permettent une relecture synchronisée sans débordement ni sous-remplissage des tampons du
décodeur, dans des conditions très diverses de restitution ou de réception du train de données. Les
règles syntaxiques et sémantiques prescrites dans la spécification des systèmes ont des domaines
d‘application différents : les règles syntaxiques s’appliquent uniquement au codage dans la Couche
Système et ne concernent pas les spécifications de codage vidéo et audio relevant de la Couche
Compression ; les règles sémantiques, par contre, s’appliquent au train binaire combiné intégral.
Les spécifications de la Couche Système ne concernent ni l’architecture des codeurs ou décodeurs, ni
leur réalisation. Les propriétés du train binaire imposent toutefois des spécifications fonctionnelles et
de performances aux codeurs et décodeurs. Par exemple, les codeurs doivent répondre à des
spécifications minimales en matihe de tolérance des horloges. Malgré ces impératifs (et d’autres), on
dispose d’une latitude considérable pour la conception et la réalisation des codeurs et décodeurs.
Un prototype de système de décodeur audiolvidéo est représenté sur la figure 1, comme exemple de
réalisation de la fonction décodeur ISO/CEI 11172. Cette architecture n’est pas unique : les
fonctions du décodeur système (incluant le contrôle de la synchronisation du décodeur) peuvent
kgalement être réparties entre des décodeurs de trains binaires élémentaires et un décodeur
spécifique au support. Cette figure est utile comme support de présentation. La conception du
à la conception d’un décodeur
décodeur prototype n’implique aucune prescription normative quant
ISO/CEI 11172. I1 est, bien sûr, permis de traiter uniquement des données non-audio/vidéo, mais ce
cas n’est pas représenté.
r---------- -1
audio IS0 11172
I
I %EL
- Décodeur
,
I audio
1-
de stodxage
numerique
I
I I
Video
I
- Décodeur I decodée
i c video
I
Train binaire
& d
Figure 1 - Décodeur prototype ISO/CEI 11172
iv
ISO/CEI 11 172-1 11993 (F)
O ISOKEI
Le décodeur prototype ISO/CEI 11172 représenté sur la figure 1 est composé de Décodeurs
Système, Vidéo et Audio, respectivement conformes aux Parties 1, 2 et 3 de l'ISO/CEI 11172. Dans
ce décodeur, on suppose que la représentation codée multiplexée d'un ou plusieurs trains audio et/ou
vidéo est enregistrée sur un support de stockage numérique (DSM), ou transmise par un réseau, dans
ou de transmission. Ce format spkcifique au
un certain format, spécifique au support de stockage
support, ainsi que la partie du décodeur prototype ISO/CEI 11172 spécifique au support, ne relèvent
pas de la présente Norme internationale.
Le décodeur prototype accepte comme entrée un train binaire ISO/CEI 11172 et en extrait les
informations de synchronisation à l'aide d'un décodeur système. Le décodeur système démultiplexe le
train binaire en trains binaires élémentaires, entrées des décodeurs vidéo et audio, dont les sorties
sont ensuite décodées en signaux vidéo et audio. La conception porte également sur les flux
d'informations de synchronisation - non représenté sur la figure - entre le décodeur systbme, les
décodeurs vidéo et audio et le décodeur spécifique au support. Ces informations de synchronisation
permettent la synchronisation des décodeurs vidéo et audio l'un par rapport à l'autre, et avec le DSM.
Les trains binaires multiplexés ISO/CEI 11172 sont structurés en deux couches : une Couche
Système et une Couche Compression. Le train binaire d'entrée du décodeur système comporte une
Couche Système enveloppant une Couche Compression. Les trains binaires d'entrée des décodeurs
vidéo et audio comportent uniquement une Couche Compression.
Les opérations effectuées par le décodeur système s'appliquen't à l'ensemble du train binaire
multiplexé ISO/CEI 11172 ("opérations au niveau multiplex") ou à des trains binaires élémentaires
individuels ("opérations spécifiques à un train binaire"). La Couche Système ISO/CEI 11172 est
divisée en deux sous-couches, l'une concernant les opérations au niveau multiplex (Couche Pack) et
l'autre les opérations spécifiques à un train binaire (Couche Paquet).
0.1 Operations au niveau multiplex (Couche Pack)
Les opérations au niveau du multiplex comprennent la coordination de la récupération de données à
partir du DSM, le réglage des horloges et la gestion des tampons. Ces fonctions sont intimement
liées. Si le débit de restitution des données à partir du DSM est contrôlable, il est possible de le
régler en sorte d'éviter un débordement ou un sous-remplissage des tampons du décodeur ; s'il n'est
sur le DSM
pas contrôlable, les décodeurs de trains binaires élémentaires doivent se synchroniser
tel débordement ou un sous-remplissage.
pour éviter un
Les trains binaires multiplexés ISO/CEI 11172 sont composés de packs dont les en-têtes facilitent la
réalisation des fonctions ci-dessus. Les en-têtes des packs spécifient le moment auquel chaque octet
lu sur le DSM est sensé enter dans le décodeur système. Le "timing" (ou structure de synchronisation)
d'arrivée ainsi défini sert de référence pour la correction des horloges et la gestion des tampons. Les
décodeurs ne sont pas tenus de suivre exactement ce timing, mais doivent compenser les écarts par
rapport à celui-ci.
Relève également du niveau multiplex, la capacité du décodeur de déterminer les ressources
nécessaires pour décoder un train binaire ISO/CEI 11172. Le premier pack de chaque train binaire
ISO/CEI 11172 véhicule des paramètres destinés à aider les décodeurs dans cette tâche ; par
exemple : le débit de données maximum du train binaire et le nombre maximum de canaux vidéo
simultanés.
0.2 Operations spécifiques a un train binaire individuel (Couche
Paquet)
Les principales opérations spécifiques à un train binaire sont : (1) le démultiplexage et (2) la
restitution synchronisée de plusieurs trains binaires élémentaires. Ces opérations sont décrites ci-
après.
V
Q ISO/CEI
ISO/CEI 11172-1:1993 (F)
De m u It i p I exag e
0.2.1
Lors du codage, les trains binaires multiplexés ISO/CEI 11172 sont formés par le multiplexage de
trains binaires élémentaires. Les dits trains binaires élémentaires peuvent inclure des trains binaires
privts réservés et de bourrage, en plus des trains binaires audio et vidéo ISO/CEI 11172. Les trains
binaires font l’objet d’une subdivision temporelle en paquets, lesquels sont mis en série. Un paquet
contient des octets codés provenant d’un train binaire élémentaire et un seul.
Des paquets de longueur fure et variable sont permis, sous réserve des contraintes stipulées en 2.4.3.3,
2.4.5 et 2.4.6.
Lors du décodage, le démultiplexage doit reconstituer des trains binaires élémentaires à partir du
train binaire multiplexé ISO/CEI 11172. Cette reconstitution est rendue possible par la présence de
codes d‘identification de train binaire stream-id dans les en-têtes de paquet.
0.2.2 Synchronisation
La synchronisation entre plusieurs trains binaires est effectuée à l’aide des estampilles de
présentation du train binaire multiplexé ISO/CEI 11172. Les estampilles sont exprimées en unités
égales à la période d’une horloge à 90 kHz. La synchronisation de la restitution de N trains binaires
est obtenue par calage de tous ces trains binaires sur une base de temps mtre, et non par calage de la
restitution d’un train binaire sur celle d’un autre. La base de temps mtre peut être une des horloges
des N décodeurs, l’horloge du DSM ou du canal, ou une horloge externe quelconque.
Les estampilles de présentation reltvent de la Couche Paquet, car elles s’appliquent au décodage de
trains binaires élémentaires individuels. La synchronisation de bout en bout comprend l’estampillage
opéré par les codeurs lors de l’acquisition des données, la propagation des estampilles avec les
données codées vers les décodeurs, et l’utilisation de ces estampilles par les décodeurs pour la
synchronisation des présentations.
La synchronisation peut également être réalisée par des estampilles de synchronisation du DSM
jalonnant le train de données multiplexé.
0.2.3 Relations avec la Couche Compression
La Couche Paquet n’est pas entikrement indépendante de la Couche Compression. Elle en est
indépendante en ce sens que les paquets ne commencent pas nécessairement aux codes de début de
la Couche Compression, tels que definis dans les Parties 2 et 3 : par exemple, un paquet vidéo peut
commencer à n’importe quel octet du train vidéo. Par contre, les estampilles codées dans les en-têtes
de paquet définissent les moments de présentation de structures de données relevant de la Couche
Compression (à savoir, d’unités de presentation).
0.3 Dkcodeur de Reference Système
La Partie 1 de l’ISO/CEI 11172 utilise un “Décodeur de Référence Système” (STD) pour formaliser
les relations de synchronisation et de tamponnage. Comme le STD est paramétré en termes de
champs définis dans l’ISO/CEI 11172 (par exemple, tailles de tampon), chaque train binaire
ISO/CEI 11172 determine un paramétrage particulier du STD. I1 appartient aux codeurs de garantir
que les trains binaires qu’ils produisent seront restitués en lecture avant et à vitesse normale dans les
STD correspondant. Un décodeur physique suppose qu’un train binaire est restitué correctement sur
son STD : il compense les effets les differences entre sa conception et celle du STD.
vi
ISO/CEI 11 172-1:1993(F)
NORME INTERNATIONALE @ LWCEI
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 Mbit/s -
Partie I:
Systèmes
Section 1 : Generalites
1.1 Objet
La présente partie de I’ISO/CEI 11172 spécifie la Couche Système du codage. Elle est
principalement destinée à prendre en charge la combinaison des Méthodes de codage vidéo et audio
définies dans I’ISO/CEI 11172-2 et YISO/CEI 11172-3. La Couche Système assure cinq fonctions de
:
base
la synchronisation, lors de la restitution de plusieurs trains binaires comprimés ;
a)
l’entrelacement de plusieurs trains binaires comprimés en un même train binaire ;
b)
I’initialisation du tamponnage au début de la restitution ;
c)
la gestion permanente des tampons ;
d)
e) la détermination du temps.
Un train binaire multiplexé ISO/CEI 11172 est structuré en deux couches : une couche externe, la
Couche Système ; une couche interne : la Couche Compression. La Couche Système assure les
fonctions nécessaires pour l’utilisation d’un ou plusieurs trains binaires de données comprimées dans
un système. Les parties audio et vidéo de la présente norme définissent la couche de codage de
compression de données audio et vidéo. Le codage d’autres types de données n’est pas spécifié par la
norme, mais il est pris en charge par la Couche Système, à condition que ces autres types de données
soient conformes aux restrictions prescrites en 2.4.
1.2 References normatives
Les normes suivantes contiennent des dispositions qui, par suite de la réfkrence qui en est faite,
constituent des dispositions valables de la présente partie de I’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette il rCvkion et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de PISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172-2:1993, Techiiologies de l’irifonnatiort - Codage de l’image animée et du son associé
pour les supports de stockage niunhique jusqu’à environ 1,s Mbit/s - Partie 2 : Vidéo.
ISO/CEI 11172-2:1993, Technologies de l’itiforniatiort - Codage de l’image animée et du son associé
pour les supports de stockage nuinérique jusqu’à etiviron 1,5 Mbit/s - Partie 3 :Audio.
Recommandation CCIR 601-2 Paramètres de codage de télévision numérique pour studios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recomniandation CCIR 648, Enreg‘streinent des signaim audio.
ISO/CEI 11172-1:1993 (F) ISOKEI
Rapport CCIR 955-2, Radiodifision du son par satellite pour les récepteurs portables et mobiles,
comprenant l'annexe IV, Description résumée du système numérique évolué II.
Recommandation CCITT 5.17, Préaccentuation utilisée sur les circuits du programme son.
Projet de norme IEEE P1180/D2 3.990, Spécifications de mise en oeuvre de la transfomation en
cosinus discrète inverse 8x8.
CE1 908:1987, Systètne audio numérique CD.
0 ISO/CEI ISO/CEI 1 1 172-1 : 1993 (F)
Section 2 : Elements techniques
2.1 Definitions
Les définitions suivantes s’appliquent, pour les besoins d’ISO/CEI 11172. L’expression équivalente en
anglais est entre crochets maigres, en italiques. La partie à laquelle une définition est éventuellement
spécifique est indiquée entre crochets gras.
2.1.1 coefficient AC [ac coeficient] [vidéo] : Tout coefficient DCT dont la fréquence est non
nulle dans au moins une dimension.
2.12 unité d’accès [access unit] [système] : Unité d’accès audio, dans le cas d’un signal audio
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4 affectation binaire adaptative [adaptative bit alfocarion] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocarion] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [a~ias] [audio] : Composante en miroir du signal, résultant d‘un échantillonnage à une
fréquence inférieure h la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [arialysis filterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches I et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une ”reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio buffer] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
2.1.10 séquence audio [audio sequence] [audio] : Suite ininterrompue de trames audio dans
laquelle les paramètres suivants sont constants :
- ID,
- couche,
- fréquence d’échantillonnage,
-
pour les Couches I et II : indice de débit binaire.
2.1.11 vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilisé
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taw de bande critique (tonie). L‘échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement à la
sélectivité en fréquence de l’oreille humaine sur la bande.
2.1.13 image codée par prédiction bidirectionnelle ; image B [bidirectionally predictive-coded
picture; B-pichire] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
ISO/CEI 11172-1:1993 (F) Q ISOKEI
débit binaire [bitrate] : Débit auquel le train binaire comprimé est reçu du support de
2.1.14
stockage à l’entree d’un décodeur.
compression-expansion par blocs [block companding] [audio] : Normalisation de la
2.1.15
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.16
2.1.17 sous-bande limite [bound] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensite est utilise.
calé à l’octet [byte aligned] : Un bit d’un train binaire codé est calé à l’octet si sa position à
2.1.18
partir du premier bit de ce train binaire, est un multiple de 8 bits.
2.1.19 octet [byte] : Suite de huit bits.
2.120 canal [channel] : Support numérique qui stocke ou transporte un train binaire
ISO/CEI 11172.
2.121 voie [channel] [audio] : Voie gauche ou droite d’un signal stéréo.
2.122 chrominance (composante) [chronziizance (component)] [vidéo] : Matrice, bloc OU
échantillon de pixels représentant un des deux signaux de différences de couleur associés aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d‘un signal
2.123
audio, telle que spécifiée dans l’ISO/CEI 11172-3.
2.124 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans l’ISO/CEI 11172-2.
2.125 ordre de codage [coded order] [vidéo] : Ordre dans lequel les images sont stockées et
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
2.126 représentation codée [coded representation] [vidéo] : Elément de données, tel que
representé dans sa forme codée.
2.127 paramètres de codage [codingparunieters] [vidéo] : L‘ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.128 composante [coniponent] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.129 compression [compression] : Réduction du nombre de bits utilisés pour représenter un
Clément de données.
2.130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [constrained parameters] [vidéo] : Valeurs des param2tres de codage
de l’ensemble défini en 2.4.3.2 dans l’ISO/CEI 11172-2.
2.133 train binaire A paramètres système restreints (CSPS) [constrained system parameter stream
(CSPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6. de la présente partie de l’ISO/CEI 11172.
2.134
CRC [Cyclic rediiiidancy code; CRC] : Code à redondance cyclique.
ISO/CEI 1 1 1 72-1 11 993 (F)
O ISO/CEI
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
2.136 bande critique [critical band] [audio] : Mesure psychoacoustique relevant du domaine
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
2.138 coefficient DC [dc-coefjricient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
les deux dimensions.
2.139 image codée DC ; image D [dc-codedpichrre; D-picture] [vidéo] : Image codée en utilisant
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DCT coefficient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded streani] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input buffer] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidCo codé.
2.1.44 décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decodirzg(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire codé d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage ; DTS [decoding time-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Décodeur de Référence Système.
2.1.47 désaccentuation [de-eniylzasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [deqrtarttizafion] [vidéo] : Processus de remise à I’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storage media; DSM] : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50 transformation en cosinus discrète ; DCT [discrete cosinus transform; DCq [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A dans
l’ISO/CEI 11172-2.
2.1.51 ordre d’affichage [display order] [vidéo] : Ordre dans lequel les images décodées devraient
ont été présentées à l’entrée du
être affichées, normalement le même que celui dans lequel elles
codeur.
2.1.52 mode h deux canaux [dual charznel ntode] [audio] : Mode dans lequel deux canaux audio
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
Q ISO/CEI
ISO/CEI 1 1 172-1 :1993 (F)
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
pour produire un nouveau train binaire comprimé. Les trains binaires édités conformes doivent
répondre aux spécifications définies dans l’ISO/CEI 11172.
2.1.54 train binaire élémentaire [elenrentary sfreurn] [système] : Terme générique pour désigner
un des trains binaires binaires codés vidéo, audio ou autres.
accentuation [emplzusis] [audio] : Filtrage appliqué à un signal audio avant stockage OU
2.1.55
transmission, pour améliorer le rapport signal/bruit aux fréquences élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans I’ISO/CEI 11172.
2.1.58 codage entropique [eutropy codi~g] : Codage de longueur variable, sans bruit, de la
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59 accéléré avant rust forward playback] [vidéo] : Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fust Foiirier Traiisfonn; FFT] : Transformation de Fourier rapide.-Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres plterbarik] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62 segmentation fixe rued segntenfatiort] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fixes.
2.1.63 interdit(e) [forbidden] : Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, généralement pour évirer l’émulation de
codes de début.
2.1.64 rafraîchissement syste‘matique rorced lipdaring] [vidéo] : Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant Lforward ntofio!z vector] [vidéo] : Vecteur mouvement utilisé pour
la compensation du mouvement, d’après une image de référence, située à un instant antérieur dans
l‘ordre d’affichage.
2.1.66 trame [frame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67 format libre [freefonmt] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans I’ISO/CEI 1.1172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de réfe‘rence future winire referetice image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.
2.1.69 granules [Couche II] [granules [Luyer U]] [audio] : L’ensemble des 3 échantillons
32 sous-bandes considérées dans leur ensemble avant
consécutifs en sous-bande, pour les
à 96 échantillons MIC.
quantification. Ils correspondent
2.1.70 granules [Couche III] [gramles [Luyer III]] [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
0 ISOKEI ISO/CEI 11172-1:1993 (F)
2.1.71 groupe d’images [group of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter I’accbs direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans l’ISO/CEI 11172-2.
2.1.72 fenêtre de Hann [Hanri window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73 codage de Huffman [Hufitian coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [hybrid filterbank] [audio] : Combinaison en série d‘un banc de
filtres en sous-bande et d‘une MDCT.
2.1.75 IMDCT [Inverse Modfled Discrete Cosinus Transform] [audio] : Transformation en cosinus
discrbte modifiée inverse.
2.1.76
stéréo intensité [intensity strereo] [audio] : Méthode d’exploitation du caractbre non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [infedace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [itzfra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image I [intra-coded picture; I-picture] [vidéo] : Image codée en
utilisant uniquement ses propres informations.
2.1.80 train binaire (multiplexé) ISO/CEI 11172 [ISO/CEZ 11172 (multiplexed) stream]
[système] : Train binaire composé de zéro, un ou plusieurs trains binaires élémentaires, combinés
comme défini dans la présente partie de I’ISO/CEI 11172.
2.1.81 codage stéréo combiné [joint stereo coding] [audio] : Toute méthode exploitant le caractère
non significatif ou la redondance de la stéréophonie.
2.1.82 mode stéréo combiné Ijoint stereo mode] [audio] : Mode de l’algorithme de codage audio,
utilisant le codage stéréo combiné.
2.1.83 couche [layer] [audio] : Un des niveaux de la hiérarchie de codage du systbme audio défini
dans l’ISO/CEI 11172-3.
2.1.84 couche [layer] [vidéo et système] : Un des niveaux de la hiérarchie de données des
spécifications vidéo et système, définies dans la présente partie de l’ISO/CEI 11172 et dans
l’ISO/CEI 11172-2.
2.1.85 luminance (composante) [kcminamx (component)] [vidéo] : Matrice, bloc ou échantillon de
pixels constituant une représentation monochrome des signaux, et associé aux couleurs primaires,
comme défini dans la Recommandation du CCIR 601. Le symbole utilisé pour la luminance est Y.
2.1.86 macrobloc [rnacroblock] [vidéo] : Les quatre blocs 8 x 8 de données de luminance et les
deux blocs 8 x 8 correspondants de données de chrominance, provenant d’une section 16 x 16 de la
composante de luminance de l’image. Le macrobloc est utilisé tantôt pour se référer aux données du
pixel, tantôt pour se référer a la représentation codée du pixel et 21 d’autres éléments de données
définis dans la Couche Macrobloc de la syntaxe spécifiée dans l’ISO/CEI 11172-2. L‘utilisation de ce
mot est clairement déterminée d’après le contexte.
2.1.87 mappage [ntuyying] [audio] : Conversion d’un signal audio d’un domaine temporel dans un
domaine fréquenciel par filtrage en sous-bande et/ou par MDCT.
2.1.88 masquage [masking] [audio] : Propriété du systbme auditif humain, exprimant le fait qu’un
signal audio ne peut pas être perçu en présence d’un autre signal audio.
O ISO/CEI
ISO/CEI 11 172-1 :1993 (F)
2.1.89 seuil de masquage [niasking tltreshold] [audio] : Niveau, fonction de la fréquence et du
temps, en-dessous duquel un signal audio ne peut pas être perçu par le système auditif humain.
2.1.90 MDCT [Modified Discrefe Cosine Transfonn; MDCq [audio] : Transformation en cosinus
discrète modifiée.
2.1.91 compensation du mouvement [motion compensation] [vidéo] : Utilisation de vecteurs
mouvement pour améliorer l’efficacité de prédiction des valeurs des pixels. La prédiction utilise, pour
former le signal d’erreur, des vecteurs mouvement fournissant des décalages par rapport à des images
de référence antérieures et/ou futures, contenant des pixels déjà décodés.
2.1.92 estimation du mouvement [motion esfiniafion] [vidéo] : Processus d‘estimation des vecteurs
mouvement lors du processus de codage.
2.1.93 vecteur mouvement [morion vector] [vidéo] : Vecteur à deux dimensions utilisé pour la
compensation du mouvement, fournissant un décalage entre la position (déterminée par ses
coordonnées) dans l’image courante et la position dans une image de référence.
2.1.94 stéréo MS [MS stereo] [audio] : Méthode d’exploitation du caractère non significatif ou de
la redondance stéréophonique de programmes audio stéréo, et basée sur le codage des signaux de
somme et de différence, au lieu des voies droite et gauche.
2.1.95 codage (en mode) non-intra [rron-intra coding] [vidéo] : Codage d’un macrobloc ou d’une
image, qui utilise des informations provenant à la fois de ce macrobloc ou de cette image, et de
macroblocs et d’images se présentant à d’autres moments.
2.1.96 composante non tonale [rion-tonal conrponerztj [audio] : Composante de type bruit d’un
signal audio.
2.1.97 échantillonnage de Nyquist [Nyquist sampling] : Echantillonnage à une fréquence double de
la largeur de bande maximale d’un signal, ou supérieure.
2.1.98 pack [pack] [système] : Un pack consiste en un en-tête de pack suivi d’un ou plusieurs
paquets. La Couche Pack de la syntaxe de codage système est décrite dans la présente partie de
1’1s O/CEI 11 172.
2.1.99 données d’un paquet [packet data] [système] : Octets de données consécutifs d’un train
binaire élémentaire, contenus dans un paquet.
2.1.100 en-tête de paquet back header] [système] : Structure de données utilisée pour véhiculer des
informations sur les données du train binaire élémentaire contenu dans les données du paquet.
2.1.101 paquet [packet] [système] : Un paquet consiste en un en-tête suivi d’un certain nombre
d’octets appartenant à un train de données élémentaire. La Couche Paquet de la syntaxe de codage
système est décrite dans la présente partie de l’ISO/CEI 11172.
2.1.102 bourrage [padding] [audio] : Méthode d’adaptation de la longueur temporelle moyenne
d’une trame audio à la durée des échantillons MIC correspondants, par concaténationnelle
conditionnelle d’un segment à la trame audio.
2.1.103 image de référence antérieure [past reference picture] [vidéo] : Image de référence située à
un moment anterieur à l’image courante, dans l’ordre d’affichage.
2.1.104 facteur d’aspect du pixel bel aspecf ratio] [vidéo] : Rapport de la hauteur (verticale)
nominale du pixel affiché, à sa largeur (horizontale) nominale.
2.1.105 pixel [pel] [vidéo] : Elément d’image.
2.1.106 période d’image [picture period] [vidéo] : Inverse de la fréquence d’image.
2.1.107
fréquence d’image [picture rate] [vidéo] : Fréquence nominale à laquelle des images
devraient se presenter à la sortie du processus de décodage.
Q ISOKEI ISO/CEI 1 11 72-1 11 993 (F)
2.1.108 image [image] [vidéo] : Données d’image source, codée ou reconstruite. Une image consiste
en trois matrices rectangulaires de nombres de 8 bits représentant le signal de luminance et les deux
signaux de chrominance. La Couche Image est l’une des couches de la syntaxe de codage définie dans
I’ISO/CEI 11172-2. A noter que, dans l’ISO/CEI 11172, le terme “image” est toujours utilisé de
préférence à “trame”.
2.1.109 banc de filtres polyphase [polyphase filter banc] [audio] : Ensemble de filtres de même
largeur de bande, présentant entre eux des relations de phase spécifiques, permettant une réalisation
efficace du banc de filtres
2.1.110 prédiction [prediction] [vidéo] : Utilisation d’un prédicteur pour fournir une estimation du
pixel ou de l’Clément de données en cours de décodage.
2.1.111 image codée par prédiction ; image P [prediction coded picture; P-pichue] [vidéo] : Image
codée en utilisant une prédiction compensée en mouvement d’après l’image de référence antérieure.
2.1.112 erreur de prédiction [prediction error] [vidéo] : Différence entre la valeur réelle d’un pixel
ou d’un Clément de données et son prédicteur.
2.1.113 prédicteur [predictor] [vidéo] : Combinaison linéaire de pixels ou d’Cléments de données
préalablement décodés.
2.1.114 estampille de présentation ; PTS [presentation tirne-stÜmp; PTS] [système] : Champ
pouvant figurer dans un en-tête de paquet pour indiquer le moment auquel une unité de présentation
est sensée être présentée dans le Décodeur de Référence Système.
2.1.115 unité de présentation ; PU [presentation unit; Pv] : Unité d’accès audio décodée ou image
décodée.
2.1.116 modèle psychoacoustique [psychoacoustic niodel] [audio] : Modèle mathématique du
comportement en matière de niasquage, du système auditif humain.
2.1.117 matrice de quantification [qrtantization ntatrir] [vidéo] : Ensemble de 64 valeurs de 8 bits,
utilisées pour la mise à l’échelle lors de la déquantification.
2.1.118 coefficients DCT quantifiés [quarttized DCT coefficients] : Coefficient DCT avant
déquantification. Une représentation codée à longueur variable, des coefficients DCT quantifiés, est
stockée comme partie du train binaire vidéo comprimé.
2.1.119 facteur d’échelle de quantification [quantizer scalefactor] : Elément de données représenté
dans le train binaire et utilisé par le processus de décodage pour déterminer la mise à l’échelle lors
de la déquantification.
2.1.120 accès direct [randorn access] : Processus consistant à commencer la lecture et le décodage
du train binaire codé en un point arbitraire de ce train.
2.1.121 image de rkférence [reference picture] [vidéo] : Les images de référence sont les images I ou
P les plus proches de l’image courante, dans l’ordre de balayage.
2.1.122 tampon de remise en ordre [reorder buffer] [vidéo] : Mémoire-tampon du Décodeur de
RCférence Système, utilisée pour le stockage d’une image I reconstruite et/ou d’une image P
reconstruite.
2.1.123 requantification [requantization] [audio] : Décodage d’échantillons en sous-bande codés
pour rétablir les valeurs quantifiées initiales.
2.1.124 réservé(e) [reserved] : L’adjectif “réservé” est utilisé dans les paragraphes définissant le train
binaire codé pour indiquer que la valeur concernée pourra être utilisée ultérieurement pour des
extensions définies par l’ISO/CEI.
2.1.125 restitution arrière [reverse playback] [vidéo] : Processus d’affichage de la séquence
d’images en ordre inverse de l’ordre d’affichage normal.
O ISO/CEI
ISO/CEI 11 172-1 11993 (F)
2.1.126 bande de facteur d’échelle [scalefactor band] [audio] : Ensemble de raies de la Couche III,
auxquelles est appliqué un même facteur d’échelle.
2.1.127 indice de facteur d’échelle [scalefactor index] [audio] : Code numérique d’un facteur
d’échelle.
2.1.128 facteur d’échelle [scalefactor] [audio] : Facteur de mise à l’échelle d’un ensemble de valeurs
avant quantification.
en-tête de séquence [sequence header] [vidéo] : Bloc de données du train binaire codé
2.1.129
contenant la représentation codée d’un certain nombres d’Cléments de données.
2.1.130 informations annexes [side infomations] : Informations du train binaire codé, nécessaires
pour le contrôle du décodeur.
2.1.131 macrobloc sauté [skipped niacroblock] [vidéo] : Macrobloc pour lequel aucune donnée n’est
stockée.
2.1.132 bande [vidéo] : Suite de macroblocs. La Couche Bande est une des couches de la syntaxe de
codage définie dans l’ISO/CEI 11172-2.
2.1.133 segment [slot] [audio] : Partie élémentaire du train binaire. Dans la Couche I, le segment
est égal à quatre octets ; dans les Couches II et III, il est égal à un octet.
2.1.134 train binaire source [source stream] : Train unique d’échantillons non-multiplexé, avant
codage avec compression.
2.1.135 fonction d’étalement de la cochlée [spreading frtnction] [audio] : Fonction décrivant
l’étendue en fréquence du masquage.
2.1.136 codes de début [start codes] [système et vidéo] : Codes uniques de 32 bits insérés dans le
train binaire codé. Ils ont plusieurs rôles, dont l’identification de certaines des couches de la syntaxe
de codage.
2.1.137 tampon d’entrée du STD [STD iiipput buffer] [système] : Première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), située à l’entrée du Décodeur de Référence
Système et destinée au stockage avant décodage des données comprimées provenant des trains
binaires élémentaires.
2.1.138 mode stéréo [stereo mode] [audio] : Mode dans lequel les deux voies audio (gauche et
droite) formant une paire stéréo sont codées dans un même train binaire. Le processus de codage est
le même que pour le mode à deux canaux.
2.1.139 bourrage (bits de) ; bourrage (octets de) [stuffing (bits); sfufing (bytes)] : Mots de code
pouvant être insérés dans le train binaire comprimé, qui seront détruits lors du décodage. Ils
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...