Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 2: Video

Specifies the coded representation of video for digital storage media and the decoding process. Is primarily applicable to digital storage media supporting a continuous transfer rate up to about 1,5 Mbit/s, such as compact disc, digital audio tape, and magnetic hard disc, and for non-interlaced video formats having approximately 288 lines of 352 pels and picture rates around 24 Hz to 30 Hz. Nevertheless it can be used more widely than this because of the generic approach taken.

Technologies de l'information — Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'à environ 1,5 Mbit/s — Partie 2: Vidéo

La présente partie de l'ISO/CEI 11172 spécifie la représentation codée de données vidéo pour les supports de stockage numérique, ainsi que le processus de décodage. La représentation prend en charge la restitution avant à vitesse normale, ainsi que des fonctions spéciales telles que l'accès direct, la restitution accélérée, la restitution arrière accélérée, la restitution arrière à vitesse normale, la pose et l'arrêt sur image. La présente partie de l'ISO/CEI 11172 est compatible avec les formats de télévision avec 525 et 625 lignes et offre une souplesse permettant l'affichage sur des ordinateurs personnels ou des stations de travail. L'ISO/CEI 11172 est essentiellement applicable aux supports de stockage numérique assurant un débit de transfert continu jusqu'à environ 1,5 Mbit/s, tels que les disques compacts (CD), les bandes magnétiques audio numériques (DAT) et les disques magnétiques durs. Elle peut néanmoins être utilisée pour un domaine d'application plus large du fait du ca

General Information

Status
Published
Publication Date
11-Aug-1993
Current Stage
9093 - International Standard confirmed
Start Date
23-Jun-2021
Completion Date
30-Oct-2025
Ref Project

Relations

Standard
ISO/IEC 11172-2:1993 - Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s
English language
112 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-2:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
128 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-2:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
128 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


INTERNATIONAL ISO/IEC
STANDARD 11172-2
First edition
1993-08-o 1
Information technology - Coding of
moving pictures and associated audio for
digital storage media at up to about
I,5 Mbit/s -
Part 2:
Video
- Codage de /‘image animee et du son
Technologies de I’informa tion
associ6 pour /es supports de stockage num&ique jusqu’a environ
7,5 Mbit/s -
Partie 2: Vid6o
Reference number
&O/l EC 11172-2: 1993(E)
ISOAEC 11172-2: 1993 (E)
Contents
. . .
Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 1: General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Scope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Normative references . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 2: Technical elements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Symbols and abbreviations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Method of describing bitstream syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Annexes
A 8 by 8 Inverse discrete cosine transform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B Variable length code tables
C Video buffering verifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
D Guide to encoding video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
E Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
holders . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F List of patent
0 ISO/IEC 1993
All rights reserved. No part of this publication may be reproduced or utilized in any form or by
any means, electronic or mechanical, including photocopying and microfilm, without
permission in writing from the publisher.
ISO/IEC Copyright Office l Case Postale 56 l CH 1211 Geneve 20 l Switzerland
Printed in Switzerland.
ii
ISOAEC 11172-2: 1993 (E)
0 ISOAEC
Foreword
IS0 (the International Organization for Standardization) and IEC (the Inter-
national Electrotechnical Commission) form the specialized system for
worldwide standardization. National bodies that are members of IS0 or
IEC participate in the development of International Standards through
technical committees established by the respective organization to deal
with particular fields of technical activity. IS0 and IEC technical com-
mittees collaborate in fields of mutual interest. Other international organ-
izations, governmental and non-governmental, in liaison with IS0 and IEC,
also take part in the work.
In the field of information technology, IS0 and IEC have established a joint
technical committee, lSO/IEC JTC 1. Draft International Standards adopted
by the joint technical committee are circulated to national bodies for vot-
ing. Publication as an International Standard requires approval by at least
75 % of the national bodies casting a vote.
International Standard lSO/IEC 11172-2 was prepared by Joint Technical
.
Committee lSO/IEC JTC 1, information technology, Sub-Committee SC 29,
Coded representation of audio, picture, multimedia and hypermedia infor-
ma tion.
lSO/IEC 11172 consists of the following parts, under the general title In-
formation technology - Coding of moving pictures and associated audio
for digital storage media at up to about 1,5 Mbit/s:
- Part 1: Systems
- Part 2: Video
- Part 3: Audio
- Part 4: Compliance testing
Annexes A, B and C form an integral part of this part of
‘IEC 11172.
Annexes D, E and F are for information only.
. . .
ISOAEC 11172-2: 1993 (E) o ISOAEC
Introduction
Note -- Readers interested in an overview of the MPEG Video layer should read this Introduction and then
proceed to annex D, before returning to clauses 1 and 2.
0.1 Purpose
This part of ISO/I.EC 11172 was developed in response to the growing need for a common format for
representing compressed video on various digital storage media such as CDs, DATs, Winchester disks and
optical drives. This part of ISO/IEC 11172 specifies a coded representation that can be used for
compressing video sequences to bitrates around 1,5 Mbit/s. The use of this part of ISOAEC 11172 means
that motion video can be manipulated as a form of computer data and can be transmitted cvld received over
existing and future networks. The coded representation can be used with both 625line and 525.line
television and provides flexibility for use with workstation and persond computer displays.
This part of ISO/IEC 11172 w(as developed to operate principally from storage media offering a continuous
transfer rate of about 1,5 Mbit/s. Nevertheless it can be used more widely than this because the approach
taken is generic.
0.1.1 Coding parameters
The intention in developing this part of ISO/IEC 11172 has been to defme a source coding algorithm with a
large degree of flexibility that can be used in many different applications. To achieve this goal, a number of
the parameters defining the characteristics of coded bitstreams and decoders are contained in the bitstream
itself, This allows for example, the algorithm to be used for pictures with a variety of sizes and aspect
ratios and on channels or devices operating at a wide range of bitrates.
Because of the large range of the characteristics of bitstreams that can be represented by this part of ISO/IEC
11172, a sub-set of these coding parameters known as the “Constrained Par(ameters” has been defined. The
aim in defining the constrained parameters is to offer guidance about a widely useful range of parameters.
Conforming to this set of constraints is not a requirement of this part of ISO/IEC 11172. A flag in the
bitstream indicates whether or not it is a Constrained Parameters bitstream.
Summary of the Constrained Parameters:
Horizontal picture size Less than or equal to 768 pels
r
Vertical picture size Less than or equal to 576 lines
1 Picture area 1 Less than or equal to 396 macroblocks
Pel rate Less than or equal to 396x25 macroblocks/s
A
r
Picture rate Less than or equal to 30 Hz
I
Motion vector range Less than -64 to +63,5 pels (using half-pel vectors)
backward f code and forward f code c= 4 (see table D.7)]
L
Input buffer size (in VBV model) Less than &equal to 327 680-&s
1 Bitrate i Less than or eaual to 1 856 000 bits/s (constant bitrate) I
0.2 Overview of the algorithm
The coded representation defined in this part of ISO/IEC 11172 achieves a high compression ratio while
preserving good picture quality. The algorithm is not lossless as the exact pel values are not preserved
during coding. The choice of the techniques is based on the need to balance a high picture quality and
compression ratio with the requirement to m(zke random access to the coded bitstream. Obtaining good
picture quality at the bitrates of interest demands a very high compression ratio, which is not achievable
with intraframe coding alone. The need for random access, however, is best satisfied with pure intr~aframe
coding. This requires a careful balance between intra- and interframe coding and between recursive and non-
recursive temporal redundancy reduction.
iv
o ISOAEC ISOAEC 11172-2:1993(E)
A number of techniques are used to achieve a high compression ratio. The first, which is almost
independent from this part of ISO/IEC 11172, is to select an appropriate spatial resolution for the signal
The algorithm then uses block-based motion compensation to reduce the temporal redundancy. Motion
compensation is used for causal prediction of the current picture from a previous picture, for noncausal
prediction of the current picture from a future picture, or for interpolative prediction from past and future
pictures. Motion vectors are defined for each 1693 by 164ine region of the picture. The difference signal,
the prediction error, is further compressed using the discrete cosine transform (DCT) to remove spatial
correlation before it is quantized in an irreversible process that discards the less important information.
Finally, the motion vectors are combined with the DCT information, and coded using variable length codes.
0.2.1 Temporal processing
Because of the conflicting requirements of random access and highly efficient compression, three main
picture types are defined.
11~.~~oded pictures (I-Pictures) are coded without reference to other pictures.
They provide access points to the coded sequence where decoding can begin, but are coded with only a
moderate compression ratio. Predictive coded pictures (P-Pictures) are coded more efficiently using motion
compensated prediction from a past intra or predictive coded picture and are generally used as a reference for
further prediction.
Bidirectionally-predictive coded pictures (B-Pictures) provide the highest degree of
compression but require both past and future reference pictures for motion compensation.
Bidirectionally-
predictive coded pictures are never used as references for prediction.
The organ&ion of the three picture
types in a sequence is very flexible. The choice is left to the encoder and will depend on the requirements of
the application. Figure 1 illustrates the relationship between the three different picture types.
Bi-directional
1 Prediction
Prediction
Figure 1
-- Example of temporal picture structure
The fourth picture type defined in this pcvt of ISO/IEC 11172, the D-picture, is provided to allow a simple,
but limited quality, fast-forward playback mode.
0.2.2 Motion representation - macroblocks
The choice of 16 by 16 macroblocks for the motion-compensation unit is a result of the trade-off between
increasing the coding efficiency provided by using motion information and the overhead needed to store it.
Each macroblock can be one of a number of different types. For example, intra-coded, forward-predictive-
coded, backward-predictive coded, and bidirectionally-predictive-coded macroblocks bidirectionally-predictive coded pictures Depending on the type of the macroblock, motion vector
information and other side information are stored with the compressed prediction error signal in each
macroblock. The motion vectors are encoded differenti,?lly with respect to the hast coded motion vector,
using variable-length codes. The mcurimum length of the vectors that may be represented can be
programmed, on a picture-by-picture basis, so that the most demanding applications c compromising the performance of the system in more normal situations.
It is the responsibility of the encoder to calculate appropriate motion vectors.
This part of ISOIIEC 11172
does not specify how this should be done.
V
0 ISOAEC
ISOAEC 1117202:1993 (E)
0.2.3 Spatial redundancy reduction
Both original pictures and prediction error signals have high spatial redundancy. This part of ISODX
11172 uses a block-based DCT method with visually weighted quantization and run-length coding. Each 8
by 8 block of the original picture for intra-coded macroblocks or of the prediction error for predictive-coded
macroblocks is transformed into the DCT domain where it is scaled before being quantized. After
quantization many of the coefficients are zero in value (and so two-dimensional run-length and variable
length coding is used to encode the remaining coefficients efficiently.
0.3 Encoding
fies the syntax and semantics of
This This part part of of ISOAEC ISOAEC 11172 11172 does does not not specify specify an an encoding encoding process. process. It It spa specifies the syntax and semantics of
the bitstream and the signal processing in the decoder. As a result, many options are left open to encoders
the bitstream and the signal processing in the decoder. As a result, many options are left open to encoders
to trade-off cost and speed against picture quality and coding efficiency.
to trade-off cost and speed against picture quality and coding efficiency. T This is clause clause is is a a brief brief description description of of
the functions that need to be performed by an encoder. Figure 2 shows th main functional blocks.
the functions that need to be performed by an encoder. Figure 2 shows the main functional blocks.
r
Legulator
t
.
/ \ .
/
VL
DCT -+ Q
Motion
* . *
Estimator
/ II
.
Si>u&nput pictures
Picture
i ‘p
- store I
Predictor
Where
DCT is discrete cosine transform
DC1 is inverse discrete cosine transform
Q is quantization
Q-’ is dequantization
VLC is v Figure 2
-- Simplified video encoder block diagram
The input vi&o signal must be digitized and represented as a luminance cvld two colour difference signals
(Y, Cb, Cr). This may be followed by preprocessing and format conversion to select an appropriate
window, resolution and input format. This part of ISO/IEC 11172 requires that the colour difference
signals (Cb and Cr) are subsampled with respect to the luminance by 2:l in both vertical and horizontal
directions and are reformatted, if necessary, as a non-interlaced signal.
The encoder must choose which picture type to use for each picture.
Having defined the picture types, the
encoder estimates motion vectors for each 16 by 16 macroblock in the picture.
In P-Pictures one vector is
needed for each non-intra macroblock and in B-Pictures one or two vectors If B-Pictures are used, some reordering of the picture sequence is necessary before encoding.
Because B-
Pictures are coded using bidirectional motion compensated prediction, they can only be decoded after the
subsequent reference picture (an I or P-Picture) h vi
o ISOAEC ISOAEC 11172-2:1993(E)
encoder so that the pictures arrive at the in the order for decoding. The COITect. display order is
decoder
recovered by the decoder.
The basic unit of coding within a picture is the macroblock. Within each picture, macroblocks are encoded
in sequence, left to right, top to bottom. Each macroblock consists of six 8 by 8 blocks: four blocks of
luminance, one block of Cb chrominance, and one block of Cr chrominance. See figure 3. Note that the
picture area covered by the four blocks of luminance is the same as the area covered by each of the
chrominance blocks. This is due to subsampling of the chrominance information to match the sensitivity of
the human visual system.
14 El
I33
Y
Cb Cr
Figure 3 -- Macroblock structure
Firstly, for a given macroblock, the coding mode is chosen. It depends on the picture type, the
effectiveness of motion compensated prediction in that local region, and the nature of the signal within the
block. Secondly, depending on the coding mode, a motion compensated prediction of the contents of the
block based on p data in the current macroblock to form (an error signal Thirdly, this error signal is separated into 8 by 8
blocks (4 lumin~ance and 2 chromincvlce blocks in each macroblock) and a discrete cosine transform is
performed on each block. Each resulting 8 by 8 block of DCT coefficients is quantized and the two-
dimensional block is scanned in a zig-zag order to convert it into a one-dimensional string of quantized DCT
coefficients. Fourthly, the side-information for the macroblock (mode, motion vectors etc) and the
quantized coefficient data are encoded. For maximum efficiency, a number of variable length code tables are
defined for the different data elements. Run-length coding is used for the quantized coefficient data.
A consequence of using different picture types ‘and variable length coding is that the overall data rate is
variable. In applications that involve a fixed-rate channel, a FIFO buffer may be used to match the encoder
output to the chcumel. The status of this buffer may be monitored to control the number of bits generated
by the encoder. Controlling the quantization process is the most direct way of controlling.the bitt-ate. This
part of ISO/IEC 11172 specifies an abstract model of the buffering system (the Video Buffering Verifier) in
order to constrain the maximum variability in the number of bits that are used for a given picture. This
ensures that a bitstream can be decoded with a buffer of known size.
At this stage, the coded representation of the picture has been generated. The final step in the encoder is to
regenerate I-Pictures and P-Pictures by decoding the data so that they can be used subsequent encoding. The quantized coefficients are dequ‘antized and an inverse 8 by 8 DCT is performed on
each block. The prediction error signaI produced is then added back to the prediction signal and limited to
the required range to give a decoded reference picture.
0.4 Decoding
Decoding is the inverse of the encoding operation. It is considerably simpler than encoding as there is no
need to perform motion estimation and there (are many fewer options. The decoding process is defined by
this part of ISO/IEC 11172. The description that follows is a very brief overview of one possible way of
decoding a bitstream. Other decoders with different c?rchitectures are possible. Figure 4 shows the main
functional blocks.
vii
o ISO/IEC
ISOAEC 11172-2:1993 (E)
Quantizer stepsize
Picture
+ Buffer +
.
R&o&r b
+
Coded video
Reconstructed
bitstnam
output pictures
Motion Vectors
b Picture store
DCT-1 is inverse discrete cosine transform
is dequantization
Q-’
MUX-l is demultiplexing
VLD is variable length decoding
Figure 4 -- Basic video decoder block diagram
For fixed-rate applications, the channel fills a FIFO buffer at a constant rate with the coded bitstream. The
decoder reads this buffer and decodes the data elements in the bitstream according to the defined syntax.
As the decoder reads the bitstream, it identifies the start of a coded picture and then the type of the picture.
It decodes each macroblock in the picture in turn. The macroblock type and the motion vectors, if present,
are used to construct a prediction of the current macroblock based on p have been stored in the decoder. The coefficient data are decoded and dequantized. Each 8 by 8 block of
coefficient data is transformed by an inverse DCT (specified in annex A), and the result is added to the
prediction signal and limited to the defined range.
After all the macroblocks in the picture have been processed, the picture has been reconstructed, If it is an I-
picture or a P-picture it is a reference picture for subsequent pictures and is stored, replacing the oldest stored
reference picture.
Before the pictures are displayed they may need to be re-ordered from the coded or&r to
their natural display order. After reordering, the pictures are available, in digital form, for post-processing
and display in any Incanner that the application chooses.
03 Structure of the coded video bitstream
This part of ISO/IEC 11172 specifies a syntax for a coded video bitstream. This syntax contains six layers,
each of which either supports a signal processing or a system function:
Function
Layers of the syntax
Random access unit: context
Sequence layer
Random access unit: video
Group of pictures layer
Primcvy coding unit
Picture layer
Resynchronization unit
Slice layer
Motion compensation unit
Macroblock layer
DCT unit
Block layer
016 Features supported by the algorithm
Applications using compressed video on digital storage media need to be able to perform a number of
operations in addition to normaI forward playback of the sequence. The coded bitstream has been designed
to support a number of these operations.
. . .
vu1
ISOAEC 11172-2:1993(E)
o ISOAEC
0.6.1 Random access
Random access is an essential feature for video on a storage medium Random access requires that any
picture can be decoded in a limited amount of time. It implies the existence of access points in the
bitstream - that is segments of information that are identifiable and can be decoded without reference to other
segments of data. A spacing of two random access points (Intra-Pictures) per second can be achieved
without significant loss of picture quality.
0.6.2 Fast search
Depending on the storage medium, it is possible to scan the access points in a coded bitstream (with the
help of an application-specific directory or other knowledge beyond the scope of this part of ISO/IEC
11172) to obtain a fast-forward and fast-reverse playback effect.
0.6.3 Reverse playback
Some applications may require the vi&o signal to be played in reverse order. This can be achieved in a
decoder by using memory to store entire groups of pictures after they have been decoded before being
displayed in reverse order. An encoder can make this feature easier by reducing the length of groups of
pictures.
0.6.4 Error robustness
Most digital storage media and communication channels are not error-free. Appropriate channel coding
schemes should be used and are beyond the scope of this part of ISO/IEC 11172. Nevertheless the
compression scheme defined in this part of ISO/IEC 11172 is robust to residual errors. The slice structure
allows a decoder to recover after a data error and to resynchronize its decoding. Therefore, bit errors in the
compressed data will cause errors in the decoded pictures to be limited in area. Decoders may be able to use
concealment strategies to disguise these errors.
0.6.5 Editing
There is a conflict between the requirement for high coding efficiency and easy editing. The coding structure
and syntax have not been designed with the primary aim of simplifying editing at any picture. Nevertheless
a number of features have been included that enable editing of coded data.
ix
This page intentionally left blank

INTERNATIONAL STANDARD @ lSO’lEC
Information technology - Coding of moving
pictures and associated audio for digital storage
media at up to about I,5 Mbit/s -
Part 2:
Video
Section 1: General
1.1 Scope
This part of ISO/IEC 11172 specifies the coded representation of video for digitaI storage media and
specifies the decoding process. The representation supports normal speed forward playback, as well as
special functions such as random access, fast forward playback, fast reverse playback, normal speed reverse
playback, pause and still pictures. This part of ISO/IEC 11172 is compatible with standard 525. and 62%
line television formats, and it provides flexibility for use with personaI computer and workstation displays.
ISO/IEC 11172 is primarily applicable to digital storage media supporting a continuous transfer rate up to
about 1,5 Mbit/s, such as Compact Disc, Digital Audio Tape, and magnetic hczrd disks. Nevertheless it can
be used more widely than this because of the generic approach taken. The storage media may be directly
connected to the decoder, or via communications means such as busses, LANs, or telecommunications
links. This part of ISO/IEC 11172 is intended for non-interlaced video formats having approximately 288
lines of 352 pels and picture rates around 24 Hz to 30 Hz.
1.2 Normative references
The following International Standards contain provisions which, through reference in this text, constitute
provisions of this part of ISO/IEC 11172. At the time of publication, the editions indicated were valid.
AI1 standards are subject to revision, and parties to agreements based on this part of ISO/IEC 11172 are
encouraged to investigate the possibility of applying the most recent editions of the standards indicated
below. Members of IEC and IS0 maintain registers of currently valid International Standards.
ISO/IEC 11172.1:1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about I,5 Mbitis - Part 1: Systems.
ISOAEC 11172.3:1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 MbitLs - Part 3 Audio.
CCIR Recommendation 601-2 Encoding parameters of digital television for studios.
CCIR Report 624-4 Characteristics of systems for monochrome and colour television.
CCIR Recommendation 648 Recording of audio signals.
CCIR Report 955-2 Sound broadcasting by satellite for portable and mobile receivers, including Annex IV
Summary description of Advanced Digital System II.
CCITI’ Recommendation J.17 Pre-emphasis used on Sound-Programme Circuits.
0 ISOAEC
ISOAEC 11172-2:1993 (E)
IEEE Draft Standard P118OD2 1990 Specification for the implementation of 8x 8 inverse discrete cosine
trangonn’:
IEC publication 908:1987 CD Digital Audio System.

ISOAEC 11172-2: 1993 (E)
0 ISOAEC
Section 2: Technical elements
2.1 Definitions
For the purposes of ISOAEC 11172, the following definitions apply. If specific to a part, this is noted in
square brackets.
2.1.1 ac coefficient [video]: Any DCT coefficient for which the frequency in one or both dimensions
is non-zero.
2.1 .2 access unit [system]: In the case of compressed audio an access unit is an audio
access unit. In
picture.
the case of compressed video an access unit is the coded representation of a
2.1.3 adaptive segmentation [audio]: A subdivision of the digital representation of an audio signal
in variable segments of time.
2.1.4 adaptive bit allocation [audio]: The assignment of bits to subbands in a time and frequency
varying fashion according to a psychoacoustic
model.
2.1.5 adaptive noise allocation [audio]: The assignment of coding noise to frequency bands in a
time and frequency varying fashion according to a psychoacoustic model.
2.1.6 alias [audio]: Mirrored signal component resulting from sub-Nyquist sampling.
2.1.7 analysis filterbank [audio]: Filterbank in the encoder that transforms a broadband PCM audio
signal into a set of subsampled subband samples.
2.1.8 audio access unit [audio]: For Layers I and II an audio access unit is defined as the smallest
part of the encoded bitstre;un which can be decoded by itself, where decoded means “fully reconstructed
sound”. For Layer III an audio access unit is part of the bitstream that is decodable with the use of
previously acquired main information.
2.1.9 audio buffer [audio]: A buffer in the system target decoder for storage of compressed audio data.
2.1.10 audio sequence [audio]: A non-interrupted series of audio fr,unes in which the following
parameters are not chculged:
-ID
- Layer
- Scvnpling Frequency
- For Layer I and II: Bitrate index
2.1.11 backward motion vector [video]: A motion vector that is used for motion compensation
from a reference picture at a later time in display order.
2.1.12 Bark [audio]: Unit of critical b scale over the audio range closely corresponding with the frequency selectivity of the human ear across the
band.
B-picture [video]: A picture that is coded
2.1.13 bidirectionally predictive-coded picture;
using motion compensated prediction from a past and/or future reference picture.
.
2.1.14 bitrate: The rate at which the compressed bl tstream is deli vered from the storage medium to the
input of a decoder.
2.1.15 block companding [audio]: Normalizing of the digital representation of an audio signal
within a certain time period.
2.1.16 block [video]: An &row by &column orthogonal block of pels.
2.1.17 bound [audio]: The lowest subband in which intensity stereo coding is used.

0 ISOAEC
ISOAEC 11172-2:1993 (E)
2.1.18 byte aligned: A bit in a coded bitstream is byte-aligned if its position is a multiple of 8-bits
from the first bit in the stream.
2.1.19 byte: Sequence of 8-bits.
2.1.20 channel: A digital medium that stores or transports an ISO/IEC 11172 stream.
2.1.21 channel [audio]: The left and right channels of a stereo signal
2.1.22 chrominance (component) [video]: A matrix, block or single pel representing one of the
two colour difference signals related to the primary colours in the manner defined in CCIR Ret 601. The
symbols used for the colour difference signals are Cr and Cb.
2.1.23 coded audio bitstream [audio]: A coded representation of an audio signal as specified in
ISO/IEC 11172-3.
2.1.24 coded video bitstream [video]: A coded representation of a series of one or more pictures as
specified in this part of ISO/IEC 11172.
2.1.25 coded order [video]: The order in which the pictures are stored and decoded. This order is not
necessarily the same as the display order.
2J.26 coded representation: A data element as represented in its encoded form.
2.1.27 coding parameters [video]: The set of user-definable parameters that characterize a coded video
bitstream. Bitstreams are character&d by coding parameters. Decoders are ch‘aracterised by the bitstreams
that they are capable of decoding.
2.1.28 component [video]: A matrix, block or single pel from one of the three matrices (luminance
and two chromin,ulce) that make up a picture.
2.1.29 compression: Reduction in the number of bits used to represent an item of data.
2.1.30 constant bitrate coded video [video]: A compressed video bitstream with a constant
average bitrate.
2.1.31 constant bitrate: Operation where the is constant from start to finish of the compressed
bitrate
bitstream.
2.1.32 constrained parameters [video]: The values of the set of coding parameters defined in
2.4.3.2.
2.1.33 constrained system parameter stream (CSPS) [system]: An ISO/IEC 11172
multiplexed stream for which the constraints defined in 2.4.6 of ISOAEC 11172-l apply.
2.1.34 CRC: Cyclic redundancy code.
2.1.35 critical band rate [audio]: Psychoacoustic function of frequency. At a given audible
frequency it is proportional to the number of critical bands below that frequency.
The units of the critical
band rate scale are Barks.
2.1.36 critical band [audio]: Psychoacoustic measure in the spectral domain which corresponds to the
frequency selectivity of the human eCar. This selectivity is expressed in Bark.
2.137 data element: An item of data as represented before encoding and after decoding.
2.138 dc-coefficient [video]: The DCT coefficient for which the frequency is zero in both
dimensions.
ISOAEC 11172=2:1993(E)
o ISOAEC
2.1.39 dc-coded picture; D-picture [video]: A picture that is coded using only information from
itself. Of the DCT coefficients in the coded representation, only the dc-coefficients are present.
2.1.40 DCT coefficient: The amplitude of a specific cosine basis function.
2.1.41 decoded stream: The decoded reconstruction of a compressed bitstream.
2.1.42 decoder input buffer [video]: The first-in first-out (FIFO) buffer specified in the video
buffering verifier.
2.1.43 decoder input rate [video]: The data rate specified in the video buffering verifier and encoded
in the coded video bitstream.
2.1.44 decoder: An embodiment of a decoding process.
2.1.45 decoding (process): The process defined in ISO/IEC 11172 that reads an input coded bitstream
and produces decoded pictures or audio samples.
2.1.46 decoding time-stamp; DTS [system]: A field that may be present in a packet header that
indicates the time that an access unit is decoded in the system target decoder.
2.1.47 de-emphasis [audio]: Filtering applied to an audio signal after storage or transmission to undo
a linear distortion due to emphasis.
2.1.48 dequantization [video]: The process of resealing the quantized DCT coefficients after their
representation in the bitstream has been decoded and before they are presented to the inverse DCT.
2.1.49 digital storage media; DSM: A digi& storage or transmission device or system.
2.1.50 discrete cosine transform; DCT [video]: Either the forward discrete cosine transform or the
inverse discrete cosine transform. The DC?‘ is an invertible, discrete orthogonal transformation. The
inverse DCT is defined in annex A.
2.1.51 display order [video]: The order in which the decoded pictures should be displayed. Normally
this is the same order in which they were presented at the input of the encoder.
2.1.52 dual channel mode [audio]: A mode, where two audio channels with independent programme
contents (e.g. bilingual) are encoded within one bitstream. The coding process is the same as for the stereo
mode.
2.1.53 editing: The process by which one or more compressed bitstrecvns new compressed bitstream. Conforming edited bitstreams must meet the requirements defined in this part of
ISO/IEC 11172.
2.1.54 elementary stream [system]: A coded video, coded audio or other
generic term for one of the
coded bitstre 2.1.55 emphasis [audio]: Filtering applied to an audio signal before storage or transmission to
improve the signal-to-noise ratio at high frequencies.
2.1.56 encoder: An embodiment of an encoding process.
2.1.57 encoding (process): A process, not specified in ISO/IEC 11172, that reads a stream of input
pictures or audio samples and produces a valid coded bitstream as defined in ISO/IEC 11172.
2.1.58 entropy coding: Variable length lossless coding of the digital representation of a signal to
reduce redundancy.
2.1.59 fast forward playback [video]: The process of displaying a sequence, or parts of a sequence,
of pictures in display-order f,?ster Wan real-time.
ISO/IEC 1117202:1993 (E) 0 ISOAEC
2.1.60 F’FT: Fast Fourier Transformation. A fast algorithm for performing a discrete Fourier transform
(an orthogonal transform).
2.1.61 filterbank [audio]: A set of band-pass filters covering the entire audio frequency range.
2.1.62 fixed segmentation [audio]: A subdivision of the digital representation of an audio signal
into fixed segments of time.
2.1.63 forbidden: The term “forbidden” when used in the clauses defining the coded bitstream indicates
that the value shall never be used. This is usually to avoid emulation of start codes.
2.1.64 forced updating [video]: The process by which macroblocks are intra-coded from time-to-time
to ensure that mismatch errors between the inverse DCT processes in encoders and decoders cannot build up
excessively.
2.1.65 forward motion vector [video]: A motion vector that is used for motion compensation from
a reference picture at an earlier time in display order.
2.1.66 frame [audio]: A pcvt of the audio signal that corresponds to audio PCM samples from an
Audio Access Unit.
maximum
2.1.67 free format [audio]: Any bitrate other than the defined bi trates that is less than the
valid bitrate for each layer.
2.1.68 future reference picture [video]: The future reference picture is the reference picture that
occurs at a later time than the current picture in display order.
2.1.69 granules [Layer II] [audio]: The set of 3 consecutive subb‘and samples from all 32 subbands
that are considered together before quantization. They correspond to 96 PCM samples.
2.1.70 granules [Layer III] [audio]: 576 frequency lines that marry their own side information.
2.1.71 group of pictures [video]: A series of one or more coded pictures intended to assist random
access. The group of pictures is one of the layers in the coding syntax defined in this part of ISOLIEC
11172.
2.1.72 Hann window [audio]: A time function applied sample-by-sample to a block of audio samples
before Fourier transformation.
2.1.73 Huffman coding: A specific method for entropy coding.
2.1.74 hybrid filterbank [audio]: A serial combination of subband filterbank and MDCT.
2.1.75 IMDCT [audio]: Inverse Modified Discrete Cosine Transform.
2.1.76 intensity stereo [audio]: A method of exploiting stereo irrelevance or redundancy in
stereophonic audio programmes based on retaining at high frequencies only the energy envelope of the right
and left channels.
2.1.77 interlace [video]: The property of conventional television pictures where alternating lines of
the picture represent different instances in time.
2.1.78 intra coding [video]: Coding of a macroblock or picture that uses information only from that
macroblock or picture.
2.1.79 intra-coded picture; I-picture [video]: A picture coded using information only from itself.

ISOAEC 11172-2: 1993 (E)
o ISOAEC
2.1.80 ISOLIEC 11172 (multiplexed) stream [system]: A bitstream composed of zero or more
elementary streams combined in the manner defined in ISO/IEC 11172-l.
2.1.81 joint stereo coding [audio]: Any method stereophonic irrelevance or
that exploits
stereophonic redundancy.
2.1.82 joint stereo mode [audio]: A mode of the audio coding algorithm using joint stereo coding.
2.1.83 layer [audio]: One of the levels in the coding hierarchy of the audio system defined in ISO/IEC
11172-3.
2.1.84 layer [video and systems]: One of the levels in the data hierarchy of the video and system
specifications defined in ISO/IEC 11172-l and this part of ISO/IEC 11172.
2.1.85 luminance (component) [video]: A matrix, block or single pel representing a monochrome
representation of the signal and related to the primary colours in the manner defined in CCIR Ret 601. The
symbol used for luminance is Y.
2.1.86 macroblock [video]: The four 8 by 8 blocks of luminance data and the two corresponding 8 by
8 blocks of chrominance data coming from a 16 by 16 section of the lumin(ulce component of the picture.
Macroblock is sometimes used to refer to the pel data and sometimes to the coded representation of the pel
values and other data elements defined in the macroblock layer of the syntax defined in this part of ISO/IEC
11172. The usage is clear from the context.
2.1.87 mapping [audio]: Conversion of an audio signal from time to frequency domain by subband
filtering and/or by MDCT.
2.1.88 masking [audio]: A property of the human auditory system by which an audio signal cannot be
perceived in the presence of another audio signal .
2.1.89 masking threshold [audio]: A function in frequency and time below which an audio signal
cannot be perceived by the human auditory system.
2.1.90 MDCT [audio]: Modified Discrete Cosine Transform.
2.1.91 motion compensation [video]: The use of motion vectors to improve the efficiency of the
prediction of pel values. The prediction uses motion vectors to provide offsets into the past and/or future
reference pictures containing previously decoded pel values that (are used to form the prediction error signal.
2.1.92 motion estimation [video]: The process of estimating motion vectors during the encoding
process.
2.1.93 motion vector [video]: A two-dimensional vector used for motion compensation that provides
an offset from the coordinate position in the current picture to the coordinates in a reference picture.
2.1.94 MS stereo [audio]: A method of exploiting stereo irrelevance or redundancy in stereophonic
audio programmes based on coding the sum and difference signal instead of the left and right channels.
2.1.95 non-intra coding [video]: Coding of a macroblock or picture that uses information both from
itself and from macroblocks and pictures occurring at other times.
2.196 non-tonal component [audio]: A noise-like component of an audio signal.
2.1.97 Nyquist sampling: Sampling at or above twice the maximum bandwidth of a signal.
2.1.98 pack [system]: A pack consists of a pack header followed by one or more packets. It is a layer
in the system coding syntax described in ISO/IEC 11172-l.
2.1.99 packet data [system]: Contiguous bytes of data from an elementary stream present in a packet.
0 ISOAEC
ISOAEC 1117202:1993 (E)
[system]: The data structure used to convey information about the elementary
2.1.100 packet header
the packet data.
stream data contained in
2.1.101 packet [system]: A packet consists of a header followed by a number of contiguous bytes
from an elementary data stream. It is a layer in the system coding syntax described in ISO/IEC 11172-l.
2.1.102 padding [audio]: A method to adjust the average length in time of an audio frame to the
dumtion of the corresponding PCM samples, by conditionally adding a slot to the audio frame.
picture is the reference picture that occurs
2J .l 03 past reference picture [video]: The past reference
at an earlier time than the current picture in display order.
2.1.104 pel aspect ratio [video]: The ratio of the nominal vertical height of pel on the display to its
nominal horizontal width.
2J.105 pel [video]: Picture element.
2J.106 picture period [video]: The reciprocal of the picture rate.
2J.107 picture rate [video]: The nominal rate at which pictures should be output from the decoding
pmcess.
21.108 picture [video]: Source, coded or reconstructed image data. A source or reconstructed picture
consists of three rectangular matrices of 8-bit numbers representing the lumimance and two chrominance
signals. The Picture layer is one of the layers in the coding syntax defined in this part of ISOLIEC 11172.
Note that the term “picture” is always used in ISO/IEC 11172 in preference to the terms field or frame.
2.1.109 polyphase filterbank [audio]: A set of equal bczndwidth filters with special phase
interrelationships, allowing for an efficient implementation of the filterbank.
2.1.110 prediction [video]: The use of a predictor to provide an estimate of the pel value or data
element currently being decoded.
2.1.111 predictive-coded picture; P-picture [video]: A picture that is coded using motion
compensated prediction from the past reference picture.
2.1.112 prediction error [video]: The difference between the actual value of a pel or data element and
its predictor.
2.1.113 predictor [video]: A linear combination of previously decoded pel values or data elements.
2.1.114 presentation time-stamp; PTS [system]:
A field that may be present in a packet header
that indicates the time that a presentation unit is presented in the system target decoder.
2.1.115 presentation unit; PU [system]: A decoded audio access unit or a decoded picture.
2.1.116 psychoacoustic model [audio]: A mathematical model of the masking behaviour of the
human a
...


ISO/CEI
NORME
11172-2
INTERNATIONALE
Première édition
1993-08-o 1
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Coding of moving pictures and associated
Information technolog y -
audio for digital storage media at up to about 1,5 Mbit/s -
Part 2: Video
Numéro de référence
ISO/CEI 11172-2:1993(F)
ISO/CEI 11172-2: 1993 (F)
Sommaire
Page
. . .
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1v
Introduction .
Section 1 : Généralités .
1.1 Objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
......................................................................
1.2 Références normatives
........................................................................
Section 2 : Eléments techniques
Définitions .
2.1
...................................................................
Symboles et abréviations
2.2
................. 15
Méthode de description de la syntaxe du train binaire
2.3
2.4 Spécifications .
Annexes
..........................
A Transformation en cosinus discrète inverse 8 x 8
......................................................................
B Tables de codage VLC
................................................... 54
Vérificateur de tamponnage vidéo
C
......................................................................
D Guide de codage vidéo
Bibliographie .
E
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F Liste des détenteurs de brevets
o ISO/CEI 1993
Droits de reproduction réserves. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii
ISO/CEI 1117202:1993 (F)
o ISO/CEI
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de I’ISO et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec I’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, I’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote. ,
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-2 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ 1,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A, B et C font partie intégrante de la présente partie de
I’ISOKEI 11172. Les annexes D, E et F sont données uniquement à titre
d’information.
. . .
III
0 ISO/CEI
ISO/CEI 11172-2: 1993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Vidéo MPEG peut
lire cette introduction puis passer à l’annexe D, avant de revenir aux articles 1 et 2.
01 . Objet
La présente partie de l’ISO/CEI 11172 a été élaborée pour répondre au besoin croissant d’un format
commun de représentation de données vidéo comprimées sur divers supports de stockage numérique,
tels que les disques compacts (CD), les cassettes audio numériques (DAT), les disques Winchester et
les disques optiques. La présente partie de l’ISO/CEI 11172 spécifie une représentation codée qui
peut être utilisée pour la compression de séquences vidéo, à des débits binaires jusqu’à environ
1,5 Mbit/s. L’utilisation de la présente partie de l’ISO/CEI 11172 implique la possibilité de
manipulation de données vidéo animées, sous la forme de données informatiques, qui peuvent être
transmises et reçues sur les réseaux existants et futurs. La représentation codée peut être utilisée
pour les formats de télévision 625 lignes et 525 lignes, et présente une souplesse permettant
l’affichage sur les écrans de postes de travail ou d’ordinateurs personnels.
La présente partie de l’ISO/CEI 11172 a été élaborée essentiellement pour des supports de stockage
offrant un débit de transfert continu d’environ 1,5 Mbit/s. L’approche adoptée présentant un
caractère générique, elle peut être utilisée dans un domaine d’application plus étendu.
0.1.1
Paramètres de codage
L’intention des concepteurs de la présente partie de l’ISO/CEI 11172 a été de définir un algorithme
de codage source présentant une grande souplesse, qui puisse être utilisé pour un grand nombre
d’applications différentes. Pour réaliser cet objectif, plusieurs des paramètres définissant les
caractéristiques des trains binaires codés et des décodeurs sont contenus dans le train binaire
lui-même. Ainsi, l’algorithme peut, par exemple, être utilisé pour des images de divers formats et
facteurs d’aspect, ainsi que pour des canaux ou des dispositifs fonctionnant sur une large plage de
débits binaires.
Du fait de la large gamme de caractéristiques des trains binaires qui peuvent être représentés par la
présente partie de l’ISO/CEI 11172, un sous-ensemble de ces paramètres de codage, dont
l’appellation qualifie un “train binaire à paramètres restreints” (CSPS : constrained system parameter
stream) a été défini. La définition des paramètres restreints a pour objet de permettre la formulation
de directives pour une plage couramment utilisée de valeurs des paramètres. La conformité à cet
ensemble de restrictions n’est pas une spécification de la présente partie de l’ISO/CEI 11172. Un
indicateur, figurant dans le train binaire, précise si ce train est ou non “à paramètres restreints”.
Résumé des paramètres restreints
Format horizontal d’image Inférieur ou égal à 768 pixels
Format vertical d’image Inférieur ou égal à 576 lignes.
Surface de l’image Inférieur ou égal à 396 macroblocs
Débit de pixel Inférieur ou égal à 396 x 25 macroblocs/seconde
Fréquence d’image Inférieur ou égal à 30 Hz
Plage des vecteurs mouvement Strictement comprise entre -64 et +63,5 pixels
(en utilisant des vecteurs en demi-pixels)
4 (voir tableau D7)]
[Code d’échelle des vecteurs < =
Taille du tampon d’entrée (du modèle VBV) Inférieure ou égale à 327 680 bits
Inférieur ou égal à 1856 000 bit/s (débit binaire
Débit binaire
constant).
iv
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
02 . Présentation générale de l’algorithme
La représentation codée définie dans la présente partie de l’ISO/CEI 11172 réalise un taux de
compression élevé, tout en préservant une bonne qualité d’image. L’algorithme n’est pas “sans perte”,
en ce sens que les valeurs exactes des pixels ne sont pas préservées durant le codage. Le choix des
techniques est base sur la nécessité d’opérer un compromis entre une haute qualité d’image et un
taux de compression élevé, tout en permettant l’accès direct aux trains binaires codés. L’obtention
d’une bonne qualité d’image à des débits binaires présentant un intérêt, exige une compression très
poussée, qui n’est pas réalisable en utilisant seulement un codage en mode intra. Il est toutefois plus
facile de répondre à la nécessité d’un accès direct par un codage en pur mode intra. Cette exigence
implique un équilibre délicat entre l’utilisation du codage en mode intra et en mode inter, et entre la
réduction de redondance la temporelle récursive et non récursive.
Un certain nombre de techniques sont utilisées pour réaliser un taux de compression élevé. La
première, qui est presque indépendante de la présente partie de l’ISO/CEI 11172, consiste à choisir
une résolution spatiale appropriée pour le signal. L’algorithme utilise ensuite une compensation du
mouvement par blocs pour réduire la redondance temporelle. La compensation du mouvement est
utilisée pour la prédiction causale de l’image courante à partir d’une image antérieure, et pour une
prédiction non-causale par interpolation à partir d’images antérieure et future. Des vecteurs
mouvement sont définis pour chaque zone de 16 pixels par 16 lignes de l’image. Le signal de
différence, ou “erreur de prédiction”, fait ensuite l’objet d’une compression plus poussée, par
application de la transformation en cosinus discrète (DCT), pour supprimer les corrélations spatiales,
avant sa quantification, par un processus irréversible qui élimine les informations les moins
importantes. Enfin, les vecteurs mouvements sont combinés aux informations DCT résiduelles et
transmis sous la forme de codes à longueur variable.
0.2.1 Traitement temporel
Trois grands types d’images sont définis pour répondre aux impératifs contradictoires d’un possibilité
d’accès direct et d’une haute efficacité de compression. Les images à codage intra (images 1) sont
codées sans référence aux autres images. Elles fournissent des points d’accès à la séquence codée où
le décodage peut commencer, mais sont codées avec un taux de compression seulement modéré. Les
images codées par prédiction (images P) présentent un codage plus efficace, utilisant une prédiction
compensée en mouvement, d’après une image antérieure, intra ou prédictive, et sont généralement
utilisées comme référence pour une prédiction future. Les images codées par prédiction
bidirectionnelle (images B) offrent le taux le plus élevé de compression, mais nécessitent pour la
compensation du mouvement, une image de référence antérieure et une image de référence future.
Les images codées par prédiction bidirectionnelle ne sont jamais utilisées comme référence de
prédiction. L’organisation des trois types d’images en une séquence est très souple : son choix est
laissé au codeur, et dépend des besoins de l’application. La figure 1 montre les relations entre les
trois types d’image.
0 lSO/CEI
ISO/CEI 11172-2:1993 (F)
Prédiction
bidirectionnelle
Prédiction
Figure 1 - Exemple de structure temporelle d’images
Le quatrième type d’image défini dans la présente partie de l’ISO/CEI 11172, l’image D, est fourni
pour permettre un mode de restitution avant accéléré, simple, mais de qualité limitée.
0.2.2 Représentation du mouvement - Macroblocs
Le choix de macroblocs 16 x 16 comme unités de compensation du mouvement résulte d’un
compromis entre le gain de codage procuré par l’utilisation d’informations de mouvement et la
charge de stockage qui en résulte. Différents types de macroblocs sont possibles. Par exemple, des
macroblocs codés intra, par prédiction avant, par prédiction arrière ou par prédiction
bidirectionnelle, sont permis dans des images codées par prédiction bidirectionnelle. Selon le type de
macrobloc, des informations relatives aux vecteurs mouvement ainsi que d’autres informations
annexes, sont ou non stockées avec le signal d’erreur de prédiction comprimé dans chaque
macrobloc. Les vecteurs mouvement sont codés en différentiel par rapport au dernier vecteur
mouvement transmis, en utilisant des codes de longueur variable. La longueur maximale des vecteurs
qui peut être représentée peut être programmée, image par image, en sorte que les applications les
plus exigeantes peuvent être satisfaites, sans compromettre les performances du système dans les
situations plus normales.
Il appartient au codeur de calculer les vecteurs mouvement appropriés. La présente partie de
l’ISO/CEI 11172 ne spécifie pas comment doit être effectué ce calcul.
0.2.3 Réduction de la redondance spatiale
Les images source et les signaux d’erreur de prédiction présentent une redondance spatiale élevée.
La présente partie de l’ISO/CEI 11172 utilise une méthode DCT basée blocs, avec quantification à
pondération visuelle et codage des longueurs de plage. Après prédiction compensée en mouvement
ou interpolation, l’image résiduelle est divisée en blocs 8 x 8. Ces blocs sont transformés dans le
domaine DCT, puis donnent lieu à une pondération avant quantification. Après quantification,
beaucoup des coefficients sont de valeur nulle, ce qui permet de réaliser un codage efficace des
coefficients restants, par codage à longueur variable des événements bidimensionnels {longueur de
plage des valeurs nulles, valeur non nulle suivant la plage}.
vi
ISO/CEI 11172-2:1993 (F)
o ISO/CEI
. Codage
La présente partie de l’ISO/CEI 11172 ne spécifie aucun processus de codage. Elle spécifie la syntaxe
et la sémantique du train binaire et le traitement du signal dans le décodeur. De nombreuses options
sont ainsi laissées ouvertes aux réalisateurs de décodeurs, quant aux compromis en matière de coût et
de vitesse, d’une part, et de qualité d’image et d’efficacité de codage, d’autre part. Ce paragraphe
donne une brève description des fonctions qui doivent être assurées par un codeur. La figure 2
présente les principaux blocs fonctionnels.
I
f
, .
f
7 Données
\ 4 1
VLC-W 1
DCT+ Q
Remise
. - I , .
Multi- --b
en ordre q
,
mouvement ’
des images IP)ex I
\ b
l .
Image d’entrée source

est la transformation en cosinus discrète,
DCT
DCT-1 est la transformation en cosinus discrète inverse,
est la quantification,
Q
-1
est la quantification inverse,
Q
VLV est le codage à longueur variable
Figure 2 - Schéma simplifié du codeur vidéo
Le signal vidéo d’entrée doit être numérisé et représenté sous la forme d’un signal de luminance et de
deux signaux de différence de couleur (Y, C , CJ. Cette représentation est suivie d’un prétraitement
et d’une conversion de format permettant de%hoisir une fenêtre, une résolution et un format d’entrée
appropriés. La présente partie de l’ISO/CEI 11172 exige que les signaux de différence de couleur (Cr
et CJ soient sous-échantillonnés par rapport à la luminance dans un rapport 2:l dans les deux
directions, verticale et horizontale, puis reformatés, si nécessaire, sous la forme d’un signal non-
entrelacé.
Le codeur doit choisir le type d’image à utiliser pour chaque image. Après avoir défini les types
d’image, le codeur estime des vecteurs mouvement pour chaque macrobloc 16 x 16 de l’image. Dans
les images P, un vecteur est généralement nécessaire pour chaque macrobloc ; dans les images B, un
ou deux vecteurs sont nécessaires.
vii
lSO/CEl 11172-2:1993 (F) 0 lSO/CEI
Si des images B sont utilisées, une certaine remise en ordre de la séquence de l’image est nécessaire
avant le codage. Comme les images B sont codées par prédiction à compensation de mouvement
bidirectionnelle, elles ne peuvent être décodées qu’après le décodage de l’image de référence
subséquente (une image 1 ou P). Les images sont donc réordonnées par le codeur, de sorte à parvenir
au décodeur dans l’ordre de décodage. L’ordre correct d’affichage est rétabli par le décodeur.
L’unité de codage de base d’une image est le macrobloc. Les macroblocs de chaque image sont codés
successivement, de gauche à droite, et de haut en bas. Chaque macrobloc est composé de 6 blocs
8 x 8 : quatre blocs de luminance, un bloc de chrominance Cb et un bloc de chrominance Cr. (Voir
figure 3). A noter que les quatre blocs de luminance couvrent la même zone de l’image que chacun
des blocs de chrominance, du fait du sous-échantillonnage des informations de chrominance, effectué
pour adapter le codage à la sensibilité du système visuel humain.
14 El
2 3
H-l
Y Cb Cr
Figure 3 - Structure du macrobloc
Pour un macrobloc donné, la première opération est le choix du mode de codage : il dépend du type
d’image, de l’efficacité de la prédiction compensée en mouvement dans la région codée, et de la
nature du signal contenu dans le bloc. Deuxièmement, une prédiction compensée en mouvement du
contenu du bloc, basée sur des images de référence antérieure et/future et formée (selon le mode de
codage). Cette prédiction est soustraite des données réelles du macrobloc courant, pour former un
signal d’erreur. Troisièmement, ce signal d’erreur est divisé en blocs 8 x 8 (4 blocs de luminance et
2 blocs de chrominance dans chaque macrobloc) à chacun desquels est appliquée une transformation
en cosinus discrète. Le bloc 8 x 8 de coefficients DCT résultant est quantifié. Le bloc à deux
dimensions qui en résulte est balayé en zigzag pour être converti en une chaîne unidimensionnelle de
coefficients DCT quantifiés. Quatrièmement, les informations annexes du macrobloc (type, vecteurs,
etc.) ainsi que les données des coefficients quantifiés sont codées. Pour obtenir une efficacité
maximale, un certain nombre de tables de codage à longueur variable sont définies pour les différents
éléments de données. Un codage des longueurs de plage est appliqué aux données des coefficients
quantifiés.
Une conséquence de l’utilisation de différents types d’image et d’un codage à longueur variable est la
variabilité du débit de données global. Pour les applications qui impliquent un canal à débit fixe, un
tampon “premier entré, premier sorti” (FIFO) peut être utilisé pour adapter la sortie du codeur à ce
canal. On peut contrôler le nombre de bits généré par le codeur en surveillant l’état de ce tampon. Le
contrôle du processus de quantification est la façon la plus directe de contrôler le débit binaire. La
présente partie de l’ISO/CEI 11172 spécifie un modèle abstrait de système de tamponnage (le
vérificateur de tamponnage vidéo VBV) dont l’objet est de restreindre la variabilité maximale du
nombre de bits utilisé pour une image donnée. Il est ainsi garanti qu’un train binaire peut être décodé
avec un tampon de taille connue.
A ce stade, la représentation codée de l’image a été générée. L’étape finale du codage est de
régénérer des images 1 et des images P en décodant les données en sorte qu’elles puissent être
utilisées comme images de référence pour le codage subséquent. Les coefficients quantifiés sont
déquantifiés et une DCT 8 x 8 inverse est appliquée à chaque bloc. Le signal d’erreur produit est
alors réadditionné au signal de prédiction, en se limitant à la plage requise pour donner une image de
référence décodée.
I.
VIII
ISO/CEI 11172-2:1993 (F)
0 lSO/CEI
04 . Décodage
Le décodage est l’inverse de l’opération de codage. Il est considérablement plus simple que le codage,
car il n’est pas nécessaire d’effectuer une estimation de mouvement et les options sont moins
nombreuses. Le processus de décodage est défini par la présente partie de l’ISO/CEI 11172. La
description qui suit est une présentation générale très brève d’une façon possible de décoder un train
binaire. D’autres décodeurs, d’architectures différentes, sont possibles. La figure 4 présente les
principaux blocs fonctionnels.
Pas de quantifïcation
m-m
r - 1
+
Train binaire
Vecteurs
vidéo codé I I
- m w--0 -
I
et
Modes
---0-----4 prédicteur
I

DCT-1 est la transformation en cosinus discrète inverse,
-1
est la quantification inverse,
Q
MUX-l est le démultiplexage
VLD est le décodage à longueur variable.
Figure 4 - Schéma du décodeur vidéo de base
Pour les applications à débit fixe, le canal remplit à un débit constant, avec le train binaire codé, un
tampon FIFO. Le décodeur lit ce tampon et décode les éléments de données du train binaire,
conformément à la syntaxe définie.
Lorsqu’il lit le train binaire, le décodeur identifie le début d’une image codée, puis le type de l’image.
Il décode successivement chaque macrobloc de l’image. Le type de macrobloc et les vecteurs
mouvement, s’ils figurent, sont utilisés pour construire une prédiction du macrobloc courant, basée
sur des images de référence antérieure et future qui ont été stockées dans le décodeur. Les données
des coefficients sont décodées et déquantifiées. Chaque bloc 8 x 8 de données de coefficient est
transformé par une DCT inverse (spécifiée dans l’annexe A). Le résultat est ajouté au signal de
prédiction, avec une dynamique définie.
L’image est reconstruite quand tous ces macroblocs ont été traités. S’il s’agit d’une image 1 ou d’une
image P, elle constitue une image de référence pour les images subséquentes et elle est stockée à la
place de l’ancienne image de référence. Avant leur affichage, il peut être nécessaire de réordonner les
images, pour revenir de l’ordre de codage à l’ordre naturel d’affichage. Après avoir été réordonnées,
les images sont disponibles, sous forme numérique, pour post-traitement et affichage, au gré de
l’application.
ix
0 ISO/CEtl
ISO/CEl Ill n-2:1993 (F)
05 . Structure du train binaire codé
La présente partie de l’ISO/CEI 11172 spécifie une syntaxe du train binaire comprimé. Cette syntaxe
comporte 6 couches, dont chacune assure une fonction de traitement de signal ou une fonction
système :
Couches de la syntaxe Fonction
Unité d’accès direct : contexte
Couche Séquence
Unité d’accès direct : vidéo
Couche Groupe d’images
Couche Image Unité de codage primaire
Unité de resynchronisation
Couche Bande
Couche Macrobloc Unité de compensation du mouvement
Unité DCT
Couche Bloc
06 . Fonctions prises en charge par l’algorithme
Les applications utilisant une vidéo comprimée sur support de stockage numérique doivent être
capables d’effectuer un certain nombre d’opérations, en plus de la restitution normale avant, de la
séquence. Le train binaire codé a été conçu pour prendre en charge un certain nombre de ces
fonctions.
T
0.6.1 Accès direct
L’accès direct est une fonction essentielle pour la vidéo sur un support de stockage. L’accès direct
nécessite que chaque image puisse être décodée en un temps limité. Il implique l’existence de points
c’est-à-dire de segments d’informations qui soient identifiables et
d’accès dans le train binaire -
puissent être décodés sans référence à d’autres segments de données. Une période de deux points
d’accès direct (images 1) par seconde peut être réalisée sans perte significative de qualité d’image.
0.62 Recherche accélérée
Selon le support de stockage, il est possible de balayer les points d’accès d’un train binaire comprimé
(à l’aide d’un répertoire spécifique à l’application, ou d’une autre connaissance n’entrant pas dans le
cadre de la présente partie de l’ISO/CEI 11172) pour obtenir un effet de restitution avant ou arrière
accélérée.
0.6.3 Restitution arrière
Certaines applications peuvent nécessiter la restitution du signal vidéo en ordre inverse. Cette
restitution peut être réalisée dans un décodeur en utilisant une mémoire pour stocker des groupes
complets d’images après leur décodage, avant leur affichage en ordre inverse. Un codeur peut, pour
faciliter la réalisation de cette fonction, réduire la longueur des groupes d’images.
0.6.4 Résistance aux erreurs
La plupart des supports de stockage numérique et des canaux de communication numérique ne sont
pas exempts d’erreur. Des schémas de codage canal appropriés peuvent être utilisés, mais ils
n’entrent pas dans le cadre de la présente partie de l’ISO/CEI 11172. Quoiqu’il en soit, le schéma de
compression défini dans la présente partie de l’ISO/CEI 11172 est “résistant” aux erreurs résiduelles.
La structure en bandes des images permet à un décodeur la reprise et la resynchronisation de son
décodage, après une erreur de données. La surface de l’image affectée par les erreurs sur des bits des
données comprimées entraînant des erreurs dans les images décodées, sera donc limitée. Les
décodeurs peuvent être capables d’utiliser des stratégies de dissimulation pour cacher ces erreurs.
X
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
Edition
0.6.5
Un taux de compression élevé et des facilités d’édition sont des exigences contradictoires. La
structure de codage et la syntaxe n’ont pas été conçues dans le but essentiel de simplifier l’édition
d’une image. Néanmoins, un certain nombre de fonctions sont prévues pour permettre l’édition des
données codées.
xi
Page blanche
NORME INTERNATIONALE @ IsoKEI
ISO/CEI 11172-2:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Section 1 : Généralités
11 0 Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée de données vidéo pour les
supports de stockage numérique, ainsi que le processus de décodage. La représentation prend en
charge la restitution avant à vitesse normale, ainsi que des fonctions spéciales telles que l’accès direct,
la restitution accélérée, la restitution arrière accélérée, la restitution arrière à vitesse normale, la pose
et l’arrêt sur image. La présente partie de l’ISO/CEI 11172 est compatible avec les formats de
télévision avec 525 et 625 lignes et offre une souplesse permettant l’affichage sur des ordinateurs
personnels ou des stations de travail.
L’ISO/CEI 11172 est essentiellement applicable aux supports de stockage numérique assurant un
débit de transfert continu jusqu’à environ 1,5 Mbit/s, tels que les disques compacts (CD), les bandes
magnétiques audio numériques (DAT) et les disques magnétiques durs. Elle peut néanmoins être
utilisée pour un domaine d’application plus large du fait du caractère générique de l’approche
adoptée. Le support de stockage peut être directement connecté au décodeur ou via des moyens de
communication tels que des bus, des réseaux locaux (LAN) ou des réseaux de télécommunication. La
présente partie de l’ISO/CEI 11172 est destinée aux formats vidéo non entrelacés, ayant
approximativement 228 lignes de 352 pixels, et des fréquences d’image d’environ 24 Hz à 30 Hz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172-1:1993, Technologies de l’infonlzation - Codage de lhage animée et du son associé
pour les suppo~fs de stockage numétique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-3: 1993, Technologies de l’inforritation - Codage de l’image animée et du son associé
pour les suppo~fs de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 3 : Audio.
Recommandation CCIR 601-T Paramètres de codage de télévision numétique pour stidios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodiffilsion du SOJZ par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué 11.
Recommandation CCITT 5.17, Préaccentuation utilisée sur les circuits du programme SO11 l

0 ISO/CEI
ISO/CEl 11172-2:1993 (F)
Projet de norme IEEE P1180/D2 1990, Spécifications de mise en oeuvre de la transformation en
cosinus discrète inverse &Y&
CE1 908:1987, Système audio numérique CD.

ISO/CEI 11172-2:1993 (F)
0 ISO/CEI
Section 2 : Eléments techniques
21 . Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
La partie à laquelle une définition est
en anglais est entre crochets maigres, en italiques.
éventuellement spécifique est indiquée entre crochets gras.
2.1.1 coeffkient AC [ac coeficient] [vidéo] : Tout coefficient DCT dont la fréquence est non
nulle dans au moins une dimension.
2.1.2 unité d’accès [access unit] [système] : Unité d’accès audio, dans le cas d’un signal audio
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4 affectation binaire adaptative [adaptative bit allocation] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocation] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [alias] [audio] : Composante en miroir du signal, résultant d’un échantillonnage à une
fréquence inférieure à la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [analysis fzlterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches 1 et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une “reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio bufler] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
2.1.10 séquence audio [audio sequence] [audio] : Suite ininterrompue de trames audio dans
laquelle les paramètres suivants sont constants :
- couche,
- fréquence d’échantillonnage,
- pour les Couches 1 et II : indice de débit binaire.
2.1.11 vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilisé
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taux de bande critique (tonie). L’échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement à la
sélectivité en fréquence de l’oreille humaine sur la bande.

o ISO/CEI
ISO/CEI 11172-2:1993 (F)
image B [bidirectionally predictive-coded
2.1.13 image codée par prédiction bidirectionnelle ;
picture; B-picture] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
2.1.14 débit binaire [bitrate] : Débit auquel le train binaire comprimé est reçu du support de
stockage à l’entrée d’un décodeur.
2.1.15 compression-expansion par blocs [block companding] [audio] : Normalisation de la
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
2.1.16 bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.17 sous-bande limite [bound] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensité est utilisé.
calé à l’octet [byte ahgned] : Un bit d’un train binaire codé est calé à l’octet si sa position à
2.1.18
partir du premier bit de ce train binaire, est un multiple de 8 bits.
2.1.19 octet [byte] : Suite de huit bits.
2.120 canal [channel] : Support numérique qui stocke ou transporte un train binaire
ISO/CEI 11172.
2.121 voie [channel] [audio] : Voie gauche ou droite d’un signal stéréo.
2.122 chrominance (composante) [chrominance (component)] [vidéo] : Matrice, bloc ou
échantillon de pixels représentant un des deux signaux de différences de couleur associés aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
2.1.23 train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d’un signal
audio, telle que spécifiée dans l’ISO/CEI 11172-3.
2.1.24 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans la présente partie de l’ISO/CEI 11172-2.
2.125 ordre de codage [coded order] [vidéo] : Ordre dans lequel les images sont stockées et
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
2.1.26 représentation codée [coded representation] [vidéo] : Elément de données, tel que
représenté dans sa forme codée.
2.1.27 paramètres de codage [codingparameters] [vidéo] : L’ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.1.28 composante [comportent] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.1.29 compression [compression] : Réduction du nombre de bits utilisés pour représenter un
élément de données.
2.130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [constrained parameters] [vidéo] : Valeurs des paramètres de codage
de l’ensemble défini en 2.4.3.2.

o lSO/CEI ISO/CEI 11172-2: 1993 (F)
2.133 train binaire à paramètres système restreints (CSPS) [constrained system parameter stream
(CPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6.
2.134 CRC [Cyclic redundancy code; CRCJ : Code à redondance cyclique.
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
2.136 bande critique [critical band] [audio] :
Mesure psychoacoustique relevant du domaine
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
2.138 coefficient DC [dc-coeficient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
les deux dimensions.
2.139 image codée DC ; image D [dc-coded picture; D-picture] [vidéo] : Image codée en utilisant
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DCT coefficient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded stream] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input bufler] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidéo codé.
2.1.44
décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decoding(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire code d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage ; DTS [decoding time-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Décodeur de Référence Système.
2.1.47
désaccentuation [de-emphasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [dequahzation] [vidéo] : Processus de remise à l’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storage media; DSMJ : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50
transformation en cosinus discrète ; DCT [discrete cosinus transform; DCT] [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A.

0 lSO/CEI
ISO/CEI 11172-2: 1993 (F)
2.151 ordre d’affichage [dispZay order] [vidéo] : Ordre dans lequel les images décodées devraient
être affichées, normalement le même que celui dans lequel elles ont été présentées à l’entrée du
codeur.
mode à deux canaux [dual channel mode] [audio] : Mode dans lequel deux canaux audio
2.1.52
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
Les trains binaires édités conformes doivent
pour produire un nouveau train binaire comprimé.
répondre aux spécifications définies dans l’ISO/CEI 11172.
2.1.54 : Terme générique pour désigner
train binaire élémentaire [elenzaztary stream] [système]
un des trains binaires binaires codés vidéo, audio ou autres.
audio avant stockage ou
2.1.55 accentuation [emphasis] [audio] : Filtrage appliqué à un signal
transmission, pour améliorer le rapport signal/bruit aux fréquènces élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans l’ISO/CEI 11172.
variable, bruit, de la
2.1.58 codage entropique [entropy coding] : Codage de longueur
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59 accéléré avant Vast forward playback] [vidéo] : Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fast Fourier Transfonn; FFTJ : Transformation de Fourier rapide. Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres FZterbank] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62
segmentation fixe wed segmentation] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fmes.
2.1.63 interdit(e) rorbidderz] : Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, généralement pour éviter l’émulation de
codes de début.
2.1.64 rafraîchissement systématique [forced updating] [vidéo] : Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant Eforward motion vector] [vidéo] : Vecteur mouvement utilisé pour
la compensation du mouvement, d’après une image de référence, située à un instant antérieur dans
l’ordre d’affichage.
2.1.66 trame Fame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67
format libre pee fomtat] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans l’ISO/CEI 11172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de référence future prture reference image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
2.1.69 granules [Couche II] PanuZes [Layer 1111 [audio] : L’ensemble des 3 échantillons
consécutifs en sous-bande, pour les 32 sous-bandes considérées dans leur ensemble avant
quantification. Ils correspondent à 96 échantillons MIC.
2.1.70 granules [Couche III] [granules [Layer 111j] [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
2.1.71 groupe d’images koup of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter l’accès direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans la présente partie de l’ISO/CEI 11172.
2.1.72 fenêtre de Hann [Hann window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73 codage de Huffman [Hufinan coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [hybrid jilterbank] [audio] : Combinaison en série d’un banc de
filtres en sous-bande et d’une MDCT.
2.1.75 IMDCT [herse Modified Discrete Cosinus Transfomt] [audio] : Transformation en cosinus
discrète modifiée inverse.
2.1.76 stéréo intensité [intensity strereo] [audio] : Méthode d’exploitation du caractère non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [interlace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [intra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image 1 [intra-coded picture; I-picture] [vidéo] : Image codée en
utilisant uniquement ses propres informations.
2.1.80 train binaire (multiplexé) ISO/CEI 11172 [ISO/CEI 11172 (multiplexed) stream]
[système] : Train binaire composé de zéro, un ou plusieurs
...


ISO/CEI
NORME
11172-2
INTERNATIONALE
Première édition
1993-08-o 1
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Coding of moving pictures and associated
Information technolog y -
audio for digital storage media at up to about 1,5 Mbit/s -
Part 2: Video
Numéro de référence
ISO/CEI 11172-2:1993(F)
ISO/CEI 11172-2: 1993 (F)
Sommaire
Page
. . .
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1v
Introduction .
Section 1 : Généralités .
1.1 Objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
......................................................................
1.2 Références normatives
........................................................................
Section 2 : Eléments techniques
Définitions .
2.1
...................................................................
Symboles et abréviations
2.2
................. 15
Méthode de description de la syntaxe du train binaire
2.3
2.4 Spécifications .
Annexes
..........................
A Transformation en cosinus discrète inverse 8 x 8
......................................................................
B Tables de codage VLC
................................................... 54
Vérificateur de tamponnage vidéo
C
......................................................................
D Guide de codage vidéo
Bibliographie .
E
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F Liste des détenteurs de brevets
o ISO/CEI 1993
Droits de reproduction réserves. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii
ISO/CEI 1117202:1993 (F)
o ISO/CEI
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de I’ISO et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec I’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, I’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote. ,
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-2 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ 1,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A, B et C font partie intégrante de la présente partie de
I’ISOKEI 11172. Les annexes D, E et F sont données uniquement à titre
d’information.
. . .
III
0 ISO/CEI
ISO/CEI 11172-2: 1993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Vidéo MPEG peut
lire cette introduction puis passer à l’annexe D, avant de revenir aux articles 1 et 2.
01 . Objet
La présente partie de l’ISO/CEI 11172 a été élaborée pour répondre au besoin croissant d’un format
commun de représentation de données vidéo comprimées sur divers supports de stockage numérique,
tels que les disques compacts (CD), les cassettes audio numériques (DAT), les disques Winchester et
les disques optiques. La présente partie de l’ISO/CEI 11172 spécifie une représentation codée qui
peut être utilisée pour la compression de séquences vidéo, à des débits binaires jusqu’à environ
1,5 Mbit/s. L’utilisation de la présente partie de l’ISO/CEI 11172 implique la possibilité de
manipulation de données vidéo animées, sous la forme de données informatiques, qui peuvent être
transmises et reçues sur les réseaux existants et futurs. La représentation codée peut être utilisée
pour les formats de télévision 625 lignes et 525 lignes, et présente une souplesse permettant
l’affichage sur les écrans de postes de travail ou d’ordinateurs personnels.
La présente partie de l’ISO/CEI 11172 a été élaborée essentiellement pour des supports de stockage
offrant un débit de transfert continu d’environ 1,5 Mbit/s. L’approche adoptée présentant un
caractère générique, elle peut être utilisée dans un domaine d’application plus étendu.
0.1.1
Paramètres de codage
L’intention des concepteurs de la présente partie de l’ISO/CEI 11172 a été de définir un algorithme
de codage source présentant une grande souplesse, qui puisse être utilisé pour un grand nombre
d’applications différentes. Pour réaliser cet objectif, plusieurs des paramètres définissant les
caractéristiques des trains binaires codés et des décodeurs sont contenus dans le train binaire
lui-même. Ainsi, l’algorithme peut, par exemple, être utilisé pour des images de divers formats et
facteurs d’aspect, ainsi que pour des canaux ou des dispositifs fonctionnant sur une large plage de
débits binaires.
Du fait de la large gamme de caractéristiques des trains binaires qui peuvent être représentés par la
présente partie de l’ISO/CEI 11172, un sous-ensemble de ces paramètres de codage, dont
l’appellation qualifie un “train binaire à paramètres restreints” (CSPS : constrained system parameter
stream) a été défini. La définition des paramètres restreints a pour objet de permettre la formulation
de directives pour une plage couramment utilisée de valeurs des paramètres. La conformité à cet
ensemble de restrictions n’est pas une spécification de la présente partie de l’ISO/CEI 11172. Un
indicateur, figurant dans le train binaire, précise si ce train est ou non “à paramètres restreints”.
Résumé des paramètres restreints
Format horizontal d’image Inférieur ou égal à 768 pixels
Format vertical d’image Inférieur ou égal à 576 lignes.
Surface de l’image Inférieur ou égal à 396 macroblocs
Débit de pixel Inférieur ou égal à 396 x 25 macroblocs/seconde
Fréquence d’image Inférieur ou égal à 30 Hz
Plage des vecteurs mouvement Strictement comprise entre -64 et +63,5 pixels
(en utilisant des vecteurs en demi-pixels)
4 (voir tableau D7)]
[Code d’échelle des vecteurs < =
Taille du tampon d’entrée (du modèle VBV) Inférieure ou égale à 327 680 bits
Inférieur ou égal à 1856 000 bit/s (débit binaire
Débit binaire
constant).
iv
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
02 . Présentation générale de l’algorithme
La représentation codée définie dans la présente partie de l’ISO/CEI 11172 réalise un taux de
compression élevé, tout en préservant une bonne qualité d’image. L’algorithme n’est pas “sans perte”,
en ce sens que les valeurs exactes des pixels ne sont pas préservées durant le codage. Le choix des
techniques est base sur la nécessité d’opérer un compromis entre une haute qualité d’image et un
taux de compression élevé, tout en permettant l’accès direct aux trains binaires codés. L’obtention
d’une bonne qualité d’image à des débits binaires présentant un intérêt, exige une compression très
poussée, qui n’est pas réalisable en utilisant seulement un codage en mode intra. Il est toutefois plus
facile de répondre à la nécessité d’un accès direct par un codage en pur mode intra. Cette exigence
implique un équilibre délicat entre l’utilisation du codage en mode intra et en mode inter, et entre la
réduction de redondance la temporelle récursive et non récursive.
Un certain nombre de techniques sont utilisées pour réaliser un taux de compression élevé. La
première, qui est presque indépendante de la présente partie de l’ISO/CEI 11172, consiste à choisir
une résolution spatiale appropriée pour le signal. L’algorithme utilise ensuite une compensation du
mouvement par blocs pour réduire la redondance temporelle. La compensation du mouvement est
utilisée pour la prédiction causale de l’image courante à partir d’une image antérieure, et pour une
prédiction non-causale par interpolation à partir d’images antérieure et future. Des vecteurs
mouvement sont définis pour chaque zone de 16 pixels par 16 lignes de l’image. Le signal de
différence, ou “erreur de prédiction”, fait ensuite l’objet d’une compression plus poussée, par
application de la transformation en cosinus discrète (DCT), pour supprimer les corrélations spatiales,
avant sa quantification, par un processus irréversible qui élimine les informations les moins
importantes. Enfin, les vecteurs mouvements sont combinés aux informations DCT résiduelles et
transmis sous la forme de codes à longueur variable.
0.2.1 Traitement temporel
Trois grands types d’images sont définis pour répondre aux impératifs contradictoires d’un possibilité
d’accès direct et d’une haute efficacité de compression. Les images à codage intra (images 1) sont
codées sans référence aux autres images. Elles fournissent des points d’accès à la séquence codée où
le décodage peut commencer, mais sont codées avec un taux de compression seulement modéré. Les
images codées par prédiction (images P) présentent un codage plus efficace, utilisant une prédiction
compensée en mouvement, d’après une image antérieure, intra ou prédictive, et sont généralement
utilisées comme référence pour une prédiction future. Les images codées par prédiction
bidirectionnelle (images B) offrent le taux le plus élevé de compression, mais nécessitent pour la
compensation du mouvement, une image de référence antérieure et une image de référence future.
Les images codées par prédiction bidirectionnelle ne sont jamais utilisées comme référence de
prédiction. L’organisation des trois types d’images en une séquence est très souple : son choix est
laissé au codeur, et dépend des besoins de l’application. La figure 1 montre les relations entre les
trois types d’image.
0 lSO/CEI
ISO/CEI 11172-2:1993 (F)
Prédiction
bidirectionnelle
Prédiction
Figure 1 - Exemple de structure temporelle d’images
Le quatrième type d’image défini dans la présente partie de l’ISO/CEI 11172, l’image D, est fourni
pour permettre un mode de restitution avant accéléré, simple, mais de qualité limitée.
0.2.2 Représentation du mouvement - Macroblocs
Le choix de macroblocs 16 x 16 comme unités de compensation du mouvement résulte d’un
compromis entre le gain de codage procuré par l’utilisation d’informations de mouvement et la
charge de stockage qui en résulte. Différents types de macroblocs sont possibles. Par exemple, des
macroblocs codés intra, par prédiction avant, par prédiction arrière ou par prédiction
bidirectionnelle, sont permis dans des images codées par prédiction bidirectionnelle. Selon le type de
macrobloc, des informations relatives aux vecteurs mouvement ainsi que d’autres informations
annexes, sont ou non stockées avec le signal d’erreur de prédiction comprimé dans chaque
macrobloc. Les vecteurs mouvement sont codés en différentiel par rapport au dernier vecteur
mouvement transmis, en utilisant des codes de longueur variable. La longueur maximale des vecteurs
qui peut être représentée peut être programmée, image par image, en sorte que les applications les
plus exigeantes peuvent être satisfaites, sans compromettre les performances du système dans les
situations plus normales.
Il appartient au codeur de calculer les vecteurs mouvement appropriés. La présente partie de
l’ISO/CEI 11172 ne spécifie pas comment doit être effectué ce calcul.
0.2.3 Réduction de la redondance spatiale
Les images source et les signaux d’erreur de prédiction présentent une redondance spatiale élevée.
La présente partie de l’ISO/CEI 11172 utilise une méthode DCT basée blocs, avec quantification à
pondération visuelle et codage des longueurs de plage. Après prédiction compensée en mouvement
ou interpolation, l’image résiduelle est divisée en blocs 8 x 8. Ces blocs sont transformés dans le
domaine DCT, puis donnent lieu à une pondération avant quantification. Après quantification,
beaucoup des coefficients sont de valeur nulle, ce qui permet de réaliser un codage efficace des
coefficients restants, par codage à longueur variable des événements bidimensionnels {longueur de
plage des valeurs nulles, valeur non nulle suivant la plage}.
vi
ISO/CEI 11172-2:1993 (F)
o ISO/CEI
. Codage
La présente partie de l’ISO/CEI 11172 ne spécifie aucun processus de codage. Elle spécifie la syntaxe
et la sémantique du train binaire et le traitement du signal dans le décodeur. De nombreuses options
sont ainsi laissées ouvertes aux réalisateurs de décodeurs, quant aux compromis en matière de coût et
de vitesse, d’une part, et de qualité d’image et d’efficacité de codage, d’autre part. Ce paragraphe
donne une brève description des fonctions qui doivent être assurées par un codeur. La figure 2
présente les principaux blocs fonctionnels.
I
f
, .
f
7 Données
\ 4 1
VLC-W 1
DCT+ Q
Remise
. - I , .
Multi- --b
en ordre q
,
mouvement ’
des images IP)ex I
\ b
l .
Image d’entrée source

est la transformation en cosinus discrète,
DCT
DCT-1 est la transformation en cosinus discrète inverse,
est la quantification,
Q
-1
est la quantification inverse,
Q
VLV est le codage à longueur variable
Figure 2 - Schéma simplifié du codeur vidéo
Le signal vidéo d’entrée doit être numérisé et représenté sous la forme d’un signal de luminance et de
deux signaux de différence de couleur (Y, C , CJ. Cette représentation est suivie d’un prétraitement
et d’une conversion de format permettant de%hoisir une fenêtre, une résolution et un format d’entrée
appropriés. La présente partie de l’ISO/CEI 11172 exige que les signaux de différence de couleur (Cr
et CJ soient sous-échantillonnés par rapport à la luminance dans un rapport 2:l dans les deux
directions, verticale et horizontale, puis reformatés, si nécessaire, sous la forme d’un signal non-
entrelacé.
Le codeur doit choisir le type d’image à utiliser pour chaque image. Après avoir défini les types
d’image, le codeur estime des vecteurs mouvement pour chaque macrobloc 16 x 16 de l’image. Dans
les images P, un vecteur est généralement nécessaire pour chaque macrobloc ; dans les images B, un
ou deux vecteurs sont nécessaires.
vii
lSO/CEl 11172-2:1993 (F) 0 lSO/CEI
Si des images B sont utilisées, une certaine remise en ordre de la séquence de l’image est nécessaire
avant le codage. Comme les images B sont codées par prédiction à compensation de mouvement
bidirectionnelle, elles ne peuvent être décodées qu’après le décodage de l’image de référence
subséquente (une image 1 ou P). Les images sont donc réordonnées par le codeur, de sorte à parvenir
au décodeur dans l’ordre de décodage. L’ordre correct d’affichage est rétabli par le décodeur.
L’unité de codage de base d’une image est le macrobloc. Les macroblocs de chaque image sont codés
successivement, de gauche à droite, et de haut en bas. Chaque macrobloc est composé de 6 blocs
8 x 8 : quatre blocs de luminance, un bloc de chrominance Cb et un bloc de chrominance Cr. (Voir
figure 3). A noter que les quatre blocs de luminance couvrent la même zone de l’image que chacun
des blocs de chrominance, du fait du sous-échantillonnage des informations de chrominance, effectué
pour adapter le codage à la sensibilité du système visuel humain.
14 El
2 3
H-l
Y Cb Cr
Figure 3 - Structure du macrobloc
Pour un macrobloc donné, la première opération est le choix du mode de codage : il dépend du type
d’image, de l’efficacité de la prédiction compensée en mouvement dans la région codée, et de la
nature du signal contenu dans le bloc. Deuxièmement, une prédiction compensée en mouvement du
contenu du bloc, basée sur des images de référence antérieure et/future et formée (selon le mode de
codage). Cette prédiction est soustraite des données réelles du macrobloc courant, pour former un
signal d’erreur. Troisièmement, ce signal d’erreur est divisé en blocs 8 x 8 (4 blocs de luminance et
2 blocs de chrominance dans chaque macrobloc) à chacun desquels est appliquée une transformation
en cosinus discrète. Le bloc 8 x 8 de coefficients DCT résultant est quantifié. Le bloc à deux
dimensions qui en résulte est balayé en zigzag pour être converti en une chaîne unidimensionnelle de
coefficients DCT quantifiés. Quatrièmement, les informations annexes du macrobloc (type, vecteurs,
etc.) ainsi que les données des coefficients quantifiés sont codées. Pour obtenir une efficacité
maximale, un certain nombre de tables de codage à longueur variable sont définies pour les différents
éléments de données. Un codage des longueurs de plage est appliqué aux données des coefficients
quantifiés.
Une conséquence de l’utilisation de différents types d’image et d’un codage à longueur variable est la
variabilité du débit de données global. Pour les applications qui impliquent un canal à débit fixe, un
tampon “premier entré, premier sorti” (FIFO) peut être utilisé pour adapter la sortie du codeur à ce
canal. On peut contrôler le nombre de bits généré par le codeur en surveillant l’état de ce tampon. Le
contrôle du processus de quantification est la façon la plus directe de contrôler le débit binaire. La
présente partie de l’ISO/CEI 11172 spécifie un modèle abstrait de système de tamponnage (le
vérificateur de tamponnage vidéo VBV) dont l’objet est de restreindre la variabilité maximale du
nombre de bits utilisé pour une image donnée. Il est ainsi garanti qu’un train binaire peut être décodé
avec un tampon de taille connue.
A ce stade, la représentation codée de l’image a été générée. L’étape finale du codage est de
régénérer des images 1 et des images P en décodant les données en sorte qu’elles puissent être
utilisées comme images de référence pour le codage subséquent. Les coefficients quantifiés sont
déquantifiés et une DCT 8 x 8 inverse est appliquée à chaque bloc. Le signal d’erreur produit est
alors réadditionné au signal de prédiction, en se limitant à la plage requise pour donner une image de
référence décodée.
I.
VIII
ISO/CEI 11172-2:1993 (F)
0 lSO/CEI
04 . Décodage
Le décodage est l’inverse de l’opération de codage. Il est considérablement plus simple que le codage,
car il n’est pas nécessaire d’effectuer une estimation de mouvement et les options sont moins
nombreuses. Le processus de décodage est défini par la présente partie de l’ISO/CEI 11172. La
description qui suit est une présentation générale très brève d’une façon possible de décoder un train
binaire. D’autres décodeurs, d’architectures différentes, sont possibles. La figure 4 présente les
principaux blocs fonctionnels.
Pas de quantifïcation
m-m
r - 1
+
Train binaire
Vecteurs
vidéo codé I I
- m w--0 -
I
et
Modes
---0-----4 prédicteur
I

DCT-1 est la transformation en cosinus discrète inverse,
-1
est la quantification inverse,
Q
MUX-l est le démultiplexage
VLD est le décodage à longueur variable.
Figure 4 - Schéma du décodeur vidéo de base
Pour les applications à débit fixe, le canal remplit à un débit constant, avec le train binaire codé, un
tampon FIFO. Le décodeur lit ce tampon et décode les éléments de données du train binaire,
conformément à la syntaxe définie.
Lorsqu’il lit le train binaire, le décodeur identifie le début d’une image codée, puis le type de l’image.
Il décode successivement chaque macrobloc de l’image. Le type de macrobloc et les vecteurs
mouvement, s’ils figurent, sont utilisés pour construire une prédiction du macrobloc courant, basée
sur des images de référence antérieure et future qui ont été stockées dans le décodeur. Les données
des coefficients sont décodées et déquantifiées. Chaque bloc 8 x 8 de données de coefficient est
transformé par une DCT inverse (spécifiée dans l’annexe A). Le résultat est ajouté au signal de
prédiction, avec une dynamique définie.
L’image est reconstruite quand tous ces macroblocs ont été traités. S’il s’agit d’une image 1 ou d’une
image P, elle constitue une image de référence pour les images subséquentes et elle est stockée à la
place de l’ancienne image de référence. Avant leur affichage, il peut être nécessaire de réordonner les
images, pour revenir de l’ordre de codage à l’ordre naturel d’affichage. Après avoir été réordonnées,
les images sont disponibles, sous forme numérique, pour post-traitement et affichage, au gré de
l’application.
ix
0 ISO/CEtl
ISO/CEl Ill n-2:1993 (F)
05 . Structure du train binaire codé
La présente partie de l’ISO/CEI 11172 spécifie une syntaxe du train binaire comprimé. Cette syntaxe
comporte 6 couches, dont chacune assure une fonction de traitement de signal ou une fonction
système :
Couches de la syntaxe Fonction
Unité d’accès direct : contexte
Couche Séquence
Unité d’accès direct : vidéo
Couche Groupe d’images
Couche Image Unité de codage primaire
Unité de resynchronisation
Couche Bande
Couche Macrobloc Unité de compensation du mouvement
Unité DCT
Couche Bloc
06 . Fonctions prises en charge par l’algorithme
Les applications utilisant une vidéo comprimée sur support de stockage numérique doivent être
capables d’effectuer un certain nombre d’opérations, en plus de la restitution normale avant, de la
séquence. Le train binaire codé a été conçu pour prendre en charge un certain nombre de ces
fonctions.
T
0.6.1 Accès direct
L’accès direct est une fonction essentielle pour la vidéo sur un support de stockage. L’accès direct
nécessite que chaque image puisse être décodée en un temps limité. Il implique l’existence de points
c’est-à-dire de segments d’informations qui soient identifiables et
d’accès dans le train binaire -
puissent être décodés sans référence à d’autres segments de données. Une période de deux points
d’accès direct (images 1) par seconde peut être réalisée sans perte significative de qualité d’image.
0.62 Recherche accélérée
Selon le support de stockage, il est possible de balayer les points d’accès d’un train binaire comprimé
(à l’aide d’un répertoire spécifique à l’application, ou d’une autre connaissance n’entrant pas dans le
cadre de la présente partie de l’ISO/CEI 11172) pour obtenir un effet de restitution avant ou arrière
accélérée.
0.6.3 Restitution arrière
Certaines applications peuvent nécessiter la restitution du signal vidéo en ordre inverse. Cette
restitution peut être réalisée dans un décodeur en utilisant une mémoire pour stocker des groupes
complets d’images après leur décodage, avant leur affichage en ordre inverse. Un codeur peut, pour
faciliter la réalisation de cette fonction, réduire la longueur des groupes d’images.
0.6.4 Résistance aux erreurs
La plupart des supports de stockage numérique et des canaux de communication numérique ne sont
pas exempts d’erreur. Des schémas de codage canal appropriés peuvent être utilisés, mais ils
n’entrent pas dans le cadre de la présente partie de l’ISO/CEI 11172. Quoiqu’il en soit, le schéma de
compression défini dans la présente partie de l’ISO/CEI 11172 est “résistant” aux erreurs résiduelles.
La structure en bandes des images permet à un décodeur la reprise et la resynchronisation de son
décodage, après une erreur de données. La surface de l’image affectée par les erreurs sur des bits des
données comprimées entraînant des erreurs dans les images décodées, sera donc limitée. Les
décodeurs peuvent être capables d’utiliser des stratégies de dissimulation pour cacher ces erreurs.
X
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
Edition
0.6.5
Un taux de compression élevé et des facilités d’édition sont des exigences contradictoires. La
structure de codage et la syntaxe n’ont pas été conçues dans le but essentiel de simplifier l’édition
d’une image. Néanmoins, un certain nombre de fonctions sont prévues pour permettre l’édition des
données codées.
xi
Page blanche
NORME INTERNATIONALE @ IsoKEI
ISO/CEI 11172-2:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Section 1 : Généralités
11 0 Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée de données vidéo pour les
supports de stockage numérique, ainsi que le processus de décodage. La représentation prend en
charge la restitution avant à vitesse normale, ainsi que des fonctions spéciales telles que l’accès direct,
la restitution accélérée, la restitution arrière accélérée, la restitution arrière à vitesse normale, la pose
et l’arrêt sur image. La présente partie de l’ISO/CEI 11172 est compatible avec les formats de
télévision avec 525 et 625 lignes et offre une souplesse permettant l’affichage sur des ordinateurs
personnels ou des stations de travail.
L’ISO/CEI 11172 est essentiellement applicable aux supports de stockage numérique assurant un
débit de transfert continu jusqu’à environ 1,5 Mbit/s, tels que les disques compacts (CD), les bandes
magnétiques audio numériques (DAT) et les disques magnétiques durs. Elle peut néanmoins être
utilisée pour un domaine d’application plus large du fait du caractère générique de l’approche
adoptée. Le support de stockage peut être directement connecté au décodeur ou via des moyens de
communication tels que des bus, des réseaux locaux (LAN) ou des réseaux de télécommunication. La
présente partie de l’ISO/CEI 11172 est destinée aux formats vidéo non entrelacés, ayant
approximativement 228 lignes de 352 pixels, et des fréquences d’image d’environ 24 Hz à 30 Hz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172-1:1993, Technologies de l’infonlzation - Codage de lhage animée et du son associé
pour les suppo~fs de stockage numétique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-3: 1993, Technologies de l’inforritation - Codage de l’image animée et du son associé
pour les suppo~fs de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 3 : Audio.
Recommandation CCIR 601-T Paramètres de codage de télévision numétique pour stidios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodiffilsion du SOJZ par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué 11.
Recommandation CCITT 5.17, Préaccentuation utilisée sur les circuits du programme SO11 l

0 ISO/CEI
ISO/CEl 11172-2:1993 (F)
Projet de norme IEEE P1180/D2 1990, Spécifications de mise en oeuvre de la transformation en
cosinus discrète inverse &Y&
CE1 908:1987, Système audio numérique CD.

ISO/CEI 11172-2:1993 (F)
0 ISO/CEI
Section 2 : Eléments techniques
21 . Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
La partie à laquelle une définition est
en anglais est entre crochets maigres, en italiques.
éventuellement spécifique est indiquée entre crochets gras.
2.1.1 coeffkient AC [ac coeficient] [vidéo] : Tout coefficient DCT dont la fréquence est non
nulle dans au moins une dimension.
2.1.2 unité d’accès [access unit] [système] : Unité d’accès audio, dans le cas d’un signal audio
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4 affectation binaire adaptative [adaptative bit allocation] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocation] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [alias] [audio] : Composante en miroir du signal, résultant d’un échantillonnage à une
fréquence inférieure à la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [analysis fzlterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches 1 et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une “reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio bufler] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
2.1.10 séquence audio [audio sequence] [audio] : Suite ininterrompue de trames audio dans
laquelle les paramètres suivants sont constants :
- couche,
- fréquence d’échantillonnage,
- pour les Couches 1 et II : indice de débit binaire.
2.1.11 vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilisé
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taux de bande critique (tonie). L’échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement à la
sélectivité en fréquence de l’oreille humaine sur la bande.

o ISO/CEI
ISO/CEI 11172-2:1993 (F)
image B [bidirectionally predictive-coded
2.1.13 image codée par prédiction bidirectionnelle ;
picture; B-picture] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
2.1.14 débit binaire [bitrate] : Débit auquel le train binaire comprimé est reçu du support de
stockage à l’entrée d’un décodeur.
2.1.15 compression-expansion par blocs [block companding] [audio] : Normalisation de la
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
2.1.16 bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.17 sous-bande limite [bound] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensité est utilisé.
calé à l’octet [byte ahgned] : Un bit d’un train binaire codé est calé à l’octet si sa position à
2.1.18
partir du premier bit de ce train binaire, est un multiple de 8 bits.
2.1.19 octet [byte] : Suite de huit bits.
2.120 canal [channel] : Support numérique qui stocke ou transporte un train binaire
ISO/CEI 11172.
2.121 voie [channel] [audio] : Voie gauche ou droite d’un signal stéréo.
2.122 chrominance (composante) [chrominance (component)] [vidéo] : Matrice, bloc ou
échantillon de pixels représentant un des deux signaux de différences de couleur associés aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
2.1.23 train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d’un signal
audio, telle que spécifiée dans l’ISO/CEI 11172-3.
2.1.24 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans la présente partie de l’ISO/CEI 11172-2.
2.125 ordre de codage [coded order] [vidéo] : Ordre dans lequel les images sont stockées et
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
2.1.26 représentation codée [coded representation] [vidéo] : Elément de données, tel que
représenté dans sa forme codée.
2.1.27 paramètres de codage [codingparameters] [vidéo] : L’ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.1.28 composante [comportent] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.1.29 compression [compression] : Réduction du nombre de bits utilisés pour représenter un
élément de données.
2.130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [constrained parameters] [vidéo] : Valeurs des paramètres de codage
de l’ensemble défini en 2.4.3.2.

o lSO/CEI ISO/CEI 11172-2: 1993 (F)
2.133 train binaire à paramètres système restreints (CSPS) [constrained system parameter stream
(CPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6.
2.134 CRC [Cyclic redundancy code; CRCJ : Code à redondance cyclique.
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
2.136 bande critique [critical band] [audio] :
Mesure psychoacoustique relevant du domaine
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
2.138 coefficient DC [dc-coeficient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
les deux dimensions.
2.139 image codée DC ; image D [dc-coded picture; D-picture] [vidéo] : Image codée en utilisant
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DCT coefficient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded stream] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input bufler] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidéo codé.
2.1.44
décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decoding(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire code d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage ; DTS [decoding time-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Décodeur de Référence Système.
2.1.47
désaccentuation [de-emphasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [dequahzation] [vidéo] : Processus de remise à l’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storage media; DSMJ : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50
transformation en cosinus discrète ; DCT [discrete cosinus transform; DCT] [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A.

0 lSO/CEI
ISO/CEI 11172-2: 1993 (F)
2.151 ordre d’affichage [dispZay order] [vidéo] : Ordre dans lequel les images décodées devraient
être affichées, normalement le même que celui dans lequel elles ont été présentées à l’entrée du
codeur.
mode à deux canaux [dual channel mode] [audio] : Mode dans lequel deux canaux audio
2.1.52
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
Les trains binaires édités conformes doivent
pour produire un nouveau train binaire comprimé.
répondre aux spécifications définies dans l’ISO/CEI 11172.
2.1.54 : Terme générique pour désigner
train binaire élémentaire [elenzaztary stream] [système]
un des trains binaires binaires codés vidéo, audio ou autres.
audio avant stockage ou
2.1.55 accentuation [emphasis] [audio] : Filtrage appliqué à un signal
transmission, pour améliorer le rapport signal/bruit aux fréquènces élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans l’ISO/CEI 11172.
variable, bruit, de la
2.1.58 codage entropique [entropy coding] : Codage de longueur
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59 accéléré avant Vast forward playback] [vidéo] : Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fast Fourier Transfonn; FFTJ : Transformation de Fourier rapide. Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres FZterbank] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62
segmentation fixe wed segmentation] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fmes.
2.1.63 interdit(e) rorbidderz] : Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, généralement pour éviter l’émulation de
codes de début.
2.1.64 rafraîchissement systématique [forced updating] [vidéo] : Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant Eforward motion vector] [vidéo] : Vecteur mouvement utilisé pour
la compensation du mouvement, d’après une image de référence, située à un instant antérieur dans
l’ordre d’affichage.
2.1.66 trame Fame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67
format libre pee fomtat] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans l’ISO/CEI 11172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de référence future prture reference image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
2.1.69 granules [Couche II] PanuZes [Layer 1111 [audio] : L’ensemble des 3 échantillons
consécutifs en sous-bande, pour les 32 sous-bandes considérées dans leur ensemble avant
quantification. Ils correspondent à 96 échantillons MIC.
2.1.70 granules [Couche III] [granules [Layer 111j] [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
2.1.71 groupe d’images koup of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter l’accès direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans la présente partie de l’ISO/CEI 11172.
2.1.72 fenêtre de Hann [Hann window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73 codage de Huffman [Hufinan coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [hybrid jilterbank] [audio] : Combinaison en série d’un banc de
filtres en sous-bande et d’une MDCT.
2.1.75 IMDCT [herse Modified Discrete Cosinus Transfomt] [audio] : Transformation en cosinus
discrète modifiée inverse.
2.1.76 stéréo intensité [intensity strereo] [audio] : Méthode d’exploitation du caractère non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [interlace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [intra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image 1 [intra-coded picture; I-picture] [vidéo] : Image codée en
utilisant uniquement ses propres informations.
2.1.80 train binaire (multiplexé) ISO/CEI 11172 [ISO/CEI 11172 (multiplexed) stream]
[système] : Train binaire composé de zéro, un ou plusieurs
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...