Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 2: Video

Specifies the coded representation of video for digital storage media and the decoding process. Is primarily applicable to digital storage media supporting a continuous transfer rate up to about 1,5 Mbit/s, such as compact disc, digital audio tape, and magnetic hard disc, and for non-interlaced video formats having approximately 288 lines of 352 pels and picture rates around 24 Hz to 30 Hz. Nevertheless it can be used more widely than this because of the generic approach taken.

Technologies de l'information — Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'à environ 1,5 Mbit/s — Partie 2: Vidéo

La présente partie de l'ISO/CEI 11172 spécifie la représentation codée de données vidéo pour les supports de stockage numérique, ainsi que le processus de décodage. La représentation prend en charge la restitution avant à vitesse normale, ainsi que des fonctions spéciales telles que l'accès direct, la restitution accélérée, la restitution arrière accélérée, la restitution arrière à vitesse normale, la pose et l'arrêt sur image. La présente partie de l'ISO/CEI 11172 est compatible avec les formats de télévision avec 525 et 625 lignes et offre une souplesse permettant l'affichage sur des ordinateurs personnels ou des stations de travail. L'ISO/CEI 11172 est essentiellement applicable aux supports de stockage numérique assurant un débit de transfert continu jusqu'à environ 1,5 Mbit/s, tels que les disques compacts (CD), les bandes magnétiques audio numériques (DAT) et les disques magnétiques durs. Elle peut néanmoins être utilisée pour un domaine d'application plus large du fait du ca

General Information

Status
Published
Publication Date
11-Aug-1993
Current Stage
9093 - International Standard confirmed
Completion Date
23-Jun-2021
Ref Project

Relations

Buy Standard

Standard
ISO/IEC 11172-2:1993 - Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s
English language
112 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-2:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
128 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-2:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
128 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)

INTERNATIONAL ISO/IEC
STANDARD 11172-2
First edition
1993-08-o 1
Information technology - Coding of
moving pictures and associated audio for
digital storage media at up to about
I,5 Mbit/s -
Part 2:
Video
- Codage de /‘image animee et du son
Technologies de I’informa tion
associ6 pour /es supports de stockage num&ique jusqu’a environ
7,5 Mbit/s -
Partie 2: Vid6o
Reference number
&O/l EC 11172-2: 1993(E)

---------------------- Page: 1 ----------------------
ISOAEC 11172-2: 1993 (E)
Contents
. . .
111
Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Section 1: General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1 Scope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 Normative references . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Section 2: Technical elements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2 Symbols and abbreviations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3 Method of describing bitstream syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.4 Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Annexes
39
A 8 by 8 Inverse discrete cosine transform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B Variable length code tables
49
C Video buffering verifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
D Guide to encoding video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
108
E Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
109
holders . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F List of patent
0 ISO/IEC 1993
All rights reserved. No part of this publication may be reproduced or utilized in any form or by
any means, electronic or mechanical, including photocopying and microfilm, without
permission in writing from the publisher.
ISO/IEC Copyright Office l Case Postale 56 l CH 1211 Geneve 20 l Switzerland
Printed in Switzerland.
ii

---------------------- Page: 2 ----------------------
ISOAEC 11172-2: 1993 (E)
0 ISOAEC
Foreword
IS0 (the International Organization for Standardization) and IEC (the Inter-
national Electrotechnical Commission) form the specialized system for
worldwide standardization. National bodies that are members of IS0 or
IEC participate in the development of International Standards through
technical committees established by the respective organization to deal
with particular fields of technical activity. IS0 and IEC technical com-
mittees collaborate in fields of mutual interest. Other international organ-
izations, governmental and non-governmental, in liaison with IS0 and IEC,
also take part in the work.
In the field of information technology, IS0 and IEC have established a joint
technical committee, lSO/IEC JTC 1. Draft International Standards adopted
by the joint technical committee are circulated to national bodies for vot-
ing. Publication as an International Standard requires approval by at least
75 % of the national bodies casting a vote.
International Standard lSO/IEC 11172-2 was prepared by Joint Technical
.
Committee lSO/IEC JTC 1, information technology, Sub-Committee SC 29,
Coded representation of audio, picture, multimedia and hypermedia infor-
ma tion.
lSO/IEC 11172 consists of the following parts, under the general title In-
formation technology - Coding of moving pictures and associated audio
for digital storage media at up to about 1,5 Mbit/s:
- Part 1: Systems
- Part 2: Video
- Part 3: Audio
- Part 4: Compliance testing
Annexes A, B and C form an integral part of this part of
‘IEC 11172.
Annexes D, E and F are for information only.
. . .
111

---------------------- Page: 3 ----------------------
ISOAEC 11172-2: 1993 (E) o ISOAEC
Introduction
Note -- Readers interested in an overview of the MPEG Video layer should read this Introduction and then
proceed to annex D, before returning to clauses 1 and 2.
0.1 Purpose
This part of ISO/I.EC 11172 was developed in response to the growing need for a common format for
representing compressed video on various digital storage media such as CDs, DATs, Winchester disks and
optical drives. This part of ISO/IEC 11172 specifies a coded representation that can be used for
compressing video sequences to bitrates around 1,5 Mbit/s. The use of this part of ISOAEC 11172 means
that motion video can be manipulated as a form of computer data and can be transmitted cvld received over
existing and future networks. The coded representation can be used with both 625line and 525.line
television and provides flexibility for use with workstation and persond computer displays.
This part of ISO/IEC 11172 w(as developed to operate principally from storage media offering a continuous
transfer rate of about 1,5 Mbit/s. Nevertheless it can be used more widely than this because the approach
taken is generic.
0.1.1 Coding parameters
The intention in developing this part of ISO/IEC 11172 has been to defme a source coding algorithm with a
large degree of flexibility that can be used in many different applications. To achieve this goal, a number of
the parameters defining the characteristics of coded bitstreams and decoders are contained in the bitstream
itself, This allows for example, the algorithm to be used for pictures with a variety of sizes and aspect
ratios and on channels or devices operating at a wide range of bitrates.
Because of the large range of the characteristics of bitstreams that can be represented by this part of ISO/IEC
11172, a sub-set of these coding parameters known as the “Constrained Par(ameters” has been defined. The
aim in defining the constrained parameters is to offer guidance about a widely useful range of parameters.
Conforming to this set of constraints is not a requirement of this part of ISO/IEC 11172. A flag in the
bitstream indicates whether or not it is a Constrained Parameters bitstream.
Summary of the Constrained Parameters:
Horizontal picture size Less than or equal to 768 pels
r
Vertical picture size Less than or equal to 576 lines
1 Picture area 1 Less than or equal to 396 macroblocks
Pel rate Less than or equal to 396x25 macroblocks/s
A
r
Picture rate Less than or equal to 30 Hz
I
Motion vector range Less than -64 to +63,5 pels (using half-pel vectors)
backward f code and forward f code c= 4 (see table D.7)]
L
Input buffer size (in VBV model) Less than &equal to 327 680-&s
1 Bitrate i Less than or eaual to 1 856 000 bits/s (constant bitrate) I
0.2 Overview of the algorithm
The coded representation defined in this part of ISO/IEC 11172 achieves a high compression ratio while
preserving good picture quality. The algorithm is not lossless as the exact pel values are not preserved
during coding. The choice of the techniques is based on the need to balance a high picture quality and
compression ratio with the requirement to m(zke random access to the coded bitstream. Obtaining good
picture quality at the bitrates of interest demands a very high compression ratio, which is not achievable
with intraframe coding alone. The need for random access, however, is best satisfied with pure intr~aframe
coding. This requires a careful balance between intra- and interframe coding and between recursive and non-
recursive temporal redundancy reduction.
iv

---------------------- Page: 4 ----------------------
o ISOAEC ISOAEC 11172-2:1993(E)
A number of techniques are used to achieve a high compression ratio. The first, which is almost
independent from this part of ISO/IEC 11172, is to select an appropriate spatial resolution for the signal
The algorithm then uses block-based motion compensation to reduce the temporal redundancy. Motion
compensation is used for causal prediction of the current picture from a previous picture, for noncausal
prediction of the current picture from a future picture, or for interpolative prediction from past and future
pictures. Motion vectors are defined for each 1693 by 164ine region of the picture. The difference signal,
the prediction error, is further compressed using the discrete cosine transform (DCT) to remove spatial
correlation before it is quantized in an irreversible process that discards the less important information.
Finally, the motion vectors are combined with the DCT information, and coded using variable length codes.
0.2.1 Temporal processing
Because of the conflicting requirements of random access and highly efficient compression, three main
picture types are defined.
11~.~~oded pictures (I-Pictures) are coded without reference to other pictures.
They provide access points to the coded sequence where decoding can begin, but are coded with only a
moderate compression ratio. Predictive coded pictures (P-Pictures) are coded more efficiently using motion
compensated prediction from a past intra or predictive coded picture and are generally used as a reference for
further prediction.
Bidirectionally-predictive coded pictures (B-Pictures) provide the highest degree of
compression but require both past and future reference pictures for motion compensation.
Bidirectionally-
predictive coded pictures are never used as references for prediction.
The organ&ion of the three picture
types in a sequence is very flexible. The choice is left to the encoder and will depend on the requirements of
the application. Figure 1 illustrates the relationship between the three different picture types.
Bi-directional
1 Prediction
Prediction
Figure 1
-- Example of temporal picture structure
The fourth picture type defined in this pcvt of ISO/IEC 11172, the D-picture, is provided to allow a simple,
but limited quality, fast-forward playback mode.
0.2.2 Motion representation - macroblocks
The choice of 16 by 16 macroblocks for the motion-compensation unit is a result of the trade-off between
increasing the coding efficiency provided by using motion information and the overhead needed to store it.
Each macroblock can be one of a number of different types. For example, intra-coded, forward-predictive-
coded, backward-predictive coded, and bidirectionally-predictive-coded macroblocks bidirectionally-predictive coded pictures Depending on the type of the macroblock, motion vector
information and other side information are stored with the compressed prediction error signal in each
macroblock. The motion vectors are encoded differenti,?lly with respect to the hast coded motion vector,
using variable-length codes. The mcurimum length of the vectors that may be represented can be
programmed, on a picture-by-picture basis, so that the most demanding applications c compromising the performance of the system in more normal situations.
It is the responsibility of the encoder to calculate appropriate motion vectors.
This part of ISOIIEC 11172
does not specify how this should be done.
V

---------------------- Page: 5 ----------------------
0 ISOAEC
ISOAEC 1117202:1993 (E)
0.2.3 Spatial redundancy reduction
Both original pictures and prediction error signals have high spatial redundancy. This part of ISODX
11172 uses a block-based DCT method with visually weighted quantization and run-length coding. Each 8
by 8 block of the original picture for intra-coded macroblocks or of the prediction error for predictive-coded
macroblocks is transformed into the DCT domain where it is scaled before being quantized. After
quantization many of the coefficients are zero in value (and so two-dimensional run-length and variable
length coding is used to encode the remaining coefficients efficiently.
0.3 Encoding
fies the syntax and semantics of
This This part part of of ISOAEC ISOAEC 11172 11172 does does not not specify specify an an encoding encoding process. process. It It spa specifies the syntax and semantics of
the bitstream and the signal processing in the decoder. As a result, many options are left open to encoders
the bitstream and the signal processing in the decoder. As a result, many options are left open to encoders
to trade-off cost and speed against picture quality and coding efficiency.
to trade-off cost and speed against picture quality and coding efficiency. T This is clause clause is is a a brief brief description description of of
the functions that need to be performed by an encoder. Figure 2 shows th main functional blocks.
the functions that need to be performed by an encoder. Figure 2 shows the main functional blocks.
r
Legulator
t
.
/ \ .
/
VL
DCT -+ Q
Motion
* . *
Estimator
/ II
.
Si>u&nput pictures
1
Picture
i ‘p
- store I
Predictor
Where
DCT is discrete cosine transform
DC1 is inverse discrete cosine transform
Q is quantization
Q-’ is dequantization
VLC is v Figure 2
-- Simplified video encoder block diagram
The input vi&o signal must be digitized and represented as a luminance cvld two colour difference signals
(Y, Cb, Cr). This may be followed by preprocessing and format conversion to select an appropriate
window, resolution and input format. This part of ISO/IEC 11172 requires that the colour difference
signals (Cb and Cr) are subsampled with respect to the luminance by 2:l in both vertical and horizontal
directions and are reformatted, if necessary, as a non-interlaced signal.
The encoder must choose which picture type to use for each picture.
Having defined the picture types, the
encoder estimates motion vectors for each 16 by 16 macroblock in the picture.
In P-Pictures one vector is
needed for each non-intra macroblock and in B-Pictures one or two vectors If B-Pictures are used, some reordering of the picture sequence is necessary before encoding.
Because B-
Pictures are coded using bidirectional motion compensated prediction, they can only be decoded after the
subsequent reference picture (an I or P-Picture) h vi

---------------------- Page: 6 ----------------------
o ISOAEC ISOAEC 11172-2:1993(E)
encoder so that the pictures arrive at the in the order for decoding. The COITect. display order is
decoder
recovered by the decoder.
The basic unit of coding within a picture is the macroblock. Within each picture, macroblocks are encoded
in sequence, left to right, top to bottom. Each macroblock consists of six 8 by 8 blocks: four blocks of
luminance, one block of Cb chrominance, and one block of Cr chrominance. See figure 3. Note that the
picture area covered by the four blocks of luminance is the same as the area covered by each of the
chrominance blocks. This is due to subsampling of the chrominance information to match the sensitivity of
the human visual system.
1
0
14 El
2
3
I33
Y
Cb Cr
Figure 3 -- Macroblock structure
Firstly, for a given macroblock, the coding mode is chosen. It depends on the picture type, the
effectiveness of motion compensated prediction in that local region, and the nature of the signal within the
block. Secondly, depending on the coding mode, a motion compensated prediction of the contents of the
block based on p data in the current macroblock to form (an error signal Thirdly, this error signal is separated into 8 by 8
blocks (4 lumin~ance and 2 chromincvlce blocks in each macroblock) and a discrete cosine transform is
performed on each block. Each resulting 8 by 8 block of DCT coefficients is quantized and the two-
dimensional block is scanned in a zig-zag order to convert it into a one-dimensional string of quantized DCT
coefficients. Fourthly, the side-information for the macroblock (mode, motion vectors etc) and the
quantized coefficient data are encoded. For maximum efficiency, a number of variable length code tables are
defined for the different data elements. Run-length coding is used for the quantized coefficient data.
A consequence of using different picture types ‘and variable length coding is that the overall data rate is
variable. In applications that involve a fixed-rate channel, a FIFO buffer may be used to match the encoder
output to the chcumel. The status of this buffer may be monitored to control the number of bits generated
by the encoder. Controlling the quantization process is the most direct way of controlling.the bitt-ate. This
part of ISO/IEC 11172 specifies an abstract model of the buffering system (the Video Buffering Verifier) in
order to constrain the maximum variability in the number of bits that are used for a given picture. This
ensures that a bitstream can be decoded with a buffer of known size.
At this stage, the coded representation of the picture has been generated. The final step in the encoder is to
regenerate I-Pictures and P-Pictures by decoding the data so that they can be used subsequent encoding. The quantized coefficients are dequ‘antized and an inverse 8 by 8 DCT is performed on
each block. The prediction error signaI produced is then added back to the prediction signal and limited to
the required range to give a decoded reference picture.
0.4 Decoding
Decoding is the inverse of the encoding operation. It is considerably simpler than encoding as there is no
need to perform motion estimation and there (are many fewer options. The decoding process is defined by
this part of ISO/IEC 11172. The description that follows is a very brief overview of one possible way of
decoding a bitstream. Other decoders with different c?rchitectures are possible. Figure 4 shows the main
functional blocks.
vii

---------------------- Page: 7 ----------------------
o ISO/IEC
ISOAEC 11172-2:1993 (E)
Quantizer stepsize
Picture
+ Buffer +
.
R&o&r b
7
+
Coded video
Reconstructed
bitstnam
output pictures
Motion Vectors
b Picture store
DCT-1 is inverse discrete cosine transform
is dequantization
Q-’
MUX-l is demultiplexing
VLD is variable length decoding
Figure 4 -- Basic video decoder block diagram
For fixed-rate applications, the channel fills a FIFO buffer at a constant rate with the coded bitstream. The
decoder reads this buffer and decodes the data elements in the bitstream according to the defined syntax.
As the decoder reads the bitstream, it identifies the start of a coded picture and then the type of the picture.
It decodes each macroblock in the picture in turn. The macroblock type and the motion vectors, if present,
are used to construct a prediction of the current macroblock based on p have been stored in the decoder. The coefficient data are decoded and dequantized. Each 8 by 8 block of
coefficient data is transformed by an inverse DCT (specified in annex A), and the result is added to the
prediction signal and limited to the defined range.
After all the macroblocks in the picture have been processed, the picture has been reconstructed, If it is an I-
picture or a P-picture it is a reference picture for subsequent pictures and is stored, replacing the oldest stored
reference picture.
Before the pictures are displayed they may need to be re-ordered from the coded or&r to
their natural display order. After reordering, the pictures are available, in digital form, for post-processing
and display in any Incanner that the application chooses.
03 Structure of the coded video bitstream
This part of ISO/IEC 11172 specifies a syntax for a coded video bitstream. This syntax contains six layers,
each of which either supports a signal processing or a system function:
Function
Layers of the syntax
Random access unit: context
Sequence layer
Random access unit: video
Group of pictures layer
Primcvy coding unit
Picture layer
Resynchronization unit
Slice layer
Motion compensation unit
Macroblock layer
DCT unit
Block layer
016 Features supported by the algorithm
Applications using compressed video on digital storage media need to be able to perform a number of
operations in addition to normaI forward playback of the sequence. The coded bitstream has been designed
to support a number of these operations.
. . .
vu1

---------------------- Page: 8 ----------------------
ISOAEC 11172-2:1993(E)
o ISOAEC
0.6.1 Random access
Random access is an essential feature for video on a storage medium Random access requires that any
picture can be decoded in a limited amount of time. It implies the existence of access points in the
bitstream - that is segments of information that are identifiable and can be decoded without reference to other
segments of data. A spacing of two random access points (Intra-Pictures) per second can be achieved
without significant loss of picture quality.
0.6.2 Fast search
Depending on the storage medium, it is possible to scan the access points in a coded bitstream (with the
help of an application-specific directory or other knowledge beyond the scope of this part of ISO/IEC
11172) to obtain a fast-forward and fast-reverse playback effect.
0.6.3 Reverse playback
Some applications may require the vi&o signal to be played in reverse order. This can be achieved in a
decoder by using memory to store entire groups of pictures after they have been decoded before being
displayed in reverse order. An encoder can make this feature easier by reducing the length of groups of
pictures.
0.6.4 Error robustness
Most digital storage media and communication channels are not error-free. Appropriate channel coding
schemes should be used and are beyond the scope of this part of ISO/IEC 11172. Nevertheless the
compression scheme defined in this part of ISO/IEC 11172 is robust to residual errors. The slice structure
allows a decoder to recover after a data error and to resynchronize its decoding. Therefore, bit errors in the
compressed data will cause errors in the decoded pictures to be limited in area. Decoders may be able to use
concealment strategies to disguise these errors.
0.6.5 Editing
There is a conflict between the requirement for high coding efficiency and easy editing. The coding structure
and syntax have not been designed with the primary aim of simplifying editing at any picture. Nevertheless
a number of features have been included that enable editing of coded data.
ix

---------------------- Page: 9 ----------------------
This page intentionally left blank

---------------------- Page: 10 ----------------------
ISO/IEC 11172-2:1993(E)
INTERNATIONAL STANDARD @ lSO’lEC
Information technology - Coding of moving
pictures and associated audio for digital storage
media at up to about I,5 Mbit/s -
Part 2:
Video
Section 1: General
1.1 Scope
This part of ISO/IEC 11172 specifies the coded representation of video for digitaI storage media and
specifies the decoding process. The representation supports normal speed forward playback, as well as
special functions such as random access, fast forward playback, fast reverse playback, normal speed reverse
playback, pause and still pictures. This part of ISO/IEC 11172 is compatible with standard 525. and 62%
line television formats, and it provides flexibility for use with personaI computer and workstation displays.
ISO/IEC 11172 is primarily applicable to digital storage media supporting a continuous transfer rate up to
about 1,5 Mbit/s, such as Compact Disc, Digital Audio Tape, and magnetic hczrd disks. Nevertheless it can
be used more widely than this because of the generic approach taken. The storage media may be directly
connected to the decoder, or via communications means such as busses, LANs, or telecommunications
links. This part of ISO/IEC 11172 is intended for non-interlaced video formats having approximately 288
lines of 352 pels and picture rates around 24 Hz to 30 Hz.
1.2 Normative references
The following International Standards contain provisions which, through reference in this text, constitute
provisions of this part of ISO/IEC 11172. At the time of publication, the editions indicated were valid.
AI1 standards are subject to revision, and parties to agreements based on this part of ISO/IEC 11172 are
encouraged to investigate the possibility of applying the most recent editions of the standards indicated
below. Members of IEC and IS0 maintain registers of currently valid International Standards.
ISO/IEC 11172.1:1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about I,5 Mbitis - Part 1: Systems.
ISOAEC 11172.3:1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 MbitLs - Part 3 Audio.
CCIR Recommendation 601-2 Encoding parameters of digital television for studios.
CCIR Report 624-4 Characteristics of systems for monochrome and colour television.
CCIR Recommendation 648 Recording of audio signals.
CCIR Report 955-2 Sound broadcasting by satellite for portable and mobile receivers, including Annex IV
Summary description of Advanced Digital System II.
CCITI’ Recommendation J.17 Pre-emphasis used on Sound-Programme Circuits.
1

---------------------- Page: 11 ----------------------
0 ISOAEC
ISOAEC 11172-2:1993 (E)
IEEE Draft Standard P118OD2 1990 Specification for the implementation of 8x 8 inverse discrete cosine
trangonn’:
IEC publication 908:1987 CD Digital Audio System.

---------------------- Page: 12 ----------------------
ISOAEC 11172-2: 1993 (E)
0 ISOAEC
Section 2: Technical elements
2.1 Definitions
For the purposes of ISOAEC 11172, the following definitions apply. If specific to a part, this is noted in
square brackets.
2.1.1 ac coefficient [video]: Any DCT coefficient for which the frequency in one or both dimensions
is non-zero.
2.1 .2 access unit [system]: In the case of compressed audio an access unit is an audio
access unit. In
picture.
the case of compressed video an access unit is the coded representation of a
2.1.3 adaptive segmentation [audio]: A subdivision of the digital representation of an audio signal
in variable segments of time.
2.1.4 adaptive bit allocation [audio]: The assignment of bits to subbands in a time and frequency
varying fashion according to a psychoacoustic
model.
2.1.5 adaptive noise allocation [audio]: The assignment of coding noise to frequency bands in a
time and frequency varying fashion according to a psychoacoustic model.
2.1.6 alias [audio]: Mirrored signal component resulting from sub-Nyquist sampling.
2.1.7 analysis filterbank [audio]: Filterbank in the encoder that transforms a broadband PCM audio
signal into a set of subsampled subband samples.
2.1.8 audio access unit [audio]: For Layers I and II an audio access unit is defined as the smallest
part of the encoded bitstre;un which can be decoded by itself, where decoded means “fully reconstructed
sound”. For Layer III an audio access unit is part of the bitstream that is decodable with the use of
previously acquired main information.
2.1.9 audio buffer [audio]: A buffer in the system target decoder for storage of compressed audio data.
2.1.10 audio sequence [audio]: A non-interrupted series of audio fr,unes in which the following
parameters are not chculged:
-ID
- Layer
- Scvnpling Frequency
- For Layer I and II: Bitrate index
2.1.11 backward motion vector [video]: A motion vector that is used for motion compensation
from a reference picture at a later time in display order.
2.1.12 Bark [audio]: Unit of critical b scale over the audio range closely corresponding with the frequency selectivity of the human ear across the
band.
B-picture [video]: A picture that is coded
2.1.13 bidirectionally predictive-coded picture;
using motion compensated prediction from a past and/or future reference picture.
.
2.1.14 bitrate: The rate at which the compressed bl tstream is deli vered from the storage medium to the
input of a decoder.
2.1.15 block companding [audio]: Normalizing of the digital representation of an audio signal
within a certain time period.
...

ISO/CEI
NORME
11172-2
INTERNATIONALE
Première édition
1993-08-o 1
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Coding of moving pictures and associated
Information technolog y -
audio for digital storage media at up to about 1,5 Mbit/s -
Part 2: Video
Numéro de référence
ISO/CEI 11172-2:1993(F)

---------------------- Page: 1 ----------------------
ISO/CEI 11172-2: 1993 (F)
Sommaire
Page
. . .
111
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1v
Introduction .
1
Section 1 : Généralités .
1
1.1 Objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
......................................................................
1.2 Références normatives
3
........................................................................
Section 2 : Eléments techniques
3
Définitions .
2.1
12
...................................................................
Symboles et abréviations
2.2
................. 15
Méthode de description de la syntaxe du train binaire
2.3
17
2.4 Spécifications .
Annexes
44
..........................
A Transformation en cosinus discrète inverse 8 x 8
45
......................................................................
B Tables de codage VLC
................................................... 54
Vérificateur de tamponnage vidéo
C
56
......................................................................
D Guide de codage vidéo
124
Bibliographie .
E
125
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F Liste des détenteurs de brevets
o ISO/CEI 1993
Droits de reproduction réserves. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii

---------------------- Page: 2 ----------------------
ISO/CEI 1117202:1993 (F)
o ISO/CEI
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de I’ISO et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec I’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, I’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote. ,
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-2 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ 1,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A, B et C font partie intégrante de la présente partie de
I’ISOKEI 11172. Les annexes D, E et F sont données uniquement à titre
d’information.
. . .
III

---------------------- Page: 3 ----------------------
0 ISO/CEI
ISO/CEI 11172-2: 1993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Vidéo MPEG peut
lire cette introduction puis passer à l’annexe D, avant de revenir aux articles 1 et 2.
01 . Objet
La présente partie de l’ISO/CEI 11172 a été élaborée pour répondre au besoin croissant d’un format
commun de représentation de données vidéo comprimées sur divers supports de stockage numérique,
tels que les disques compacts (CD), les cassettes audio numériques (DAT), les disques Winchester et
les disques optiques. La présente partie de l’ISO/CEI 11172 spécifie une représentation codée qui
peut être utilisée pour la compression de séquences vidéo, à des débits binaires jusqu’à environ
1,5 Mbit/s. L’utilisation de la présente partie de l’ISO/CEI 11172 implique la possibilité de
manipulation de données vidéo animées, sous la forme de données informatiques, qui peuvent être
transmises et reçues sur les réseaux existants et futurs. La représentation codée peut être utilisée
pour les formats de télévision 625 lignes et 525 lignes, et présente une souplesse permettant
l’affichage sur les écrans de postes de travail ou d’ordinateurs personnels.
La présente partie de l’ISO/CEI 11172 a été élaborée essentiellement pour des supports de stockage
offrant un débit de transfert continu d’environ 1,5 Mbit/s. L’approche adoptée présentant un
caractère générique, elle peut être utilisée dans un domaine d’application plus étendu.
0.1.1
Paramètres de codage
L’intention des concepteurs de la présente partie de l’ISO/CEI 11172 a été de définir un algorithme
de codage source présentant une grande souplesse, qui puisse être utilisé pour un grand nombre
d’applications différentes. Pour réaliser cet objectif, plusieurs des paramètres définissant les
caractéristiques des trains binaires codés et des décodeurs sont contenus dans le train binaire
lui-même. Ainsi, l’algorithme peut, par exemple, être utilisé pour des images de divers formats et
facteurs d’aspect, ainsi que pour des canaux ou des dispositifs fonctionnant sur une large plage de
débits binaires.
Du fait de la large gamme de caractéristiques des trains binaires qui peuvent être représentés par la
présente partie de l’ISO/CEI 11172, un sous-ensemble de ces paramètres de codage, dont
l’appellation qualifie un “train binaire à paramètres restreints” (CSPS : constrained system parameter
stream) a été défini. La définition des paramètres restreints a pour objet de permettre la formulation
de directives pour une plage couramment utilisée de valeurs des paramètres. La conformité à cet
ensemble de restrictions n’est pas une spécification de la présente partie de l’ISO/CEI 11172. Un
indicateur, figurant dans le train binaire, précise si ce train est ou non “à paramètres restreints”.
Résumé des paramètres restreints
Format horizontal d’image Inférieur ou égal à 768 pixels
Format vertical d’image Inférieur ou égal à 576 lignes.
Surface de l’image Inférieur ou égal à 396 macroblocs
Débit de pixel Inférieur ou égal à 396 x 25 macroblocs/seconde
Fréquence d’image Inférieur ou égal à 30 Hz
Plage des vecteurs mouvement Strictement comprise entre -64 et +63,5 pixels
(en utilisant des vecteurs en demi-pixels)
4 (voir tableau D7)]
[Code d’échelle des vecteurs < =
Taille du tampon d’entrée (du modèle VBV) Inférieure ou égale à 327 680 bits
Inférieur ou égal à 1856 000 bit/s (débit binaire
Débit binaire
constant).
iv

---------------------- Page: 4 ----------------------
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
02 . Présentation générale de l’algorithme
La représentation codée définie dans la présente partie de l’ISO/CEI 11172 réalise un taux de
compression élevé, tout en préservant une bonne qualité d’image. L’algorithme n’est pas “sans perte”,
en ce sens que les valeurs exactes des pixels ne sont pas préservées durant le codage. Le choix des
techniques est base sur la nécessité d’opérer un compromis entre une haute qualité d’image et un
taux de compression élevé, tout en permettant l’accès direct aux trains binaires codés. L’obtention
d’une bonne qualité d’image à des débits binaires présentant un intérêt, exige une compression très
poussée, qui n’est pas réalisable en utilisant seulement un codage en mode intra. Il est toutefois plus
facile de répondre à la nécessité d’un accès direct par un codage en pur mode intra. Cette exigence
implique un équilibre délicat entre l’utilisation du codage en mode intra et en mode inter, et entre la
réduction de redondance la temporelle récursive et non récursive.
Un certain nombre de techniques sont utilisées pour réaliser un taux de compression élevé. La
première, qui est presque indépendante de la présente partie de l’ISO/CEI 11172, consiste à choisir
une résolution spatiale appropriée pour le signal. L’algorithme utilise ensuite une compensation du
mouvement par blocs pour réduire la redondance temporelle. La compensation du mouvement est
utilisée pour la prédiction causale de l’image courante à partir d’une image antérieure, et pour une
prédiction non-causale par interpolation à partir d’images antérieure et future. Des vecteurs
mouvement sont définis pour chaque zone de 16 pixels par 16 lignes de l’image. Le signal de
différence, ou “erreur de prédiction”, fait ensuite l’objet d’une compression plus poussée, par
application de la transformation en cosinus discrète (DCT), pour supprimer les corrélations spatiales,
avant sa quantification, par un processus irréversible qui élimine les informations les moins
importantes. Enfin, les vecteurs mouvements sont combinés aux informations DCT résiduelles et
transmis sous la forme de codes à longueur variable.
0.2.1 Traitement temporel
Trois grands types d’images sont définis pour répondre aux impératifs contradictoires d’un possibilité
d’accès direct et d’une haute efficacité de compression. Les images à codage intra (images 1) sont
codées sans référence aux autres images. Elles fournissent des points d’accès à la séquence codée où
le décodage peut commencer, mais sont codées avec un taux de compression seulement modéré. Les
images codées par prédiction (images P) présentent un codage plus efficace, utilisant une prédiction
compensée en mouvement, d’après une image antérieure, intra ou prédictive, et sont généralement
utilisées comme référence pour une prédiction future. Les images codées par prédiction
bidirectionnelle (images B) offrent le taux le plus élevé de compression, mais nécessitent pour la
compensation du mouvement, une image de référence antérieure et une image de référence future.
Les images codées par prédiction bidirectionnelle ne sont jamais utilisées comme référence de
prédiction. L’organisation des trois types d’images en une séquence est très souple : son choix est
laissé au codeur, et dépend des besoins de l’application. La figure 1 montre les relations entre les
trois types d’image.

---------------------- Page: 5 ----------------------
0 lSO/CEI
ISO/CEI 11172-2:1993 (F)
Prédiction
bidirectionnelle
Prédiction
Figure 1 - Exemple de structure temporelle d’images
Le quatrième type d’image défini dans la présente partie de l’ISO/CEI 11172, l’image D, est fourni
pour permettre un mode de restitution avant accéléré, simple, mais de qualité limitée.
0.2.2 Représentation du mouvement - Macroblocs
Le choix de macroblocs 16 x 16 comme unités de compensation du mouvement résulte d’un
compromis entre le gain de codage procuré par l’utilisation d’informations de mouvement et la
charge de stockage qui en résulte. Différents types de macroblocs sont possibles. Par exemple, des
macroblocs codés intra, par prédiction avant, par prédiction arrière ou par prédiction
bidirectionnelle, sont permis dans des images codées par prédiction bidirectionnelle. Selon le type de
macrobloc, des informations relatives aux vecteurs mouvement ainsi que d’autres informations
annexes, sont ou non stockées avec le signal d’erreur de prédiction comprimé dans chaque
macrobloc. Les vecteurs mouvement sont codés en différentiel par rapport au dernier vecteur
mouvement transmis, en utilisant des codes de longueur variable. La longueur maximale des vecteurs
qui peut être représentée peut être programmée, image par image, en sorte que les applications les
plus exigeantes peuvent être satisfaites, sans compromettre les performances du système dans les
situations plus normales.
Il appartient au codeur de calculer les vecteurs mouvement appropriés. La présente partie de
l’ISO/CEI 11172 ne spécifie pas comment doit être effectué ce calcul.
0.2.3 Réduction de la redondance spatiale
Les images source et les signaux d’erreur de prédiction présentent une redondance spatiale élevée.
La présente partie de l’ISO/CEI 11172 utilise une méthode DCT basée blocs, avec quantification à
pondération visuelle et codage des longueurs de plage. Après prédiction compensée en mouvement
ou interpolation, l’image résiduelle est divisée en blocs 8 x 8. Ces blocs sont transformés dans le
domaine DCT, puis donnent lieu à une pondération avant quantification. Après quantification,
beaucoup des coefficients sont de valeur nulle, ce qui permet de réaliser un codage efficace des
coefficients restants, par codage à longueur variable des événements bidimensionnels {longueur de
plage des valeurs nulles, valeur non nulle suivant la plage}.
vi

---------------------- Page: 6 ----------------------
ISO/CEI 11172-2:1993 (F)
o ISO/CEI
. Codage
03
La présente partie de l’ISO/CEI 11172 ne spécifie aucun processus de codage. Elle spécifie la syntaxe
et la sémantique du train binaire et le traitement du signal dans le décodeur. De nombreuses options
sont ainsi laissées ouvertes aux réalisateurs de décodeurs, quant aux compromis en matière de coût et
de vitesse, d’une part, et de qualité d’image et d’efficacité de codage, d’autre part. Ce paragraphe
donne une brève description des fonctions qui doivent être assurées par un codeur. La figure 2
présente les principaux blocs fonctionnels.
I
f
4
, .
f
7 Données
\ 4 1
VLC-W 1
DCT+ Q
Remise
. - I , .
Multi- --b
en ordre q
,
mouvement ’
des images IP)ex I
\ b
l .
Image d’entrée source

est la transformation en cosinus discrète,
DCT
DCT-1 est la transformation en cosinus discrète inverse,
est la quantification,
Q
-1
est la quantification inverse,
Q
VLV est le codage à longueur variable
Figure 2 - Schéma simplifié du codeur vidéo
Le signal vidéo d’entrée doit être numérisé et représenté sous la forme d’un signal de luminance et de
deux signaux de différence de couleur (Y, C , CJ. Cette représentation est suivie d’un prétraitement
et d’une conversion de format permettant de%hoisir une fenêtre, une résolution et un format d’entrée
appropriés. La présente partie de l’ISO/CEI 11172 exige que les signaux de différence de couleur (Cr
et CJ soient sous-échantillonnés par rapport à la luminance dans un rapport 2:l dans les deux
directions, verticale et horizontale, puis reformatés, si nécessaire, sous la forme d’un signal non-
entrelacé.
Le codeur doit choisir le type d’image à utiliser pour chaque image. Après avoir défini les types
d’image, le codeur estime des vecteurs mouvement pour chaque macrobloc 16 x 16 de l’image. Dans
les images P, un vecteur est généralement nécessaire pour chaque macrobloc ; dans les images B, un
ou deux vecteurs sont nécessaires.
vii

---------------------- Page: 7 ----------------------
lSO/CEl 11172-2:1993 (F) 0 lSO/CEI
Si des images B sont utilisées, une certaine remise en ordre de la séquence de l’image est nécessaire
avant le codage. Comme les images B sont codées par prédiction à compensation de mouvement
bidirectionnelle, elles ne peuvent être décodées qu’après le décodage de l’image de référence
subséquente (une image 1 ou P). Les images sont donc réordonnées par le codeur, de sorte à parvenir
au décodeur dans l’ordre de décodage. L’ordre correct d’affichage est rétabli par le décodeur.
L’unité de codage de base d’une image est le macrobloc. Les macroblocs de chaque image sont codés
successivement, de gauche à droite, et de haut en bas. Chaque macrobloc est composé de 6 blocs
8 x 8 : quatre blocs de luminance, un bloc de chrominance Cb et un bloc de chrominance Cr. (Voir
figure 3). A noter que les quatre blocs de luminance couvrent la même zone de l’image que chacun
des blocs de chrominance, du fait du sous-échantillonnage des informations de chrominance, effectué
pour adapter le codage à la sensibilité du système visuel humain.
1
0
14 El
2 3
H-l
Y Cb Cr
Figure 3 - Structure du macrobloc
Pour un macrobloc donné, la première opération est le choix du mode de codage : il dépend du type
d’image, de l’efficacité de la prédiction compensée en mouvement dans la région codée, et de la
nature du signal contenu dans le bloc. Deuxièmement, une prédiction compensée en mouvement du
contenu du bloc, basée sur des images de référence antérieure et/future et formée (selon le mode de
codage). Cette prédiction est soustraite des données réelles du macrobloc courant, pour former un
signal d’erreur. Troisièmement, ce signal d’erreur est divisé en blocs 8 x 8 (4 blocs de luminance et
2 blocs de chrominance dans chaque macrobloc) à chacun desquels est appliquée une transformation
en cosinus discrète. Le bloc 8 x 8 de coefficients DCT résultant est quantifié. Le bloc à deux
dimensions qui en résulte est balayé en zigzag pour être converti en une chaîne unidimensionnelle de
coefficients DCT quantifiés. Quatrièmement, les informations annexes du macrobloc (type, vecteurs,
etc.) ainsi que les données des coefficients quantifiés sont codées. Pour obtenir une efficacité
maximale, un certain nombre de tables de codage à longueur variable sont définies pour les différents
éléments de données. Un codage des longueurs de plage est appliqué aux données des coefficients
quantifiés.
Une conséquence de l’utilisation de différents types d’image et d’un codage à longueur variable est la
variabilité du débit de données global. Pour les applications qui impliquent un canal à débit fixe, un
tampon “premier entré, premier sorti” (FIFO) peut être utilisé pour adapter la sortie du codeur à ce
canal. On peut contrôler le nombre de bits généré par le codeur en surveillant l’état de ce tampon. Le
contrôle du processus de quantification est la façon la plus directe de contrôler le débit binaire. La
présente partie de l’ISO/CEI 11172 spécifie un modèle abstrait de système de tamponnage (le
vérificateur de tamponnage vidéo VBV) dont l’objet est de restreindre la variabilité maximale du
nombre de bits utilisé pour une image donnée. Il est ainsi garanti qu’un train binaire peut être décodé
avec un tampon de taille connue.
A ce stade, la représentation codée de l’image a été générée. L’étape finale du codage est de
régénérer des images 1 et des images P en décodant les données en sorte qu’elles puissent être
utilisées comme images de référence pour le codage subséquent. Les coefficients quantifiés sont
déquantifiés et une DCT 8 x 8 inverse est appliquée à chaque bloc. Le signal d’erreur produit est
alors réadditionné au signal de prédiction, en se limitant à la plage requise pour donner une image de
référence décodée.
I.
VIII

---------------------- Page: 8 ----------------------
ISO/CEI 11172-2:1993 (F)
0 lSO/CEI
04 . Décodage
Le décodage est l’inverse de l’opération de codage. Il est considérablement plus simple que le codage,
car il n’est pas nécessaire d’effectuer une estimation de mouvement et les options sont moins
nombreuses. Le processus de décodage est défini par la présente partie de l’ISO/CEI 11172. La
description qui suit est une présentation générale très brève d’une façon possible de décoder un train
binaire. D’autres décodeurs, d’architectures différentes, sont possibles. La figure 4 présente les
principaux blocs fonctionnels.
Pas de quantifïcation
m-m
r - 1
+
Train binaire
Vecteurs
vidéo codé I I
- m w--0 -
1
I
et
Modes
---0-----4 prédicteur
I

DCT-1 est la transformation en cosinus discrète inverse,
-1
est la quantification inverse,
Q
MUX-l est le démultiplexage
VLD est le décodage à longueur variable.
Figure 4 - Schéma du décodeur vidéo de base
Pour les applications à débit fixe, le canal remplit à un débit constant, avec le train binaire codé, un
tampon FIFO. Le décodeur lit ce tampon et décode les éléments de données du train binaire,
conformément à la syntaxe définie.
Lorsqu’il lit le train binaire, le décodeur identifie le début d’une image codée, puis le type de l’image.
Il décode successivement chaque macrobloc de l’image. Le type de macrobloc et les vecteurs
mouvement, s’ils figurent, sont utilisés pour construire une prédiction du macrobloc courant, basée
sur des images de référence antérieure et future qui ont été stockées dans le décodeur. Les données
des coefficients sont décodées et déquantifiées. Chaque bloc 8 x 8 de données de coefficient est
transformé par une DCT inverse (spécifiée dans l’annexe A). Le résultat est ajouté au signal de
prédiction, avec une dynamique définie.
L’image est reconstruite quand tous ces macroblocs ont été traités. S’il s’agit d’une image 1 ou d’une
image P, elle constitue une image de référence pour les images subséquentes et elle est stockée à la
place de l’ancienne image de référence. Avant leur affichage, il peut être nécessaire de réordonner les
images, pour revenir de l’ordre de codage à l’ordre naturel d’affichage. Après avoir été réordonnées,
les images sont disponibles, sous forme numérique, pour post-traitement et affichage, au gré de
l’application.
ix

---------------------- Page: 9 ----------------------
0 ISO/CEtl
ISO/CEl Ill n-2:1993 (F)
05 . Structure du train binaire codé
La présente partie de l’ISO/CEI 11172 spécifie une syntaxe du train binaire comprimé. Cette syntaxe
comporte 6 couches, dont chacune assure une fonction de traitement de signal ou une fonction
système :
Couches de la syntaxe Fonction
Unité d’accès direct : contexte
Couche Séquence
Unité d’accès direct : vidéo
Couche Groupe d’images
Couche Image Unité de codage primaire
Unité de resynchronisation
Couche Bande
Couche Macrobloc Unité de compensation du mouvement
Unité DCT
Couche Bloc
06 . Fonctions prises en charge par l’algorithme
Les applications utilisant une vidéo comprimée sur support de stockage numérique doivent être
capables d’effectuer un certain nombre d’opérations, en plus de la restitution normale avant, de la
séquence. Le train binaire codé a été conçu pour prendre en charge un certain nombre de ces
fonctions.
T
0.6.1 Accès direct
L’accès direct est une fonction essentielle pour la vidéo sur un support de stockage. L’accès direct
nécessite que chaque image puisse être décodée en un temps limité. Il implique l’existence de points
c’est-à-dire de segments d’informations qui soient identifiables et
d’accès dans le train binaire -
puissent être décodés sans référence à d’autres segments de données. Une période de deux points
d’accès direct (images 1) par seconde peut être réalisée sans perte significative de qualité d’image.
0.62 Recherche accélérée
Selon le support de stockage, il est possible de balayer les points d’accès d’un train binaire comprimé
(à l’aide d’un répertoire spécifique à l’application, ou d’une autre connaissance n’entrant pas dans le
cadre de la présente partie de l’ISO/CEI 11172) pour obtenir un effet de restitution avant ou arrière
accélérée.
0.6.3 Restitution arrière
Certaines applications peuvent nécessiter la restitution du signal vidéo en ordre inverse. Cette
restitution peut être réalisée dans un décodeur en utilisant une mémoire pour stocker des groupes
complets d’images après leur décodage, avant leur affichage en ordre inverse. Un codeur peut, pour
faciliter la réalisation de cette fonction, réduire la longueur des groupes d’images.
0.6.4 Résistance aux erreurs
La plupart des supports de stockage numérique et des canaux de communication numérique ne sont
pas exempts d’erreur. Des schémas de codage canal appropriés peuvent être utilisés, mais ils
n’entrent pas dans le cadre de la présente partie de l’ISO/CEI 11172. Quoiqu’il en soit, le schéma de
compression défini dans la présente partie de l’ISO/CEI 11172 est “résistant” aux erreurs résiduelles.
La structure en bandes des images permet à un décodeur la reprise et la resynchronisation de son
décodage, après une erreur de données. La surface de l’image affectée par les erreurs sur des bits des
données comprimées entraînant des erreurs dans les images décodées, sera donc limitée. Les
décodeurs peuvent être capables d’utiliser des stratégies de dissimulation pour cacher ces erreurs.
X

---------------------- Page: 10 ----------------------
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
Edition
0.6.5
Un taux de compression élevé et des facilités d’édition sont des exigences contradictoires. La
structure de codage et la syntaxe n’ont pas été conçues dans le but essentiel de simplifier l’édition
d’une image. Néanmoins, un certain nombre de fonctions sont prévues pour permettre l’édition des
données codées.
xi

---------------------- Page: 11 ----------------------
Page blanche

---------------------- Page: 12 ----------------------
NORME INTERNATIONALE @ IsoKEI
ISO/CEI 11172-2:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Section 1 : Généralités
11 0 Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée de données vidéo pour les
supports de stockage numérique, ainsi que le processus de décodage. La représentation prend en
charge la restitution avant à vitesse normale, ainsi que des fonctions spéciales telles que l’accès direct,
la restitution accélérée, la restitution arrière accélérée, la restitution arrière à vitesse normale, la pose
et l’arrêt sur image. La présente partie de l’ISO/CEI 11172 est compatible avec les formats de
télévision avec 525 et 625 lignes et offre une souplesse permettant l’affichage sur des ordinateurs
personnels ou des stations de travail.
L’ISO/CEI 11172 est essentiellement applicable aux supports de stockage numérique assurant un
débit de transfert continu jusqu’à environ 1,5 Mbit/s, tels que les disques compacts (CD), les bandes
magnétiques audio numériques (DAT) et les disques magnétiques durs. Elle peut néanmoins être
utilisée pour un domaine d’application plus large du fait du caractère générique de l’approche
adoptée. Le support de stockage peut être directement connecté au décodeur ou via des moyens de
communication tels que des bus, des réseaux locaux (LAN) ou des réseaux de télécommunication. La
présente partie de l’ISO/CEI 11172 est destinée aux formats vidéo non entrelacés, ayant
approximativement 228 lignes de 352 pixels, et des fréquences d’image d’environ 24 Hz à 30 Hz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172-1:1993, Technologies de l’infonlzation - Codage de lhage animée et du son associé
pour les suppo~fs de stockage numétique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-3: 1993, Technologies de l’inforritation - Codage de l’image animée et du son associé
pour les suppo~fs de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 3 : Audio.
Recommandation CCIR 601-T Paramètres de codage de télévision numétique pour stidios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodiffilsion du SOJZ par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué 11.
Recommandation CCITT 5.17, Préaccentuation utilisée sur les circuits du programme SO11 l

---------------------- Page: 13 ----------------------
0 ISO/CEI
ISO/CEl 11172-2:1993 (F)
Projet de norme IEEE P1180/D2 1990, Spécifications de mise en oeuvre de la transformation en
cosinus discrète inverse &Y&
CE1 908:1987, Système audio numérique CD.

---------------------- Page: 14 ----------------------
ISO/CEI 11172-2:1993 (F)
0 ISO/CEI
Section 2 : Eléments techniques
21 . Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
La partie à laquelle une définition est
en anglais est entre crochets ma
...

ISO/CEI
NORME
11172-2
INTERNATIONALE
Première édition
1993-08-o 1
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Coding of moving pictures and associated
Information technolog y -
audio for digital storage media at up to about 1,5 Mbit/s -
Part 2: Video
Numéro de référence
ISO/CEI 11172-2:1993(F)

---------------------- Page: 1 ----------------------
ISO/CEI 11172-2: 1993 (F)
Sommaire
Page
. . .
111
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1v
Introduction .
1
Section 1 : Généralités .
1
1.1 Objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
......................................................................
1.2 Références normatives
3
........................................................................
Section 2 : Eléments techniques
3
Définitions .
2.1
12
...................................................................
Symboles et abréviations
2.2
................. 15
Méthode de description de la syntaxe du train binaire
2.3
17
2.4 Spécifications .
Annexes
44
..........................
A Transformation en cosinus discrète inverse 8 x 8
45
......................................................................
B Tables de codage VLC
................................................... 54
Vérificateur de tamponnage vidéo
C
56
......................................................................
D Guide de codage vidéo
124
Bibliographie .
E
125
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F Liste des détenteurs de brevets
o ISO/CEI 1993
Droits de reproduction réserves. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii

---------------------- Page: 2 ----------------------
ISO/CEI 1117202:1993 (F)
o ISO/CEI
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de I’ISO et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec I’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, I’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote. ,
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-2 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ 1,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A, B et C font partie intégrante de la présente partie de
I’ISOKEI 11172. Les annexes D, E et F sont données uniquement à titre
d’information.
. . .
III

---------------------- Page: 3 ----------------------
0 ISO/CEI
ISO/CEI 11172-2: 1993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Vidéo MPEG peut
lire cette introduction puis passer à l’annexe D, avant de revenir aux articles 1 et 2.
01 . Objet
La présente partie de l’ISO/CEI 11172 a été élaborée pour répondre au besoin croissant d’un format
commun de représentation de données vidéo comprimées sur divers supports de stockage numérique,
tels que les disques compacts (CD), les cassettes audio numériques (DAT), les disques Winchester et
les disques optiques. La présente partie de l’ISO/CEI 11172 spécifie une représentation codée qui
peut être utilisée pour la compression de séquences vidéo, à des débits binaires jusqu’à environ
1,5 Mbit/s. L’utilisation de la présente partie de l’ISO/CEI 11172 implique la possibilité de
manipulation de données vidéo animées, sous la forme de données informatiques, qui peuvent être
transmises et reçues sur les réseaux existants et futurs. La représentation codée peut être utilisée
pour les formats de télévision 625 lignes et 525 lignes, et présente une souplesse permettant
l’affichage sur les écrans de postes de travail ou d’ordinateurs personnels.
La présente partie de l’ISO/CEI 11172 a été élaborée essentiellement pour des supports de stockage
offrant un débit de transfert continu d’environ 1,5 Mbit/s. L’approche adoptée présentant un
caractère générique, elle peut être utilisée dans un domaine d’application plus étendu.
0.1.1
Paramètres de codage
L’intention des concepteurs de la présente partie de l’ISO/CEI 11172 a été de définir un algorithme
de codage source présentant une grande souplesse, qui puisse être utilisé pour un grand nombre
d’applications différentes. Pour réaliser cet objectif, plusieurs des paramètres définissant les
caractéristiques des trains binaires codés et des décodeurs sont contenus dans le train binaire
lui-même. Ainsi, l’algorithme peut, par exemple, être utilisé pour des images de divers formats et
facteurs d’aspect, ainsi que pour des canaux ou des dispositifs fonctionnant sur une large plage de
débits binaires.
Du fait de la large gamme de caractéristiques des trains binaires qui peuvent être représentés par la
présente partie de l’ISO/CEI 11172, un sous-ensemble de ces paramètres de codage, dont
l’appellation qualifie un “train binaire à paramètres restreints” (CSPS : constrained system parameter
stream) a été défini. La définition des paramètres restreints a pour objet de permettre la formulation
de directives pour une plage couramment utilisée de valeurs des paramètres. La conformité à cet
ensemble de restrictions n’est pas une spécification de la présente partie de l’ISO/CEI 11172. Un
indicateur, figurant dans le train binaire, précise si ce train est ou non “à paramètres restreints”.
Résumé des paramètres restreints
Format horizontal d’image Inférieur ou égal à 768 pixels
Format vertical d’image Inférieur ou égal à 576 lignes.
Surface de l’image Inférieur ou égal à 396 macroblocs
Débit de pixel Inférieur ou égal à 396 x 25 macroblocs/seconde
Fréquence d’image Inférieur ou égal à 30 Hz
Plage des vecteurs mouvement Strictement comprise entre -64 et +63,5 pixels
(en utilisant des vecteurs en demi-pixels)
4 (voir tableau D7)]
[Code d’échelle des vecteurs < =
Taille du tampon d’entrée (du modèle VBV) Inférieure ou égale à 327 680 bits
Inférieur ou égal à 1856 000 bit/s (débit binaire
Débit binaire
constant).
iv

---------------------- Page: 4 ----------------------
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
02 . Présentation générale de l’algorithme
La représentation codée définie dans la présente partie de l’ISO/CEI 11172 réalise un taux de
compression élevé, tout en préservant une bonne qualité d’image. L’algorithme n’est pas “sans perte”,
en ce sens que les valeurs exactes des pixels ne sont pas préservées durant le codage. Le choix des
techniques est base sur la nécessité d’opérer un compromis entre une haute qualité d’image et un
taux de compression élevé, tout en permettant l’accès direct aux trains binaires codés. L’obtention
d’une bonne qualité d’image à des débits binaires présentant un intérêt, exige une compression très
poussée, qui n’est pas réalisable en utilisant seulement un codage en mode intra. Il est toutefois plus
facile de répondre à la nécessité d’un accès direct par un codage en pur mode intra. Cette exigence
implique un équilibre délicat entre l’utilisation du codage en mode intra et en mode inter, et entre la
réduction de redondance la temporelle récursive et non récursive.
Un certain nombre de techniques sont utilisées pour réaliser un taux de compression élevé. La
première, qui est presque indépendante de la présente partie de l’ISO/CEI 11172, consiste à choisir
une résolution spatiale appropriée pour le signal. L’algorithme utilise ensuite une compensation du
mouvement par blocs pour réduire la redondance temporelle. La compensation du mouvement est
utilisée pour la prédiction causale de l’image courante à partir d’une image antérieure, et pour une
prédiction non-causale par interpolation à partir d’images antérieure et future. Des vecteurs
mouvement sont définis pour chaque zone de 16 pixels par 16 lignes de l’image. Le signal de
différence, ou “erreur de prédiction”, fait ensuite l’objet d’une compression plus poussée, par
application de la transformation en cosinus discrète (DCT), pour supprimer les corrélations spatiales,
avant sa quantification, par un processus irréversible qui élimine les informations les moins
importantes. Enfin, les vecteurs mouvements sont combinés aux informations DCT résiduelles et
transmis sous la forme de codes à longueur variable.
0.2.1 Traitement temporel
Trois grands types d’images sont définis pour répondre aux impératifs contradictoires d’un possibilité
d’accès direct et d’une haute efficacité de compression. Les images à codage intra (images 1) sont
codées sans référence aux autres images. Elles fournissent des points d’accès à la séquence codée où
le décodage peut commencer, mais sont codées avec un taux de compression seulement modéré. Les
images codées par prédiction (images P) présentent un codage plus efficace, utilisant une prédiction
compensée en mouvement, d’après une image antérieure, intra ou prédictive, et sont généralement
utilisées comme référence pour une prédiction future. Les images codées par prédiction
bidirectionnelle (images B) offrent le taux le plus élevé de compression, mais nécessitent pour la
compensation du mouvement, une image de référence antérieure et une image de référence future.
Les images codées par prédiction bidirectionnelle ne sont jamais utilisées comme référence de
prédiction. L’organisation des trois types d’images en une séquence est très souple : son choix est
laissé au codeur, et dépend des besoins de l’application. La figure 1 montre les relations entre les
trois types d’image.

---------------------- Page: 5 ----------------------
0 lSO/CEI
ISO/CEI 11172-2:1993 (F)
Prédiction
bidirectionnelle
Prédiction
Figure 1 - Exemple de structure temporelle d’images
Le quatrième type d’image défini dans la présente partie de l’ISO/CEI 11172, l’image D, est fourni
pour permettre un mode de restitution avant accéléré, simple, mais de qualité limitée.
0.2.2 Représentation du mouvement - Macroblocs
Le choix de macroblocs 16 x 16 comme unités de compensation du mouvement résulte d’un
compromis entre le gain de codage procuré par l’utilisation d’informations de mouvement et la
charge de stockage qui en résulte. Différents types de macroblocs sont possibles. Par exemple, des
macroblocs codés intra, par prédiction avant, par prédiction arrière ou par prédiction
bidirectionnelle, sont permis dans des images codées par prédiction bidirectionnelle. Selon le type de
macrobloc, des informations relatives aux vecteurs mouvement ainsi que d’autres informations
annexes, sont ou non stockées avec le signal d’erreur de prédiction comprimé dans chaque
macrobloc. Les vecteurs mouvement sont codés en différentiel par rapport au dernier vecteur
mouvement transmis, en utilisant des codes de longueur variable. La longueur maximale des vecteurs
qui peut être représentée peut être programmée, image par image, en sorte que les applications les
plus exigeantes peuvent être satisfaites, sans compromettre les performances du système dans les
situations plus normales.
Il appartient au codeur de calculer les vecteurs mouvement appropriés. La présente partie de
l’ISO/CEI 11172 ne spécifie pas comment doit être effectué ce calcul.
0.2.3 Réduction de la redondance spatiale
Les images source et les signaux d’erreur de prédiction présentent une redondance spatiale élevée.
La présente partie de l’ISO/CEI 11172 utilise une méthode DCT basée blocs, avec quantification à
pondération visuelle et codage des longueurs de plage. Après prédiction compensée en mouvement
ou interpolation, l’image résiduelle est divisée en blocs 8 x 8. Ces blocs sont transformés dans le
domaine DCT, puis donnent lieu à une pondération avant quantification. Après quantification,
beaucoup des coefficients sont de valeur nulle, ce qui permet de réaliser un codage efficace des
coefficients restants, par codage à longueur variable des événements bidimensionnels {longueur de
plage des valeurs nulles, valeur non nulle suivant la plage}.
vi

---------------------- Page: 6 ----------------------
ISO/CEI 11172-2:1993 (F)
o ISO/CEI
. Codage
03
La présente partie de l’ISO/CEI 11172 ne spécifie aucun processus de codage. Elle spécifie la syntaxe
et la sémantique du train binaire et le traitement du signal dans le décodeur. De nombreuses options
sont ainsi laissées ouvertes aux réalisateurs de décodeurs, quant aux compromis en matière de coût et
de vitesse, d’une part, et de qualité d’image et d’efficacité de codage, d’autre part. Ce paragraphe
donne une brève description des fonctions qui doivent être assurées par un codeur. La figure 2
présente les principaux blocs fonctionnels.
I
f
4
, .
f
7 Données
\ 4 1
VLC-W 1
DCT+ Q
Remise
. - I , .
Multi- --b
en ordre q
,
mouvement ’
des images IP)ex I
\ b
l .
Image d’entrée source

est la transformation en cosinus discrète,
DCT
DCT-1 est la transformation en cosinus discrète inverse,
est la quantification,
Q
-1
est la quantification inverse,
Q
VLV est le codage à longueur variable
Figure 2 - Schéma simplifié du codeur vidéo
Le signal vidéo d’entrée doit être numérisé et représenté sous la forme d’un signal de luminance et de
deux signaux de différence de couleur (Y, C , CJ. Cette représentation est suivie d’un prétraitement
et d’une conversion de format permettant de%hoisir une fenêtre, une résolution et un format d’entrée
appropriés. La présente partie de l’ISO/CEI 11172 exige que les signaux de différence de couleur (Cr
et CJ soient sous-échantillonnés par rapport à la luminance dans un rapport 2:l dans les deux
directions, verticale et horizontale, puis reformatés, si nécessaire, sous la forme d’un signal non-
entrelacé.
Le codeur doit choisir le type d’image à utiliser pour chaque image. Après avoir défini les types
d’image, le codeur estime des vecteurs mouvement pour chaque macrobloc 16 x 16 de l’image. Dans
les images P, un vecteur est généralement nécessaire pour chaque macrobloc ; dans les images B, un
ou deux vecteurs sont nécessaires.
vii

---------------------- Page: 7 ----------------------
lSO/CEl 11172-2:1993 (F) 0 lSO/CEI
Si des images B sont utilisées, une certaine remise en ordre de la séquence de l’image est nécessaire
avant le codage. Comme les images B sont codées par prédiction à compensation de mouvement
bidirectionnelle, elles ne peuvent être décodées qu’après le décodage de l’image de référence
subséquente (une image 1 ou P). Les images sont donc réordonnées par le codeur, de sorte à parvenir
au décodeur dans l’ordre de décodage. L’ordre correct d’affichage est rétabli par le décodeur.
L’unité de codage de base d’une image est le macrobloc. Les macroblocs de chaque image sont codés
successivement, de gauche à droite, et de haut en bas. Chaque macrobloc est composé de 6 blocs
8 x 8 : quatre blocs de luminance, un bloc de chrominance Cb et un bloc de chrominance Cr. (Voir
figure 3). A noter que les quatre blocs de luminance couvrent la même zone de l’image que chacun
des blocs de chrominance, du fait du sous-échantillonnage des informations de chrominance, effectué
pour adapter le codage à la sensibilité du système visuel humain.
1
0
14 El
2 3
H-l
Y Cb Cr
Figure 3 - Structure du macrobloc
Pour un macrobloc donné, la première opération est le choix du mode de codage : il dépend du type
d’image, de l’efficacité de la prédiction compensée en mouvement dans la région codée, et de la
nature du signal contenu dans le bloc. Deuxièmement, une prédiction compensée en mouvement du
contenu du bloc, basée sur des images de référence antérieure et/future et formée (selon le mode de
codage). Cette prédiction est soustraite des données réelles du macrobloc courant, pour former un
signal d’erreur. Troisièmement, ce signal d’erreur est divisé en blocs 8 x 8 (4 blocs de luminance et
2 blocs de chrominance dans chaque macrobloc) à chacun desquels est appliquée une transformation
en cosinus discrète. Le bloc 8 x 8 de coefficients DCT résultant est quantifié. Le bloc à deux
dimensions qui en résulte est balayé en zigzag pour être converti en une chaîne unidimensionnelle de
coefficients DCT quantifiés. Quatrièmement, les informations annexes du macrobloc (type, vecteurs,
etc.) ainsi que les données des coefficients quantifiés sont codées. Pour obtenir une efficacité
maximale, un certain nombre de tables de codage à longueur variable sont définies pour les différents
éléments de données. Un codage des longueurs de plage est appliqué aux données des coefficients
quantifiés.
Une conséquence de l’utilisation de différents types d’image et d’un codage à longueur variable est la
variabilité du débit de données global. Pour les applications qui impliquent un canal à débit fixe, un
tampon “premier entré, premier sorti” (FIFO) peut être utilisé pour adapter la sortie du codeur à ce
canal. On peut contrôler le nombre de bits généré par le codeur en surveillant l’état de ce tampon. Le
contrôle du processus de quantification est la façon la plus directe de contrôler le débit binaire. La
présente partie de l’ISO/CEI 11172 spécifie un modèle abstrait de système de tamponnage (le
vérificateur de tamponnage vidéo VBV) dont l’objet est de restreindre la variabilité maximale du
nombre de bits utilisé pour une image donnée. Il est ainsi garanti qu’un train binaire peut être décodé
avec un tampon de taille connue.
A ce stade, la représentation codée de l’image a été générée. L’étape finale du codage est de
régénérer des images 1 et des images P en décodant les données en sorte qu’elles puissent être
utilisées comme images de référence pour le codage subséquent. Les coefficients quantifiés sont
déquantifiés et une DCT 8 x 8 inverse est appliquée à chaque bloc. Le signal d’erreur produit est
alors réadditionné au signal de prédiction, en se limitant à la plage requise pour donner une image de
référence décodée.
I.
VIII

---------------------- Page: 8 ----------------------
ISO/CEI 11172-2:1993 (F)
0 lSO/CEI
04 . Décodage
Le décodage est l’inverse de l’opération de codage. Il est considérablement plus simple que le codage,
car il n’est pas nécessaire d’effectuer une estimation de mouvement et les options sont moins
nombreuses. Le processus de décodage est défini par la présente partie de l’ISO/CEI 11172. La
description qui suit est une présentation générale très brève d’une façon possible de décoder un train
binaire. D’autres décodeurs, d’architectures différentes, sont possibles. La figure 4 présente les
principaux blocs fonctionnels.
Pas de quantifïcation
m-m
r - 1
+
Train binaire
Vecteurs
vidéo codé I I
- m w--0 -
1
I
et
Modes
---0-----4 prédicteur
I

DCT-1 est la transformation en cosinus discrète inverse,
-1
est la quantification inverse,
Q
MUX-l est le démultiplexage
VLD est le décodage à longueur variable.
Figure 4 - Schéma du décodeur vidéo de base
Pour les applications à débit fixe, le canal remplit à un débit constant, avec le train binaire codé, un
tampon FIFO. Le décodeur lit ce tampon et décode les éléments de données du train binaire,
conformément à la syntaxe définie.
Lorsqu’il lit le train binaire, le décodeur identifie le début d’une image codée, puis le type de l’image.
Il décode successivement chaque macrobloc de l’image. Le type de macrobloc et les vecteurs
mouvement, s’ils figurent, sont utilisés pour construire une prédiction du macrobloc courant, basée
sur des images de référence antérieure et future qui ont été stockées dans le décodeur. Les données
des coefficients sont décodées et déquantifiées. Chaque bloc 8 x 8 de données de coefficient est
transformé par une DCT inverse (spécifiée dans l’annexe A). Le résultat est ajouté au signal de
prédiction, avec une dynamique définie.
L’image est reconstruite quand tous ces macroblocs ont été traités. S’il s’agit d’une image 1 ou d’une
image P, elle constitue une image de référence pour les images subséquentes et elle est stockée à la
place de l’ancienne image de référence. Avant leur affichage, il peut être nécessaire de réordonner les
images, pour revenir de l’ordre de codage à l’ordre naturel d’affichage. Après avoir été réordonnées,
les images sont disponibles, sous forme numérique, pour post-traitement et affichage, au gré de
l’application.
ix

---------------------- Page: 9 ----------------------
0 ISO/CEtl
ISO/CEl Ill n-2:1993 (F)
05 . Structure du train binaire codé
La présente partie de l’ISO/CEI 11172 spécifie une syntaxe du train binaire comprimé. Cette syntaxe
comporte 6 couches, dont chacune assure une fonction de traitement de signal ou une fonction
système :
Couches de la syntaxe Fonction
Unité d’accès direct : contexte
Couche Séquence
Unité d’accès direct : vidéo
Couche Groupe d’images
Couche Image Unité de codage primaire
Unité de resynchronisation
Couche Bande
Couche Macrobloc Unité de compensation du mouvement
Unité DCT
Couche Bloc
06 . Fonctions prises en charge par l’algorithme
Les applications utilisant une vidéo comprimée sur support de stockage numérique doivent être
capables d’effectuer un certain nombre d’opérations, en plus de la restitution normale avant, de la
séquence. Le train binaire codé a été conçu pour prendre en charge un certain nombre de ces
fonctions.
T
0.6.1 Accès direct
L’accès direct est une fonction essentielle pour la vidéo sur un support de stockage. L’accès direct
nécessite que chaque image puisse être décodée en un temps limité. Il implique l’existence de points
c’est-à-dire de segments d’informations qui soient identifiables et
d’accès dans le train binaire -
puissent être décodés sans référence à d’autres segments de données. Une période de deux points
d’accès direct (images 1) par seconde peut être réalisée sans perte significative de qualité d’image.
0.62 Recherche accélérée
Selon le support de stockage, il est possible de balayer les points d’accès d’un train binaire comprimé
(à l’aide d’un répertoire spécifique à l’application, ou d’une autre connaissance n’entrant pas dans le
cadre de la présente partie de l’ISO/CEI 11172) pour obtenir un effet de restitution avant ou arrière
accélérée.
0.6.3 Restitution arrière
Certaines applications peuvent nécessiter la restitution du signal vidéo en ordre inverse. Cette
restitution peut être réalisée dans un décodeur en utilisant une mémoire pour stocker des groupes
complets d’images après leur décodage, avant leur affichage en ordre inverse. Un codeur peut, pour
faciliter la réalisation de cette fonction, réduire la longueur des groupes d’images.
0.6.4 Résistance aux erreurs
La plupart des supports de stockage numérique et des canaux de communication numérique ne sont
pas exempts d’erreur. Des schémas de codage canal appropriés peuvent être utilisés, mais ils
n’entrent pas dans le cadre de la présente partie de l’ISO/CEI 11172. Quoiqu’il en soit, le schéma de
compression défini dans la présente partie de l’ISO/CEI 11172 est “résistant” aux erreurs résiduelles.
La structure en bandes des images permet à un décodeur la reprise et la resynchronisation de son
décodage, après une erreur de données. La surface de l’image affectée par les erreurs sur des bits des
données comprimées entraînant des erreurs dans les images décodées, sera donc limitée. Les
décodeurs peuvent être capables d’utiliser des stratégies de dissimulation pour cacher ces erreurs.
X

---------------------- Page: 10 ----------------------
0 ISO/CEI ISO/CEI 11172-2:1993 (F)
Edition
0.6.5
Un taux de compression élevé et des facilités d’édition sont des exigences contradictoires. La
structure de codage et la syntaxe n’ont pas été conçues dans le but essentiel de simplifier l’édition
d’une image. Néanmoins, un certain nombre de fonctions sont prévues pour permettre l’édition des
données codées.
xi

---------------------- Page: 11 ----------------------
Page blanche

---------------------- Page: 12 ----------------------
NORME INTERNATIONALE @ IsoKEI
ISO/CEI 11172-2:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 Mbit/s -
Partie 2:
Vidéo
Section 1 : Généralités
11 0 Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée de données vidéo pour les
supports de stockage numérique, ainsi que le processus de décodage. La représentation prend en
charge la restitution avant à vitesse normale, ainsi que des fonctions spéciales telles que l’accès direct,
la restitution accélérée, la restitution arrière accélérée, la restitution arrière à vitesse normale, la pose
et l’arrêt sur image. La présente partie de l’ISO/CEI 11172 est compatible avec les formats de
télévision avec 525 et 625 lignes et offre une souplesse permettant l’affichage sur des ordinateurs
personnels ou des stations de travail.
L’ISO/CEI 11172 est essentiellement applicable aux supports de stockage numérique assurant un
débit de transfert continu jusqu’à environ 1,5 Mbit/s, tels que les disques compacts (CD), les bandes
magnétiques audio numériques (DAT) et les disques magnétiques durs. Elle peut néanmoins être
utilisée pour un domaine d’application plus large du fait du caractère générique de l’approche
adoptée. Le support de stockage peut être directement connecté au décodeur ou via des moyens de
communication tels que des bus, des réseaux locaux (LAN) ou des réseaux de télécommunication. La
présente partie de l’ISO/CEI 11172 est destinée aux formats vidéo non entrelacés, ayant
approximativement 228 lignes de 352 pixels, et des fréquences d’image d’environ 24 Hz à 30 Hz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172-1:1993, Technologies de l’infonlzation - Codage de lhage animée et du son associé
pour les suppo~fs de stockage numétique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-3: 1993, Technologies de l’inforritation - Codage de l’image animée et du son associé
pour les suppo~fs de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 3 : Audio.
Recommandation CCIR 601-T Paramètres de codage de télévision numétique pour stidios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodiffilsion du SOJZ par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué 11.
Recommandation CCITT 5.17, Préaccentuation utilisée sur les circuits du programme SO11 l

---------------------- Page: 13 ----------------------
0 ISO/CEI
ISO/CEl 11172-2:1993 (F)
Projet de norme IEEE P1180/D2 1990, Spécifications de mise en oeuvre de la transformation en
cosinus discrète inverse &Y&
CE1 908:1987, Système audio numérique CD.

---------------------- Page: 14 ----------------------
ISO/CEI 11172-2:1993 (F)
0 ISO/CEI
Section 2 : Eléments techniques
21 . Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
La partie à laquelle une définition est
en anglais est entre crochets ma
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.