Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 3: Audio

Specifies the coded representation of high quality audio for storage media and the method for decoding of high quality audio signals. Is intended for application to digital storage media providing a total continuous transfer rate of about 1,5 Mbit/s for both audio and video bitstreams, such as CD, DAT and magnetic hard disc, and for sampling rates of 32 kHz, 44,1 kHz, and 48 kHz.

Technologies de l'information — Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'à environ 1,5 Mbit/s — Partie 3: Audio

La présente partie de l'ISO/CEI 11172 spécifie la représentation codée d'un signal audio de haute qualité, pour son enregistrement sur les supports de stockage numérique, ainsi que le processus de décodage. L'entrée du codeur et la sortie du décodeur sont compatibles avec les normes MIC existantes, telles que celles des disques compacts (CD) et des bandes magnétiques audio numériques (DAT). La présente partie de l'ISO/CEI 11172 est destinée à être appliquée à un support de stockage numérique assurant un débit de transfert total continu d'environ 1,5 Mbit/s des trains binaires audio et vidéo, tels que les CD, les DAT et les disques durs magnétiques. Le support de stockage peut être connecté directement au décodeur, ou par l'intermédiaire d'autres moyens tels que des lignes de communication transportant le train binaire multiplexé ISO 11172 défini dans l'ISO/CEI 11172-1. La présente partie de l'ISO/CEI 11172 est prévue pour des fréquences d'échantillonnage de 32 kHz, 44,1 kHz et 48 k

General Information

Status
Published
Publication Date
11-Aug-1993
Current Stage
9093 - International Standard confirmed
Completion Date
23-Jun-2021
Ref Project

Buy Standard

Standard
ISO/IEC 11172-3:1993 - Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s
English language
150 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-3:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
164 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-3:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
164 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)

I NTERNAT I O NA L
ISOIIEC
S TA N DA R D
I1 172-3
First edition
1993-08-01
Information technology - Coding of
moving pictures and associated audio for
digital storage media at up to about
1,5 Mbit/s -
Part 3:
Audio
Technologies de l'information - Codage de l'image animee et du son
associe pour les supports de stockage numerique jusqu'd environ
1,5 MbiVs -
Partie 3: Audio
Reference number
ISO/IEC 11 172-3:1993(E)

---------------------- Page: 1 ----------------------
ISOAEC 11 172-3: 1993 (E)
Contents
Page
III troduc tion. .
..................................... v
Section 1: General .
............................ 1
.........................
1.1 Scope . 1
1.2 Normative references. . . 1
Section 2: Techiiical elements. . . 2
2.1 Defiiiitioiis . . 2
2.2 Symbols and abbreviations. . . 10
2.3 Method of describing bitstream syntax 12
2.4 R eq U ire inen ts . . . 14
A II II ex es
A Diagrams . . . . 38
B Tables . .
C The encodiug process . .
D Psychoacoustic models . .IO9
E Bit sensitivity to errors. . 140
OISO/IEC 1993
All rights reserved. No part of this publicatiori inay be reproduced or utilized in any form or by
any ~neaiis, electronic or nech ha ni cal, i~icluding photocopying and microfilm, without
permission in writiiig from the publisher.
ISOAEC Copyright Office Case Postale 56 CH 121 1 Genève 20 Switzerland
Printed in Switzerland.
ii

---------------------- Page: 2 ----------------------
O ISO/IEC
ISO/IEC 11 172-3: 1993 (E)
F Error concealment 142
.............................................................................
G Joint stereo coding 143
...........................................................................
H List of patent holders . 147
iii

---------------------- Page: 3 ----------------------
ISO/IEC 11 172-3: 1993 (E)
8 ISO/IEC
Foreword
IS0 (the International Organization for Standardization) and IEC (the Inter-
national Electrotechnical Commission) form the specialized system for
worldwide standardization. National bodies that are members of IS0 or
IEC participate in the development of International Standards through
technical committees established by the respective organization to deal
with particular fields of technical activity. IS0 and IEC technical com-
mittees collaborate in fields of mutual interest. Other international organ-
izations, governmental and non-governmental, in liaison with IS0 and IEC,
also take part in the work.
In the field of information technology, IS0 and IEC have established a joint
technical committee, ISO/IEC JTC 1. Draft International Standards adopted
by the joint technical committee are circulated to national bodies for vot-
ing. Publication as an International Standard requires approval by at least
75 YO of the national bodies casting a vote.
International Standard iSO/IEC 11 172-3 was prepared by Joint Technical
Committee ISO/IEC JTC 1, lnformation technology, Sub-committee SC 29,
Coded representation of audio, picture, multimedia and hypermedia infor-
mation.
ISO/lEC 11 172 consists of the following parts, under the general title In-
formation technology - Coding of moving pictures and associated audio
for digital storage media at up to about 1,5 MbiVs:
- Part 1: Systems
- Part2: Video
- Part 3: Audio
- Part 4: Compliance testing
Annexes A and B form an integral part of this part of ISO/IEC 11 172. An-
nexes C, D, E, F, G and H are for information only.
iv

---------------------- Page: 4 ----------------------
O ISO/IEC
ISO/IEC 11 172-3: 1993 (E)
Introduction
Note: Readers interested in an overview of MPEG Audio should read this Introduction and then proceed to
annex A (Diagrams) (and annex C (The encoding process) before reading the normative clauses 1 and 2.
To aid in the understanding of the specification of the stored compressed bitstream and its decoding, a
sequence of encoding, storage and decoding is described.
0.1 Encoding
The encoder processes the digital audio signal and produces the compressed bitstream for storage. The
encoder algorithm is not standardized, and may use various means for encoding such as estimation of the
auditory masking threshold, qu(mtization, and scaling. However, the encoder output must be such that a
decoder conforming to the specifications of clause 2.4 will produce audio suitable for the intended
application.
1
PCM
encoded
audio samples
bitstream
32 44,l 48kHz
quanrizer
f ra
.I,:--
4 and 4 pacnllly I
4 psychoacoustic
model
t
ISOAEC 11172-3
encoder
I
ancillary data
Figure 1 -- Sketch of the basic structure of an encoder
Figure 1 illustrates the basic structure of a audio encoder. Input audio samples are fed into the encoder. The
mapping creates a filtered and subsampled represenwion of the input audio stream. The mapped samples
may be Galled either subb Layer ID). A psychoacoustic model creates a set of data to control the quantizer and coding. These data are
different depending on the actual coder implemenWion. One possibility is to use an estimation of the
masking threshold to do this quantizer control. The quantizer and coding block creates a set of coding
symbols from the mapped input samples. Again, this block can depend on the encoding system. The block
'frame packing' assembles the actual bitstream from the output &zta of the other blocks, and adds other
information (e.g. error correction) if necessary.
There are four different modes possible, single chmnel, dual channel (two independent audio signals coded
within one bitstrean), stereo (left and right signals of a stereo pair coded within one bitstream), and Joint
Stereo (left and right signals of a stereo pair coded within one bitstrean with the stereo irrelevancy and
redundancy exploited).
V

---------------------- Page: 5 ----------------------
ISOAEC 11 172-3: 1993 (E)
O ISOAEC
0.2 Layers
Depending on the application, different layers of the coding system with increasing encoder complexity and
performance can be used. An ISOAEC 11172-3 Audio Layer N decoder is able to decode bitstream data
which has been encoded in Layer N and all layers below N.
Layer I
This layer contains the basic mapping of the digital audio input into 32 subbands, fixed segmentation to
format the data into blocks, a psychoacoustic model to determine the adaptive bit allocation, and
quantization using block companding and formatting. The theoretical minimum encoding/decoding delay for
Layer I is about 19 ms.
Layer JI
This layer provides additional coding of bit allocation, scalefactors and samples. Different framing is used.
The theoretical minimum encoding/decoding delay for Layer II is about 35 ms.
Layer III
This layer introduces inmased frequency resolution based on a hybrid filterb (nonuniform) quantizer, adaptive segmentation and entropy coding of the quantized values. The theoretical
minimum encoding/decoding delay for Layer III is about 59 ms.
Joint Stereo coding ~a~i be added as an additional feature to any of the layers.
0.3 Storage
Various streams of encoded video, encoded audio, synchronization data, systems data and auxiliary data may
be stored together on a storage medium. Editing of the audio will be easier if the edit point is constrained to
coincide with an addressable point.
Access to storage may involve remote access over a communication system. Access is assumed to be
controlled by a functional unit other th,an the audio decoder itself. This control unit accepts user ~omm~ands,
reads and interprets dm base structure information, reads the stored information from the media,
demultiplexes non-audio information aid passes the stored audio bitstream to the audio decoder at the
required rate.
0.4 Decoding
The decoder accepts the compressed audio bitstream in the syntax defined in 2.4.1, decodes the data elements
according to 2.4.2, and uses the information to produce digital audio output according to 2.4.3.
I I PCM
audio samples
32 44,l 48kHz
bitstream encoded I n n I I
trame inverse
b
reconstruction
unpacking mapping
1-1- -1
ISOAEC 1 1172-3 decoder
I
I I
ancillary data
Figure 2 -- Sketch of the basic structure of a decoder
Figure 2 illustrates the basic smcture of a audio decoder. Bitstrerun dm is fed into the decoder. The
bitstream unpacking and decoding block does error detection if error-check is applied in the encoder (see
2.4.2.4). The bitstream &?ta are unpacked to recover the various pieces of information. The
reconstruction block reconstructs the quantized version of the set of mapped samples. The inverse
mapping transforms these mapped samples back into uniform PCM.
vi

---------------------- Page: 6 ----------------------
INTERNATIONAL STANDARD ISoAEC ISO/IEC 11 172-3: 1993 (E)
Information technology - Coding of moving
pictures and associated audio for digital storage
media at up to about 1,5 Mbit/s -
Part 3:
Audio
Section 1: General
1.1 Scope
This part of ISOmEC 11172 specifies the coded representation of high quality audio for storage media and
the method for decoding of high quality audio sigwils. The input of the encoder and the output of the decoder
are compatible with existing PCM standards such as standard Compact Disc and Digital Audio Tape.
This part of the ISO/IEC 11 172 is intended for application to digital storage media providing a total
continuous transfer rate of about 1,s Mbits/sec for both audio and video bitstreams, such as CD, DAT and
magnetic hard disc. The storage media irt?y either be connected directly to the decoder, or via other means
such as communication lines and the ISO/IEC 11 172 multiplexed stream defined in ISO/IEC 11 172-1.
This p'art of ISO/IEC 11 172 is intended for sampling rates of 32 kHz, 44,l kHz, and 48 kHz.
1 .2 Normative references
The following International Standards contain provisions which, through reference in this text, constitute
provisions of this part of ISO/IEC 11 172. At the time of publication, the editions indicated were valid.
All standards are subject to revision, and parties to agreements based on this part of ISOAEC 11 172 are
encouraged to investigate the possibility of applying the most recent editions of the standards indicated
below. Meinbers of IEC aid IS0 maintzn registers of currently valid International Standards.
ISOAEC 11172-1:1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 Mbith - Part I System.
ISO/IEC 11 172-2: 1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,s Mbids - Part 2: Video.
CCIR Recommendition 601-2 Encoding parameters of digital television for studios.
CCIR Report 624-4 Characteristics of systems for monochrome and colour television.
CCIR Recommendation 648 Recording of audio signals.
CCIR Report 955-2 Sound broadcasting by satellite for portable and mobile receivers, including Annex IV
Surnmary description of Advanced Digital System II.
CCIn Recommendation J.17 Pre-emphasis used on Sound-Programme Circuits.
IEEE Draft Stmdaud P1180/D2 1990 Specijïcation for the irnplemntation of 8x 8 inverse discrete cosine
transfonn ".
IEC publication 908:1987 CD Digital Audio System.

---------------------- Page: 7 ----------------------
ISO/IEC 11 172-3: 1993 (E)
O ISO/IEC
Section 2: Technical elements
2.1 Definitions
For the purposes of ISO/IEC 11 172, the following definitions apply. If specific to a part, this is noted in
square brackets.
2.1.1 ac coefficient [video]: Any DCT coefficient for which the frequency in one or both dimensions
is non-zero.
2.1.2 access unit [system]: In the case of compressed audio an access unit is an audio access unit. In
the case of compressed video an access unit is the coded representation of a picture.
2.1.3 adaptive segmentation [audio]: A subdivision of the digital representation of an audio signal
in variable segments of time.
2.1.4 adaptive bit allocation [audio]: The assignment of bits to subbands in a time and frequency
varying fashion according to a psychoacoustic model.
2.1.5 adaptive noise allocation [audio]: The assignment of coding noise to frequency bands in a
time and frequency varying fashion according to a psychoacoustic model.
2.1.6 alias [audio]: Mirrored signal component resulting from sub-Nyquist sampling.
2.1.7 analysis filterbank [audio]: Filterbank in the encoder that transforms a broadband PCM audio
signal into a set of subsampled subband samples.
2.1.8 audio access unit [audio]: For Layers I and II an audio access unit is defined as the smallest
part of the encoded bitstream which GQI be decoded by itself, where decoded means "fully recoiistructed
sound". For Layer III an audio access unit is part of the bitsue'm that is decodable with the use of
previously acquired main information.
2.1.9 audio buffer [audio]: A buffer in the system Luget decoder for storage of compressed audio data.
2.1.10 audio sequence [audio]: A non-interrupted series of audio frames in which the following
parameters are not changed:
-ID
- Layer
- Sampling Frequency
- For Layer I and II: Bitrate index
2.1.11 backward motion vector [video]: A motion vector that is used for motion compensation
from a reference picture at a later time in display order.
2.1.12 Bark [audio]: LJnit of critical band rate. The Bark scale is a non-linear mapping of the frequency
scale over the audio rcange closely corresponding with the frequency selectivity of the human ear across the
band.
2.1.13 bidirectionally predictive-coded picture; B-picture [video]: A picture that is coded
using motion compensated prediction from a past and/or future reference picture.
2.1.14 bitrate: The rate at which the compressed bitstrean is delivered from the storage medium to the
input of a decoder.
2.1.15 block companding [audio]: Normalizing of the digitxl representation of an audio signal
within a certain time period.
2.1.16 block [video]: An 8-row by 8-column orthogonal block of pels.
2.1.17 bound [audio]: The lowest subband in which intensity stereo coding is used.
2

---------------------- Page: 8 ----------------------
O ISO/IEC
ISOAEC 11172-3: 1993 (E)
2.1.18 byte aligned: A bit in a coded bitstream is byte-aligned if its position is a multiple of &bits
from the fvst bit in the stream.
2.1.19 byte: Sequence of %bits.
2.1.20 channel: A digital medium that stores or transports an ISO/IEC 11 172 stream.
2.1.21 channel [audio]: The left and right channels of a stereo signal
2.1.22 chrominance (component) [video]: A matrix, block or single pel representing one of the
two colour difference signals related to the primary colours in the manner defined in CCIR Rec 601, The
used for the colour difference signals are Cr and Cb.
symbols
2.1.23 coded audio bitstream [audio]: A coded representation of an audio signal as specified in this
part of ISOilEC 11 172.
2.1.24 coded video bitstream [video]: A coded represenLition of a series of one or more pictures as
specified in ISOIIEC 1 1 172-2.
2.125 coded order [video]: The order in which the pictures are stored and decoded. This order is not
necessarily the same as the display order.
2.1.26 coded representation: A &?ta element as represented in its encoded form.
2.1.27 coding parameters [video]: The set of user-definable parameters that characterize a coded video
bitstream. Bitstreams are characterised by coding paraneters. Decoders (?re chatacterised by the bitstreams
that they are capable of decoding.
2.1.28 component [video]: A matrix, block or single pel from one of the three matrices (luminance
and two chrominaice) that make up a picture.
2.1.29 compression: Reduction in the number of bits used to represent an item of data.
2.1.30 constant bitrate coded video [video]: A compressed video bitstream with a constant
average bitrate.
2.1.31 constant bitrate: Operation where the bitrate is constant from start to finish of the compressed
bits Ueam.
2.1.32 constrained parameters [video]: The values of the set of coding parameters defined in
Of ISO/IEC 11 172-2.
2.4.3.2
2.1.33 constrained system parameter stream (CSPS) [system]: An ISO/IEC 11 172
multiplexed stream for which the constraints defined in 2.4.6 of ISO/IEC 11 172-1 apply.
2.1.34 CRC: Cyclic redundancy code.
2.1.35 critical band rate [audio]: Psychoacoustic function of frequency. At a given audible
frequency it is proportional to the number of critical bands below that frequency. The units of the critical
band rate scale are Barks.
2.1.36 critical band [audio]: Psychoacoustic measure in the spectral domain which corresponds to the
frequency selectivity of the human ear. This selectivity is expressed in Bark.
2.1.37 data element: An item of data as represented before encoding aid after decoding.
2.138 dc-coefficient [video]: The DCT coefficient for which the frequency is zero in both
dimensions.
3

---------------------- Page: 9 ----------------------
1 ISO/IEC 11172-3: 1993 (E)
O ISO/IEC
1
2.1.39 dc-coded picture; D-picture [video]: A picture that is coded using only information from
itself. Of the DCT coefficients in the coded representation, only the dc-coefficients are present.
2.1.40 DCT coefficient: The amplitude of a specific cosine basis function.
2.1.41 decoded stream: The decoded reconstruction of a compressed bitstream.
2.1.42 decoder input buffer [video]: The first-in first-out (FIFO) buffer specified in the video
buffering verifier.
2.1.43 decoder input rate [video]: The &U rate specified in the video buffering verifier and encoded
in the coded video bitstream.
2.1.44 decoder: An embodiment of a decoding process.
2.1.45 decoding (process): The process defined in ISO/uEC 11172 that reads an input coded bitstream
and produces decoded pictures or audio samples.
2.1.46 decoding time-stamp; DTS [system]: A field that may be present in a packet header that
indicates the time that an access unit is decoded in the system target decoder.
2.1.47 de-emphasis [audio]: Filtering applied to an audio signal after storage or transmission to undo
a linear distortion due to emphasis.
2.1.48 dequantization [video]: The process of rescaling the qu representation in the bitstream has been decoded and before they are presented to the inverse DCT.
2.1.49 digital storage media; DSM: A digital storage or transmission device or system.
2.1.50 discrete cosine transform; DCT [video]: Either the forward discrete cosine transform or the
inverse discrete cosine transform. The DCT is an invertible, discrete orthogonal misformation. The
inverse DCT is defined in annex A of ISO/IEC 11172-2.
2.1.51 display order [video]: The order in which the decoded pictures should be displayed. Normally
this is the me order in which they were presented at the input of the encoder.
2.1.52 dual channel mode [audio]: A mode, where two audio chilnnels with independent programme
contents (e.g. bilingual) are encoded within one bitstream. The coding process is the same as for the stereo
mode.
2.1.53 editing: The process by which one or more compressed bitstreams are manipulated to produce a
new compressed bitstream. Conforming edited bitstreams must meet the requirements defined in this
ISO/IEC 11172.
2.1.54 elementary stream [system]: A generic tenn for one of the coded video, coded audio or other
coded bitstmms.
2.1.55 emphasis [audio]: Filtering applied to improve the signal-to-noise ratio at high frequencies.
2.1.56 encoder: An embodiment of (an encoding process.
2.1.57 encoding (process): A process, not specified in ISO/IEC 11172, that reads a stream of input
pictures or audio samples and produces a valid coded bitstream as defined in ISO/IEC 11 172.
2.1.58 entropy coding: Variable length lossless coding of the digital representltion of a signal to
reduce redundancy.
2.1.59 fast forward playback [video]: The process of displaying a sequence, or parts of a sequence,
of pictures in display-order faster than real-time.
4

---------------------- Page: 10 ----------------------
O ISOAEC
ISO/IEC 1 11 72-3: 1993 (E)
2.1.60 FFT: Fast Fourier Transformation. A fast algorithm for performing a discrete Fourier transform
(an orthogonal transform).
2.1.61 filterbank [audio]: A set of band-pass filters covering the entire audio frequency range.
2.1.62 fiied segmentation [audio]: A subdivision of the digital representation of an audio signal
into fixed segments of time.
2.1.63 forbidden: The term "forbidden" when used in the clauses defining the coded bitstream indicates
that the value shall never be used. This is usually to avoid emulation of stut codes.
2.1.64 forced updating [video]: The process by which macroblocks are intra-coded from time-to-time
to ensure that mismatch errors between the inverse DCT processes in encoders and decoders cannot build up
excessively.
2.1.65 forward motion vector [video]: A motion vector that is used for motion compensation from
a reference picture at an earlier time in display order.
2.1.66 frame [audio]: A pIvt of the audio signal that corresponds to audio PCM &unples from an
Audio Access Unit.
2.1.67 free format [audio]: Any bitrate other than the defined bitrates that is less than the maximum
valid bitrate for each layer.
2.1.68 future reference picture [video]: The future reference picture is the reference picture that
occurs at a later tirne than the current picture in display order.
2.1.69 granules [Layer II] [audio]: The set of 3 consecutive subband s'amples from all 32 subbands
that are considered together before quantization. They correspond to 96 PCM samples.
2.1.70 granules [Layer III] [audio]: 576 frequency lines that carry their own side information.
2.1.71 group of pictures [video]: A series of one or more coded pictures intended to assist random
access. The group of pictures is one of the layers in the coding syntax defined in ISO/IEC 11172-2.
2.1.72 Hann window [audio]: A time function applied sample-by-sample to a block of audio samples
before Fourier transformation.
2.1.73 Huffman coding: A specific method for entropy coding.
2.1.74 hybrid filterbank [audio]: A serial combination of subband filterbank and MDCT.
2.1.75 IMDCT [audio]: Inverse Modified Discrete Cosine Transform.
2.1.76 intensity stereo [audio]: A method of exploiting stereo irrelevance or redundancy in
stereophonic audio prograrmnes based on retaining at high frequencies only the energy envelope of the right
and left channels.
2.1.77 interlace [video]: The property of conventional television pictures where alternating lines of
the picture represent different instances in time.
2.1.78 intra coding [video]: Coding of a macroblock or picture that uses information only from that
macroblock or picture.
2.1.79 intra-coded picture; I-picture [video]: A picture coded using information only from itself.
2.1.80 ISO/IEC 11172 (multiplexed) stream [system]: A bitstream composed of zero or more
elementary streams combined in the manner defined in ISO/IEC 11172-1.
5

---------------------- Page: 11 ----------------------
ISOAEC 11 172-3: 1993 (E)
O ISOAEC
2.1.81 joint stereo coding [audio]: Any method that exploits stereophonic irrelevance or
stereophonic redundancy.
2.1.82 joint stereo mode [audio]: A mode of the audio coding algorithm using joint stereo coding.
2.1.83 layer [audio]: One of the levels in the coding hierarchy of the audio system defined in this part
of ISO/IEC 11172.
2.1.84 layer [video and systems]: One of the levels in the data hierarchy of the video and system
1 1172-1 and ISO/IEC 11 172-2.
specifications defined in ISOIIEC
2.1.85 luminance (component) [video]: A matrix, block or single pel representing a monochrome
representation of the signal and related to the primary colours in the manner defined in CCIR Rec 601. The
symbol used for luminance is Y.
2.1.86 macroblock [video]: The four 8 by 8 blocks of luminance data and the two corresponding 8 by
8 blocks of chrominance data coming from a 16 by 16 section of the luminance component of the picture.
Macroblock is sometimes used to refer to the pel data and sometimes to the coded representation of the pel
values and other data elements defined in the inacroblock layer of the syntax defined in ISOIIEC 11 172-2.
The ustige is clear from the context.
2.1.87 mapping [audio]: Conversion of an audio signal from time to frequency domain by subband
filtering and/or by MDCT.
2.1.88 masking [audio]: A property of the human auditory system by which mi audio signal c perceived in the presence of another audio signal .
2.1.89 masking threshold [audio]: A function in frequency and time below which an audio signal
cannot be perceived by the human auditory system.
2.1.90 MDCT [audio]: Modified Discrete Cosine Transform.
2.1.91 motion compensation [video]: The use of motion vectors to improve the efficiency of the
prediction of pel values. The prediction uses motion vectors to provide offsets into the past andor future
reference pictures containing previously decoded pel values that are used to form the prediction error signal.
2.1.92 motion estimation [video]: The process of estimating motion vectors during the encoding
process.
2.1.93 motion vector [video]: A two-dimensional vector used for motion compensation that provides
an offset from the coordinate position in the current picture to the coordinates in a reference picture.
2.1.94 MS stereo [audio]: A method of exploiting stereo irrelevance or redundancy in stereophonic
audio programmes based on coding the sum and difference signal instead of the left and right channels.
2.1.95 non-intra coding [video]: Coding of a macroblock or picture that uses information both from
itself and from macroblocks and pictures occurring at other times.
2.1.96 non-tonal component [audio]: A noise-like component of an audio signal.
2.1.97 Nyquist sampling: Sampling at or above twice the m 2.1.98 pack [system]: A pack consists of a pack header followed by one or more packets. It is a layer
in the system coding syntax described in ISO/IEC 11172-1.
2.1.99 packet data [system]: Contiguous bytes of data from an elementmy stream present in a packet.
2.1.100 packet header [system]: The data structure used to convey information about the elementary
stream data contained in the packet data.
6

---------------------- Page: 12 ----------------------
O ISO/IEC
ISO/IEC 11 172-3: 1993 (E)
2.1.101 packet [system]: A packet consists of a header followed by a number of contiguous bytes
from an elementary data stream. It is a layer in the system coding syntax described in ISO/IEC 11172-1.
2.1.102 padding [audio]: A method to adjust the average length in time of an audio frame to the
duration of the corresponding PCM samples, by conditionally adding a slot to the audio frame.
2.1.103 past reference picture [video]: The past reference picture is the reference picture that occurs
at an earlier time than the current picture in display order.
2.1.104 pel aspect ratio [video]: The ratio of the nominal vertical height of pel on the display to its
nominal horizontal width.
2.1.105 pel [video]: Picture element.
2.1.106 picture period [video]: The reciprocal of the picture rate.
2.1.107 picture rate [video]: The nominal rate at which pictures should be output from the decoding
process.
2.1.108 picture [video]: Source, coded or reconstructed image data. A source or reconstructed picture
consists of three rectangular matrices of 8-bit numbers representing the luminance and two chrominance
signals. The Picture layer is one of the layers in the coding syntax defined in ISO/IEC 11 172-2. Note that
the term "picture" is always used in ISO/IEC 11 172 in preference to the terms field or fmne.
2.1.109 polyphase filterbank [audio]: A set of equal b'andwidth filters with special phase
interrelationships, allowing for an efficient implementation of the filterbank.
2.1.110 prediction [video]: The use of a predictor to provide an estimate of the pel value or data
element currently being decoded.
2.1.111 predictive-coded picture; P-picture [video]: A picture that is coded using motion
compensated prediction from the past reference picture.
2.1.112 prediction error [video]: The difference between the actual value of a pel or data element and
its predictor.
2.1.113 predictor [video]: A linear combination of previously decoded pel values or data elements.
2.1.114 presentation time-stamp; PTS [system]: A field that may be present in a packet header
that a presentation unit is presented in the system target decoder.
that indicates the time
2.1.115 presentation unit; PU [system]: A decoded audio access unit or a decoded picture.
2.1.116 psychoacoustic model [audio]: A mathematical model of the masking behaviour of the
human auditory system.
2.1.117 quantization matrix [video]: A set of sixty-four 8-bit values used by the deq
...

NORME ISO/CEI
INTERNATIONALE 11172-3
Première édition
1993-08-01
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ Ii5 Mbit/s -
Partie 3:
Audio
Information technology - Coding of moving pictures and associated
audio for digital storage media at up to about 1,5 Mbit/s -
Part 3: Audio
Numéro de référence
lSO/CEI 1 II 72-3:1993(F)

---------------------- Page: 1 ----------------------
ISO/CEI 11172-3:1993 (F)
Sommaire
Page
. . .
111
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Avant-propos
iv
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 1 : Généralités
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Objet
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Références normatives
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 2 : Eléments techniques
2
...........................................................................................
2.1 Définitions
11
...................................................................
2.2 Symboles et abréviations
................. 14
23 . Méthode de description de la syntaxe du train binaire
16
2.4 Spécifications .
Annexes
44
A Organigrammes et schémas .
51
B Tables .
74
C Processus de codage .
122
D Modèles psychoacoustiques .
153
E Sensibilité des bits aux erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
155
F Dissimulation des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
G
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
H Liste des détenteurs de brevets
0 ISO/CEI 1993
Droits de reproduction reservés. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii

---------------------- Page: 2 ----------------------
o ISO/CEI ISO/CEI 11172-31993 (F)
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de US0 et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec 1’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, 1’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote.
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-3 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ I,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A et B font partie intégrante de la présente partie de
l’ISO/CEI 11172. Les annexes C, D, E , F, G et H sont données uniquement à titre
d’information.
. . .
III

---------------------- Page: 3 ----------------------
0 ISOKEI
ISO/CEI 11172-31993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Audio MPEG peut
lire cette introduction, puis passer à l’annexe A (Organigrammes et schémas) et à l’annexe C
(Processus de codage), avant de revenir aux articles normatifs 1 et 2.
La description du codage, du stockage et du décodage d’une séquence audio, donnée ci-après, est
destinée à faciliter la compréhension de la spécification du train binaire comprimé stocké et de son
décodage.
0.1
Codage
Le codeur traite le signal audio numérique et génère le train binaire comprimé à stocker.
L’algorithme du codeur n’est pas normalisé, ce dernier pouvant utiliser divers moyens de codage tels
l’estimation du seuil de masquage auditif, la quantification et la mise à l’échelle. La sortie du codeur
doit cependant être telle qu’un décodeur conforme à la spécification de 2.4 produise un signal audio
approprié à l’application prévue.
train
échantillons
4
.
\ f
audio MIC binaire
32, 41,l 48 kHz codé
quantification
*, paquetage
mappage
et
4
modèle
psycho-
codeur
ISO/CEI 11172
données auxilliaires
Figure 1 - Schéma de la structure de base d’un codeur
La figure 1 représente la structure de base d’un codeur audio. Les échantillons audio d’entrée sont
introduits dans le décodeur. Le bloc “mappage” crée une représentation filtrée et sous-échantillonnée
du train audio d’entrée. Les échantillons mappés sont appelés échantillons en sous-bande (dans la
Couche 1 ou II, voir ci-après) ou échantillons en sous-bande transformés (dans la Couche III). Le
bloc “quantification et codage” est contrôlé par un ensemble de données généré par un “modèle
psychoacoustique”. Ces données diffèrent selon la réalisation effective du codeur. Une possibilité est
d’utiliser une estimation du seuil de masquage pour opérer le contrôle de la quantification. Le bloc
“quantification et codage” génère un ensemble de symboles de codage à partir des échantillons
d’entrée mappés. La réalisation de ce bloc dépend, elle aussi, du système de codage. Le bloc
“paquetage des trames” construit le train binaire réel à partir des données de sortie des autres blocs,
en leur ajoutant, si nécessaire, d’autres informations (par exemple, de correction d’erreur).
iv

---------------------- Page: 4 ----------------------
o lSO/CEI ISO/CEI 1117203:1993 (F)
Quatre modes différents sont possibles : à un seul canal, à deux canaux (deux signaux audio
indépendants codés en un même train binaire) stéréo (signaux gauche et droit des deux voies stéréo
codés en un même train binaire) et stéréo combiné (signaux gauche et droit des deux voies stéréo,
codés en un même train binaire, en exploitant la redondance et la présence d’éléments non pertinents
pour la stéréo).
02 . Couches
Selon l’application, différentes couches du système de codage, de complexité et de performances de
codage croissantes, peuvent être utilisées. Un décodeur de la Couche audio N ISO/CEI 11172-3 est
capable de décoder les données du train binaire qui ont été codées dans la Couche N et dans toutes
les couches de niveaux inférieurs.
Couche 1:
Cette couche contient le mappage de base de l’entrée audio numérique en 32 sous-bandes, la
segmentation fUre de formatage des données en blocs, un modèle psycho-acoustique de détermination
de l’affectation binaire adaptative, et la quantification par compression-expansion et formatage en
blocs. Le retard minimum théorique de codage/décodage de la Couche 1 est d’environ 19 ms.
Couche II :
Cette couche assure un codage additionnel de l’affectation binaire, des facteurs d’échelle et des
échantillons. Un tramage différent est utilisé. Le retard minimum théorique de codage/décodage de
la Couche II est d’environ 35 ms.
Couche III :
Cette couche introduit une augmentation de résolution en fréquence, basée sur un banc de filtres
hybride. Elle ajoute une quantifrcation différente (non-uniforme), une segmentation adaptative et un
codage entropique des valeurs quantifiées.Le retard minimum théorique de codage/décodage de la
Couche III est d’environ 59 ms.
Le codage stéréo combiné peut être ajouté, comme fonction additionnelle, à n’importe quelle couche.
03 . Stockage
Divers trains binaires vidéo codés, audio codés, de données de synchronisation, de données système
et de données annexes peuvent être enregistrés ensemble sur un support de stockage. L’édition du
signal audio est facilitée si le point de raccord est tenu de coïncider avec un point adressage.
L’accès au support de stockage peut impliquer un accès à distance par un système de communication.
L’accès est supposé contrôlé par une unité fonctionnelle différente du décodeur audio proprement
dit. Cette unité de contrôle accepte des commandes de l’utilisateur, lit et interprète les informations
structurelles d’une base de données, lit les informations stockées sur le support, démultiplexe les
informations non-audio et communique, au débit requis, le train binaire audio stocké, au décodeur
audio.
.
04
Le décodeur reçoit le train binaire audio comprimé selon la syntaxe définie en 2.4.1, décode les
éléments de données selon 2.4.2 et utilise les informations pour produire la sortie audio numérique,
selon 2.4.3.
V

---------------------- Page: 5 ----------------------
ISO/CEI 11172-3:1993 (F) o ISO/CEI
échantillons
train
I
. \
f , f
audio MIC
binaire
32, 41,l 48 kHz
décorticage
codé
mappage
I
des a reconstruction L b -
inverse
trames
\ l A t l
décodeur ISO/CEI 11172
données auxilliaires
f
Figure 2 - Schéma de la structure de base d’un décodeur
La figure 2 représente la structure de base d’un codeur audio. Les données du train binaire entrent
dans le décodeur. Le bloc “décorticage et décodage du train binaire” procède à une détection d’erreur
si un mot de contrôle d’erreur a été généré par le codeur (voir 2.4.2.4). Les données du train binaire
sont décortiquées pour récupérer les divers éléments d’information. Le bloc “reconstruction”
reconstruit la version quantifiée de l’ensemble des échantillons mappés. Le bloc “mappage inverse”
retransforme ces échantillons mappés en une MIC uniforme.

---------------------- Page: 6 ----------------------
NORME INTERNATIONALE @ IsO/CEI ISO/CEI 11172-3:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 lVlbit/s -
Partie 3:
Audio
Section 1 : Généralités
11 . Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée d’un signal audio de haute
qualité, pour son enregistrement sur les supports de stockage numérique, ainsi que le processus de
décodage. L’entrée du codeur et la sortie du décodeur sont compatibles avec les normes MIC
existantes, telles que celles des disques compacts (CD) et des bandes magnétiques audio numériques
(DAT).
La présente partie de l’ISO/CEI 11172 est destinée à être appliquée à un support de stockage
numérique assurant un débit de transfert total continu d’environ 1,5 Mbit/s des trains binaires audio
et vidéo, tels que les CD, les DAT et les disques durs magnétiques. Le support de stockage peut être
connecté directement au décodeur, ou par l’intermédiaire d’autres moyens tels que des lignes de
communication transportant le train binaire multiplexé ISO 11172 défini dans l’ISO/CEI 111724. La
présente partie de l’ISO/CEI 11172 est prévue pour des fréquences d’échantillonnage de 32 kHz,
44,l kHz et 48 kHz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172.1:1993, Technologies de l’information -
Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-2:1993, Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 2 : vidéo.
Recommandation CCIR 601-2, Paramètres de codage de télévision numérique pour studios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodifitsion du son par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué II.
Recommandation CCITT 3.17, Préaccentuation utilisée sur les circuits du programme son.
Projet de norme IEEE PllSO/D2 1990, Spécifications de mise en oeuvre de la transfomzation en
cosinus discrète inverse 8x8.
CE1 908:1987, Système audio numérique CD.

---------------------- Page: 7 ----------------------
ISO/CEI 11172031993 (F) 0 ISO/CEI
Section 2 : Eléments techniques
21 l Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
en anglais est entre crochets maigres, en italiques. La partie à laquelle une définition est
éventuellement spécifique est indiquée entre crochets gras.
: Tout coefficient DCT dont la fréquence est non
2.1.1 coefficient AC [ac coeficient] [vidéo]
nulle dans au moins une dimension.
2.12 unité d’accès [access unit] [système] : Unité d’accès audio, dans le cas d’un signal audio
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4
affectation binaire adaptative [adaptative bit allocation] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocation] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [alias] [audio] : Composante en miroir du résultant d’un échantillonnage à une
signal,
fréquence inférieure à la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [analysis jilterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches 1 et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une “reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio bujfer] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
2.1.10 séquence audio [audio sequence] [audio] : Suite ininterrompue de trames audio dans
laquelle les paramètres suivants sont constants :
- ID,
couche,
- fréquence d’échantillonnage,
- pour les Couches 1 et II : indice de débit binaire.
2.1.11 vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilisé
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taux de bande critique (tonie). L’échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement à la
sélectivité en fréquence de l’oreille humaine sur la bande.

---------------------- Page: 8 ----------------------
0 ISO/CEI ISO/CEI 1117203:1993 (F)
image codée par prédiction bidirectionnelle ; image B [bidirectionall’y predictive-coded
2.1.13
picture; B-pictzue] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
2.1.14 débit binaire [bitrate] : Debit auquel le train binaire comprimé est reçu du support de
stockage à l’entree d’un décodeur.
2.1.1s compression-expansion par blocs [block companding] [audio] : Normalisation de la
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
2.1.16 bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.17 sous-bande limite [borrnd] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensité est utilise.
2.1.18 calé à l’octet [byte aZi@ed] : Un bit d’un train binaire codé est calé à l’octet si sa position à
partir du premier bit de ce train binaire, est un multiple de 8 bits.
2.1.19 octet [byte] : Suite de huit bits.
2.1.20 canal [channel] : Support numérique qui stocke ou transporte un train binaire
ISO/CEI 11172.
2.1.21 voie [charmer] [audio] : Voie gauche ou droite d’un signal stéréo.
2.1.22 chrominance (composante) [chrominance (component)] [vidéo] : Matrice, bloc ou
échantillon de pixels représentant un des deux signaux de différences de couleur associes aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
2.1.23 train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d’un signal
audio, telle que spécifiée dans la présente partie de l’ISO/CEI 11172.
2.1.24 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans l’ISO/CEI 11172-2.
Ordre dans lequel les images sont stockées et
2.1025 ordre de codage [coded order] [vidéo] :
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
2.1.26 représentation codée [coded representation] [vidéo] : Elément de données, tel que
représenté dans sa forme codée.
2.1.27 paramètres de codage [codingparameters] [vidéo] : L’ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.1.28 composante [comportent] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.1.29 compression [compression] : Réduction du nombre de bits utilisés pour représenter
élément de données.
2.130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [cowtrained parameters] [vidéo] : Valeurs des paramètres de codage
de l’ensemble défini en 2.4.3.2 de l’ISO/CEI 11172-2.

---------------------- Page: 9 ----------------------
0 ISO/CEI
ISO/CEI 11172-33 993 (F)
2.133 train binaire à paramètres système. restreints (CSPS) [constrained system parameter stream
(CSPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6. de l’ISO/CEI 11172-1.
2.134 CRC [Cyclic redundancy code; CRC] : Code à redondance cyclique.
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
bande critique [critical band] [audio] : Mesure psychoacoustique relevant du domaine
2.136
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
çoefflcient DC [dc-coeficient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
2.138
les deux dimensions.
image codée DC ; image D [dc-coded picture; D-picture] [vidéo] : Image codée en utilisant
2.139
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DCT coeff7cient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded stream] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input buffer] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidéo codé.
2.1.44 décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decoding(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire codé d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage ; DTS [decoding rime-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Décodeur de Référence Système.
2.1.47
désaccentuation [de-empltasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [dequantization] [vidéo] : Processus de remise à l’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storage media; DSM] : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50 transformation en cosinus discrète ;
DCT [discrete cosinus transfomz; DCTJ [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A de
l’ISO/CEI 11172-2.

---------------------- Page: 10 ----------------------
o lSO/CEI ISO/CEI 11172-3: 1993 (F)
ordre d’affkhage [display order] [vidéo] : Ordre dans lequel les images décodées devraient
2.1.51
être affichées, normalement le même que celui dans lequel elles ont été présentées à l’entrée du
codeur.
2.1.52
mode à deux canaux [dual channel mode] [audio] : Mode dans lequel deux canaux audio
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
pour produire un nouveau train binaire comprimé. Les trains binaires édités conformes doivent
répondre aux spécifications définies dans l’ISO/CEI 11172.
: Terme générique pour désigner
2.1.54 train binaire élémentaire [elementav stream] [système]
un des trains binaires binaires codés vidéo, audio ou autres.
2.1.55 accentuation [empJzasis] [audio] : Filtrage appliqué à un signal audio avant stockage ou
transmission, pour améliorer le rapport signal/bruit aux fréquences élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans l’ISO/CEI 11172.
2.1.58 codage entropique [entropy coding] : Codage de longueur variable, bruit, de la
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59
accéléré avant Ifast forward playback] [vidéo] : Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fast Fourier Transfonit; FFTj : Transformation de Fourier rapide. Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres Blterbank] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62
segmentation fixe [frxed segmentation] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fixes.
2.1.63 interdit(e) [forbidden] : Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, généralement pour éviter l’émulation de
codes de début.
2.1.64 rafraîchissement systématique Iforced updating] [vidéo] : Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant üo,ward motion vecto] [vidéo] : Vecteur mouvement utilisé pour
la compensation du mouvement, d’après une image de référence, située à un instant antérieur dans
l’ordre d’affichage.
2.1.66 trame vrame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67 format libre vree format] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans l’ISO/CEI 11172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de référence future plture reference image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.

---------------------- Page: 11 ----------------------
lSO/CEl 11172~31993 (F) 0 lSO/CEI
2.1.69 granules [Couche II] [granules [Layer 1111 [audio] : L’ensemble des 3 échantillons
consécutifs en sous-bande, pour les 32 sous-bandes considérées dans leur ensemble avant
quantification. Ils correspondent à 96 échantillons MIC.
2.1.70 granules [Couche III] [granules [Layer 111]1 [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
2.1.71 groupe d’images igroup of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter l’accès direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans l’ISO/CEI 11172-2.
2.1.72
fenêtre de Hann [Hann window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73 codage de Huffman [Huflnan coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [Itybrid jZterbank] [audio] : Combinaison en série d’un banc de
filtres en sous-bande et d’une MDCT.
2.1.75 IMDCT [hverse Modified Discrete Cosinus Transfonn] [audio] : Transformation en cosinus
discrète modifiée inverse.
2.1.76 stéréo intensité [intensity strereo] [audio] : Méthode d’exploitation du caractère non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [interlace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [intra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image 1 [intra-coded picture; I-picture] [vidéo] : Image codée
...

NORME ISO/CEI
INTERNATIONALE 11172-3
Première édition
1993-08-01
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ Ii5 Mbit/s -
Partie 3:
Audio
Information technology - Coding of moving pictures and associated
audio for digital storage media at up to about 1,5 Mbit/s -
Part 3: Audio
Numéro de référence
lSO/CEI 1 II 72-3:1993(F)

---------------------- Page: 1 ----------------------
ISO/CEI 11172-3:1993 (F)
Sommaire
Page
. . .
111
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Avant-propos
iv
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 1 : Généralités
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Objet
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Références normatives
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 2 : Eléments techniques
2
...........................................................................................
2.1 Définitions
11
...................................................................
2.2 Symboles et abréviations
................. 14
23 . Méthode de description de la syntaxe du train binaire
16
2.4 Spécifications .
Annexes
44
A Organigrammes et schémas .
51
B Tables .
74
C Processus de codage .
122
D Modèles psychoacoustiques .
153
E Sensibilité des bits aux erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
155
F Dissimulation des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
G
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
H Liste des détenteurs de brevets
0 ISO/CEI 1993
Droits de reproduction reservés. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii

---------------------- Page: 2 ----------------------
o ISO/CEI ISO/CEI 11172-31993 (F)
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de US0 et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec 1’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, 1’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote.
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-3 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ I,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A et B font partie intégrante de la présente partie de
l’ISO/CEI 11172. Les annexes C, D, E , F, G et H sont données uniquement à titre
d’information.
. . .
III

---------------------- Page: 3 ----------------------
0 ISOKEI
ISO/CEI 11172-31993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Audio MPEG peut
lire cette introduction, puis passer à l’annexe A (Organigrammes et schémas) et à l’annexe C
(Processus de codage), avant de revenir aux articles normatifs 1 et 2.
La description du codage, du stockage et du décodage d’une séquence audio, donnée ci-après, est
destinée à faciliter la compréhension de la spécification du train binaire comprimé stocké et de son
décodage.
0.1
Codage
Le codeur traite le signal audio numérique et génère le train binaire comprimé à stocker.
L’algorithme du codeur n’est pas normalisé, ce dernier pouvant utiliser divers moyens de codage tels
l’estimation du seuil de masquage auditif, la quantification et la mise à l’échelle. La sortie du codeur
doit cependant être telle qu’un décodeur conforme à la spécification de 2.4 produise un signal audio
approprié à l’application prévue.
train
échantillons
4
.
\ f
audio MIC binaire
32, 41,l 48 kHz codé
quantification
*, paquetage
mappage
et
4
modèle
psycho-
codeur
ISO/CEI 11172
données auxilliaires
Figure 1 - Schéma de la structure de base d’un codeur
La figure 1 représente la structure de base d’un codeur audio. Les échantillons audio d’entrée sont
introduits dans le décodeur. Le bloc “mappage” crée une représentation filtrée et sous-échantillonnée
du train audio d’entrée. Les échantillons mappés sont appelés échantillons en sous-bande (dans la
Couche 1 ou II, voir ci-après) ou échantillons en sous-bande transformés (dans la Couche III). Le
bloc “quantification et codage” est contrôlé par un ensemble de données généré par un “modèle
psychoacoustique”. Ces données diffèrent selon la réalisation effective du codeur. Une possibilité est
d’utiliser une estimation du seuil de masquage pour opérer le contrôle de la quantification. Le bloc
“quantification et codage” génère un ensemble de symboles de codage à partir des échantillons
d’entrée mappés. La réalisation de ce bloc dépend, elle aussi, du système de codage. Le bloc
“paquetage des trames” construit le train binaire réel à partir des données de sortie des autres blocs,
en leur ajoutant, si nécessaire, d’autres informations (par exemple, de correction d’erreur).
iv

---------------------- Page: 4 ----------------------
o lSO/CEI ISO/CEI 1117203:1993 (F)
Quatre modes différents sont possibles : à un seul canal, à deux canaux (deux signaux audio
indépendants codés en un même train binaire) stéréo (signaux gauche et droit des deux voies stéréo
codés en un même train binaire) et stéréo combiné (signaux gauche et droit des deux voies stéréo,
codés en un même train binaire, en exploitant la redondance et la présence d’éléments non pertinents
pour la stéréo).
02 . Couches
Selon l’application, différentes couches du système de codage, de complexité et de performances de
codage croissantes, peuvent être utilisées. Un décodeur de la Couche audio N ISO/CEI 11172-3 est
capable de décoder les données du train binaire qui ont été codées dans la Couche N et dans toutes
les couches de niveaux inférieurs.
Couche 1:
Cette couche contient le mappage de base de l’entrée audio numérique en 32 sous-bandes, la
segmentation fUre de formatage des données en blocs, un modèle psycho-acoustique de détermination
de l’affectation binaire adaptative, et la quantification par compression-expansion et formatage en
blocs. Le retard minimum théorique de codage/décodage de la Couche 1 est d’environ 19 ms.
Couche II :
Cette couche assure un codage additionnel de l’affectation binaire, des facteurs d’échelle et des
échantillons. Un tramage différent est utilisé. Le retard minimum théorique de codage/décodage de
la Couche II est d’environ 35 ms.
Couche III :
Cette couche introduit une augmentation de résolution en fréquence, basée sur un banc de filtres
hybride. Elle ajoute une quantifrcation différente (non-uniforme), une segmentation adaptative et un
codage entropique des valeurs quantifiées.Le retard minimum théorique de codage/décodage de la
Couche III est d’environ 59 ms.
Le codage stéréo combiné peut être ajouté, comme fonction additionnelle, à n’importe quelle couche.
03 . Stockage
Divers trains binaires vidéo codés, audio codés, de données de synchronisation, de données système
et de données annexes peuvent être enregistrés ensemble sur un support de stockage. L’édition du
signal audio est facilitée si le point de raccord est tenu de coïncider avec un point adressage.
L’accès au support de stockage peut impliquer un accès à distance par un système de communication.
L’accès est supposé contrôlé par une unité fonctionnelle différente du décodeur audio proprement
dit. Cette unité de contrôle accepte des commandes de l’utilisateur, lit et interprète les informations
structurelles d’une base de données, lit les informations stockées sur le support, démultiplexe les
informations non-audio et communique, au débit requis, le train binaire audio stocké, au décodeur
audio.
.
04
Le décodeur reçoit le train binaire audio comprimé selon la syntaxe définie en 2.4.1, décode les
éléments de données selon 2.4.2 et utilise les informations pour produire la sortie audio numérique,
selon 2.4.3.
V

---------------------- Page: 5 ----------------------
ISO/CEI 11172-3:1993 (F) o ISO/CEI
échantillons
train
I
. \
f , f
audio MIC
binaire
32, 41,l 48 kHz
décorticage
codé
mappage
I
des a reconstruction L b -
inverse
trames
\ l A t l
décodeur ISO/CEI 11172
données auxilliaires
f
Figure 2 - Schéma de la structure de base d’un décodeur
La figure 2 représente la structure de base d’un codeur audio. Les données du train binaire entrent
dans le décodeur. Le bloc “décorticage et décodage du train binaire” procède à une détection d’erreur
si un mot de contrôle d’erreur a été généré par le codeur (voir 2.4.2.4). Les données du train binaire
sont décortiquées pour récupérer les divers éléments d’information. Le bloc “reconstruction”
reconstruit la version quantifiée de l’ensemble des échantillons mappés. Le bloc “mappage inverse”
retransforme ces échantillons mappés en une MIC uniforme.

---------------------- Page: 6 ----------------------
NORME INTERNATIONALE @ IsO/CEI ISO/CEI 11172-3:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 lVlbit/s -
Partie 3:
Audio
Section 1 : Généralités
11 . Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée d’un signal audio de haute
qualité, pour son enregistrement sur les supports de stockage numérique, ainsi que le processus de
décodage. L’entrée du codeur et la sortie du décodeur sont compatibles avec les normes MIC
existantes, telles que celles des disques compacts (CD) et des bandes magnétiques audio numériques
(DAT).
La présente partie de l’ISO/CEI 11172 est destinée à être appliquée à un support de stockage
numérique assurant un débit de transfert total continu d’environ 1,5 Mbit/s des trains binaires audio
et vidéo, tels que les CD, les DAT et les disques durs magnétiques. Le support de stockage peut être
connecté directement au décodeur, ou par l’intermédiaire d’autres moyens tels que des lignes de
communication transportant le train binaire multiplexé ISO 11172 défini dans l’ISO/CEI 111724. La
présente partie de l’ISO/CEI 11172 est prévue pour des fréquences d’échantillonnage de 32 kHz,
44,l kHz et 48 kHz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172.1:1993, Technologies de l’information -
Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-2:1993, Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 2 : vidéo.
Recommandation CCIR 601-2, Paramètres de codage de télévision numérique pour studios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodifitsion du son par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué II.
Recommandation CCITT 3.17, Préaccentuation utilisée sur les circuits du programme son.
Projet de norme IEEE PllSO/D2 1990, Spécifications de mise en oeuvre de la transfomzation en
cosinus discrète inverse 8x8.
CE1 908:1987, Système audio numérique CD.

---------------------- Page: 7 ----------------------
ISO/CEI 11172031993 (F) 0 ISO/CEI
Section 2 : Eléments techniques
21 l Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
en anglais est entre crochets maigres, en italiques. La partie à laquelle une définition est
éventuellement spécifique est indiquée entre crochets gras.
: Tout coefficient DCT dont la fréquence est non
2.1.1 coefficient AC [ac coeficient] [vidéo]
nulle dans au moins une dimension.
2.12 unité d’accès [access unit] [système] : Unité d’accès audio, dans le cas d’un signal audio
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4
affectation binaire adaptative [adaptative bit allocation] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocation] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [alias] [audio] : Composante en miroir du résultant d’un échantillonnage à une
signal,
fréquence inférieure à la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [analysis jilterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches 1 et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une “reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio bujfer] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
2.1.10 séquence audio [audio sequence] [audio] : Suite ininterrompue de trames audio dans
laquelle les paramètres suivants sont constants :
- ID,
couche,
- fréquence d’échantillonnage,
- pour les Couches 1 et II : indice de débit binaire.
2.1.11 vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilisé
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taux de bande critique (tonie). L’échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement à la
sélectivité en fréquence de l’oreille humaine sur la bande.

---------------------- Page: 8 ----------------------
0 ISO/CEI ISO/CEI 1117203:1993 (F)
image codée par prédiction bidirectionnelle ; image B [bidirectionall’y predictive-coded
2.1.13
picture; B-pictzue] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
2.1.14 débit binaire [bitrate] : Debit auquel le train binaire comprimé est reçu du support de
stockage à l’entree d’un décodeur.
2.1.1s compression-expansion par blocs [block companding] [audio] : Normalisation de la
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
2.1.16 bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.17 sous-bande limite [borrnd] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensité est utilise.
2.1.18 calé à l’octet [byte aZi@ed] : Un bit d’un train binaire codé est calé à l’octet si sa position à
partir du premier bit de ce train binaire, est un multiple de 8 bits.
2.1.19 octet [byte] : Suite de huit bits.
2.1.20 canal [channel] : Support numérique qui stocke ou transporte un train binaire
ISO/CEI 11172.
2.1.21 voie [charmer] [audio] : Voie gauche ou droite d’un signal stéréo.
2.1.22 chrominance (composante) [chrominance (component)] [vidéo] : Matrice, bloc ou
échantillon de pixels représentant un des deux signaux de différences de couleur associes aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
2.1.23 train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d’un signal
audio, telle que spécifiée dans la présente partie de l’ISO/CEI 11172.
2.1.24 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans l’ISO/CEI 11172-2.
Ordre dans lequel les images sont stockées et
2.1025 ordre de codage [coded order] [vidéo] :
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
2.1.26 représentation codée [coded representation] [vidéo] : Elément de données, tel que
représenté dans sa forme codée.
2.1.27 paramètres de codage [codingparameters] [vidéo] : L’ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.1.28 composante [comportent] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.1.29 compression [compression] : Réduction du nombre de bits utilisés pour représenter
élément de données.
2.130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [cowtrained parameters] [vidéo] : Valeurs des paramètres de codage
de l’ensemble défini en 2.4.3.2 de l’ISO/CEI 11172-2.

---------------------- Page: 9 ----------------------
0 ISO/CEI
ISO/CEI 11172-33 993 (F)
2.133 train binaire à paramètres système. restreints (CSPS) [constrained system parameter stream
(CSPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6. de l’ISO/CEI 11172-1.
2.134 CRC [Cyclic redundancy code; CRC] : Code à redondance cyclique.
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
bande critique [critical band] [audio] : Mesure psychoacoustique relevant du domaine
2.136
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
çoefflcient DC [dc-coeficient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
2.138
les deux dimensions.
image codée DC ; image D [dc-coded picture; D-picture] [vidéo] : Image codée en utilisant
2.139
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DCT coeff7cient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded stream] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input buffer] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidéo codé.
2.1.44 décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decoding(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire codé d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage ; DTS [decoding rime-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Décodeur de Référence Système.
2.1.47
désaccentuation [de-empltasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [dequantization] [vidéo] : Processus de remise à l’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storage media; DSM] : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50 transformation en cosinus discrète ;
DCT [discrete cosinus transfomz; DCTJ [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A de
l’ISO/CEI 11172-2.

---------------------- Page: 10 ----------------------
o lSO/CEI ISO/CEI 11172-3: 1993 (F)
ordre d’affkhage [display order] [vidéo] : Ordre dans lequel les images décodées devraient
2.1.51
être affichées, normalement le même que celui dans lequel elles ont été présentées à l’entrée du
codeur.
2.1.52
mode à deux canaux [dual channel mode] [audio] : Mode dans lequel deux canaux audio
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
pour produire un nouveau train binaire comprimé. Les trains binaires édités conformes doivent
répondre aux spécifications définies dans l’ISO/CEI 11172.
: Terme générique pour désigner
2.1.54 train binaire élémentaire [elementav stream] [système]
un des trains binaires binaires codés vidéo, audio ou autres.
2.1.55 accentuation [empJzasis] [audio] : Filtrage appliqué à un signal audio avant stockage ou
transmission, pour améliorer le rapport signal/bruit aux fréquences élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans l’ISO/CEI 11172.
2.1.58 codage entropique [entropy coding] : Codage de longueur variable, bruit, de la
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59
accéléré avant Ifast forward playback] [vidéo] : Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fast Fourier Transfonit; FFTj : Transformation de Fourier rapide. Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres Blterbank] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62
segmentation fixe [frxed segmentation] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fixes.
2.1.63 interdit(e) [forbidden] : Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, généralement pour éviter l’émulation de
codes de début.
2.1.64 rafraîchissement systématique Iforced updating] [vidéo] : Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant üo,ward motion vecto] [vidéo] : Vecteur mouvement utilisé pour
la compensation du mouvement, d’après une image de référence, située à un instant antérieur dans
l’ordre d’affichage.
2.1.66 trame vrame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67 format libre vree format] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans l’ISO/CEI 11172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de référence future plture reference image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.

---------------------- Page: 11 ----------------------
lSO/CEl 11172~31993 (F) 0 lSO/CEI
2.1.69 granules [Couche II] [granules [Layer 1111 [audio] : L’ensemble des 3 échantillons
consécutifs en sous-bande, pour les 32 sous-bandes considérées dans leur ensemble avant
quantification. Ils correspondent à 96 échantillons MIC.
2.1.70 granules [Couche III] [granules [Layer 111]1 [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
2.1.71 groupe d’images igroup of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter l’accès direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans l’ISO/CEI 11172-2.
2.1.72
fenêtre de Hann [Hann window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73 codage de Huffman [Huflnan coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [Itybrid jZterbank] [audio] : Combinaison en série d’un banc de
filtres en sous-bande et d’une MDCT.
2.1.75 IMDCT [hverse Modified Discrete Cosinus Transfonn] [audio] : Transformation en cosinus
discrète modifiée inverse.
2.1.76 stéréo intensité [intensity strereo] [audio] : Méthode d’exploitation du caractère non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [interlace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [intra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image 1 [intra-coded picture; I-picture] [vidéo] : Image codée
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.