Ergonomics — Assessment of speech communication

ISO 9921:2003 specifies the requirements for the performance of speech communication for verbal alert and danger signals, information messages, and speech communication in general. Methods to predict and to assess the performance in practical applications are described and examples are given.

Ergonomie — Évaluation de la communication parlée

L'ISO 9921:2003 spécifie les exigences de performance en communication parlée relatives aux signaux oraux d'alerte et de danger, aux messages d'information et à la communication parlée en général. Des méthodes de prédiction et d'évaluation de la performance, subjectives et objectives, sont décrites dans des applications pratiques avec des exemples à l'appui.

General Information

Status
Published
Publication Date
21-Oct-2003
Current Stage
9093 - International Standard confirmed
Completion Date
09-May-2022
Ref Project

Relations

Effective Date
06-Jun-2022

Buy Standard

Standard
ISO 9921:2003 - Ergonomics -- Assessment of speech communication
English language
28 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 9921:2003 - Ergonomie -- Évaluation de la communication parlée
French language
29 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)

INTERNATIONAL ISO
STANDARD 9921
First edition
2003-10-15


Ergonomics — Assessment of speech
communication
Ergonomie — Évaluation de la communication parlée





Reference number
ISO 9921:2003(E)
©
ISO 2003

---------------------- Page: 1 ----------------------
ISO 9921:2003(E)
PDF disclaimer
This PDF file may contain embedded typefaces. In accordance with Adobe's licensing policy, this file may be printed or viewed but
shall not be edited unless the typefaces which are embedded are licensed to and installed on the computer performing the editing. In
downloading this file, parties accept therein the responsibility of not infringing Adobe's licensing policy. The ISO Central Secretariat
accepts no liability in this area.
Adobe is a trademark of Adobe Systems Incorporated.
Details of the software products used to create this PDF file can be found in the General Info relative to the file; the PDF-creation
parameters were optimized for printing. Every care has been taken to ensure that the file is suitable for use by ISO member bodies. In
the unlikely event that a problem relating to it is found, please inform the Central Secretariat at the address given below.


©  ISO 2003
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland

ii © ISO 2003 — All rights reserved

---------------------- Page: 2 ----------------------
ISO 9921:2003(E)
Contents Page
Foreword. iv
Introduction . v
1 Scope. 1
2 Normative references. 1
3 Terms and definitions. 1
4 Descriptions of speech communications. 3
4.1 General. 3
4.2 Speaker. 3
4.3 Transmission channel. 3
4.4 Listener. 3
5 Performance of speech communications. 3
5.1 General. 3
5.2 Alert and warning situations. 4
5.3 Person-to-person communications. 4
5.4 Public address in public areas . 4
5.5 Personal communication systems. 5
5.6 Summary of recommended minimum performance. 5
6 Assessment and prediction. 5
6.1 General. 5
6.2 Subjective assessment methods . 5
6.3 Objective assessment and prediction methods . 6
Annex A (normative) Speaker and listener characteristics . 7
Annex B (informative) Subjective speech-intelligibility tests . 9
Annex C (informative) Speech transmission index, STI . 12
Annex D (informative) Overview of the means of communication and related parameters . 14
Annex E (normative) Speech interference level, SIL . 18
Annex F (informative) Intelligibility ratings for speech communications. 19
Annex G (normative) Definition of symbols . 22
Annex H (informative) Examples of applications of predictive intelligibility methods . 23
Bibliography . 28

© ISO 2003 — All rights reserved iii

---------------------- Page: 3 ----------------------
ISO 9921:2003(E)
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 9921 was prepared by Technical Committee ISO/TC 159, Ergonomics, Subcommittee SC 5, Ergonomics
of the physical environment.
This first edition of ISO 9921 cancels and replaces ISO 9921-1:1996.

iv © ISO 2003 — All rights reserved

---------------------- Page: 4 ----------------------
ISO 9921:2003(E)
Introduction
The aim of standardization in the field of the ergonomic assessment of speech-communication is to
recommend the levels of speech-communication quality required for conveying comprehensive messages in
different applications. The quality of speech communication is assessed for the following cases:
 warning of hazard;
 warning of danger;
 information messages for work places, public areas, meeting rooms, and auditoria.
For some applications, direct communication between humans is considered while, in others, the use of
electro-acoustic systems (e.g. PA systems) or personal communication equipment (e.g. telephone, intercom)
will be the most convenient means of informing and instructing or exchanging information.
The use of auditory warning symbols other than speech is not included in this International Standard but is
covered by ISO 7731.
Acoustical danger and warning signals are in general omni-directional and therefore may be universal in many
situations. Auditory warnings are of great benefit in situations where smoke, darkness or other obstructions
interfere with visual warnings.
It is essential that, in the case of verbal messages, a sufficient level of intelligibility is achieved, in the
coverage area. If this cannot be achieved, non-voice warning signals (see ISO 7731, IEC 60849 and [4] in the
Bibliography) or visual warning signals (see ISO 11429) may be preferable.
If acoustical signals are too loud, hearing damage or environmental problems may occur (e.g. noise nuisance
to dwellings near railway platforms, road traffic, airports, etc.). Good design can minimize these negative
aspects. In addition, prediction methods with sufficient accuracy are useful for consultants, suppliers and end-
users and may thus reduce costs of necessary adjustments after installation of a system.
The communications might be directly between humans, through public address or intercom systems or by
pre-recorded messages. In general, text-to-speech systems are not recommended because of the low
intelligibility of these systems.
It is recognized that, in a general-purpose document, simple to apply and easily available tools for prediction
and assessment should be described, as well as more sophisticated advanced technological methodologies.

© ISO 2003 — All rights reserved v

---------------------- Page: 5 ----------------------
INTERNATIONAL STANDARD ISO 9921:2003(E)

Ergonomics — Assessment of speech communication
1 Scope
This International Standard specifies the requirements for the performance of speech communication for
verbal alert and danger signals, information messages, and speech communication in general. Methods to
predict and to assess the subjective and objective performance in practical applications are described and
examples are given.
In order to obtain optimal performance in a specific application, three stages can be considered:
a) specification of the application and definition of the corresponding performance criteria;
b) design of a communication system and prediction of the performance;
c) assessment of the performance for in situ conditions.
The use of auditory warning signals other than speech is not included in this International Standard but is
covered by ISO 7731.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO/TR 4870:1991, Acoustics — The construction and calibration of speech intelligibility tests
IEC 60268-16:1998, Sound system equipment — Part 16: Objective rating of speech intelligibility by speech
transmission index
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
3.1
alarm
warning of existing or approaching danger
3.2
danger
risk of harm or damage
3.3
effective signal-to-noise ratio
measure to express the (combined) effect of various types of distortions on the intelligibility of a speech signal
in terms of the effect of a masking noise resulting in a speech signal having the same intelligibility
3.4
emergency
imminent risk or serious threat to persons or property
© ISO 2003 — All rights reserved 1

---------------------- Page: 6 ----------------------
ISO 9921:2003(E)
3.5
Lombard effect
spontaneous increase of the vocal effort induced by the increase of the ambient noise level at the speaker’s
ear
3.6
non-native speaker
person speaking a language which is different from the language that was learned as the primary language
during the childhood of the speaker
3.7
speech communication
conveying or exchanging information using speech, speaking, hearing modalities, and understanding
NOTE Speech communication may involve brief texts, sentences, groups of words and/or isolated words.
3.8
speech communicability
rating of the ease with which speech communication is performed
NOTE Speech communicability includes speech intelligibility, speech quality, vocal effort, and delays.
3.9
speech intelligibility
rating of the proportion of speech that is understood
NOTE Speech intelligibility is usually quantified as the percentage of a message understood correctly.
3.10
speech intelligibility index
SII
objective method for prediction of intelligibility based on the Articulation Index
NOTE See [1] in the Bibliography.
3.11
speech interference level
SIL
difference between A-weighted speech level and the arithmetic average of sound-pressure levels of ambient
noise in four octave bands with central frequencies of 500 Hz, 1 000 Hz, 2 000 Hz and 4 000 Hz
3.12
speech quality
rating of sound quality of a speech signal
NOTE Speech quality characterizes the amount of audible distortion of a speech signal and is usually rated by a
description.
3.13
speech transmission index
STI
objective method for prediction and measurement of speech intelligibility
3.14
vocal effort
exertion of the speaker, quantified objectively by the A-weighted speech level at 1 m distance in front of the
mouth and qualified subjectively by a description
2 © ISO 2003 — All rights reserved

---------------------- Page: 7 ----------------------
ISO 9921:2003(E)
3.15
warning
important notice concerning any change of status that demands attention or activity
4 Descriptions of speech communications
4.1 General
Speech communication requires three sequential components: speaker, transmission channel and listener(s).
Based on this concept, three means of communication are identified.
a) Direct communication. This is typical for person-to-person communications, where both persons are in
the same environment without making use of electro-acoustic means.
b) Public address. In general, an electro-acoustic system that is used to address a group of people in one
or more environments.
c) Personal communication systems. These include the use of mobile telephones and handheld
transceivers and the use of normal telephones, intercoms and hands-free telephones.
4.2 Speaker
Several speaker-related parameters define the contribution of the speaker to the performance of a
communication. These parameters include vocal effort, speaking quality, gender, accents, non-native speech,
speaking disorders, and distance from the listener or microphone.
Vocal effort is expressed by the equivalent A-weighted sound-pressure level at a distance of 1 m in front of the
mouth. The ambient noise level at the speaker's position (causing the Lombard effect) and the wearing of a
hearing protector influence the vocal effort. The relation between these parameters and the effect on the
speech quality is described in Annex A.
The frequency spectrum of the speech is related to the gender of the speaker and the vocal effort. This may
result, in combination with a specific type of noise, in a gender-related performance [see Annex B (B.3) and
Annex C].
The effects of strong accents and non-native speakers and listeners reduce the performance of a
communication; quantitative data are given in A.6.
4.3 Transmission channel
The transmission path between the speaker’s mouth and the listener’s ear is described by the distribution of
the speech signal in a room or by an electro-acoustic system. It affects the deterioration of the speech signal.
Important influences are ambient noise, reverberation, echoes, sound radiation, limitation in the frequency
response, and non-linearities. In Annex D, an overview is given of the means of communication and related
parameters.
4.4 Listener
For the listener, hearing aspects (directional hearing, masking, hearing disorders, reception threshold) and the
use of hearing protection define the deterioration. In Annexes A, C, D and E, these listener-related parameters
are considered, except for that of directional hearing, which is not considered in this International Standard.
5 Performance of speech communications
5.1 General
A correct recognition of each utterance is required for the understanding of spoken messages. In technical
terms, this means that an intelligibility score of 100 % is required for sentences. A sentence intelligibility score
© ISO 2003 — All rights reserved 3

---------------------- Page: 8 ----------------------
ISO 9921:2003(E)
of 100% does not imply that each individual word is clearly understood and that the listening situation is
comfortable and relaxed and there are many situations in which a better performance is required. In alert
situations under adverse conditions, it is sufficient to fully understand a short message, even if correct
understanding requires some effort from the listener. In a meeting room, an auditorium, or at work places
where speech communication is a part of the task and where people are normally present for a longer period
of time, a more relaxed speaking condition and a good listening condition are required. For the speaker, this is
reflected by the low vocal effort required to be understood (see Table A.1). For the listener, the listening effort
may be primarily related to the speech intelligibility and speech quality at the listening position (see Table F.1).
The range of the classification scales and the number of the intervals is large enough to discriminate between
conditions required for different applications (see Table F.1 and Figure F.1).
The quality of speech communication is expressed in terms of intelligibility and vocal effort. In this
International Standard, various application and environmental conditions are identified. For each of them,
minimal performance criteria are recommended, covering the range from short alert and warning messages
under adverse conditions to relaxed communications in a meeting room or auditorium. People with a slight
hearing disorder (in general the elderly) or non-native listeners require a higher signal-to-noise ratio
(approximately 3 dB).
The different fields of application are described in 5.2 to 5.5 and summarized in 5.6.
5.2 Alert and warning situations
In general, clearly pronounced short messages are required for alert and warning situations, in order to
provide guidance for safe evacuation or clearance with minimal risk of panic. Hence, simple sentences should
be understood correctly even under adverse conditions, high environmental-noise levels, the speaker shouting,
etc.
As seen in Annex F (Figure F.1), the qualification “poor” is just adequate for alert and warning situations. This
criterion represents a mean value for listeners with a normal hearing (50 % coverage). For 96 % coverage of
the population, an improvement is required that can be expressed by an increase of the signal-to-noise ratio
by 3 dB. Therefore, the recommended criterion should be at least “poor”.
With the use of a public-address system, poor-to-fair intelligibility may be recommended in adverse conditions.
However, distortions introduced by the electro-acoustic systems and/or the environment (band-pass limiting,
non-linear distortion, noise, reverberation and echoes) may also affect the speech intelligibility. This generally
results in the need for a better signal-to-noise ratio.
In order to include effects of all the distortions and environmental conditions on the overall intelligibility rating,
it is necessary to assess the system performance under representative (in situ) conditions.
5.3 Person-to-person communications
For communication in work situations, offices, meeting rooms, auditoria, and in critical situations (ambulance
personnel, firemen, etc), a different level of intelligibility is required depending on the purpose of the
communication. In critical situations, generally short messages are exchanged which also include a certain
number of known critical words. For such communication conditions, at least a “fair” intelligibility is
recommended at an increased vocal effort (loud).
In situations of a relaxed type of communication, for example, occurring in offices, during meetings, lectures
and performances, which take place over a longer period of time, a good level of intelligibility is recommended
allowing for a normal vocal effort.
5.4 Public address in public areas
In public areas, general announcements are made with a short to medium duration at a normal vocal effort.
The content of the announcements may consist of numbers, names of destinations, names of persons, etc.
For these purposes, a fair-to-good intelligibility is recommended. Typical areas are shopping centres, railway
stations, within transportation means, and stadiums.
4 © ISO 2003 — All rights reserved

---------------------- Page: 9 ----------------------
ISO 9921:2003(E)
5.5 Personal communication systems
Communication systems are generally limited in bandwidth and may be used in noisy environments.
Examples are the outdoor use of mobile telephones and handheld transceivers, and the indoor use of normal
telephones and hands-free telephones. Depending on the type of the communication (complexity of the
messages) and intensity of the use, a fair-to-good intelligibility is recommended at a normal vocal effort.
5.6 Summary of recommended minimum performance
The recommended minimal performance rating is summarized in Table 1. However, in certain circumstances,
it is advisable to have a higher rating.
Table 1 — Recommended minimal performance ratings for intelligibility and vocal effort in four
applications (for examples of rating see Table A.1)
Minimum intelligibility
Application Maximum vocal effort Description
rating
Alert and warning situations
(correct understanding of simple Poor Loud 5.2
sentences)
Alert and warning situations
(correct understanding of critical Fair Loud 5.2
words)
Person-to-person
Fair Loud 5.3
communications (critical)
Person-to-person
communications (prolonged Good Normal 5.3
normal communication)
Public address in public areas Fair Normal 5.4
Personal communication
Fair Normal 5.5
systems

6 Assessment and prediction
6.1 General
Assessment of speech communication includes speech quality, speech intelligibility, speech communicability
and vocal effort. For the purpose of this International Standard, only speech intelligibility and vocal effort are
considered. The intelligibility can be determined by subjective methods (making use of speakers and listeners)
and by objective methods (making use of physical properties and the physical description of the speaking and
listening process).
6.2 Subjective assessment methods
Subjective intelligibility tests require trained speakers to read lists of test words and listeners who write down
what they thought they heard. Normally lists are 50 words long and the result is scored out of 100. Test words
should be embedded in a carrier phrase in order
a) to let the speaker control his vocal effort,
b) to account for temporal distortion during pronunciation of the test word, and
c) to get the attention of the listener at each utterance.
© ISO 2003 — All rights reserved 5

---------------------- Page: 10 ----------------------
ISO 9921:2003(E)
Test words may be meaningful words or nonsensical words, and phonetically balanced (phoneme distribution
representative for the language) or equally balanced (phoneme distribution equal for all phonemes). The type
of words used in the test defines the relation with other types of tests such as STI (Speech Transmission
Index) or SIL (Speech Interference Level). An informative description of subjective intelligibility tests is given in
Annex B and ISO/TR 4870.
6.3 Objective assessment and prediction methods
There are several objective methods to predict speech intelligibility. Depending on the method, either results
of objective measurements or specifications of a system and space are used to calculate an index to predict
intelligibility. These may include
 spectrum of the speech signal,
 spectrum of environmental noise,
 spatial distribution of these sound fields,
 reverberation,
 associated selection of listener positions, and
 evaluation of the resulting intelligibility score.
Commonly used methods are the Speech Interference Level (SIL), the Speech Transmission Index (STI), and
the Speech Intelligibility Index (SII). A normative description of the SIL is given in Annex E, a normative
description of STI is given in IEC 60268-16 and an informative description in Annex C. The SII is described in
[1]
ANSI S3.5 .
6 © ISO 2003 — All rights reserved

---------------------- Page: 11 ----------------------
ISO 9921:2003(E)
Annex A
(normative)

Speaker and listener characteristics
A.1 Vocal effort
The level of the speech signal depends on the vocal effort of the speaker. The vocal effort is expressed by the
equivalent continuous A-weighted sound-pressure level of speech measured at a distance of 1 m in front of
the mouth. The relation between vocal effort and the corresponding level is given in Table A.1 for a typical
male speaker.
Table A.1 — Vocal effort of a male speaker and related A-weighted
speech level (dB re 20 µPa) at 1 m in front of the mouth
L
S, A, 1 m
Vocal effort
dB
Very loud 78
Loud 72
Raised 66
Normal 60
Relaxed 54

A.2 Effect of ambient noise on vocal effort
Ambient noise above a certain level influences the vocal effort (this in known as the Lombard effect). In
Figure A.1 the relation between speech level and ambient-noise level is given. The hatched area indicates the
variability of the Lombard effect among speakers.
A.3 Decrease of speech quality with loud speech
The quality of loud speech, above the level of L = 75 dB, is substantially reduced, making it more
S, A, 1 m
difficult to understand in comparison with speech produced at a lower vocal effort. This is taken into account
by reduction of the speech level in calculations: (L ) shall be reduced by ∆L = 0,4 (L – 75) dB for
S, A 1 m S, A, 1 m
L > 75 dB.
S, A, 1 m
NOTE Certain symbols used in this annex are defined in Annex G.
A.4 Effect of hearing protection on vocal effort
A speaker wearing hearing protectors will reduce his vocal effort by about 3 dB compared to the unprotected
situation, if the ambient noise level L exceeds 75 dB.
N, A
© ISO 2003 — All rights reserved 7

---------------------- Page: 12 ----------------------
ISO 9921:2003(E)

Figure A.1 — Relation between the range of vocal effort (equivalent continuous speech sound level)
and the ambient-noise level at the speaker’s position
A.5 Effect of distance between speaker and listener
From the speech level at the speaker position (L ), the speech level at the listener position (L )
S, A, 1 m S, A, L
may be approximated using the equation:
r
=− 20 lg
LL
S, A, L S, A, 1 m
r
0
where
r is the distance in metres between the speaker and listener;
r = 1 m
0
Hence, the decrease in speech level is assumed to be 6 dB for each doubling of the distance. This relation is
valid for indoor and outdoor conditions up to about 2 m. For conditions with a reverberation time smaller than
2 s at 500 Hz, a maximum distance of 8 m is valid.
A.6 Effect of non-native speakers and listeners
A reduced intelligibility is observed with non-native but fluent speakers and listeners of a second language.
For non-native speakers or listeners, or for both in combination, a 4 dB to 5 dB improvement in the signal-to-
[15]
noise ratio is required for a similar intelligibility as is obtained with native speakers and/or listeners . This
4 dB signal-to-noise ratio improvement corresponds with an improvement of the STI of 0,13 and of the SIL of
4 dB.
8 © ISO 2003 — All rights reserved

---------------------- Page: 13 ----------------------
ISO 9921:2003(E)
Annex B
(informative)

Subjective speech-intelligibility tests
B.1 Basic conditions for testing
The speaking ability of speakers and the hearing capacity of listeners shall be sufficient to provide an efficient
direct communication, communication by means of a public-address system or personal communication
device (see Figure D.1).
The speakers and the listeners shall be familiar with the language used, as far as to pronounce and
understand a verbal message. It is best to use native speakers of the language.
Listeners should be protected from risks to health and safety. This means that a safe speech level should not
be exceeded. The recommended maximum speech level is 80 dB A-weighted for an exposure of maximum
8 h per working day.
B.2 Test material
B.2.1 General
The speech-intelligibility test should be such as to obtain valid, reliable results allowing for an analysis of
errors in listeners’ responses. The test material must use samples of speech sounds, which are typical for the
communication system being tested, and representative of the type of message transmitted through the
system. Economy of testing should be considered, i.e., possible automation to simplify test administration.
A number o
...

NORME ISO
INTERNATIONALE 9921
Première édition
2003-10-15



Ergonomie — Évaluation de la
communication parlée
Ergonomics — Assessment of speech communication





Numéro de référence
ISO 9921:2003(F)
©
ISO 2003

---------------------- Page: 1 ----------------------
ISO 9921:2003(F)
PDF – Exonération de responsabilité
Le présent fichier PDF peut contenir des polices de caractères intégrées. Conformément aux conditions de licence d'Adobe, ce fichier
peut être imprimé ou visualisé, mais ne doit pas être modifié à moins que l'ordinateur employé à cet effet ne bénéficie d'une licence
autorisant l'utilisation de ces polices et que celles-ci y soient installées. Lors du téléchargement de ce fichier, les parties concernées
acceptent de fait la responsabilité de ne pas enfreindre les conditions de licence d'Adobe. Le Secrétariat central de l'ISO décline toute
responsabilité en la matière.
Adobe est une marque déposée d'Adobe Systems Incorporated.
Les détails relatifs aux produits logiciels utilisés pour la création du présent fichier PDF sont disponibles dans la rubrique General Info
du fichier; les paramètres de création PDF ont été optimisés pour l'impression. Toutes les mesures ont été prises pour garantir
l'exploitation de ce fichier par les comités membres de l'ISO. Dans le cas peu probable où surviendrait un problème d'utilisation,
veuillez en informer le Secrétariat central à l'adresse donnée ci-dessous.


©  ISO 2003
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l'accord écrit
de l'ISO à l'adresse ci-après ou du comité membre de l'ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax. + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse

ii © ISO 2003 — Tous droits réservés

---------------------- Page: 2 ----------------------
ISO 9921:2003(F)
Sommaire Page
Avant-propos. iv
Introduction . v
1 Domaine d'application. 1
2 Références normatives. 1
3 Termes et définitions . 1
4 Descriptions de la communication parlée. 3
5 Performance des communications parlées.4
6 Évaluation et prédiction . 6
Annexe A (normative) Caractéristiques du locuteur et de l'auditeur. 7
Annexe B (informative) Tests subjectifs de l'intelligibilité de la parole. 9
Annexe C (informative) Indice de transmission de la parole, STI. 12
Annexe D (informative) Présentation générale des moyens de communication et des
paramètres connexes . 14
Annexe E (normative) Niveau d'interférence avec la parole, SIL . 18
Annexe F (informative) Évaluation de l'intelligibilité pour les communications parlées. 19
Annexe G (normative) Définition des symboles. 22
Annexe H (informative) Exemples d'applications des méthodes de prédiction de l'intelligibilité . 23
Bibliographie . 29



© ISO 2003 — Tous droits réservés iii

---------------------- Page: 3 ----------------------
ISO 9921:2003(F)
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux de
normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général confiée
aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du
comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec
la Commission électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives ISO/CEI,
Partie 2.
La tâche principale des comités techniques est d'élaborer les Normes internationales. Les projets de Normes
internationales adoptés par les comités techniques sont soumis aux comités membres pour vote. Leur
publication comme Normes internationales requiert l'approbation de 75 % au moins des comités membres
votants.
L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de ne
pas avoir identifié de tels droits de propriété et averti de leur existence.
L'ISO 9921 a été élaborée par le comité technique ISO/TC 159, Ergonomie, sous-comité SC 5, Ergonomie de
l'environnement physique.
Cette première édition de l’ISO 9921 annule et remplace l’ISO 9921-1:1996.
iv © ISO 2003 — Tous droits réservés

---------------------- Page: 4 ----------------------
ISO 9921:2003(F)
Introduction
L’objet de la normalisation dans le domaine de l’évaluation ergonomique de la communication parlée est de
recommander les niveaux de qualité de la communication parlée requis pour la transmission de messages
complets dans différentes applications. L’évaluation de la qualité de la communication parlée s’effectue dans
les cas suivants:
 avertissement d’un phénomène dangereux;
 avertissement d’un danger;
 messages d’information sur les lieux de travail, dans des lieux publics, dans des salles de réunion et
dans des auditoriums.
Certaines applications prennent en considération la communication directe entre les êtres humains, tandis
que pour d’autres applications, l’utilisation de systèmes électro-acoustiques (par exemple systèmes de
sonorisation) ou d’équipements de communication personnelle (par exemple téléphone ou équipement
d’intercommunication) constitue le moyen d’information, d’instruction ou d’échange d’information le plus
pratique.
La présente Norme internationale ne traite pas de l’utilisation de signaux d’avertissement sonores autres que
la parole, consignée dans l’ISO 7731.
Les signaux de danger et d'avertissement acoustiques sont généralement omnidirectionnels et peuvent par
conséquent être universels dans de nombreuses situations. Les avertissements sonores présentent un grand
avantage dans les situations où la fumée, l'obscurité ou d'autres obstacles interfèrent avec les avertissements
visuels.
Il est essentiel que le niveau d'intelligibilité des messages oraux soit suffisant dans leur zone de couverture.
Dans le cas contraire, il peut être préférable d'utiliser des signaux d'avertissement non vocaux (voir l’ISO 7731,
la CEI 60849 et [4] dans la Bibliographie) ou des signaux d'avertissement visuels (voir l’ISO 11429).
Des signaux acoustiques excessifs peuvent altérer l'audition ou l'environnement (par exemple nuisance
sonore à laquelle sont soumis des logements à proximité de quais de gare, d’axes de circulation routière ou
d’aéroports). Une conception appropriée peut minimiser ces aspects défavorables. De plus, des méthodes de
prédiction suffisamment précises sont utiles aux consultants, aux fournisseurs et aux utilisateurs finals et
peuvent ainsi réduire les coûts des adaptations nécessaires suite à l'installation d'un système.
Les communications peuvent s'effectuer directement entre êtres humains, par l'intermédiaire de systèmes de
sonorisation, d'intercommunication ou de messages préenregistrés. De manière générale, les systèmes
texte-parole ne sont pas recommandés en raison de leur faible intelligibilité.
Il est admis que, dans un document à caractère général, d’application simple et aisément disponible, il
convient de décrire des outils de prédiction et d’évaluation, ainsi que des méthodes plus sophistiquées liées
aux technologies de pointe.

© ISO 2003 — Tous droits réservés v

---------------------- Page: 5 ----------------------
NORME INTERNATIONALE ISO 9921:2003(F)

Ergonomie — Évaluation de la communication parlée
1 Domaine d'application
La présente Norme internationale spécifie les exigences de performance en communication parlée relatives
aux signaux oraux d'alerte et de danger, aux messages d'information et à la communication parlée en général.
Des méthodes de prédiction et d'évaluation de la performance, subjectives et objectives, sont décrites dans
des applications pratiques avec des exemples à l’appui.
Pour obtenir une performance optimale dans une application spécifique, trois phases peuvent être
considérées:
a) spécification de l'application et définition des critères de performance correspondants;
b) conception d'un système de communication et prédiction de la performance;
c) évaluation de la performance dans des conditions in situ.
La présente Norme internationale ne traite pas de l’utilisation de signaux d’avertissement sonores autres que
la parole, consignée dans l’ISO 7731.
2 Références normatives
Les documents de référence suivants sont indispensables pour l'application du présent document. Pour les
références datées, seule l'édition citée s'applique. Pour les références non datées, la dernière édition du
document de référence s'applique (y compris les éventuels amendements).
ISO/TR 4870:1991, Acoustique — Élaboration et étalonnage des tests d'intelligibilité de parole
CEI 60268-16:1998, Équipements pour systèmes électroacoustiques — Partie 16: Évaluation objective de
l'intelligibilité de la parole au moyen de l'indice de transmission de la parole
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s'appliquent.
3.1
alarme
avertissement d'un danger existant ou imminent
3.2
danger
risque de préjudice ou de dommage
3.3
rapport signal-bruit effectif
mesure visant à exprimer l'effet (combiné) de différents types de distorsions sur l'intelligibilité d'un signal parlé,
en termes de l'effet d'un bruit masquant entraînant un signal parlé de même intelligibilité
3.4
urgence
risque imminent ou menace sérieuse pour les personnes ou les biens
© ISO 2003 — Tous droits réservés 1

---------------------- Page: 6 ----------------------
ISO 9921:2003(F)
3.5
effet Lombard
augmentation spontanée de l'effort vocal induite par l'augmentation du niveau de bruit ambiant au niveau de
l'oreille du locuteur
3.6
locuteur non natif
personne s’exprimant dans une autre langue que la langue apprise comme langue principale lors de l’enfance
3.7
communication parlée
transmission ou échange d'information utilisant les modalités de la voix, de la parole, de l'audition et la
compréhension
NOTE La communication parlée peut comprendre des textes brefs, des phrases, des groupes de mots et/ou des
mots seuls.
3.8
communicabilité de la parole
évaluation de l'aisance d'exécution de la communication parlée
NOTE La communicabilité de la parole comprend l'intelligibilité de la parole, la qualité de la parole, l'effort vocal et les
«temps morts».
3.9
intelligibilité de la parole
évaluation du pourcentage de parole compris
NOTE L’intelligibilité de la parole est généralement quantifiée en pourcentage d’un message compris correctement.
3.10
indice d'intelligibilité de la parole
SII
méthode objective de prédiction de l'intelligibilité fondée sur l'indice d'articulation
NOTE Voir [1] dans la Bibliographie.
3.11
niveau d'interférence avec la parole
SIL
différence entre un niveau de parole pondéré A et la moyenne arithmétique des niveaux de pression
acoustique du bruit ambiant dans quatre bandes d'octave ayant des fréquences centrales de 500 Hz,
1 000 Hz, 2 000 Hz et 4 000 Hz
3.12
qualité de la parole
évaluation de la qualité sonore d'un signal parlé
NOTE La qualité de la parole caractérise la quantité de distorsions audibles d'un signal parlé, et elle est
généralement évaluée par une description.
3.13
indice de transmission de la parole
STI
méthode objective de prédiction et de mesure de l'intelligibilité de la parole
3.14
effort vocal
faculté du locuteur, évaluée de manière objective par le niveau de parole pondéré A à une distance de 1 m de
la bouche, et qualifiée de manière subjective par une description
2 © ISO 2003 — Tous droits réservés

---------------------- Page: 7 ----------------------
ISO 9921:2003(F)
3.15
avertissement
notification importante concernant tout changement d'état requérant une attention ou une activité particulière
4 Descriptions de la communication parlée
4.1 Généralités
La communication parlée requiert trois composantes séquentielles: un locuteur, un canal de transmission et
un (des) auditeur(s). Sur la base de ce concept , trois moyens de communication différents sont identifiés.
a) Communication directe. C’est un moyen de communication type des communications de personne à
personne lorsque deux personnes se trouvent dans le même environnement sans utiliser de dispositif
électroacoustique.
b) Système de sonorisation. Il s'agit généralement d'un système électroacoustique utilisé pour s'adresser
à un groupe de personnes dans un ou plusieurs environnements.
c) Systèmes de communication personnelle. Ces systèmes comprennent l'utilisation de téléphones
mobiles et d’émetteurs-récepteurs portatifs ainsi que de téléphones normaux, d'équipements
d'intercommunication et de téléphones mains libres.
4.2 Locuteur
Plusieurs paramètres, en rapport avec le locuteur, définissent la contribution de ce dernier à la performance
d'une communication. Ces paramètres comprennent l'effort vocal, la qualité d'élocution, le sexe (masculin ou
féminin), les accents, les paroles prononcées par un non-natif, les troubles du langage, et la distance par
rapport à l’auditeur ou par rapport au microphone.
Le niveau de pression acoustique pondéré A équivalent à 1 m de distance de la bouche du locuteur exprime
l'effort vocal. Le niveau de bruit ambiant dans la position du locuteur (qui provoque l'effet Lombard) et le port
d'un protecteur individuel contre le bruit exercent une influence sur l'effort vocal. L'Annexe A décrit la relation
entre ces paramètres ainsi que l'effet sur la qualité de la parole.
Le sexe du locuteur et l'effort vocal conditionnent le spectre de fréquences de la parole. Ceci peut entraîner,
en association avec un type de bruit spécifique, une performance «sexospécifique» [voir Annexe B (B.3) et
Annexe C].
Les effets des accents prononcés et des locuteurs et auditeurs non natifs réduisent la performance d'une
communication; des données quantitatives à ce sujet sont fournies en A.6.
4.3 Canal de transmission
Le canal de transmission entre la bouche du locuteur et l'oreille de l'auditeur est décrit par la distribution du
signal parlé dans une pièce ou par la voie d’un système électroacoustique. Il affecte la détérioration du signal
parlé. Le bruit ambiant, la réverbération, les échos, le rayonnement sonore, la limitation de la réponse en
fréquence et les non-linéarités exercent une influence importante sur la communication. L'Annexe D présente
une vue d’ensemble des moyens de communication et des paramètres connexes existants.
4.4 Auditeur
Dans le cas de l'auditeur, les aspects de l'audition (audition directionnelle, masquage, troubles de l'audition,
seuil de réception) et l'utilisation d'une protection individuelle contre le bruit définissent la détérioration. Les
Annexes A, C, D et E prennent en considération ces paramètres en rapport avec l'auditeur, à l'exception du
paramètre d'audition directionnelle qui n'est pas traité dans la présente Norme internationale.
© ISO 2003 — Tous droits réservés 3

---------------------- Page: 8 ----------------------
ISO 9921:2003(F)
5 Performance des communications parlées
5.1 Généralités
La compréhension des messages parlés requiert une reconnaissance correcte de chaque énoncé. En termes
techniques, cela signifie qu’une note d'intelligibilité de 100 % est requise pour les phrases prononcées. Une
note d'intelligibilité des phrases de 100 % ne signifie pas que chaque mot individuel est clairement compris et
que la situation d'écoute est confortable et détendue, et il existe de nombreuses situations qui requièrent une
meilleure performance. Les situations d'alerte, dans des conditions défavorables, requièrent simplement la
compréhension totale d'un message court, même si la compréhension correcte de ce message nécessite un
certain effort de l'auditeur. Des conditions d'énonciation plus détendue et d'écoute correcte sont requises
dans une salle de réunion, un auditorium ou sur un lieu de travail, où la communication parlée constitue un
élément de la tâche à exécuter et où les personnes sont généralement présentes pour une plus longue durée.
Ceci se traduit, dans le cas du locuteur, par le faible effort vocal requis pour pouvoir être compris (voir
Tableau A.1). Dans le cas de l'auditeur, l'effort d'écoute peut être principalement lié à l'intelligibilité de la
parole et à la qualité de la parole dans la position d'écoute (voir Tableau F.1). L'étendue des échelles de
classification et le nombre d'intervalles sont suffisamment importants pour pouvoir différencier les conditions
requises pour différentes applications (voir Tableau F.1 et Figure F.1).
La qualité de la communication parlée s'exprime en termes d'intelligibilité et d'effort vocal. La présente Norme
internationale identifie diverses conditions d'application et d'environnement. Pour chacune de ces conditions,
des critères de performance minimale sont recommandés, couvrant l'ensemble des messages courts d'alerte
et d'avertissement dans des conditions défavorables et des communications détendues dans une salle de
réunion ou un auditorium. Les personnes présentant un léger trouble de l'audition (généralement les
personnes âgées) ou les auditeurs non natifs requièrent un rapport signal-bruit plus élevé (approximativement
3 dB).
Les différents champs d'application sont décrits de 5.2 à 5.5 et résumés en 5.6.
5.2 Situations d'alerte et d'avertissement
Les situations d'alerte et d'avertissement requièrent généralement des messages courts clairement énoncés,
destinés à fournir des instructions pour une évacuation ou un dégagement en toute sécurité, avec un risque
d'affolement minimal. Il convient ainsi que des phrases simples soient comprises correctement même dans
des conditions défavorables, avec des niveaux de bruit ambiant élevés, voire lorsque le locuteur crie, etc.
Comme l'indique l'Annexe F (Figure F.1), la qualification «faible» convient parfaitement aux situations d'alerte
et d'avertissement. Ce critère représente une valeur moyenne pour les auditeurs ayant une capacité auditive
normale (couverture de la population à 50 %). Une plus grande valeur est requise pour couvrir 96 % de la
population, cette valeur pouvant être exprimée par une augmentation de 3 dB du rapport signal-bruit. Le
critère minimal recommandé est par conséquent généralement «faible».
Un niveau d'intelligibilité faible à correct peut être recommandé dans des conditions défavorables d'utilisation
d'un système de sonorisation. Toutefois, les distorsions dues aux systèmes électroacoustiques et/ou à
l'environnement (limitation du filtre passe-bande, distorsion non linéaire, bruit, réverbération et échos) peuvent
également affecter l'intelligibilité de la parole. Ceci se traduit généralement par la nécessité d'un meilleur
rapport signal-bruit.
Il est nécessaire d'évaluer la performance du système dans des conditions (in situ) représentatives afin
d'intégrer les effets de toutes les distorsions et de toutes les conditions ambiantes sur l'évaluation globale de
l'intelligibilité.
4 © ISO 2003 — Tous droits réservés

---------------------- Page: 9 ----------------------
ISO 9921:2003(F)
5.3 Communications de personne à personne
La communication dans les situations de travail, bureaux, salles de réunion, auditoriums, ainsi que dans les
situations critiques (personnel ambulancier, pompiers, etc.) requiert un niveau d'intelligibilité différent en
fonction de son objectif. Dans les situations critiques, les messages échangés sont généralement courts et
incluent également un certain nombre de mots critiques connus. Dans ce genre de conditions de
communication, il est recommandé au moins une intelligibilité «correcte» avec un effort vocal plus important
(fort).
Il est recommandé un niveau d'intelligibilité satisfaisant, permettant un effort vocal normal, dans un type de
communication détendue telle qu'elle se produit dans des bureaux, lors de réunions, de conférences et de
représentations qui ont lieu sur une durée plus longue.
5.4 Système de sonorisation dans les lieux publics
La durée des annonces d'intérêt général dans les lieux publics est courte ou moyenne à un effort vocal
normal. Le contenu de ces annonces peut comporter des nombres, des noms de destinations, des noms de
personnes, etc. Une intelligibilité correcte à bonne est recommandée dans ce genre de situations. Les lieux
types d'utilisation de systèmes de sonorisation sont les centres commerciaux, les gares ferroviaires, les
transports en commun et les stades.
5.5 Systèmes de communication personnelle
La largeur de bande des systèmes de communication est généralement limitée, ce qui permet leur utilisation
dans des ambiances bruyantes. L’usage extérieur de téléphones mobiles, d'émetteurs-récepteurs portatifs et
l’usage intérieur de téléphones normaux et de téléphones mains libres sont des exemples d'utilisation de
systèmes de communication personnelle. Une intelligibilité correcte à bonne est recommandée en fonction du
type de communication (complexité des messages) et de l'intensité d'utilisation, une intelligibilité correcte à
bonne étant conseillée à un effort vocal normal.
5.6 Résumé de la performance minimale recommandée
Le Tableau 1 donne un résumé de la performance minimale recommandée. Il est toutefois conseillé d'utiliser
des niveaux d'évaluation plus «précis» dans certaines situations.
Tableau 1 — Niveaux d'évaluation de la performance minimale recommandée en matière
d'intelligibilité et d'effort vocal dans le cas de quatre applications différentes
(des exemples de niveaux d’évaluation sont cités dans le Tableau A.1)
Niveau d'évaluation de
Application l'intelligibilité minimale Effort vocal maximal Description
requise
Situations d'alerte et
d'avertissement (compréhension Faible Fort 5.2
correcte de phrases simples)
Situations d'alerte et
d'avertissement (compréhension Correct Fort 5.2
correcte de mots critiques)
Communications de personne à
Correct Fort 5.3
personne (critiques)
Communications de personne à
Bon Normal 5.3
personne (communication
normale prolongée)
Sonorisation dans les lieux
Correct Normal 5.4
publics
Systèmes de communication
Correct Normal 5.5
personnelle
© ISO 2003 — Tous droits réservés 5

---------------------- Page: 10 ----------------------
ISO 9921:2003(F)
6 Évaluation et prédiction
6.1 Généralités
L'évaluation de la communication parlée inclut la qualité, l'intelligibilité et la communicabilité de la parole, ainsi
que l'effort vocal. Seuls l'intelligibilité de la parole et l'effort vocal sont pris en considération pour les besoins
de la présente Norme internationale. L'intelligibilité peut être déterminée par des méthodes subjectives
(utilisant des locuteurs et des auditeurs) et par des méthodes objectives (utilisant des propriétés physiques et
la description physique du processus d’élocution et d’écoute).
6.2 Méthodes d'évaluation subjectives
Des tests d'intelligibilité subjectifs consistent à faire lire à des locuteurs entraînés des listes de «mots-clés» et
à faire écrire à des auditeurs, également entraînés, ce qu'ils pensent avoir entendu. Ces listes comportent
généralement 50 mots, le résultat des tests étant noté sur 100. Il convient d’intégrer les «mots-clés» dans une
locution porteuse afin
a) de permettre au locuteur de contrôler son effort vocal,
b) de tenir compte de la distorsion temporelle lors de la prononciation du «mot-clé», et
c) de capter l'attention de l'auditeur pour chaque énoncé.
Les «mots-clés» peuvent avoir ou non un sens, et être équilibrés phonétiquement (distribution phonétique
représentative de la langue) ou de manière égale (distribution phonétique égale pour tous les phonèmes). Le
type de mots utilisés dans le test définit la relation avec les autres types de tests, tels que STI (indice de
transmission de la parole) ou SIL (niveau d'interférence avec la parole). L'Annexe B et l'ISO/TR 4870 donnent
une description informative des tests d'intelligibilité subjectifs.
6.3 Méthodes objectives d'évaluation et de prédiction
Il existe plusieurs méthodes objectives de prédiction de l'intelligibilité de la parole. La méthode retenue utilise
soit les résultats de mesurages objectifs, soit les spécifications d'un système et d'un espace donnés, pour
calculer un indice de prédiction de l'intelligibilité. Ces méthodes peuvent comprendre
 le spectre du signal parlé,
 le spectre du bruit ambiant,
 la distribution spatiale des champs acoustiques,
 la réverbération,
 la sélection associée des positions de l'auditeur, et
 l'évaluation de la note d'intelligibilité obtenue.
Les méthodes couramment utilisées sont le niveau d'interférence avec la parole (SIL), l'indice de transmission
de la parole (STI), et l'indice d'intelligibilité de la parole (SII). L'Annexe E fournit une description normative de
la méthode SIL, la CEI 60268-16 fournit également une description normative de la méthode STI, et
[1]
l'Annexe C en donne une description informative. L'ANSI S3.5 décrit la méthode SII.
6 © ISO 2003 — Tous droits réservés

---------------------- Page: 11 ----------------------
ISO 9921:2003(F)
Annexe A
(normative)

Caractéristiques du locuteur et de l'auditeur
A.1 Effort vocal
Le niveau du signal parlé dépend de l’effort vocal du locuteur. L’effort vocal est exprimé par le niveau de
pression acoustique pondéré A équivalent continu de la parole mesuré à une distance de 1 m de la bouche.
La relation entre l’effort vocal et le niveau correspondant est indiquée dans le Tableau A.1 pour un locuteur
masculin type.
Tableau A.1 — Effort vocal d’un locuteur masculin et niveau de parole pondéré A associé
(dB re 20 µPa) à une distance de 1 m de la bouche
L
S, A, 1 m
Effort vocal
dB
Très fort 78
Fort 72
Élevé 66
Normal 60
Détendu 54

A.2 Effet du bruit ambiant sur l’effort vocal
Le bruit ambiant au-dessus d’un certain niveau influence l’effort vocal (c’est ce qui se nomme l’effet Lombard).
La Figure A.1 présente la relation entre le niveau de parole et le niveau de bruit ambiant. La zone hachurée
indique la variabilité de l’effet Lombard parmi les différents locuteurs.
A.3 Diminution de la qualité de la parole dans le cas d’une parole prononcée avec un
effort vocal fort
La qualité d’une parole prononcée avec un effort vocal élevé, au-delà du niveau L = 75 dB, est réduite
S, A, 1 m
de manière importante, rendant de ce fait sa compréhension plus difficile en comparaison de la parole
produite avec un effort vocal plus faible. Ce phénomène est pris en compte par la réduction du niveau de
parole dans les différents calculs: la valeur (L ) doit être réduite de ∆L = 0,4 (L – 75) dB pour
S, A, 1 m S, A, 1 m
L > 75 dB.
S, A, 1 m
NOTE Certains symboles utilisés dans cette annexe sont définis dans l’Annexe G.
A.4 Effet de la protection de l’ouïe sur l’effort vocal
Un locuteur portant des protecteurs individuels contre le bruit réduit son effort vocal d’environ 3 dB en
comparaison de la situation observée en l’absence de ces protecteurs lorsque le niveau de bruit ambiant L
N, A
dépasse 75 dB.
© ISO 2003 — Tous droits réservés 7

---------------------- Page: 12 ----------------------
ISO 9921:2003(F)

Figure A.1 — Relation entre la gamme de l'effort vocal (niveau sonore continu équivalent de la parole)
et le niveau de bruit ambiant dans la position du locuteur
A.5 Effet de la distance entre le locuteur et l’auditeur
Il est possible de calculer, à l’aide de l’équation suivante, une valeur approximative du niveau de parole dans
la position de l’auditeur (L ), à partir du niveau de parole dans la position du locuteur (L ):
S, A, L S, A, 1 m
r
=− 20lg
LL
S, A, L S, A, 1 m
r
0

r est la distance, en mètres, entre le locuteur et l’auditeur;
r = 1 m.
0
La diminution du niveau de parole est donc supposée être de 6 dB pour chaque doublement de la distance
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.