ISO 9921:2003
(Main)Ergonomics — Assessment of speech communication
Ergonomics — Assessment of speech communication
ISO 9921:2003 specifies the requirements for the performance of speech communication for verbal alert and danger signals, information messages, and speech communication in general. Methods to predict and to assess the performance in practical applications are described and examples are given.
Ergonomie — Évaluation de la communication parlée
L'ISO 9921:2003 spécifie les exigences de performance en communication parlée relatives aux signaux oraux d'alerte et de danger, aux messages d'information et à la communication parlée en général. Des méthodes de prédiction et d'évaluation de la performance, subjectives et objectives, sont décrites dans des applications pratiques avec des exemples à l'appui.
General Information
Relations
Standards Content (Sample)
INTERNATIONAL ISO
STANDARD 9921
First edition
2003-10-15
Ergonomics — Assessment of speech
communication
Ergonomie — Évaluation de la communication parlée
Reference number
©
ISO 2003
PDF disclaimer
This PDF file may contain embedded typefaces. In accordance with Adobe's licensing policy, this file may be printed or viewed but
shall not be edited unless the typefaces which are embedded are licensed to and installed on the computer performing the editing. In
downloading this file, parties accept therein the responsibility of not infringing Adobe's licensing policy. The ISO Central Secretariat
accepts no liability in this area.
Adobe is a trademark of Adobe Systems Incorporated.
Details of the software products used to create this PDF file can be found in the General Info relative to the file; the PDF-creation
parameters were optimized for printing. Every care has been taken to ensure that the file is suitable for use by ISO member bodies. In
the unlikely event that a problem relating to it is found, please inform the Central Secretariat at the address given below.
© ISO 2003
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2003 — All rights reserved
Contents Page
Foreword. iv
Introduction . v
1 Scope. 1
2 Normative references. 1
3 Terms and definitions. 1
4 Descriptions of speech communications. 3
4.1 General. 3
4.2 Speaker. 3
4.3 Transmission channel. 3
4.4 Listener. 3
5 Performance of speech communications. 3
5.1 General. 3
5.2 Alert and warning situations. 4
5.3 Person-to-person communications. 4
5.4 Public address in public areas . 4
5.5 Personal communication systems. 5
5.6 Summary of recommended minimum performance. 5
6 Assessment and prediction. 5
6.1 General. 5
6.2 Subjective assessment methods . 5
6.3 Objective assessment and prediction methods . 6
Annex A (normative) Speaker and listener characteristics . 7
Annex B (informative) Subjective speech-intelligibility tests . 9
Annex C (informative) Speech transmission index, STI . 12
Annex D (informative) Overview of the means of communication and related parameters . 14
Annex E (normative) Speech interference level, SIL . 18
Annex F (informative) Intelligibility ratings for speech communications. 19
Annex G (normative) Definition of symbols . 22
Annex H (informative) Examples of applications of predictive intelligibility methods . 23
Bibliography . 28
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 9921 was prepared by Technical Committee ISO/TC 159, Ergonomics, Subcommittee SC 5, Ergonomics
of the physical environment.
This first edition of ISO 9921 cancels and replaces ISO 9921-1:1996.
iv © ISO 2003 — All rights reserved
Introduction
The aim of standardization in the field of the ergonomic assessment of speech-communication is to
recommend the levels of speech-communication quality required for conveying comprehensive messages in
different applications. The quality of speech communication is assessed for the following cases:
warning of hazard;
warning of danger;
information messages for work places, public areas, meeting rooms, and auditoria.
For some applications, direct communication between humans is considered while, in others, the use of
electro-acoustic systems (e.g. PA systems) or personal communication equipment (e.g. telephone, intercom)
will be the most convenient means of informing and instructing or exchanging information.
The use of auditory warning symbols other than speech is not included in this International Standard but is
covered by ISO 7731.
Acoustical danger and warning signals are in general omni-directional and therefore may be universal in many
situations. Auditory warnings are of great benefit in situations where smoke, darkness or other obstructions
interfere with visual warnings.
It is essential that, in the case of verbal messages, a sufficient level of intelligibility is achieved, in the
coverage area. If this cannot be achieved, non-voice warning signals (see ISO 7731, IEC 60849 and [4] in the
Bibliography) or visual warning signals (see ISO 11429) may be preferable.
If acoustical signals are too loud, hearing damage or environmental problems may occur (e.g. noise nuisance
to dwellings near railway platforms, road traffic, airports, etc.). Good design can minimize these negative
aspects. In addition, prediction methods with sufficient accuracy are useful for consultants, suppliers and end-
users and may thus reduce costs of necessary adjustments after installation of a system.
The communications might be directly between humans, through public address or intercom systems or by
pre-recorded messages. In general, text-to-speech systems are not recommended because of the low
intelligibility of these systems.
It is recognized that, in a general-purpose document, simple to apply and easily available tools for prediction
and assessment should be described, as well as more sophisticated advanced technological methodologies.
INTERNATIONAL STANDARD ISO 9921:2003(E)
Ergonomics — Assessment of speech communication
1 Scope
This International Standard specifies the requirements for the performance of speech communication for
verbal alert and danger signals, information messages, and speech communication in general. Methods to
predict and to assess the subjective and objective performance in practical applications are described and
examples are given.
In order to obtain optimal performance in a specific application, three stages can be considered:
a) specification of the application and definition of the corresponding performance criteria;
b) design of a communication system and prediction of the performance;
c) assessment of the performance for in situ conditions.
The use of auditory warning signals other than speech is not included in this International Standard but is
covered by ISO 7731.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO/TR 4870:1991, Acoustics — The construction and calibration of speech intelligibility tests
IEC 60268-16:1998, Sound system equipment — Part 16: Objective rating of speech intelligibility by speech
transmission index
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
3.1
alarm
warning of existing or approaching danger
3.2
danger
risk of harm or damage
3.3
effective signal-to-noise ratio
measure to express the (combined) effect of various types of distortions on the intelligibility of a speech signal
in terms of the effect of a masking noise resulting in a speech signal having the same intelligibility
3.4
emergency
imminent risk or serious threat to persons or property
3.5
Lombard effect
spontaneous increase of the vocal effort induced by the increase of the ambient noise level at the speaker’s
ear
3.6
non-native speaker
person speaking a language which is different from the language that was learned as the primary language
during the childhood of the speaker
3.7
speech communication
conveying or exchanging information using speech, speaking, hearing modalities, and understanding
NOTE Speech communication may involve brief texts, sentences, groups of words and/or isolated words.
3.8
speech communicability
rating of the ease with which speech communication is performed
NOTE Speech communicability includes speech intelligibility, speech quality, vocal effort, and delays.
3.9
speech intelligibility
rating of the proportion of speech that is understood
NOTE Speech intelligibility is usually quantified as the percentage of a message understood correctly.
3.10
speech intelligibility index
SII
objective method for prediction of intelligibility based on the Articulation Index
NOTE See [1] in the Bibliography.
3.11
speech interference level
SIL
difference between A-weighted speech level and the arithmetic average of sound-pressure levels of ambient
noise in four octave bands with central frequencies of 500 Hz, 1 000 Hz, 2 000 Hz and 4 000 Hz
3.12
speech quality
rating of sound quality of a speech signal
NOTE Speech quality characterizes the amount of audible distortion of a speech signal and is usually rated by a
description.
3.13
speech transmission index
STI
objective method for prediction and measurement of speech intelligibility
3.14
vocal effort
exertion of the speaker, quantified objectively by the A-weighted speech level at 1 m distance in front of the
mouth and qualified subjectively by a description
2 © ISO 2003 — All rights reserved
3.15
warning
important notice concerning any change of status that demands attention or activity
4 Descriptions of speech communications
4.1 General
Speech communication requires three sequential components: speaker, transmission channel and listener(s).
Based on this concept, three means of communication are identified.
a) Direct communication. This is typical for person-to-person communications, where both persons are in
the same environment without making use of electro-acoustic means.
b) Public address. In general, an electro-acoustic system that is used to address a group of people in one
or more environments.
c) Personal communication systems. These include the use of mobile telephones and handheld
transceivers and the use of normal telephones, intercoms and hands-free telephones.
4.2 Speaker
Several speaker-related parameters define the contribution of the speaker to the performance of a
communication. These parameters include vocal effort, speaking quality, gender, accents, non-native speech,
speaking disorders, and distance from the listener or microphone.
Vocal effort is expressed by the equivalent A-weighted sound-pressure level at a distance of 1 m in front of the
mouth. The ambient noise level at the speaker's position (causing the Lombard effect) and the wearing of a
hearing protector influence the vocal effort. The relation between these parameters and the effect on the
speech quality is described in Annex A.
The frequency spectrum of the speech is related to the gender of the speaker and the vocal effort. This may
result, in combination with a specific type of noise, in a gender-related performance [see Annex B (B.3) and
Annex C].
The effects of strong accents and non-native speakers and listeners reduce the performance of a
communication; quantitative data are given in A.6.
4.3 Transmission channel
The transmission path between the speaker’s mouth and the listener’s ear is described by the distribution of
the speech signal in a room or by an electro-acoustic system. It affects the deterioration of the speech signal.
Important influences are ambient noise, reverberation, echoes, sound radiation, limitation in the frequency
response, and non-linearities. In Annex D, an overview is given of the means of communication and related
parameters.
4.4 Listener
For the listener, hearing aspects (directional hearing, masking, hearing disorders, reception threshold) and the
use of hearing protection define the deterioration. In Annexes A, C, D and E, these listener-related parameters
are considered, except for that of directional hearing, which is not considered in this International Standard.
5 Performance of speech communications
5.1 General
A correct recognition of each utterance is required for the understanding of spoken messages. In technical
terms, this means that an intelligibility score of 100 % is required for sentences. A sentence intelligibility score
of 100% does not imply that each individual word is clearly understood and that the listening situation is
comfortable and relaxed and there are many situations in which a better performance is required. In alert
situations under adverse conditions, it is sufficient to fully understand a short message, even if correct
understanding requires some effort from the listener. In a meeting room, an auditorium, or at work places
where speech communication is a part of the task and where people are normally present for a longer period
of time, a more relaxed speaking condition and a good listening condition are required. For the speaker, this is
reflected by the low vocal effort required to be understood (see Table A.1). For the listener, the listening effort
may be primarily related to the speech intelligibility and speech quality at the listening position (see Table F.1).
The range of the classification scales and the number of the intervals is large enough to discriminate between
conditions required for different applications (see Table F.1 and Figure F.1).
The quality of speech communication is expressed in terms of intelligibility and vocal effort. In this
International Standard, various application and environmental conditions are identified. For each of them,
minimal performance criteria are recommended, covering the range from short alert and warning messages
under adverse conditions to relaxed communications in a meeting room or auditorium. People with a slight
hearing disorder (in general the elderly) or non-native listeners require a higher signal-to-noise ratio
(approximately 3 dB).
The different fields of application are described in 5.2 to 5.5 and summarized in 5.6.
5.2 Alert and warning situations
In general, clearly pronounced short messages are required for alert and warning situations, in order to
provide guidance for safe evacuation or clearance with minimal risk of panic. Hence, simple sentences should
be understood correctly even under adverse conditions, high environmental-noise levels, the speaker shouting,
etc.
As seen in Annex F (Figure F.1), the qualification “poor” is just adequate for alert and warning situations. This
criterion represents a mean value for listeners with a normal hearing (50 % coverage). For 96 % coverage of
the population, an improvement is required that can be expressed by an increase of the signal-to-noise ratio
by 3 dB. Therefore, the recommended criterion should be at least “poor”.
With the use of a public-address system, poor-to-fair intelligibility may be recommended in adverse conditions.
However, distortions introduced by the electro-acoustic systems and/or the environment (band-pass limiting,
non-linear distortion, noise, reverberation and echoes) may also affect the speech intelligibility. This generally
results in the need for a better signal-to-noise ratio.
In order to include effects of all the distortions and environmental conditions on the overall intelligibility rating,
it is necessary to assess the system performance under representative (in situ) conditions.
5.3 Person-to-person communications
For communication in work situations, offices, meeting rooms, auditoria, and in critical situations (ambulance
personnel, firemen, etc), a different level of intelligibility is required depending on the purpose of the
communication. In critical situations, generally short messages are exchanged which also include a certain
number of known critical words. For such communication conditions, at least a “fair” intelligibility is
recommended at an increased vocal effort (loud).
In situations of a relaxed type of communication, for example, occurring in offices, during meetings, lectures
and performances, which take place over a longer period of time, a good level of intelligibility is recommended
allowing for a normal vocal effort.
5.4 Public address in public areas
In public areas, general announcements are made with a short to medium duration at a normal vocal effort.
The content of the announcements may consist of numbers, names of destinations, names of persons, etc.
For these purposes, a fair-to-good intelligibility is recommended. Typical areas are shopping centres, railway
stations, within transportation means, and stadiums.
4 © ISO 2003 — All rights reserved
5.5 Personal communication systems
Communication systems are generally limited in bandwidth and may be used in noisy environments.
Examples are the outdoor use of mobile telephones and handheld transceivers, and the indoor use of normal
telephones and hands-free telephones. Depending on the type of the communication (complexity of the
messages) and intensity of the use, a fair-to-good intelligibility is recommended at a normal vocal effort.
5.6 Summary of recommended minimum performance
The recommended minimal performance rating is summarized in Table 1. However, in certain circumstances,
it is advisable to have a higher rating.
Table 1 — Recommended minimal performance ratings for intelligibility and vocal effort in four
applications (for examples of rating see Table A.1)
Minimum intelligibility
Application Maximum vocal effort Description
rating
Alert and warning situations
(correct understanding of simple Poor Loud 5.2
sentences)
Alert and warning situations
(correct understanding of critical Fair Loud 5.2
words)
Person-to-person
Fair Loud 5.3
communications (critical)
Person-to-person
communications (prolonged Good Normal 5.3
normal communication)
Public address in public areas Fair Normal 5.4
Personal communication
Fair Normal 5.5
systems
6 Assessment and prediction
6.1 General
Assessment of speech communication includes speech quality, speech intelligibility, speech communicability
and vocal effort. For the purpose of this International Standard, only speech intelligibility and vocal effort are
considered. The intelligibility can be determined by subjective methods (making use of speakers and listeners)
and by objective methods (making use of physical properties and the physical description of the speaking and
listening process).
6.2 Subjective assessment methods
Subjective intelligibility tests require trained speakers to read lists of test words and listeners who write down
what they thought they heard. Normally lists are 50 words long and the result is scored out of 100. Test words
should be embedded in a carrier phrase in order
a) to let the speaker control his vocal effort,
b) to account for temporal distortion during pronunciation of the test word, and
c) to get the attention of the listener at each utterance.
Test words may be meaningful words or nonsensical words, and phonetically balanced (phoneme distribution
representative for the language) or equally balanced (phoneme distribution equal for all phonemes). The type
of words used in the test defines the relation with other types of tests such as STI (Speech Transmission
Index) or SIL (Speech Interference Level). An informative description of subjective intelligibility tests is given in
Annex B and ISO/TR 4870.
6.3 Objective assessment and prediction methods
There are several objective methods to predict speech intelligibility. Depending on the method, either results
of objective measurements or specifications of a system and space are used to calculate an index to predict
intelligibility. These may include
spectrum of the speech signal,
spectrum of environmental noise,
spatial distribution of these sound fields,
reverberation,
associated selection of listener positions, and
evaluation of the resulting intelligibility score.
Commonly used methods are the Speech Interference Level (SIL), the Speech Transmission Index (STI), and
the Speech Intelligibility Index (SII). A normative description of the SIL is given in Annex E, a normative
description of STI is given in IEC 60268-16 and an informative description in Annex C. The SII is described in
[1]
ANSI S3.5 .
6 © ISO 2003 — All rights reserved
Annex A
(normative)
Speaker and listener characteristics
A.1 Vocal effort
The level of the speech signal depends on the vocal effort of the speaker. The vocal effort is expressed by the
equivalent continuous A-weighted sound-pressure level of speech measured at a distance of 1 m in front of
the mouth. The relation between vocal effort and the corresponding level is given in Table A.1 for a typical
male speaker.
Table A.1 — Vocal effort of a male speaker and related A-weighted
speech level (dB re 20 µPa) at 1 m in front of the mouth
L
S, A, 1 m
Vocal effort
dB
Very loud 78
Loud 72
Raised 66
Normal 60
Relaxed 54
A.2 Effect of ambient noise on vocal effort
Ambient noise above a certain level influences the vocal effort (this in known as the Lombard effect). In
Figure A.1 the relation between speech level and ambient-noise level is given. The hatched area indicates the
variability of the Lombard effect among speakers.
A.3 Decrease of speech quality with loud speech
The quality of loud speech, above the level of L = 75 dB, is substantially reduced, making it more
S, A, 1 m
difficult to understand in comparison with speech produced at a lower vocal effort. This is taken into account
by reduction of the speech level in calculations: (L ) shall be reduced by ∆L = 0,4 (L – 75) dB for
S, A 1 m S, A, 1 m
L > 75 dB.
S, A, 1 m
NOTE Certain symbols used in this annex are defined in Annex G.
A.4 Effect of hearing protection on vocal effort
A speaker wearing hearing protectors will reduce his vocal effort by about 3 dB compared to the unprotected
situation, if the ambient noise level L exceeds 75 dB.
N, A
Figure A.1 — Relation between the range of vocal effort (equivalent continuous speech sound level)
and the ambient-noise level at the speaker’s position
A.5 Effect of distance between speaker and listener
From the speech level at the speaker position (L ), the speech level at the listener position (L )
S, A, 1 m S, A, L
may be approximated using the equation:
r
=− 20 lg
LL
S, A, L S, A, 1 m
r
where
r is the distance in metres between the speaker and listener;
r = 1 m
Hence, the decrease in speech level is assumed to be 6 dB for each doubling of the distance. This relation is
valid for indoor and outdoor conditions up to about 2 m. For conditions with a reverberation time smaller than
2 s at 500 Hz, a maximum distance of 8 m is valid.
A.6 Effect of non-native speakers and listeners
A reduced intelligibility is observed with non-native but fluent speakers and listeners of a second language.
For non-native speakers or listeners, or for both in combination, a 4 dB to 5 dB improvement in the signal-to-
[15]
noise ratio is required for a similar intelligibility as is obtained with native speakers and/or listeners . This
4 dB signal-to-noise ratio improvement corresponds with an improvement of the STI of 0,13 and of the SIL of
4 dB.
8 © ISO 2003 — All rights reserved
Annex B
(informative)
Subjective speech-intelligibility tests
B.1 Basic conditions for testing
The speaking ability of speakers and the hearing capacity of listeners shall be sufficient to provide an efficient
direct communication, communication by means of a public-address system or personal communication
device (see Figure D.1).
The speakers and the listeners shall be familiar with the language used, as far as to pronounce and
understand a verbal message. It is best to use native speakers of the language.
Listeners should be protected from risks to health and safety. This means that a safe speech level should not
be exceeded. The recommended maximum speech level is 80 dB A-weighted for an exposure of maximum
8 h per working day.
B.2 Test material
B.2.1 General
The speech-intelligibility test should be such as to obtain valid, reliable results allowing for an analysis of
errors in listeners’ responses. The test material must use samples of speech sounds, which are typical for the
communication system being tested, and representative of the type of message transmitted through the
system. Economy of testing should be considered, i.e., possible automation to simplify test administration.
A number of methods have been proposed for the measurement of speech intelligibility (see F.4). In this
document, three types of intelligibility tests are included:
an open-set nonsensical CVC word test;
EQB
an open-set meaningful PB-word test;
a sentence test.
B.2.2 Open-set lists
Open-set lists of test items are made using items drawn randomly from a total set of test items. In the case of
nonsensical CVC word tests, a test item is generated randomly from a set of initial consonants, vowels and
final consonants. The CVC nonsensical words are balanced to represent all phonemes of the test
EQB
language in equal proportion. In the CVC test generation, language-dependent restrictions may apply in the
conjunction of specific phonemes.
The meaningful phonetically balanced word test (PB-words) is constructed as a set of monosyllabic words.
For phonetically balanced tests, different phonemes occur in the test in the proportion in which they occur in
natural language.
The nonsensical CVC-word test and the meaningful phonetically balanced word test (PB-words) typically
comprises 50 words per list. The total number of required test items is at least 1 000 words, to avoid listeners
adapting to frequently used lists (see ISO/TR 4870). The CVC test requires about a 6 dB higher signal-to-
EQB
noise ratio to obtain a similar percentage correct score as does the meaningful PB-word test (see Figure F.1).
The lists spoken by speakers are presented to a panel of listeners. Since open format is used, the listeners
typically respond by writing down the response on a response sheet (or using a silent keyboard). The
intelligibility score is the percentage of words correctly identified in the test. With nonsensical CVC-words,
separate scores for the initial consonant, the vowel, and the final consonant can also be determined, this then
allows for the construction of a confusion matrix. For details see Annex F, ISO/TR 4870 and [13].
B.2.3 Sentence tests
Usually, sentence tests are not recommended for evaluating transmission systems because the listener’s
knowledge of grammar, meaning and syntax of the sentence influences the results. Another difficulty is
creating a large number of sentences that are phonetically representative of speech and with a well-defined
[10]
complexity. However, for specific uses, the SRT method can be used which determines the noise level
which provides 50 % sentence intelligibility. Depending on the speech material, this corresponds to a signal-
to-noise ratio of − 4 dB to − 6 dB (see Figure F.1). Hence, conversion to other conditions is possible.
B.3 Speakers and listeners
Speakers and listeners should be selected to be representative of the user population of a system under test.
In selecting the speakers and listeners, age, gender, education, relevant experience and linguistic background
should be taken into account. The group of speakers and listeners, the size and training shall be selected in
accordance with ISO/TR 4870.
ISO/TR 4870 recommends the following:
at least one male and one female speaker typical of a given nationality and language;
five well-motivated listeners for small closed-set test formats, and ten for large open-format tests;
normal experience in use and spelling of the language to be used, good hearing, that is a pure tone
audiogram not exceeding a hearing level of 10 dB at any test frequency up to 4 000 Hz, and 15 dB at any
frequency up to 6 000 Hz;
training time between 5 min and 24 h depending on the test format, see ISO/TR 4870:1991, 3.10.
The speech samples may be spoken directly, or prerecorded. Recordings of test material should be made
according to ISO/TR 4870. The electrical parameters of a recording system such as frequency response, non-
linear distortions, and the signal-to-noise ratio should be good enough to be considered ideal in comparison
with the respective parameters of the system under test. For recording, the speaker should be placed in a
quiet and sound absorbing environment. The distance of the speaker’s mouth to the microphone should be
reported.
The speaker should be familiar with the grammar of the text material. The speaker should be given visual
feedback to control the level, and timing, of spoken items. The same kind of feedback should be used in the
case of live and recorded speech. Speakers must be trained until they attain a stable sound-pressure level of
pronounced speech (65 dB ± 3 dB) on the average, at a distance of 1 m in front of the speaker’s lips. For
details see ISO/TR 4870.
Listeners should be familiar with the communication system under testing. They must also become familiar
with the test procedure. The listeners should be given written instructions.
The listeners should be trained until they become familiar with the test procedure and the test words. The
training should include hearing all the words from a list under quiet conditions, using an undistorted
communication system. The training should be conducted until listeners achieve 100 %, or nearly 100 %
performance in ideal conditions. Listeners should be trained by hearing the voices of all the speakers used.
There should be no visual contact between the speaker and the listener in order to prevent the listener from lip
reading.
10 © ISO 2003 — All rights reserved
B.4 Administration of the intelligibility test
Usually, intelligibility testing involves a number of test conditions because several communication systems or
several states of a communication system (e.g. various speech-to-noise ratios) are to be measured, resulting
in different intelligibility ratings. However, if only one test condition is to be assessed, the use of reference
conditions is recommended.
If several conditions are measured, they should be presented using a balanced experimental design that will
neutralize the influence of various random factors, that are not fully controlled in measurements such as the
effect of learning by the listeners. Other information relevant to the listener’s performance should be collected.
This includes information about the confidence of the listener's responses as well as the listener's opinions
about the measured system. All variables important for the conditions of testing should be chosen in advance
or measured.
In the case of live speech, the speaking level, rate of speech and vocal effort should be controlled and
reported. The speech and noise level both on the speaker’s side and at the listener's ears should be
measured and reported. In the case of prerecorded speech, the speech and noise level at the listener’s ears
should be measured and reported.
If the communication device creates constraints of the mouth and lips (e.g. special helmet with a microphone),
it should be reported and described.
B.5 Statistical analysis and documenting results
For a simple test, the mean score (percent correct responses) and the corresponding standard deviation
should be calculated, thus allowing for prediction of the 96 % confidence interval. Depending on the
construction of the test (i.e., number of speakers, number of listeners, number of conditions, number of
replicas), statistical analysis such as an analysis of variance (ANOVA) can be applied.
Annex C
(informative)
Speech transmission index, STI
The STI-method [7], [11], [12], [14] assumes that the intelligibility of a transmitted speech signal is related to
the preservation of the original spectral differences between speech sounds. These spectral differences may
be reduced by band-pass limiting, masking noise, temporal distortion (echoes, reverberation, and automatic
gain control), and non-linear distortion (system overload, quantization noise). The reduction of these spectral
differences can be quantified by the effective signal-to-noise ratio obtained for a number of frequency bands.
Also human-related hearing aspects such as masking, the reception threshold, hearing disorders, and non-
native speakers and listeners may reduce the effective signal-to-noise ratio. The method is based on the
calculation of the effective signal-to-noise ratio in seven relevant frequency bands (octave bands, centre
frequencies ranging from 125 Hz to 8 kHz). Weighted contributions of the quantified information transfer
function in seven octave bands results in a single index, the STI .
r
Originally the STI-method was developed for measurements. For this purpose, a specific test signal was
designed, which, after transmission through the channel under test, was analysed in order to determine the
effective signal-to-noise ratios in different frequency bands and to calculate the STI . The test signal was so
r
designed that, after analysis, information could be obtained on most types of distortion mentioned above. In
particular, temporal distortion and non-linear distortion require a specific test signal and analysis.
It is possible to predict the STI value for transmission channels with band-pass limiting and noise, based on
r
the signal-to-noise ratio in the seven octave bands. However, the prediction of the effect of temporal distortion
on the STI is limited to single echoes and reverberation. For reverberation, a simple algorithm is used and
r
only continuous exponential decay curves can be accounted for. This excludes prediction, for acoustically
1)
coupled enclosures and very complex environments . The effect of non-linear distortion on the STI cannot be
r
predicted by a simple algorithm.
The measurement of the STI is described in IEC 60268-16.
Prediction of the STI-value can be performed in the following nine steps.
Step 1: Determine the speech spectrum in seven octave bands at the listener’s ear.
This includes the determination of the vocal effort (including the Lombard effect and the effect of wearing a
hearing protector, see Annex A), the male/female speech spectrum, the distance between speaker and
listener, and the effect of band-pass limiting.
Step 2: Determine the noise spectrum in seven octave bands at the listener’s ear.
Step 3: For each band, determine the signal-to-noise ratio, based on the speech and noise spectra and
convert these signal-to-noise ratios to the corresponding m-values.
10 S
m = 10 exp
SN+
where
S is the speech level, in decibels;
N is the noise level, in decibels.
1) With prediction algorithms such as ray-tracing, more complex environments can be included.
12 © ISO 2003 — All rights reserved
If no temporal distortion has to be accounted for, then proceed with Step 6.
Step 4: Determine the early decay reverberation time for the listening environment, and calculate the
(octave-band specific) modulation transfer function using the formula given in IEC 60268-16:1998, A.2.1 and
Annex D. This will result in 14 m-values per octave band.
Step 5: For each octave band, correct the seven m-values obtained in Step 3 with the modulation transfer
functions obtained in Step 4. This is performed by multiplication of the modulation transfer function with the
octave-band-specific m-value from Step 3.
Step 6: Correct the m-values for auditory effects (masking, reception threshold).
Step 7: Determine effective signal-to-noise ratios within range limits (− 15 dB to + 15 dB).
Step 8: Determine the modulation transfer indices (MTI) from these effective signal-to-noise ratios.
Step 9: Calculate STI from the MTIs.
r
Annex D
(informative)
Overview of the means of communication and related parameters
D.1 General
A modular overview of the three major means of communication between persons is given in Figure D.1. Each
module is discussed and reference is made to the appropriate section in this International Standard. It is
advised to make an inventory for each module in the communication channel and to identify the relevant
issues that determine the performance of the complete system. Three systems are described in D.2, D.3 and
D.4, by their modules or components, organized by
input: speaker,
channel: environment (room), transmission system,
output: listener.
D.2 Direct communication without the use of electro-acoustic means
For person-to-person communication, the major parameters are: speaker, listener, and the acoustic
environment in which the speaker and listener are positioned. The following parameters are identified.
a) Speaker:
speaker characteristics: gender, age, speaking disorders;
language (native, non-native, see A.6);
type of speech (complexity, see Annex F, Figure F.1);
vocal effort, including Lombard effect and loud speech (see A.1, A.2 and A.3);
speaking direction (directivity, restricted in this International Standard to face-to-face);
wearing a hearing protector (see A.4).
b) Environment:
ambient noise (level, spectrum, see Annexes A, C and E);
temporal distortion (reverberation, echoes, see Annex C);
distance between speaker and listener (see A.5).
c) Listener:
listener characteristics: gender, age, hearing disorders;
language (native, non-native, see A.6);
hearing protection (earmuffs, earplugs, headsets, see A.4).
14 © ISO 2003 — All rights reserved
a
a) Direct communication (person-to-person)
b
b) Public address (warnings, announcements)
c
c) Personal communication system (intercom, telephone, mobile system)
a
Workshop, office, conference room, auditorium.
b
Alert/warning in public areas, public address, offices, shops, railway station, inside transportation means.
c
Telephone, intercom, mobile telephone, command and control sites.
Figure D.1 — Overview of the three means of communication: direct, public address,
and via a personal communication system
D.3 Communication via a public-address system
For public address (PA), electro-acoustic means are used, such as microphones, amplifiers and loudspeakers.
The specifications of the following modules have to be taken into account when estimating the performance.
a) Speaker:
see D.2;
prerecorded messages: (initial intelligibility of reproduced speech).
b) Microphone:
speaking distance and position (see D.2 and A.5);
frequency response (see Annex C);
noise suppression (determine gain in signal-to-noise ratio improvement);
noise spectrum
...
NORME ISO
INTERNATIONALE 9921
Première édition
2003-10-15
Ergonomie — Évaluation de la
communication parlée
Ergonomics — Assessment of speech communication
Numéro de référence
©
ISO 2003
PDF – Exonération de responsabilité
Le présent fichier PDF peut contenir des polices de caractères intégrées. Conformément aux conditions de licence d'Adobe, ce fichier
peut être imprimé ou visualisé, mais ne doit pas être modifié à moins que l'ordinateur employé à cet effet ne bénéficie d'une licence
autorisant l'utilisation de ces polices et que celles-ci y soient installées. Lors du téléchargement de ce fichier, les parties concernées
acceptent de fait la responsabilité de ne pas enfreindre les conditions de licence d'Adobe. Le Secrétariat central de l'ISO décline toute
responsabilité en la matière.
Adobe est une marque déposée d'Adobe Systems Incorporated.
Les détails relatifs aux produits logiciels utilisés pour la création du présent fichier PDF sont disponibles dans la rubrique General Info
du fichier; les paramètres de création PDF ont été optimisés pour l'impression. Toutes les mesures ont été prises pour garantir
l'exploitation de ce fichier par les comités membres de l'ISO. Dans le cas peu probable où surviendrait un problème d'utilisation,
veuillez en informer le Secrétariat central à l'adresse donnée ci-dessous.
© ISO 2003
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l'accord écrit
de l'ISO à l'adresse ci-après ou du comité membre de l'ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax. + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2003 — Tous droits réservés
Sommaire Page
Avant-propos. iv
Introduction . v
1 Domaine d'application. 1
2 Références normatives. 1
3 Termes et définitions . 1
4 Descriptions de la communication parlée. 3
5 Performance des communications parlées.4
6 Évaluation et prédiction . 6
Annexe A (normative) Caractéristiques du locuteur et de l'auditeur. 7
Annexe B (informative) Tests subjectifs de l'intelligibilité de la parole. 9
Annexe C (informative) Indice de transmission de la parole, STI. 12
Annexe D (informative) Présentation générale des moyens de communication et des
paramètres connexes . 14
Annexe E (normative) Niveau d'interférence avec la parole, SIL . 18
Annexe F (informative) Évaluation de l'intelligibilité pour les communications parlées. 19
Annexe G (normative) Définition des symboles. 22
Annexe H (informative) Exemples d'applications des méthodes de prédiction de l'intelligibilité . 23
Bibliographie . 29
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux de
normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général confiée
aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du
comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec
la Commission électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives ISO/CEI,
Partie 2.
La tâche principale des comités techniques est d'élaborer les Normes internationales. Les projets de Normes
internationales adoptés par les comités techniques sont soumis aux comités membres pour vote. Leur
publication comme Normes internationales requiert l'approbation de 75 % au moins des comités membres
votants.
L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de ne
pas avoir identifié de tels droits de propriété et averti de leur existence.
L'ISO 9921 a été élaborée par le comité technique ISO/TC 159, Ergonomie, sous-comité SC 5, Ergonomie de
l'environnement physique.
Cette première édition de l’ISO 9921 annule et remplace l’ISO 9921-1:1996.
iv © ISO 2003 — Tous droits réservés
Introduction
L’objet de la normalisation dans le domaine de l’évaluation ergonomique de la communication parlée est de
recommander les niveaux de qualité de la communication parlée requis pour la transmission de messages
complets dans différentes applications. L’évaluation de la qualité de la communication parlée s’effectue dans
les cas suivants:
avertissement d’un phénomène dangereux;
avertissement d’un danger;
messages d’information sur les lieux de travail, dans des lieux publics, dans des salles de réunion et
dans des auditoriums.
Certaines applications prennent en considération la communication directe entre les êtres humains, tandis
que pour d’autres applications, l’utilisation de systèmes électro-acoustiques (par exemple systèmes de
sonorisation) ou d’équipements de communication personnelle (par exemple téléphone ou équipement
d’intercommunication) constitue le moyen d’information, d’instruction ou d’échange d’information le plus
pratique.
La présente Norme internationale ne traite pas de l’utilisation de signaux d’avertissement sonores autres que
la parole, consignée dans l’ISO 7731.
Les signaux de danger et d'avertissement acoustiques sont généralement omnidirectionnels et peuvent par
conséquent être universels dans de nombreuses situations. Les avertissements sonores présentent un grand
avantage dans les situations où la fumée, l'obscurité ou d'autres obstacles interfèrent avec les avertissements
visuels.
Il est essentiel que le niveau d'intelligibilité des messages oraux soit suffisant dans leur zone de couverture.
Dans le cas contraire, il peut être préférable d'utiliser des signaux d'avertissement non vocaux (voir l’ISO 7731,
la CEI 60849 et [4] dans la Bibliographie) ou des signaux d'avertissement visuels (voir l’ISO 11429).
Des signaux acoustiques excessifs peuvent altérer l'audition ou l'environnement (par exemple nuisance
sonore à laquelle sont soumis des logements à proximité de quais de gare, d’axes de circulation routière ou
d’aéroports). Une conception appropriée peut minimiser ces aspects défavorables. De plus, des méthodes de
prédiction suffisamment précises sont utiles aux consultants, aux fournisseurs et aux utilisateurs finals et
peuvent ainsi réduire les coûts des adaptations nécessaires suite à l'installation d'un système.
Les communications peuvent s'effectuer directement entre êtres humains, par l'intermédiaire de systèmes de
sonorisation, d'intercommunication ou de messages préenregistrés. De manière générale, les systèmes
texte-parole ne sont pas recommandés en raison de leur faible intelligibilité.
Il est admis que, dans un document à caractère général, d’application simple et aisément disponible, il
convient de décrire des outils de prédiction et d’évaluation, ainsi que des méthodes plus sophistiquées liées
aux technologies de pointe.
NORME INTERNATIONALE ISO 9921:2003(F)
Ergonomie — Évaluation de la communication parlée
1 Domaine d'application
La présente Norme internationale spécifie les exigences de performance en communication parlée relatives
aux signaux oraux d'alerte et de danger, aux messages d'information et à la communication parlée en général.
Des méthodes de prédiction et d'évaluation de la performance, subjectives et objectives, sont décrites dans
des applications pratiques avec des exemples à l’appui.
Pour obtenir une performance optimale dans une application spécifique, trois phases peuvent être
considérées:
a) spécification de l'application et définition des critères de performance correspondants;
b) conception d'un système de communication et prédiction de la performance;
c) évaluation de la performance dans des conditions in situ.
La présente Norme internationale ne traite pas de l’utilisation de signaux d’avertissement sonores autres que
la parole, consignée dans l’ISO 7731.
2 Références normatives
Les documents de référence suivants sont indispensables pour l'application du présent document. Pour les
références datées, seule l'édition citée s'applique. Pour les références non datées, la dernière édition du
document de référence s'applique (y compris les éventuels amendements).
ISO/TR 4870:1991, Acoustique — Élaboration et étalonnage des tests d'intelligibilité de parole
CEI 60268-16:1998, Équipements pour systèmes électroacoustiques — Partie 16: Évaluation objective de
l'intelligibilité de la parole au moyen de l'indice de transmission de la parole
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s'appliquent.
3.1
alarme
avertissement d'un danger existant ou imminent
3.2
danger
risque de préjudice ou de dommage
3.3
rapport signal-bruit effectif
mesure visant à exprimer l'effet (combiné) de différents types de distorsions sur l'intelligibilité d'un signal parlé,
en termes de l'effet d'un bruit masquant entraînant un signal parlé de même intelligibilité
3.4
urgence
risque imminent ou menace sérieuse pour les personnes ou les biens
3.5
effet Lombard
augmentation spontanée de l'effort vocal induite par l'augmentation du niveau de bruit ambiant au niveau de
l'oreille du locuteur
3.6
locuteur non natif
personne s’exprimant dans une autre langue que la langue apprise comme langue principale lors de l’enfance
3.7
communication parlée
transmission ou échange d'information utilisant les modalités de la voix, de la parole, de l'audition et la
compréhension
NOTE La communication parlée peut comprendre des textes brefs, des phrases, des groupes de mots et/ou des
mots seuls.
3.8
communicabilité de la parole
évaluation de l'aisance d'exécution de la communication parlée
NOTE La communicabilité de la parole comprend l'intelligibilité de la parole, la qualité de la parole, l'effort vocal et les
«temps morts».
3.9
intelligibilité de la parole
évaluation du pourcentage de parole compris
NOTE L’intelligibilité de la parole est généralement quantifiée en pourcentage d’un message compris correctement.
3.10
indice d'intelligibilité de la parole
SII
méthode objective de prédiction de l'intelligibilité fondée sur l'indice d'articulation
NOTE Voir [1] dans la Bibliographie.
3.11
niveau d'interférence avec la parole
SIL
différence entre un niveau de parole pondéré A et la moyenne arithmétique des niveaux de pression
acoustique du bruit ambiant dans quatre bandes d'octave ayant des fréquences centrales de 500 Hz,
1 000 Hz, 2 000 Hz et 4 000 Hz
3.12
qualité de la parole
évaluation de la qualité sonore d'un signal parlé
NOTE La qualité de la parole caractérise la quantité de distorsions audibles d'un signal parlé, et elle est
généralement évaluée par une description.
3.13
indice de transmission de la parole
STI
méthode objective de prédiction et de mesure de l'intelligibilité de la parole
3.14
effort vocal
faculté du locuteur, évaluée de manière objective par le niveau de parole pondéré A à une distance de 1 m de
la bouche, et qualifiée de manière subjective par une description
2 © ISO 2003 — Tous droits réservés
3.15
avertissement
notification importante concernant tout changement d'état requérant une attention ou une activité particulière
4 Descriptions de la communication parlée
4.1 Généralités
La communication parlée requiert trois composantes séquentielles: un locuteur, un canal de transmission et
un (des) auditeur(s). Sur la base de ce concept , trois moyens de communication différents sont identifiés.
a) Communication directe. C’est un moyen de communication type des communications de personne à
personne lorsque deux personnes se trouvent dans le même environnement sans utiliser de dispositif
électroacoustique.
b) Système de sonorisation. Il s'agit généralement d'un système électroacoustique utilisé pour s'adresser
à un groupe de personnes dans un ou plusieurs environnements.
c) Systèmes de communication personnelle. Ces systèmes comprennent l'utilisation de téléphones
mobiles et d’émetteurs-récepteurs portatifs ainsi que de téléphones normaux, d'équipements
d'intercommunication et de téléphones mains libres.
4.2 Locuteur
Plusieurs paramètres, en rapport avec le locuteur, définissent la contribution de ce dernier à la performance
d'une communication. Ces paramètres comprennent l'effort vocal, la qualité d'élocution, le sexe (masculin ou
féminin), les accents, les paroles prononcées par un non-natif, les troubles du langage, et la distance par
rapport à l’auditeur ou par rapport au microphone.
Le niveau de pression acoustique pondéré A équivalent à 1 m de distance de la bouche du locuteur exprime
l'effort vocal. Le niveau de bruit ambiant dans la position du locuteur (qui provoque l'effet Lombard) et le port
d'un protecteur individuel contre le bruit exercent une influence sur l'effort vocal. L'Annexe A décrit la relation
entre ces paramètres ainsi que l'effet sur la qualité de la parole.
Le sexe du locuteur et l'effort vocal conditionnent le spectre de fréquences de la parole. Ceci peut entraîner,
en association avec un type de bruit spécifique, une performance «sexospécifique» [voir Annexe B (B.3) et
Annexe C].
Les effets des accents prononcés et des locuteurs et auditeurs non natifs réduisent la performance d'une
communication; des données quantitatives à ce sujet sont fournies en A.6.
4.3 Canal de transmission
Le canal de transmission entre la bouche du locuteur et l'oreille de l'auditeur est décrit par la distribution du
signal parlé dans une pièce ou par la voie d’un système électroacoustique. Il affecte la détérioration du signal
parlé. Le bruit ambiant, la réverbération, les échos, le rayonnement sonore, la limitation de la réponse en
fréquence et les non-linéarités exercent une influence importante sur la communication. L'Annexe D présente
une vue d’ensemble des moyens de communication et des paramètres connexes existants.
4.4 Auditeur
Dans le cas de l'auditeur, les aspects de l'audition (audition directionnelle, masquage, troubles de l'audition,
seuil de réception) et l'utilisation d'une protection individuelle contre le bruit définissent la détérioration. Les
Annexes A, C, D et E prennent en considération ces paramètres en rapport avec l'auditeur, à l'exception du
paramètre d'audition directionnelle qui n'est pas traité dans la présente Norme internationale.
5 Performance des communications parlées
5.1 Généralités
La compréhension des messages parlés requiert une reconnaissance correcte de chaque énoncé. En termes
techniques, cela signifie qu’une note d'intelligibilité de 100 % est requise pour les phrases prononcées. Une
note d'intelligibilité des phrases de 100 % ne signifie pas que chaque mot individuel est clairement compris et
que la situation d'écoute est confortable et détendue, et il existe de nombreuses situations qui requièrent une
meilleure performance. Les situations d'alerte, dans des conditions défavorables, requièrent simplement la
compréhension totale d'un message court, même si la compréhension correcte de ce message nécessite un
certain effort de l'auditeur. Des conditions d'énonciation plus détendue et d'écoute correcte sont requises
dans une salle de réunion, un auditorium ou sur un lieu de travail, où la communication parlée constitue un
élément de la tâche à exécuter et où les personnes sont généralement présentes pour une plus longue durée.
Ceci se traduit, dans le cas du locuteur, par le faible effort vocal requis pour pouvoir être compris (voir
Tableau A.1). Dans le cas de l'auditeur, l'effort d'écoute peut être principalement lié à l'intelligibilité de la
parole et à la qualité de la parole dans la position d'écoute (voir Tableau F.1). L'étendue des échelles de
classification et le nombre d'intervalles sont suffisamment importants pour pouvoir différencier les conditions
requises pour différentes applications (voir Tableau F.1 et Figure F.1).
La qualité de la communication parlée s'exprime en termes d'intelligibilité et d'effort vocal. La présente Norme
internationale identifie diverses conditions d'application et d'environnement. Pour chacune de ces conditions,
des critères de performance minimale sont recommandés, couvrant l'ensemble des messages courts d'alerte
et d'avertissement dans des conditions défavorables et des communications détendues dans une salle de
réunion ou un auditorium. Les personnes présentant un léger trouble de l'audition (généralement les
personnes âgées) ou les auditeurs non natifs requièrent un rapport signal-bruit plus élevé (approximativement
3 dB).
Les différents champs d'application sont décrits de 5.2 à 5.5 et résumés en 5.6.
5.2 Situations d'alerte et d'avertissement
Les situations d'alerte et d'avertissement requièrent généralement des messages courts clairement énoncés,
destinés à fournir des instructions pour une évacuation ou un dégagement en toute sécurité, avec un risque
d'affolement minimal. Il convient ainsi que des phrases simples soient comprises correctement même dans
des conditions défavorables, avec des niveaux de bruit ambiant élevés, voire lorsque le locuteur crie, etc.
Comme l'indique l'Annexe F (Figure F.1), la qualification «faible» convient parfaitement aux situations d'alerte
et d'avertissement. Ce critère représente une valeur moyenne pour les auditeurs ayant une capacité auditive
normale (couverture de la population à 50 %). Une plus grande valeur est requise pour couvrir 96 % de la
population, cette valeur pouvant être exprimée par une augmentation de 3 dB du rapport signal-bruit. Le
critère minimal recommandé est par conséquent généralement «faible».
Un niveau d'intelligibilité faible à correct peut être recommandé dans des conditions défavorables d'utilisation
d'un système de sonorisation. Toutefois, les distorsions dues aux systèmes électroacoustiques et/ou à
l'environnement (limitation du filtre passe-bande, distorsion non linéaire, bruit, réverbération et échos) peuvent
également affecter l'intelligibilité de la parole. Ceci se traduit généralement par la nécessité d'un meilleur
rapport signal-bruit.
Il est nécessaire d'évaluer la performance du système dans des conditions (in situ) représentatives afin
d'intégrer les effets de toutes les distorsions et de toutes les conditions ambiantes sur l'évaluation globale de
l'intelligibilité.
4 © ISO 2003 — Tous droits réservés
5.3 Communications de personne à personne
La communication dans les situations de travail, bureaux, salles de réunion, auditoriums, ainsi que dans les
situations critiques (personnel ambulancier, pompiers, etc.) requiert un niveau d'intelligibilité différent en
fonction de son objectif. Dans les situations critiques, les messages échangés sont généralement courts et
incluent également un certain nombre de mots critiques connus. Dans ce genre de conditions de
communication, il est recommandé au moins une intelligibilité «correcte» avec un effort vocal plus important
(fort).
Il est recommandé un niveau d'intelligibilité satisfaisant, permettant un effort vocal normal, dans un type de
communication détendue telle qu'elle se produit dans des bureaux, lors de réunions, de conférences et de
représentations qui ont lieu sur une durée plus longue.
5.4 Système de sonorisation dans les lieux publics
La durée des annonces d'intérêt général dans les lieux publics est courte ou moyenne à un effort vocal
normal. Le contenu de ces annonces peut comporter des nombres, des noms de destinations, des noms de
personnes, etc. Une intelligibilité correcte à bonne est recommandée dans ce genre de situations. Les lieux
types d'utilisation de systèmes de sonorisation sont les centres commerciaux, les gares ferroviaires, les
transports en commun et les stades.
5.5 Systèmes de communication personnelle
La largeur de bande des systèmes de communication est généralement limitée, ce qui permet leur utilisation
dans des ambiances bruyantes. L’usage extérieur de téléphones mobiles, d'émetteurs-récepteurs portatifs et
l’usage intérieur de téléphones normaux et de téléphones mains libres sont des exemples d'utilisation de
systèmes de communication personnelle. Une intelligibilité correcte à bonne est recommandée en fonction du
type de communication (complexité des messages) et de l'intensité d'utilisation, une intelligibilité correcte à
bonne étant conseillée à un effort vocal normal.
5.6 Résumé de la performance minimale recommandée
Le Tableau 1 donne un résumé de la performance minimale recommandée. Il est toutefois conseillé d'utiliser
des niveaux d'évaluation plus «précis» dans certaines situations.
Tableau 1 — Niveaux d'évaluation de la performance minimale recommandée en matière
d'intelligibilité et d'effort vocal dans le cas de quatre applications différentes
(des exemples de niveaux d’évaluation sont cités dans le Tableau A.1)
Niveau d'évaluation de
Application l'intelligibilité minimale Effort vocal maximal Description
requise
Situations d'alerte et
d'avertissement (compréhension Faible Fort 5.2
correcte de phrases simples)
Situations d'alerte et
d'avertissement (compréhension Correct Fort 5.2
correcte de mots critiques)
Communications de personne à
Correct Fort 5.3
personne (critiques)
Communications de personne à
Bon Normal 5.3
personne (communication
normale prolongée)
Sonorisation dans les lieux
Correct Normal 5.4
publics
Systèmes de communication
Correct Normal 5.5
personnelle
6 Évaluation et prédiction
6.1 Généralités
L'évaluation de la communication parlée inclut la qualité, l'intelligibilité et la communicabilité de la parole, ainsi
que l'effort vocal. Seuls l'intelligibilité de la parole et l'effort vocal sont pris en considération pour les besoins
de la présente Norme internationale. L'intelligibilité peut être déterminée par des méthodes subjectives
(utilisant des locuteurs et des auditeurs) et par des méthodes objectives (utilisant des propriétés physiques et
la description physique du processus d’élocution et d’écoute).
6.2 Méthodes d'évaluation subjectives
Des tests d'intelligibilité subjectifs consistent à faire lire à des locuteurs entraînés des listes de «mots-clés» et
à faire écrire à des auditeurs, également entraînés, ce qu'ils pensent avoir entendu. Ces listes comportent
généralement 50 mots, le résultat des tests étant noté sur 100. Il convient d’intégrer les «mots-clés» dans une
locution porteuse afin
a) de permettre au locuteur de contrôler son effort vocal,
b) de tenir compte de la distorsion temporelle lors de la prononciation du «mot-clé», et
c) de capter l'attention de l'auditeur pour chaque énoncé.
Les «mots-clés» peuvent avoir ou non un sens, et être équilibrés phonétiquement (distribution phonétique
représentative de la langue) ou de manière égale (distribution phonétique égale pour tous les phonèmes). Le
type de mots utilisés dans le test définit la relation avec les autres types de tests, tels que STI (indice de
transmission de la parole) ou SIL (niveau d'interférence avec la parole). L'Annexe B et l'ISO/TR 4870 donnent
une description informative des tests d'intelligibilité subjectifs.
6.3 Méthodes objectives d'évaluation et de prédiction
Il existe plusieurs méthodes objectives de prédiction de l'intelligibilité de la parole. La méthode retenue utilise
soit les résultats de mesurages objectifs, soit les spécifications d'un système et d'un espace donnés, pour
calculer un indice de prédiction de l'intelligibilité. Ces méthodes peuvent comprendre
le spectre du signal parlé,
le spectre du bruit ambiant,
la distribution spatiale des champs acoustiques,
la réverbération,
la sélection associée des positions de l'auditeur, et
l'évaluation de la note d'intelligibilité obtenue.
Les méthodes couramment utilisées sont le niveau d'interférence avec la parole (SIL), l'indice de transmission
de la parole (STI), et l'indice d'intelligibilité de la parole (SII). L'Annexe E fournit une description normative de
la méthode SIL, la CEI 60268-16 fournit également une description normative de la méthode STI, et
[1]
l'Annexe C en donne une description informative. L'ANSI S3.5 décrit la méthode SII.
6 © ISO 2003 — Tous droits réservés
Annexe A
(normative)
Caractéristiques du locuteur et de l'auditeur
A.1 Effort vocal
Le niveau du signal parlé dépend de l’effort vocal du locuteur. L’effort vocal est exprimé par le niveau de
pression acoustique pondéré A équivalent continu de la parole mesuré à une distance de 1 m de la bouche.
La relation entre l’effort vocal et le niveau correspondant est indiquée dans le Tableau A.1 pour un locuteur
masculin type.
Tableau A.1 — Effort vocal d’un locuteur masculin et niveau de parole pondéré A associé
(dB re 20 µPa) à une distance de 1 m de la bouche
L
S, A, 1 m
Effort vocal
dB
Très fort 78
Fort 72
Élevé 66
Normal 60
Détendu 54
A.2 Effet du bruit ambiant sur l’effort vocal
Le bruit ambiant au-dessus d’un certain niveau influence l’effort vocal (c’est ce qui se nomme l’effet Lombard).
La Figure A.1 présente la relation entre le niveau de parole et le niveau de bruit ambiant. La zone hachurée
indique la variabilité de l’effet Lombard parmi les différents locuteurs.
A.3 Diminution de la qualité de la parole dans le cas d’une parole prononcée avec un
effort vocal fort
La qualité d’une parole prononcée avec un effort vocal élevé, au-delà du niveau L = 75 dB, est réduite
S, A, 1 m
de manière importante, rendant de ce fait sa compréhension plus difficile en comparaison de la parole
produite avec un effort vocal plus faible. Ce phénomène est pris en compte par la réduction du niveau de
parole dans les différents calculs: la valeur (L ) doit être réduite de ∆L = 0,4 (L – 75) dB pour
S, A, 1 m S, A, 1 m
L > 75 dB.
S, A, 1 m
NOTE Certains symboles utilisés dans cette annexe sont définis dans l’Annexe G.
A.4 Effet de la protection de l’ouïe sur l’effort vocal
Un locuteur portant des protecteurs individuels contre le bruit réduit son effort vocal d’environ 3 dB en
comparaison de la situation observée en l’absence de ces protecteurs lorsque le niveau de bruit ambiant L
N, A
dépasse 75 dB.
Figure A.1 — Relation entre la gamme de l'effort vocal (niveau sonore continu équivalent de la parole)
et le niveau de bruit ambiant dans la position du locuteur
A.5 Effet de la distance entre le locuteur et l’auditeur
Il est possible de calculer, à l’aide de l’équation suivante, une valeur approximative du niveau de parole dans
la position de l’auditeur (L ), à partir du niveau de parole dans la position du locuteur (L ):
S, A, L S, A, 1 m
r
=− 20lg
LL
S, A, L S, A, 1 m
r
où
r est la distance, en mètres, entre le locuteur et l’auditeur;
r = 1 m.
La diminution du niveau de parole est donc supposée être de 6 dB pour chaque doublement de la distance.
Cette relation est valable pour des conditions en milieu intérieur et extérieur jusqu’à une distance d’environ
2 m. Elle reste valable jusqu'à 8 m si le temps de réverbération à une fréquence de 500 Hz est inférieur à 2 s.
Une distance maximale de 8 m est valable pour des conditions avec un temps de réverbération inférieur à 2 s
à une fréquence de 500 Hz.
A.6 Effet des locuteurs et auditeurs non natifs
Une intelligibilité réduite est observée avec les locuteurs et auditeurs non natifs qui parlent couramment une
deuxième langue. Dans le cas de locuteurs et/ou auditeurs non natifs, une amélioration du rapport signal-bruit
de 4 dB à 5 dB est requise pour une intelligibilité similaire à celle obtenue avec des locuteurs et/ou auditeurs
[15]
natifs . Cette amélioration de 4 dB du rapport signal-bruit correspond à une augmentation de l’indice STI de
0,13 et du niveau SIL de 4 dB.
8 © ISO 2003 — Tous droits réservés
Annexe B
(informative)
Tests subjectifs de l'intelligibilité de la parole
B.1 Conditions de base pour la réalisation des tests
La capacité d’énonciation des locuteurs et la capacité auditive des auditeurs doivent être suffisantes pour
assurer une communication directe, une communication par système de sonorisation ou une communication
par dispositif de communication personnelle qui soient efficaces (voir Figure D.1).
Les locuteurs et les auditeurs doivent être habitués à la langue utilisée, de manière à pouvoir prononcer et
comprendre un message oral. Il est préférable de faire appel à des locuteurs dont la langue utilisée est la
langue maternelle.
Il convient de protéger les auditeurs contre les risques pour la santé et la sécurité. Cela signifie qu’il est
recommandé de ne pas dépasser un niveau de parole de sécurité. Le niveau maximal de parole recommandé
est de 80 dB pondéré A pour une durée d’exposition maximale de 8 h par journée de travail.
B.2 Matériel d’essai
B.2.1 Généralités
Il convient de réaliser le test d’intelligibilité de la parole de manière à obtenir des résultats valables et fiables
permettant d’effectuer une analyse des erreurs observées dans les réponses des auditeurs. Le matériel utilisé
pour le test doit recourir à des échantillons de sons vocaux, typiques du système de communication soumis à
l’essai et représentatifs du type de message transmis par ledit système. Il y a lieu de prendre en considération
le caractère économique du test effectué, à savoir le recours à une automatisation potentielle permettant de
simplifier l’administration du test.
Un certain nombre de méthodes de mesure d’intelligibilité de la parole ont été proposées (voir F.4). La
présente Norme internationale traite de trois types de tests d’intelligibilité, à savoir
un test de mots CVC dépourvus de sens à ensemble ouvert,
EQB
un test de mots phonétiquement équilibrés et ayant un sens également à ensemble ouvert, et
un test de phrases.
B.2.2 Listes à ensemble ouvert
Les listes à ensemble ouvert d’éléments de test sont constituées d’éléments prélevés de manière aléatoire
sur un ensemble total d’éléments de test. Dans le cas des tests de mots CVC dépourvus de sens, un élément
de test est généré de manière aléatoire à partir d’un ensemble de consonnes initiales, de voyelles et de
consonnes finales. Les mots CVC dépourvus de sens sont équilibrés afin de représenter en proportion
EQB
égale tous les phonèmes de la langue utilisée pour le test. Pour la génération du test CVC, les restrictions
dépendantes de la langue utilisée peuvent s’appliquer pour la conjonction de phonèmes spécifiques.
Le test de mots phonétiquement équilibrés ayant un sens (mots phonétiquement équilibrés) est élaboré
comme un ensemble de mots monosyllabiques. Les tests de mots phonétiquement équilibrés génèrent
différents phonèmes dans la proportion où ils apparaissent dans la langue naturelle.
Le test de mots CVC dépourvus de sens et le test de mots phonétiquement équilibrés ayant un sens (mots
phonétiquement équilibrés) comprennent généralement 50 mots par liste. Le nombre total minimal d’éléments
de test requis est de 1 000 mots, afin d’éviter que les auditeurs ne s’adaptent à des listes fréquemment
utilisées (voir ISO/TR 4870). Le test de mots CVC requiert un rapport signal-bruit d’environ 6 dB de plus,
EQB
de manière à obtenir une note correcte à pourcentage similaire à celui du test de mots phonétiquement
équilibrés ayant un sens (voir Figure F.1).
Les listes énoncées par les locuteurs sont présentées à un panel d’auditeurs. Dans la mesure où la forme
ouverte est utilisée, les auditeurs répondent généralement en inscrivant leur réponse sur une feuille prévue à
cet effet (ou à l’aide d’un clavier «muet»). La note d’intelligibilité correspond au pourcentage de mots identifiés
de manière correcte dans le test. Les tests de mots CVC dépourvus de sens permettent également de
déterminer des notes distinctes pour la consonne initiale, la voyelle et la consonne finale: ceci permet alors
d’établir une grille de correction. Pour des détails, voir l’Annexe F, l’ISO/TR 4870 et [13] dans la Bibliographie.
B.2.3 Tests de phrases
En règle générale, les tests de phrases ne sont pas recommandés pour évaluer les systèmes de transmission,
dans la mesure où les connaissances de l’auditeur en matière de grammaire, de signification et de syntaxe de
la phrase influencent les résultats. Une autre difficulté est la construction d’un grand nombre de phrases
[10]
phonétiquement représentatives de la parole et présentant une complexité bien définie. La méthode SRT
peut toutefois être employée pour des utilisations spécifiques, car elle détermine le niveau de bruit qui assure
un pourcentage d’intelligibilité de la phrase de 50 %. Cela correspond à un rapport signal-bruit compris entre
− 4 dB et – 6 dB, selon les éléments utilisés pour les tests (voir Figure F.1). La réalisation des tests dans
d’autres conditions est par conséquent possible.
B.3 Locuteurs et auditeurs
Il convient de sélectionner les locuteurs et les auditeurs de sorte qu’ils soient représentatifs de la population
d’utilisateurs d’un système soumis à l’essai. La sélection des locuteurs et des auditeurs tient généralement
compte de leurs âge, sexe, formation, expérience pertinente et antécédents linguistiques. Le groupe de
locuteurs et auditeurs ainsi que sa taille et la formation de ces derniers doivent être sélectionnés
conformément à l’ISO/TR 4870.
L’ISO/TR 4870 recommande ce qui suit:
faire appel au moins à un locuteur masculin et à un locuteur féminin représentatifs d’une nationalité et
d’une langue données;
faire appel à cinq locuteurs parfaitement motivés pour les tests à ensembles fermés à petite échelle, et à
dix locuteurs également fortement motivés pour les tests à ensembles ouverts à grande échelle;
une expérience ordinaire dans l’utilisation et la prononciation de la langue à utiliser, ainsi qu’une bonne
capacité auditive, à savoir que l’audiogramme tonal ne doit pas dépasser un niveau d’audition de 10 dB
pour toute fréquence d’essai jusqu’à 4 000 Hz, et de 15 dB pour toute fréquence d’essai jusqu’à
6 000 Hz;
un temps de formation compris entre 5 min et 24 h en fonction du type de test, voir l’ISO/TR 4870:1991,
page 12.
Les échantillons «de parole» peuvent être énoncés directement ou être préenregistrés. Les enregistrements
des éléments de test sont généralement conformes à l’ISO/TR 4870. Il est recommandé que les paramètres
électriques d’un système d’enregistrement tels que la réponse en fréquence, les distorsions non linéaires et le
rapport signal-bruit soient suffisamment corrects pour pouvoir être considérés comme des paramètres idéaux
par comparaison avec les paramètres respectifs du système soumis à l’essai. Pour procéder à
l’enregistrement, il convient de placer le locuteur dans un environnement calme et absorbant. Il y a lieu de
consigner la distance entre la bouche du locuteur et le microphone.
10 © ISO 2003 — Tous droits réservés
Il convient que le locuteur ait une bonne connaissance de la grammaire du texte utilisé pour le test. Ce dernier
bénéficie généralement d’une rétroaction visuelle lui permettant de contrôler le niveau et la synchronisation
des éléments énoncés. Il est recommandé d’utiliser le même type de rétroaction dans le cas de paroles
directes et enregistrées. Les locuteurs doivent être entraînés de manière à parvenir à un niveau de pression
acoustique stable de paroles prononcées (65 dB ± 3 dB) en moyenne, à une distance de 1 m par rapport à
leurs lèvres. Pour des détails, voir l’ISO/TR 4870.
Il convient que les auditeurs connaissent bien le système de communication soumis à l’essai. Ils doivent
également se familiariser avec la procédure utilisée pour le test. Ils reçoivent généralement des instructions
écrites.
Il est bon que les auditeurs s’entraînent jusqu’à ce qu’ils connaissent bien la procédure et les mots utilisés
pour le test. Il convient que leur formation comprenne l’audition de tous les mots constitutifs d’une liste dans
des conditions de silence absolu, en utilisant un système de communication non déformé. La formation se
poursuit généralement jusqu’à ce que les auditeurs parviennent à un niveau de performance de 100 % ou
presque dans des conditions idéales. Il y a lieu que leur formation comprenne l’audition des voix de tous les
locuteurs en présence. Il n’y a généralement aucun contact visuel entre le locuteur et l’auditeur afin d’éviter
que ce dernier ne lise les mots prononcés par le locuteur sur ses lèvres.
B.4 Administration du test d’intelligibilité
Le test d’intelligibilité comprend généralement un certain nombre de conditions d’essai dans la mesure où
plusieurs systèmes de communication ou plusieurs états d’un système de communication (par exemple
différents rapports signal parlé-bruit) doivent être mesurés, entraînant différentes évaluations d’intelligibilité.
L’utilisation de conditions de référence est toutefois recommandée lorsqu’une seule condition d’essai doit faire
l’objet d’une évaluation.
Lorsque plusieurs conditions font l’objet de mesures, il convient de les présenter selon un schéma
expérimental équilibré, qui neutralise l’influence de différents facteurs aléatoires que les mesures ne peuvent
pas contrôler entièrement, tels que l’effet d’apprentissage par les auditeurs. Il est recommandé de recueillir
les autres informations utiles à la performance de l’auditeur. Ceci comprend les informations concernant le
niveau de confiance accordé aux réponses fournies par les auditeurs ainsi que les opinions de ces derniers
relatives au système mesuré. Toutes les variables importantes pour les conditions d’essai sont généralement
choisies de manière préalable ou mesurées.
Dans le cas de paroles directes, il convient de contrôler et de consigner le niveau de parole, la vitesse
d’élocution ainsi que l’effort vocal. Il est également recommandé de mesurer et de consigner le niveau de
parole et de bruit à la fois au niveau du locuteur et au niveau des oreilles de l’auditeur. Dans le cas de paroles
préenregistrées, il y a lieu de mesurer et de consigner le niveau de parole et de bruit au niveau des oreilles de
l’auditeur.
Il convient de consigner et de décrire toute contrainte au niveau de la bouche et des lèvres (par exemple due
à l’utilisation d’un casque spécial avec microphone) occasionnée par le dispositif de communication.
B.5 Analyse statistique et documentation des résultats
Dans le cas d’un test simple, il convient de calculer la note moyenne (pourcentage de réponses correctes) et
l’écart-type correspondant, ce qui permet de prédire un intervalle de confiance à 96 %. Une analyse
statistique, telle qu’une analyse de la variance (ANOVA) peut s’appliquer selon la construction du test (c’est-à-
dire selon le nombre de locuteurs, d’auditeurs, de conditions et de répliques).
Annexe C
(informative)
Indice de transmission de la parole, STI
La méthode STI [7] [11] [12] [14] suppose que l’intelligibilité d’un signal parlé transmis est liée au maintien des
différences spectrales initiales entre les sons vocaux. Il est possible de réduire ces différences spectrales par
une limitation du filtre passe-bande, un bruit masquant, une distorsion temporelle (échos, réverbération et
contrôle automatique de gain) et une distorsion non linéaire (surcharge, bruit de quantification). La réduction
de ces différences spectrales peut être quantifiée par le rapport signal-bruit effectif obtenu pour un certain
nombre de bandes de fréquences. Les aspects liés à la capacité auditive des êtres humains, tels que le
masquage, le seuil de réception, les troubles de l’ouïe et les locuteurs et auditeurs non natifs, peuvent
également réduire le rapport signal-bruit effectif. La méthode est fondée sur le calcul du rapport signal-bruit
effectif dans sept bandes de fréquences appropriées (bandes d’octave, fréquences centrales comprises entre
125 Hz et 8 kHz). Les contributions pondérées de la fonction de transfert d’information quantifiée dans sept
bandes d’octave donnent un indice unique, l’indice STI .
r
La méthode STI a été initialement développée pour effectuer des mesurages. À cet effet, un signal d’essai
spécifique a été élaboré, qui, après sa transmission par le canal soumis à essai, a fait l’objet d’une analyse
afin de déterminer les rapports signal-bruit effectifs dans différentes bandes de fréquences et de calculer
l’indice STI . Le signal d’essai a été conçu de sorte que, au terme de l’analyse, des informations puissent être
r
obtenues sur la plupart des types de distorsion mentionnés ci-dessus. Plus particulièrement, la distorsion
temporelle et la distorsion non linéaire requièrent un signal d’essai et une analyse spécifiques.
Il est possible de prédire la valeur STI pour les canaux de transmission avec limitation du filtre passe-bande
r
et niveau de bruit, sur la base du rapport signal-bruit dans les sept bandes d’octave. La prédiction de l’effet de
la distorsion temporelle sur la valeur STI se limite toutefois à des échos et une réverbération uniques. Un
r
algorithme simple est utilisé pour calculer la réverbération et seules des courbes de décroissance
exponentielle continue peuvent être prises en compte. Ceci exclut la prédiction d’enceintes à couplage
1)
acoustique et d’environnements très complexes . L’utilisation d’un algorithme simple ne permet pas de
prédire l’effet de la distorsion non linéaire sur la valeur STI .
r
La CEI 60268-16 décrit le mesurage de l’indice STI.
La prédiction de la valeur STI peut s’effectuer se
...










Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...