Statistical methods for use in proficiency testing by interlaboratory comparison

This document provides detailed descriptions of statistical methods for proficiency testing providers to use to design proficiency testing schemes and to analyse the data obtained from those schemes. This document provides recommendations on the interpretation of proficiency testing data by participants in such proficiency testing schemes and by accreditation bodies. The procedures in this document can be applied to demonstrate that the measurement results obtained by laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance. This document is applicable to proficiency testing where the results reported are either quantitative measurements or qualitative observations on test items. NOTE The procedures in this document can also be applied for the assessment of expert opinion where the opinions or judgments are reported in a form which can be compared objectively with an independent reference value or a consensus statistic. For example, when classifying proficiency test items into known categories by inspection - or in determining by inspection whether proficiency test items arise, or do not arise, from the same original source - and the classification results are compared objectively, the provisions of this document that relate to nominal (qualitative) properties can be applied.

Méthodes statistiques utilisées dans les essais d'aptitude par comparaison interlaboratoires

Le présent document fournit des descriptions détaillées de méthodes statistiques à utiliser par les organisateurs d’essais d’aptitude pour concevoir des programmes d’essais d’aptitude et pour analyser les données obtenues à partir de tels programmes. Le présent document donne des recommandations sur l’interprétation des données d’essais d’aptitude par les participants à de tels programmes d'essais d'aptitude et par les organismes d’accréditation. Les procédures du présent document peuvent être appliquées pour démontrer que les résultats de mesure obtenus par des laboratoires, des organismes de contrôle et des personnes remplissent les critères spécifiés pour des performances acceptables. Le présent document est applicable à des essais d’aptitude dans lesquels les résultats consignés sont des observations quantitatives ou qualitatives sur des entités soumises à l’essai. NOTE Les procédures énoncées dans le présent document peuvent être également appliquées pour l’évaluation d’un avis d’expert lorsque les avis ou les jugements sont consignés sous une forme qui peut être comparée de manière objective avec une valeur de référence indépendante ou avec une statistique consensuelle. Par exemple, lorsque des entités soumises à l’essai d’aptitude sont classées en catégories connues par contrôle – ou lorsque l’on cherche à déterminer par contrôle si des entités soumises à l’essai d’aptitude proviennent ou non de la même source d’origine – et lorsque les résultats de la classification sont comparés de manière objective, les dispositions du présent document qui se rapportent à des propriétés (qualitatives) nominales peuvent être appliquées.

Statistične metode za uporabo pri preverjanju strokovnosti z medlaboratorijsko primerjavo

Ta dokument zagotavlja natančne opise statističnih metod za ponudnike preverjanja strokovnosti, ki so namenjeni za uporabo pri zasnovi shem za preverjanje strokovnosti in analizi podatkov, pridobljenih v okviru teh shem. Ta dokument zagotavlja priporočila v zvezi z razlago podatkov, pridobljenih s preverjanjem strokovnosti, ki so namenjena udeležencem teh shem za preverjanje strokovnosti in akreditacijskim organom.
Postopke v tem dokumentu je mogoče uporabiti za dokazovanje, da rezultati meritev, ki so jih pridobili laboratoriji, inšpekcijski organi in posamezniki, izpolnjujejo določena merila sprejemljive uspešnosti.
Ta dokument se uporablja za preverjanje strokovnosti, pri kateri so sporočeni rezultati kvantitativne meritve ali kvalitativna opažanja v zvezi z nalogami preskusa.
OPOMBA: Postopke v tem dokumentu je mogoče uporabljati tudi za ocenjevanje strokovnih mnenj, če se ta mnenja ali sodbe sporočijo v obliki, ki jo je mogoče objektivno primerjati z neodvisno referenčno vrednostjo ali statistiko, glede katere vlada konsenz. Pri razvrščanju nalog preskusa usposobljenosti v znane kategorije s pregledom – ali pri ugotavljanju, ali naloge preskusa usposobljenosti izvirajo iz istega izvirnega vira ali ne – in pri objektivni primerjavi rezultatov razvrščanja se lahko uporabijo določbe tega dokumenta, ki se nanašajo na nominalne (kakovostne) lastnosti.

General Information

Status
Published
Publication Date
17-Aug-2022
Current Stage
6060 - International Standard published
Start Date
18-Aug-2022
Due Date
26-Jun-2022
Completion Date
18-Aug-2022

Relations

Standard
ISO 13528:2023
English language
100 pages
sale 10% off
Preview
sale 10% off
Preview
e-Library read for
1 day
Standard
ISO 13528:2022 - Statistical methods for use in proficiency testing by interlaboratory comparison Released:18. 08. 2022
English language
93 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 13528:2022 - Statistical methods for use in proficiency testing by interlaboratory comparison Released:18. 08. 2022
French language
100 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


SLOVENSKI STANDARD
01-september-2023
Statistične metode za uporabo pri preverjanju strokovnosti z medlaboratorijsko
primerjavo
Statistical methods for use in proficiency testing by interlaboratory comparison
Méthodes statistiques utilisées dans les essais d'aptitude par comparaison
interlaboratoires
Ta slovenski standard je istoveten z: ISO 13528:2022
ICS:
03.120.30 Uporaba statističnih metod Application of statistical
methods
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.

INTERNATIONAL ISO
STANDARD 13528
Third edition
2022-08
Statistical methods for use in
proficiency testing by interlaboratory
comparison
Méthodes statistiques utilisées dans les essais d'aptitude par
comparaison interlaboratoires
Reference number
© ISO 2022
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 General principles . 4
4.1 General requirements for statistical methods . 4
4.2 Basic model . 5
4.3 General approaches for the evaluation of performance . 5
5 Guidelines for the statistical design of proficiency testing schemes .6
5.1 Introduction to the statistical design of proficiency testing schemes . 6
5.2 Basis of a statistical design . 6
5.3 Considerations for the statistical distribution of results . 7
5.4 Considerations for small numbers of participants . 8
5.5 Guidelines for choosing the reporting format . 8
5.5.1 General requirements for reporting format . 8
5.5.2 Reporting of replicate measurements . . 9
5.5.3 Reporting of ‘less than’ or ‘greater than’ a limit (censored data) . 9
5.5.4 Number of significant digits . . 9
6 Guidelines for the initial review of proficiency testing items and results.10
6.1 Homogeneity and stability of proficiency test items . 10
6.2 Considerations for different measurement methods . 11
6.3 Blunder removal . 11
6.4 Visual review of data . .12
6.5 Robust statistical methods .12
6.6 Outlier techniques for individual results . 13
7 Determination of the assigned value and its standard uncertainty .14
7.1 Choice of method of determining the assigned value . 14
7.2 Determining the uncertainty of the assigned value . 14
7.3 Formulation . 15
7.4 Certified reference material . 16
7.5 Results from one laboratory . 16
7.6 Consensus value from expert laboratories . 17
7.7 Consensus value from participant results . 18
7.8 Comparison of the assigned value with an independent reference value . 19
8 Determination of criteria for evaluation of performance .20
8.1 Approaches for determining evaluation criteria . 20
8.2 By perception of experts. 21
8.3 By experience from previous rounds of a proficiency testing scheme . . 21
8.4 By use of a general model . 21
8.5 Using the repeatability and reproducibility standard deviations from a previous
collaborative study of precision of a measurement method .22
8.6 From data obtained in the same round of a proficiency testing scheme .22
8.7 Monitoring interlaboratory agreement . 23
9 Calculation of performance statistics .24
9.1 General considerations for determining performance . 24
9.2 Limiting the uncertainty of the assigned value . 24
9.3 Estimates of deviation (measurement error) . 25
9.4 z scores . 26
9.5 z′ scores . 27
iii
9.6 Zeta scores (ζ) .28
9.7 E scores . 29
n
9.8 Evaluation of participant uncertainties in testing .30
9.9 Combined performance scores . 31
10 Graphical methods for describing performance scores .32
10.1 Application of graphical methods . 32
10.2 Histograms of results or performance scores . 32
10.3 Kernel density plots . 33
10.4 Bar-plots of standardized performance scores .34
10.5 Youden plot.34
10.6 Plots of repeatability standard deviations . 35
10.7 Split samples . 36
10.8 Graphical methods for combining performance scores over several rounds of a
proficiency testing scheme . 37
11 Design and analysis of qualitative proficiency testing schemes (including nominal
and ordinal properties) .38
11.1 Types of qualitative data .38
11.2 Statistical design.38
11.3 Assigned values for qualitative proficiency testing schemes .39
11.4 Performance evaluation and scoring for qualitative proficiency testing schemes .40
Annex A (normative) Symbols .42
Annex B (informative) Homogeneity and stability of proficiency test items . 44
Annex C (informative) Robust analysis .52
Annex D (informative) Additional guidance on statistical procedures .63
Annex E (informative) Illustrative examples .68
Annex F (Informative) Example of computer code for plotting and resampling analysis
(“bootstrapping”) of PT results .91
Bibliography .92
iv
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www.iso.org/patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation on the meaning of ISO specific terms and expressions related to conformity
assessment, as well as information about ISO's adherence to the WTO principles in the Technical
Barriers to Trade (TBT) see the following URL: Foreword - Supplementary information
The committee responsible for this document is ISO/TC 69, Applications of statistical methods,
Subcommittee SC 6, Measurement methods and results.
This third edition of ISO 13528 cancels and replaces the second edition (ISO 13528:2015), of which it
constitutes an minor revision. The changes are as follows:
— notes have been added to 10.1, 10.4.3 and 10.5.3 to draw attention to additional graphical techniques
that can assist in meeting the provisions of 10.1;
2 2
— Formulae B.4 and B.8 have been corrected to use s instead of w ;
t t
— Formula B.16 has been corrected so that the term inside the square root is always non-negative;
— in Table C.2, the correction factor associated with p = 2 has been corrected to read 0,3994;
— additional literature references to the source of values in Table C.2 have been added to the
Bibliography and referenced from Notes 1 and 2 of C.5.2.1;
— font styles (Italic or Roman) have been amended throughout for consistency in formulae.
v
0 Introduction
0.1  The purposes of proficiency testing
Proficiency testing involves the use of interlaboratory comparisons to determine the performance
of participants (which may be laboratories, inspection bodies, or individuals) for specific tests or
measurements, and to monitor their continuing performance. There are a number of typical purposes
of proficiency testing, as described in the Introduction to ISO/IEC 17043. These include the evaluation
of laboratory performance, the identification of problems in laboratories, establishing effectiveness and
comparability of test or measurement methods, the provision of additional confidence to laboratory
customers, validation of uncertainty claims, and the education of participating laboratories. The
statistical design and analytical techniques applied shall be appropriate for the stated purpose(s).
0.2  Rationale for scoring in proficiency testing schemes
A variety of scoring strategies is available and in use for proficiency testing. Although the detailed
calculations differ, most proficiency testing schemes compare the participant’s deviation from an
assigned value with a numerical criterion which is used to decide whether or not the deviation
represents cause for concern. The strategies used for value assignment and for choosing a criterion
for assessment of the participant deviations are therefore critical. In particular, it is important to
consider whether the assigned value and criterion for assessing deviations should be independent of
participant results, or should be derived from the results submitted. In this document, both strategies
are provided for. However, attention is drawn to the discussion that will be found in Clauses 7 and 8 of
the advantages and disadvantages of choosing assigned values or criteria for assessing deviations that
are not derived from the participant results. It will be seen that in general, choosing assigned values and
assessment criteria independently of participant results offers advantages. This is particularly the case
for the criterion used to assess deviations from the assigned value – such as the standard deviation for
proficiency assessment or an allowance for measurement error – for which a consistent choice based on
suitability for a particular end use of the measurement results, is especially useful.
0.3  ISO 13528 and ISO/IEC 17043
This document provides support for the implementation of ISO/IEC 17043 particularly, on the
requirements for the statistical design, validation of proficiency test items, review of results, and
reporting summary statistics. ISO/IEC 17043:2010, Annex B, briefly describes the general statistical
methods that are used in proficiency testing schemes. This document is intended to be complementary
to ISO/IEC 17043, providing detailed guidance that is lacking in that document on particular statistical
methods for proficiency testing.
The definition of proficiency testing in ISO/IEC 17043 is repeated in this document, with the notes that
describe different types of proficiency testing and the range of designs that can be used. This document
cannot specifically cover all purposes, designs, matrices and measurands. The techniques presented
in this document are intended to be broadly applicable, especially for newly established proficiency
testing schemes. It is expected that statistical techniques used for a particular proficiency testing
scheme will evolve as the scheme matures; and the scores, evaluation criteria, and graphical techniques
will be refined to better serve the specific needs of a target group of participants, accreditation bodies,
and regulatory authorities.
This document incorporates published guidance for the proficiency testing of chemical analytical
[32]
laboratories but additionally includes a wider range of procedures to permit use with valid
measurement methods and qualitative identifications. The revision of this document contains most of
the statistical methods and guidance from the first edition, extended as necessary by the previously
referenced documents and the extended scope of ISO/IEC 17043. ISO/IEC 17043 includes proficiency
testing for individuals and inspection bodies, including ISO/IEC 17043:2010, Annex B, which includes
considerations for qualitative results.
This document includes statistical techniques that are consistent with other International Standards,
particularly those of TC69/SC6, notably the ISO 5725 series of standards on Accuracy: trueness and
vi
precision. The techniques are also intended to reflect other International Standards, where appropriate,
and are intended to be consistent with ISO/IEC Guide 98-3 (GUM) and ISO/IEC Guide 99 (VIM).
0.4  Statistical expertise
ISO/IEC 17043 requires that in order to be competent, a proficiency testing provider shall have access
to statistical expertise and shall authorize specific personnel to conduct statistical analysis. Neither
ISO/IEC 17043 nor this document can specify further what that necessary expertise is. For some
applications an advanced degree in statistics is useful, but usually the needs for expertise can be met
by individuals with technical expertise in other areas, who are familiar with basic statistical concepts
and have experience or training in the common techniques applicable to the analysis of data from
proficiency testing schemes. If an individual is responsible for statistical design and/or analysis, it is
very important that this person has experience with interlaboratory comparisons, even if that person
has an advanced degree in statistics. Conventional advanced statistical training often does not include
exercises with interlaboratory comparisons, and the unique causes of measurement error that occur in
proficiency testing can seem obscure. The guidance in this document cannot provide all the necessary
expertise to consider all applications, and cannot replace the experience gained by working with
interlaboratory comparisons.
0.5  Computer software
Computer software that is needed for statistical analysis of proficiency testing data can vary greatly,
ranging from simple spread sheet arithmetic for small proficiency testing schemes using known
reference values to sophisticated statistical software used for statistical methods reliant on iterative
calculations or other advanced numerical methods. Most of the techniques in this document can be
accomplished by conventional spread sheet applications, perhaps with customised routines for a
particular proficiency testing scheme or analysis; some techniques will require computer applications
that are freely available. In all cases, the users are expected to verify the validity and accuracy of their
calculations, especially when special routines have been entered by the user. However, even when
the techniques in this document are appropriate and correctly implemented by adequate computer
applications, they cannot be applied without attention from an individual with technical and statistical
expertise that is sufficient to understand the nature of the applications and the statistical assumptions,
and to identify and investigate anomalies that can occur in any round of a proficiency testing scheme.
vii
INTERNATIONAL STANDARD ISO 13528:2022(E)
Statistical methods for use in proficiency testing by
interlaboratory comparison
1 Scope
This document provides detailed descriptions of statistical methods for proficiency testing providers
to use to design proficiency testing schemes and to analyse the data obtained from those schemes. This
document provides recommendations on the interpretation of proficiency testing data by participants
in such proficiency testing schemes and by accreditation bodies.
The procedures in this document can be applied to demonstrate that the measurement results obtained
by laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance.
This document is applicable to proficiency testing where the results reported are either quantitative
measurements or qualitative observations on test items.
NOTE The procedures in this document can also be applied for the assessment of expert opinion where the
opinions or judgments are reported in a form which can be compared objectively with an independent reference
value or a consensus statistic. For example, when classifying proficiency test items into known categories by
inspection - or in determining by inspection whether proficiency test items arise, or do not arise, from the same
original source - and the classification results are compared objectively, the provisions of this document that
relate to nominal (qualitative) properties can be applied.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content
constitutes requirements of this document. For dated references, only the edition cited applies. For
undated references, the latest edition of the referenced document (including any amendments) applies.
ISO 3534-1, Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in
probability
ISO 3534-2, Statistics — Vocabulary and symbols — Part 2: Applied statistics
ISO 5725-1, Accuracy (trueness and precision) of measurement methods and results — Part 1: General
principles and definitions
ISO/IEC 17043, Conformity assessment — General requirements for proficiency testing
ISO Guide 30, Reference materials — Selected terms and definitions
ISO/IEC Guide 99, International vocabulary of metrology — Basic and general concepts and associated
terms (VIM)
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 3534-1, ISO 3534-2, ISO 5725-1,
ISO/IEC 17043, ISO/IEC Guide 99, ISO Guide 30, and the following apply. In the case of differences
between these references on the use of terms, definitions in ISO 3534-1 ISO 3534-2 apply. Mathematical
symbols are listed in Annex A.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
interlaboratory comparison
organization, performance and evaluation of measurements or tests on the same or similar items by
two or more laboratories in accordance with predetermined conditions
3.2
proficiency testing
evaluation of participant performance against pre-established criteria by means of interlaboratory
comparisons (3.1)
Note 1 to entry: For the purposes of this document, the term “proficiency testing” is taken in its widest sense and
includes, but is not limited to:
— quantitative scheme — where the objective is to quantify one or more measurands for each proficiency test
item;
— qualitative scheme — where the objective is to identify or describe one or more qualitative characteristics of
the proficiency test item;
— sequential scheme — where one or more proficiency test items are distributed sequentially for testing or
measurement and returned to the proficiency testing provider at intervals;
— simultaneous scheme — where proficiency test items are distributed for concurrent testing or measurement
within a defined time period;
— single occasion exercise — where proficiency test items are provided on a single occasion;
— continuous scheme — where proficiency test items are provided at regular intervals;
— sampling — where samples are taken for subsequent analysis and the purpose of the proficiency testing
scheme includes evaluation of the execution of sampling; and
— data interpretation — where sets of data or other information are furnished and the information is processed
to provide an interpretation (or other outcome).
3.3
assigned value
value attributed to a particular property of a proficiency test item
3.4
standard deviation for proficiency assessment
measure of dispersion used in the evaluation of results of proficiency testing (3.2)
Note 1 to entry: This can be interpreted as the population standard deviation of results from a hypothetical
population of laboratories performing exactly in accordance with requirements.
Note 2 to entry: The standard deviation for proficiency assessment applies only to ratio and interval scale results.
Note 3 to entry: Not all proficiency testing schemes evaluate performance based on the dispersion of results.
[SOURCE: ISO/IEC 17043:2010, modified — In the definition “based on the available information” has
been deleted. Note 1 to the entry has been added, and Notes 2 and 3 have been slightly edited.]
3.5
measurement error
measured quantity value minus a reference quantity value
[SOURCE: ISO/IEC Guide 99:2007, modified — Notes have been deleted.]
3.6
maximum permissible error
extreme value of measurement error (3.5), with respect to a known reference quantity value, permitted
by specifications or regulations for a given measurement, measuring instrument, or measuring system
[SOURCE: ISO/IEC Guide 99:2007, modified — Notes have been deleted.]
3.7
z score
standardized measure of performance, calculated using the participant result, assigned value (3.3) and
the standard deviation for proficiency assessment (3.4)
Note 1 to entry: A common variation on the z score, sometimes denoted z’ (commonly pronounced z-prime),
is formed by combining the uncertainty of the assigned value with the standard deviation for proficiency
assessment before calculating the z score.
3.8
zeta score
standardized measure of performance, calculated using the participant result, assigned value (3.3) and
the combined standard uncertainties for the result and the assigned value (3.3)
3.9
proportion of allowed limit score
standardized measure of performance, calculated using the participant result, assigned value (3.3) and
the criterion for measurement error (3.5) in a proficiency test
Note 1 to entry: For single results, performance can be expressed as the deviation from the assigned value (D or
D %).
3.10
action signal
indication of a need for action arising from a proficiency test result
EXAMPLE A z score in excess of 2 is conventionally taken as an indication of a need to investigate possible
causes; a z score of 3 or greater is conventionally taken as an action signal indicating a need for corrective action.
3.11
consensus value
value derived from a collection of results in an interlaboratory comparison (3.1)
Note 1 to entry: The phrase ‘consensus value’ is typically used to describe estimates of location and dispersion
derived from participant results in a round of a proficiency testing scheme, but may also be used to refer to values
derived from results of a specified subset of such results or, for example, from a number of expert laboratories.
3.12
outlier
member of a set of values which is inconsistent with other members of that set
Note 1 to entry: An outlier can arise by chance from the expected population, originate from a different
population, or be the result of an incorrect recording or other blunder.
Note 2 to entry: Many proficiency testing schemes use the term outlier to designate a result that generates an
action signal. This is not the intended use of the term. While outliers will usually generate action signals, it is
possible to have action signals from results that are not outliers.
[SOURCE: ISO 5725-1:1994, modified — The Notes to the entry have been added.]
3.13
participant
laboratory, organization, or individual that receives proficiency test items and submits results for
review by the proficiency testing (3.2) provider
3.14
proficiency test item
sample, product, artefact, reference material, piece of equipment, measurement standard, data set or
other information used to assess participant (3.13) performance in proficiency testing (3.2)
Note 1 to entry: In most instances, proficiency test items meet the ISO Guide 30 definition of “reference material”
(3.17).
3.15
proficiency testing provider
organization which takes responsibility for all tasks in the development and operation of a proficiency
testing (3.2) scheme
3.16
proficiency testing scheme
proficiency testing (3.2) designed and operated in one or more rounds for a specified area of testing,
measurement, calibration or inspection
Note 1 to entry: A proficiency testing scheme might cover a particular type of test, calibration, inspection or a
number of tests, calibrations or inspections on proficiency test items.
3.17
reference material
RM
material, sufficiently homogeneous and stable with respect to one or more specified properties, which
has been established to be fit for its intended use in a measurement process
Note 1 to entry: RM is a generic term.
Note 2 to entry: Properties can be quantitative or qualitative, e.g. identity of substances or species.
Note 3 to entry: Uses may include the calibration of a measuring system, assessment of a measurement procedure,
assigning values to other materials, and quality control.
[SOURCE: ISO Guide 30:2015, modified —Note 4 has been deleted.]
3.18
certified reference material
CRM
reference material (RM) (3.17) characterized by a metrologically valid procedure for one or more
specified properties, accompanied by an RM certificate that provides the value of the specified property,
its associated uncertainty, and a statement of metrological traceability
Note 1 to entry: The concept of value includes a nominal property or a qualitative attribute such as identity or
sequence. Uncertainties for such attributes may be expressed as probabilities or levels of confidence.
[SOURCE: ISO Guide 30:2015, modified —Notes 2, 3 and 4 have been deleted.]
4 General principles
4.1 General requirements for statistical methods
4.1.1 The statistical methods used shall be fit for purpose and statistically valid. Any statistical
assumptions on which the methods or design are based shall be stated in the design or in a written
description of the proficiency testing scheme, and these assumptions shall be demonstrated to be
reasonable.
NOTE A statistically valid method has a sound theoretical basis, has known performance under the expected
conditions of use and relies on assumptions or conditions which can be shown to apply to the data sufficiently
well for the purpose at hand.
4.1.2 The statistical design and data analysis techniques shall be consistent with the stated objectives
for the proficiency testing scheme.
4.1.3 The proficiency testing provider shall provide participants with a description of the calculation
methods used, an explanation of the general interpretation of results, and a statement of any limitations
relating to interpretation. This description shall be available either in each report for each round of the
proficiency testing scheme or in a separate summary of procedures that is available to participants.
4.1.4 The proficiency testing provider shall ensure that all software is adequately validated.
4.2 Basic model
4.2.1 For quantitative results in proficiency testing schemes where a single result is reported for a
given proficiency test item, the basic model is given in Formula (1).
x =+με (1)
ii
where
x is the proficiency test result from participant, i;
i
μ is the true value for the measurand;
ε is the measurement error for participant i, distributed according to a relevant model.
i
NOTE 1 Common models for ε include: the normal distribution ε ~ N(0, σ ) with mean 0 and variance either
i
constant or different for each laboratory; or more commonly, an ‘outlier-contaminated normal’ distribution
consisting of a mixture of a normal distribution with a wider distribution representing the population of
erroneous results.
NOTE 2 The basis of performance evaluation with z scores and σ is that in an “idealized” population of
pt
competent laboratories, the standard deviation of the proficiency testing results would be σ or less.
pt
NOTE 3 This model differs from the basic model in ISO 5725, in that it does not include the laboratory bias
term B . This is because the laboratory bias and residual error terms cannot be distinguished when only one
i
observation is reported. Where a participant’s results from several rounds or test items within the proficiency
testing scheme are considered, however, it can be useful to include a separate term for laboratory bias.
4.2.2 For ordinal or qualitative results, other models may be appropriate, or there could be no
statistical model.
4.3 General approaches for the evaluation of performance
4.3.1 There are three different general approaches for evaluating performance in a proficiency testing
scheme. These approaches are used to meet different purposes for the proficiency testing scheme. The
approaches are listed below:
a) performance evaluated by comparison with externally derived criteria;
b) performance evaluated by comparison with other participants;
c) performance evaluated by comparison with claimed measurement uncertainty.
4.3.2 The general approaches can be applied differently for determining the assigned value and for
determining the criteria for performance evaluation; for example when the assigned value is the robust
mean of participant results and the performance evaluation is derived from σ or δ , where δ is a
pt E E
predefined allowance for measurement error and σ = δ /3; similarly, in some situations the assigned
pt E
value can be a reference value, but σ can be a robust standard deviation of participant results. In
pt
approach c) using measurement uncertainty, the assigned value is typically an appropriate reference
value.
5 Guidelines for the statistical design of proficiency testing schemes
5.1 Introduction to the statistical design of proficiency testing schemes
Proficiency testing is concerned with the assessment of participant performance and as such does
not specifically address bias or precision (although these can be assessed with specific designs). The
performance of the participants is assessed through the statistical evaluation of their results following
the measurements or interpretations they make on the proficiency test items. Performance is often
expressed in the form of performance scores which allow consistent interpretation across a range
of measurands and can allow results for different measurands to be compared on an equal basis.
Performance scores are typically derived by comparing the difference between a reported participant
result and an assigned value with an allowable deviation or with an estimate of the measurement
uncertainty of the difference. Examination of the performance scores over multiple rounds of a
proficiency testing scheme can provide information on whether individual laboratories show evidence
of consistent systematic effects ("bias") or poor long term precision.
The following Clauses 5 to 10 give guidance on the design of quantitative proficiency testing schemes
and on the statistical treatment of results, including the calculation and interpretation of various
performance scores. Considerations for qualitative proficiency testing schemes (including ordinal
schemes) are given in Clause 11.
5.2 Basis of a statistical design
5.2.1 According to ISO/IEC 17043:2010, 4.4.4.1, the statistical design “shall be developed to meet the
objectives of the proficiency testing scheme, based on the nature of the data (quantitative or qualitative
including ordinal and categorical), statistical assumptions, the nature of errors, and the expected
number of results”. Therefore proficiency testing schemes with different objectives and with different
sources of error could have different designs.
Design considerations for common objectives are listed below. Other objectives are possible.
EXAMPLE 1 For a proficiency testing scheme to compare a participant’s result against a pre-determined
reference value and within limits that are specified before the round begins, the design must include a method
for obtaining an externally defined reference value, a method of setting limits, and a scoring method;
EXAMPLE 2 For a proficiency testing scheme to compare a participant’s result with combined results from a
group in the same round, and limits that are specified before the round begins, the design must consider how the
assigned value will be determined from the combined results as well as methods for setting limits and scoring;
EXAMPLE 3 For a proficiency testing scheme to compare a participant’s result with combined results from a
group in the same round, and limits determined by the variability of participant results, the design must consider
the calculation of an assigned value and an appropriate measure of dispersion as well as the method of scoring;
EXAMPLE 4 For a proficiency testing scheme to compare a participant’s result with the assigned value,
using the participant’s own measurement uncertainty, the design must consider how the assigned value and its
uncertainty are to be obtained and how participant measurement uncertainties are to be used in scoring.
EXAMPLE 5 For a proficiency testing scheme with an objective to compare the performance of different
measurement methods, the design must consider the relevant summary statistics and procedures to calculate
them.
5.2.2 There are various types of data used in proficiency testing, including quantitative, nominal
(categorical), and ordinal. Among the quantitative variables, some results might be on an interval
scale; or a relative, or ratio scale. For some measurements on a quantitative scale, only a discrete and
discontinuous set of values can be realized (for example sequential dilutions); however, in many cases
these results can be treated by techniques that are applicable to continuous quantitative variables.
...


INTERNATIONAL ISO
STANDARD 13528
Third edition
2022-08
Statistical methods for use in
proficiency testing by interlaboratory
comparison
Méthodes statistiques utilisées dans les essais d'aptitude par
comparaison interlaboratoires
Reference number
© ISO 2022
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 General principles . 4
4.1 General requirements for statistical methods . 4
4.2 Basic model . 5
4.3 General approaches for the evaluation of performance . 5
5 Guidelines for the statistical design of proficiency testing schemes .6
5.1 Introduction to the statistical design of proficiency testing schemes . 6
5.2 Basis of a statistical design . 6
5.3 Considerations for the statistical distribution of results . 7
5.4 Considerations for small numbers of participants . 8
5.5 Guidelines for choosing the reporting format . 8
5.5.1 General requirements for reporting format . 8
5.5.2 Reporting of replicate measurements . . 9
5.5.3 Reporting of ‘less than’ or ‘greater than’ a limit (censored data) . 9
5.5.4 Number of significant digits . . 9
6 Guidelines for the initial review of proficiency testing items and results.10
6.1 Homogeneity and stability of proficiency test items . 10
6.2 Considerations for different measurement methods . 11
6.3 Blunder removal . 11
6.4 Visual review of data . .12
6.5 Robust statistical methods .12
6.6 Outlier techniques for individual results . 13
7 Determination of the assigned value and its standard uncertainty .14
7.1 Choice of method of determining the assigned value . 14
7.2 Determining the uncertainty of the assigned value . 14
7.3 Formulation . 15
7.4 Certified reference material . 16
7.5 Results from one laboratory . 16
7.6 Consensus value from expert laboratories . 17
7.7 Consensus value from participant results . 18
7.8 Comparison of the assigned value with an independent reference value . 19
8 Determination of criteria for evaluation of performance .20
8.1 Approaches for determining evaluation criteria . 20
8.2 By perception of experts. 21
8.3 By experience from previous rounds of a proficiency testing scheme . . 21
8.4 By use of a general model . 21
8.5 Using the repeatability and reproducibility standard deviations from a previous
collaborative study of precision of a measurement method .22
8.6 From data obtained in the same round of a proficiency testing scheme .22
8.7 Monitoring interlaboratory agreement . 23
9 Calculation of performance statistics .24
9.1 General considerations for determining performance . 24
9.2 Limiting the uncertainty of the assigned value . 24
9.3 Estimates of deviation (measurement error) . 25
9.4 z scores . 26
9.5 z′ scores . 27
iii
9.6 Zeta scores (ζ) .28
9.7 E scores . 29
n
9.8 Evaluation of participant uncertainties in testing .30
9.9 Combined performance scores . 31
10 Graphical methods for describing performance scores .32
10.1 Application of graphical methods . 32
10.2 Histograms of results or performance scores . 32
10.3 Kernel density plots . 33
10.4 Bar-plots of standardized performance scores .34
10.5 Youden plot.34
10.6 Plots of repeatability standard deviations . 35
10.7 Split samples . 36
10.8 Graphical methods for combining performance scores over several rounds of a
proficiency testing scheme . 37
11 Design and analysis of qualitative proficiency testing schemes (including nominal
and ordinal properties) .38
11.1 Types of qualitative data .38
11.2 Statistical design.38
11.3 Assigned values for qualitative proficiency testing schemes .39
11.4 Performance evaluation and scoring for qualitative proficiency testing schemes .40
Annex A (normative) Symbols .42
Annex B (informative) Homogeneity and stability of proficiency test items . 44
Annex C (informative) Robust analysis .52
Annex D (informative) Additional guidance on statistical procedures .63
Annex E (informative) Illustrative examples .68
Annex F (Informative) Example of computer code for plotting and resampling analysis
(“bootstrapping”) of PT results .91
Bibliography .92
iv
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www.iso.org/patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation on the meaning of ISO specific terms and expressions related to conformity
assessment, as well as information about ISO's adherence to the WTO principles in the Technical
Barriers to Trade (TBT) see the following URL: Foreword - Supplementary information
The committee responsible for this document is ISO/TC 69, Applications of statistical methods,
Subcommittee SC 6, Measurement methods and results.
This third edition of ISO 13528 cancels and replaces the second edition (ISO 13528:2015), of which it
constitutes an minor revision. The changes are as follows:
— notes have been added to 10.1, 10.4.3 and 10.5.3 to draw attention to additional graphical techniques
that can assist in meeting the provisions of 10.1;
2 2
— Formulae B.4 and B.8 have been corrected to use s instead of w ;
t t
— Formula B.16 has been corrected so that the term inside the square root is always non-negative;
— in Table C.2, the correction factor associated with p = 2 has been corrected to read 0,3994;
— additional literature references to the source of values in Table C.2 have been added to the
Bibliography and referenced from Notes 1 and 2 of C.5.2.1;
— font styles (Italic or Roman) have been amended throughout for consistency in formulae.
v
0 Introduction
0.1  The purposes of proficiency testing
Proficiency testing involves the use of interlaboratory comparisons to determine the performance
of participants (which may be laboratories, inspection bodies, or individuals) for specific tests or
measurements, and to monitor their continuing performance. There are a number of typical purposes
of proficiency testing, as described in the Introduction to ISO/IEC 17043. These include the evaluation
of laboratory performance, the identification of problems in laboratories, establishing effectiveness and
comparability of test or measurement methods, the provision of additional confidence to laboratory
customers, validation of uncertainty claims, and the education of participating laboratories. The
statistical design and analytical techniques applied shall be appropriate for the stated purpose(s).
0.2  Rationale for scoring in proficiency testing schemes
A variety of scoring strategies is available and in use for proficiency testing. Although the detailed
calculations differ, most proficiency testing schemes compare the participant’s deviation from an
assigned value with a numerical criterion which is used to decide whether or not the deviation
represents cause for concern. The strategies used for value assignment and for choosing a criterion
for assessment of the participant deviations are therefore critical. In particular, it is important to
consider whether the assigned value and criterion for assessing deviations should be independent of
participant results, or should be derived from the results submitted. In this document, both strategies
are provided for. However, attention is drawn to the discussion that will be found in Clauses 7 and 8 of
the advantages and disadvantages of choosing assigned values or criteria for assessing deviations that
are not derived from the participant results. It will be seen that in general, choosing assigned values and
assessment criteria independently of participant results offers advantages. This is particularly the case
for the criterion used to assess deviations from the assigned value – such as the standard deviation for
proficiency assessment or an allowance for measurement error – for which a consistent choice based on
suitability for a particular end use of the measurement results, is especially useful.
0.3  ISO 13528 and ISO/IEC 17043
This document provides support for the implementation of ISO/IEC 17043 particularly, on the
requirements for the statistical design, validation of proficiency test items, review of results, and
reporting summary statistics. ISO/IEC 17043:2010, Annex B, briefly describes the general statistical
methods that are used in proficiency testing schemes. This document is intended to be complementary
to ISO/IEC 17043, providing detailed guidance that is lacking in that document on particular statistical
methods for proficiency testing.
The definition of proficiency testing in ISO/IEC 17043 is repeated in this document, with the notes that
describe different types of proficiency testing and the range of designs that can be used. This document
cannot specifically cover all purposes, designs, matrices and measurands. The techniques presented
in this document are intended to be broadly applicable, especially for newly established proficiency
testing schemes. It is expected that statistical techniques used for a particular proficiency testing
scheme will evolve as the scheme matures; and the scores, evaluation criteria, and graphical techniques
will be refined to better serve the specific needs of a target group of participants, accreditation bodies,
and regulatory authorities.
This document incorporates published guidance for the proficiency testing of chemical analytical
[32]
laboratories but additionally includes a wider range of procedures to permit use with valid
measurement methods and qualitative identifications. The revision of this document contains most of
the statistical methods and guidance from the first edition, extended as necessary by the previously
referenced documents and the extended scope of ISO/IEC 17043. ISO/IEC 17043 includes proficiency
testing for individuals and inspection bodies, including ISO/IEC 17043:2010, Annex B, which includes
considerations for qualitative results.
This document includes statistical techniques that are consistent with other International Standards,
particularly those of TC69/SC6, notably the ISO 5725 series of standards on Accuracy: trueness and
vi
precision. The techniques are also intended to reflect other International Standards, where appropriate,
and are intended to be consistent with ISO/IEC Guide 98-3 (GUM) and ISO/IEC Guide 99 (VIM).
0.4  Statistical expertise
ISO/IEC 17043 requires that in order to be competent, a proficiency testing provider shall have access
to statistical expertise and shall authorize specific personnel to conduct statistical analysis. Neither
ISO/IEC 17043 nor this document can specify further what that necessary expertise is. For some
applications an advanced degree in statistics is useful, but usually the needs for expertise can be met
by individuals with technical expertise in other areas, who are familiar with basic statistical concepts
and have experience or training in the common techniques applicable to the analysis of data from
proficiency testing schemes. If an individual is responsible for statistical design and/or analysis, it is
very important that this person has experience with interlaboratory comparisons, even if that person
has an advanced degree in statistics. Conventional advanced statistical training often does not include
exercises with interlaboratory comparisons, and the unique causes of measurement error that occur in
proficiency testing can seem obscure. The guidance in this document cannot provide all the necessary
expertise to consider all applications, and cannot replace the experience gained by working with
interlaboratory comparisons.
0.5  Computer software
Computer software that is needed for statistical analysis of proficiency testing data can vary greatly,
ranging from simple spread sheet arithmetic for small proficiency testing schemes using known
reference values to sophisticated statistical software used for statistical methods reliant on iterative
calculations or other advanced numerical methods. Most of the techniques in this document can be
accomplished by conventional spread sheet applications, perhaps with customised routines for a
particular proficiency testing scheme or analysis; some techniques will require computer applications
that are freely available. In all cases, the users are expected to verify the validity and accuracy of their
calculations, especially when special routines have been entered by the user. However, even when
the techniques in this document are appropriate and correctly implemented by adequate computer
applications, they cannot be applied without attention from an individual with technical and statistical
expertise that is sufficient to understand the nature of the applications and the statistical assumptions,
and to identify and investigate anomalies that can occur in any round of a proficiency testing scheme.
vii
INTERNATIONAL STANDARD ISO 13528:2022(E)
Statistical methods for use in proficiency testing by
interlaboratory comparison
1 Scope
This document provides detailed descriptions of statistical methods for proficiency testing providers
to use to design proficiency testing schemes and to analyse the data obtained from those schemes. This
document provides recommendations on the interpretation of proficiency testing data by participants
in such proficiency testing schemes and by accreditation bodies.
The procedures in this document can be applied to demonstrate that the measurement results obtained
by laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance.
This document is applicable to proficiency testing where the results reported are either quantitative
measurements or qualitative observations on test items.
NOTE The procedures in this document can also be applied for the assessment of expert opinion where the
opinions or judgments are reported in a form which can be compared objectively with an independent reference
value or a consensus statistic. For example, when classifying proficiency test items into known categories by
inspection - or in determining by inspection whether proficiency test items arise, or do not arise, from the same
original source - and the classification results are compared objectively, the provisions of this document that
relate to nominal (qualitative) properties can be applied.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content
constitutes requirements of this document. For dated references, only the edition cited applies. For
undated references, the latest edition of the referenced document (including any amendments) applies.
ISO 3534-1, Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in
probability
ISO 3534-2, Statistics — Vocabulary and symbols — Part 2: Applied statistics
ISO 5725-1, Accuracy (trueness and precision) of measurement methods and results — Part 1: General
principles and definitions
ISO/IEC 17043, Conformity assessment — General requirements for proficiency testing
ISO Guide 30, Reference materials — Selected terms and definitions
ISO/IEC Guide 99, International vocabulary of metrology — Basic and general concepts and associated
terms (VIM)
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 3534-1, ISO 3534-2, ISO 5725-1,
ISO/IEC 17043, ISO/IEC Guide 99, ISO Guide 30, and the following apply. In the case of differences
between these references on the use of terms, definitions in ISO 3534-1 ISO 3534-2 apply. Mathematical
symbols are listed in Annex A.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
interlaboratory comparison
organization, performance and evaluation of measurements or tests on the same or similar items by
two or more laboratories in accordance with predetermined conditions
3.2
proficiency testing
evaluation of participant performance against pre-established criteria by means of interlaboratory
comparisons (3.1)
Note 1 to entry: For the purposes of this document, the term “proficiency testing” is taken in its widest sense and
includes, but is not limited to:
— quantitative scheme — where the objective is to quantify one or more measurands for each proficiency test
item;
— qualitative scheme — where the objective is to identify or describe one or more qualitative characteristics of
the proficiency test item;
— sequential scheme — where one or more proficiency test items are distributed sequentially for testing or
measurement and returned to the proficiency testing provider at intervals;
— simultaneous scheme — where proficiency test items are distributed for concurrent testing or measurement
within a defined time period;
— single occasion exercise — where proficiency test items are provided on a single occasion;
— continuous scheme — where proficiency test items are provided at regular intervals;
— sampling — where samples are taken for subsequent analysis and the purpose of the proficiency testing
scheme includes evaluation of the execution of sampling; and
— data interpretation — where sets of data or other information are furnished and the information is processed
to provide an interpretation (or other outcome).
3.3
assigned value
value attributed to a particular property of a proficiency test item
3.4
standard deviation for proficiency assessment
measure of dispersion used in the evaluation of results of proficiency testing (3.2)
Note 1 to entry: This can be interpreted as the population standard deviation of results from a hypothetical
population of laboratories performing exactly in accordance with requirements.
Note 2 to entry: The standard deviation for proficiency assessment applies only to ratio and interval scale results.
Note 3 to entry: Not all proficiency testing schemes evaluate performance based on the dispersion of results.
[SOURCE: ISO/IEC 17043:2010, modified — In the definition “based on the available information” has
been deleted. Note 1 to the entry has been added, and Notes 2 and 3 have been slightly edited.]
3.5
measurement error
measured quantity value minus a reference quantity value
[SOURCE: ISO/IEC Guide 99:2007, modified — Notes have been deleted.]
3.6
maximum permissible error
extreme value of measurement error (3.5), with respect to a known reference quantity value, permitted
by specifications or regulations for a given measurement, measuring instrument, or measuring system
[SOURCE: ISO/IEC Guide 99:2007, modified — Notes have been deleted.]
3.7
z score
standardized measure of performance, calculated using the participant result, assigned value (3.3) and
the standard deviation for proficiency assessment (3.4)
Note 1 to entry: A common variation on the z score, sometimes denoted z’ (commonly pronounced z-prime),
is formed by combining the uncertainty of the assigned value with the standard deviation for proficiency
assessment before calculating the z score.
3.8
zeta score
standardized measure of performance, calculated using the participant result, assigned value (3.3) and
the combined standard uncertainties for the result and the assigned value (3.3)
3.9
proportion of allowed limit score
standardized measure of performance, calculated using the participant result, assigned value (3.3) and
the criterion for measurement error (3.5) in a proficiency test
Note 1 to entry: For single results, performance can be expressed as the deviation from the assigned value (D or
D %).
3.10
action signal
indication of a need for action arising from a proficiency test result
EXAMPLE A z score in excess of 2 is conventionally taken as an indication of a need to investigate possible
causes; a z score of 3 or greater is conventionally taken as an action signal indicating a need for corrective action.
3.11
consensus value
value derived from a collection of results in an interlaboratory comparison (3.1)
Note 1 to entry: The phrase ‘consensus value’ is typically used to describe estimates of location and dispersion
derived from participant results in a round of a proficiency testing scheme, but may also be used to refer to values
derived from results of a specified subset of such results or, for example, from a number of expert laboratories.
3.12
outlier
member of a set of values which is inconsistent with other members of that set
Note 1 to entry: An outlier can arise by chance from the expected population, originate from a different
population, or be the result of an incorrect recording or other blunder.
Note 2 to entry: Many proficiency testing schemes use the term outlier to designate a result that generates an
action signal. This is not the intended use of the term. While outliers will usually generate action signals, it is
possible to have action signals from results that are not outliers.
[SOURCE: ISO 5725-1:1994, modified — The Notes to the entry have been added.]
3.13
participant
laboratory, organization, or individual that receives proficiency test items and submits results for
review by the proficiency testing (3.2) provider
3.14
proficiency test item
sample, product, artefact, reference material, piece of equipment, measurement standard, data set or
other information used to assess participant (3.13) performance in proficiency testing (3.2)
Note 1 to entry: In most instances, proficiency test items meet the ISO Guide 30 definition of “reference material”
(3.17).
3.15
proficiency testing provider
organization which takes responsibility for all tasks in the development and operation of a proficiency
testing (3.2) scheme
3.16
proficiency testing scheme
proficiency testing (3.2) designed and operated in one or more rounds for a specified area of testing,
measurement, calibration or inspection
Note 1 to entry: A proficiency testing scheme might cover a particular type of test, calibration, inspection or a
number of tests, calibrations or inspections on proficiency test items.
3.17
reference material
RM
material, sufficiently homogeneous and stable with respect to one or more specified properties, which
has been established to be fit for its intended use in a measurement process
Note 1 to entry: RM is a generic term.
Note 2 to entry: Properties can be quantitative or qualitative, e.g. identity of substances or species.
Note 3 to entry: Uses may include the calibration of a measuring system, assessment of a measurement procedure,
assigning values to other materials, and quality control.
[SOURCE: ISO Guide 30:2015, modified —Note 4 has been deleted.]
3.18
certified reference material
CRM
reference material (RM) (3.17) characterized by a metrologically valid procedure for one or more
specified properties, accompanied by an RM certificate that provides the value of the specified property,
its associated uncertainty, and a statement of metrological traceability
Note 1 to entry: The concept of value includes a nominal property or a qualitative attribute such as identity or
sequence. Uncertainties for such attributes may be expressed as probabilities or levels of confidence.
[SOURCE: ISO Guide 30:2015, modified —Notes 2, 3 and 4 have been deleted.]
4 General principles
4.1 General requirements for statistical methods
4.1.1 The statistical methods used shall be fit for purpose and statistically valid. Any statistical
assumptions on which the methods or design are based shall be stated in the design or in a written
description of the proficiency testing scheme, and these assumptions shall be demonstrated to be
reasonable.
NOTE A statistically valid method has a sound theoretical basis, has known performance under the expected
conditions of use and relies on assumptions or conditions which can be shown to apply to the data sufficiently
well for the purpose at hand.
4.1.2 The statistical design and data analysis techniques shall be consistent with the stated objectives
for the proficiency testing scheme.
4.1.3 The proficiency testing provider shall provide participants with a description of the calculation
methods used, an explanation of the general interpretation of results, and a statement of any limitations
relating to interpretation. This description shall be available either in each report for each round of the
proficiency testing scheme or in a separate summary of procedures that is available to participants.
4.1.4 The proficiency testing provider shall ensure that all software is adequately validated.
4.2 Basic model
4.2.1 For quantitative results in proficiency testing schemes where a single result is reported for a
given proficiency test item, the basic model is given in Formula (1).
x =+με (1)
ii
where
x is the proficiency test result from participant, i;
i
μ is the true value for the measurand;
ε is the measurement error for participant i, distributed according to a relevant model.
i
NOTE 1 Common models for ε include: the normal distribution ε ~ N(0, σ ) with mean 0 and variance either
i
constant or different for each laboratory; or more commonly, an ‘outlier-contaminated normal’ distribution
consisting of a mixture of a normal distribution with a wider distribution representing the population of
erroneous results.
NOTE 2 The basis of performance evaluation with z scores and σ is that in an “idealized” population of
pt
competent laboratories, the standard deviation of the proficiency testing results would be σ or less.
pt
NOTE 3 This model differs from the basic model in ISO 5725, in that it does not include the laboratory bias
term B . This is because the laboratory bias and residual error terms cannot be distinguished when only one
i
observation is reported. Where a participant’s results from several rounds or test items within the proficiency
testing scheme are considered, however, it can be useful to include a separate term for laboratory bias.
4.2.2 For ordinal or qualitative results, other models may be appropriate, or there could be no
statistical model.
4.3 General approaches for the evaluation of performance
4.3.1 There are three different general approaches for evaluating performance in a proficiency testing
scheme. These approaches are used to meet different purposes for the proficiency testing scheme. The
approaches are listed below:
a) performance evaluated by comparison with externally derived criteria;
b) performance evaluated by comparison with other participants;
c) performance evaluated by comparison with claimed measurement uncertainty.
4.3.2 The general approaches can be applied differently for determining the assigned value and for
determining the criteria for performance evaluation; for example when the assigned value is the robust
mean of participant results and the performance evaluation is derived from σ or δ , where δ is a
pt E E
predefined allowance for measurement error and σ = δ /3; similarly, in some situations the assigned
pt E
value can be a reference value, but σ can be a robust standard deviation of participant results. In
pt
approach c) using measurement uncertainty, the assigned value is typically an appropriate reference
value.
5 Guidelines for the statistical design of proficiency testing schemes
5.1 Introduction to the statistical design of proficiency testing schemes
Proficiency testing is concerned with the assessment of participant performance and as such does
not specifically address bias or precision (although these can be assessed with specific designs). The
performance of the participants is assessed through the statistical evaluation of their results following
the measurements or interpretations they make on the proficiency test items. Performance is often
expressed in the form of performance scores which allow consistent interpretation across a range
of measurands and can allow results for different measurands to be compared on an equal basis.
Performance scores are typically derived by comparing the difference between a reported participant
result and an assigned value with an allowable deviation or with an estimate of the measurement
uncertainty of the difference. Examination of the performance scores over multiple rounds of a
proficiency testing scheme can provide information on whether individual laboratories show evidence
of consistent systematic effects ("bias") or poor long term precision.
The following Clauses 5 to 10 give guidance on the design of quantitative proficiency testing schemes
and on the statistical treatment of results, including the calculation and interpretation of various
performance scores. Considerations for qualitative proficiency testing schemes (including ordinal
schemes) are given in Clause 11.
5.2 Basis of a statistical design
5.2.1 According to ISO/IEC 17043:2010, 4.4.4.1, the statistical design “shall be developed to meet the
objectives of the proficiency testing scheme, based on the nature of the data (quantitative or qualitative
including ordinal and categorical), statistical assumptions, the nature of errors, and the expected
number of results”. Therefore proficiency testing schemes with different objectives and with different
sources of error could have different designs.
Design considerations for common objectives are listed below. Other objectives are possible.
EXAMPLE 1 For a proficiency testing scheme to compare a participant’s result against a pre-determined
reference value and within limits that are specified before the round begins, the design must include a method
for obtaining an externally defined reference value, a method of setting limits, and a scoring method;
EXAMPLE 2 For a proficiency testing scheme to compare a participant’s result with combined results from a
group in the same round, and limits that are specified before the round begins, the design must consider how the
assigned value will be determined from the combined results as well as methods for setting limits and scoring;
EXAMPLE 3 For a proficiency testing scheme to compare a participant’s result with combined results from a
group in the same round, and limits determined by the variability of participant results, the design must consider
the calculation of an assigned value and an appropriate measure of dispersion as well as the method of scoring;
EXAMPLE 4 For a proficiency testing scheme to compare a participant’s result with the assigned value,
using the participant’s own measurement uncertainty, the design must consider how the assigned value and its
uncertainty are to be obtained and how participant measurement uncertainties are to be used in scoring.
EXAMPLE 5 For a proficiency testing scheme with an objective to compare the performance of different
measurement methods, the design must consider the relevant summary statistics and procedures to calculate
them.
5.2.2 There are various types of data used in proficiency testing, including quantitative, nominal
(categorical), and ordinal. Among the quantitative variables, some results might be on an interval
scale; or a relative, or ratio scale. For some measurements on a quantitative scale, only a discrete and
discontinuous set of values can be realized (for example sequential dilutions); however, in many cases
these results can be treated by techniques that are applicable to continuous quantitative variables.
NOTE 1 For quantitative values, an interval scale is a scale on which intervals (differences) are meaningful but
ratios are not, such as the Celsius temperature scale. A ratio scale is a scale on which intervals and ratios are both
meaningful, such as the Kelvin temperature scale, or most common units for length.
NOTE 2 For qualitative values, a categorical scale has distinct values for which ordering is not meaningful,
such as the names of bacterial species. Values on an ordinal scale have a meaningful ordering but differences are
not meaningful; for example a scale such as ‘large, medium, small’ can be ordered but the differences between
values are undefined other than in terms of the number of intervening values.
5.2.3 Proficiency testing schemes may be used for other purposes in addition to the above, as
discussed in 0.1 and in ISO/IEC 17043. The design shall be appropriate for all the stated purposes for
the particular proficiency testing scheme.
5.3 Co
...


NORME ISO
INTERNATIONALE 13528
Troisième édition
2022-08
Méthodes statistiques utilisées dans
les essais d'aptitude par comparaison
interlaboratoires
Statistical methods for use in proficiency testing by interlaboratory
comparison
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2022
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii
Sommaire Page
Avant-propos .v
0  Introduction . vi
1 Domaine d’application . 1
2 Références normatives .1
3 Termes et définitions . 1
4 Principes généraux . 5
4.1 Exigences générales relatives aux méthodes statistiques . 5
4.2 Modèle de base . 5
4.3 Approches générales pour l’évaluation des performances . 6
5 Lignes directrices pour le plan statistique des programmes d’essais d’aptitude .6
5.1 Présentation du plan statistique de programmes d’essais d’aptitude . 6
5.2 Base d’un plan statistique . 6
5.3 Considérations sur la distribution statistique des résultats . 7
5.4 Considérations sur les petits nombres de participants . 8
5.5 Lignes directrices pour choisir le format de rendu . 9
5.5.1 Exigences générales relatives au format de rendu . 9
5.5.2 Consignation des mesurages répétés. 9
5.5.3 Consignation sous la forme «inférieur à» ou «supérieur à» une limite
(données tronquées) . 10
5.5.4 Nombre de chiffres significatifs . 10
6 Lignes directrices pour la revue initiale des entités soumises à l’essai d’aptitude et
des résultats .11
6.1 Homogénéité et stabilité des entités soumises à l’essai d’aptitude . 11
6.2 Considérations sur les différentes méthodes de mesure .12
6.3 Élimination des valeurs aberrantes . 13
6.4 Examen visuel des données .13
6.5 Méthodes statistiques robustes . 13
6.6 Techniques de détection des valeurs aberrantes pour des résultats individuels. 14
7 Détermination de la valeur assignée et de son incertitude-type .15
7.1 Choix de la méthode de détermination de la valeur assignée . 15
7.2 Détermination de l’incertitude de la valeur assignée . 16
7.3 Formulation . 17
7.4 Matériau de référence certifié . 18
7.5 Résultats provenant d’un seul laboratoire . 18
7.6 Valeur consensuelle déterminée par des laboratoires experts . 19
7.7 Valeur consensuelle déterminée à partir des résultats des participants .20
7.8 Comparaison de la valeur assignée avec une valeur de référence indépendante . 21
8 Détermination des critères d’évaluation des performances .22
8.1 Approches pour la détermination des critères d’évaluation .22
8.2 Détermination par perception d’experts . 23
8.3 Détermination à partir de l’expérience acquise lors des campagnes précédentes
d’un programme d’essais d’aptitude . 23
8.4 Détermination par l’utilisation d’un modèle général . 24
8.5 Utilisation des écarts-types de répétabilité et de reproductibilité obtenus lors
d’une étude collaborative de la fidélité d’une méthode de mesure. 24
8.6 Détermination à partir de données obtenues lors d’une même campagne d’un
programme d’essais d’aptitude .25
8.7 Surveillance de la concordance interlaboratoires . 26
9 Calcul des statistiques de performances .26
9.1 Considérations générales pour la détermination des performances .26
9.2 Limitation de l’incertitude de la valeur assignée . 27
iii
9.3 Estimations des écarts (erreur de mesure) .28
9.4 Scores z .29
9.5 Scores z′ . 30
9.6 Scores zêta (ζ) . 31
9.7 Scores E . 32
n
9.8 Évaluation des incertitudes d’essais des participants . 33
9.9 Scores composés de performance .34
10 Méthodes graphiques de description des scores de performance .35
10.1 Application de méthodes graphiques . 35
10.2 Histogrammes de résultats ou de scores de performance . 35
10.3 Diagrammes de densité par la méthode du noyau .36
10.4 Diagrammes en bâtons des scores de performance normalisés .38
10.5 Graphique de Youden .38
10.6 Graphiques d’écarts-types de répétabilité . 39
10.7 Échantillons fractionnés .40
10.8 Méthodes graphiques de combinaison des scores de performance sur plusieurs
campagnes d’un programme d’essais d’aptitude . 41
11 Plan et analyse de programmes d’essais d’aptitude qualitatifs (y compris les
propriétés nominales et ordinales) .42
11.1 Types de données qualitatives . 42
11.2 Plan statistique . 42
11.3 Valeurs assignées pour les programmes d’essais d’aptitude . 43
11.4 Évaluation des performances et attribution de scores pour les programmes
d’essais d’aptitude qualitatifs . 45
Annexe A (normative) Symboles .47
Annexe B (informative) Homogénéité et stabilité des entités soumises à l’essai d’aptitude .49
Annexe C (informative) Analyse robuste .57
Annexe D (informative) Recommandations supplémentaires concernant
les procédures statistiques .68
Annexe E (informative) Exemples illustratifs .73
Annexe F (Informative) Exemple de code informatique pour la création de la représentation
graphique et l’analyse de rééchantillonnage (bootstrapping) des résultats des
essais d’aptitude .97
Bibliographie .98
iv
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document
a été rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2
(voir www.iso.org/directives).
L’attention est attirée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l’élaboration du document sont indiqués dans l’Introduction et/ou dans la liste des déclarations de
brevets reçues par l’ISO (voir www.iso.org/brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la signification des termes et expressions spécifiques de l’ISO liés à l’évaluation de
la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux principes de l’OMC concernant
les obstacles techniques au commerce (OTC), voir le lien suivant: www.iso.org/iso/fr/foreword.html.
Le comité chargé de l’élaboration du présent document est l’ISO/TC 69, Application des méthodes
statistiques, sous-comité SC 6, Méthodes et résultats de mesure.
Cette troisième édition de l’ISO 13528 annule et remplace la deuxième édition (ISO 13528:2015), qui a
fait l’objet d’une révision mineure. Les modifications sont les suivantes:
— ajout de notes en 10.1, 10.4.3 et 10.5.3 pour attirer l’attention sur les méthodes graphiques
supplémentaires pouvant contribuer à satisfaire aux dispositions de 10.1;
2 2
— correction des Formules B.4 et B.8 afin d’utiliser s au lieu de w ;
t t
— correction de la Formule B.16 de sorte que le terme intégré à la racine carrée soit toujours une
valeur non négative;
— dans le Tableau C.2, correction en 0,399 4 du facteur de correction associé à p = 2;
— ajout de références documentaires supplémentaires dans la Bibliographie comme source des valeurs
du Tableau C.2, qui sont citées en référence dans les Notes 1 et 2 de C.5.2.1;
— harmonisation des styles de police (italique ou police Roman) utilisés dans les formules,
sur l’ensemble du document.
v
0  Introduction
0.1  Objectifs des essais d’aptitude
Les essais d’aptitude impliquent l’utilisation de comparaisons interlaboratoires pour déterminer les
performances de participants (qui peuvent être des laboratoires, des organismes de contrôle ou des
individus) pour des essais spécifiés ou des mesures et ainsi surveiller la continuité des performances
des participants. Il existe un certain nombre d’objectifs pour les essais d’aptitude, tels que décrits
dans l’Introduction de l’ISO/IEC 17043. Ces objectifs comprennent l’évaluation des performances
des laboratoires, l’identification de problèmes dans les laboratoires, la détermination de l’efficacité
et la comparabilité des méthodes d’essai ou de mesure, l’amélioration de la confiance des clients des
laboratoires, la validation des incertitudes revendiquées et la formation des laboratoires participants.
Le plan et les techniques statistiques appliqués doivent être appropriés à l’objectif ou aux objectifs
définis.
0.2 Justification de l’évaluation par scores dans les programmes d’essais d’aptitude
Diverses stratégies d’évaluation par scores sont disponibles et utilisées pour les essais d’aptitude.
Bien que les calculs détaillés diffèrent, la plupart des programmes d’essais d’aptitude comparent
l’écart du participant par rapport à une valeur assignée avec un critère numérique qui est utilisé pour
déterminer si cet écart est préoccupant ou non. Les stratégies utilisées pour les valeurs assignées et
pour le choix d’un critère d’évaluation des écarts des participants sont donc critiques. En particulier,
il est important de déterminer s’il convient que la valeur assignée et le critère d’évaluation des écarts
soient indépendants des résultats des participants ou s’il convient qu’ils soient obtenus à partir des
résultats soumis. Dans le présent document, les deux stratégies sont prévues. Toutefois, l’attention
est attirée sur la discussion figurant aux Articles 7 et 8 concernant les avantages et les inconvénients
associés au choix de valeurs assignées ou de critères d’évaluation des écarts qui ne sont pas obtenus
à partir des résultats des participants. On verra que, en général, le choix de valeurs assignées et de
critères d’évaluation indépendamment des résultats des participants offre des avantages. Cela est
notamment le cas pour le critère utilisé pour évaluer les écarts par rapport à la valeur assignée – tel que
l’écart-type d’aptitude ou une tolérance sur l’erreur de mesure – pour lequel un choix cohérent fondé sur
la pertinence pour une utilisation finale particulière des résultats de mesure est particulièrement utile.
0.3  ISO 13528 et ISO/IEC 17043
Le présent document soutient la mise en œuvre de l’ISO/IEC 17043, notamment les exigences relatives
au plan statistique, à la validation des entités soumises à l’essai d’aptitude, à la revue des résultats et au
rendu des statistiques résumées. L’Annexe B de l’ISO/IEC 17043:2010 fournit une description succincte
des méthodes statistiques générales utilisées dans les programmes d’essais d’aptitude. Le présent
document est destiné à être complémentaire de l’ISO/IEC 17043, en fournissant des recommandations
détaillées ne figurant pas dans ce document sur des méthodes statistiques particulières pour les essais
d’aptitude.
La définition de l’essai d’aptitude donnée dans l’ISO/IEC 17043 est reprise dans le présent document,
avec des notes décrivant les différents types d’essais d’aptitude et l’étendue des conceptions pouvant
être utilisées. Le présent document ne peut pas couvrir spécifiquement l’ensemble des objectifs,
des conceptions, des matrices et des mesurandes. Les techniques présentées dans le présent document
sont destinées à être appliquées de façon étendue, notamment pour des programmes d’essais
d’aptitude nouvellement établis. Il est attendu que les techniques statistiques utilisées dans le cadre
d’un programme d’essais d’aptitude particulier évoluent au fur et à mesure que le programme gagne en
maturité; et les scores, les critères d’évaluation et les méthodes graphiques sont affinés afin de mieux
répondre aux besoins spécifiques d’un groupe cible de participants, d’organismes d’accréditation et
d’autorités réglementaires.
Le présent document incorpore des recommandations publiées pour les essais d’aptitude de
[32]
laboratoires d’analyses chimiques , mais inclut également une gamme plus étendue de procédures
à utiliser avec des méthodes de mesure et d’identifications qualitatives valides. La révision du présent
document contient la plupart des méthodes statistiques et recommandations issues de la première
édition, complétées autant que nécessaire par les documents précédemment cités en référence et par le
vi
domaine d’application étendu de l’ISO/IEC 17043. L’ISO/IEC 17043 comprend des essais d’aptitude pour
les personnes et les organismes de contrôle, incluant l’Annexe B de l’ISO/IEC 17043:2010 qui comprend
des éléments d’appréciation pour les résultats qualitatifs.
Le présent document contient des techniques statistiques qui sont conformes à d’autres Normes
internationales, notamment à celles du TC69/SC6, et en particulier à la série de normes ISO 5725
portant sur l’Exactitude: justesse et fidélité. Les techniques sont également destinées à refléter d’autres
Normes internationales, le cas échéant, et à être en cohérence avec le Guide ISO/IEC 98-3 (GUM) et avec
le Guide ISO/IEC 99 (VIM).
0.4  Expertise en statistique
L’ISO/IEC 17043 exige que, pour être compétent, un organisateur d’essais d’aptitude doit avoir accès
à l’expertise statistique et doit autoriser du personnel spécifique à mener l’analyse statistique.
Ni l’ISO/IEC 17043 ni le présent document ne peuvent définir plus en détail en quoi consiste
cette expertise nécessaire. Pour certaines applications, un niveau élevé en statistiques est utile,
mais généralement les besoins en expertise peuvent être assurés par des personnes ayant une
expertise technique dans d’autres domaines, connaissant les concepts et les techniques statistiques de
base et ayant une expérience ou une formation dans les techniques courantes applicables à l’analyse
des données issues de programmes d’essais d’aptitude. Si un consultant est responsable du plan et/
ou de l’analyse statistique, il est très important que cette personne ait une expérience dans le domaine
des comparaisons interlaboratoires, même si elle a un niveau élevé dans le domaine des statistiques.
La formation classique en statistiques avancées n’inclut pas l’acquisition de connaissances dans le
domaine des comparaisons interlaboratoires, et les causes uniques d’erreur de mesure se produisant
durant les essais d’aptitude peuvent sembler obscures. Les recommandations données dans le présent
document ne peuvent pas fournir toute l’expertise nécessaire pour prendre en compte toutes les
applications, et ne peuvent pas remplacer l’expérience acquise lors de la pratique des comparaisons
interlaboratoires.
0.5  Logiciels
Les logiciels nécessaires pour l’analyse statistique des données d’essais d’aptitude peuvent varier de
façon importante, allant de l’arithmétique simple d’un tableur pour les petits programmes d’essais
d’aptitude utilisant des valeurs de référence connues, jusqu’aux logiciels statistiques sophistiqués
utilisés pour les méthodes statistiques faisant appel à des calculs itératifs ou d’autres méthodes
numériques avancées. La plupart des techniques mentionnées dans le présent document peuvent être
mises en œuvre par des tableurs classiques, éventuellement avec des routines personnalisées pour
un programme d'essais d'aptitude ou une analyse spécial(e); certaines techniques nécessitent des
logiciels qui sont gratuits. Dans tous les cas, il est attendu des utilisateurs qu’ils vérifient la validité
et l’exactitude de leurs calculs, en particulier lorsque des programmes spéciaux ont été entrés par
l’utilisateur. Toutefois, même lorsque les techniques traitées dans le présent document sont appropriées
et correctement mises en œuvre par des logiciels adéquats, elles ne peuvent pas être appliquées sans la
surveillance d’une personne disposant d’une expertise technique et statistique suffisante pour cerner
la nature des applications et des hypothèses statistiques, et pour identifier et rechercher des anomalies
susceptibles de se produire lors de toute campagne d'un programme d’essais d’aptitude.
vii
NORME INTERNATIONALE ISO 13528:2022(F)
Méthodes statistiques utilisées dans les essais d'aptitude
par comparaison interlaboratoires
1 Domaine d’application
Le présent document fournit des descriptions détaillées de méthodes statistiques à utiliser par les
organisateurs d’essais d’aptitude pour concevoir des programmes d’essais d’aptitude et pour analyser
les données obtenues à partir de tels programmes. Le présent document donne des recommandations
sur l’interprétation des données d’essais d’aptitude par les participants à de tels programmes d'essais
d'aptitude et par les organismes d’accréditation.
Les procédures du présent document peuvent être appliquées pour démontrer que les résultats de
mesure obtenus par des laboratoires, des organismes de contrôle et des personnes remplissent les
critères spécifiés pour des performances acceptables.
Le présent document est applicable à des essais d’aptitude dans lesquels les résultats consignés sont
des observations quantitatives ou qualitatives sur des entités soumises à l’essai.
NOTE Les procédures énoncées dans le présent document peuvent être également appliquées pour
l’évaluation d’un avis d’expert lorsque les avis ou les jugements sont consignés sous une forme qui peut être
comparée de manière objective avec une valeur de référence indépendante ou avec une statistique consensuelle.
Par exemple, lorsque des entités soumises à l’essai d’aptitude sont classées en catégories connues par contrôle –
ou lorsque l’on cherche à déterminer par contrôle si des entités soumises à l’essai d’aptitude proviennent ou non
de la même source d’origine – et lorsque les résultats de la classification sont comparés de manière objective,
les dispositions du présent document qui se rapportent à des propriétés (qualitatives) nominales peuvent être
appliquées.
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique.
Pour les références non datées, la dernière édition du document de référence s’applique (y compris les
éventuels amendements).
ISO 3534-1, Statistique — Vocabulaire et symboles — Partie 1: Termes statistiques généraux et termes
utilisés en calcul des probabilités
ISO 3534-2, Statistique — Vocabulaire et symboles — Partie 2: Statistique appliquée
ISO 5725-1, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 1: Principes
généraux et définitions
ISO/IEC 17043, Évaluation de la conformité — Exigences générales concernant les essais d’aptitude
Guide ISO 30, Matériaux de référence — Termes et définitions choisis
Guide ISO/IEC 99, Vocabulaire international de métrologie — Concepts fondamentaux et généraux et
termes associés (VIM)
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions de l’ISO 3534-1, l’ISO 3534-2, l’ISO 5725-1,
l’ISO/IEC 17043, le Guide ISO/IEC 99, le Guide ISO 30 ainsi que les suivants, s’appliquent. En cas de
différences entre ces références concernant l’utilisation des termes, les définitions de l’ISO 3534-1 et de
l’ISO 3534-2 s’appliquent. Les symboles mathématiques sont énumérés à l’Annexe A.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp;
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/ .
3.1
comparaison interlaboratoires
organisation, exécution et évaluation de mesurages ou d’essais sur la même entité ou sur des entités
similaires par deux laboratoires ou plus selon des conditions prédéterminées
3.2
essai d’aptitude
évaluation de la performance d’un participant par rapport à des critères préétablis au moyen d’une
comparaison interlaboratoires (3.1)
Note 1 à l'article: Pour les besoins du présent document, le terme «essai d’aptitude» est considéré dans son sens le
plus large et il inclut, sans s’y limiter:
— les programmes quantitatifs, dans lesquels l’objectif est de quantifier un ou plusieurs mesurandes pour
chaque entité soumise à l’essai d’aptitude;
— les programmes qualitatifs, dans lesquels l’objectif est d’identifier ou de décrire une ou plusieurs
caractéristiques qualitatives de l’entité soumise à l’essai d’aptitude;
— les programmes séquentiels, dans lesquels une ou plusieurs entités soumises à l’essai d’aptitude sont
distribuées séquentiellement pour procéder à l’essai ou au mesurage, et reviennent par intervalles à
l’organisateur d’essais d’aptitude;
— les programmes simultanés, dans lesquels les entités soumises à l’essai d’aptitude sont réparties en vue
d’essais ou de mesurages réalisés en même temps au cours d’une période de temps définie;
— les exercices de situation unique, dans lesquels les entités soumises à l’essai d’aptitude sont fournies à une
seule occasion;
— les programmes continus, dans lesquels les entités soumises à l’essai d’aptitude sont fournies à intervalles
réguliers;
— les échantillonnages, dans lesquels des échantillons sont prélevés en vue d’une analyse ultérieure et l’objectif
du programme d’essais d’aptitude inclut l’évaluation de l’exécution de l’échantillonnage; et
— les interprétations de données, dans lesquelles des ensembles de données ou d’autres informations sont
fournis et les informations sont traitées pour en effectuer une interprétation (ou obtenir un autre résultat).
3.3
valeur assignée
valeur attribuée à une propriété particulière d’une entité soumise à l’essai d’aptitude
3.4
écart-type pour l’évaluation de l’aptitude
mesure de la dispersion utilisée dans l’évaluation des résultats d’un essai d’aptitude (3.2)
Note 1 à l'article: Cela peut être interprété comme l’écart-type des résultats pour une population par rapport à
une population hypothétique de laboratoires œuvrant en totale conformité aux exigences.
Note 2 à l'article: L’écart-type pour l’évaluation de l’aptitude ne s’applique qu’aux résultats sur une échelle linéaire
ou sur une échelle d’intervalle.
Note 3 à l'article: Les programmes d’essais d’aptitude n’évaluent pas tous la performance en se fondant sur la
dispersion des résultats.
[SOURCE: ISO/IEC 17043:2010, modifiée — Dans la définition «fondée sur les informations disponibles»
a été supprimé. La Note 1 à l’article a été rajoutée, et les Notes 2 et 3 légèrement modifiées.]
3.5
erreur de mesure
différence entre la valeur mesurée d’une grandeur et une valeur de référence
[SOURCE: Guide ISO/IEC 99:2007, modifié — Les notes ont été supprimées.]
3.6
erreur maximale tolérée
valeur extrême de l’erreur de mesure (3.5), par rapport à une valeur de référence connue, qui est tolérée
par les spécifications ou règlements pour un mesurage, un instrument de mesure ou un système de
mesure donné
[SOURCE: Guide ISO/IEC 99:2007, modifié — Les notes ont été supprimées.]
3.7
score z
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
(3.3) et de l’écart-type pour l’évaluation de l’aptitude (3.4)
Note 1 à l'article: Une variante commune du score z, souvent appelée z’ (communément prononcé z-prime),
est formée en combinant l’incertitude de la valeur assignée avec l’écart-type pour l’évaluation de l’aptitude avant
de calculer le score z.
3.8
score zêta
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
(3.3) et des incertitudes-types composées associées au résultat et à la valeur assignée (3.3)
3.9
proportion du score limite admissible
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
(3.3) et du critère d’erreur de mesure (3.5) lors d’un essai d’aptitude
Note 1 à l'article: Pour des résultats uniques, la performance peut être exprimée par l’écart par rapport à la valeur
assignée (D ou D %).
3.10
signal d’action
indication de la nécessité d’une action à la suite du résultat d’un essai d’aptitude
EXEMPLE Par convention, un score z supérieur à 2 est considéré comme une indication de la nécessité de
rechercher les causes possibles; un score z de 3 ou supérieur à 3 est, par convention, considéré comme un signal
d’action indiquant la nécessité d’une action corrective.
3.11
valeur consensuelle
valeur obtenue à partir de l’ensemble des résultats lors d’une comparaison interlaboratoires (3.1)
Note 1 à l'article: L’expression «valeur consensuelle» est généralement utilisée pour décrire des estimations de
position et de dispersion obtenues à partir des résultats des participants à une campagne du programme d’essais
d’aptitude, mais peut aussi être utilisée pour désigner des valeurs obtenues à partir des résultats d’un sous-
ensemble spécifié de ces résultats ou, par exemple, d’un certain nombre de laboratoires experts.
3.12
valeur aberrante
élément d’un ensemble de valeurs qui est incohérent avec les autres éléments de cet ensemble
Note 1 à l'article: Une valeur aberrante peut apparaître par hasard dans la population attendue, provenir d’une
population différente ou résulter d’un enregistrement incorrect ou d’une autre faute.
Note 2 à l'article: De nombreux programmes d'essais d'aptitude utilisent le terme «valeur aberrante» pour
désigner un résultat qui génère un signal d’action. Il ne s’agit pas là de l’utilisation prévue du terme. Bien que les
valeurs aberrantes génèrent habituellement des signaux d’action, il est possible d’avoir des signaux d’action issus
de résultats qui ne sont pas des valeurs aberrantes.
[SOURCE: ISO 5725-1:1994, modifiée — Les notes à l’article ont été ajoutées.]
3.13
participant
laboratoire, organisme ou particulier, recevant les entités soumises à l’essai d’aptitude et soumettant
ses résultats à l’organisateur d’essais d’aptitude (3.2)
3.14
entité soumise à l’essai d’aptitude
échantillon, produit, artéfact, matériau de référence, élément d’un matériel, étalon, ensemble de
données ou autres informations utilisées pour évaluer la performance d’un participant (3.13) dans des
essais d’aptitude (3.2)
Note 1 à l'article: Dans la plupart des cas, les entités soumises à l’essai d’aptitude sont conformes à la définition de
«matériau de référence» (3.17) donnée dans le Guide ISO 30.
3.15
organisateur d’essais d’aptitude
organisme ayant la responsabilité de toutes les tâches d’élaboration et d’exécution d’un programme
d’essais d’aptitude (3.2)
3.16
programme d’essais d’aptitude
essai d’aptitude (3.2) conçu et exécuté en une ou plusieurs campagnes dans un domaine spécifié d’essai,
de mesurage, d’étalonnage ou d’inspection
Note 1 à l'article: Un programme d’essais d’aptitude peut recouvrir un type particulier d’essai, d’étalonnage,
d’inspection ou un certain nombre d’essais, d’étalonnages ou d’inspections sur des entités soumises à l’essai
d’aptitude.
3.17
matériau de référence
MR
matériau, suffisamment homogène et stable quant à une ou plusieurs propriétés spécifiées, qui a été
préparé pour être adapté à son utilisation prévue dans un processus de mesure
Note 1 à l'article: MR est un terme générique.
Note 2 à l'article: Les propriétés peuvent être quantitatives ou qualitatives, par exemple l’identité de substances
ou d’espèces.
Note 3 à l'article: Les utilisations prévues peuvent être l’étalonnage d’un système de mesure, l’évaluation d’une
méthode de mesure, l’assignation de valeurs à d’autres matériaux et le contrôle de la qualité.
[SOURCE: Guide ISO 30:2015, modifié — La Note 4 a été supprimée.]
3.18
matériau de référence certifié
MRC
matériau de référence (MR) (3.17) caractérisé par une procédure métrologiquement valide applicable à
une ou plusieurs propriétés spécifiées et accompagné d’un certificat de MR qui indique la valeur de la
propriété spécifiée, son incertitude associée, et une expression de la traçabilité métrologique
Note 1 à l'article: Le concept de valeur inclut une propriété nominale ou un attribut qualitatif tels que l’identité
ou la séquence. Les incertitudes concernant ces propriétés peuvent être exprimées par des probabilités ou des
niveaux de confiance.
[SOURCE: Guide ISO 30:2015, modifié — Les Notes 2, 3 et 4 ont été supprimées.]
4 Principes généraux
4.1 Exigences générales relatives aux méthodes statistiques
4.1.1 Les méthodes statistiques utilisées doivent être adaptées à l’objectif et statistiquement
correctes. Toutes les hypothèses statistiques sur lesquelles les méthodes ou le plan sont fondés doivent
être indiquées dans le plan ou dans une description écrite du programme d’essais d’aptitude et il doit
être démontré qu’elles sont raisonnables.
NOTE Une méthode statistiquement valide a une solide base théorique, a des performances connues dans les
conditions d’utilisation prévues et repose sur des hypothèses ou des conditions dont on peut démontrer qu’elles
s’appliquent suffisamment bien aux données pour l’objectif considéré.
4.1.2 Le plan statistique et les méthodes d’analyse statistiques des données doivent être en cohérence
avec les objectifs annoncés pour le programme d’essais d’aptitude.
4.1.3 L’organisateur d’essais d’aptitude doit fournir aux participants une description des méthodes
de calcul utilisées, une explication de l’interprétation générale des résultats et un énoncé des limites
associées à l’interprétation. Cette description doit figurer dans chaque rapport relatif à chaque
campagne du programme d’essais d’aptitude ou dans un récapitulatif séparé des procédures mis à la
disposition des participants.
4.1.4 L’organisateur d’essais d’aptitude doit s’assurer que tous les logiciels ont fait l’objet d’une
validation adéquate.
4.2 Modèle de base
4.2.1 Pour les résultats quantitatifs de programmes d’essais d’aptitude dans lesquels un seul résultat
est consigné pour une entité donnée soumise à l’essai d’aptitude, le modèle de base est donné dans la
Formule (1):
x =+με (1)
ii

x désigne le résultat d’essai d’aptitude du participant i;
i
μ désigne la valeur vraie du mesurande;
ε désigne l’erreur de mesure du participant i, distribuée selon un modèle pertinent.
i
NOTE 1 Les modèles courants pour ε comprennent: la distribution normale ε ~ N(0, σ ) avec une moyenne de 0
i
et une variance constante ou différente pour chaque laboratoire; ou plus couramment, une distribution «normale
contaminée par des valeurs aberrantes» consistant en un mélange d’une loi normale avec une distribution plus
étendue représentant la population de résultats erronés.
NOTE 2 La base de l’évaluation de la performance avec les scores z et σ est que dans une population
pt
«idéalisée» de laboratoires compétents, l’écart-type des résultats des essais d’aptitude serait inférieur ou égal à
σ .
pt
NOTE 3 Ce modèle diffère du modèle de base de l’ISO 5725, en ce qu’il ne contient pas le terme de biais du
laboratoire B . Cela est dû au fait qu’il n’est pas possible de faire la distinction entre les termes de biais du
i
laboratoire et d’erreur résiduelle lorsqu’une seule observation est consignée. Toutefois, lorsque les résultats d’un
participant issus de plusieurs campagnes ou entités soumises à un programme d’essais d'aptitude sont pris en
compte, il peut être utile d’inclure un terme distinct pour le biais du laboratoire.
4.2.2 Pour des résultats ordinaux ou qualitatifs, d’autres modèles peuvent être appropriés ou il peut
n’exister aucun modèle statistique.
4.3 Approches générales pour l’évaluation des performances
4.3.1 Il existe trois approches générales différentes pour l’évaluation des performances dans un
programme d’essais d’aptitude. Ces approches sont utilisées pour atteindre des buts différents dans le
cadre du programme d’essais d’aptitude. Les approches sont énumérées ci-dessous:
a) performances évaluées par comparaison à des critères déduits de manière externe;
b) performances évaluées par comparaison à d’autres participants;
c) performances évaluées par comparaison à l’incertitude de mesure revendiquée.
4.3.2 Les approches générales peuvent être appliquées différemment pour déterminer la valeur
assignée et pour déterminer les critères d’évaluation des performances, par exemple, lorsque la valeur
assignée est la moyenne robuste des résultats des participants et que l’évaluation des performances
est déduite de σ ou de δ , où δ est une tolérance prédéfinie sur l’erreur de mesure et σ = δ /3; de la
pt E E pt E
même manière; dans certaines situations, la valeur assignée peut être une valeur de référence, mais σ
pt
peut être un écart-type robuste de résultats de participants. Dans l’approche c) utilisant l’incertitude de
mesure, la valeur assignée est généralement une valeur de référence appropriée.
5 Lignes directrices pour le plan statistique des programmes d’essais d’aptitude
5.1 Présentation du plan statistique de programmes d’essais d’aptitude
Les essais d’aptitude portent sur l’évaluation des performances des participants et, en tant que tels,
ils ne traitent pas spécifiquement de biais ni de fidélité (bien que ceux-ci puissent être évalués avec
des plans spécifiques). Les performances des participants sont évaluées par le biais de l’évaluation
statistique de leurs résultats à la suite des mesurages ou des interprétations qu’ils effectuent sur les
entités soumises à l’essai d’aptitude. Les performances sont souvent exprimées sous forme de scores
de performance permettant une interprétation cohérente sur une gamme de mesurandes et pouvant
permettre la comparaison, sur la même base, des résultats relatifs à différents mesurandes. Les scores
de performance sont généralement obtenus en comparant la différence entre le résultat consigné
par le participant et une valeur assignée avec une dispers
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...