ISO 13528:2015
(Main)Statistical methods for use in proficiency testing by interlaboratory comparison
Statistical methods for use in proficiency testing by interlaboratory comparison
ISO 13528:2015 provides detailed descriptions of statistical methods for proficiency testing providers to use to design proficiency testing schemes and to analyse the data obtained from those schemes. It provides recommendations on the interpretation of proficiency testing data by participants in such schemes and by accreditation bodies. The procedures in ISO 13528:2015 can be applied to demonstrate that the measurement results obtained by laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance. ISO 13528:2015 is applicable to proficiency testing where the results reported are either quantitative measurements or qualitative observations on test items.
Méthodes statistiques utilisées dans les essais d'aptitude par comparaison interlaboratoires
L'ISO 13528:2015 fournit des descriptions détaillées de méthodes statistiques à utiliser par les organisateurs d'essais d'aptitude pour concevoir des programmes d'essais d'aptitude et pour analyser les données obtenues à partir de tels programmes. Elle donne des recommandations sur l'interprétation des données d'essais d'aptitude par les participants à de tels programmes et par les organismes d'accréditation. Les procédures de l'ISO 13528:2015 peuvent être appliquées pour démontrer que les résultats de mesure obtenus par des laboratoires, des organismes de contrôle et des personnes remplissent les critères spécifiés pour des performances acceptables. L'ISO 13528:2015 est applicable à des essais d'aptitude dans lesquels les résultats rapportés sont des observations quantitatives ou qualitatives sur des d'entités soumises à l'essai.
General Information
- Status
- Withdrawn
- Publication Date
- 27-Jul-2015
- Technical Committee
- ISO/TC 69/SC 6 - Measurement methods and results
- Drafting Committee
- ISO/TC 69/SC 6 - Measurement methods and results
- Current Stage
- 9599 - Withdrawal of International Standard
- Start Date
- 18-Aug-2022
- Completion Date
- 13-Dec-2025
Relations
- Revised
ISO 13528:2022 - Statistical methods for use in proficiency testing by interlaboratory comparison - Effective Date
- 23-Apr-2020
- Revises
ISO 13528:2005 - Statistical methods for use in proficiency testing by interlaboratory comparisons - Effective Date
- 06-Mar-2010
ISO 13528:2015 - Statistical methods for use in proficiency testing by interlaboratory comparison
ISO 13528:2015 - Statistical methods for use in proficiency testing by interlaboratory comparison
ISO 13528:2015 - Méthodes statistiques utilisées dans les essais d'aptitude par comparaison interlaboratoires
ISO 13528:2015 - Méthodes statistiques utilisées dans les essais d'aptitude par comparaison interlaboratoires
Frequently Asked Questions
ISO 13528:2015 is a standard published by the International Organization for Standardization (ISO). Its full title is "Statistical methods for use in proficiency testing by interlaboratory comparison". This standard covers: ISO 13528:2015 provides detailed descriptions of statistical methods for proficiency testing providers to use to design proficiency testing schemes and to analyse the data obtained from those schemes. It provides recommendations on the interpretation of proficiency testing data by participants in such schemes and by accreditation bodies. The procedures in ISO 13528:2015 can be applied to demonstrate that the measurement results obtained by laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance. ISO 13528:2015 is applicable to proficiency testing where the results reported are either quantitative measurements or qualitative observations on test items.
ISO 13528:2015 provides detailed descriptions of statistical methods for proficiency testing providers to use to design proficiency testing schemes and to analyse the data obtained from those schemes. It provides recommendations on the interpretation of proficiency testing data by participants in such schemes and by accreditation bodies. The procedures in ISO 13528:2015 can be applied to demonstrate that the measurement results obtained by laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance. ISO 13528:2015 is applicable to proficiency testing where the results reported are either quantitative measurements or qualitative observations on test items.
ISO 13528:2015 is classified under the following ICS (International Classification for Standards) categories: 03.120.30 - Application of statistical methods. The ICS classification helps identify the subject area and facilitates finding related standards.
ISO 13528:2015 has the following relationships with other standards: It is inter standard links to ISO 13528:2022, ISO 13528:2005. Understanding these relationships helps ensure you are using the most current and applicable version of the standard.
ISO 13528:2015 is associated with the following European legislation: EU Directives/Regulations: 2021-01-0307. When a standard is cited in the Official Journal of the European Union, products manufactured in conformity with it benefit from a presumption of conformity with the essential requirements of the corresponding EU directive or regulation.
You can purchase ISO 13528:2015 directly from iTeh Standards. The document is available in PDF format and is delivered instantly after payment. Add the standard to your cart and complete the secure checkout process. iTeh Standards is an authorized distributor of ISO standards.
Standards Content (Sample)
DRAFT INTERNATIONAL STANDARD ISO/DIS 13528
ISO/TC 60/SC 6 Secretariat: JISC
Voting begins on Voting terminates on
2013-01-22 2013-04-22
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION • МЕЖДУНАРОДНАЯ ОРГАНИЗАЦИЯ ПО СТАНДАРТИЗАЦИИ • ORGANISATION INTERNATIONALE DE NORMALISATION
Statistical methods for use in proficiency testing by
interlaboratory comparisons
Méthodes statistiques utilisées dans les essais d'aptitude par comparaisons interlaboratoires
[Revision of first edition (ISO 13528:2005)]
ICS 03.120.30
To expedite distribution, this document is circulated as received from the committee
secretariat. ISO Central Secretariat work of editing and text composition will be undertaken at
publication stage.
Pour accélérer la distribution, le présent document est distribué tel qu'il est parvenu du
secrétariat du comité. Le travail de rédaction et de composition de texte sera effectué au
Secrétariat central de l'ISO au stade de publication.
THIS DOCUMENT IS A DRAFT CIRCULATED FOR COMMENT AND APPROVAL. IT IS THEREFORE SUBJECT TO CHANGE AND MAY NOT BE
REFERRED TO AS AN INTERNATIONAL STANDARD UNTIL PUBLISHED AS SUCH.
IN ADDITION TO THEIR EVALUATION AS BEING ACCEPTABLE FOR INDUSTRIAL, TECHNOLOGICAL, COMMERCIAL AND USER PURPOSES, DRAFT
INTERNATIONAL STANDARDS MAY ON OCCASION HAVE TO BE CONSIDERED IN THE LIGHT OF THEIR POTENTIAL TO BECOME STANDARDS TO
WHICH REFERENCE MAY BE MADE IN NATIONAL REGULATIONS.
RECIPIENTS OF THIS DRAFT ARE INVITED TO SUBMIT, WITH THEIR COMMENTS, NOTIFICATION OF ANY RELEVANT PATENT RIGHTS OF WHICH
THEY ARE AWARE AND TO PROVIDE SUPPORTING DOCUMENTATION.
© International Organization for Standardization, 2013
ISO/DIS 13528
Copyright notice
This ISO document is a Draft International Standard and is copyright-protected by ISO. Except as permitted
under the applicable laws of the user’s country, neither this ISO draft nor any extract from it may be
reproduced, stored in a retrieval system or transmitted in any form or by any means, electronic,
photocopying, recording or otherwise, without prior written permission being secured.
Requests for permission to reproduce should be addressed to either ISO at the address below or ISO’s
member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Reproduction may be subject to royalty payments or a licensing agreement.
Violators may be prosecuted.
ii © ISO 2013 – All rights reserved
ISO/DIS 13528
Contents Page
0 Introduction . iv
0.1 The purposes for proficiency testing . iv
0.2 ISO/IEC 17043 . iv
0.3 Statistical expertise . iv
0.4 Computer software . v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Guidelines for the statistical design of proficiency testing schemes . 3
4.1 Introduction . 3
4.2 Basis of a statistical design . 4
4.3 Considerations for the statistical distribution of results . 4
4.4 Considerations for small numbers of participants . 5
4.5 Considerations for qualitative data (including nominal and ordinal properties) . 5
4.6 Guidelines for choosing the reporting format . 6
5 Guidelines for the initial review of proficiency testing items and results . 8
5.1 Homogeneity and stability of proficiency test items . 8
5.2 Considerations when different methods are used by participants . 8
5.3 Blunder removal . 9
5.4 Visual review of data . 9
5.5 Robust statistical methods . 9
5.6 Outlier techniques for individual results . 10
6 Determination of the assigned value and its standard uncertainty . 10
6.1 Choice of method of determining the assigned value . 10
6.2 Determining the uncertainty of the assigned value . 10
6.3 Formulation . 12
6.4 Certified reference material . 12
6.5 Results from one laboratory . 13
6.6 Results from a study using expert laboratories . 13
6.7 Combined measurement results from participants . 14
6.8 Comparison of the assigned value with an independent reference value . 15
7 Determination of criteria for evaluation of performance . 15
7.1 Basis for evaluation . 15
7.2 By perception of experts . 16
7.3 By experience with previous rounds . 17
7.4 With a general model . 17
7.5 Using the repeatability and reproducibility standard deviation from a collaborative study . 18
7.6 From data obtained in the same round of a proficiency testing scheme . 18
7.7 Comparison of precision values derived from a proficiency testing scheme with
established values . 19
8 Calculation of performance statistics . 19
8.1 General considerations for determining performance . 19
8.2 Estimates of deviation (measurement error) . 19
8.3 z scores . 20
8.4 z scores . 21
8.5 Zeta scores () . 22
8.6 E scores . 23
n
8.7 Use of ranks and percentile ranks . 24
8.8 Interpretation of participant uncertainties in testing . 24
ISO/DIS 13528
8.9 Combined performance scores .25
9 Graphical methods for describing performance scores from one round of a proficiency
test .26
9.1 Application .26
9.2 Histograms of results or performance scores .26
9.3 Bar-plots of standardized scores .27
9.4 Youden Plot .27
9.5 Plots of repeatability standard deviations .28
9.6 Split samples .29
9.7 Graphical methods for combining performance scores over several rounds
of a proficiency testing scheme .29
Annex A (normative) Symbols .31
Annex B (normative) Homogeneity and stability checks of samples .32
Annex C (normative) Robust analysis .37
Annex D (Informative) Illustrative Examples .43
Bibliography .76
ii © ISO 2005 – All rights reserved
ISO/DIS 13528
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 13528 was prepared by Technical Committee ISO/TC 69, Applications of statistical methods,
Subcommittee SC 6, Measurement methods and results. The first edition was published in 2005. The second
edition provides changes to bring the document into harmony with ISO/IEC 17043:2010, which replaced ISO
Guide 43-1. The title has been shortened, because interlaboratory comparison is included in the definition
of proficiency testing. The second edition follows a revised structure, to better reflect the process of the
design, analysis, and reporting of proficiency testing schemes. It also eliminated some procedures and added
or revised some other sections to better reflect ISO/IEC 17043 and to provide clarity and correct minor errors.
New sections were added for qualitative data and alternative robust methods.
ISO/DIS 13528
0 Introduction
0.1 The purposes for proficiency testing
Proficiency testing involves the use of interlaboratory comparisons to determine the performance of
participants (which may be laboratories, inspection bodies, or individuals) for specific tests or measurements,
and to monitor their continuing performance. There are a number of typical purposes of proficiency testing, as
described in the Introduction to ISO/IEC 17043:2010. These include the evaluation of laboratory performance,
the identification of problems in laboratories, establishing effectiveness and comparability of test or
measurement methods, the provision of additional confidence to laboratory customers, validation of
uncertainty claims, and the education of participating laboratories.
The statistical design and analytical techniques applied must be appropriate for the stated purpose(s). This
Standard presents statistical techniques for the described purposes that are consistent with other International
Standards, particularly those of TC69 SC6, notably the ISO 5725 series of standards on Accuracy: trueness
and precision. The techniques are also intended to reflect techniques from other international standards,
where appropriate, and are intended to be consistent with ISO Guide 98 and JCGM 200 (VIM).
The definition of proficiency testing in ISO/IEC 17043 is repeated in ISO 13528, with the Notes that describe
different types of proficiency testing and the range of complexity of designs that can be used. This Standard
cannot specifically cover all designs, purposes, matrices and measurands. The techniques presented in ISO
13528 are intended to be broadly applicable, especially for newly established proficiency testing schemes. It
is expected that statistical techniques used for a particular proficiency testing scheme will evolve as the
scheme matures; and the scores, evaluation criteria, and graphical techniques will be refined to better serve
the specific needs of a target group of participants, accreditation bodies, and regulatory authorities.
ISO 13528 also applies guidance from a harmonized protocol for the proficiency testing of chemical analytical
[20]
laboratories , but is intended for use with all measurement methods. This revision of ISO 13528:2005
contains most of the information from the first edition, extended as necessary by the previously referenced
documents and the extended scope of ISO/IEC 17043, which includes proficiency testing for inspection, and
Annex B, which includes considerations for qualitative and ordinal results. Some procedures from the first
edition have not been carried forward to this edition; due to experience which indicates those techniques are
no longer considered to be appropriate.
0.2 ISO/IEC 17043
This Standard will provide support to the implementation of ISO/IEC 17043 which describes different types of
proficiency testing schemes and gives guidance on the organization and design of proficiency testing
schemes. Annex C of ISO/IEC 17043 gives guidance on the selection and use of proficiency testing schemes
by laboratories, inspection bodies, accreditation bodies, and other interested parties. ISO/IEC 17043 should
be consulted for detailed information in those areas, because the information is not duplicated here.
Annex B of ISO/IEC 17043 briefly describes the general statistical methods that are used in proficiency testing
schemes. This International Standard is intended to be complementary to Annex B, providing detailed
guidance that is lacking in that document on particular statistical methods for proficiency testing.
0.3 Statistical expertise
ISO/IEC 17043:2010 requires that in order to be competent, a proficiency testing provider shall have access to
statistical expertise (clause 4.4.1.4) and shall authorize specific personnel to conduct statistical analysis
(clause 4.2.4). Neither ISO/IEC 17043 nor this document can specify further what that necessary expertise is.
For some applications an advanced degree in statistics is useful, but usually the needs for expertise can be
met by individuals with technical expertise in other areas, if they are familiar with basic statistical concepts and
common techniques. If an individual is charged with statistical design and/or analysis, it is very important that
this person has experience with interlaboratory comparisons, even if they have an advanced degree in
statistics. Conventional advanced statistical training often does not include exercises with interlaboratory
comparisons, and the unique causes of measurement error that occur in proficiency testing. The guidance in
iv © ISO 2005 – All rights reserved
ISO/DIS 13528
this International Standard cannot provide all the necessary expertise to consider all applications, and cannot
replace the experience gained by working with interlaboratory comparisons.
0.4 Computer software
Computer software that is needed for statistical analysis can vary greatly, ranging from no software at all (for
example, for proficiency testing schemes for individual participants, using known reference values and fitness
for purpose evaluation criteria), to sophisticated statistical packages used for proficiency testing schemes with
large numbers of participants and measurands, or using complicated robust methods. Most of the techniques
in this International Standard can be accomplished by conventional spread sheet applications, perhaps with
customised analysis for a particular scheme or analysis; some techniques will require computer applications
that are freely available (at the time of publication). In all cases, the user must verify the accuracy of their
calculations, especially when special routines have been entered by the user. However, even when the
techniques in this International Standard are appropriate and correctly implemented by adequate computer
applications, they cannot be applied without experienced oversight by an individual with technical and
statistical expertise that is sufficient to identify and investigate anomalies that can occur in any round of
proficiency testing.
ISO/DIS 13528
Statistical methods for use in proficiency testing
1 Scope
This International Standard provides detailed descriptions of sound statistical methods for organizers to use to
design proficiency testing schemes and to analyse the data obtained from those schemes, and provides
recommendations on the use of statistical techniques in practice by participants in such schemes and by
accreditation bodies.
This International Standard can be applied to demonstrate that the measurement results obtained by
laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance.
This International Standard is applicable to proficiency testing where the results reported are either
quantitative or qualitative observations on test items.
NOTE The procedures in this Standard may also be applicable to the assessment of expert opinion where the opinions
or judgments are reported in a form which may be compared objectively with an independent reference value or a
combined participant result statistic. For example. when classifying test items into known categories by inspection - or in
determining by inspection whether test items arise, or do not arise, from the same original source - and the classification
results are compared objectively.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO 3534-1, Statistics — Vocabulary and symbols — Part 1: Probability and general statistical terms
ISO 3534-2, Statistics — Vocabulary and symbols — Part 2: Applied statistics
ISO 5725-1, Accuracy (trueness and precision) of measurement methods and results — Part 1: General
principles and definitions
ISO/IEC 17043, Conformity assessment — General requirements for proficiency testing
JCGM 200:2012, International vocabulary of metrology — Basic and general concepts and associated terms
rd
(VIM), 3 edition
ISO/IEC Guide 98-3, Uncertainty of measurement — Part 3: Guide to the expression of uncertainty in
measurement (GUM:1995)
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 3534-1, ISO 3534-2, ISO 5725-1,
ISO/IEC 17043, JCGM 200, ISO Guide 34, and the following apply.
3.1
interlaboratory comparison
Organization, performance and evaluation of measurements or tests on the same or similar items by two or
more laboratories in accordance with predetermined conditions
3.2
proficiency testing
Evaluation of participant performance against pre-established criteria by means of interlaboratory
comparisons
ISO/DIS 13528
NOTE For the purposes of this International Standard, the term “proficiency testing” is taken in its widest sense and
includes, but is not limited to:
a) quantitative scheme — where the objective is to quantify one or more measurands of the proficiency test item;
b) qualitative scheme — where the objective is to identify or describe one or more characteristics of the proficiency test
item;
c) sequential scheme — where one or more proficiency test items are distributed sequentially for testing or
measurement and returned to the proficiency testing provider at intervals;
d) simultaneous scheme — where proficiency test items are distributed for concurrent testing or measurement within a
defined time period;
e) single occasion exercise — where proficiency test items are provided on a single occasion;
f) continuous scheme — where proficiency test items are provided at regular intervals;
g) sampling — where samples are taken for subsequent analysis; and
h) data transformation and interpretation — where sets of data or other information are furnished and the information is
processed to provide an interpretation (or other outcome).
3.3
assigned value
Value attributed to a particular property of a proficiency test item
3.4
standard deviation for proficiency assessment
Measure of dispersion used in the evaluation of results of proficiency testing, based on the available
information
NOTE 1 This can be interpreted as a target standard deviation for a population of laboratories that is competent to
perform a particular measurement procedure.
NOTE 2 The standard deviation for proficiency assessment applies only to ratio and differential scale results.
NOTE 3 Not all proficiency testing schemes evaluate proficiency based on the dispersion of results.
NOTE 4 The notes for the definition in this document are not the same as the definition in ISO/IEC 17043.
3.5
z score
Standardized measure of performance, calculated using the participant result, assigned value and the
standard deviation for proficiency assessment
3.6
outlier
Observation in a set of data that appears to be inconsistent with the remainder of that set
NOTE 1 An outlier can originate from a different population or be the result of an incorrect recording or other gross error.
NOTE 2 Many schemes use the term outlier to designate a result that generates an action signal. This is not the
intended use of the term. While outliers will usually generate action signals, it is possible to have action signals from
results that are not considered to be outliers.
3.7
participant
Laboratory, organization, or individual that receives proficiency test items and submits results for review by the
proficiency testing provider.
ISO/DIS 13528
3.8
proficiency test item
Sample, product, artefact, reference material, piece of equipment, measurement standard, data set or other
information used for proficiency testing.
NOTE In most instances, proficiency test items meet the ISO Guide 34 definition of “reference material” (3.11 below)
3.9
proficiency testing provider
Organization which takes responsibility for all tasks in the development and operation of a proficiency testing
scheme.
3.10
proficiency testing scheme
proficiency testing designed and operated in one or more rounds for a specified area of testing, measurement,
calibration or inspection.
NOTE A proficiency testing scheme might cover a particular type of test, calibration, inspection or a number of tests,
calibrations or inspections on proficiency test items.
3.11
reference material (RM)
Material, sufficiently homogeneous and stable with respect to one or more specified properties, which has
been established to be fit for its intended use in a measurement process. (ISO Guide 34:2009)
NOTE 1 RM is a generic term
NOTE 2 Properties can be quantitative or qualitative (e.g., identity of substances or species)
NOTE 3 Uses may include the calibration of a measurement system, assessment of a measurement procedure,
assigning values to other materials, and quality control.
3.12
certified reference material (CRM)
Reference material characterized by a metrologically valid procedure for one or more specified properties,
accompanied by a certificate that provides the value of the specified property, its associated uncertainty, and
a statement of metrological traceability. (ISO Guide 34:2009)
NOTE The concept of value includes qualitative attributes such as identity or sequence. Uncertainties for such
attributes may be expressed as probabilities.
4 Guidelines for the statistical design of proficiency testing schemes
4.1 Introduction
Proficiency testing is concerned with the assessment of participant performance and as such does not
specifically address bias or precision (although these can be assessed with specific designs). The
performance of the participants is undertaken through the statistical evaluation of their results following the
measurements or interpretations they make on the proficiency test items. Performance is often expressed in
the form of scores which allow consistent interpretation across a range of measurands and can allow results
for different measurands to be compared on an equal footing. Performance scores are typically derived by
comparing the difference between reported participant results and an assigned value with an allowable
deviation or with a measure of uncertainty of the difference. Examination of the performance scores over
multiple measurands or rounds of a proficiency testing scheme can provide information on whether individual
laboratories show evidence of consistent systematic effects (“bias”) or poor long term precision.
The following sections give guidance on the design of proficiency testing schemes and on the statistical
treatment of results, including the calculation and interpretation of various performance scores.
ISO/DIS 13528
4.2 Basis of a statistical design
4.2.1 According to ISO/IEC 17043, clause 4.4.4.1, the statistical design “shall be developed to meet the
objectives of the scheme, based on the nature of the data (quantitative or qualitative including ordinal and
categorical), statistical assumptions, the nature of errors, and the expected number of results”. Therefore
schemes with different objectives and with different sources of error could have different designs.
NOTE For example, schemes with the following main approaches could have different statistical designs:
a scheme to compare participant results with combined results from a group in the same round, and limits determined
by the variability of participant results;
a scheme to compare a participant’s result against a pre-determined reference value and within limits that are
specified before the round begins;
a scheme to compare participants’ results with the participant’s own measurement uncertainty.
Proficiency testing schemes with other (perhaps secondary) objectives could also require specific statistical techniques,
such as when an objective is to compare performance of different measurement procedures.
4.2.2 There are various types of data used in proficiency testing, including quantitative, nominal
(categorical), and ordinal. Among the continuous variables, some results might be on a differential or rational
scale (a scale with an arbitrary 0); or a relative, or ratio scale (on a scale with a true 0). For some
measurements on a continuous scale, only a discrete and discontinuous set of values can be realized;
however, in many cases these results can be treated as other continuous variables.
4.2.3 Schemes may be used for other purposes in addition to the above, as discussed in section 0.1 and in
ISO/IEC 17043. The design must be appropriate for all stated uses.
4.3 Considerations for the statistical distribution of results
4.3.1 Statistical assumption for distribution
4.3.1.1 The design and data analysis techniques shall be consistent with the statistical assumptions for the
data (see ISO/IEC 17043 clause 4.4.4.2). Most common analysis techniques for proficiency testing assume
that a set of results from competent participants will be unimodal, reasonably symmetric, and approximately
normally distributed. A common additional assumption is that the distribution of results from all participants is
mixed (or ‘contaminated’) with results from a population of erroneous values and outliers. Usually, the scoring
interpretation relies on the assumption of normality, but only for the underlying assumed distribution for
competent participants.
4.3.1.2 It is usually not necessary to verify that results are normally distributed, but it is important to verify
approximate symmetry, at least visually. If this is not possible then the proficiency testing provider should use
techniques that are robust to asymmetry (see Annex C).
4.3.1.3 When the distribution expected for the proficiency testing scheme is not sufficiently close to a
symmetric normal distribution (with contamination by outliers), the proficiency testing provider should select
data analysis methods that take due account of the asymmetry expected and that are resistant to outliers, and
scoring methods that also take due account of the expected distribution for results from competent
participants. This may include
transformation to provide approximate symmetry;
methods of estimation that are resistant to asymmetry;
methods of estimation that incorporate appropriate distributional assumptions (for example, maximum
likelihood fitting with suitable distribution assumptions and, if necessary, outlier rejection).
NOTE For example, dilution based results, such as for quantitative microbiological counts or for immunoassay
techniques, are often distributed according to the logarithmic normal distribution, and so a logarithmic transformation is
appropriate as the first step in analysis. Another example is counts of small numbers of particles, which may be
distributed according to a Poisson distribution, and therefore the evaluation interval would be determined using a table of
Poisson probabilities, based on the average count for the group of participants.
ISO/DIS 13528
4.3.1.4 Many calibration measurands follow defined statistical distributions that are described in the
measurement procedure; these distributions should be considered in any evaluation protocol.
4.3.2 Reasonableness of assumptions
According to ISO/IEC 17043 section 4.4.4.2, the proficiency testing provider must state the reasons for any
statistical assumptions and demonstrate that the assumptions are reasonable. This demonstration could be
based on the observed data, results from previous rounds of the scheme, or the technical literature.
NOTE 1 The demonstration of the reasonableness of a distribution assumption is less rigorous than the demonstration of
the validity of that assumption.
NOTE 2 In general, it is not appropriate to determine evaluations using an objective to classify a certain proportion of
results as generating an ‘action signal’, based on an assumed distribution (e.g., ‘action signal’ = outside 95% confidence
limits for the normal distribution).
4.4 Considerations for small numbers of participants
4.4.1 Appropriate methods
Statistical methods that are appropriate for large numbers of participants may not be appropriate with limited
numbers of participants. The appropriate number of participants cannot be specified exactly for all cases
since it will vary for different summary statistics, the comparability of results from different methods, the
experience of the participants, and the experience of the provider. For example, reliable means and medians
can usually be determined with fewer results than can standard deviations, and the necessary numbers of
results are usually smaller when participants have experience with proficiency testing, than when a scheme is
new or there is a large number of inexperienced participants.
4.4.2 Alternatives for small numbers
The statistical design for a proficiency testing scheme must consider the minimum number of participants that
are needed to meet the objectives of the design, and state alternative approaches that will be used if the
minimum number is not achieved (ISO/IEC 17043:2010, clause 4.4.4.3 c)). Concerns are that statistics
determined from participant results may not be sufficiently reliable, and a participant could be evaluated
against an inappropriate comparison group. Possible alternative procedures include the following:
a) Visually review results to assure sufficient agreement among the limited group;
b) Review data from similar items and measurands used in previous rounds or other schemes, and use
evaluation criteria from those rounds or schemes. Calculate the expanded uncertainty of the assigned
value using the appropriate expansion factor from the t distribution, and assess whether the expanded
uncertainty U is < 0.6ˆ (similar to u < 0.3ˆ ).
X X
NOTE When there are few participants in a scheme, the recommendations of the IUPAC/CITAC Technical Report:
Selection and use of proficiency testing schemes for a limited number of participants should be considered, if feasible. In
brief, the IUPAC/CITAC report recommends that the assigned value should be based on reliable independent
measurements; for example by use of a certified reference material, independent assignment by a calibration or national
measurement institute, or by gravimetric preparation. The report further states that the standard deviation for proficiency
assessment may not be based on the observed dispersion among participant results for a single round.
4.5 Considerations for qualitative data (including nominal and ordinal properties)
4.5.1 Types of qualitative data
A large amount of proficiency testing occurs for properties that are measured or identified on qualitative scales.
This includes the following:
Nominal properties, where the property value has no magnitude (such as a type of substance or
organism).
ISO/DIS 13528
Presence or absence of a property, whether determined by subjective criteria or by the magnitude of a
signal from a measurement procedure.
Ordinal properties, where a measurement gives signals that can be ordered according to magnitude but
for which no algebraic relationships exist among the signals.
Expert scoring or derived scores, where scores are assigned for particular responses, within or across
proficiency test items, based on fitness for use and/or impact of differences from the assigned value.
NOTE An example of ‘expert scoring’ is where a proficiency testing provider assigns no points for an entirely correct
response on a nominal property (e.g., identification of a microbiological species), one point for a result that is incorrect but
would not change the interpretation, and 3 points for a result that is incorrect and would lead to a different interpretation.
4.5.2 Statistical design and analysis
4.5.2.1 In general, statistical methods for various types of qualitative properties are the same in that the
design and analysis are determined by expert judgment, and correctness is based on the technical
competence of the participant, not by measurement uncertainty or other stochastic influences. Therefore this
is not strictly true for qualitative determinations that are based on the magnitude of a measurement signal with
established cut-points, but for the purposes of proficiency testing the differences are slight. In general, the
assigned value and the performance evaluation criteria for qualitative data should be based on expert
judgment, not on a statistical design and analysis.
4.5.2.2 It is not appropriate to calculate means or standard deviations for proficiency testing results for
qualitative properties, including ordinal values. This is because there is no algebraic relationship between the
signals. If assigned values or evaluation criteria are calculated from ordinal statistics or from performance
statistics derived from expert judgment, the scores and evaluation criteria shall be fully explained to
participants.
4.5.2.3 It may be appropriate in some circumstances to determine the assigned value based on statistics
such as the most common response (the mode) or the median (for ordinal properties), but this must be
determined by expert judgment. It may also be possible to evaluate performance based on a relation to the
assigned value (such as the median +/- 1 ordinal unit), but this also must be determined by expert judgment.
NOTE The above discussion on ordinal quantities does not apply to measurement results that are based on a
quantitative scale with discontinuous indications (such as dilutions, or titres), where the result reflects a magnitude for the
quantity and where there is a meaningful algebraic relationship among the achievable values. In these cases it is usually
appropriate to use conventional quantitative statistical techniques, perhaps with some transformation of the results before
analysis to meet the assumptions for the distribution (such as by logarithms, for example). Conventional scoring
techniques can be used even if the means and standard deviations are not values that can be observed on the
discontinuous scale. In some cases the proficiency testing provider may wish to round the evaluation criteria or scores to
include achievable values.
An example of the analysis of ordinal data is provided in Annex D.1.
4.5.3 Scores determined by expert judgment.
Determinations of performance based on scores determined by expert judgment shall be verified in use (see
NOTE to 4.5.1). If expert scoring systems are developed based on past experience, the validity of the scores
shall be verified periodically on current results, where expert advisors confirm that patterns of performance
that lead to action signals (or other signals) are confirmed by actual examples of participants that did (or did
not) receive action signals. In some situations these scores may be evaluated using conventional techniques
for quantitative results, but this should be done with caution.
4.6 Guidelines for choosing the reporting format
4.6.1 Reporting results for proficiency testing
It is a requirement of ISO/IEC 17043 (clause 4.6.1.2), that proficiency testing providers instruct participants to
carry out measurements and report results on proficiency test items the same way as for the majority of
routinely performed measurements, except in special circumstances.
ISO/DIS 13528
This requirement can, in some situations, make it difficult to obtain an accurate assessment of participants’
precision and trueness, or competence with a measurement procedure. Special designs may be needed,
depending on the objective of the proficiency testing scheme.
4.6.2 Considerations for using replicates
If a proficiency testing scheme requires replicate measurements on test items, the participant should be
required to report all replicates. This can occur, for example, if an objective is to evaluate a participant’s
precision on known replicate test items, or when a measurement procedure requires separate reporting of
multiple observations,. In these situations the proficiency testing provider may also need to ask for the
participant’s mean or other estimate of location, if the participant has discretion over how they use the
replicate data or to simplify data handling by the PT provider.
Note In many situations, proficiency testing items should have closely similar levels instead of being exact replicates
to obtain estimates of precision, especially in continuous schemes. This is to avoid having participants expect replicates
and artificially reduce the repeatability.
4.6.3 Considerations for censored results
4.6.3.1 Where conventional reporting practice is to report results as ‘less than’ or ‘greater than’ a limit (such
as a calibration interval or a quantitation limit) and where numerical results are required for scoring, the
proficiency testing provider needs to consider how the results will be processed.
In these cases, the provider should require participants to report the numerical value of the result either in
place of, or in addition to, the conventional reported value. Depending on the purposes for the scheme, it
might not be possible to evaluate a participant’s performance on results that are reported outside a declared
interval of competence.
4.6.3.2 When statistics based on combined participant results are used, it may not be possible to evaluate
performance if the number of censored values is large enough that a robust method is affected by the
truncation. In circumstances where the number of censored results is sufficient to affect a robust method,
then the results should be evaluated using statistical methods which allow unbiased estimation in the
presence of censored data, or the results should not be evaluated. When in doubt about the effect of the
procedure chosen, the proficiency testing provider should calculate summary statistics and
...
INTERNATIONAL ISO
STANDARD 13528
Second edition
2015-08-01
Corrected version
2016-10-15
Statistical methods for use in
proficiency testing by interlaboratory
comparison
Méthodes statistiques utilisées dans les essais d’aptitude par
comparaison interlaboratoires
Reference number
©
ISO 2015
© ISO 2015, Published in Switzerland
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized otherwise in any form
or by any means, electronic or mechanical, including photocopying, or posting on the internet or an intranet, without prior
written permission. Permission can be requested from either ISO at the address below or ISO’s member body in the country of
the requester.
ISO copyright office
Ch. de Blandonnet 8 • CP 401
CH-1214 Vernier, Geneva, Switzerland
Tel. +41 22 749 01 11
Fax +41 22 749 09 47
copyright@iso.org
www.iso.org
ii © ISO 2015 – All rights reserved
Contents Page
Foreword .v
0 Introduction .vii
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 General principles . 4
4.1 General requirements for statistical methods . 4
4.2 Basic model . 5
4.3 General approaches for the evaluation of performance . 5
5 Guidelines for the statistical design of proficiency testing schemes .6
5.1 Introduction to the statistical design of proficiency testing schemes . 6
5.2 Basis of a statistical design . 6
5.3 Considerations for the statistical distribution of results . 7
5.4 Considerations for small numbers of participants . 8
5.5 Guidelines for choosing the reporting format. 8
6 Guidelines for the initial review of proficiency testing items and results .10
6.1 Homogeneity and stability of proficiency test items.10
6.2 Considerations for different measurement methods .11
6.3 Blunder removal .11
6.4 Visual review of data .11
6.5 Robust statistical methods .12
6.6 Outlier techniques for individual results.12
7 Determination of the assigned value and its standard uncertainty .13
7.1 Choice of method of determining the assigned value.13
7.2 Determining the uncertainty of the assigned value .14
7.3 Formulation .15
7.4 Certified reference material.15
7.5 Results from one laboratory .16
7.6 Consensus value from expert laboratories .17
7.7 Consensus value from participant results .18
7.8 Comparison of the assigned value with an independent reference value .19
8 Determination of criteria for evaluation of performance .20
8.1 Approaches for determining evaluation criteria .20
8.2 By perception of experts .20
8.3 By experience from previous rounds of a proficiency testing scheme .20
8.4 By use of a general model .21
8.5 Using the repeatability and reproducibility standard deviations from a previous
collaborative study of precision of a measurement method .22
8.6 From data obtained in the same round of a proficiency testing scheme .22
8.7 Monitoring interlaboratory agreement .23
9 Calculation of performance statistics .23
9.1 General considerations for determining performance .23
9.2 Limiting the uncertainty of the assigned value .24
9.3 Estimates of deviation (measurement error) .25
9.4 z scores .26
9.5 z′ scores .27
9.6 Zeta scores (ζ) .28
9.7 E scores .29
n
9.8 Evaluation of participant uncertainties in testing .29
9.9 Combined performance scores .30
10 Graphical methods for describing performance scores .31
10.1 Application of graphical methods .31
10.2 Histograms of results or performance scores .31
10.3 Kernel density plots .32
10.4 Bar-plots of standardized performance scores.33
10.5 Youden Plot .33
10.6 Plots of repeatability standard deviations .34
10.7 Split samples .35
10.8 Graphical methods for combining performance scores over several rounds of a
proficiency testing scheme .36
11 Design and analysis of qualitative proficiency testing schemes (including nominal
and ordinal properties) .37
11.1 Types of qualitative data .37
11.2 Statistical design .37
11.3 Assigned values for qualitative proficiency testing schemes .38
11.4 Performance evaluation and scoring for qualitative proficiency testing schemes.39
Annex A (normative) Symbols .41
Annex B (normative) Homogeneity and stability of proficiency test items .43
Annex C (normative) Robust analysis .51
Annex D (informative) Additional guidance on statistical procedures .63
Annex E (informative) Illustrative examples .67
Bibliography .88
iv © ISO 2015 – All rights reserved
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www.iso.org/patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation on the meaning of ISO specific terms and expressions related to conformity
assessment, as well as information about ISO’s adherence to the WTO principles in the Technical
Barriers to Trade (TBT) see the following URL: Foreword - Supplementary information
The committee responsible for this document is ISO/TC 69, Applications of statistical methods,
Subcommittee SC 6, Measurement methods and results.
This second edition of ISO 13528 cancels and replaces the first edition (ISO 13528:2005), of which
it constitutes a technical revision. This second edition provides changes to bring the document into
harmony with ISO/IEC 17043:2010, which replaced ISO Guide 43-1:1997. It follows a revised structure,
to describe better the process of the design, analysis, and reporting of proficiency testing schemes. It
also eliminates some procedures that are no longer considered to be appropriate, and adds or revises
some other sections to be consistent with ISO/IEC 17043 and to provide clarity and correct minor
errors. New sections have been added for qualitative data and additional robust statistical methods.
This corrected version of ISO 13528:2015 incorporates the following corrections:
— 7.5.2.2, equation (5):”U ” has been replaced with “u “;
char char
— 9.8.2, NOTE: reference to “E.3” has been replaced with a reference to “E.4”;
— 10.3.2, iv, equation (19): an “addition” sign has been added between “q ”and “(i-1)”;
min
— B.2.3, b), line before Table B.1: Reference “[33]” has been replaced with Reference “[32]”;
— B.2.3, Table B.1, first row, first column: “gm” has been replaced with “g”;
— B.2.3, paragraph below Table B.1: in the first formula,”F ” has been replaced with “F ” and subscript
2m m
for “-1” has been removed; in the second formula, subscript for “-1” has been removed;
— B.2.3 b), NOTE: the equation for F is now divided by “(g-1)”;
2 2
— B.3, equations (B.7), (B.14) and (B.16): the terms s and s have been replaced with s and s ; in
x x x x
addition, in equation (B.16) the square root symbol has been moved outside the “max ( 0, ….)”
bracket;
2 2
— B.3, equation (B.8): “ s ” has been replaced with “w ”;
t t
— C.3.1, NOTE 2, first line: “the” has been removed before “identical”;
— C.3.1, paragraph after equation (C.10), second line: the words “the modified data in” have been
deleted.
— C.3.1, last note: “NOTE” has been replaced with “NOTE 3”, and Reference to “E.3 and E.4” has been
replaced with a Reference to “E.1 and E.3”;
The following minor editorial corrections have been implemented for consistency throughout the
document:
— 8.3.1, third bullet, last line: the first occurrence of “approved” (after “more”) has been deleted;
— 8.6.1, first line: “ ,σ , “ has been replaced with “(σ )“ (for presentation consistency);
pt pt
— B.4.1.2, second bullet, second line: the word “samples” has been replaced with “proficiency testing
items” (for terminological consistency)
— Annexes D and E, titles: the first letters in all words after the first one is now in lower case (for
presentation consistency).
vi © ISO 2015 – All rights reserved
0 Introduction
0.1 The purposes of proficiency testing
Proficiency testing involves the use of interlaboratory comparisons to determine the performance
of participants (which may be laboratories, inspection bodies, or individuals) for specific tests or
measurements, and to monitor their continuing performance. There are a number of typical purposes of
proficiency testing, as described in the Introduction to ISO/IEC 17043:2010. These include the evaluation
of laboratory performance, the identification of problems in laboratories, establishing effectiveness and
comparability of test or measurement methods, the provision of additional confidence to laboratory
customers, validation of uncertainty claims, and the education of participating laboratories. The
statistical design and analytical techniques applied must be appropriate for the stated purpose(s).
0.2 Rationale for scoring in proficiency testing schemes
A variety of scoring strategies is available and in use for proficiency testing. Although the detailed
calculations differ, most proficiency testing schemes compare the participant’s deviation from an
assigned value with a numerical criterion which is used to decide whether or not the deviation
represents cause for concern. The strategies used for value assignment and for choosing a criterion
for assessment of the participant deviations are therefore critical. In particular, it is important to
consider whether the assigned value and criterion for assessing deviations should be independent of
participant results, or should be derived from the results submitted. In this Standard, both strategies
are provided for. However, attention is drawn to the discussion that will be found in sections 7 and 8 of
the advantages and disadvantages of choosing assigned values or criteria for assessing deviations that
are not derived from the participant results. It will be seen that in general, choosing assigned values and
assessment criteria independently of participant results offers advantages. This is particularly the case
for the criterion used to assess deviations from the assigned value – such as the standard deviation for
proficiency assessment or an allowance for measurement error – for which a consistent choice based on
suitability for a particular end use of the measurement results, is especially useful.
0.3 ISO 13528 and ISO/IEC 17043
ISO 13528 provides support for the implementation of ISO/IEC 17043 particularly, on the requirements
for the statistical design, validation of proficiency test items, review of results, and reporting summary
statistics. Annex B of ISO/IEC 17043:2010 briefly describes the general statistical methods that are
used in proficiency testing schemes. This International Standard is intended to be complementary to
ISO/IEC 17043, providing detailed guidance that is lacking in that document on particular statistical
methods for proficiency testing.
The definition of proficiency testing in ISO/IEC 17043 is repeated in ISO 13528, with the Notes that
describe different types of proficiency testing and the range of designs that can be used. This Standard
cannot specifically cover all purposes, designs, matrices and measurands. The techniques presented in
ISO 13528 are intended to be broadly applicable, especially for newly established proficiency testing
schemes. It is expected that statistical techniques used for a particular proficiency testing scheme will
evolve as the scheme matures; and the scores, evaluation criteria, and graphical techniques will be
refined to better serve the specific needs of a target group of participants, accreditation bodies, and
regulatory authorities.
ISO 13528 incorporates published guidance for the proficiency testing of chemical analytical
[32]
laboratories but additionally includes a wider range of procedures to permit use with valid
measurement methods and qualitative identifications. This revision of ISO 13528:2005 contains most
of the statistical methods and guidance from the first edition, extended as necessary by the previously
referenced documents and the extended scope of ISO/IEC 17043. ISO/IEC 17043 includes proficiency
testing for individuals and inspection bodies, and Annex B, which includes considerations for qualitative
results.
This Standard includes statistical techniques that are consistent with other International Standards,
particularly those of TC69 SC6, notably the ISO 5725 series of standards on Accuracy: trueness and
precision. The techniques are also intended to reflect other international standards, where appropriate,
and are intended to be consistent with ISO/IEC Guide 98-3 (GUM) and ISO/IEC Guide 99 (VIM).
0.4 Statistical expertise
ISO/IEC 17043:2010 requires that in order to be competent, a proficiency testing provider shall have
access to statistical expertise and shall authorize specific personnel to conduct statistical analysis.
Neither ISO/IEC 17043 nor this International Standard can specify further what that necessary expertise
is. For some applications an advanced degree in statistics is useful, but usually the needs for expertise
can be met by individuals with technical expertise in other areas, who are familiar with basic statistical
concepts and have experience or training in the common techniques applicable to the analysis of data
from proficiency testing schemes. If an individual is charged with statistical design and/or analysis, it
is very important that this person has experience with interlaboratory comparisons, even if that person
has an advanced degree in statistics. Conventional advanced statistical training often does not include
exercises with interlaboratory comparisons, and the unique causes of measurement error that occur
in proficiency testing can seem obscure. The guidance in this International Standard cannot provide
all the necessary expertise to consider all applications, and cannot replace the experience gained by
working with interlaboratory comparisons.
0.5 Computer software
Computer software that is needed for statistical analysis of proficiency testing data can vary greatly,
ranging from simple spread sheet arithmetic for small proficiency testing schemes using known
reference values to sophisticated statistical software used for statistical methods reliant on iterative
calculations or other advanced numerical methods. Most of the techniques in this International
Standard can be accomplished by conventional spread sheet applications, perhaps with customised
routines for a particular scheme or analysis; some techniques will require computer applications that
are freely available (at the time of publication of this Standard). In all cases, the users should verify the
accuracy of their calculations, especially when special routines have been entered by the user. However,
even when the techniques in this International Standard are appropriate and correctly implemented
by adequate computer applications, they cannot be applied without attention from an individual with
technical and statistical expertise that is sufficient to identify and investigate anomalies that can occur
in any round of proficiency testing.
viii © ISO 2015 – All rights reserved
INTERNATIONAL STANDARD ISO 13528:2015(E)
Statistical methods for use in proficiency testing by
interlaboratory comparison
1 Scope
This International Standard provides detailed descriptions of statistical methods for proficiency
testing providers to use to design proficiency testing schemes and to analyse the data obtained from
those schemes. This Standard provides recommendations on the interpretation of proficiency testing
data by participants in such schemes and by accreditation bodies.
The procedures in this Standard can be applied to demonstrate that the measurement results obtained
by laboratories, inspection bodies, and individuals meet specified criteria for acceptable performance.
This Standard is applicable to proficiency testing where the results reported are either quantitative
measurements or qualitative observations on test items.
NOTE The procedures in this Standard may also be applicable to the assessment of expert opinion where the
opinions or judgments are reported in a form which may be compared objectively with an independent reference
value or a consensus statistic. For example, when classifying proficiency test items into known categories by
inspection - or in determining by inspection whether proficiency test items arise, or do not arise, from the same
original source - and the classification results are compared objectively, the provisions of this Standard that
relate to nominal (qualitative) properties may apply.
2 Normative references
The following documents, in whole or in part, are normatively referenced in this document and are
indispensable for its application. For dated references, only the edition cited applies. For undated
references, the latest edition of the referenced document (including any amendments) applies.
ISO Guide 30, Reference materials — Selected terms and definitions
ISO 3534-1, Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in
probability
ISO 3534-2, Statistics — Vocabulary and symbols — Part 2: Applied statistics
ISO 5725-1, Accuracy (trueness and precision) of measurement methods and results — Part 1: General
principles and definitions
ISO/IEC 17043, Conformity assessment — General requirements for proficiency testing
ISO/IEC Guide 99, International vocabulary of metrology — Basic and general concepts and associated
terms (VIM)
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 3534-1, ISO 3534-2, ISO 5725-1,
ISO/IEC 17043, ISO/IEC Guide 99, ISO Guide 30, and the following apply. In the case of differences
between these references on the use of terms, definitions in ISO 3534 parts 1-2 apply. Mathematical
symbols are listed in Annex A.
3.1
interlaboratory comparison
organization, performance and evaluation of measurements or tests on the same or similar items by
two or more laboratories in accordance with predetermined conditions
3.2
proficiency testing
evaluation of participant performance against pre-established criteria by means of interlaboratory
comparisons
Note 1 to entry: For the purposes of this International Standard, the term “proficiency testing” is taken in its
widest sense and includes, but is not limited to:
— quantitative scheme — where the objective is to quantify one or more measurands for each proficiency
test item;
— qualitative scheme — where the objective is to identify or describe one or more qualitative characteristics of
the proficiency test item;
— sequential scheme — where one or more proficiency test items are distributed sequentially for testing or
measurement and returned to the proficiency testing provider at intervals;
— simultaneous scheme — where proficiency test items are distributed for concurrent testing or measurement
within a defined time period;
— single occasion exercise — where proficiency test items are provided on a single occasion;
— continuous scheme — where proficiency test items are provided at regular intervals;
— sampling — where samples are taken for subsequent analysis and the purpose of the proficiency testing
scheme includes evaluation of the execution of sampling; and
— data interpretation — where sets of data or other information are furnished and the information is processed
to provide an interpretation (or other outcome).
3.3
assigned value
value attributed to a particular property of a proficiency test item
3.4
standard deviation for proficiency assessment
measure of dispersion used in the evaluation of results of proficiency testing
Note 1 to entry: This can be interpreted as the population standard deviation of results from a hypothetical
population of laboratories performing exactly in accordance with requirements.
Note 2 to entry: The standard deviation for proficiency assessment applies only to ratio and interval scale results.
Note 3 to entry: Not all proficiency testing schemes evaluate performance based on the dispersion of results.
[SOURCE: ISO/IEC 17043:2010, modified — In the definition “, based on the available information” has
been deleted. Note 1 to the entry has been added, and Notes 2 and 3 have been slightly edited.]
3.5
measurement error
measured quantity value minus a reference quantity value
[SOURCE: ISO/IEC Guide 99:2007, modified — Notes have been deleted.]
3.6
maximum permissible error
extreme value of measurement error, with respect to a known reference quantity value, permitted by
specifications or regulations for a given measurement, measuring instrument, or measuring system
[SOURCE: ISO/IEC Guide 99:2007, modified — Notes have been deleted.]
2 © ISO 2015 – All rights reserved
3.7
z score
standardized measure of performance, calculated using the participant result, assigned value and the
standard deviation for proficiency assessment
Note 1 to entry: A common variation on the z score, sometimes denoted z’ (commonly pronounced z-prime),
is formed by combining the uncertainty of the assigned value with the standard deviation for proficiency
assessment before calculating the z score.
3.8
zeta score
standardized measure of performance, calculated using the participant result, assigned value and the
combined standard uncertainties for the result and the assigned value
3.9
proportion of allowed limit score
standardized measure of performance, calculated using the participant result, assigned value and the
criterion for measurement error in a proficiency test
Note 1 to entry: For single results, performance can be expressed as the deviation from the assigned value (D
or D %).
3.10
action signal
indication of a need for action arising from a proficiency test result
EXAMPLE A z score in excess of 2 is conventionally taken as an indication of a need to investigate possible
causes; a z score in excess of 3 is conventionally taken as an action signal indicating a need for corrective action.
3.11
consensus value
value derived from a collection of results in an interlaboratory comparison
Note 1 to entry: The phrase ‘consensus value’ is typically used to describe estimates of location and dispersion
derived from participant results in a proficiency test round, but may also be used to refer to values derived from
results of a specified subset of such results or, for example, from a number of expert laboratories.
3.12
outlier
member of a set of values which is inconsistent with other members of that set
Note 1 to entry: An outlier can arise by chance from the expected population, originate from a different
population, or be the result of an incorrect recording or other blunder.
Note 2 to entry: Many schemes use the term outlier to designate a result that generates an action signal. This is
not the intended use of the term. While outliers will usually generate action signals, it is possible to have action
signals from results that are not outliers.
[SOURCE: ISO 5725-1:1994, modified — The Notes to the entry have been added.]
3.13
participant
laboratory, organization, or individual that receives proficiency test items and submits results for
review by the proficiency testing provider
3.14
proficiency test item
sample, product, artefact, reference material, piece of equipment, measurement standard, data set or
other information used to assess participant performance in proficiency testing
Note 1 to entry: In most instances, proficiency test items meet the ISO Guide 30 definition of “reference
material” (3.17).
3.15
proficiency testing provider
organization which takes responsibility for all tasks in the development and operation of a proficiency
testing scheme
3.16
proficiency testing scheme
proficiency testing designed and operated in one or more rounds for a specified area of testing,
measurement, calibration or inspection
Note 1 to entry: A proficiency testing scheme might cover a particular type of test, calibration, inspection or a
number of tests, calibrations or inspections on proficiency test items.
3.17
reference material
RM
material, sufficiently homogeneous and stable with respect to one or more specified properties, which
has been established to be fit for its intended use in a measurement process
Note 1 to entry: RM is a generic term.
Note 2 to entry: Properties can be quantitative or qualitative, e.g. identity of substances or species.
Note 3 to entry: Uses may include the calibration of a measuring system, assessment of a measurement procedure,
assigning values to other materials, and quality control.
[SOURCE: ISO Guide 30:2015, modified —Note 4 has been deleted.]
3.18
certified reference material
CRM
reference material (RM) characterized by a metrologically valid procedure for one or more specified
properties, accompanied by an RM certificate that provides the value of the specified property, its
associated uncertainty, and a statement of metrological traceability
Note 1 to entry: The concept of value includes a nominal property or a qualitative attributes such as identity or
sequence. Uncertainties for such attributes may be expressed as probabilities or levels of confidence.
[SOURCE: ISO Guide 30:2015, modified —Notes 2, 3 and 4 have been deleted.]
4 General principles
4.1 General requirements for statistical methods
4.1.1 The statistical methods used shall be fit for purpose and statistically valid. Any statistical
assumptions on which the methods or design are based shall be stated in the design or in a written
description of the proficiency testing scheme, and these assumptions shall be demonstrated to be
reasonable.
NOTE A statistically valid method has a sound theoretical basis, has known performance under the expected
conditions of use and relies on assumptions or conditions which can be shown to apply to the data sufficiently
well for the purpose at hand.
4.1.2 The statistical design and data analysis techniques shall be consistent with the stated objectives
for the proficiency testing scheme.
4.1.3 The proficiency testing provider shall provide participants with a description of the calculation
methods used, an explanation of the general interpretation of results, and a statement of any limitations
4 © ISO 2015 – All rights reserved
relating to interpretation. This shall be available either in each report for each round of the proficiency
testing scheme or in a separate summary of procedures that is available to participants.
4.1.4 The proficiency testing provider shall ensure that all software is adequately validated.
4.2 Basic model
4.2.1 For quantitative results in proficiency testing schemes where a single result is reported for a
given proficiency test item, the basic model is given in equation (1).
x =+με (1)
ii
where
x = proficiency test result from participant i
i
μ = true value for the measurand
ε = measurement error for participant i, distributed according to a relevant model
i
NOTE 1 Common models for ε include: the normal distribution ε ~ N(0, σ ) with mean 0 and variance either
i
constant or different for each laboratory; or more commonly, an ‘outlier-contaminated normal’ distribution
consisting of a mixture of a normal distribution with a wider distribution representing the population of
erroneous results.
NOTE 2 The basis of performance evaluation with z scores and σ is that in an “idealized” population of
pt
competent laboratories, the interlaboratory standard deviation would be σ or less.
pt
NOTE 3 This model differs from the basic model in ISO 5725, in that it does not include the laboratory bias
term B . This is because the laboratory bias and residual error terms cannot be distinguished when only one
i
observation is reported. Where a participant’s results from several rounds or test items are considered, however,
it may become useful to include a separate term for laboratory bias.
4.2.2 For ordinal or qualitative results, other models may be appropriate, or there could be no
statistical model.
4.3 General approaches for the evaluation of performance
4.3.1 There are three different general approaches for evaluating performance in a proficiency testing
scheme. These approaches are used to meet different purposes for the proficiency testing scheme. The
approaches are listed below:
a) performance evaluated by comparison with externally derived criteria;
b) performance evaluated by comparison with other participants;
c) performance evaluated by comparison with claimed measurement uncertainty.
4.3.2 The general approaches can be applied differently for determining the assigned value and for
determining the criteria for performance evaluation; for example when the assigned value is the robust
mean of participant results and the performance evaluation is derived from σ or δ , where δ is a
pt E E
predefined allowance for measurement error and σ = δ /3; similarly, in some situations the assigned
pt E
value can be a reference value, but σ can be a robust standard deviation of participant results. In approach
pt
c) using measurement uncertainty, the assigned value is typically an appropriate reference value.
5 Guidelines for the statistical design of proficiency testing schemes
5.1 Introduction to the statistical design of proficiency testing schemes
Proficiency testing is concerned with the assessment of participant performance and as such does
not specifically address bias or precision (although these can be assessed with specific designs). The
performance of the participants is assessed through the statistical evaluation of their results following
the measurements or interpretations they make on the proficiency test items. Performance is often
expressed in the form of performance scores which allow consistent interpretation across a range
of measurands and can allow results for different measurands to be compared on an equal basis.
Performance scores are typically derived by comparing the difference between a reported participant
result and an assigned value with an allowable deviation or with an estimate of the measurement
uncertainty of the difference. Examination of the performance scores over multiple rounds of a
proficiency testing scheme can provide information on whether individual laboratories show evidence
of consistent systematic effects (”bias”) or poor long term precision.
The following Sections 5-10 give guidance on the design of quantitative proficiency testing schemes
and on the statistical treatment of results, including the calculation and interpretation of various
performance scores. Considerations for qualitative proficiency testing schemes (including ordinal
schemes) are given in Section 11.
5.2 Basis of a statistical design
5.2.1 According to ISO/IEC 17043, 4.4.4.1, the statistical design “shall be developed to meet the
objectives of the proficiency testing scheme, based on the nature of the data (quantitative or qualitative
including ordinal and categorical), statistical assumptions, the nature of errors, and the expected number
of results”. Therefore proficiency testing schemes with different objectives and with different sources of
error could have different designs.
Design considerations for common objectives are listed below. Other objectives are possible.
EXAMPLE 1 For a proficiency testing scheme to compare a participant’s result against a pre-determined
reference value and within limits that are specified before the round begins, the design will require a method for
obtaining an externally defined reference value, a method of setting limits, and a scoring method;
EXAMPLE 2 For a proficiency testing scheme to compare a participant’s result with combined results from a
group in the same round, and limits that are specified before the round begins, the design will need to consider
how the assigned value will be determined from the combined results as well as methods for setting limits and
scoring;
EXAMPLE 3 For a proficiency testing scheme to compare a participant’s result with combined results from a
group in the same round, and limits determined by the variability of participant results, the design will need to
consider the calculation of an assigned value and an appropriate measure of dispersion as well as the method of
scoring;
EXAMPLE 4 For a proficiency testing scheme to compare a participant’s result with the assigned value, using
the participant’s own measurement uncertainty, the design will need to consider how the assigned value and its
uncertainty are to be obtained and how participant measurement uncertainties are to be used in scoring.
EXAMPLE 5 For a proficiency testing scheme with an objective to compare the performance of different
measurement methods, the design will need to consider the relevant summary statistics and procedures to
calculate them.
5.2.2 There are various types of data used in proficiency testing, including quantitative, nominal
(categorical), and ordinal. Among the quantitative variables, some results might be on an interval
scale; or a relative, or ratio scale. For some measurements on a quantitative scale, only a discrete and
discontinuous set of values can be realized (for example, sequential dilutions); however, in many cases
these results can be treated by techniques that are applicable to continuous quantitative variables.
6 © ISO 2015 – All rights reserved
NOTE 1 For quantitative values, an interval scale is a scale on which intervals (differences) are meaningful
but ratios are not, such as the Celsius temperature scale. A ratio scale is a scale on which intervals and ratios are
both meaningful, such as the Kelvin temperature scale, or most common units fo
...
PROJET DE NORME INTERNATIONALE ISO/DIS 13528
ISO/TC 69/SC 6 Secrétariat: JISC
Début de vote Vote clos le
2013-01-22 2013-04-22
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION • МЕЖДУНАРОДНАЯ ОРГАНИЗАЦИЯ ПО СТАНДАРТИЗАЦИИ • ORGANISATION INTERNATIONALE DE NORMALISATION
Méthodes statistiques utilisées dans les essais d'aptitude par
comparaisons interlaboratoires
Statistical methods for use in proficiency testing by interlaboratory comparisons
[Révision de la première édition (ISO 13528:2005)]
ICS 03.120.30
Pour accélérer la distribution, le présent document est distribué tel qu'il est parvenu du
secrétariat du comité. Le travail de rédaction et de composition de texte sera effectué au
Secrétariat central de l'ISO au stade de publication.
To expedite distribution, this document is circulated as received from the committee
secretariat. ISO Central Secretariat work of editing and text composition will be undertaken at
publication stage.
CE DOCUMENT EST UN PROJET DIFFUSÉ POUR OBSERVATIONS ET APPROBATION. IL EST DONC SUSCEPTIBLE DE MODIFICATION ET NE PEUT
ÊTRE CITÉ COMME NORME INTERNATIONALE AVANT SA PUBLICATION EN TANT QUE TELLE.
OUTRE LE FAIT D'ÊTRE EXAMINÉS POUR ÉTABLIR S'ILS SONT ACCEPTABLES À DES FINS INDUSTRIELLES, TECHNOLOGIQUES ET
COMMERCIALES, AINSI QUE DU POINT DE VUE DES UTILISATEURS, LES PROJETS DE NORMES INTERNATIONALES DOIVENT PARFOIS ÊTRE
CONSIDÉRÉS DU POINT DE VUE DE LEUR POSSIBILITÉ DE DEVENIR DES NORMES POUVANT SERVIR DE RÉFÉRENCE DANS LA
RÉGLEMENTATION NATIONALE.
LES DESTINATAIRES DU PRÉSENT PROJET SONT INVITÉS À PRÉSENTER, AVEC LEURS OBSERVATIONS, NOTIFICATION DES DROITS DE PRO-
PRIÉTÉ DONT ILS AURAIENT ÉVENTUELLEMENT CONNAISSANCE ET À FOURNIR UNE DOCUMENTATION EXPLICATIVE.
© Organisation Internationale de Normalisation, 2013
ISO/DIS 13528
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2013
Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie, l’affichage sur l’internet ou sur un
Intranet, sans autorisation écrite préalable. Les demandes d’autorisation peuvent être adressées à l’ISO à l’adresse ci-après ou au
comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2013 – Tous droits réservés
ISO 13528:2013(F)
Sommaire Page
Avant-propos . v
0 Introduction . vi
0.1 Objectifs des essais d'aptitude . vi
0.2 ISO/CEI 17043 . vi
0.3 Expertise en statistique . vii
0.4 Logiciels . vii
1 Domaine d'application . 1
2 Références normatives . 1
3 Termes et définitions . 2
4 Lignes directrices pour le plan statistique de programmes d'essais d’aptitude . 4
4.1 Introduction . 4
4.2 Base d’un plan statistique . 4
4.3 Considérations sur la distribution statistique des résultats . 5
4.4 Considérations sur les petits nombres de participants . 6
4.5 Considérations sur les données qualitatives (y compris les propriétés nominales et
ordinales) . 7
4.6 Lignes directrices pour choisir le format de rapport . 8
5 Lignes directrices pour la revue initiale des entités soumises à l’essai d’aptitude et des
résultats . 9
5.1 Homogénéité et stabilité des entités soumises à l’essai d’aptitude . 9
5.2 Considérations lorsque des méthodes différentes sont utilisées par les participants . 10
5.3 Elimination des valeurs aberrantes . 11
5.4 Examen visuel des données . 11
5.5 Méthodes statistiques robustes . 12
5.6 Techniques de détection des valeurs aberrantes pour des résultats individuels . 12
6 Détermination de la valeur assignée et de son incertitude type . 13
6.1 Choix de la méthode de détermination de la valeur assignée . 13
6.2 Détermination de l’incertitude de la valeur assignée . 13
6.3 Formulation . 14
6.4 Matériau de référence certifié . 15
6.5 Résultats provenant d’un laboratoire . 15
6.6 Résultats issus d’une étude réalisée par des laboratoires experts . 16
6.7 Résultats de mesure combinés fournis par les participants . 17
6.8 Comparaison de la valeur assignée avec une valeur de référence indépendante . 18
7 Détermination des critères d’évaluation des performances . 18
7.1 Base de l’évaluation . 18
7.2 Méthode par perception d’experts . 19
7.3 Par l’expérience acquise lors des campagnes précédentes . 20
7.4 Détermination à partir d'un modèle général . 21
7.5 Utilisation des écarts-types de répétabilité et de reproductibilité obtenus lors d’une étude
collaborative . 21
7.6 Détermination à partir de données obtenues lors d’une même campagne d'un programme
d'essais d'aptitude . 22
7.7 Comparaison entre les valeurs de fidélité déduites d'un programme d’essais d'aptitude et
les valeurs établies . 22
ISO 13528:2013(F)
8 Calcul des statistiques de performances .23
8.1 Considérations générales pour la détermination des performances .23
8.2 Estimations des écarts (erreur de mesure) .23
8.3 Scores z .25
8.4 Scores z .26
8.5 Scores zêta () .27
8.6 Scores E .28
n
8.7 Utilisation des rangs et des rangs en percentiles .29
8.8 Interprétation des incertitudes des participants lors des essais .29
8.9 Scores composés de performance .30
9 Méthodes graphiques de description des scores de performance à partir d’une campagne
d’un essai d’aptitude .32
9.1 Application .32
9.2 Histogrammes de résultats ou de scores de performance .32
9.3 Diagrammes en bâtons des scores normalisés .33
9.4 Graphique de Youden .33
9.5 Graphiques d'écarts-types de répétabilité .34
9.6 Echantillons fractionnés .35
9.7 Méthodes graphiques de combinaison des scores de performance sur plusieurs
campagnes d’un programme d’essais d’aptitude .36
Annexe A (normative) Symboles .38
Annexe B (normative) Vérification de l'homogénéité et de la stabilité des échantillons .39
Annexe C (normative) Analyse robuste .45
Annexe D (informative) Exemples illustratifs .52
Bibliographie .89
iv © ISO 2013 – Tous droits réservés
ISO 13528:2013(F)
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux de
normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général confiée
aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du
comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec
la Commission électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives ISO/CEI,
Partie 2.
La tâche principale des comités techniques est d'élaborer les Normes internationales. Les projets de Normes
internationales adoptés par les comités techniques sont soumis aux comités membres pour vote. Leur
publication comme Normes internationales requiert l'approbation de 75 % au moins des comités membres
votants.
L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de ne
pas avoir identifié de tels droits de propriété et averti de leur existence.
L'ISO 13528 a été élaborée par le comité technique ISO/TC 69, Application des méthodes statistiques,
sous-comité SC 6, Méthodes et résultats de mesure. La première édition a été publiée en 2005. La seconde
édition apporte des modifications destinées à harmoniser le document avec l’ISO/CEI 17043:2010, qui a
remplacé le Guide ISO 43-1. Le titre a été raccourci, car la mention « comparaison interlaboratoires » est
incluse dans la définition de « essais d’aptitude ». La deuxième édition suit une structure révisée afin de
mieux refléter le processus de conception, d'analyse et de compte-rendu des programmes d'essais d'aptitude.
Elle a également supprimé certaines procédures et ajouté ou modifié certains autres paragraphes afin de
mieux refléter l'ISO/CEI 17043 et d'apporter plus de clarté et de corriger des erreurs mineures. De nouveaux
paragraphes ont été ajoutés pour les données qualitatives et pour d'autres méthodes robustes.
ISO 13528:2013(F)
0 Introduction
0.1 Objectifs des essais d'aptitude
Les essais d'aptitude impliquent l'utilisation de comparaisons interlaboratoires pour déterminer les
performances de participants (qui peuvent être des laboratoires, des organismes de contrôle, ou des
individus) relatives à des essais ou à des mesures spécifiques et pour surveiller la continuité des
performances des participants. Il existe un certain nombre d’objectifs pour les essais d’aptitude, tels que
décrits dans l’Introduction de l’ISO/CEI 17043:2010. Ces objectifs comprennent l'évaluation des performances
des laboratoires, l'identification de problèmes dans les laboratoires, la détermination de l'efficacité et la
possibilité de comparer les méthodes d’essai ou de mesure, l'amélioration de la confiance des clients des
laboratoires, la validation des 'incertitudes revendiquées et la formation des laboratoires participants.
Le plan et les techniques statistiques appliqués doivent être appropriés à ou aux objectifs définis. Cette
Norme présente des techniques statistiques pour les objectifs décrits, qui sont conformes à d’autres normes
internationales, notamment à celles du TC69/SC6, et en particulier à la série de normes ISO 5725 portant sur
l’Exactitude : justesse et fidélité. Les techniques sont également destinées à refléter les techniques
préconisées par d’autres normes internationales, le cas échéant, et à être en cohérence avec le Guide ISO 98
et avec le JCGM 200 (VIM).
La définition de l’essai d’aptitude donnée dans l’ISO/CEI 17043 est reprise dans l’ISO 13528, avec des notes
décrivant les différents types d'essais d’aptitude et l’étendue de la complexité des conceptions pouvant être
utilisées. La présente norme ne peut pas couvrir spécifiquement l’ensemble des conceptions, des objectifs,
des matrices et des mesurandes. Les techniques présentées dans l’ISO 13528 sont destinées à être
appliquées de façon étendue, notamment pour des programmes d’essais d’aptitude nouvellement établis. On
s’attend à ce que les techniques statistiques utilisées dans le cadre d’un programme d’essais d’aptitude
particulier évoluent au fur et à mesure que le programme gagnera en maturité ; et les scores, les critères
d’évaluation et les méthodes graphiques seront affinées afin de mieux répondre aux besoins spécifiques d’un
groupe cible de participants, d’organismes d’accréditation et d’organismes réglementaires.
L'ISO 13528 applique également des lignes directrices issues d’un protocole harmonisé pour les essais
[20]
d'aptitude de laboratoires d'analyses chimiques , mais elle est destinée à être utilisée avec toutes les
méthodes de mesure. La présente révision de l’ISO 13528:2005 contient la plupart des informations issues de
la première édition, complétées autant que nécessaire par les documents précédemment cités en référence,
par le domaine d'application étendu de l'ISO/CEI 17043, qui comprend des essais d’aptitude pour le contrôle,
et l’Annexe B qui comprend des éléments d'appréciation pour les résultats qualitatifs et ordinaux. Certaines
procédures issues de la première édition n'ont pas été reprises dans la présente édition, car l’expérience a
démontré que de telles techniques ne sont plus considérées comme appropriées.
0.2 ISO/CEI 17043
La présente norme soutiendra la mise en œuvre de l’ISO/CEI 17043 qui décrit différents types de
programmes d’essais d’aptitude et donne des lignes directrices pour l’organisation et la conception de
programmes d’essais d’aptitude. L’Annexe C de l’ISO/CEI 17043 donne des lignes directrices pour la
sélection et l’utilisation de programmes d’essais d’aptitude par les laboratoires, les organismes de contrôle,
les organismes d’accréditation et autres parties intéressées. Il convient de consulter l’ISO/CEI 17043 pour
avoir des informations détaillées sur ces questions, car les informations qui y figurent ne sont pas reprises ici.
L’Annexe B de l’ISO/CEI 17043 fournit une description succincte des méthodes statistiques générales
utilisées dans les programmes d’essais d’aptitude. La présente Norme internationale est destinée à être
complémentaire de l’Annexe B, en fournissant des indications détaillées ne figurant pas dans ce document
sur des méthodes particulières d'essais d’aptitude.
vi © ISO 2013 – Tous droits réservés
ISO 13528:2013(F)
0.3 Expertise en statistique
L’ISO/CEI 17043:2010 exige que, pour être compétent, un organisateur d'essais d'aptitude doit avoir accès à
l'expertise statistique (4.4.1.4) et doit autoriser du personnel spécifique à mener l'analyse statistique (4.2.4).
Ni l’ISO/CEI 17043 ni le présent document ne peuvent définir plus en détail en quoi consiste cette expertise
nécessaire. Pour certaines applications, un niveau élevé en statistiques est utile, mais généralement les
besoins en expertise peuvent être assurés par des personnes ayant une expertise technique dans d’autres
domaines, si celles-ci connaissent les concepts et les techniques statistiques de base. Si un consultant est
chargé du plan et/ou de l’analyse statistique, il est très important que cette personne ait une expérience dans
le domaine des comparaisons interlaboratoires, même si elle a un niveau élevé dans le domaine des
statistiques. La formation classique en statistiques avancées n’inclut pas l’acquisition de connaissances dans
le domaine des comparaisons interlaboratoires, ni les causes d’erreur de mesure dans essais d’aptitude. Les
lignes directrices données dans la présente Norme internationale ne peuvent pas fournir toute l’expertise
nécessaire pour prendre en compte toutes les applications, et ne peuvent pas remplacer l’expérience acquise
lors de la pratique des comparaisons interlaboratoires.
0.4 Logiciels
Les logiciels nécessaires pour l’analyse statistique peuvent varier de façon importante, allant de l’absence
totale de logiciel (par exemple, concernant des programmes d’essais d’aptitude pour des participants
individuels, utilisant des valeurs de référence connues et des critères d’évaluation de l’adéquation à l’objectif),
jusqu’à des progiciels statistiques sophistiquées utilisés dans le cadre de programmes d’essais d’aptitude
avec des nombres importants de participants et de mesurandes, ou utilisant des méthodes robustes
compliquées. La plupart des techniques mentionnées dans la présente Norme internationale peuvent être
mises en œuvre par des tableurs classiques, éventuellement avec une analyse personnalisée pour un
programme ou une analyse spéciale ; certaines techniques nécessitent des logiciels gratuits (au moment de
la publication). Dans tous les cas, l’utilisateur est tenu de vérifier l’exactitude de leurs calculs, en particulier
lorsque des programmes spéciaux ont été entrés par l’utilisateur. Toutefois, même lorsque les techniques
traitées dans la présente Norme internationale sont appropriées et correctement mises en œuvre par des
logiciels adéquats, elles ne peuvent pas être appliquées sans la surveillance expérimentée d’une personne
disposant d’une expertise technique et statistique suffisante pour identifier et rechercher des anomalies
susceptibles de se produire lors de toute campagne d’essais d’aptitude.
NORME INTERNATIONALE ISO 13528:2013(F)
Méthodes statistiques utilisées dans les essais d'aptitude par
comparaisons interlaboratoires
1 Domaine d'application
La présente Norme internationale fournit des descriptions détaillées de méthodes statistiques à utiliser par les
organisateurs pour concevoir des programmes d’essais d’aptitude et pour analyser les données obtenues à
partir de tels programmes ; elle donne également des recommandations sur l’utilisation pratique de
techniques statistiques par les participants à de tels programmes et par les organismes d’accréditation.
La présente Norme internationale peut être appliquée pour démontrer que les résultats de mesure obtenus
par des laboratoires, des organismes de contrôle et des personnes remplissent les critères spécifiés pour des
performances acceptables.
La présente Norme internationale est applicable à des essais d’aptitude dans lesquels les résultats consignés
sont des observations quantitatives ou qualitatives sur des d'entités soumises à l'essai.
NOTE Les procédures énoncées dans la présente norme peuvent être également applicables pour l’évaluation d’un
avis d’expert lorsque les avis ou les jugements sont consignés sous une forme qui peut être comparée de manière
objective avec une valeur de référence indépendante ou avec une statistique combinée de résultats de participants. Par
exemple, lorsque des entités soumises à essai sont classées en catégories connues par contrôle – ou lorsque l’on
cherche à déterminer par contrôle si des entités soumises à essai proviennent ou non de la même source d’origine – et
lorsque les résultats de la classification sont comparés de manière objective.
2 Références normatives
Les documents de référence suivants sont indispensables pour l'application du présent document. Pour les
références datées, seule l'édition citée s'applique. Pour les références non datées, la dernière édition du
document de référence (y compris les éventuels amendements) s'applique.
ISO 3534-1, Statistique — Vocabulaire et symboles — Partie 1 : Termes statistiques généraux et termes
utilisés en calcul des probabilités.
ISO 3534-2, Statistique — Vocabulaire et symboles — Partie 2 : Statistique appliquée.
ISO 5725-1, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 1 : Principes
généraux et définitions.
ISO/CEI 17043, Evaluation de la conformité — Exigences générales concernant les essais d’aptitude.
JCGM 200:2012, Vocabulaire international de métrologie — Concepts fondamentaux et généraux et termes
associés (VIM), 3ème édition.
ISO/CEI Guide 98-3, Incertitude de mesure — Partie 3 : Guide pour l’expression de l’incertitude de mesure
(GUM:1995).
ISO 13528:2013(F)
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions donnés dans l'ISO 3534-1, l'ISO 3534-2,
l'ISO 5725-1, l’ISO/CEI 17043, le JCGM 200, l’ISO Guide 34, ainsi que les suivants s'appliquent.
3.1
comparaison interlaboratoires
organisation, exécution et évaluation d’essais ou de mesures sur la même entité ou sur des entités similaires
par deux laboratoires ou plus dans des conditions prédéterminées
3.2
essai d’aptitude
évaluation de la performance d'un participant par rapport à des critères préétablis au moyen de comparaisons
interlaboratoires
NOTE Pour les besoins de la présente Norme internationale, le terme « essai d'aptitude » est considéré dans son sens
le plus large et il inclut sans s'y limiter :
a) les programmes quantitatifs, dans lesquels l'objectif est de quantifier un ou plusieurs mesurandes de l'entité soumise
à l'essai d'aptitude ;
b) les programmes qualitatifs, dans lesquels l'objectif est d'identifier ou de décrire une ou plusieurs caractéristiques de
l'entité soumise à l'essai d'aptitude ;
c) les programmes séquentiels, dans lesquels une ou plusieurs entités soumises à l'essai d'aptitude sont distribuées
séquentiellement pour procéder à l'essai ou au mesurage, et reviennent par intervalles à l'organisateur d'essais
d'aptitude ;
d) les programmes simultanés, dans lesquels les entités soumises à l'essai d'aptitude sont réparties en vue d'essais ou
de mesurages concurrents dans une période de temps définie ;
e) les exercices de situation unique, dans lesquels les entités soumises à l'essai d'aptitude sont fournies à une seule
occasion ;
f) les programmes continus, dans lesquels les entités soumises à l'essai d'aptitude sont fournies à intervalles réguliers ;
g) les échantillonnages, dans lequel des échantillons sont prélevés en vue d'une analyse ultérieure ; et
h) les transformations et interprétations de données, dans lesquelles des ensembles de données ou d'autres
informations sont fournis et les informations sont traitées pour en effectuer une interprétation (ou un autre résultat).
3.3
valeur assignée
valeur attribuée à une propriété particulière d'une entité soumise à l'essai d'aptitude
3.4
écart-type pour une évaluation de l’aptitude
mesure de la dispersion utilisée dans l'évaluation des résultats d'un essai d'aptitude, fondée sur les
informations disponibles
NOTE 1 Cela peut être interprété comme un écart-type cible pour une population de laboratoires compétents pour
réaliser une procédure de mesure particulière.
NOTE 2 L'écart-type pour l’évaluation de l’aptitude ne s'applique qu'aux résultats sur une échelle linéaire.
NOTE 3 Les programmes d'essais d'aptitude n'évaluent pas tous l'aptitude en se fondant sur la dispersion des résultats.
NOTE 4 Les notes relatives à la définition dans le présent document ne sont pas identiques aux celles de la définition
donnée dans l’ISO/CEI 17043.
2 © ISO 2013 – Tous droits réservés
ISO 13528:2013(F)
3.5
score z
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée et de
l'écart-type pour l'évaluation de l'aptitude
3.6
valeur aberrante
observation dans un ensemble de données, semblant incohérente avec le reste de cet ensemble
NOTE 1 Une valeur aberrante peut provenir d'une population différente ou résulter d'un enregistrement incorrect ou
d'une autre erreur grossière.
NOTE 2 De nombreux programmes utilisent le terme « valeur aberrante » pour désigner un résultat qui génère un
signal d’action. Il ne s’agit pas là de l'utilisation prévue du terme. Bien que les valeurs aberrantes génèrent habituellement
des signaux d’action, il est possible d’avoir des signaux d’action issus de résultats qui ne sont pas considérés comme des
valeurs aberrantes.
3.7
participant
laboratoire, organisme ou particulier, recevant les entités soumises à l'essai d'aptitude et soumettant les
résultats à l'organisateur d'essais d'aptitude
3.8
entité soumise à l'essai d'aptitude
échantillon, produit, artefact, matériau de référence, élément d'un matériel, étalon, ensemble de données ou
autres informations utilisées pour un essai d'aptitude
NOTE Dans la plupart des cas, les entités soumises à l’essai d’aptitude sont conformes à la définition de « matériau
de référence » donnée dans le Guide ISO 34 (voir 3.11 ci-dessous)
3.9
organisateur d'essais d'aptitude
organisme ayant la responsabilité de toutes les tâches d'élaboration et d'exécution d'un programme d'essais
d'aptitude
3.10
programme d'essais d'aptitude
essai d'aptitude conçu et exécuté en une ou plusieurs campagnes dans un domaine spécifié d'essai, de
mesurage, d'étalonnage ou d'inspection
NOTE Un programme d'essais d'aptitude peut recouvrir un type particulier d'essai, d'étalonnage, d'inspection ou un
certain nombre d'essais, d'étalonnages ou d'inspections sur des entités soumises à l'essai d'aptitude.
3.11
matériau de référence (MR)
matériau suffisamment homogène et stable en ce qui concerne des propriétés spécifiées, qui a été préparé
pour être adapté à son utilisation prévue pour un mesurage (Guide ISO 34:2009)
NOTE 1 MR est un terme générique.
NOTE 2 Les propriétés peuvent être quantitatives ou qualitatives (par exemple, identité de substances ou d’espèces).
NOTE 3 Les utilisations peuvent comprendre l’étalonnage d’un appareil de mesure, l’évaluation d’une méthode de
mesurage, l’attribution de valeurs à d’autres matériaux et la maîtrise de la qualité.
ISO 13528:2013(F)
3.12
matériau de référence certifié (MRC)
matériau de référence caractérisé par une procédure métrologiquement valide pour une ou plusieurs
propriétés spécifiées, accompagné d’un certificat fournissant la valeur de la propriété spécifiée, son
incertitude associée, et une déclaration de traçabilité métrologique (Guide ISO 34:2009)
NOTE Le concept de valeur comprend des attributs qualitatifs tels qu’identité ou séquence. Les incertitudes associées
à ces attributs peuvent être exprimées en probabilités.
4 Lignes directrices pour le plan statistique de programmes d'essais d’aptitude
4.1 Introduction
Les essais d’aptitude portent sur l’évaluation des performances des participants et, en tant que tels, ils ne
traitent pas spécifiquement de biais ou de fidélité (bien qu’ils puissent être évalués avec des plans
spécifiques). Les performances des participants sont considérées à travers l’évaluation statistique de leurs
résultats suite aux mesurages ou aux interprétations qu’ils effectuent sur les entités soumises à l’essai
d’aptitude. Les performances sont souvent exprimées sous forme de scores permettant une interprétation
cohérente sur une gamme de mesurandes et pouvant permettre la comparaison, sur un même pied d’égalité,
des résultats relatifs à différent mesurandes. Les scores de performance sont généralement obtenus en
comparant la différence entre les résultats fournis par les participants et une valeur assignée avec une
dispersion admissible ou avec une mesure de l'incertitude de la différence. L'examen des scores de
performances sur de nombreux mesurandes ou sur de nombreuses campagnes d’un programme d’essais
d’aptitude peut fournir des informations permettant de savoir si des laboratoires démontrent la présence ou
non d’effets systématiques cohérents (« biais ») ou d’une fidélité médiocre à long terme.
Les paragraphes suivants donnent des indications sur la conception des programmes d’essais d’aptitude et
sur les traitements statistiques des résultats, y compris le calcul et l’interprétation de divers scores de
performances.
4.2 Base d’un plan statistique
4.2.1 Selon l’ISO/CEI 17043, paragraphe 4.4.4.1, le plan statistique « doit être élaboré pour répondre aux
objectifs du programme, sur la base de la nature des données (quantitatives ou qualitatives, y compris
ordinales et nominales), des hypothèses statistiques, de la nature des erreurs et du nombre attendu de
résultats ». Par conséquent, des programmes avec des objectifs différents et des sources d’erreur différentes
peuvent avoir des plans différents.
NOTE Par exemple, des programmes avec les principales approches suivantes peuvent avoir des plans statistiques
différents :
un programme pour comparer les résultats des participants avec des résultats combinés issus d’un groupe au cours
de la même campagne, et les limites déterminées par la variabilité des résultats des participants ;
un programme pour comparer un résultat de participant avec une valeur de référence prédéterminée, dans des
limites spécifiées avant le début de la campagne ;
un programme pour comparer les résultats des participants leurs incertitudes de mesure .
Des programmes d’essais d’aptitude ayant d’autres objectifs (peut-être secondaires) peuvent également nécessiter des
techniques statistiques spécifiques, comme dans le cas où un objectif consiste à comparer les performances de différents
méthodes de mesure.
4 © ISO 2013 – Tous droits réservés
ISO 13528:2013(F)
4.2.2 Divers types de données sont utilisés dans les essais d’aptitude, y compris des données
quantitatives, nominales (catégoriques) et ordinales. Parmi les variables continues, certains résultats peuvent
se situer sur une échelle différentielle ou rationnelle (une échelle avec un zéro arbitraire), ou sur une échelle
relative ou linéaire (une échelle avec un zéro vrai). Pour certaines mesures sur une échelle continue, seul un
ensemble discret et discontinu de valeurs peut être réalisé ; toutefois, dans de nombreux cas, ces résultats
peuvent être traités comme d’autres variables continues.
4.2.3 Les programmes peuvent être utilisés pour d’autres objectifs, en plus de ceux mentionnés ci-dessus,
comme évoqué dans le paragraphe 0.1 et dans l’ISO/CEI 17043. Le plan doit être approprié pour toutes les
utilisations déterminées.
4.3 Considérations sur la distribution statistique des résultats
4.3.1 Hypothèse statistique pour la distribution
4.3.1.1 Il doit y avoir une cohérence entre le plan statistique et les méthodes d’analyse statistiques des
données d’une part et les hypothèses statistiques concernant les données (voir l’ISO/CEI 17043, 4.4.4.2)
d’autre part. Pour les essais d'aptitude, les techniques d’analyse les plus courantes supposent qu’un
ensemble de résultats fourni par des participants compétents sera unimodal, raisonnablement symétrique et
approximativement distribué selon une loi normale. Il existe une hypothèse supplémentaire courante selon
laquelle la distribution des résultats fournis par tous les participants est mélangée avec (ou « contaminée
par ») des résultats issus d’une population de valeurs erronées et de valeurs aberrantes. Habituellement,
l’interprétation des scores s’appuie sur l’hypothèse de normalité, mais uniquement pour la distribution sous-
jacente supposée pour des participants compétents.
4.3.1.2 En général, il n’est pas nécessaire de vérifier que les résultats suivent une distribution normale,
mais il est important de vérifier, visuellement, la symétrie approximative. Si cela n’est pas possible, il convient
alors que l'organisateur d'essais d'aptitude utilise des techniques robustes par rapport à l’asymétrie (voir
Annexe C).
4.3.1.3 Lorsque la distribution prévue pour le programme d’essais d’aptitude n’est pas assez proche
d’une distribution normale symétrique (avec contamination par des valeurs aberrantes), il convient que
l’organisateur d’essais d’aptitude choisisse des méthodes d’analyse de données qui tiennent dûment compte
de l’asymétrie prévue et qui soient insensibles aux valeurs aberrantes, ainsi que des méthodes d’attribution
de scores qui tiennent aussi dûment compte de la distribution prévue des résultats fournis par des participants
compétents. Cela peut comprendre :
une transformation pour obtenir une symétrie approximative ;
des méthodes d’estimation résistantes à l’asymétrie ;
des méthodes d’estimation qui incorporent des hypothèses de distribution (par exemple, adéquation du
maximum de vraisemblance avec des hypothèses de distribution adaptées et, si nécessaire, élimination
des valeurs aberrantes).
NOTE Par exemple, étant donné que des résultats fondés sur une dilution, comme par exemple pour les comptages
microbiologiques quantitatifs ou les techniques d’immunodosages, sont souvent distribués selon la distribution normale
logarithmique, une transformation logarithmique est donc appropriée en tant que première étape de l’analyse. Un autre
exemple qui peut être cité concerne les comptages de petits nombres de particules ; ceux-ci peuvent être distribués selon
une distribution de Poisson et, par conséquent, l'intervalle d'évaluation serait déterminé à l’aide d’une table de distribution
de probabilités de Poisson, en se fondant sur le comptage moyen pour le groupe de participants.
4.3.1.4 De nombreux mesurandes d’étalonnage suivent des distributions statistiques définies qui sont
décrites dans la procédure de mesure ; il convient que ces distributions soient prises en compte dans tout
protocole d’évaluation.
ISO 13528:2013(F)
4.3.2 Vraisemblance des hypothèses
Selon l’ISO/CEI 17043, 4.4.4.2, l’organisateur d’essais d’aptitude doit indiquer les raisons de toutes
hypothèses statistiques et démontrer que les hypothèses sont raisonnables. Cette démonstration peut être
fondée sur les données observées, sur les résultats obtenus lors de campagnes antérieures du programme,
ou la documentation technique.
NOTE 1 La démonstration du caractère raisonnable (vraisemblance) d’une hypothèse de distribution est moins
rigoureuse que la démonstration de la validité de l’hypothèse en question.
NOTE 2 En général, il n’est pas opportun de déterminer des évaluations en utilisant un objectif pour classer une
certaine partie des résultats comme des résultats qui génèrent un « signal d’action », sur la base d’une distribution
supposée (par exemple, « signal d’action » = en dehors des limites de l’intervalle de confiance de 95 % pour la distribution
normale).
4.4 Considérations sur les petits nombres de participants
4.4.1 Méthodes appropriées
Des méthodes statistiques appropriées pour des nombres importants de participants peuvent ne pas convenir
pour des nombres limités de participants. Le nombre approprié de participants ne peut pas être spécifié avec
exactitude pour tous les cas, car il variera en fonction des différentes statistiques résumées, de la
comparabilité des résultats obtenus selon différentes méthodes, de l’expérience des participants et de
l’expérience de l’organisateur. Par exemple, la détermination de moyennes et de médianes fiables peut en
général être effectuée avec un nombre de résultats plus réduit que pour la détermination d’écarts-types, et les
nombres de résultats nécessaires sont habituellement plus réduits lorsque les participants sont expérimentés,
que lorsqu’il s’agit d’un nouveau programme ou lorsqu’il y a un nombre important de participants
inexpérimentés.
4.4.2 Autres approches pour les petits nombres de participants
Le plan statistique relatif à un programme d’essais d’aptitude doit définir le nombre minimal de participants
nécessaires pour atteindre les objectifs du plan et doit indiquer des approches alternatives qui seront utilisées
si le nombre minimal de participants est insuffisant (ISO/CEI 17043:2010, 4.4.4.3 c)). Le souci est que les
statistiques déterminées à partir des résultats d’un participant peuvent ne pas être assez fiables et qu’un
participant peut être évalué par rapport à un groupe inapproprié de participants. Les autres procédures
possibles comprennent les actions suivantes :
a) contrôler visuellement les résultats pour s’assurer qu'il y a une concordance suffisante au sein du groupe
limité ;
b) contrôler les données obtenues à partir d’entités ou de mesurandes similaires utilisés lors de campagnes
ou de programmes antérieurs, et utiliser des critères d’évaluation définis lors de ces campagnes ou de
ces programmes. Calculer l’incertitude élargie de la valeur assignée à l’aide du facteur d'élargissement
ˆ ˆ
issu de la distribution t, et déterminer si l’incertitude élargie U est < 0,6 (similaire à u < 0,3 ).
X X
NOTE Lorsque le nombre de participants à un programme est petit , il convient autant que possible de prendre en
compte le Rapport technique IUPAC/CITAC : « Selection and use of proficiency testing schemes for a limited number of
participants » (Choix et utilisation des programmes d’essais d’aptitude pour un nombre limité de participants). En résumé,
le rapport IUPAC/CITAC recommande que la valeur assignée soit basée sur des mesures indépendantes fiables ; par
exemple, en utilisant un matériau de référence certifié, ou une valeur indépendante par un institut national de métrologie,
ou par préparation gravimétrique. Le rapport indique également que l’écart-type pour l’évaluation de l’aptitude ne peut pas
être basé sur la dispersion observée parmi les résultats des participants pour une seule campagne.
6 © ISO 2013 – Tous droits réservés
ISO 13528:2013(F)
4.5 Considérations sur les données qualitatives (y compris les propriétés nominales et
ordinales)
4.5.1 Types de données qualitatives
Un nombre important d’essais d’aptitude sont effectués pour des propriétés mesurées ou identifiées sur des
échelles qualitatives. Cela comprend les propriétés suivantes :
des propriétés nominales, où la valeur de la propriété n’a pas d’ordre de grandeur (par exemple, un type
de substance ou d’organisme) ;
la présence ou l’absence d’une propriété, qu’elle soit déterminée par des critères subjectifs ou par l’ordre
de grandeur d’un signal obtenu à partir d’une procédure de mesure ;
des propriétés ordinales, lorsqu’une mesure donne des signaux pouvant être ordonnés en fonction de
leur grandeur mais pour lesquels il n’existe aucune relation algébrique entre les signaux ;
des scores attribués par un expert ou des scores déduits, lorsque des scores sont assignés pour des
réponses particulières, entre des entités soumises à l’essai d'aptitude, sur la base de l’aptitude à
l’utilisation et/ou de l’incidence des différences par rapport à la valeur assignée.
NOTE Parmi les exemples de « scores attribués par un expert », il est possible de citer celui où un organisateur
d'essais d'aptitude attribue des points comme suit : aucun point pour une réponse totalement correcte à propos d’une
propriété nominale (par exemple, identification d’une espèce microbiologique), un point pour un résultat incorrect mais ne
modifiant pas l’interprétation, et trois points pour un résultat incorrect mains conduisant à une interprétation différente.
4.5.2 Plan et analyse statistiques
4.5.2.1 En général, les méthodes statistiques pour divers types de propriétés qualitatives sont identiques
dans ce sens que le plan et l’analyse sont déterminés par le jugement d’un expert et que l’exactitude est
fondée sur la compétence technique du participant et non sur l’incertitude de mesure ou autres influences
stochastiques. Par conséquent, cela n’est strictement vrai pour les déterminations qualitatives basées sur
l’ordre de grandeur d’un signal de mesure avec des coupures établies, mais pour les besoins des essais
d'aptitude, les différences sont mineures. En général, il convient que la valeur assignée et les critères
d’évaluation de la performance pour les données qualitatives soient basés sur le jugement d’un expert et non
...
NORME ISO
INTERNATIONALE 13528
Deuxième édition
2015-08-01
Version corrigée
2016-10-15
Méthodes statistiques utilisées dans
les essais d’aptitude par comparaison
interlaboratoires
Statistical methods for use in proficiency testing by interlaboratory
comparison
Numéro de référence
©
ISO 2015
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2015, Publié en Suisse
Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite ni utilisée
sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie, l’affichage sur
l’internet ou sur un Intranet, sans autorisation écrite préalable. Les demandes d’autorisation peuvent être adressées à l’ISO à
l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Ch. de Blandonnet 8 • CP 401
CH-1214 Vernier, Geneva, Switzerland
Tel. +41 22 749 01 11
Fax +41 22 749 09 47
copyright@iso.org
www.iso.org
ii © ISO 2015 – Tous droits réservés
Sommaire Page
Avant-propos .v
..................................................................................................................................................................
Introduction .vii
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Principes généraux . 5
4.1 Exigences générales relatives aux méthodes statistiques . 5
4.2 Modèle de base . 5
4.3 Approches générales pour l’évaluation des performances. 6
5 Lignes directrices pour le plan statistique des programmes d’essais d’aptitude .6
5.1 Présentation du plan statistique de programmes d’essais d’aptitude . 6
5.2 Base d’un plan statistique . 6
5.3 Considérations sur la distribution statistique des résultats . 7
5.4 Considérations sur les petits nombres de participants . 8
5.5 Lignes directrices pour choisir le format de rendu . 9
6 Lignes directrices pour la revue initiale des entités soumises à l’essai d’aptitude et
des résultats .11
6.1 Homogénéité et stabilité des entités soumises à l’essai d’aptitude .11
6.2 Considérations sur les différentes méthodes de mesure .12
6.3 Élimination des valeurs aberrantes .12
6.4 Examen visuel des données .13
6.5 Méthodes statistiques robustes . .13
6.6 Techniques de détection des valeurs aberrantes pour des résultats individuels.14
7 Détermination de la valeur assignée et de son incertitude-type .15
7.1 Choix de la méthode de détermination de la valeur assignée .15
7.2 Détermination de l’incertitude de la valeur assignée .15
7.3 Formulation .16
7.4 Matériau de référence certifié .17
7.5 Résultats provenant d’un seul laboratoire .18
7.6 Valeur consensuelle déterminée par des laboratoires experts .19
7.7 Valeur consensuelle déterminée à partir des résultats des participants .19
7.8 Comparaison de la valeur assignée avec une valeur de référence indépendante .21
8 Détermination des critères d’évaluation des performances .22
8.1 Approches pour la détermination des critères d’évaluation .22
8.2 Détermination par perception d’experts .22
8.3 Détermination à partir de l’expérience acquise lors des campagnes précédentes
d’un programme d’essais d’aptitude .22
8.4 Détermination par l’utilisation d’un modèle général .23
8.5 Utilisation des écarts-types de répétabilité et de reproductibilité obtenus lors
d’une étude collaborative de la fidélité d’une méthode de mesure .24
8.6 Détermination à partir de données obtenues lors d’une même campagne d’un
programme d’essais d’aptitude .24
8.7 Surveillance de la concordance interlaboratoires .26
9 Calcul des statistiques de performances .26
9.1 Considérations générales pour la détermination des performances .26
9.2 Limitation de l’incertitude de la valeur assignée .26
9.3 Estimations des écarts (erreur de mesure) .27
9.4 Scores z .28
9.5 Scores z′ .30
9.6 Scores zêta (ζ) .31
9.7 Scores E .
n 32
9.8 Évaluation des incertitudes d’essais des participants .32
9.9 Scores composés de performance .34
10 Méthodes graphiques de description des scores de performance .34
10.1 Application de méthodes graphiques .34
10.2 Histogrammes de résultats ou de scores de performance .35
10.3 Diagrammes de densité par la méthode du noyau .35
10.4 Diagrammes en bâtons des scores de performance normalisés .37
10.5 Graphique de Youden .37
10.6 Graphiques d’écarts-types de répétabilité .38
10.7 Échantillons fractionnés .39
10.8 Méthodes graphiques de combinaison des scores de performance sur plusieurs
campagnes d’un programme d’essais d’aptitude .39
11 Plan et analyse de programmes d’essais d’aptitude qualitatifs (y compris les
propriétés nominales et ordinales) .41
11.1 Types de données qualitatives .41
11.2 Plan statistique .41
11.3 Valeurs assignées pour les programmes d’essais d’aptitude .42
11.4 Évaluation des performances et attribution de scores pour les programmes
d’essais d’aptitude qualitatifs .44
Annexe A (normative) Symboles .46
Annexe B (normative) Homogénéité et stabilité des entités soumises à l’essai d’aptitude .48
Annexe C (normative) Analyse robuste .56
Annexe D (informative) Lignes directrices supplémentaires concernant les
procédures statistiques .67
Annexe E (informative) Exemples illustratifs .72
Bibliographie .94
iv © ISO 2015 – Tous droits réservés
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.
iso.org/directives).
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l’élaboration du document sont indiqués dans l’Introduction et/ou dans la liste des déclarations de
brevets reçues par l’ISO (voir www.iso.org/brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la signification des termes et expressions spécifiques de l’ISO liés à l’évaluation
de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux principes de l’OMC
concernant les obstacles techniques au commerce (OTC), voir le lien suivant : Avant-propos —
Informations supplémentaires.
Le comité chargé de l’élaboration du présent document est l’ISO/TC 69, Application des méthodes
statistiques, sous-comité SC 6, Méthodes et résultats de mesure.
Cette deuxième édition de l’ISO 13528 annule et remplace la première édition (ISO 13528:2005), qui
a fait l’objet d’une révision technique. Cette seconde édition apporte des modifications destinées à
harmoniser le document avec l’ISO/IEC 17043:2010, qui a remplacé le Guide ISO 43-1:1997. Elle suit une
structure révisée afin de mieux refléter le processus de conception, d’analyse et de compte-rendu des
programmes d’essais d’aptitude. Elle supprime également certaines procédures qui ne sont plus jugées
appropriées, et ajoute ou modifie certains autres paragraphes afin d’être cohérente avec l’ISO/IEC 17043,
d’apporter plus de clarté et de corriger des erreurs mineures. De nouveaux paragraphes ont été ajoutés
pour les données qualitatives et pour des méthodes statistiques robustes supplémentaires.
La présente version corrigée de l’ISO 13528:2015 inclut les corrections suivantes :
— 7.5.2.2, équation (5): «U » a été remplacé par «u »;
char char
— 9.8.2, NOTE: la référence à «E.3» a été remplacée par une référence à «E.4»;
— 10.3.2, iv, équation (19): cette correction ne concerne pas la version française;
— B.2.3, b), ligne précédant le Tableau B.1: la Référence «[33]» a été remplacée par la Référence «[32]»;
— B.2.3, Tableau B.1, première ligne, première colonne: «gm» a été remplacé par «g»;
— B.2.3, paragraphe sous le Tableau B.1: dans la première formule, «F » a été remplacé par «F » et le
2m m
dernier «-1» a été ramené sur la ligne (ce n’est plus un indice); dans la deuxième formule, le dernier
«-1» a été ramené sur la ligne (ce n’est plus un indice);
— B.2.3 b), NOTE: l’équation permettant de trouver F est maintenant divisée par «(g-1)»;
2 2
— B.3, équations (B.7), (B.14) et (B.16): les termes s et s ont été remplacés par s et s ; par ailleurs,
x x x x
dans l’équation (B.16) le symbole racine carrée a été déplacé en dehors des parenthèses «max ( 0, ….)»;
2 2
— B.3, équation (B.8): «s » a été remplacé par «w »;
t t
— C.3.1, NOTE 2, première ligne: cette correction ne concerne pas la version française.
— C.3.1, paragraphe après l’équation (C.10), deuxième ligne: «en utilisant les données modifiées des
équations C.7 à C.10» a été remplacé par «en utilisant les équations C.7 à C.10».
— C.3.1, dernière note: «NOTE» a été remplacé par «NOTE 3», et la Référence à «E.3 et E.4» a été
remplacée par une Référence à «E.1 et E.3»;
Les corrections rédactionnelles mineures suivantes ont été apportées pour assurer la cohérence de
tout le document:
— 8.3.1, troisième tiret, dernière ligne: cette correction ne concerne pas la version française;
— 8.6.1, première ligne: « ,σ , » a été remplacé par «(σ )» (pour cohérence dans la présentation);
pt pt
— B.4.1.2, deuxième tiret, troisième ligne: «d’échantillons» a été remplacé par «entités soumises à
l’essai d’aptitude» (pour cohérence terminologique);
— Annexes D and E, titres: cette correction ne concerne pas la version française.
vi © ISO 2015 – Tous droits réservés
0 Introduction
0.1 Objectifs des essais d’aptitude
Les essais d’aptitude impliquent l’utilisation de comparaisons interlaboratoires pour déterminer les
performances de participants (qui peuvent être des laboratoires, des organismes de contrôle ou des
individus) pour des essais spécifiés ou des mesures et ainsi surveiller la continuité des performances
des participants. Il existe un certain nombre d’objectifs pour les essais d’aptitude, tels que décrits
dans l’Introduction de l’ISO/IEC 17043:2010. Ces objectifs comprennent l’évaluation des performances
des laboratoires, l’identification de problèmes dans les laboratoires, la détermination de l’efficacité
et la comparabilité des méthodes d’essai ou de mesure, l’amélioration de la confiance des clients des
laboratoires, la validation des incertitudes revendiquées et la formation des laboratoires participants.
Le plan et les techniques statistiques appliqués doivent être appropriés à ou aux objectifs définis.
0.2 Justification de l’évaluation par scores dans les programmes d’essais d’aptitude
Diverses stratégies d’évaluation par scores sont disponibles et utilisées pour les essais d’aptitude. Bien
que les calculs détaillés diffèrent, la plupart des programmes d’essais d’aptitude comparent l’écart du
participant par rapport à une valeur assignée avec un critère numérique qui est utilisé pour déterminer
si cet écart est préoccupant ou non. Les stratégies utilisées pour les valeurs assignées et pour le choix
d’un critère d’évaluation des écarts des participants sont donc critiques. En particulier, il est important
de déterminer si la valeur assignée et le critère d’évaluation des écarts doivent être indépendants des
résultats des participants ou s’ils doivent être obtenus à partir des résultats soumis. Dans la présente
norme, les deux stratégies sont prévues. Toutefois, l’attention est attirée sur la discussion figurant aux
Articles 7 et 8 concernant les avantages et les inconvénients associés au choix de valeurs assignées ou
de critères d’évaluation des écarts qui ne sont pas obtenus à partir des résultats des participants. On
verra que, en général, le choix de valeurs assignées et de critères d’évaluation indépendamment des
résultats des participants offre des avantages. Ceci est notamment le cas pour le critère utilisé pour
évaluer les écarts par rapport à la valeur assignée – tel que l’écart-type d’aptitude ou une tolérance sur
l’erreur de mesure – pour lequel un choix cohérent fondé sur la pertinence pour une utilisation finale
particulière des résultats de mesure est particulièrement utile.
0.3 ISO 13528 et ISO/IEC 17043
L’ISO 13528 soutient la mise en œuvre de l’ISO/IEC 17043, notamment les exigences relatives au plan
statistique, à la validation des entités soumises à l’essai d’aptitude, à la revue des résultats et au rendu
des statistiques résumées. L’Annexe B de l’ISO/IEC 17043:2010 fournit une description succincte des
méthodes statistiques générales utilisées dans les programmes d’essais d’aptitude. La présente Norme
internationale est destinée à être complémentaire de l’ISO/IEC 17043, en fournissant des indications
détaillées ne figurant pas dans ce document sur des méthodes statistiques particulières pour les essais
d’aptitude.
La définition de l’essai d’aptitude donnée dans l’ISO/IEC 17043 est reprise dans l’ISO 13528, avec
des notes décrivant les différents types d’essais d’aptitude et l’étendue des conceptions pouvant
être utilisées. La présente norme ne peut pas couvrir spécifiquement l’ensemble des objectifs, des
conceptions, des matrices et des mesurandes. Les techniques présentées dans l’ISO 13528 sont destinées
à être appliquées de façon étendue, notamment pour des programmes d’essais d’aptitude nouvellement
établis. On s’attend à ce que les techniques statistiques utilisées dans le cadre d’un programme d’essais
d’aptitude particulier évoluent au fur et à mesure que le programme gagnera en maturité ; et les
scores, les critères d’évaluation et les méthodes graphiques seront affinées afin de mieux répondre
aux besoins spécifiques d’un groupe cible de participants, d’organismes d’accréditation et d’autorités
réglementaires.
L’ISO 13528 incorpore des lignes directrices publiées pour les essais d’aptitude de laboratoires
[32]
d’analyses chimiques, mais inclut également une gamme plus étendue de procédures à utiliser
avec des méthodes de mesure et d’identifications qualitatives valides. La présente révision de
l’ISO 13528:2005 contient la plupart des méthodes statistiques et lignes directrices issues de la première
édition, complétées autant que nécessaire par les documents précédemment cités en référence et par le
domaine d’application étendu de l’ISO/IEC 17043. L’ISO/IEC 17043 comprend des essais d’aptitude pour
les personnes et les organismes de contrôle, et l’Annexe B comprend des éléments d’appréciation pour
les résultats qualitatifs.
Cette Norme contient des techniques statistiques qui sont conformes à d’autres Normes internationales,
notamment à celles du TC69/SC6, et en particulier à la série de normes ISO 5725 portant sur l’Exactitude :
justesse et fidélité. Les techniques sont également destinées à refléter d’autres Normes internationales, le
cas échéant, et à être en cohérence avec le Guide ISO/IEC 98-3 (GUM) et avec le Guide ISO/IEC 99 (VIM).
0.4 Expertise en statistique
L’ISO/IEC 17043:2010 exige que, pour être compétent, un organisateur d’essais d’aptitude doit avoir
accès à l’expertise statistique et doit autoriser du personnel spécifique à mener l’analyse statistique.
Ni l’ISO/IEC 17043 ni la présente Norme internationale ne peuvent définir plus en détail en quoi
consiste cette expertise nécessaire. Pour certaines applications, un niveau élevé en statistiques est
utile, mais généralement les besoins en expertise peuvent être assurés par des personnes ayant une
expertise technique dans d’autres domaines, connaissant les concepts et les techniques statistiques de
base et ayant une expérience ou une formation dans les techniques courantes applicables à l’analyse
des données issues de programmes d’essais d’aptitude. Si un consultant est chargé du plan et/ou de
l’analyse statistique, il est très important que cette personne ait une expérience dans le domaine des
comparaisons interlaboratoires, même si elle a un niveau élevé dans le domaine des statistiques. La
formation classique en statistiques avancées n’inclut pas l’acquisition de connaissances dans le domaine
des comparaisons interlaboratoires, et les causes uniques d’erreur de mesure se produisant durant les
essais d’aptitude peuvent sembler obscures. Les lignes directrices données dans la présente Norme
internationale ne peuvent pas fournir toute l’expertise nécessaire pour prendre en compte toutes les
applications, et ne peuvent pas remplacer l’expérience acquise lors de la pratique des comparaisons
interlaboratoires.
0.5 Logiciels
Les logiciels nécessaires pour l’analyse statistique des données d’essais d’aptitude peuvent varier de
façon importante, allant de l’arithmétique simple d’un tableur pour les petits programmes d’essais
d’aptitude utilisant des valeurs de référence connues, jusqu’aux logiciels statistiques sophistiqués utilisés
pour les méthodes statistiques faisant appel à des calculs itératifs ou d’autres méthodes numériques
avancées. La plupart des techniques mentionnées dans la présente Norme internationale peuvent être
mises en œuvre par des tableurs classiques, éventuellement avec des routines personnalisées pour un
programme ou une analyse spécial(e) ; certaines techniques nécessitent des logiciels qui sont gratuits
(au moment de la publication). Dans tous les cas, il convient que les utilisateurs vérifient l’exactitude de
leurs calculs, en particulier lorsque des programmes spéciaux ont été entrés par l’utilisateur. Toutefois,
même lorsque les techniques traitées dans la présente Norme internationale sont appropriées et
correctement mises en œuvre par des logiciels adéquats, elles ne peuvent pas être appliquées sans
la surveillance d’une personne disposant d’une expertise technique et statistique suffisante pour
identifier et rechercher des anomalies susceptibles de se produire lors de toute campagne d’essais
d’aptitude.
viii © ISO 2015 – Tous droits réservés
NORME INTERNATIONALE ISO 13528:2015(F)
Méthodes statistiques utilisées dans les essais d’aptitude
par comparaison interlaboratoires
1 Domaine d’application
La présente Norme internationale fournit des descriptions détaillées de méthodes statistiques à
utiliser par les organisateurs d’essais d’aptitude pour concevoir des programmes d’essais d’aptitude
et pour analyser les données obtenues à partir de tels programmes. La présente norme donne des
recommandations sur l’interprétation des données d’essais d’aptitude par les participants à de tels
programmes et par les organismes d’accréditation.
Les procédures de la présente norme peuvent être appliquées pour démontrer que les résultats de
mesure obtenus par des laboratoires, des organismes de contrôle et des personnes remplissent les
critères spécifiés pour des performances acceptables.
La présente norme est applicable à des essais d’aptitude dans lesquels les résultats rapportés sont des
observations quantitatives ou qualitatives sur des d’entités soumises à l’essai.
NOTE Les procédures énoncées dans la présente norme peuvent être également applicables pour l’évaluation
d’un avis d’expert lorsque les avis ou les jugements sont rapportés sous une forme qui peut être comparée de
manière objective avec une valeur de référence indépendante ou avec une statistique consensuelle. Par exemple,
lorsque des entités soumises à l’essai d’aptitude sont classées en catégories connues par contrôle – ou lorsque
l’on cherche à déterminer par contrôle si des entités soumises à l’essai d’aptitude proviennent ou non de la même
source d’origine – et lorsque les résultats de la classification sont comparés de manière objective, il est possible
d’appliquer les dispositions de la présente norme qui se rapportent à des propriétés (qualitatives) nominales.
2 Références normatives
Les documents ci-après, dans leur intégralité ou non, sont des références normatives indispensables à
l’application du présent document. Pour les références datées, seule l’édition citée s’applique. Pour les
références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
Guide ISO 30, Matériaux de référence — Termes et définitions choisis
ISO 3534-1, Statistique — Vocabulaire et symboles — Partie 1: Termes statistiques généraux et termes
utilisés en calcul des probabilités
ISO 3534-2, Statistique — Vocabulaire et symboles — Partie 2: Statistique appliquée
ISO 5725-1, Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 1: Principes
généraux et définitions
ISO/IEC 17043, Évaluation de la conformité — Exigences générales concernant les essais d’aptitude
Guide ISO/IEC 99, Vocabulaire international de métrologie — Concepts fondamentaux et généraux et
termes associés (VIM)
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions donnés dans l’ISO 3534-1, l’ISO 3534-2,
l’ISO 5725-1, l’ISO/IEC 17043, le Guide ISO/IEC 99, le Guide ISO 30 ainsi que les suivants s’appliquent. En
cas de différences entre ces références concernant l’utilisation des termes, les définitions de l’ISO 3534,
parties 1 et 2, s’appliquent. Les symboles mathématiques sont énumérés à l’Annexe A.
3.1
comparaison interlaboratoires
organisation, exécution et évaluation d’essais ou de mesures sur la même entité ou sur des entités
similaires par deux laboratoires ou plus dans des conditions prédéterminées
3.2
essai d’aptitude
évaluation de la performance d’un participant par rapport à des critères préétablis au moyen de
comparaisons interlaboratoires
Note 1 à l’article: Pour les besoins de la présente Norme internationale, le terme « essai d’aptitude » est considéré
dans son sens le plus large et il inclut sans s’y limiter :
— les programmes quantitatifs, dans lesquels l’objectif est de quantifier un ou plusieurs mesurandes pour
chaque entité soumise à l’essai d’aptitude ;
— les programmes qualitatifs, dans lesquels l’objectif est d’identifier ou de décrire une ou plusieurs
caractéristiques qualitatives de l’entité soumise à l’essai d’aptitude ;
— les programmes séquentiels, dans lesquels une ou plusieurs entités soumises à l’essai d’aptitude sont
distribuées séquentiellement pour procéder à l’essai ou au mesurage, et reviennent par intervalles à
l’organisateur d’essais d’aptitude ;
— les programmes simultanés, dans lesquels les entités soumises à l’essai d’aptitude sont réparties en vue
d’essais ou de mesurages concurrents dans une période de temps définie ;
— les exercices de situation unique, dans lesquels les entités soumises à l’essai d’aptitude sont fournies à une
seule occasion ;
— les programmes continus, dans lesquels les entités soumises à l’essai d’aptitude sont fournies à intervalles
réguliers ;
— les échantillonnages, dans lesquels des échantillons sont prélevés en vue d’une analyse ultérieure et l’objectif
du programme d’essais d’aptitude inclut l’évaluation de l’exécution de l’échantillonnage ; et
— les interprétations de données, dans lesquelles des ensembles de données ou d’autres informations sont
fournis et les informations sont traitées pour en effectuer une interprétation (ou obtenir un autre résultat).
3.3
valeur assignée
valeur attribuée à une propriété particulière d’une entité soumise à l’essai d’aptitude
3.4
écart-type pour l’évaluation de l’aptitude
mesure de la dispersion utilisée dans l’évaluation des résultats d’un essai d’aptitude
Note 1 à l’article: Cela peut être interprété comme l’écart-type des résultats pour une population par rapport à
une population hypothétique de laboratoires œuvrant en totale conformité aux exigences.
Note 2 à l’article: L’écart-type pour l’évaluation de l’aptitude ne s’applique qu’aux résultats sur une échelle linéaire
ou sur une échelle d’intervalle.
Note 3 à l’article: Les programmes d’essais d’aptitude n’évaluent pas tous la performance en se fondant sur la
dispersion des résultats.
[SOURCE: : ISO/IEC 17043:2010, modifiée — Dans la définition « , fondée sur les informations
disponibles » a été supprimé. La Note 1 à l’entrée a été rajoutée, et les Notes 2 et 3 légèrement modifiées.]
3.5
erreur de mesure
différence entre la valeur mesurée d’une grandeur et une valeur de référence
[SOURCE: Guide ISO/IEC 99:2007, modifiée — Les Notes ont été supprimées.]
2 © ISO 2015 – Tous droits réservés
3.6
erreur maximale tolérée
valeur extrême de l’erreur de mesure, par rapport à une valeur de référence connue, qui est tolérée
par spécifications ou réglementaire pour un mesurage, un instrument de mesure ou un système de
mesure donné
[SOURCE: Guide ISO/IEC 99:2007, modifiée — Les Notes ont été supprimées.]
3.7
score z
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
et de l’écart-type pour l’évaluation de l’aptitude
Note 1 à l’article: Une variante commune du score z, souvent appelée z’ (communément prononcé z-prime), est
formée en combinant l’incertitude-type de la valeur assignée avec l’écart-type pour l’évaluation de l’aptitude
avant de calculer le score z.
3.8
score zêta
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
et des incertitudes-types composées associées au résultat et à la valeur assignée
3.9
proportion du score limite admissible
mesure normalisée de la performance, calculée à partir du résultat du participant, de la valeur assignée
et du critère d’erreur de mesure lors d’un essai d’aptitude
Note 1 à l’article: Pour des résultats uniques, la performance peut être exprimée par l’écart par rapport à la valeur
assignée (D ou D %).
3.10
signal d’action
indication de la nécessité d’une action à la suite du résultat d’un essai d’aptitude
EXEMPLE Par convention, un score z supérieur à 2 est considéré comme une indication de la nécessité de
rechercher les causes possibles ; un score z supérieur à 3 est, par convention, considéré comme un signal d’action
indiquant la nécessité d’une action corrective.
3.11
valeur consensuelle
valeur obtenue à partir de l’ensemble des résultats lors d’une comparaison interlaboratoires
Note 1 à l’article: L’expression « valeur consensuelle » est généralement utilisée pour décrire des estimations de
position et de dispersion obtenues à partir des résultats des participants à une campagne d’essais d’aptitude,
mais peut aussi être utilisée pour désigner des valeurs obtenues à partir des résultats d’un sous-ensemble
spécifié de ces résultats ou, par exemple, d’un certain nombre de laboratoires experts.
3.12
valeur aberrante
élément d’un ensemble de valeurs qui est incohérent avec les autres éléments de cet ensemble
Note 1 à l’article: Une valeur aberrante peut apparaître par hasard dans la population attendue, provenir d’une
population différente ou résulter d’un enregistrement incorrect ou d’une autre faute.
Note 2 à l’article: De nombreux programmes utilisent le terme « valeur aberrante » pour désigner un résultat
qui génère un signal d’action. Il ne s’agit pas là de l’utilisation prévue du terme. Bien que les valeurs aberrantes
génèrent habituellement des signaux d’action, il est possible d’avoir des signaux d’action issus de résultats qui ne
sont pas des valeurs aberrantes.
[SOURCE: ISO 5725-1, modifiée — Les Notes à l’entrée ont été rajoutées.]
3.13
participant
laboratoire, organisme ou particulier, recevant les entités soumises à l’essai d’aptitude et soumettant
ses résultats à l’organisateur d’essais d’aptitude
3.14
entité soumise à l’essai d’aptitude
échantillon, produit, artefact, matériau de référence, élément d’un matériel, étalon, ensemble de
données ou autres informations utilisées pour évaluer la performance d’un participant dans des essais
d’aptitude.
Note 1 à l’article: Dans la plupart des cas, les entités soumises à l’essai d’aptitude sont conformes à la définition de
« matériau de référence » (3.17) donnée dans le Guide ISO 30.
3.15
organisateur d’essais d’aptitude
organisme ayant la responsabilité de toutes les tâches d’élaboration et d’exécution d’un programme
d’essais d’aptitude
3.16
programme d’essais d’aptitude
essai d’aptitude conçu et exécuté en une ou plusieurs campagnes dans un domaine spécifié d’essai, de
mesurage, d’étalonnage ou d’inspection
Note 1 à l’article: Un programme d’essais d’aptitude peut recouvrir un type particulier d’essai, d’étalonnage,
d’inspection ou un certain nombre d’essais, d’étalonnages ou d’inspections sur des entités soumises à l’essai
d’aptitude.
3.17
matériau de référence
MR
matériau, suffisamment homogène et stable quant à une ou plusieurs propriétés spécifiées, qui a été
préparé pour être adapté à son utilisation prévue dans un processus de mesure
Note 1 à l’article: MR est un terme générique.
Note 2 à l’article: Les propriétés peuvent être quantitatives ou qualitatives, par exemple l’identité de substances
ou d’espèces.
Note 3 à l’article: Les utilisations prévues peuvent être l’étalonnage d’un système de mesure, l’évaluation d’une
méthode de mesure, l’assignation de valeurs à d’autres matériaux et le contrôle de la qualité.
[SOURCE: Guide ISO 30:2015, modifiée — La Note4 à été supprimée.]
3.18
matériau de référence certifié
MRC
Matériau de référence caractérisé par une procédure métrologiquement valide applicable à une ou
plusieurs propriétés spécifiées et accompagné d’un certificat de MR qui indique la valeur de la propriété
spécifiée, son incertitude associée, et une expression de la traçabilité métrologique
Note 1 à l’article: Le concept de valeur inclut une propriété nominale ou un attribut qualitatif tels que l’identité
ou la séquence. Les incertitudes concernant ces propriétés peuvent être exprimées par des probabilités ou de
niveaux de confiance.
[SOURCE: Guide ISO 30:2015, modifiée — Les Notes 2, 3 et4 ont été supprimées.]
4 © ISO 2015 – Tous droits réservés
4 Principes généraux
4.1 Exigences générales relatives aux méthodes statistiques
4.1.1 Les méthodes statistiques utilisées doivent être adaptées à l’objectif et statistiquement correctes.
Toutes les hypothèses statistiques sur lesquelles les méthodes ou le plan sont fondées doivent être
indiquées dans le plan ou dans une description écrite du programme d’essais d’aptitude et il doit être
démontré qu’elles sont raisonnables.
NOTE Une méthode statistiquement valide a une solide base théorique, a des performances connues dans les
conditions d’utilisation prévues et repose sur des hypothèses ou des conditions dont on peut démontrer qu’elles
s’appliquent suffisamment bien aux données pour l’objectif considéré.
4.1.2 Le plan statistique et les méthodes d’analyse statistiques des données doivent être cohérents
avec les objectifs annoncés pour le programme d’essais d’aptitude.
4.1.3 L’organisateur d’essais d’aptitude doit fournir aux participants une description des méthodes
de calcul utilisées, une explication de l’interprétation générale des résultats et un énoncé des limites
associées à l’interprétation. Ces éléments doivent figurer dans chaque rapport relatif à chaque campagne
du programme d’essais d’aptitude ou dans un récapitulatif séparé des procédures mis à la disposition
des participants.
4.1.4 L’organisateur d’essais d’aptitude doit s’assurer que tous les logiciels ont fait l’objet d’une
validation adéquate.
4.2 Modèle de base
4.2.1 Pour les résultats quantitatifs de programmes d’essais d’aptitude dans lesquels un seul résultat
est rapporté pour une entité donnée soumise à l’essai d’aptitude, le modèle de base est donné dans
l’équation (1).
x =+με (1)
ii
où
x = résultat d’essai d’aptitude du participant i
i
μ = valeur vraie du mesurande
ε = erreur de mesure du participant i, distribuée selon un modèle pertinent
i
NOTE 1 Les modèles courants pour ε comprennent : la distribution normale ε ~ N(0, σ ) avec une moyenne de 0
i
et une variance constante ou différente pour chaque laboratoire ; ou plus couramment, une distribution ‘normale
contaminée par des valeurs aberrantes’ consistant en un mélange d’une loi normale avec une distribution plus
étendue représentant la population de résultats erronés.
NOTE 2 La base d’évaluation des performances avec les scores z et σ est que, dans une population « idéale »
pt
de laboratoires compétents, l’écart-type interlaboratoires est inférieur ou égal à σ .
pt
NOTE 3 Ce modèle diffère du modèle de base de l’ISO 5725 en ce qu’il ne contient pas le terme de biais du
laboratoire B . Ceci est dû au fait qu’il n’est pas possible de faire la distinction entre les termes de biais du
i
laboratoire et d’erreur résiduelle lorsqu’une seule observation est rapportée. Toutefois, lorsque les résultats
d’un participant issus de plusieurs campagnes ou entités soumises à l’essai sont pris en compte, il peut être utile
d’inclure un terme distinct pour le biais du laboratoire.
4.2.2 Pour des résultats ordinaux ou qualitatifs, d’autres modèles peuvent être appropriés ou il peut
n’exister aucun modèle statistique.
4.3 Approches générales pour l’évaluation des performances
4.3.1 Il existe trois approches générales différentes pour l’évaluation des performances dans un
programme d’essais d’aptitude. Ces approches sont utilisées pour atteindre des buts différents dans le
cadre du programme d’essais d’aptitude. Les approches sont énumérées ci-dessous :
a) performances évaluées par comparaison à des critères déduits de manière externe ;
b) performances évaluées par comparaison à d’autres participants ;
c) performances évaluées par comparaison à l’incertitude de mesure revendiquée.
4.3.2 Les approches générales peuvent être appliquées différemment pour déterminer la valeur
assignée et pour déterminer les critères d’évaluation des performances, par exemple, lorsque la valeur
assignée est la moyenne robuste des résultats des participants et que l’évaluation des performances est
déduite de σ ou de δ , où δ est une tolérance prédéfinie sur l’erreur de mesure et σ = δ /3 ; de la
pt E E pt E
même manière; dans certaines situations, la valeur assignée peut être une valeur de référence, mais σ
pt
peut être un écart-type robuste de résultats de participants. Dans l’approche c) utilisant l’incertitude de
mesure, la valeur assignée est généralement une valeur de référence appropriée.
5 Lignes directrices pour le plan statistique des programmes d’essais d’aptitude
5.1 Présentation du plan statistique de programmes d’essais d’aptitude
Les essais d’aptitude portent sur l’évaluation des performances des participants et, en tant que tels,
ils ne traitent pas spécifiquement de biais ni de fidélité (bien que ceux-ci puissent être évalués avec
des plans sp
...
ISO 13528:2015는 interlaboratory comparison을 통한 숙련도 시험에서 사용할 통계적 방법에 대한 포괄적인 지침을 제공합니다. 이 표준은 숙련도 시험 제공자가 숙련도 시험 계획을 설계하고 해당 계획에서 얻은 데이터를 분석하는 데 적합한 통계적 방법의 상세한 설명을 포함하고 있습니다. ISO 13528:2015의 강점은 숙련도 시험 데이터에 대한 해석에 필요한 권장 사항들을 참가자와 인증 기관에 제공한다는 점입니다. 이를 통해 실험실, 검사 기관 및 개인이 얻은 측정 결과가 수용 가능한 성능 기준을 충족함을 입증할 수 있습니다. 이 표준에서는 양적 측정 결과와 시험 항목에 대한 질적 관찰 결과 모두에 적용될 수 있는 절차를 제시하여, 다양한 유형의 숙련도 시험에 대한 유연성과 적합성을 보여줍니다. 또한, ISO 13528:2015는 숙련도 시험의 설계 및 데이터 분석에 필요한 구조적 접근 방식을 제공하여 이러한 복잡한 프로세스를 체계적으로 수행할 수 있도록 합니다. 이는 특히 다수의 실험실이 협력하여 결과를 비교하는 경우, 데이터 신뢰성을 보장하는 데 필수적입니다. 이처럼 ISO 13528:2015는 숙련도 시험의 모든 이해 관계자들에게 중요한 참고 문서가 되며, 분야 전반에 걸쳐 그 적용 가능성과 관련성이 두드러집니다.
La norme ISO 13528:2015 constitue une référence essentielle dans le domaine des méthodes statistiques appliquées aux tests de compétence par comparaison interlaboratoires. Son champ d'application est clairement défini, proposant des descriptions détaillées des méthodes statistiques que les fournisseurs de tests de compétence peuvent utiliser pour concevoir des programmes de test ainsi que pour analyser les données obtenues. Cette norme joue un rôle crucial en fournissant des recommandations sur l'interprétation des données de tests de compétence, tant pour les participants que pour les organismes d'accréditation. L'un des points forts de l'ISO 13528:2015 est sa capacité à garantir que les résultats de mesure obtenus par les laboratoires et les organismes d'inspection répondent à des critères de performance acceptables. La norme se distingue par sa capacité à s'appliquer aussi bien aux mesures quantitatives qu'aux observations qualitatives portant sur des éléments à tester. De cette manière, elle représente un outil versatile qui contribue à l'évaluation de la compétence des laboratoires dans divers contextes. La pertinence de l'ISO 13528:2015 ne peut être sous-estimée dans le cadre des exigences croissantes en matière de fiabilité et de précision dans le secteur des essais. En standardisant les méthodes et en fournissant un cadre d'analyse rigoureux, cette norme aide à promouvoir la confiance entre les différents acteurs impliqués dans le processus d'évaluation, renforçant ainsi la crédibilité des résultats obtenus. En conclusion, l'ISO 13528:2015 est une norme incontournable qui apporte une valeur ajoutée significative aux tests de compétence par comparaison interlaboratoires.
ISO 13528:2015 provides a comprehensive framework for statistical methods utilized in proficiency testing through interlaboratory comparison. The standard is highly relevant for proficiency testing providers, offering robust guidelines for designing proficiency testing schemes and analyzing the resulting data. Its detailed procedures empower laboratories, inspection bodies, and individuals to validate their measurement results against established performance standards. One of the key strengths of ISO 13528:2015 lies in its methodological rigor. The standard outlines a range of statistical analyses, ensuring that the interpretation of proficiency testing data is both accurate and meaningful. This is particularly crucial for participants in proficiency testing schemes and accreditation bodies, as it enhances their understanding and reliance on the data presented. Furthermore, the applicability of ISO 13528:2015 to both quantitative and qualitative results underscores its versatility. This aspect makes it a valuable tool for a wide spectrum of testing scenarios, ensuring that all forms of test items can benefit from standardized methods. As laboratories strive for continuous improvement and credibility, compliance with ISO 13528:2015 helps demonstrate that their results meet specified criteria for acceptable performance. In essence, ISO 13528:2015 stands as a cornerstone in the realm of proficiency testing, reinforcing its importance for laboratories and testing entities that prioritize accuracy and quality in their measurement processes. The standard not only facilitates reliable data interpretation but also elevates the overall standard of testing practices across various industries.
ISO 13528:2015は、インタラボラトリー比較による能力試験に関する統計的方法を詳細に定義した基準です。この標準は、能力試験提供者が能力試験スキームを設計し、それらのスキームから得られたデータを分析するための統計的方法に関する包括的なガイドラインを提供します。 この標準の強みは、能力試験データの解釈に関する推奨事項を参加者や認定機関に提供する点にあります。ISO 13528:2015の手続きは、実験室、検査機関、個人が得た測定結果が合格性能のための指定された基準を満たしていることを示すために適用可能です。この点において、ISO 13528:2015は、能力試験の信頼性と整合性を確保するための重要なツールです。 さらに、ISO 13528:2015は、報告される結果が定量的測定または試験項目に対する定性的観察である場合に適用されるため、多様な分野で使用可能であるという汎用性も持っています。この標準は、能力試験の設計とデータ解析の厳密さを高め、すべての関係者にとって有益な結果をもたらすことが期待されます。 全体として、ISO 13528:2015は、能力試験における統計的方法を確立することで、業界における信頼性の高い評価基準を提供し、実験室間の比較を通じて測定結果の信頼性を向上させるための不可欠な基準となっています。
Die ISO 13528:2015 bietet eine umfassende Grundlage für die statistischen Methoden, die zur Anwendung bei der Kompetenzprüfung durch interlaboratoriale Vergleiche erforderlich sind. Der Umfang dieser Norm erstreckt sich über die detaillierte Beschreibung von Verfahren, die es Prüfstellen ermöglichen, Kompetenzprüfungsprogramme zu entwerfen und die gewonnenen Daten effektiv zu analysieren. Diese Norm ist besonders relevant für Laboratorien, Prüfstellen und Einzelpersonen, die ihre Messergebnisse im Hinblick auf definierte Leistungsstandards validieren möchten. Ein herausragender Vorteil der ISO 13528:2015 liegt in ihrer Fähigkeit, sowohl qualitative als auch quantitative Ergebnisse zu berücksichtigen. Dies bedeutet, dass die Norm nicht nur zur Bewertung präziser Messungen dienen kann, sondern auch zur Analyse qualitativer Beobachtungen, was ihre Anwendbarkeit in verschiedenen Fachbereichen und Prüfsetting erheblich erweitert. Die Empfehlungen zur Interpretation der Daten sind für die Teilnehmer an Wendepunkten der Kompetenzprüfungen und die Akkreditierungsstellen von hoher Bedeutung, da sie die Grundlagen für ein korrektes Verständnis und eine faire Bewertung der Testergebnisse festlegen. Ein weiteres starkes Merkmal dieser Norm ist die Möglichkeit, die Verfahren so anzupassen, dass sie den spezifischen Anforderungen jeder Organisation gerecht werden. Durch die standardisierten statistischen Methoden können Labore sicherstellen, dass ihre Ergebnisse die festgelegten Kriterien für akzeptable Leistungen erfüllen, was für die Zuverlässigkeit und Validität der Testergebnisse entscheidend ist. Die ISO 13528:2015 ist damit nicht nur ein unverzichtbares Werkzeug für die Gestaltung und Durchführung von Kompetenzprüfungen, sondern trägt auch maßgeblich zur Verbesserung der Qualitätssicherung in Laboren und Prüfstellen weltweit bei. Diese Norm bietet eine solide Basis für die Erhöhung des Vertrauens in die resultierenden Daten und in die Kompetenzen der an den Prüfungen beteiligten Einrichtungen.






















Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...