ISO 5725-5:1998
(Main)Accuracy (trueness and precision) of measurement methods and results — Part 5: Alternative methods for the determination of the precision of a standard measurement method
Accuracy (trueness and precision) of measurement methods and results — Part 5: Alternative methods for the determination of the precision of a standard measurement method
This part of ISO 5725
— provides detailed descriptions of alternatives to the basic method for determining the repeatability and
reproducibility standard deviations of a standard measurement method, namely the split-level design and a
design for heterogeneous materials;
— describes the use of robust methods for analysing the results of precision experiments without using outlier
tests to exclude data from the calculations, and in particular, the detailed use of one such method.
This part of ISO 5725 complements ISO 5725-2 by providing alternative designs that may be of more value in some
situations than the basic design given in ISO 5725-2, and by providing a robust method of analysis that gives
estimates of the repeatability and reproducibility standard deviations that are less dependent on the data analyst's
judgement than those given by the methods described in ISO 5725-2.
Exactitude (justesse et fidélité) des résultats et méthodes de mesure — Partie 5: Méthodes alternatives pour la détermination de la fidélité d'une méthode de mesure normalisée
Točnost (pravilnost in natančnost) merilnih metod in rezultatov – 5. del : Alternativne metode določanja natančnosti standardne merilne metode
General Information
Relations
Standards Content (Sample)
SLOVENSKI STANDARD
01-junij-2003
7RþQRVWSUDYLOQRVWLQQDWDQþQRVWPHULOQLKPHWRGLQUH]XOWDWRY±GHO
$OWHUQDWLYQHPHWRGHGRORþDQMDQDWDQþQRVWLVWDQGDUGQHPHULOQHPHWRGH
Accuracy (trueness and precision) of measurement methods and results -- Part 5:
Alternative methods for the determination of the precision of a standard measurement
method
Exactitude (justesse et fidélité) des résultats et méthodes de mesure -- Partie 5:
Méthodes alternatives pour la détermination de la fidélité d'une méthode de mesure
normalisée
Ta slovenski standard je istoveten z: ISO 5725-5:1998
ICS:
03.120.30 8SRUDEDVWDWLVWLþQLKPHWRG Application of statistical
methods
17.020 Meroslovje in merjenje na Metrology and measurement
splošno in general
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.
INTERNATIONAL ISO
STANDARD 5725-5
First edition
1998-07-15
Accuracy (trueness and precision) of
measurement methods and results —
Part 5:
Alternative methods for the determination of
the precision of a standard measurement
method
Exactitude (justesse et fidélité) des résultats et méthodes de mesure —
Partie 5: Méthodes alternatives pour la détermination de la fidélité d'une
méthode de mesure normalisée
A
Reference number
Page
Contents
1 Scope . 1
2 Normative references . 1
3 Definitions . 2
4 Split-level design . 2
4.1 Applications of the split-level design . 2
4.2 Layout of the split-level design . 2
4.3 Organization of a split-level experiment . 3
4.4 Statistical model . 4
4.5 Statistical analysis of the data from a split-level experiment . 5
4.6 Scrutiny of the data for consistency and outliers . 6
4.7 Reporting the results of a split-level experiment . 7
4.8 Example 1: A split-level experiment — Determination of protein . 7
5 A design for a heterogeneous material . 13
5.1 Applications of the design for a heterogeneous material . 13
5.2 Layout of the design for a heterogeneous material . 14
5.3 Organization of an experiment with a heterogeneous material . 15
5.4 Statistical model for an experiment with a heterogeneous material . 16
5.5 Statistical analysis of the data from an experiment with a heterogeneous material . 17
5.6 Scrutiny of the data for consistency and outliers . 20
5.7 Reporting the results of an experiment on a heterogeneous material . 21
5.8 Example 2: An experiment on a heterogeneous material . 21
5.9 General formulae for calculations with the design for a heterogeneous material . 29
5.10 Example 3: An application of the general formulae . 30
6 Robust methods for data analysis . 33
6.1 Applications of robust methods of data analysis . 33
6.2 Robust analysis: Algorithm A . 35
6.3 Robust analysis: Algorithm S . 36
6.4 Formulae: Robust analysis for a particular level of a uniform-level design . 38
6.5 Example 4: Robust analysis for a particular level of a uniform-level design . 38
6.6 Formulae: Robust analysis for a particular level of a split-level design . 42
6.7 Example 5: Robust analysis for a particular level of a split-level design . 42
6.8 Formulae: Robust analysis for a particular level of an experiment on a heterogeneous material . 45
6.9 Example 6: Robust analysis for a particular level of an experiment on a heterogeneous material . 45
Annexes
A (normative) Symbols and abbreviations used in ISO 5725 . 50
B (informative) Derivation of the factors used in algorithms A and S . 53
C (informative) Derivation of equations used for robust analysis . 55
D (informative) Bibliography . 56
© ISO 1998
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means, electronic
or mechanical, including photocopying and microfilm, without permission in writing from the publisher.
International Organization for Standardization
Case postale 56 • CH-1211 Genève 20 • Switzerland
Internet iso@iso.ch
Printed in Switzerland
ii
©
ISO ISO 5725-5:1998(E)
Foreword
ISO (the International Organization for Standardization) is a world-wide federation of national standards bodies (ISO
member bodies). The work of preparing International Standards is normally carried out through ISO technical
committees. Each member body interested in a subject for which a technical committee has been established has
the right to be represented on that committee. International organisations, governmental and non-governmental, in
liaison with ISO, also take part in the work. ISO collaborates closely with the International Electrotechnical
Commission (IEC) on all matters of electrotechnical standardization.
Draft International Standards adopted by the technical committees are circulated to the member bodies for voting.
Publication as an International standard requires approval by at least 75 % of the member bodies casting a vote.
ISO 5725-5 was prepared by Technical Committee ISO/TC 69, Applications of statistical methods, Subcommittee
SC 6, Measurement methods and results.
ISO 5725 consists of the following parts, under the general title Accuracy (trueness and precision) of measurement
methods and results:
— Part 1: General principles and definitions
— Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement
method
— Part 3: Intermediate measures of the precision of a standard measurement method
— Part 4: Basic methods for the determination of the trueness of a standard measurement method
— Part 5: Alternative methods for the determination of the precision of a standard measurement method
— Part 6: Use in practice of accuracy values
Parts 1 to 6 of ISO 5725 together cancel and replace ISO 5725:1986, which has been extended to cover trueness
(in addition to precision) and intermediate precision conditions (in addition to repeatability conditions and
reproducibility conditions).
Annex A forms an integral part of this part of ISO 5725. Annexes B, C and D are for information only.
iii
©
Introduction
0.1 This part of ISO 5725 uses two terms trueness and precision to describe the accuracy of a measurement
method. Trueness refers to the closeness of agreement between the average value of a large number of test results
and the true or accepted reference value. Precision refers to the closeness of agreement between test results.
0.2 General consideration of these quantities is given in ISO 5725-1 and so is not repeated here. This part of
ISO 5725 should be read in conjunction with ISO 5725-1 because the underlying definitions and general principles
are given there.
0.3 ISO 5725-2 is concerned with estimating, by means of interlaboratory experiments, standard measures of
precision, namely the repeatability standard deviation and the reproducibility standard deviation. It gives a basic
method for doing this using the uniform-level design. This part of ISO 5725 describes alternative methods to this
basic method.
a) With the basic method there is a risk that an operator may allow the result of a measurement on one sample to
influence the result of a subsequent measurement on another sample of the same material, causing the
estimates of the repeatability and reproducibility standard deviations to be biased. When this risk is considered
to be serious, the split-level design described in this part of ISO 5725 may be preferred as it reduces this risk.
b) The basic method requires the preparation of a number of identical samples of the material for use in the
experiment. With heterogeneous materials this may not be possible, so that the use of the basic method then
gives estimates of the reproducibility standard deviation that are inflated by the variation between the samples.
The design for a heterogeneous material given in this part of ISO 5725 yields information about the variability
between samples which is not obtainable from the basic method; it may be used to calculate an estimate of
reproducibility from which the between-sample variation has been removed.
c) The basic method requires tests for outliers to be used to identify data that should be excluded from the
calculation of the repeatability and reproducibility standard deviations. Excluding outliers can sometimes have a
large effect on the estimates of repeatability and reproducibility standard deviations, but in practice, when
applying the outlier tests, the data analyst may have to use judgement to decide which data to exclude. This
part of ISO 5725 describes robust methods of data analysis that may be used to calculate repeatability and
reproducibility standard deviations from data containing outliers without using tests for outliers to exclude data,
so that the results are no longer affected by the data analyst’s judgement.
iv
©
INTERNATIONAL STANDARD ISO ISO 5725-5:1998(E)
Accuracy (trueness and precision) of measurement methods and
results —
Part 5:
Alternative methods for the determination of the precision of a standard
measurement method
1 Scope
This part of ISO 5725
— provides detailed descriptions of alternatives to the basic method for determining the repeatability and
reproducibility standard deviations of a standard measurement method, namely the split-level design and a
design for heterogeneous materials;
— describes the use of robust methods for analysing the results of precision experiments without using outlier
tests to exclude data from the calculations, and in particular, the detailed use of one such method.
This part of ISO 5725 complements ISO 5725-2 by providing alternative designs that may be of more value in some
situations than the basic design given in ISO 5725-2, and by providing a robust method of analysis that gives
estimates of the repeatability and reproducibility standard deviations that are less dependent on the data analyst's
judgement than those given by the methods described in ISO 5725-2.
2 Normative references
The following standards contain provisions which, through reference in this text, constitute provisions of this part of
ISO 5725. At the time of publication, the editions indicated were valid. All standards are subject to revision, and
parties to agreements based on this part of ISO 5725 are encouraged to investigate the possibility of applying the
most recent editions of the standards indicated below. Members of IEC and ISO maintain registers of currently valid
International Standards.
ISO 3534-1:1993, .
Statistics — Vocabulary and symbols — Part 1: Probability and general statistical terms
ISO 3534-3:1985, Statistics — Vocabulary and symbols — Part 3: Design of experiments.
ISO 5725-1:1994, Accuracy (trueness and precision) of measurement methods and results — Part 1: General
principles and definitions.
ISO 5725-2:1994, Accuracy (trueness and precision) of measurement methods and results — Part 2: Basic method
for the determination of repeatability and reproducibility of a standard measurement method.
©
3 Definitions
For the purposes of this part of ISO 5725, the definitions given in ISO 3534-1 and in ISO 5725-1 apply.
The symbols used in ISO 5725 are given in annex A.
4 Split-level design
4.1 Applications of the split-level design
4.1.1 The uniform level design described in ISO 5725-2 requires two or more identical samples of a material to be
tested in each participating laboratory and at each level of the experiment. With this design there is a risk that an
operator may allow the result of a measurement on one sample to influence the result of a subsequent
measurement on another sample of the same material. If this happens, the results of the precision experiment will
be distorted: estimates of the repeatability standard deviation s will be decreased and estimates of the between-
r
laboratory standard deviation s will be increased. In the split-level design, each participating laboratory is provided
L
with a sample of each of two similar materials, at each level of the experiment, and the operators are told that the
samples are not identical, but they are not told by how much the materials differ. The split-level design thus provides
a method of determining the repeatability and reproducibility standard deviations of a standard measurement
method in a way that reduces the risk that a test result obtained on one sample will influence a test result on
another sample in the experiment.
4.1.2 The data obtained at a level of a split-level experiment may be used to draw a graph in which the data for
one material are plotted against the data for the other, similar, material. An example is given in figure 1. Such
graphs can help identify those laboratories that have the largest biases relative to the other laboratories. This is
useful when it is possible to investigate the causes of the largest laboratory biases with the aim of taking corrective
action.
4.1.3 It is common for the repeatability and reproducibility standard deviations of a measurement method to
depend on the level of the material. For example, when the test result is the proportion of an element obtained by
chemical analysis, the repeatability and reproducibility standard deviations usually increase as the proportion of the
element increases. It is necessary, for a split-level experiment, that the two similar materials used at a level of the
experiment are so similar that they can be expected to give the same repeatability and reproducibility standard
deviations. For the purposes of the split-level design, it is acceptable if the two materials used for a level of the
experiment give almost the same level of measurement results, and nothing is to be gained by arranging that they
differ substantially.
In many chemical analysis methods, the matrix containing the constituent of interest can influence the precision, so
for a split-level experiment two materials with similar matrices are required at each level of the experiment. A
sufficiently similar material can sometimes be prepared by spiking a material with a small addition of the constituent
of interest. When the material is a natural or manufactured product, it can be difficult to find two products that are
sufficiently similar for the purposes of a split-level experiment: a possible solution may be to use two batches of the
same product. It should be remembered that the object of choosing the materials for the split-level design is to
provide the operators with samples that they do not expect to be identical.
4.2 Layout of the split-level design
4.2.1 The layout of the split-level design is shown in table 1.
The p participating laboratories each test two samples at q levels.
The two samples within a level are denoted a and b, where a represents a sample of one material, and b represents
a sample of the other, similar, material.
©
ISO ISO 5725-5:1998(E)
4.2.2 The data from a split-level experiment are represented by:
y
ijk
where
subscript i represents the laboratory (i = 1, 2, ., p);
subscript j represents the level (j = 1, 2, ., q);
subscript k represents the sample (k = a or b).
4.3 Organization of a split-level experiment
4.3.1 Follow the guidance given in clause 6 of ISO 5725-1:1994 when planning a split-level experiment.
Subclause 6.3 of ISO 5725-1:1994 contains a number of formulae (involving a quantity denoted generally by A) that
are used to help decide how many laboratories to include in the experiment. The corresponding formulae for the
split-level experiment are set out below.
NOTE — These formulae have been derived by the method described in NOTE 24 of ISO 5725-1:1994.
To assess the uncertainties of the estimates of the repeatability and reproducibility standard deviations, calculate
the following quantities.
For repeatability
Ap=−19, 6 1 2 1 (1)
()
[]
r
For reproducibility
2 4
Ap=+19, 6 1 2gg− 1+ 1 8 ()− 1 (2)
R ()
[] []
with g = s /s .
R r
If the number n of replicates is taken as two in equations (9) and (10) of ISO 5725-1:1994, then it can be seen that
equations (9) and (10) of ISO 5725-1:1994 are the same as equations (1) and (2) above, except that sometimes
p - 1 appears here in place of p in ISO 5725-1:1994. This is a small difference, so table 1 and figures B.1 and B.2 of
ISO 5725-1:1994 may be used to assess the uncertainty of the estimates of the repeatability and reproducibility
standard deviations in a split-level experiment.
To assess the uncertainty of the estimate of the bias of the measurement method in a split-level experiment,
calculate the quantity A as defined by equation (13) of ISO 5725-1:1994 with n = 2 (or use table 2 of
ISO 5725-1:1994), and use this quantity as described in ISO 5725-1.
To assess the uncertainty of the estimate of a laboratory bias in a split-level experiment, calculate the quantity A as
w
defined by equation (16) of ISO 5725-1:1994 with n = 2. Because the number of replicates in a split-level experiment
is, in effect, this number of two, it is not possible to reduce the uncertainty of the estimate of laboratory bias by
increasing the number of replicates. (If it is necessary to reduce this uncertainty, the uniform-level design should be
used instead.)
4.3.2 Follow the guidance given in clauses 5 and 6 of ISO 5725-2:1994 with regard to the details of the
organization of a split-level experiment. The number of replicates, n in ISO 5725-2, may be taken to be the number
of split-levels in a split-level design, i.e. two.
The a samples should be allocated to the participants at random, and the b samples should also be allocated to the
participants at random and in a separate randomization operation.
©
It is necessary in a split-level experiment for the statistical expert to be able to tell, when the data are reported,
which result was obtained on material a and which on material b, at each level of the experiment. Label the samples
so that this is possible, and be careful not to disclose this information to the participants.
Table 1 — Recommended form for the collation of data for the split-level design
Level
Laboratory 12 jq
abab ab ab
i
p
4.4 Statistical model
4.4.1 The basic model used in this part of ISO 5725 is given as equation (1) in clause 5 of ISO 5725-1:1994. It is
stated there that for estimating the accuracy (trueness and precision) of a measurement method, it is useful to
assume that every measurement result is the sum of three components:
ym=+B+e (3)
ijk j ij ijk
where, for the particular material tested,
m represents the general average (expectation) at a particular level j = 1, ., q;
j
B represents the laboratory component of bias under repeatability conditions in a particular laboratory
ij
i = 1, ., p at a particular level j = 1, ., q;
e represents the random error of test result k = 1, ., n , obtained in laboratory i at level j, under repeatability
ijk
conditions.
4.4.2 For a split-level experiment, this model becomes:
y = m + B + e (4)
ijk jk ij ijk
This differs from equation (3) in 4.4.1 in only one feature: the subscript k in m implies that according to equation (4) the
jk
general average may now depend on the material a or b (k = 1 or 2) within the level j.
The lack of a subscript k in B implies that it is assumed that the bias associated with a laboratory i does not depend
ij
on the material a or b within a level. This is why it is important that the two materials should be similar.
4.4.3 Define the cell averages as:
y = (y + y ) / 2 (5)
ij ija ijb
and the cell differences as:
D = y - y (6)
ij ija ijb
©
ISO ISO 5725-5:1998(E)
4.4.4 The general average for a level j of a split-level experiment may be defined as:
m = (m + m ) / 2 (7)
j ja jb
4.5 Statistical analysis of the data from a split-level experiment
4.5.1 Assemble the data into a table as shown in table 1. Each combination of a laboratory and a level gives a
“cell” in this table, containing two items of data, y and y .
ija ijb
Calculate the cell differences D and enter them into a table as shown in table 2. The method of analysis requires
ij
each difference to be calculated in the same sense
a - b
and the sign of the difference to be retained.
Calculate the cell averages y and enter them into a table as shown in table 3.
ij
4.5.2 If a cell in table 1 does not contain two test results (for example, because samples have been spoilt, or data
have been excluded following the application of the outlier tests described later) then the corresponding cells in
tables 2 and 3 both remain empty.
4.5.3 For each level j of the experiment, calculate the average D and standard deviation s of the differences in
j Dj
column j of table 2:
DD= p (8)
jij
∑
s = DD−−p1 (9)
()
()
Dj ij j
∑
Here, S represents summation over the laboratories i = 1, 2, ., p.
If there are empty cells in table 2, p is now the number of cells in column j of table 2 containing data and the
summation is performed over non-empty cells.
4.5.4 For each level j of the experiment, calculate the average y and standard deviation s of the averages in
j yj
column j of table 3, using:
yy= p (10)
jij
∑
sy=−y p−1 (11)
()
()
yj∑ ij j
Here, S represents summation over the laboratories i = 1, 2, ., p.
If there are empty cells in table 3, p is now the number of cells in column j of table 3 containing data and the
summation is performed over non-empty cells.
4.5.5 Use tables 2 and 3 and the statistics calculated in 4.5.3 and 4.5.4 to examine the data for consistency and
outliers, as described in 4.6. If data are rejected, recalculate the statistics.
©
4.5.6 Calculate the repeatability standard deviation s and the reproducibility standard deviation s from:
rj Rj
ss= 2 (12)
rj Dj
22 2
ss=+s 2 (13)
Rj yj rj
4.5.7 Investigate whether s and s depend on the average y , and, if so, determine the functional relationships,
rj Rj j
using the methods described in subclause 7.5 of ISO 5725-2:1994.
Table 2 — Recommended form for tabulation of cell differences for the split-level design
Level
Laboratory 12 jq
i
p
Table 3 — Recommended form for tabulation of cell averages for the split-level design
Level
Laboratory 12 jq
i
p
4.6 Scrutiny of the data for consistency and outliers
4.6.1 Examine the data for consistency using the h statistics, described in subclause 7.3.1 of ISO 5725-2:1994.
To check the consistency of the cell differences, calculate the h statistics as:
hD=−D s (14)
ij()ij j Dj
©
ISO ISO 5725-5:1998(E)
To check the consistency of the cell averages, calculate the h statistics as:
hy=−y s (15)
ij()ij j yj
To show up inconsistent laboratories, plot both sets of these statistics in the order of the levels, but grouped by
laboratory, as shown in figures 2 and 3. The interpretation of these graphs is discussed fully in subclause 7.3.1 of
ISO 5725-2:1994. If a laboratory is achieving generally worse repeatability than the others, then it will show up as
having an unusually large number of large h statistics in the graph derived from the cell differences. If a laboratory is
achieving results that are generally biased, then it will show up as having h statistics mostly in one direction on the
graph derived from the cell averages. In either case, the laboratory should be asked to investigate and report their
findings back to the organizer of the experiment.
4.6.2 Examine the data for stragglers and outliers using Grubbs’ tests, described in subclause 7.3.4 of
ISO 5725-2:1994.
To test for stragglers and outliers in the cell differences, apply Grubbs’ tests to the values in each column of table 2
in turn.
To test for stragglers and outliers in the cell averages, apply Grubbs’ tests to the values in each column of table 3 in
turn.
The interpretation of these tests is discussed fully in subclause 7.3.2 of ISO 5725-2:1994. They are used to identify
results that are so inconsistent with the remainder of the data reported in the experiment that their inclusion in the
calculation of the repeatability and reproducibility standard deviations would affect the values of these statistics
substantially. Usually, data shown to be outliers are excluded from the calculations, and data shown to be stragglers
are included, unless there is a good reason for doing otherwise. If the tests show that a value in one of tables 2 or 3
is to be excluded from the calculation of the repeatability and reproducibility standard deviations, then the
corresponding value in the other of these tables should also be excluded from the calculation.
4.7 Reporting the results of a split-level experiment
4.7.1 Advice is given in subclause 7.7 of ISO 5725-2:1994 on:
— reporting the results of the statistical analysis to the panel;
— decisions to be made by the panel; and
— the preparation of a full report.
4.7.2 Recommendations on the form of a published statement of the repeatability and reproducibility standard
deviations of a standard measurement method are given in subclause 7.1 of ISO 5725-1:1994.
4.8 Example 1: A split-level experiment — Determination of protein
[5]
4.8.1 Table 4 contains the data from an experiment which involved the determination by combustion of the
content of protein in feeds. There were nine participating laboratories, and the experiment contained 14 levels.
Within each level, two feeds were used having similar mass fraction of protein in feed.
4.8.2 Tables 5 and 6 show the cell averages and differences, calculated as described in clause 4.5.1, for just
Level 14 ( j = 14) of the experiment.
Using equations (8) and (9) in 4.5.3, the differences in table 5 give:
D = 8,34 %
s = 0,436 1 %
D14
©
and applying equations (10) and (11) in 4.5.4 to the averages in table 6 gives:
y = 85,46 %
s = 0,453 4 %
Y14
so the repeatability and reproducibility standard deviations are, using equations (12) and (13) in 4.5.6:
s = 0,31 %
r14
s = 0,50 %
R14
Table 7 gives the results of the calculations for the other levels.
4.8.3 Figure 1 shows the results for samples a from table 4 plotted against the corresponding results for samples
b, for Level 14, in a “Youden plot”. Laboratory 5 gives a point in the bottom left-hand corner of the graph, and
Laboratory 1 gives a point in the top right-hand corner: this indicates that the data from Laboratory 5 have a
consistent negative bias over samples a and b, and that the data from Laboratory 1 have a consistent positive bias
over the two samples. It is common to find this sort of pattern when plotting the data from a split-level design as in
figure 1. The figure also shows that the results for Laboratory 4 are unusual, as the point for this laboratory is some
distance from the line of equality for the two samples. The other laboratories form a group in the middle of the plot.
This figure thus provides a case for investigating the causes of the biases at the three laboratories.
NOTE — For further information on the interpretation of “Youden plots”, see references [7] and [8].
4.8.4 The values of the h statistics, calculated as described in 4.6.1, are shown in tables 5 and 6, for only Level 14.
The values for all levels are plotted in figures 2 and 3.
In figure 3, the h statistics for cell averages show that Laboratory 5 gave negative h statistics at all levels, indicating
a consistent negative bias in their data. In the same figure, Laboratories 8 and 9 gave h statistics that are nearly all
positive, indicating consistent positive biases in their data (but smaller than the negative bias in Laboratory 5). Also,
the h statistics for Laboratories 1, 2 and 6 indicate a bias that changes with level in each of these laboratories. Such
interactions between the laboratories and the levels may provide clues as to the causes of the laboratory biases.
Figure 2 does not reveal any noteworthy pattern.
4.8.5 Values of the Grubbs’ statistics are given in table 8. These tests again indicate that the data from
Laboratory 5 are suspect.
4.8.6 At this point in the analysis, the statistical expert should initiate an investigation at Laboratory 5 of the
possible causes of the suspect data, before proceeding with the analysis of the data. If the cause cannot be
identified, there is a case in this instance for excluding all data from Laboratory 5 from the calculation of the
repeatability and reproducibility standard deviations. The analysis would then continue with an investigation of
possible functional relationships between the repeatability and reproducibility standard deviations and the general
average. This does not raise any issues that have not already been covered in ISO 5725-2, so it will not be
considered here.
©
ISO ISO 5725-5:1998(E)
Table 4 — Example 1: Determination of mass fraction of protein in feed, expressed as a percentage
Level
Laboratory 12345
ababababab
1 11,11 10,34 10,91 9,81 13,74 13,48 13,79 13,00 15,89 15,26
2 11,12 9,94 11,38 10,31 14,00 13,12 13,44 13,06 15,69 15,10
3 11,26 10,46 10,95 10,51 13,38 12,70 13,54 13,18 15,83 15,73
4 11,07 10,41 11,66 9,95 13,01 13,16 13,58 12,88 15,08 15,63
5 10,69 10,31 10,98 10,13 13,24 13,33 13,32 12,59 15,02 14,90
6 11,73 11,01 12,31 10,92 14,01 13,66 14,04 13,64 16,43 15,94
7 11,13 10,36 11,38 10,44 12,94 12,44 13,63 13,06 15,75 15,56
8 11,21 10,51 11,32 10,84 13,09 13,76 13,85 13,49 15,98 15,89
9 11,80 11,21 11,35 9,88 13,85 14,46 13,96 13,77 16,51 15,72
Level
Laboratory 6789 10
ababababab
1 20,14 19,78 20,33 20,06 46,45 44,42 52,05 49,40 65,84 59,14
2 19,25 20,25 20,36 19,94 46,69 44,62 51,94 48,81 66,31 59,19
3 20,48 19,86 20,56 20,11 46,90 44,56 52,18 48,90 66,06 58,52
4 21,54 20,06 20,64 20,46 47,13 45,29 51,73 48,56 65,93 58,93
5 19,90 19,66 20,56 19,24 45,83 43,73 50,84 47,91 64,19 57,94
6 20,31 20,27 20,85 20,63 46,86 43,96 52,18 49,03 65,73 58,77
7 20,00 20,56 20,25 20,19 46,25 44,31 52,25 49,44 66,06 59,19
8 20,43 20,69 20,85 20,27 47,11 44,40 52,44 48,81 65,66 59,38
9 20,64 21,01 20,78 20,89 47,09 45,15 52,19 48,46 66,33 59,47
Level
Laboratory 11 12 13 14
abababab
1 84,16 80,86 85,38 81,71 87,64 88,23 90,24 82,10
2 84,50 81,06 85,56 82,44 88,81 88,38 89,88 81,44
3 82,26 79,43 85,26 82,15 88,58 88,12 89,48 81,67
4 84,39 80,08 85,20 81,76 88,47 87,98 90,04 80,73
5 81,71 79,01 83,58 79,74 86,43 86,19 88,59 80,46
6 82,85 81,16 84,44 80,90 87,78 86,89 89,40 80,88
7 86,25 81,00 84,88 81,44 88,06 88,00 89,31 81,38
8 84,59 81,16 84,96 81,71 88,50 87,98 89,94 81,56
9 83,05 80,93 84,73 81,94 88,24 88,05 89,75 81,35
©
Table 5 — Example 1: Cell differences Table 6 — Example 1: Cell averages
for Level 14 for Level 14
Laboratory Cell h Laboratory Cell h
difference statistic difference statistic
% %
1 8,14 1 86,170 1,576
- 0,459
2 8,44 0,229 2 85,660 0,451
3 7,81 3 85,575 0,263
- 1,215
4 9,31 2,224 4 85,385
- 0,156
5 8,13 5 84,525
- 0,482 - 2,052
6 8,52 0,413 6 85,140
- 0,696
7 7,93 7 85,345
- 0,940 - 0,244
8 8,38 0,092 8 85,750 0,649
9 8,40 0,138 9 85,550 0,208
Table 7 — Example 1: Values of averages, average differences, and standard deviations calculated
from the data for all 14 levels in table 4
Level Number of General Average
Standard deviations
laboratories average difference
jp y % D % s % s % s % s %
j j yj Dj rj Rj
1 9 10,87 0,73 0,35 0,21 0,15 0,36
2 9 10,84 1,05 0,36 0,43 0,30 0,42
3 9 13,41 0,13 0,44 0,55 0,39 0,52
4 9 13,43 0,50 0,30 0,21 0,15 0,32
5 9 15,66 0,27 0,39 0,40 0,29 0,44
6 9 20,27 0,06 0,40 0,73 0,52 0,54
7 9 20,39 0,38 0,30 0,41 0,29 0,37
8 9 45,60 2,21 0,44 0,37 0,26 0,47
9 9 50,40 3,16 0,44 0,35 0,25 0,47
10 9 62,37 6,84 0,53 0,40 0,28 0,57
11 9 82,14 3,23 1,01 1,08 0,77 1,15
12 9 83,17 3,45 0,74 0,46 0,33 0,77
13 9 87,91 0,30 0,69 0,41 0,29 0,72
14 9 85,46 8,34 0,45 0,44 0,31 0,50
©
ISO ISO 5725-5:1998(E)
Table 8 — Example 1: Values of Grubbs' statistics
Grubbs' statistics for differences
Level One smallest Two smallest Two largest One largest
1 1,653 0,5081 0,3139 2,125
2 1,418 0,3945 0,4738 1,535
3 1,462 0,3628 0,5323 1,379
4 1,490 0,5841 0,4771 1,414
5 2,033 0,3485 0,6075 1,289
6 1,456 0,5490 0,3210 1,947
7 1,185 0,6820 0,1712 2,296* (5)
8 0,996 0,7571 0,1418* (6; 8) 1,876
9 1,458 0,5002 0,3092 1,602
10 1,474 0,3360 0,4578 1,737
11 1,422 0,5089 0,2943 1,865
12 1,418 0,6009 0,2899 1,956
13 2,172 0,2325 0,6326 1,444
14 1,215 0,6220 0,2362 2,224* (4)
Grubbs' statistics for cell averages
Level One smallest Two smallest Two largest One largest
1 1,070 0,6607 0,1291* (6; 9) 1,832
2 1,318 0,6288 0,2118 2,165
3 1,621 0,4771 0,4077 1,680
4 1,591 0,5339 0,3807 1,429
5 1,794 0,4018 0,5009 1,333
6 1,291 0,4947 0,4095 1,386
7 1,599 0,5036 0,4391 1,470
8 1,872 0,3753 0,4536 1,404
9 2,328* (5) 0,1317* (4; 5) 0,7417 1,025
10 2,456** (5) - - 1,000
11 1,756 0,2469 0,5759 1,472
12 2,037 0,1063* (5; 6) 0,7116 1,130
13 2,308* (5) 0,0733** (5; 6) 0,7777 0,994
14 2,052 0,2781 0,5486 1,576
NOTE — Numbers in brackets indicate the laboratories that give rise to the stragglers or outliers.
The critical values of the Grubbs' test statistics for 9 laboratories, whether applied to the differences or the cell averages, are as follows.
Straggler Outlier
(*) (**)
Grubbs' test for a single outlier 2,215 2,387
Grubbs' test for a pair of outliers 0,149 2 0,085 1
©
Figure 1 — Example 1: Data obtained at Level 14
(grouped by laboratory)
Figure 2 — Example 1: Consistency check on cell differences
©
ISO ISO 5725-5:1998(E)
Figure 3 — Example 1: Consistency check on cell averages (grouped by laboratory)
5 A design for a heterogeneous material
5.1 Applications of the design for a heterogeneous material
5.1.1 An example of a heterogeneous material is leather; no two hides are the same, and the properties of leather
[3]
vary substantially within a hide. A common test that is applied to leather is a tensile strength test in BS 3144 . This
is performed on dumbell-shaped specimens (BS 3144 specifies the number of such specimens to cut from a hide,
and also their position and orientation within the hide, so the natural definition of a “sample” to use when testing
leather is a complete hide). If a precision experiment is performed using the uniform level design described in
ISO 5725-2, in which each laboratory is sent one hide at each level of the experiment, and two test results are
obtained on each hide, variation between hides will add to the between-laboratory variation, and so increase the
reproducibility standard deviation. However, if each laboratory is sent two hides at each level, and two test results
are obtained on each hide, the data can be used to estimate the variation between hides and to calculate a value for
the reproducibility standard deviation of the test method from which the variation between-hides has been removed.
5.1.2 Another example of a heterogeneous material is sand (that might be used, for example, for making
concrete). This is laid down, by the action of wind or water, in strata that always contain graduations in particle size,
so when sand is used the particle size distribution is always of interest. In concrete technology the particle size
[1]
distribution of sand is measured by sieve testing (e.g. BS 812-103 ). To test a sand, a bulk sample is taken from
the product, then one or more test portions are produced from the bulk sample. Typically, the bulk sample will be
about 10 kg in mass, and the test portions will be about 200 g. Because of the natural variability of the material,
there will always be some variability between bulk samples of the same product. Hence, as with leather, if a uniform
level experiment is performed in which each laboratory is sent one bulk sample at each level, the variability between
the bulk samples will increase the calculated reproducibility standard deviation of the test method, but if laboratories
are sent two bulk samples at each level, then values for the reproducibility standard deviation can be calculated that
exclude this variation.
5.1.3 The above examples also highlight another characteristic of heterogeneous materials: because of the
variability of the material, the specimen or test portion preparation can be an important source of variation. Thus
with leather, the process of cutting specimens from a hide can have a large influence on the measured tensile
©
strength, and with sieve tests on sand the process of preparing test portions from bulk samples is usually the major
source of variability in the test method. If specimens or test portions are prepared for a precision experiment in a
way that does not correspond to normal practice (in an attempt to produce identical “samples”) then the values of
repeatability and reproducibility standard deviations produced by the experiment will not be representative of the
variability experienced in practice. There are situations in which it can be desirable to produce identical “samples”
by some special process designed to eliminate, as far as possible, the variability of the material (for example, for a
proficiency test, or when a precision experiment is used as part of a programme of work during the development of
a measurement method). However, when the aim of the precision experiment is to discover the variability that will
be experienced in practice (for example, when vendors and purchasers test samples of the same product) then it is
necessary for the variability arising as a consequence of the heterogeneity of the material to be included in the
measures of the precision of the measurement method.
Care should also be taken to ensure that each test result in an experiment is obtained by carrying out the test
procedure independently of other tests. This will not be so if some stages of the specimen preparation are shared
by several specimens, so that a bias or deviation introduced by the preparation will have a common influence on the
test results derived from these specimens.
5.1.4 The design for heterogeneous materials proposed in this clause yields information about the variability
between samples that is not obtainable from the uniform level design described in ISO 5725-2. There is, inevitably,
a cost associated with obtaining extra information: the proposed design requires more samples to be tested. This
extra information may be valuable. In the leather example discussed in 5.1.1, information about the variability
between hides could be used to decide how many hides to test when assessing the quality of a consignment, or to
decide between testing more hides with fewer specimens per hide or fewer hides with more specimens per hide. In
the sand example discussed in 5.1.2, information about the variability between bulk samples could be used to
decide if the procedure for taking bulk samples is satisfactory or in need of improvement.
The design described in this clause is applicable to experiments involving three factors arranged in a
5.1.5
hierarchy: with a factor “laboratories” at the highest level in the hierarchy, a factor “samples within laboratories” as
the next level in the hierarchy, and a factor “test results within samples” as the lowest level of the hierarchy. Another
case that can be encountered in practice is of a three-factor hierarchy with “laboratories” at the highest level, “test
results within laboratories” as the next level, and “determinations within test results” as the lowest level. This would
arise if the participating laboratories in a precision experiment were each sent a single sample of a homogeneous
material, were asked to carry out two (or perhaps more) tests per sample, and if each test involved a number of
determinations and the test result is calculated as the average of the determinations. The formulae given in 5.5, 5.6
and 5.9 may be applied to data obtained in such an experiment, but the repeatability and reproducibility standard
deviations have to be calculated in a slightly different manner to that given here (see NOTE 2 to 5.5.5). It is also
necessary to specify the number of determinations that are to be averaged to give a test result, because this affects
the values of the repeatability and reproducibility standard deviations.
5.2 Layout of the design for a heterogeneous material
5.2.1 The layout of the design for a heterogeneous material is shown in table 9.
The p participating laboratories are each provided with two samples at q levels, and obtain two test results on each
sample. Thus each cell in the experiment contains four test results (two test results for each of two samples).
It is possible to generalize this simple design, by allowing for more than two samples per laboratory per level, or for
more than two test results per sample. The calculati
...
INTERNATIONAL ISO
STANDARD 5725-5
First edition
1998-07-15
Accuracy (trueness and precision) of
measurement methods and results —
Part 5:
Alternative methods for the determination of
the precision of a standard measurement
method
Exactitude (justesse et fidélité) des résultats et méthodes de mesure —
Partie 5: Méthodes alternatives pour la détermination de la fidélité d'une
méthode de mesure normalisée
A
Reference number
Page
Contents
1 Scope . 1
2 Normative references . 1
3 Definitions . 2
4 Split-level design . 2
4.1 Applications of the split-level design . 2
4.2 Layout of the split-level design . 2
4.3 Organization of a split-level experiment . 3
4.4 Statistical model . 4
4.5 Statistical analysis of the data from a split-level experiment . 5
4.6 Scrutiny of the data for consistency and outliers . 6
4.7 Reporting the results of a split-level experiment . 7
4.8 Example 1: A split-level experiment — Determination of protein . 7
5 A design for a heterogeneous material . 13
5.1 Applications of the design for a heterogeneous material . 13
5.2 Layout of the design for a heterogeneous material . 14
5.3 Organization of an experiment with a heterogeneous material . 15
5.4 Statistical model for an experiment with a heterogeneous material . 16
5.5 Statistical analysis of the data from an experiment with a heterogeneous material . 17
5.6 Scrutiny of the data for consistency and outliers . 20
5.7 Reporting the results of an experiment on a heterogeneous material . 21
5.8 Example 2: An experiment on a heterogeneous material . 21
5.9 General formulae for calculations with the design for a heterogeneous material . 29
5.10 Example 3: An application of the general formulae . 30
6 Robust methods for data analysis . 33
6.1 Applications of robust methods of data analysis . 33
6.2 Robust analysis: Algorithm A . 35
6.3 Robust analysis: Algorithm S . 36
6.4 Formulae: Robust analysis for a particular level of a uniform-level design . 38
6.5 Example 4: Robust analysis for a particular level of a uniform-level design . 38
6.6 Formulae: Robust analysis for a particular level of a split-level design . 42
6.7 Example 5: Robust analysis for a particular level of a split-level design . 42
6.8 Formulae: Robust analysis for a particular level of an experiment on a heterogeneous material . 45
6.9 Example 6: Robust analysis for a particular level of an experiment on a heterogeneous material . 45
Annexes
A (normative) Symbols and abbreviations used in ISO 5725 . 50
B (informative) Derivation of the factors used in algorithms A and S . 53
C (informative) Derivation of equations used for robust analysis . 55
D (informative) Bibliography . 56
© ISO 1998
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means, electronic
or mechanical, including photocopying and microfilm, without permission in writing from the publisher.
International Organization for Standardization
Case postale 56 • CH-1211 Genève 20 • Switzerland
Internet iso@iso.ch
Printed in Switzerland
ii
©
ISO ISO 5725-5:1998(E)
Foreword
ISO (the International Organization for Standardization) is a world-wide federation of national standards bodies (ISO
member bodies). The work of preparing International Standards is normally carried out through ISO technical
committees. Each member body interested in a subject for which a technical committee has been established has
the right to be represented on that committee. International organisations, governmental and non-governmental, in
liaison with ISO, also take part in the work. ISO collaborates closely with the International Electrotechnical
Commission (IEC) on all matters of electrotechnical standardization.
Draft International Standards adopted by the technical committees are circulated to the member bodies for voting.
Publication as an International standard requires approval by at least 75 % of the member bodies casting a vote.
ISO 5725-5 was prepared by Technical Committee ISO/TC 69, Applications of statistical methods, Subcommittee
SC 6, Measurement methods and results.
ISO 5725 consists of the following parts, under the general title Accuracy (trueness and precision) of measurement
methods and results:
— Part 1: General principles and definitions
— Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement
method
— Part 3: Intermediate measures of the precision of a standard measurement method
— Part 4: Basic methods for the determination of the trueness of a standard measurement method
— Part 5: Alternative methods for the determination of the precision of a standard measurement method
— Part 6: Use in practice of accuracy values
Parts 1 to 6 of ISO 5725 together cancel and replace ISO 5725:1986, which has been extended to cover trueness
(in addition to precision) and intermediate precision conditions (in addition to repeatability conditions and
reproducibility conditions).
Annex A forms an integral part of this part of ISO 5725. Annexes B, C and D are for information only.
iii
©
Introduction
0.1 This part of ISO 5725 uses two terms trueness and precision to describe the accuracy of a measurement
method. Trueness refers to the closeness of agreement between the average value of a large number of test results
and the true or accepted reference value. Precision refers to the closeness of agreement between test results.
0.2 General consideration of these quantities is given in ISO 5725-1 and so is not repeated here. This part of
ISO 5725 should be read in conjunction with ISO 5725-1 because the underlying definitions and general principles
are given there.
0.3 ISO 5725-2 is concerned with estimating, by means of interlaboratory experiments, standard measures of
precision, namely the repeatability standard deviation and the reproducibility standard deviation. It gives a basic
method for doing this using the uniform-level design. This part of ISO 5725 describes alternative methods to this
basic method.
a) With the basic method there is a risk that an operator may allow the result of a measurement on one sample to
influence the result of a subsequent measurement on another sample of the same material, causing the
estimates of the repeatability and reproducibility standard deviations to be biased. When this risk is considered
to be serious, the split-level design described in this part of ISO 5725 may be preferred as it reduces this risk.
b) The basic method requires the preparation of a number of identical samples of the material for use in the
experiment. With heterogeneous materials this may not be possible, so that the use of the basic method then
gives estimates of the reproducibility standard deviation that are inflated by the variation between the samples.
The design for a heterogeneous material given in this part of ISO 5725 yields information about the variability
between samples which is not obtainable from the basic method; it may be used to calculate an estimate of
reproducibility from which the between-sample variation has been removed.
c) The basic method requires tests for outliers to be used to identify data that should be excluded from the
calculation of the repeatability and reproducibility standard deviations. Excluding outliers can sometimes have a
large effect on the estimates of repeatability and reproducibility standard deviations, but in practice, when
applying the outlier tests, the data analyst may have to use judgement to decide which data to exclude. This
part of ISO 5725 describes robust methods of data analysis that may be used to calculate repeatability and
reproducibility standard deviations from data containing outliers without using tests for outliers to exclude data,
so that the results are no longer affected by the data analyst’s judgement.
iv
©
INTERNATIONAL STANDARD ISO ISO 5725-5:1998(E)
Accuracy (trueness and precision) of measurement methods and
results —
Part 5:
Alternative methods for the determination of the precision of a standard
measurement method
1 Scope
This part of ISO 5725
— provides detailed descriptions of alternatives to the basic method for determining the repeatability and
reproducibility standard deviations of a standard measurement method, namely the split-level design and a
design for heterogeneous materials;
— describes the use of robust methods for analysing the results of precision experiments without using outlier
tests to exclude data from the calculations, and in particular, the detailed use of one such method.
This part of ISO 5725 complements ISO 5725-2 by providing alternative designs that may be of more value in some
situations than the basic design given in ISO 5725-2, and by providing a robust method of analysis that gives
estimates of the repeatability and reproducibility standard deviations that are less dependent on the data analyst's
judgement than those given by the methods described in ISO 5725-2.
2 Normative references
The following standards contain provisions which, through reference in this text, constitute provisions of this part of
ISO 5725. At the time of publication, the editions indicated were valid. All standards are subject to revision, and
parties to agreements based on this part of ISO 5725 are encouraged to investigate the possibility of applying the
most recent editions of the standards indicated below. Members of IEC and ISO maintain registers of currently valid
International Standards.
ISO 3534-1:1993, .
Statistics — Vocabulary and symbols — Part 1: Probability and general statistical terms
ISO 3534-3:1985, Statistics — Vocabulary and symbols — Part 3: Design of experiments.
ISO 5725-1:1994, Accuracy (trueness and precision) of measurement methods and results — Part 1: General
principles and definitions.
ISO 5725-2:1994, Accuracy (trueness and precision) of measurement methods and results — Part 2: Basic method
for the determination of repeatability and reproducibility of a standard measurement method.
©
3 Definitions
For the purposes of this part of ISO 5725, the definitions given in ISO 3534-1 and in ISO 5725-1 apply.
The symbols used in ISO 5725 are given in annex A.
4 Split-level design
4.1 Applications of the split-level design
4.1.1 The uniform level design described in ISO 5725-2 requires two or more identical samples of a material to be
tested in each participating laboratory and at each level of the experiment. With this design there is a risk that an
operator may allow the result of a measurement on one sample to influence the result of a subsequent
measurement on another sample of the same material. If this happens, the results of the precision experiment will
be distorted: estimates of the repeatability standard deviation s will be decreased and estimates of the between-
r
laboratory standard deviation s will be increased. In the split-level design, each participating laboratory is provided
L
with a sample of each of two similar materials, at each level of the experiment, and the operators are told that the
samples are not identical, but they are not told by how much the materials differ. The split-level design thus provides
a method of determining the repeatability and reproducibility standard deviations of a standard measurement
method in a way that reduces the risk that a test result obtained on one sample will influence a test result on
another sample in the experiment.
4.1.2 The data obtained at a level of a split-level experiment may be used to draw a graph in which the data for
one material are plotted against the data for the other, similar, material. An example is given in figure 1. Such
graphs can help identify those laboratories that have the largest biases relative to the other laboratories. This is
useful when it is possible to investigate the causes of the largest laboratory biases with the aim of taking corrective
action.
4.1.3 It is common for the repeatability and reproducibility standard deviations of a measurement method to
depend on the level of the material. For example, when the test result is the proportion of an element obtained by
chemical analysis, the repeatability and reproducibility standard deviations usually increase as the proportion of the
element increases. It is necessary, for a split-level experiment, that the two similar materials used at a level of the
experiment are so similar that they can be expected to give the same repeatability and reproducibility standard
deviations. For the purposes of the split-level design, it is acceptable if the two materials used for a level of the
experiment give almost the same level of measurement results, and nothing is to be gained by arranging that they
differ substantially.
In many chemical analysis methods, the matrix containing the constituent of interest can influence the precision, so
for a split-level experiment two materials with similar matrices are required at each level of the experiment. A
sufficiently similar material can sometimes be prepared by spiking a material with a small addition of the constituent
of interest. When the material is a natural or manufactured product, it can be difficult to find two products that are
sufficiently similar for the purposes of a split-level experiment: a possible solution may be to use two batches of the
same product. It should be remembered that the object of choosing the materials for the split-level design is to
provide the operators with samples that they do not expect to be identical.
4.2 Layout of the split-level design
4.2.1 The layout of the split-level design is shown in table 1.
The p participating laboratories each test two samples at q levels.
The two samples within a level are denoted a and b, where a represents a sample of one material, and b represents
a sample of the other, similar, material.
©
ISO ISO 5725-5:1998(E)
4.2.2 The data from a split-level experiment are represented by:
y
ijk
where
subscript i represents the laboratory (i = 1, 2, ., p);
subscript j represents the level (j = 1, 2, ., q);
subscript k represents the sample (k = a or b).
4.3 Organization of a split-level experiment
4.3.1 Follow the guidance given in clause 6 of ISO 5725-1:1994 when planning a split-level experiment.
Subclause 6.3 of ISO 5725-1:1994 contains a number of formulae (involving a quantity denoted generally by A) that
are used to help decide how many laboratories to include in the experiment. The corresponding formulae for the
split-level experiment are set out below.
NOTE — These formulae have been derived by the method described in NOTE 24 of ISO 5725-1:1994.
To assess the uncertainties of the estimates of the repeatability and reproducibility standard deviations, calculate
the following quantities.
For repeatability
Ap=−19, 6 1 2 1 (1)
()
[]
r
For reproducibility
2 4
Ap=+19, 6 1 2gg− 1+ 1 8 ()− 1 (2)
R ()
[] []
with g = s /s .
R r
If the number n of replicates is taken as two in equations (9) and (10) of ISO 5725-1:1994, then it can be seen that
equations (9) and (10) of ISO 5725-1:1994 are the same as equations (1) and (2) above, except that sometimes
p - 1 appears here in place of p in ISO 5725-1:1994. This is a small difference, so table 1 and figures B.1 and B.2 of
ISO 5725-1:1994 may be used to assess the uncertainty of the estimates of the repeatability and reproducibility
standard deviations in a split-level experiment.
To assess the uncertainty of the estimate of the bias of the measurement method in a split-level experiment,
calculate the quantity A as defined by equation (13) of ISO 5725-1:1994 with n = 2 (or use table 2 of
ISO 5725-1:1994), and use this quantity as described in ISO 5725-1.
To assess the uncertainty of the estimate of a laboratory bias in a split-level experiment, calculate the quantity A as
w
defined by equation (16) of ISO 5725-1:1994 with n = 2. Because the number of replicates in a split-level experiment
is, in effect, this number of two, it is not possible to reduce the uncertainty of the estimate of laboratory bias by
increasing the number of replicates. (If it is necessary to reduce this uncertainty, the uniform-level design should be
used instead.)
4.3.2 Follow the guidance given in clauses 5 and 6 of ISO 5725-2:1994 with regard to the details of the
organization of a split-level experiment. The number of replicates, n in ISO 5725-2, may be taken to be the number
of split-levels in a split-level design, i.e. two.
The a samples should be allocated to the participants at random, and the b samples should also be allocated to the
participants at random and in a separate randomization operation.
©
It is necessary in a split-level experiment for the statistical expert to be able to tell, when the data are reported,
which result was obtained on material a and which on material b, at each level of the experiment. Label the samples
so that this is possible, and be careful not to disclose this information to the participants.
Table 1 — Recommended form for the collation of data for the split-level design
Level
Laboratory 12 jq
abab ab ab
i
p
4.4 Statistical model
4.4.1 The basic model used in this part of ISO 5725 is given as equation (1) in clause 5 of ISO 5725-1:1994. It is
stated there that for estimating the accuracy (trueness and precision) of a measurement method, it is useful to
assume that every measurement result is the sum of three components:
ym=+B+e (3)
ijk j ij ijk
where, for the particular material tested,
m represents the general average (expectation) at a particular level j = 1, ., q;
j
B represents the laboratory component of bias under repeatability conditions in a particular laboratory
ij
i = 1, ., p at a particular level j = 1, ., q;
e represents the random error of test result k = 1, ., n , obtained in laboratory i at level j, under repeatability
ijk
conditions.
4.4.2 For a split-level experiment, this model becomes:
y = m + B + e (4)
ijk jk ij ijk
This differs from equation (3) in 4.4.1 in only one feature: the subscript k in m implies that according to equation (4) the
jk
general average may now depend on the material a or b (k = 1 or 2) within the level j.
The lack of a subscript k in B implies that it is assumed that the bias associated with a laboratory i does not depend
ij
on the material a or b within a level. This is why it is important that the two materials should be similar.
4.4.3 Define the cell averages as:
y = (y + y ) / 2 (5)
ij ija ijb
and the cell differences as:
D = y - y (6)
ij ija ijb
©
ISO ISO 5725-5:1998(E)
4.4.4 The general average for a level j of a split-level experiment may be defined as:
m = (m + m ) / 2 (7)
j ja jb
4.5 Statistical analysis of the data from a split-level experiment
4.5.1 Assemble the data into a table as shown in table 1. Each combination of a laboratory and a level gives a
“cell” in this table, containing two items of data, y and y .
ija ijb
Calculate the cell differences D and enter them into a table as shown in table 2. The method of analysis requires
ij
each difference to be calculated in the same sense
a - b
and the sign of the difference to be retained.
Calculate the cell averages y and enter them into a table as shown in table 3.
ij
4.5.2 If a cell in table 1 does not contain two test results (for example, because samples have been spoilt, or data
have been excluded following the application of the outlier tests described later) then the corresponding cells in
tables 2 and 3 both remain empty.
4.5.3 For each level j of the experiment, calculate the average D and standard deviation s of the differences in
j Dj
column j of table 2:
DD= p (8)
jij
∑
s = DD−−p1 (9)
()
()
Dj ij j
∑
Here, S represents summation over the laboratories i = 1, 2, ., p.
If there are empty cells in table 2, p is now the number of cells in column j of table 2 containing data and the
summation is performed over non-empty cells.
4.5.4 For each level j of the experiment, calculate the average y and standard deviation s of the averages in
j yj
column j of table 3, using:
yy= p (10)
jij
∑
sy=−y p−1 (11)
()
()
yj∑ ij j
Here, S represents summation over the laboratories i = 1, 2, ., p.
If there are empty cells in table 3, p is now the number of cells in column j of table 3 containing data and the
summation is performed over non-empty cells.
4.5.5 Use tables 2 and 3 and the statistics calculated in 4.5.3 and 4.5.4 to examine the data for consistency and
outliers, as described in 4.6. If data are rejected, recalculate the statistics.
©
4.5.6 Calculate the repeatability standard deviation s and the reproducibility standard deviation s from:
rj Rj
ss= 2 (12)
rj Dj
22 2
ss=+s 2 (13)
Rj yj rj
4.5.7 Investigate whether s and s depend on the average y , and, if so, determine the functional relationships,
rj Rj j
using the methods described in subclause 7.5 of ISO 5725-2:1994.
Table 2 — Recommended form for tabulation of cell differences for the split-level design
Level
Laboratory 12 jq
i
p
Table 3 — Recommended form for tabulation of cell averages for the split-level design
Level
Laboratory 12 jq
i
p
4.6 Scrutiny of the data for consistency and outliers
4.6.1 Examine the data for consistency using the h statistics, described in subclause 7.3.1 of ISO 5725-2:1994.
To check the consistency of the cell differences, calculate the h statistics as:
hD=−D s (14)
ij()ij j Dj
©
ISO ISO 5725-5:1998(E)
To check the consistency of the cell averages, calculate the h statistics as:
hy=−y s (15)
ij()ij j yj
To show up inconsistent laboratories, plot both sets of these statistics in the order of the levels, but grouped by
laboratory, as shown in figures 2 and 3. The interpretation of these graphs is discussed fully in subclause 7.3.1 of
ISO 5725-2:1994. If a laboratory is achieving generally worse repeatability than the others, then it will show up as
having an unusually large number of large h statistics in the graph derived from the cell differences. If a laboratory is
achieving results that are generally biased, then it will show up as having h statistics mostly in one direction on the
graph derived from the cell averages. In either case, the laboratory should be asked to investigate and report their
findings back to the organizer of the experiment.
4.6.2 Examine the data for stragglers and outliers using Grubbs’ tests, described in subclause 7.3.4 of
ISO 5725-2:1994.
To test for stragglers and outliers in the cell differences, apply Grubbs’ tests to the values in each column of table 2
in turn.
To test for stragglers and outliers in the cell averages, apply Grubbs’ tests to the values in each column of table 3 in
turn.
The interpretation of these tests is discussed fully in subclause 7.3.2 of ISO 5725-2:1994. They are used to identify
results that are so inconsistent with the remainder of the data reported in the experiment that their inclusion in the
calculation of the repeatability and reproducibility standard deviations would affect the values of these statistics
substantially. Usually, data shown to be outliers are excluded from the calculations, and data shown to be stragglers
are included, unless there is a good reason for doing otherwise. If the tests show that a value in one of tables 2 or 3
is to be excluded from the calculation of the repeatability and reproducibility standard deviations, then the
corresponding value in the other of these tables should also be excluded from the calculation.
4.7 Reporting the results of a split-level experiment
4.7.1 Advice is given in subclause 7.7 of ISO 5725-2:1994 on:
— reporting the results of the statistical analysis to the panel;
— decisions to be made by the panel; and
— the preparation of a full report.
4.7.2 Recommendations on the form of a published statement of the repeatability and reproducibility standard
deviations of a standard measurement method are given in subclause 7.1 of ISO 5725-1:1994.
4.8 Example 1: A split-level experiment — Determination of protein
[5]
4.8.1 Table 4 contains the data from an experiment which involved the determination by combustion of the
content of protein in feeds. There were nine participating laboratories, and the experiment contained 14 levels.
Within each level, two feeds were used having similar mass fraction of protein in feed.
4.8.2 Tables 5 and 6 show the cell averages and differences, calculated as described in clause 4.5.1, for just
Level 14 ( j = 14) of the experiment.
Using equations (8) and (9) in 4.5.3, the differences in table 5 give:
D = 8,34 %
s = 0,436 1 %
D14
©
and applying equations (10) and (11) in 4.5.4 to the averages in table 6 gives:
y = 85,46 %
s = 0,453 4 %
Y14
so the repeatability and reproducibility standard deviations are, using equations (12) and (13) in 4.5.6:
s = 0,31 %
r14
s = 0,50 %
R14
Table 7 gives the results of the calculations for the other levels.
4.8.3 Figure 1 shows the results for samples a from table 4 plotted against the corresponding results for samples
b, for Level 14, in a “Youden plot”. Laboratory 5 gives a point in the bottom left-hand corner of the graph, and
Laboratory 1 gives a point in the top right-hand corner: this indicates that the data from Laboratory 5 have a
consistent negative bias over samples a and b, and that the data from Laboratory 1 have a consistent positive bias
over the two samples. It is common to find this sort of pattern when plotting the data from a split-level design as in
figure 1. The figure also shows that the results for Laboratory 4 are unusual, as the point for this laboratory is some
distance from the line of equality for the two samples. The other laboratories form a group in the middle of the plot.
This figure thus provides a case for investigating the causes of the biases at the three laboratories.
NOTE — For further information on the interpretation of “Youden plots”, see references [7] and [8].
4.8.4 The values of the h statistics, calculated as described in 4.6.1, are shown in tables 5 and 6, for only Level 14.
The values for all levels are plotted in figures 2 and 3.
In figure 3, the h statistics for cell averages show that Laboratory 5 gave negative h statistics at all levels, indicating
a consistent negative bias in their data. In the same figure, Laboratories 8 and 9 gave h statistics that are nearly all
positive, indicating consistent positive biases in their data (but smaller than the negative bias in Laboratory 5). Also,
the h statistics for Laboratories 1, 2 and 6 indicate a bias that changes with level in each of these laboratories. Such
interactions between the laboratories and the levels may provide clues as to the causes of the laboratory biases.
Figure 2 does not reveal any noteworthy pattern.
4.8.5 Values of the Grubbs’ statistics are given in table 8. These tests again indicate that the data from
Laboratory 5 are suspect.
4.8.6 At this point in the analysis, the statistical expert should initiate an investigation at Laboratory 5 of the
possible causes of the suspect data, before proceeding with the analysis of the data. If the cause cannot be
identified, there is a case in this instance for excluding all data from Laboratory 5 from the calculation of the
repeatability and reproducibility standard deviations. The analysis would then continue with an investigation of
possible functional relationships between the repeatability and reproducibility standard deviations and the general
average. This does not raise any issues that have not already been covered in ISO 5725-2, so it will not be
considered here.
©
ISO ISO 5725-5:1998(E)
Table 4 — Example 1: Determination of mass fraction of protein in feed, expressed as a percentage
Level
Laboratory 12345
ababababab
1 11,11 10,34 10,91 9,81 13,74 13,48 13,79 13,00 15,89 15,26
2 11,12 9,94 11,38 10,31 14,00 13,12 13,44 13,06 15,69 15,10
3 11,26 10,46 10,95 10,51 13,38 12,70 13,54 13,18 15,83 15,73
4 11,07 10,41 11,66 9,95 13,01 13,16 13,58 12,88 15,08 15,63
5 10,69 10,31 10,98 10,13 13,24 13,33 13,32 12,59 15,02 14,90
6 11,73 11,01 12,31 10,92 14,01 13,66 14,04 13,64 16,43 15,94
7 11,13 10,36 11,38 10,44 12,94 12,44 13,63 13,06 15,75 15,56
8 11,21 10,51 11,32 10,84 13,09 13,76 13,85 13,49 15,98 15,89
9 11,80 11,21 11,35 9,88 13,85 14,46 13,96 13,77 16,51 15,72
Level
Laboratory 6789 10
ababababab
1 20,14 19,78 20,33 20,06 46,45 44,42 52,05 49,40 65,84 59,14
2 19,25 20,25 20,36 19,94 46,69 44,62 51,94 48,81 66,31 59,19
3 20,48 19,86 20,56 20,11 46,90 44,56 52,18 48,90 66,06 58,52
4 21,54 20,06 20,64 20,46 47,13 45,29 51,73 48,56 65,93 58,93
5 19,90 19,66 20,56 19,24 45,83 43,73 50,84 47,91 64,19 57,94
6 20,31 20,27 20,85 20,63 46,86 43,96 52,18 49,03 65,73 58,77
7 20,00 20,56 20,25 20,19 46,25 44,31 52,25 49,44 66,06 59,19
8 20,43 20,69 20,85 20,27 47,11 44,40 52,44 48,81 65,66 59,38
9 20,64 21,01 20,78 20,89 47,09 45,15 52,19 48,46 66,33 59,47
Level
Laboratory 11 12 13 14
abababab
1 84,16 80,86 85,38 81,71 87,64 88,23 90,24 82,10
2 84,50 81,06 85,56 82,44 88,81 88,38 89,88 81,44
3 82,26 79,43 85,26 82,15 88,58 88,12 89,48 81,67
4 84,39 80,08 85,20 81,76 88,47 87,98 90,04 80,73
5 81,71 79,01 83,58 79,74 86,43 86,19 88,59 80,46
6 82,85 81,16 84,44 80,90 87,78 86,89 89,40 80,88
7 86,25 81,00 84,88 81,44 88,06 88,00 89,31 81,38
8 84,59 81,16 84,96 81,71 88,50 87,98 89,94 81,56
9 83,05 80,93 84,73 81,94 88,24 88,05 89,75 81,35
©
Table 5 — Example 1: Cell differences Table 6 — Example 1: Cell averages
for Level 14 for Level 14
Laboratory Cell h Laboratory Cell h
difference statistic difference statistic
% %
1 8,14 1 86,170 1,576
- 0,459
2 8,44 0,229 2 85,660 0,451
3 7,81 3 85,575 0,263
- 1,215
4 9,31 2,224 4 85,385
- 0,156
5 8,13 5 84,525
- 0,482 - 2,052
6 8,52 0,413 6 85,140
- 0,696
7 7,93 7 85,345
- 0,940 - 0,244
8 8,38 0,092 8 85,750 0,649
9 8,40 0,138 9 85,550 0,208
Table 7 — Example 1: Values of averages, average differences, and standard deviations calculated
from the data for all 14 levels in table 4
Level Number of General Average
Standard deviations
laboratories average difference
jp y % D % s % s % s % s %
j j yj Dj rj Rj
1 9 10,87 0,73 0,35 0,21 0,15 0,36
2 9 10,84 1,05 0,36 0,43 0,30 0,42
3 9 13,41 0,13 0,44 0,55 0,39 0,52
4 9 13,43 0,50 0,30 0,21 0,15 0,32
5 9 15,66 0,27 0,39 0,40 0,29 0,44
6 9 20,27 0,06 0,40 0,73 0,52 0,54
7 9 20,39 0,38 0,30 0,41 0,29 0,37
8 9 45,60 2,21 0,44 0,37 0,26 0,47
9 9 50,40 3,16 0,44 0,35 0,25 0,47
10 9 62,37 6,84 0,53 0,40 0,28 0,57
11 9 82,14 3,23 1,01 1,08 0,77 1,15
12 9 83,17 3,45 0,74 0,46 0,33 0,77
13 9 87,91 0,30 0,69 0,41 0,29 0,72
14 9 85,46 8,34 0,45 0,44 0,31 0,50
©
ISO ISO 5725-5:1998(E)
Table 8 — Example 1: Values of Grubbs' statistics
Grubbs' statistics for differences
Level One smallest Two smallest Two largest One largest
1 1,653 0,5081 0,3139 2,125
2 1,418 0,3945 0,4738 1,535
3 1,462 0,3628 0,5323 1,379
4 1,490 0,5841 0,4771 1,414
5 2,033 0,3485 0,6075 1,289
6 1,456 0,5490 0,3210 1,947
7 1,185 0,6820 0,1712 2,296* (5)
8 0,996 0,7571 0,1418* (6; 8) 1,876
9 1,458 0,5002 0,3092 1,602
10 1,474 0,3360 0,4578 1,737
11 1,422 0,5089 0,2943 1,865
12 1,418 0,6009 0,2899 1,956
13 2,172 0,2325 0,6326 1,444
14 1,215 0,6220 0,2362 2,224* (4)
Grubbs' statistics for cell averages
Level One smallest Two smallest Two largest One largest
1 1,070 0,6607 0,1291* (6; 9) 1,832
2 1,318 0,6288 0,2118 2,165
3 1,621 0,4771 0,4077 1,680
4 1,591 0,5339 0,3807 1,429
5 1,794 0,4018 0,5009 1,333
6 1,291 0,4947 0,4095 1,386
7 1,599 0,5036 0,4391 1,470
8 1,872 0,3753 0,4536 1,404
9 2,328* (5) 0,1317* (4; 5) 0,7417 1,025
10 2,456** (5) - - 1,000
11 1,756 0,2469 0,5759 1,472
12 2,037 0,1063* (5; 6) 0,7116 1,130
13 2,308* (5) 0,0733** (5; 6) 0,7777 0,994
14 2,052 0,2781 0,5486 1,576
NOTE — Numbers in brackets indicate the laboratories that give rise to the stragglers or outliers.
The critical values of the Grubbs' test statistics for 9 laboratories, whether applied to the differences or the cell averages, are as follows.
Straggler Outlier
(*) (**)
Grubbs' test for a single outlier 2,215 2,387
Grubbs' test for a pair of outliers 0,149 2 0,085 1
©
Figure 1 — Example 1: Data obtained at Level 14
(grouped by laboratory)
Figure 2 — Example 1: Consistency check on cell differences
©
ISO ISO 5725-5:1998(E)
Figure 3 — Example 1: Consistency check on cell averages (grouped by laboratory)
5 A design for a heterogeneous material
5.1 Applications of the design for a heterogeneous material
5.1.1 An example of a heterogeneous material is leather; no two hides are the same, and the properties of leather
[3]
vary substantially within a hide. A common test that is applied to leather is a tensile strength test in BS 3144 . This
is performed on dumbell-shaped specimens (BS 3144 specifies the number of such specimens to cut from a hide,
and also their position and orientation within the hide, so the natural definition of a “sample” to use when testing
leather is a complete hide). If a precision experiment is performed using the uniform level design described in
ISO 5725-2, in which each laboratory is sent one hide at each level of the experiment, and two test results are
obtained on each hide, variation between hides will add to the between-laboratory variation, and so increase the
reproducibility standard deviation. However, if each laboratory is sent two hides at each level, and two test results
are obtained on each hide, the data can be used to estimate the variation between hides and to calculate a value for
the reproducibility standard deviation of the test method from which the variation between-hides has been removed.
5.1.2 Another example of a heterogeneous material is sand (that might be used, for example, for making
concrete). This is laid down, by the action of wind or water, in strata that always contain graduations in particle size,
so when sand is used the particle size distribution is always of interest. In concrete technology the particle size
[1]
distribution of sand is measured by sieve testing (e.g. BS 812-103 ). To test a sand, a bulk sample is taken from
the product, then one or more test portions are produced from the bulk sample. Typically, the bulk sample will be
about 10 kg in mass, and the test portions will be about 200 g. Because of the natural variability of the material,
there will always be some variability between bulk samples of the same product. Hence, as with leather, if a uniform
level experiment is performed in which each laboratory is sent one bulk sample at each level, the variability between
the bulk samples will increase the calculated reproducibility standard deviation of the test method, but if laboratories
are sent two bulk samples at each level, then values for the reproducibility standard deviation can be calculated that
exclude this variation.
5.1.3 The above examples also highlight another characteristic of heterogeneous materials: because of the
variability of the material, the specimen or test portion preparation can be an important source of variation. Thus
with leather, the process of cutting specimens from a hide can have a large influence on the measured tensile
©
strength, and with sieve tests on sand the process of preparing test portions from bulk samples is usually the major
source of variability in the test method. If specimens or test portions are prepared for a precision experiment in a
way that does not correspond to normal practice (in an attempt to produce identical “samples”) then the values of
repeatability and reproducibility standard deviations produced by the experiment will not be representative of the
variability experienced in practice. There are situations in which it can be desirable to produce identical “samples”
by some special process designed to eliminate, as far as possible, the variability of the material (for example, for a
proficiency test, or when a precision experiment is used as part of a programme of work during the development of
a measurement method). However, when the aim of the precision experiment is to discover the variability that will
be experienced in practice (for example, when vendors and purchasers test samples of the same product) then it is
necessary for the variability arising as a consequence of the heterogeneity of the material to be included in the
measures of the precision of the measurement method.
Care should also be taken to ensure that each test result in an experiment is obtained by carrying out the test
procedure independently of other tests. This will not be so if some stages of the specimen preparation are shared
by several specimens, so that a bias or deviation introduced by the preparation will have a common influence on the
test results derived from these specimens.
5.1.4 The design for heterogeneous materials proposed in this clause yields information about the variability
between samples that is not obtainable from the uniform level design described in ISO 5725-2. There is, inevitably,
a cost associated with obtaining extra information: the proposed design requires more samples to be tested. This
extra information may be valuable. In the leather example discussed in 5.1.1, information about the variability
between hides could be used to decide how many hides to test when assessing the quality of a consignment, or to
decide between testing more hides with fewer specimens per hide or fewer hides with more specimens per hide. In
the sand example discussed in 5.1.2, information about the variability between bulk samples could be used to
decide if the procedure for taking bulk samples is satisfactory or in need of improvement.
The design described in this clause is applicable to experiments involving three factors arranged in a
5.1.5
hierarchy: with a factor “laboratories” at the highest level in the hierarchy, a factor “samples within laboratories” as
the next level in the hierarchy, and a factor “test results within samples” as the lowest level of the hierarchy. Another
case that can be encountered in practice is of a three-factor hierarchy with “laboratories” at the highest level, “test
results within laboratories” as the next level, and “determinations within test results” as the lowest level. This would
arise if the participating laboratories in a precision experiment were each sent a single sample of a homogeneous
material, were asked to carry out two (or perhaps more) tests per sample, and if each test involved a number of
determinations and the test result is calculated as the average of the determinations. The formulae given in 5.5, 5.6
and 5.9 may be applied to data obtained in such an experiment, but the repeatability and reproducibility standard
deviations have to be calculated in a slightly different manner to that given here (see NOTE 2 to 5.5.5). It is also
necessary to specify the number of determinations that are to be averaged to give a test result, because this affects
the values of the repeatability and reproducibility standard deviations.
5.2 Layout of the design for a heterogeneous material
5.2.1 The layout of the design for a heterogeneous material is shown in table 9.
The p participating laboratories are each provided with two samples at q levels, and obtain two test results on each
sample. Thus each cell in the experiment contains four test results (two test results for each of two samples).
It is possible to generalize this simple design, by allowing for more than two samples per laboratory per level, or for
more than two test results per sample. The calculations required by the more general design are much more
complicated than those required by the case with two test results per sample and two samples per laboratory per
level. However, the principles of the more general design are the same as for the simple design, so the calculations
will be set out in detail here for the simple design. Formulae for calculating values for the repeatability and
reproducibility standard deviations for the general design are given below in 5.9, and an example of their application
in 5.10.
5.2.2 The data from the design for a heterogeneous material are represented by:
y
ijtk
©
ISO ISO 5725-5:1998(E)
where
subscript i represents the laboratory (i = 1, 2, ., p¢);
subscript j represents the level ( j = 1, 2, ., q);
subscript t represents the sample (t = 1, 2, ., g);
subscript k represents the test result (k = 1, 2, ., n).
Usually, g = 2 and n = 2. In the more general design, g or n or both are greater than two.
NOTE — In ISO 5725-1 and ISO 5725-2, p is used both as the number of laboratories, and as an index in tables of critical
values for Cochran’s test: with the uniform-level experiment the two numbers are the same. With the design for a
heterogeneous material, the index for Cochran’s test can be a multiple of the number of laboratories, so is used here for the
p¢
number of laboratories, and p for the index for Cochran’s t
...
NORME ISO
INTERNATIONALE 5725-5
Première édition
1998-07-15
Exactitude (justesse et fidélité) des
résultats et méthodes de mesure —
Partie 5:
Méthodes alternatives pour la détermination
de la fidélité d'une méthode de mesure
normalisée
Accuracy (trueness and precision) of measurement methods and results —
Part 5: Alternative methods for the determination of the precision of a
standard measurement method
A
Numéro de référence
Page
Sommaire
1 Domaine d'application . 1
2 Références normatives . 1
3 Définitions . 2
4 Plan à niveau fractionné . 2
4.1 Applications du plan à niveau fractionné . 2
4.2 Disposition du plan à niveau fractionné . 2
4.3 Organisation d'une expérience à niveau fractionné . 3
4.4 Modèle statistique . 4
4.5 Analyse statistique des données d'une expérience à niveau fractionné . 4
4.6 Examen des données en ce qui concerne la cohérence et les valeurs aberrantes . 7
4.7 Report des résultats d'une expérience à niveau fractionné . 7
4.8 Exemple 1: Une expérience à niveau fractionné — Détermination de protéine . 8
5 Plan pour un matériau hétérogène . 13
5.1 Les applications du plan pour un matériau hétérogène . 13
5.2 Établissement du plan pour un matériau hétérogène . 14
5.3 Organisation d'une expérience avec un matériau hétérogène . 15
5.4 Modèle statistique pour une expérience avec un matériau hétérogène . 16
5.5 Analyse statistique des données provenant d'une expérience avec un matériau hétérogène . 17
5.6 Examen des données pour la cohérence et les valeurs aberrantes . 20
5.7 Expression des résultats d'une expérience sur un matériau hétérogène . 21
5.8 Exemple 2: Une expérience sur un matériau hétérogène . 21
5.9 Formules générales pour les calculs avec le plan pour un matériau hétérogène . 29
5.10 Exemple 3: Une application des formules générales . 30
6 Méthodes robustes pour l'analyse des données . 33
6.1 Les applications des méthodes robustes d'analyse des données . 33
6.2 Analyse robuste: Algorithme A . 35
6.3 Analyse robuste: Algorithme S . 36
6.4 Formules: Analyse robuste pour un niveau particulier d'un plan à niveau uniforme . 38
6.5 Exemple 4: Analyse robuste pour un niveau particulier d'un plan à niveau uniforme . 39
6.6 Formules: Analyse robuste pour un niveau particulier d'un plan à niveau fractionné . 42
6.7 Exemple 5: Analyse robuste pour un niveau particulier d'un plan à niveau fractionné . 42
6.8 Formules: Analyse robuste pour un niveau particulier d'une expérience sur un matériau
hétérogène . 45
6.9 Exemple 6: Analyse robuste pour un niveau particulier d'une expérience sur un matériau
hétérogène . 46
Annexes
A (normative) Symboles et abréviations utilisés dans l'ISO 5725 . 50
B (informative) Calcul des facteurs utilisés dans les algorithmes A et S . 53
C (informative) Calcul des équations utilisées dans l'analyse robuste . 56
D (informative) Bibliographie . 57
© ISO 1998
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous quelque
forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l'accord écrit de l'éditeur.
Organisation internationale de normalisation
Case postale 56 • CH-1211 Genève 20 • Suisse
Internet iso@iso.ch
Imprimé en Suisse
ii
©
ISO ISO 5725-5:1998(F)
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux de
normalisation (comité membres de l'ISO). L'élaboration des Normes internationales est en général confiée aux
comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du comité
technique créé à cet effet. Les organisations internationales, gouvernementales et non gouvernementales, en
liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec la Commission
électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les projets de Normes internationales adoptés par les comités techniques sont soumis aux comités membres pour
vote. Leur publication comme Normes internationales requiert l'approbation de 75 % au moins des comités
membres votants.
La Norme internationale ISO 5725-5 a été élaborée par le comité technique ISO/TC 69, Application des méthodes
statistiques, sous-comité SC 6, Méthodes et résultats de mesure.
L'ISO 5725 comprend les parties suivantes, présentées sous le titre général Exactitude (justesse et fidélité) des
résultats et méthodes de mesure:
— Partie 1: Principes généraux et définitions
— Partie 2: Méthode de base pour la détermination de la répétabilité et de la reproductibilité d'une méthode de
mesure normalisée
— Partie 3: Méthodes intermédiaires de la fidélité d'une méthode de mesure normalisée
— Partie 4: Méthodes de base pour la détermination de la justesse d'une méthode de mesure normalisée
— Partie 5: Méthodes alternatives pour la détermination de la fidélité d'une méthode de mesure normalisée
— Partie 6: Utilisation dans la pratique des valeurs d'exactitude
L'ISO 5725 parties 1 à 6 annule et remplace l'ISO 5725, 2ème édition 1986-09-05, qui a été étendue pour traiter de
la justesse (en supplément de la fidélité) et des conditions intermédiaires de fidélité (en supplément des conditions
de répétabilité et de reproductibilité).
L'annexe A fait partie intégrante de la présente partie de l'ISO 5725. Les annexes B, C et D sont données
uniquement à titre d'information.
iii
©
Introduction
0.1 La présente partie de l'ISO 5725 utilise deux termes, justesse et fidélité pour décrire l'exactitude d'une
méthode de mesure. La justesse se réfère à l'étroitesse de l'accord entre la valeur moyenne d'un grand nombre de
résultats d'essai et la valeur de référence vraie ou acceptée. La fidélité se réfère à l'étroitesse de l'accord entre les
résultats d'essai.
0.2 Les considérations générales sur ces grandeurs sont données dans l'ISO 5725-1 et ne sont donc pas
répétées ici. Il convient de lire la présente partie de l'ISO 5725 conjointement avec l'ISO 5725-1, puisque les
définitions sous-jacentes et les principes généraux y sont donnés.
0.3 L'ISO 5725-2 concerne l'estimation, au moyen d'essais interlaboratoires, de mesures normalisées de la
fidélité, à savoir les écarts-types de répétabilité et de reproductibilité. Elle donne une méthode de base pour le faire,
en utilisant le plan à niveau uniforme. La présente partie de l'ISO 5725 décrit des méthodes alternatives à cette
méthode de base.
a) Avec la méthode de base, il y a un risque qu'un opérateur puisse laisser le résultat d'une mesure sur un
échantillon influencer celui d'une mesure ultérieure sur un autre échantillon du même matériau, entraînant un
biais sur les estimations des écarts-types de répétabilité et de reproductibilité. Quand ce risque est considéré
comme sérieux, le plan à niveau fractionné décrit dans la présente partie de l'ISO 5725 peut être préféré, car il
réduit ce risque.
b) La méthode de base requiert la préparation d'un certain nombre d'échantillons identiques du matériau, destinés
à être utilisés dans l'expérience. Avec des matériaux hétérogènes, cela peut ne pas être possible, et l'utilisation
de la méthode de base donne alors des estimations de l'écart-type de reproductibilité augmentées par la
variation entre échantillons. Le plan pour un matériau hétérogène donné dans la présente partie de l'ISO 5725
fournit une information sur la variabilité entre échantillons qu'on ne peut obtenir par la méthode de base, et qui
peut être utilisée pour calculer une estimation de la reproductibilité d'où est éliminée la variation entre
échantillons.
c) La méthode de base requiert d'utiliser des tests pour valeurs aberrantes afin d'identifier les données qui doivent
être exclues des calculs des écarts-types de répétabilité et de reproductibilité. L'exclusion des valeurs
aberrantes peut parfois avoir un effet important sur les estimations des écarts-types de répétabilité et de
reproductibilité, mais dans la pratique, en appliquant les tests pour valeurs aberrantes, l'analyste des données
peut avoir à exercer son jugement pour décider quelles données il doit exclure. La présente partie de
l'ISO 5725 décrit des méthodes robustes d'analyse des données permettant de calculer les écarts-types de
répétabilité et de reproductibilité à partir de données contenant des valeurs aberrantes sans utiliser de tests
pour valeurs aberrantes afin d'exclure des données, de sorte que les résultats ne sont plus affectés par le
jugement de l'analyste des données.
iv
©
NORME INTERNATIONALE ISO ISO 5725-5:1998(F)
Exactitude (justesse et fidélité) des résultats et méthodes
de mesure —
Partie 5:
Méthodes alternatives pour la détermination de la fidélité d'une
méthode de mesure normalisée
1 Domaine d'application
La présente partie de l'ISO 5725
— fournit une description détaillée d'alternatives à la méthode de base pour déterminer les écarts-types de
répétabilité et de reproductibilité d'une méthode de mesure normalisée, à savoir le plan à niveau fractionné et
un plan pour les matériaux hétérogènes;
— décrit l'utilisation des méthodes robustes pour analyser les résultats d'expériences de fidélité sans recourir à
des tests de valeurs aberrantes pour exclure des données des calculs, et en particulier, l'utilisation détaillée
d'une de ces méthodes.
La présente partie de l'ISO 5725 complète l'ISO 5725-2 en fournissant des plans alternatifs qui peuvent être plus
valables dans certaines situations que le plan de base donné dans l'ISO 5725-2, et en fournissant une méthode
robuste d'analyse qui donne des estimations des écarts-types de répétabilité et de reproductibilité moins
dépendants du jugement de l'analyste des données que celles qui sont données par les méthodes décrites dans
l'ISO 5725-2.
2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite, constituent des
dispositions valables pour la présente partie de l'ISO 5725. Au moment de la publication, les éditions indiquées
étaient en vigueur. Toute norme est sujette à révision et les parties prenantes des accords fondés sur la présente
partie de l'ISO 5725 sont invitées à rechercher la possibilité d'appliquer les éditions les plus récentes des normes
indiquées ci-après. Les membres de la CEI et de l'ISO possèdent le registre des Normes internationales en vigueur
à un moment donné.
ISO 3534-1:1993, Statistique — Vocabulaire et symboles — Partie 1: Probabilité et termes statistiques généraux.
ISO 3534-3:1985, Statistique — Vocabulaire et symboles — Partie 3: Plans d'expérience.
ISO 5725-1:1994, Exactitude (justesse et fidélité) des méthodes et résultats de mesure — Partie 1: Principes
généraux et définitions.
ISO 5725-2:1994, Exactitude (justesse et fidélité) des méthodes et résultats de mesure — Partie 2: Méthode de
base pour la détermination de la répétabilité et de la reproductibilité d'une méthode de mesure normalisée.
©
3 Définitions
Pour les besoins de la présente partie de l'ISO 5725, les définitions données dans l'ISO 3534-1 et dans
l'ISO 5725-1 s'appliquent.
Les symboles utilisés dans l'ISO 5725 sont donnés dans l'annexe A.
4 Plan à niveau fractionné
4.1 Applications du plan à niveau fractionné
4.1.1 Le plan à niveau uniforme décrit dans l'ISO 5725-2 exige que deux échantillons identiques d'un matériau, ou
davantage, soient essayés par chaque laboratoire participant et à chaque niveau de l'expérience. Avec ce plan il y
a un risque qu'un opérateur puisse laisser le résultat d'une mesure sur un échantillon influencer le résultat d'une
mesure ultérieure sur un autre échantillon du même matériau. Si cela se produit, les résultats de l'expérience de
fidélité seront faussés — les estimations de l'écart-type de répétabilité s diminueront et celles de l'écart-type
r
interlaboratoires s augmenteront. Dans le plan à niveau fractionné, chaque laboratoire participant reçoit un
L
échantillon de chacun de deux matériaux similaires à chaque niveau de l'expérience, et on dit aux opérateurs que
les échantillons ne sont pas identiques, sans leur dire de combien ils diffèrent. Le plan à niveau fractionné fournit
ainsi une méthode de détermination des écarts-types de répétabilité et de reproductibilité d'une méthode de mesure
normalisée d'une façon qui réduit le risque qu'un résultat d'essai obtenu sur un échantillon influence celui obtenu
sur un autre échantillon dans l'expérience.
4.1.2 Les données obtenues à un niveau de l'expérience à niveau fractionné peuvent être utilisées pour établir un
graphique dans lequel les données obtenues pour un matériau sont représentées en fonction des données pour
l'autre matériau, similaire. Un exemple est donné à la figure 1. De tels graphiques peuvent aider à identifier ceux
des laboratoires qui ont le plus grand biais par rapport aux autres laboratoires. Cela est utile quand il est possible
de rechercher les causes des plus grands biais de laboratoire, dans le but de décider une action corrective.
4.1.3 Il est habituel que les écarts-types de répétabilité et de reproductibilité d'une méthode d'essai dépendent du
niveau du matériau. Par exemple, quand le résultat d'essai est la proportion d'un élément, obtenue par analyse
chimique, les écarts-types de répétabilité et de reproductibilité augmentent généralement quand augmente la
proportion de l'élément. Il est nécessaire, pour une expérience à niveau fractionné, que les deux matériaux
similaires utilisés à un niveau de l'expérience soient si semblables qu'on peut s'attendre à ce qu'ils donnent les
mêmes écarts-types de répétabilité et de reproductibilité. Pour les buts du plan à niveau fractionné, on accepte que
les deux matériaux utilisés pour un niveau d'expérience donnent presque le même niveau de résultats de mesure,
et rien ne peut être gagné en s'arrangeant pour qu'ils diffèrent de façon substantielle.
Dans de nombreuses méthodes d'analyse chimique, la matrice contenant le constituant considéré peut influencer la
fidélité, de sorte que pour une expérience à niveau fractionné, il faut deux matériaux avec des matrices similaires à
chaque niveau de l'expérience. On peut parfois préparer un matériau suffisamment similaire en allongeant un
matériau par une petite adjonction du constituant considéré. Quand le matériau est un produit naturel ou
manufacturé, il peut être difficile de trouver deux produits suffisamment similaires pour les buts d'une expérience à
niveau fractionné: une solution possible peut être d'utiliser deux lots du même produit. Il faut se rappeler que
l'objectif du choix des matériaux pour le plan à niveau fractionné est de donner aux opérateurs des échantillons
qu'ils ne s'attendent pas à trouver identiques.
4.2 Disposition du plan à niveau fractionné
4.2.1 La disposition du plan à niveau fractionné est indiquée dans le tableau 1.
Les p laboratoires participants essaient chacun deux échantillons à q niveaux.
Les deux échantillons à un niveau donné sont notés a et b, où a représente un échantillon d'un matériau, et b
représente un échantillon de l'autre matériau, similaire.
©
ISO ISO 5725-5:1998(F)
4.2.2 Les données d'une expérience à niveau fractionné sont représentées par:
y
ijk
où
l'indice i représente le laboratoire (i = 1, 2, ., p);
l'indice j représente le niveau (j = 1, 2, ., q);
l'indice k représente l'échantillon (k = a ou b).
4.3 Organisation d'une expérience à niveau fractionné
4.3.1 Pour planifier une expérience à niveau fractionné, suivre les indications données à l'article 6 de
l'ISO 5725-1:1994.
Le paragraphe 6.3 de l'ISO 5725-1:1994 contient un certain nombre de formules (impliquant une quantité notée
généralement A) qui sont utilisées pour aider à décider combien de laboratoires inclure dans l'expérience. Les
formules correspondantes pour le plan à niveau fractionné sont indiquées ci-dessous.
NOTE — Ces formules ont été établies par la méthode décrite dans la NOTE 24 de l'ISO 5725-1:1994.
Pour évaluer les incertitudes des estimations des écarts-types de répétabilité et de reproductibilité, calculer les
quantités suivantes.
Pour la répétabilité
Ap=−19, 6 1 2()1 (1)
[]
r
Pour la reproductibilité
2 4
Ap=+19, 6 1 2gg− 1+ 1 8 − 1 (2)
()
()
R []
[]
avec g = s /s .
R r
Si le nombre n de répétitions est égal à 2 dans les équations (9) et (10) de l'ISO 5725-1:1994, on peut alors voir que
les équations (9) et (10) de l'ISO 5725-1:1994 sont les mêmes que les équations (1) et (2) ci-dessus, sauf que
parfois p - 1 apparaît ici à la place de p dans l'ISO 5725-1:1994. Ce n'est qu'une petite différence, de sorte que le
tableau 1 et les figures B.1 et B.2 de l'ISO 5725-1:1994 peuvent être utilisés pour évaluer l'incertitude des
estimations des écarts-types de répétabilité et de reproductibilité dans une expérience à niveau fractionné.
Pour évaluer l'incertitude de l'estimation du biais de la méthode de mesure dans une expérience à niveau
fractionné, calculer la quantité A définie dans l'équation (13) de l'ISO 5725-1:1994 avec n = 2 (ou utiliser le tableau 2
de l'ISO 5725-1:1994) et utiliser cette quantité comme décrit dans l'ISO 5725-1.
Pour évaluer l'incertitude de l'estimation du biais d'un laboratoire dans une expérience à niveau fractionné, calculer
la quantité A définie par l'équation (16) de l'ISO 5725-1:1994 avec n = 2. Comme le nombre de répétitions dans
w
une expérience à niveau fractionnée est, en fait, ce nombre de 2, il n'est pas possible de réduire l'incertitude de
l'estimation du biais de laboratoire en augmentant le nombre de répétitions. (S'il est nécessaire de réduire cette
incertitude, il faut utiliser à la place le plan à niveau uniforme.)
4.3.2 Suivre les indications données aux articles 5 et 6 de l'ISO 5725-2:1994 en ce qui concerne les détails de
l'organisation d'une expérience à niveau fractionné. Le nombre de répétitions, n dans l'ISO 5725-2:1994, peut être
pris égal au nombre de niveaux fractionnés dans un plan à niveau fractionné, c'est-à-dire 2.
©
Les échantillons a doivent être affectés aux participants au hasard, et les échantillons b doivent également, dans
une opération séparée, être affectés aux participants au hasard.
Il est nécessaire dans une expérience à niveau fractionné que l'expert statisticien soit capable de dire, quand on lui
apporte les données, quel résultat a été obtenu sur un matériau a et de même pour un matériau b à chaque niveau
de l'expérience. Étiqueter les échantillons pour que ce soit possible. Prendre soin de ne pas divulguer ces
informations aux participants.
4.4 Modèle statistique
4.4.1 Le modèle de base utilisé dans la présente partie de l'ISO 5725 est donné par l'équation (1) de l'article 5 de
l'ISO 5725-1:1994. Il y est précisé que pour estimer l'exactitude (justesse et fidélité) d'une méthode de mesure, il
est utile de supposer que tout résultat de mesure est la somme de trois composants:
ym=+B+e (3)
ijk j ij ijk
où, pour le matériau particulier essayé,
m représente la moyenne générale (espérance mathématique) à un niveau donné j = 1, ., q;
j
B représente la composante de laboratoire du biais sous des conditions de répétabilité dans un laboratoire
ij
donné i = 1, ., p à un niveau donné j = 1, ., q;
e représente l'erreur aléatoire du résultat de l'essai k = 1, ., n, obtenu dans le laboratoire i au niveau j, sous
ijk
des conditions de répétabilité.
4.4.2 Pour une expérience à niveau fractionné, ce modèle devient:
y = m + B + e (4)
ijk jk ij ijk
Cela diffère de l'équation (3) en 4.4.1 sur le seul point suivant: l'indice k dans m implique que conformément à
jk
l'équation (4) la moyenne générale peut maintenant dépendre du matériau a ou b (k = 1 ou 2) à l'intérieur du niveau j.
L'absence d'indice k dans B implique qu'on suppose que le biais associé à un laboratoire i ne dépend pas du
ij
matériau a ou b à l'intérieur d'un niveau. C'est pourquoi il est important que les deux matériaux soient similaires.
4.4.3 Définir les moyennes de cellules par:
y = (y + y ) / 2 (5)
ij ija ijb
et les différences de cellules par:
D = y - y (6)
ij ija ijb
4.4.4 La moyenne générale pour un niveau j d'une expérience à niveau fractionné peut être définie par:
m = (m + m ) / 2 (7)
j ja jb
4.5 Analyse statistique des données d'une expérience à niveau fractionné
4.5.1 Arranger les données en un tableau comme présenté dans le tableau 1. Chaque combinaison d'un
laboratoire et d'un niveau donne une «cellule» dans ce tableau, contenant deux unités de données, y et y .
ija ijb
©
ISO ISO 5725-5:1998(F)
Calculer les différences de cellules D et les introduire dans un tableau comme présenté dans le tableau 2. La
ij
méthode d'analyse exige que chaque différence soit calculée dans le même sens
a - b
et qu'on tienne compte du signe de la différence.
Calculer les moyennes de cellules y et les introduire dans un tableau comme présenté dans le tableau 3.
ij
4.5.2 Si une cellule du tableau 1 ne contient pas deux résultats d'essai (par exemple, parce qu'on a gaspillé des
échantillons, ou que des données ont été écartées à la suite de tests de valeurs aberrantes décrits plus loin), les
cellules correspondantes des tableaux 2 et 3 doivent rester vides.
Pour chaque niveau de l'expérience, calculer la moyenne et l'écart-type des différences de la colonne
4.5.3 j D s
j Dj
j du tableau 2:
DD= p (8)
jij
∑
s = DD−−p1 (9)
()
()
Dj ij j
∑
Ici, S représente la sommation sur les laboratoires i = 1, 2, ., p.
S'il y a des cellules vides dans le tableau 2, p est alors le nombre de cellules de la colonne j du tableau 2 qui
contiennent des données et la sommation est représentée avec des cellules non vides.
Pour chaque niveau de l'expérience, calculer la moyenne et l'écart-type des moyennes de la colonne
4.5.4 j y s j
j yj
du tableau 3, avec:
yy= p (10)
jij
∑
sy=−y p−1 (11)
()
()
yj∑ ij j
Ici, S représente la sommation sur les laboratoires i = 1, 2, ., p.
S'il y a des cellules vides dans le tableau 3, p est alors le nombre de cellules de la colonne j du tableau 3 contenant
des données et la sommation est représentée avec des cellules non vides.
4.5.5 Utiliser les tableaux 2 et 3 et les statistiques calculées en 4.5.3 et 4.5.4 pour examiner les données en ce qui
concerne la cohérence et les valeurs aberrantes, comme décrit en 4.6. Si des données sont rejetées, recalculer les
statistiques.
4.5.6 Calculer les écarts-types de répétabilité s et de reproductibilité s par:
rj Rj
= 2 (12)
ss
rj Dj
2 2 2
ss=+s 2 (13)
Rj yj rj
4.5.7 Examiner si s et s dépendent de la moyenne y , et si c'est le cas, déterminer les relations fonctionnelles en
rj Rj j
utilisant les méthodes données au paragraphe 7.5 de l'ISO 5725-2:1994.
©
Tableau 1 — Format recommandé pour la présentation des données pour le plan à niveau fractionné
Niveau
12 jq
Laboratoire
abab ab ab
i
p
Tableau 2 — Format recommandé pour la présentation des différences de cellules pour le plan
à niveau fractionné
Niveau
Laboratoire 12 jq
i
p
Tableau 3 — Format recommandé pour la présentation des moyennes des cellules pour le plan
à niveau fractionné
Niveau
Laboratoire 12 jq
i
p
©
ISO ISO 5725-5:1998(F)
4.6 Examen des données en ce qui concerne la cohérence et les valeurs aberrantes
4.6.1 Examiner les données pour la cohérence en utilisant les statistiques h décrites au paragraphe 7.3.1 de
l'ISO 5725-2:1994.
Pour vérifier la cohérence des différences de cellules, calculer les statistiques h comme suit:
hD=−D s (14)
ij()ij j Dj
Pour vérifier la cohérence des moyennes de cellules, calculer les statistiques h comme suit:
hy=−y s (15)
()
ij ij jyj
Pour révéler des laboratoires incohérents, établir un graphique des deux ensembles de ces statistiques en les
plaçant dans l'ordre des niveaux, mais groupées par laboratoire, comme indiqué sur les figures 2 et 3.
L'interprétation de ces graphiques est présentée en détail au paragraphe 7.3.1 de l'ISO 5725-2:1994. Si un
laboratoire présente une répétabilité généralement moins bonne que les autres, cela se révélera en montrant un
nombre inhabituellement grand de statistiques h dans le graphique concernant les différences de cellules. Si un
laboratoire parvient à des résultats généralement biaisés, cela se révélera par des statistiques h principalement
dans une direction sur le graphique concernant les moyennes de cellules. Dans les deux cas, le laboratoire doit être
invité à faire des recherches et à présenter les résultats à l'organisateur de l'expérience.
4.6.2 Examiner les données pour les valeurs douteuses et aberrantes en utilisant le test de Grubbs, décrit au
paragraphe 7.3.4 de l'ISO 5725-2:1994.
Pour tester les valeurs douteuses et aberrantes dans les différences de cellules, appliquer le test de Grubbs aux
valeurs de chaque colonne du tableau 2 à tour de rôle.
Pour tester les valeurs douteuses et aberrantes dans les moyennes de cellules, appliquer le test de Grubbs aux
valeurs de chaque colonne du tableau 3 à tour de rôle.
L'interprétation de ces tests est exposée en détail au paragraphe 7.3.2 de l'ISO 5725-2:1994. Ils sont utilisés pour
identifier des résultats qui sont si incohérents avec le reste des données présentées dans l'expérience que leur
inclusion dans le calcul des écarts-types de répétabilité et de reproductibilité affecterait de façon substantielle les
valeurs de ces statistiques. Habituellement, les données révélées aberrantes sont exclues des calculs, et les
données révélées douteuses sont incluses, à moins qu'il n'y ait une bonne raison de procéder autrement. Si les
tests montrent qu'une valeur dans l'un des tableaux 2 ou 3 doit être exclue du calcul des écarts-types de répétabilité
et de reproductibilité, alors la valeur correspondante dans l'autre tableau doit être aussi exclue des calculs.
4.7 Report des résultats d'une expérience à niveau fractionné
4.7.1 Au paragraphe 7.7 de l'ISO 5725-2:1994, des conseils sont donnés sur
— le report au panel des résultats de l'analyse statistique;
— les décisions à prendre par le panel; et
— la préparation d'un rapport complet.
4.7.2 Des recommandations sur la forme à donner à une publication des écarts-types de répétabilité et de
reproductibilité d'une méthode de mesure normalisée sont données au paragraphe 7.1 de l'ISO 5725-1:1994.
©
4.8 Exemple 1: Une expérience à niveau fractionné — Détermination de protéine
Le tableau 4 contient les données provenant d'une expérience [5] qui a impliqué la détermination de protéine
4.8.1
dans des fourrages par combustion. Il y avait neuf laboratoires participants et l'expérience comportait 14 niveaux.
Dans chaque niveau, deux fourrages étaient utilisés, ayant des niveaux similaires de protéine.
4.8.2 Les tableaux 5 et 6 montrent les moyennes et différences de cellules, calculées comme indiqué au
paragraphe 4.5.1, uniquement pour le niveau 14 (j = 14) de l'expérience.
Utilisant les équations (8) et (9) en 4.5.3, les différences du tableau 5 donnent:
D = 8,34 %
s = 0,436 1 %
D14
et en appliquant les équations (10) et (11) en 4.5.4 aux moyennes du tableau 6, on obtient:
y = 85,46 %
s = 0,453 4 %
y14
de sorte que les écarts-types de répétabilité et de reproductibilité sont, en utilisant les équations (12) et (13)
en 4.5.6:
s = 0,31 %
r14
s = 0,50 %
R14
Le tableau 7 donne les résultats des calculs pour les autres niveaux.
4.8.3 La figure 1 montre les résultats pour les échantillons a provenant du tableau 4 en fonction des résultats
correspondants pour les échantillons b, pour le niveau 14 dans un «graphique de Youden». Le laboratoire n° 5
donne un point en bas et à gauche du graphique, et le laboratoire n° 1 donne un point en haut et à droite: ceci
indique que les données du laboratoire n° 5 ont un biais négatif notable sur les échantillons a et b, et que les
données du laboratoire n° 1 ont un biais positif notable sur les deux échantillons. Il est courant de trouver cette
sorte de configuration quand on représente les données provenant d'un plan à niveau fractionné, comme dans la
figure 1. La figure indique également que les résultats du laboratoire n° 4 sont inhabituels puisque le point pour ce
laboratoire est éloigné de la ligne centrale pour les deux échantillons. Les autres laboratoires forment un groupe au
milieu du graphique. Cette figure fournit donc une raison pour rechercher les causes de biais des trois laboratoires.
NOTE — Pour de plus amples informations sur l'interprétation de «graphiques de Youden», voir les références [7] et [8].
4.8.4 Les valeurs des statistiques h, calculées comme décrit en 4.6.1, sont présentées dans les tableaux 5 et 6,
pour le seul niveau 14. Les valeurs pour tous les niveaux sont représentées dans les figures 2 et 3.
Dans la figure 3, les statistiques h pour les moyennes de cellules montrent que le laboratoire 5 a donné des
statistiques h négatives pour tous les niveaux, indiquant un biais négatif notable dans ses données. Dans la même
figure, les laboratoires 8 et 9 ont donné des statistiques h presque toutes positives, indiquant des biais positifs
notables dans leurs données (mais plus petits que le biais négatif du laboratoire 5). Également, les statistiques
h
pour les laboratoires 1, 2 et 6 indiquent un biais qui change avec le niveau pour chacun de ces laboratoires. De
telles interactions entre les laboratoires et les niveaux peuvent fournir des indications quant aux causes des biais de
laboratoires.
La figure 2 ne révèle aucune configuration digne d'être notée.
4.8.5 Les valeurs des statistiques de Grubbs sont données dans le tableau 8. Ces tests indiquent à nouveau que
les données du laboratoire 5 sont suspectes.
©
ISO ISO 5725-5:1998(F)
4.8.6 À ce point de l'analyse, l'expert statisticien doit entreprendre une recherche au laboratoire 5 sur les causes
possibles des données suspectes, avant de continuer l'analyse des données. Si la cause ne peut être identifiée,
c'est ici un cas où il faut exclure toutes les données du laboratoire 5 des calculs des écarts-types de répétabilité et
de reproductibilité. L'analyse doit alors continuer avec l'examen de possibles relations fonctionnelles entre les
écarts-types de répétabilité et de reproductibilité et la moyenne générale. Cela ne soulève pas de problèmes qui
n'aient pas déjà été traités dans l'ISO 5725-2, aussi on n'en parlera pas ici.
Tableau 4 — Exemple 1: Détermination de la quantité de protéine dans les fourrages,
exprimée en pourcentage
Niveau
Laboratoire 12345
ababababab
1 11,11 10,34 10,91 9,81 13,74 13,48 13,79 13,00 15,89 15,26
2 11,12 9,94 11,38 10,31 14,00 13,12 13,44 13,06 15,69 15,10
3 11,26 10,46 10,95 10,51 13,38 12,70 13,54 13,18 15,83 15,73
4 11,07 10,41 11,66 9,95 13,01 13,16 13,58 12,88 15,08 15,63
5 10,69 10,31 10,98 10,13 13,24 13,33 13,32 12,59 15,02 14,90
6 11,73 11,01 12,31 10,92 14,01 13,66 14,04 13,64 16,43 15,94
7 11,13 10,36 11,38 10,44 12,94 12,44 13,63 13,06 15,75 15,56
8 11,21 10,51 11,32 10,84 13,09 13,76 13,85 13,49 15,98 15,89
9 11,80 11,21 11,35 9,88 13,85 14,46 13,96 13,77 16,51 15,72
Niveau
6789 10
Laboratoire
ababababab
1 20,14 19,78 20,33 20,06 46,45 44,42 52,05 49,40 65,84 59,14
2 19,25 20,25 20,36 19,94 46,69 44,62 51,94 48,81 66,31 59,19
3 20,48 19,86 20,56 20,11 46,90 44,56 52,18 48,90 66,06 58,52
4 21,54 20,06 20,64 20,46 47,13 45,29 51,73 48,56 65,93 58,93
5 19,90 19,66 20,56 19,24 45,83 43,73 50,84 47,91 64,19 57,94
6 20,31 20,27 20,85 20,63 46,86 43,96 52,18 49,03 65,73 58,77
7 20,00 20,56 20,25 20,19 46,25 44,31 52,25 49,44 66,06 59,19
8 20,43 20,69 20,85 20,27 47,11 44,40 52,44 48,81 65,66 59,38
9 20,64 21,01 20,78 20,89 47,09 45,15 52,19 48,46 66,33 59,47
Niveau
Laboratoire 11 12 13 14
abababab
1 84,16 80,86 85,38 81,71 87,64 88,23 90,24 82,10
2 84,50 81,06 85,56 82,44 88,81 88,38 89,88 81,44
3 82,26 79,43 85,26 82,15 88,58 88,12 89,48 81,67
4 84,39 80,08 85,20 81,76 88,47 87,98 90,04 80,73
5 81,71 79,01 83,58 79,74 86,43 86,19 88,59 80,46
6 82,85 81,16 84,44 80,90 87,78 86,89 89,40 80,88
7 86,25 81,00 84,88 81,44 88,06 88,00 89,31 81,38
8 84,59 81,16 84,96 81,71 88,50 87,98 89,94 81,56
9 83,05 80,93 84,73 81,94 88,24 88,05 89,75 81,35
©
Tableau 5 — Exemple 1: Différences de cellules Tableau 6 — Exemple 1: Moyennes de cellules
pour le niveau 14 pour le niveau 14
Laboratoire Différence de Statistique h Laboratoire Moyenne de Statistique h
cellule cellules
% %
1 8,14 1 86,170 1,576
- 0,459
2 8,44 0,229 2 85,660 0,451
3 7,81 3 85,575 0,263
- 1,215
4 9,31 2,224 4 85,385
- 0,156
5 8,13 5 84,525
- 0,482 - 2,052
6 8,52 0,413 6 85,140
- 0,696
7 7,93 7 85,345
- 0,940 - 0,244
8 8,38 0,092 8 85,750 0,649
9 8,40 0,138 9 85,550 0,208
Tableau 7 — Exemple 1: Valeurs des moyennes, différences de moyennes et écarts-types calculés
à partir des données pour les 14 niveaux du tableau 4
Niveau Nombre de Moyenne Différence
Écarts-types
laboratoires générale moyenne
jp y % D % s % s % s % s %
j j yj Dj rj Rj
1 9 10,87 0,73 0,35 0,21 0,15 0,36
2 9 10,84 1,05 0,36 0,43 0,30 0,42
3 9 13,41 0,13 0,44 0,55 0,39 0,52
4 9 13,43 0,50 0,30 0,21 0,15 0,32
5 9 15,66 0,27 0,39 0,40 0,29 0,44
6 9 20,27 0,06 0,40 0,73 0,52 0,54
7 9 20,39 0,38 0,30 0,41 0,29 0,37
8 9 45,60 2,21 0,44 0,37 0,26 0,47
9 9 50,40 3,16 0,44 0,35 0,25 0,47
10 9 62,37 6,84 0,53 0,40 0,28 0,57
11 9 82,14 3,23 1,01 1,08 0,77 1,15
12 9 83,17 3,45 0,74 0,46 0,33 0,77
13 9 87,91 0,30 0,69 0,41 0,29 0,72
14 9 85,46 8,34 0,45 0,44 0,31 0,50
©
ISO ISO 5725-5:1998(F)
Tableau 8 — Exemple 1: Valeurs des statistiques de Grubbs
Statistiques de Grubbs pour les différences
Niveau La plus petite Les deux plus petites Les deux plus grandes La plus grande
1 1,653 0,508 1 0,313 9 2,125
2 1,418 0,394 5 0,473 8 1,535
3 1,462 0,362 8 0,532 3 1,379
4 1,490 0,584 1 0,477 1 1,414
5 2,033 0,348 5 0,607 5 1,289
6 1,456 0,549 0 0,321 0 1,947
7 1,185 0,682 0 0,171 2 2,296* (5)
8 0,996 0,757 1 0,141 8* (6; 8) 1,876
9 1,458 0,500 2 0,309 2 1,602
10 1,474 0,336 0 0,457 8 1,737
11 1,422 0,508 9 0,294 3 1,865
12 1,418 0,600 9 0,289 9 1,956
13 2,172 0,232 5 0,632 6 1,444
14 1,215 0,622 0 0,236 2 2,224* (4)
Statistiques de Grubbs pour les moyennes de cellules
Niveau La plus petite Les deux plus petites Les deux plus grandes La plus grande
1 1,070 0,660 7 0,129 1* (6; 9) 1,832
2 1,318 0,628 8 0,211 8 2,165
3 1,621 0,477 1 0,407 7 1,680
4 1,591 0,533 9 0,380 7 1,429
5 1,794 0,401 8 0,500 9 1,333
6 1,291 0,494 7 0,409 5 1,386
7 1,599 0,503 6 0,439 1 1,470
8 1,872 0,375 3 0,453 6 1,404
9 2,328* (5) 0,131 7* (4; 5) 0,741 7 1,025
10 2,456** (5) — — 1,000
11 1,756 0,246 9 0,575 9 1,472
12 2,037 0,106 3* (5; 6) 0,711 6 1,130
13 2,308* (5) 0,073 3** (5; 6) 0,777 7 0,994
14 2,052 0,278 1 0,548 6 1,576
NOTE — Les nombres entre parenthèses indiquent les laboratoires qui ont des valeurs douteuses ou aberrantes.
Les valeurs critiques des statistiques du test de Grubbs pour 9 laboratoires, appliquées aux différences ou aux moyennes de cellules, sont
comme suit.
Valeur douteuse Valeur aberrante
(*) (**)
Test de Grubbs pour une seule valeur aberrante 2,215 2,387
Test de Grubbs pour une paire de valeurs aberrantes 0,149 2 0,085 1
©
Figure 1 — Exemple 1: Données obtenues au niveau 14
Figure 2 — Exemple 1: Vérification de la cohérence pour les différences de cellules
(groupées par laboratoire)
©
ISO ISO 5725-5:1998(F)
Figure 3 — Exemple 1: Vérification de la cohérence pour les moyennes de cellules
(groupées par laboratoire)
5 Plan pour un matériau hétérogène
5.1 Applications du plan pour un matériau hétérogène
5.1.1 Un exemple d'un matériau hétérogène est le cuir: deux peaux ne sont jamais les mêmes et les propriétés du
cuir varient notablement au sein d'une même peau. Un essai courant qui est appliqué au cuir est l'essai de
[3]
résistance à la traction dans la BS 3144 . Il est appliqué à des spécimens en forme d'haltères (la BS 3144 spécifie
le nombre de tels spécimens à prélever sur une peau, ainsi que leur position et orientation dans la peau, de sorte
que la définition naturelle d'un «échantillon» à utiliser quand on essaie le cuir est une peau entière). Si on pratique
une expérience de fidélité en utilisant le plan à niveau uniforme décrit dans l'ISO 5725-2 dans lequel chaque
laboratoire reçoit une peau à chaque niveau de l'expérience et où on obtient deux résultats d'essai sur chaque
peau, la variation entre peaux s'ajoutera à la variation entre laboratoires, et augmentera ainsi l'écart-type de
reproductibilité. Cependant, si chaque laboratoire reçoit deux peaux à chaque niveau, et qu'on obtient deux
résultats sur chaque peau, les données peuvent être utilisées pour estimer la variation entre peaux et pour calculer
une valeur pour l'écart-type de reproductibilité de la méthode d'essai dont a été retirée la variation entre peaux.
5.1.2 Un autre exemple d'un matériau hétérogène est le sable (pouvant être utilisé, par exemple, pour fabriquer du
béton). Celui-ci se dispose, par l'action du vent ou de l'eau, en strates qui contiennent toujours des variations dans
la taille des grains, de sorte que lorsque le sable est utilisé, la distribution des tailles des grains est toujours
importante à considérer. En technologie du béton, la distribution des tailles de grains de sable est mesurée par
[1]
essai de tamisage (par exemple BS 812-103 ). Pour pratiquer l'essai sur un sable, on prélève un échantillon
primaire dans le produit, puis on prélève dans l'échantillon primaire une ou plusieurs portion(s) d'essai.
Typiquement, l'échantillon primaire sera d'environ 10 kg en masse, et les portions d'essai d'environ 200 g. En raison
de la variabilité naturelle du matériau, il y aura toujours quelque variabilité entre échantillons primaires du même
produit. Comme avec le cuir, par conséquent, si on pratique une expérience à niveau uniforme dans laquelle
chaque laboratoire reçoit un échantillon primaire à chaque niveau, la variabilité entre échantillons primaires
augmentera l'écart-type calculé de reproductibilité de la méthode d'essai, mais si les laboratoires reçoivent deux
échantillons primaires à chaque niveau, alors les valeurs de l'écart-type de reproductibilité pourront être calculées
en excluant cette variation.
©
5.1.3 Les exemples ci-dessus mettent aussi en lumière une autre caractéristique des matériaux hétérogènes: en
raison de la variabilité du matériau, la préparation du spécimen ou de la portion d'essai peut être une source
importante de variation. Ainsi, avec le cuir, le processus de prélèvement des spécimens dans une peau peut avoir
une grande influence sur la valeur mesurée de résistance à la traction, et avec les essais de tamisage sur le sable,
le processus de préparation des portions d'essai à partir des échantillons primaires est généralement la principale
source de variabilité de la méthode d'essai. Si les spécimens ou portions d'essai sont préparés pour une expérience
de fidélité d'une façon qui ne correspond pas à la pratique normale (dans l'effort de produire des échantillons
«identiques»), alors les valeurs des écarts-types de répétabilité et de reproductibilité produits par l'expérience ne
seront pas représentatives de la variabilité expérimentée en pratique. Il y a des situations où il peut être souhaitable
de produire des échantillons «identiques» par un certain processus spécial prévu pour éliminer, autant que
possible, la variabilité du matériau (par exemple, pour un essai d'aptitude, ou lorsqu'une expérience de fidélité est
utilisée comme partie d'un programme de travail pendant la mise au point d'une méthode de mesure). Cependant,
quand l'objectif de l'expérience de fidélité est de découvrir la variabilité qui sera rencontrée dans la pratique (par
exemple, quand des fournisseurs et des clients essaient des échantillons du même produit), il est alors nécessaire
que la variabilité venant comme conséquence de l'hétérogénéité du matériau soit incluse dans les mesures de la
fidélité de la méthode de mesure.
Des précautions doivent être également prises pour s'assurer que chaque résultat d'essai dans une expérience est
obtenu en réalisant le mode opératoire indépendamment des autres essais. Ceci ne sera pas nécessaire si certains
stades de préparation des spécimens sont partagés par plusieurs spécimens, de sorte qu'un biais ou une variation
introduit par la préparation ait une faible influence sur les résultats d'essais qui proviennent de ces spécimens.
5.1.4 Le plan pour matériaux hétérogènes proposé dans cette section fournit une information sur la variabilité
entre échantillons qu'on ne peut obtenir avec le plan à niveau uniforme décrit dans l'ISO 5725-2. Il y a,
inévitablement, un coût associé à l'obtention d'information supplémentaire: le plan proposé nécessite plus
d'échantillons à essayer. Cette information supplémentaire peut être de valeur. Dans l'exemple du cuir présenté en
5.1.1, l'information sur la variabilité entre peaux pourrait être utilisée pour décider combien de peaux essayer quand
on évalue la qualité d'une livraison, ou pour décider entre essayer plus de peaux avec moins de spécimens par
peau ou moins de peaux avec plus de spécimens par peau. Dans l'exemple du sable présenté en 5.1.2,
l'information sur la va
...












Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...