Petroleum and related products — Precision of measurement methods and results — Part 5: Statistical assessment of agreement between two different measurement methods that claim to measure the same property

This document specifies statistical methodology for assessing the expected agreement between two test methods that purport to measure the same property of a material, and for deciding if a simple linear bias correction can further improve the expected agreement. This document is applicable for analytical methods which measure quantitative properties of petroleum or petroleum products resulting from a multi-sample-multi-lab study (MSMLS). These types of studies include but are not limited to interlaboratory studies (ILS) meeting the requirements of ISO 4259-1 or equivalent, and proficiency testing programmes (PTP) meeting the requirements of ISO 4259-3 or equivalent. The methodology specified in this document establishes the limiting value for the difference between two results where each result is obtained by a different operator using different apparatus and two methods X and Y, respectively, on identical material. One of the methods (X or Y) has been appropriately bias-corrected to agree with the other in accordance with this practice. This limit is designated as the between-methods reproducibility. This value is expected to be exceeded with a probability of 5 % under the correct and normal operation of both test methods due to random variation. NOTE Further conditions for application of this methodology are given in 5.1 and 5.2.

Produits pétroliers et connexes — Fidélité des méthodes de mesure et de leurs résultats — Partie 5: Évaluation statistique de l'accord entre deux méthodes de mesure différentes qui prétendent mesurer la même propriété

Le présent document spécifie une méthodologie statistique permettant d'évaluer l'accord attendu entre deux méthodes d'essai qui prétendent mesurer la même propriété d'un matériau et de déterminer si une simple correction de biais linéaire peut encore améliorer l'accord attendu. Le présent document est applicable à des méthodes d'analyse qui mesurent des propriétés quantitatives du pétrole ou des produits connexes résultant d'une étude multi-échantillon et multi-laboratoire (MSMLS). Ces types d'études comprennent les essais interlaboratoires (ILS) conformes aux exigences de l'ISO 4259-1, ou équivalent, et les programmes d'essais d'aptitude (PTP) conformes aux exigences de l'ISO 4259-3, ou équivalent, sans toutefois s'y limiter. La méthodologie spécifiée dans le présent document établit la valeur limite de la différence entre deux résultats, lorsque chaque résultat est obtenu par un opérateur différent utilisant un appareil différent et appliquant les deux méthodes X et Y, respectivement, sur un matériau identique. L'une des méthodes (X ou Y) a fait l'objet d'une correction de biais appropriée pour être en accord avec l'autre méthode conformément à ce mode opératoire. Cette limite est désignée comme la reproductibilité inter-méthodes. Il est attendu, avec une probabilité de 5 %, que cette valeur soit dépassée dans les conditions normales et correctes d'application de ces deux méthodes en raison de la variation aléatoire. NOTE Les conditions supplémentaires pour l'application de cette méthodologie sont données en 5.1 et 5.2.

General Information

Status
Published
Publication Date
19-Dec-2023
Current Stage
6060 - International Standard published
Start Date
20-Dec-2023
Due Date
22-Jun-2023
Completion Date
20-Dec-2023
Ref Project

Relations

Standard
ISO 4259-5:2023 - Petroleum and related products — Precision of measurement methods and results — Part 5: Statistical assessment of agreement between two different measurement methods that claim to measure the same property Released:20. 12. 2023
English language
48 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 4259-5:2023 - Produits pétroliers et connexes — Fidélité des méthodes de mesure et de leurs résultats — Partie 5: Évaluation statistique de l'accord entre deux méthodes de mesure différentes qui prétendent mesurer la même propriété Released:20. 12. 2023
French language
50 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


INTERNATIONAL ISO
STANDARD 4259-5
First edition
2023-12
Petroleum and related products —
Precision of measurement methods
and results —
Part 5:
Statistical assessment of agreement
between two different measurement
methods that claim to measure the
same property
Produits pétroliers et connexes — Fidélité des méthodes de mesure et
de leurs résultats —
Partie 5: Évaluation statistique de l'accord entre deux méthodes de
mesure différentes qui prétendent mesurer la même propriété
Reference number
© ISO 2023
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Symbols . 3
5 Procedure overview .4
5.1 General requirements . 4
5.2 Additional requirements for PTP data . 5
5.2.1 General conditions . 5
5.2.2 Test on existence of extreme samples . 5
5.2.3 Test on distribution of lab results . 6
5.2.4 Comparison of precision . 7
5.3 Brief sequential steps of the procedure . 7
5.4 Flow diagram of the procedure . 9
6 Procedure .11
6.1 Sample mean and standard error . 11
6.1.1 General . 11
6.1.2 Computation of the means . 11
6.1.3 Calculation of standard errors . 11
6.2 Suitability of the data .12
6.2.1 Test on property variation .12
6.2.2 Correlation of the test methods .12
6.3 Bias correction selection statistics . 13
6.3.1 General .13
6.3.2 Class 0—No bias correction . 13
6.3.3 Class 1a—Constant bias correction . 13
6.3.4 Class 1b — Proportional bias correction . 14
6.3.5 Class 2 — Proportional and constant bias correction . 14
6.4 Selection of the appropriate bias correction class . 15
6.5 Confirming the normal distribution of weighted residuals . 16
6.6 Sample-specific biases . 17
7 Report .19
8 Confirmation of the correlation.19
Annex A (informative) Worked example using ILS data .21
Annex B (informative) Worked example using PTP data .33
Bibliography .48
iii
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO document should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).
ISO draws attention to the possibility that the implementation of this document may involve the use
of (a) patent(s). ISO takes no position concerning the evidence, validity or applicability of any claimed
patent rights in respect thereof. As of the date of publication of this document, ISO had not received
notice of (a) patent(s) which may be required to implement this document. However, implementers are
cautioned that this may not represent the latest information, which may be obtained from the patent
database available at www.iso.org/patents. ISO shall not be held responsible for identifying any or all
such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to
the World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see
www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 28, Petroleum and related products, fuels
and lubricants from natural or synthetic sources, in collaboration with the European Committee for
Standardization (CEN) Technical Committee CEN/TC 19, Gaseous and liquid fuels, lubricants and related
products of petroleum, synthetic and biological origin, in accordance with the Agreement on technical
cooperation between ISO and CEN (Vienna Agreement).
A list of all parts in the ISO 4259 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.
iv
Introduction
This document explains the statistical methodology for assessing the expected agreement between
two standardized test methods that purport to measure the same property of a material. Subsequently,
it is investigated whether a linear bias correction can significantly improve the expected agreement.
The degree of agreement is expressed as a between-methods reproducibility after a bias correction (if
necessary) has been applied.
The method uses numerical results from a set of samples that have been analysed independently using
both test methods by different laboratories. The variation associated with each test method result is
used for assessing the required bias correction.
Annexes A and B give worked out examples showing how the methodology is applied.
v
INTERNATIONAL STANDARD ISO 4259-5:2023(E)
Petroleum and related products — Precision of
measurement methods and results —
Part 5:
Statistical assessment of agreement between two different
measurement methods that claim to measure the same
property
1 Scope
This document specifies statistical methodology for assessing the expected agreement between two
test methods that purport to measure the same property of a material, and for deciding if a simple
linear bias correction can further improve the expected agreement.
This document is applicable for analytical methods which measure quantitative properties of petroleum
or petroleum products resulting from a multi-sample-multi-lab study (MSMLS). These types of studies
include but are not limited to interlaboratory studies (ILS) meeting the requirements of ISO 4259-1
or equivalent, and proficiency testing programmes (PTP) meeting the requirements of ISO 4259-3 or
equivalent.
The methodology specified in this document establishes the limiting value for the difference between
two results where each result is obtained by a different operator using different apparatus and two
methods X and Y, respectively, on identical material. One of the methods (X or Y) has been appropriately
bias-corrected to agree with the other in accordance with this practice. This limit is designated as the
between-methods reproducibility. This value is expected to be exceeded with a probability of 5 % under
the correct and normal operation of both test methods due to random variation.
NOTE Further conditions for application of this methodology are given in 5.1 and 5.2.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content
constitutes requirements of this document. For dated references, only the edition cited applies. For
undated references, the latest edition of the referenced document (including any amendments) applies.
ISO 4259-1, Petroleum and related products — Precision of measurement methods and results — Part 1:
Determination of precision data in relation to methods of test
ISO 4259-3, Petroleum and related products — Precision of measurement methods and results — Part 3:
Monitoring and verification of published precision data in relation to methods of test
ISO 4259-4, Petroleum and related products — Precision of measurement methods and results — Part 4:
Use of statistical control charts to validate 'in-statistical-control' status for the execution of a standard test
method in a single laboratory
3 Terms and definitions
For the purposes of this document, the terms and definitions in ISO 4259-1 and the following terms and
definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
multi-sample-multi-lab study
MSMLS
study in which one or more performance characteristics are determined on the basis of analytical
results from multiple samples and multiple laboratories
Note 1 to entry: Under certain conditions, inter laboratory studies and proficiency testing schemes meet this
definition of multi-sample-multi-lab study.
3.2
interlaboratory study
ILS
study specifically designed to estimate the repeatability and reproducibility of a standard test method
achieved at a fixed point in time by multiple laboratories through the statistical analysis of their test
results obtained on aliquots prepared from multiple materials
3.3
proficiency testing programme
PTP
programme designed for the periodic evaluation testing capability of participating laboratories of a
standard test method through the statistical analysis of their test results obtained on aliquots prepared
from a single batch of homogeneous material
Note 1 to entry: PTP is sometimes referred to as a proficiency testing (PT)-study or an interlaboratory cross
check programme (ILCP).
3.4
between-methods bias correction
quantitative expression of the mathematical correction, when applied to the outcome of either one of two
methods claiming to measure the same property, can result in a statistically significant improvement
between the expected values of the two test methods claiming to measure the same property
3.5
correlation coefficient
ρ
statistical measure of the strength and direction of the relationship between two variables
Note 1 to entry: Values always range between −1 (strong negative relationship) and +1 (strong positive
relationship). Values at or close to zero imply a weak or nonlinear relationship.
3.6
standard error
Δ
E
statistic estimating the standard deviation of the distribution of the average statistic obtained from the
repeat random sampling of a population
3.7
sample standard deviation
s
i
estimator of the population standard deviation using the sample mean and sample size
Note 1 to entry: Sample standard deviation is also referred to as standard deviation of the sample.
3.8
between-methods reproducibility
R
XY
quantitative expression for the computation of the limiting value that the difference between two single
results is expected to exceed with a probability of 5 % due to random variation, under the correct and
normal operation of both test methods, where each result is obtained by different operators on an
identical test sample using different apparatus and applying the two methods X and Y, respectively;
when the methods have been assessed and an appropriate between-methods bias correction has been
applied to the result from either method (X or Y) in accordance with this practice
3.9
sum of squared residuals
Σ
SR
statistic used to quantify the degree of agreement between the results from two test methods after
between-methods bias-correction (3.4) using the methodology of this practice
Note 1 to entry: Σ is used as an optimality criterion in parameter selection and bias-correction model selection.
SR
3.10
total sum of squares
Σ
ST
statistic used to quantify the information content from the interlaboratory study (3.2) in terms of total
variation of sample means relative to the standard error (3.6) of each sample mean
3.11
resolution
smallest difference in two results that is represented by a different value
4 Symbols
Symbol Explanation
X, Y reference to the X- and Y-methods, respectively
th th th
Single k result on the i common material by the j lab using X-method and Y-method,
X , Y
ijk ijk
respectively
th
X , Y arithmetic mean of the i sample using X-method and Y-method, respectively
i i
weighted average across the samples used in the calculation of total sum of squares Σ and
ST,X̅
XY,
Σ for the X-method and Y-method, respectively
ST,Y̅
weighted average across the samples used in the calculation of the correlation coefficient ρ
 
XY,
for the X-method and Y-method
th
Δ , Δ absolute deviation of the weighted means of the i sample results from X̅ and Y̅ , respectively
xi yi
predicted Y-method value for a sample by applying the bias correction established from this
Ŷ
practice to an actual X-method result for the same sample
th
predicted i sample Y-method mean, by applying the bias correction established from this
Ŷ
i
practice to its corresponding X-method mean
S number of samples in the multi-lab-multi-sample data set
th
number of laboratories that returned results on the i sample using the X-method and
L , L
Xi Yi
Y-method, respectively
th th
n , n number of repeated results on the i sample of j lab using the X- and Y-methods, respectively
Xij Yij
R , R reproducibility of the X- and Y-methods, respectively
X Y
th
R , R reproducibility of the X- and Y-methods, evaluated at the method X and Y means of the i sample
Xi Yi
R between-methods reproducibility
XY
th
reproducibility standard deviation, evaluated at the i sample using method X and Y, re-
s , s
R,Xi R,Yi
spectively
th
s , s repeatability standard deviation, evaluated at the i sample using method X and Y, respectively
r,Xi r,Yi
Symbol Explanation
weighted residual of Y-method mean values predicted from the corresponding X-method
ε
i th
mean values, Ŷ and mean of Y-method results, Y on the i sample
i i
th
Δ , , Δ standard error of the means of the i sample
E Xi E,Yi
weighted sum of squared residuals of the mean results of Y-method and the bias-corrected
Σ
SR,p
mean results of the X-method for a given model p where p = 0, 1a, 1b or 2 over all samples i
Σ , Σ total sum of squares, around the weighted averages X̅ and Y̅ over all samples i
ST,X̅ ST,Y̅
F test statistic for comparing variances, defined by the quotient of two variances
t student t-value at a specified confidence level and specified degrees of freedom
k class number of selected bias correction class
ν , ν degrees of freedom for reproducibility variances
X Y
th
w weight associated with the difference between (corrected) mean results from the i sample
i
a, b parameter of the bias correction: Ŷ = a + bX
h leverage of sample i in the set of samples
i
Z natural logarithm of the sample mean, averaged over both methods for sample i
i
overall average of natural logarithm Z of all samples
Z
i
t , t ratio for assessing reductions in sums of squares
1 2
standardized difference between Y and Ŷ sometimes referred to as error
ε
i i,
i
parameters of the quadratic function used for the iterative calculation of the proportional
A, B, C
coefficient b for class 1b and class 2 correction class
D difference statistic for confirmation of the correlation
22*
Anderson-Darling test statistic and modified test statistic, respectively
AA,
ii
ρ correlation coefficient
5 Procedure overview
5.1 General requirements
The procedures are intended to be executed by an analyst with sufficient working knowledge of the
statistical tools and theories described in the document.
The statistical methodology is based on the premise that a bias correction is not required. In the
absence of statistical evidence that a bias correction would improve the expected agreement between
the two methods, a bias correction is not made.
If a bias correction is required, then the parsimony principle is followed whereby a simple correction
is favoured over a more complex one if the latter does not yield a statistically observable improvement
over the former. Failure to adhere to this generally results in a model that is over-fitted and does not
perform well in practice.
NOTE 1 The parsimony principle is that the most acceptable explanation of an occurrence, phenomenon, or
event is the simplest, involving the fewest entities, assumptions.
The bias corrections of this practice are limited to a constant correction, proportional correction or a
linear (proportional + constant) correction.
The bias-correction methods of this practice are method symmetric, in the sense that equivalent
corrections are obtained regardless of which method is bias-corrected to match the other.
The methodology described in this document is applicable only if the standard error associated with
each mean test result is known or can be calculated and the degrees of freedom associated with all
standard errors are at least 30.
This methodology is applied to a data source derived from a MSMLS. The study shall be conducted on at
least 10 independent materials that span the intersecting scopes of the test methods. The results shall
be obtained from at least six (6) laboratories using each method.
The results are obtained on the same comparison set of samples and it is recommended that both test
methods are not performed by the same laboratory. If this is the case, care shall be taken to ensure
independence of test results, for example by double-blind testing of samples in random order.
This methodology shall not be used on the basis of interim or temporary published precision
statements. Interim or temporary statements of accuracy generally lack the magnitude of the amount
of data applied and, as a result, insufficient degrees of freedom are available.
Combining multiple data sources is permissible provided the quality requirements for the data set as
specified in this document are met.
The test methods used by each laboratory shall be under statistical control, meeting the requirements
in ISO 4259-4.
This methodology requires data with sufficient resolution to permit variation to be observable in a
statistically meaningful manner. Statistically meaningful variation implies that the total number
of unique values in a set of data, i.e. the lab results of each sample for each test method, should be
sufficiently large. If, in the opinion of the analyst, the number of individual values in the data set is
insufficient, the data shall be requested again from the relevant laboratories with sufficient resolution.
If the data are only available with insufficient resolution, this evaluation should not be continued.
In case the data for the procedure originates from an ILS, all requirements of ISO 4259-1 shall be met
and the additional requirements regarding proficiency testing programme (PTP) data do not apply.
NOTE 2 Leverage is a measure of how far away the independent variables of an observation are from those of
the other observations.
NOTE 3 Cook’s distance is an estimate of the influence of a data point. It is used within the context of the
reference to indicate influential data points that are particularly worth checking for validity.
5.2 Additional requirements for PTP data
5.2.1 General conditions
The statistical calculations are also applicable for this evaluation, provided the results and associated
statistics for the test method are obtained from a PTP, which shall meet the requirements of ISO 4259-3.
A characteristic of data derived from such a PTP is that for each sample, a single result is provided by
each laboratory for the test method.
The following requirements apply when using PTP data:
— the results shall be obtained from at least 10 laboratories using the test method and are equidistantly
distributed over the range;
— the leverage of each sample in the data set shall not exceed the limiting value of 0,5 (see 5.2.2);
— the Anderson-Darling statistics for the tests on normal distribution of lab results per sample ≤1,12
shall be used (see 5.2.3);
— the sample standard deviations shall not significantly exceed the published reproducibility standard
deviations for at least 80 % of the samples at the 0,05 significance level (see 5.2.4).
5.2.2 Test on existence of extreme samples
The leverage value h for each sample i in the data set is examined and may not exceed the limiting
i
value of 0,5. If a value for h of a sample exceeds this limiting value, this sample is characterized as
i
extreme. For each of the two methods, the average of the laboratory results is calculated per sample.
Subsequently, each laboratory average per sample is averaged over both test methods.
The leverage value h is defined by Formula (1):
i
ZZ−
()
i
h =+ (1)
i
S
S
()ZZ− ²
∑ k
k=1
where
h is the leverage of sample i, i = 1 … S,
i
S is the total number of samples,
Z is the natural logarithm (ln) of the sample mean, averaged over both methods,
i
Z̄ is the overall average of all Z .
i
If one or more samples are characterized as extreme, they shall be removed and the procedure should
be repeated. The minimum number of remaining samples shall be taken into account. If the minimum
requirement for a number of samples can no longer be met, the procedure shall be discontinued.
5.2.3 Test on distribution of lab results
The distribution of the lab results for each sample are tested for normality by confirming the goodness-
of-fit of the normal distribution using the Anderson-Darling statistic per sample.
NOTE 1 The Anderson-Darling test is a statistical test of whether a given sample of data are drawn from a
given probability distribution. Within the context of this document, this test is used as a test on normality, with
probability distribution parameters (mean and standard deviation) estimated from the sample. See Reference [7]
for further details.
NOTE 2 The critical value of 1,12 is based on a significance level of approximately 1 %, taking into account the
effects of rounding of the input data on the resolution.
2*
The test statistic A is calculated according to Formula (2):
i
 
07,,52 25
22*
AA=+1 + (2)
 
ii
 2 
N
N
i
 
i
where
N is the total number of lab results in the set,
i
N
A
−−N ()21iF− {}ln[]()xF+−ln[]1 ()x ,
i
iN−+i 1

N
i=1
F(x ) is the cumulative normal distribution function based on sample average and standard deviation,
i
x is the data sorted in increasing order, x ≤ x ≤ x … ≤ x .
i 1 2 3 N
2*
The distribution of the results is assumed to follow a normal distribution if the corresponding A
i
value ≤1,12.
If this test shows that the distribution of one or more samples does not meet the above criterion, this
sample shall be removed. The minimum number of samples for this procedure should be considered.
If the minimum requirement for a number of samples can no longer be met, the procedure shall be
discontinued.
Data with insufficient resolution due to rounding can overestimate the normality assessment statistics.
See 5.1 for resolution provisions.
5.2.4 Comparison of precision
The sample standard deviations s should not significantly exceed the published reproducibility
i
standard deviations s for at least 80 % of the samples at a significance level of 0,05 using a statistical
Ri
F-test for the comparison of two variances s and s .
i Ri
For any sample i where s is numerically larger than s , perform the following F-test specified in
i Ri
Formula (3):
s
i
F = (3)
s
Ri
where
s is the standard deviation of the sample i, calculated over the lab results,
i
s is the published reproducibility standard deviation evaluated at concentration level of the
Ri
average results for sample i.
The number of degrees of freedom associated with s equals N-1, where N equals the number of result
i
for sample i.
The number of degrees of freedom associated with s is preferably taken from the published precision
Ri
statement of the test method or underlying research report. If s is not given as such, it is permitted to
Ri
estimate s based on the published reproducibility R , according to s = R /(t√2), where t represents
Ri i Ri i
the student-t value at a confidence level of 0,05 and degrees of freedom associated with R .
i
If in this latter case the degrees of freedom for R is unknown, it may be estimated by the minimum
i
value of 30, and the published reproducibility standard deviation is estimated by s = (R /2,888).
Ri i
If the above criterion is not met for one or more samples, the failing samples shall be removed. The
minimum number of samples for this procedure should be considered. If the minimum requirement for
a number of samples can no longer be met, the procedure shall be discontinued.
5.3 Brief sequential steps of the procedure
The following compressed overview summarizes the steps of the procedure. See Figures 1 and 2 for a
flow diagram of these procedural steps.
1) Checking the adequacy of the available data
The available data are checked against the general requirements (see 5.1). If applicable, the
additional requirements when using PTP data (see 5.2, 5.2.1, 5.2.2, 5.2.3 and 5.2.4) are also checked.
2) Calculate the means and standard error of the samples
The arithmetic means of the results for each common sample obtained by each method are
calculated (see 6.1.2) and the estimates of the standard errors of these means are computed (see
6.1.3).
3) Test the suitability of the data
Test for sufficient variation in the properties of both methods by computing the weighted sums of
squared residuals for the total variation of the mean results across all common samples for each
method. These sums of squares are assessed against the standard errors of the mean results for
each method to ensure that the samples are sufficiently varied before continuing with the practice
(see 6.2.1).
Test for sufficient correlation between both methods by assessing the weighted sums of squared
residuals for the linear correction against the total variation in the mean results for both methods
to ensure that there is sufficient correlation between the two methods (see 6.2.2).
4) Calculate the bias correction statistics for each bias correction class
The closeness of agreement of the mean results by each method is evaluated using appropriate
weighted sums of squared residuals. Such sums of squares are computed from the data, first with no
bias correction, then with a constant bias correction, then, when appropriate, with a proportional
correction, and finally, with a linear (proportional + constant) correction (see 6.3).
5) Select the appropriate bias correction class
The most parsimonious bias correction is selected based on the weighted sum of squared residuals
from each bias correction and the appropriate t- and F-tests (see 6.4).
6) Test on distribution of residuals for normality
The (weighted) residuals per sample are tested for normality. The residuals are defined by the
difference between each individual Y and bias-corrected X . The test for normality is performed
i i
using the Anderson-Darling test for normality. When the weighted residuals are not found to be
normally distributed this practice is considered terminated (see 6.5).
7) Test for sample-specific biases
The weighted sum of squared residuals are assessed to determine whether additional unexplained
sources of variation remain in the residual data (see 6.6).
Any remaining, unexplained variation is attributed to sample-specific biases, also known as
method-material interactions or matrix effects. If sample-specific biases are found to be consistent
with a random-effects model, then their contribution to the between-methods reproducibility is
estimated, and accumulated into an all-encompassing between-methods reproducibility estimate.
8) Compute the between-methods reproducibility
Calculate the between-methods reproducibility taking into account possible sample specific biases.
When residuals are found to be normally distributed and sample-specific biases are not found to be
present, the between-methods reproducibility is defined by Formula (40).
When residuals are found to be normally distributed and sample-specific biases are present, the
between-methods reproducibility is defined by Formula (41).
9) Reporting
The results of this practice are reported in the precision and bias section of the appropriate
standard(s) (see Clause 7).
10) Confirmation of the correlation
The results of the assessment are periodically confirmed by users of the correlation by monitoring
the difference statistics by means of control charts (see Clause 8).
5.4 Flow diagram of the procedure
Figure 1 — Flowchart for suitability and applicability of the data
Figure 2 — Procedure for determining the bias correction
6 Procedure
6.1 Sample mean and standard error
6.1.1 General
Calculate sample means X and Y and standard errors from results from the MSMLS. Published precision
i i
estimates are used to estimate the standard errors of these means, Δ and Δ .
S,Xi S,Yi
th th
NOTE The i material is the same for both data sets, but the j lab in one data set is not generally the same
th
lab as the j lab in the other data set.
6.1.2 Computation of the means
th
The arithmetic mean X-method result for the i sample is shown in Formula (4):
X
∑ ijk
k
X = (4)
i ∑
j
L n
Xi X
ij
th
where X is the average of the cell averages on the i sample by method X.
i
th
Similarly, the mean Y-method result for the i sample is given by the analogous Formulae (5):
Y
∑ ijk
k
Y = (5)
i ∑
j
L n
Y Y
iij
6.1.3 Calculation of standard errors
The standard errors are assigned to the standard deviations of the means and are calculated as follows.
If s is the reproducibility standard deviation from the X-method, and s is the repeatability standard
R,Xi r,Xi
deviation, then an estimate of the standard error for X is given by Formula (6):
i
  
1 11
Δ =−ss 1− (6)
  
EX,,RXir,Xi ∑
i
 j 
L Ln
Xi  Xi Xij 
  
The estimated standard error for Y , is given by the analogous Formula (7):
i
  
1 11
Δ =−ss 1− (7)
  
EY,,RYir,Yi ∑
i  
j
L Ln
 
Yi Yi Yij
  
The repeatability standard deviations and reproducibility standard deviations are calculated from
published repeatability and published reproducibility by dividing these by t√2. Here, t refers to the
student t-value at a confidence level of 0,05 and the number of degrees of freedom as associated with
the precision figures.
In case the repeatability and reproducibility are known, but the number of degrees of freedom
associated with these precision figures are unknown, a value of 30 for number of degrees of freedom is
permitted.
Since repeatability and reproducibility may vary with the mean X-method results X , even if the L were
i Xi
the same for all materials and the n were the same for all laboratories and all materials, the Δ can
Xij E,Xi
still differ from one material to the next. The same is also true for method Y.
6.2 Suitability of the data
6.2.1 Test on property variation
Calculate the weighted total sum of squares for each method, and determine whether the samples can
be distinguished from each other by both methods. The total sums of squares are given by Formulae (8)
and (9):
 
XX−
i
Σ = (8)
 

ST ,X
i
Δ
 EX, i 
 
YY−
i
Σ = (9)
 

ST ,Y
i
Δ
EY, i
 
The weighted averages X and Y take into account their corresponding standard errors Δ and Δ
S,Xi S,Yi
and are defined by Formulae (10) and (11):
 
X
i
 

i 2
 
Δ
 EX, i 
X = (10)
 
 

i
 
Δ
EX, i
 
 
Y
i
 

i 
Δ
 EY, i 
Y = (11)
 
 

i 2
 
Δ
EY, i
 
Compare F = Σ /(S-1) to the 95th percentile of Fisher F-distribution with (S-1) and v degrees of
ST,X̅ x
freedom for the numerator and denominator, respectively, where v is the degrees of freedom for the
X
reproducibility variance for the X-method.
— If F does not exceed the 95th percentile, then the X-method is not sufficiently precise to distinguish
among the S samples. Do not proceed with this practice, as meaningful results cannot be produced.
— If F does exceed the 95th percentile, then the X-method is sufficiently precise to distinguish among
the S samples. Proceed with the test on correlation in 6.2.2.
In a similar manner, compare F = Σ /(S-1) to the 95th percentile of Fisher's F-distribution, using the
ST,Y̅
degrees of freedom of the reproducibility variance of the Y-method, v , in place of v . Similarly, do not
Y X
proceed with this practice if F does not exceed the 95th percentile.
6.2.2 Correlation of the test methods
To test whether both methods are sufficiently correlated the correlation coefficient, ρ, is calculated by
Formula (12):
 
wX −X YY− 
() ()
∑  ii i 
i
ρ = (12)
2 22
   
 
wX −X wY −Y
() ()
∑∑ii ii
   
i i
   
The weighted averages Ẍ and Ÿ are calculated by Formulae (13) and (14):
∑wX
ii

X= (13)
∑w
i
∑wY
ii

Y= (14)
∑w
i
Where the weights w are calculated by Formula (15):
i
w = (15)
i
ΔΔ+
EY,,iE Xi
Use the correlation coefficient ρ to calculate the F-statistic according to Formula (16):
()S −2 ρ
F = (16)
1−ρ
()
Compare F to the 99th percentile of Fisher's F-distribution with 1 and S-2 degrees of freedom in the
numerator and denominator, respectively.
— If F is less than the 99th percentile value, then, this practice concludes that the test methods are
too discordant to permit use of the results from one method to predict those of the other. Do not
proceed with this practice.
— If F is greater than the 99th percentile value, then it can be assumed that the two test methods are
sufficiently correlated to continue the procedure with the bias correction statistics in 6.3.
At this point in the procedure, it can be enlightening to graph the data with the mean X-method
data (X ) versus the mean Y-method data (Y ) of the samples.
i i
6.3 Bias correction selection statistics
6.3.1 General
Calculate the weighted sum of squared residuals for each of the following classes of bias-correction
methodology, as specified in 6.3.2 to 6.3.5.
6.3.2 Class 0—No bias correction
Compute the weighted sum of squared residuals of the mean results for the Class 0 bias correction,
Σ , according to Formula (17):
SR,0
Σ =−wX()Y (17)
SR,0 ∑ ii i
i
Where the weights w for each sample i is calculated by Formula (18):
i
w = (18)
i
ΔΔ+
EY,,iE Xi
6.3.3 Class 1a—Constant bias correction
Using the weight w from Class 0 correction from Formula (18), compute the constant bias correction a
i
according to Formula (19):
wY()−X
ii i

i
a= (19)
w
i

i
Compute the weighted sum of squared residuals of the means results for the Class 1a bias correction,
Σ , according to Formula (20):
SR,1a
Σ =−wY[]()Xa+ ² (20)
SR,1a ∑ ii i
i
6.3.4 Class 1b — Proportional bias correction
The computations of the proportional bias correction are appropriate only if both of the following
conditions apply:
a) the measured property assumes only positive values, and
b) a property value of zero has a physical significance (e.g. concentrations of specific constituents).
The computations involve iterative calculation of the weights w and the proportional correction b.
i
Set b = 1.
Compute the weight w for each sample i, as shown in Formula (21):
i
w = (21)
i
22 2
ΔΔ+b
EX,,iE Yi
Calculate the following three sums according to Formulae (22) to (24):
Aw= XY Δ (22)
∑ ii iE ,Xi
i
22 22 2
Bw=−XYΔΔ (23)
()
∑ ii EX,,ii EYi
i
Cw=− XY Δ (24)
∑ ii iE ,Yi
i
Calculate the interim proportional correction b according to Formula (25):
−+BB −4AC
b = (25)
2A
If |b – b | > 0,001·b, replace b with b and go back to Formula (21). Otherwise, the iteration can be
0 0
stopped, as further iteration will not produce meaningful improvement. Replace b with b and abort the
iteration.
Calculate the final weights w as in Formula (21).
i
Calculate the weighted sum of squared residuals of the mean results for the Class 1b bias correction,
Σ , according to Formula (26):
SR,1b
=−wY bX (26)
()
ΣSR ,1b i ii

i
6.3.5 Class 2 — Proportional and constant bias correction
This involves iterative calculation of the weights w , the weighted means X̅ and Y̅ , and the proportional
i
term b.
Set b = 1.
Compute the weight w for each sample i as shown in Formula (27):
i
w = (27)
i
22 2
Δ +b Δ
EX,,iE Yi
Calculate the weighted averages according to Formula (28):
wX wY
ii ii
∑ ∑
i i
X==,   Y (28)
w w
i i
∑ ∑
i i
Calculate the deviations from the weighted means as shown in Formula (29):
Δ =−XX ,  Δ =−YY (29)
xi iyii
Calculate the three sums A, B and C according to Formulae (30), (31) and (32):
Aw= ΔΔΔ (30)
∑ ixiyiE ,Xi
i
22 22 2
Bw=−ΔΔ Δ Δ (31)
()
∑ ixiE,,Yi yi EXi
i
Cw=− ΔΔ Δ (32)
∑ ixiyiE,Yi
i
Calculate the interim proportional correction b according to Formula (33):
−+BB²−4AC
b = (33)
2A
If |b – b | > 0,001·b, replace b with b and go back to Formula (27), computing new values for the weights
0 0
w , X , aY=- bX , x , y , and b . Otherwise, the iteration can be stopped,
...


NORME ISO
INTERNATIONALE 4259-5
Première édition
2023-12
Produits pétroliers et connexes —
Fidélité des méthodes de mesure et de
leurs résultats —
Partie 5:
Évaluation statistique de l'accord
entre deux méthodes de mesure
différentes qui prétendent mesurer la
même propriété
Petroleum and related products — Precision of measurement
methods and results —
Part 5: Statistical assessment of agreement between two different
measurement methods that claim to measure the same property
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2023
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d'application .1
2 Références normatives .1
3 Termes et définitions . 1
4 Symboles . 3
5 Présentation de la procédure . .4
5.1 Exigences générales . 4
5.2 Exigences supplémentaires applicables aux données de PTP . 6
5.2.1 Conditions générales . . 6
5.2.2 Essai sur l'existence d'échantillons extrêmes . 6
5.2.3 Essai sur la distribution des résultats de laboratoire . 7
5.2.4 Comparaison de la fidélité . 7
5.3 Résumé des étapes séquentielles de la procédure . 8
5.4 Organigramme de la procédure . 10
6 Procédure .12
6.1 Moyenne et erreur-type des échantillons .12
6.1.1 Généralités .12
6.1.2 Calcul des moyennes .12
6.1.3 Calcul des erreurs-types .12
6.2 Pertinence des données . 13
6.2.1 Essai sur la variation des propriétés . 13
6.2.2 Corrélation des méthodes d'essai . 14
6.3 Statistiques pour le choix de la correction de biais . 14
6.3.1 Généralités . 14
6.3.2 Classe 0 — Aucune correction de biais . 15
6.3.3 Classe 1a — Correction de biais constante. 15
6.3.4 Classe 1b — Correction de biais proportionnelle .15
6.3.5 Classe 2 — Correction de biais proportionnelle et constante . 16
6.4 Choix de la classe de correction de biais appropriée. 17
6.5 Confirmation de la distribution normale des résidus pondérés . 18
6.6 Biais spécifiques à l'échantillon . . 18
7 Rapport .20
8 Confirmation de la corrélation .21
Annexe A (informative) Exemple pratique d'utilisation des données d'ILS .22
Annexe B (informative) Exemple pratique d'utilisation des données PTP .35
Bibliographie .50
iii
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes
nationaux de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est
en général confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l'ISO participent également aux travaux.
L'ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a
été rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir
www.iso.org/directives).
L’ISO attire l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO ne prend pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de brevet revendiqué à cet égard. À la date de publication du présent
document, l’ISO n'avait pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires à sa
mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de
brevets, disponible à l'adresse www.iso.org/brevets. L’ISO ne saurait être tenue pour responsable de ne
pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion
de l'ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir www.iso.org/avant-propos.
Le présent document a été élaboré par le comité technique ISO/TC 28, Produits pétroliers et produits
connexes, combustibles et lubrifiants d'origine synthétique ou biologique, en collaboration avec le comité
technique CEN/TC 19, Carburants et combustibles gazeux et liquides, lubrifiants et produits connexes,
d'origine pétrolière, synthétique et biologique, du Comité européen de normalisation (CEN) conformément
à l'Accord de coopération technique entre l'ISO et le CEN (Accord de Vienne).
Une liste de toutes les parties de la série ISO 4259 se trouve sur le site web de l'ISO.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l’adresse www.iso.org/fr/members.html.
iv
Introduction
Le présent document explique la méthodologie statistique utilisée pour évaluer l'accord attendu entre
deux méthodes d'essai normalisées qui prétendent mesurer la même propriété d'un matériau. Il évalue
ensuite si une correction de biais linéaire peut améliorer sensiblement ou non l'accord attendu. Le degré
d'accord est exprimé sous la forme d'une reproductibilité inter-méthodes après l'application d'une
correction de biais (si nécessaire).
La méthode utilise les résultats numériques obtenus à partir d'un ensemble d'échantillons ayant
été analysés indépendamment à l'aide des deux méthodes d'essai par des laboratoires différents. La
variation associée au résultat de chaque méthode d'essai est utilisée pour évaluer la correction de biais
exigée.
Des exemples pratiques d'application de la méthodologie sont donnés aux Annexes A et B.
v
NORME INTERNATIONALE ISO 4259-5:2023(F)
Produits pétroliers et connexes — Fidélité des méthodes
de mesure et de leurs résultats —
Partie 5:
Évaluation statistique de l'accord entre deux méthodes
de mesure différentes qui prétendent mesurer la même
propriété
1 Domaine d'application
Le présent document spécifie une méthodologie statistique permettant d'évaluer l'accord attendu entre
deux méthodes d'essai qui prétendent mesurer la même propriété d'un matériau et de déterminer si
une simple correction de biais linéaire peut encore améliorer l'accord attendu.
Le présent document est applicable à des méthodes d'analyse qui mesurent des propriétés
quantitatives du pétrole ou des produits connexes résultant d'une étude multi-échantillon et multi-
laboratoire (MSMLS). Ces types d'études comprennent les essais interlaboratoires (ILS) conformes aux
exigences de l'ISO 4259-1, ou équivalent, et les programmes d'essais d'aptitude (PTP) conformes aux
exigences de l'ISO 4259-3, ou équivalent, sans toutefois s'y limiter.
La méthodologie spécifiée dans le présent document établit la valeur limite de la différence entre deux
résultats, lorsque chaque résultat est obtenu par un opérateur différent utilisant un appareil différent
et appliquant les deux méthodes X et Y, respectivement, sur un matériau identique. L'une des méthodes
(X ou Y) a fait l'objet d'une correction de biais appropriée pour être en accord avec l'autre méthode
conformément à ce mode opératoire. Cette limite est désignée comme la reproductibilité inter-
méthodes. Il est attendu, avec une probabilité de 5 %, que cette valeur soit dépassée dans les conditions
normales et correctes d'application de ces deux méthodes en raison de la variation aléatoire.
NOTE Les conditions supplémentaires pour l'application de cette méthodologie sont données en 5.1 et 5.2.
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique.
Pour les références non datées, la dernière édition du document de référence s'applique (y compris les
éventuels amendements).
ISO 4259-1, Produits pétroliers et connexes — Fidélité des méthodes de mesure et de leurs résultats —
Partie 1: Détermination des valeurs de fidélité relatives aux méthodes d'essai
ISO 4259-3, Produits pétroliers et connexes — Fidélité des méthodes de mesure et de leurs résultats —
Partie 3: Surveillance et vérification des données de fidélité publiées relatives aux méthodes d'essai
ISO 4259-4, Produits pétroliers et connexes — Fidélité des méthodes de mesure et de leurs résultats —
Partie 4: Utilisation de cartes de contrôle statistique pour valider l’état 'sous maîtrise statistique' pour
l’exécution d'une méthode d'essai normalisée dans un seul laboratoire
3 Termes et définitions
Pour les besoins du présent document, les termes et les définitions de l'ISO 4259-1 ainsi que les suivants
s'appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1
étude multi-échantillon et multi-laboratoire
MSMLS (multi-sample-multi-lab study)
étude dans laquelle une ou plusieurs caractéristiques de performance sont déterminées à partir de
résultats d'analyse obtenus à partir de plusieurs échantillons et de plusieurs laboratoires
Note 1 à l'article: Dans certaines conditions, les essais interlaboratoires et les programmes d'essais d'aptitude
sont couverts par cette définition d'étude multi-échantillon et multi-laboratoire.
3.2
essai interlaboratoires
ILS (interlaboratory study)
étude spécialement conçue pour estimer la répétabilité et la reproductibilité d'une méthode d'essai
normalisée, obtenues en un point fixe dans le temps par plusieurs laboratoires à travers l'analyse
statistique des résultats d'essai qu'ils ont obtenus sur des aliquotes préparées à partir de plusieurs
matériaux
3.3
programme d'essais d'aptitude
PTP (proficiency testing programme)
programme destiné à évaluer périodiquement l'aptitude des laboratoires participants à exécuter une
méthode d'essai normalisée, à travers l'analyse statistique des résultats d'essai qu'ils ont obtenus sur
des aliquotes préparées à partir d'un seul lot de matériau homogène
Note 1 à l'article: Le PTP est parfois appelé «étude PT» ou «programme de vérification croisée interlaboratoires»
(ILCP).
3.4
correction de biais inter-méthodes
expression quantitative de la correction mathématique, lorsqu'elle est appliquée au résultat de l'une
des deux méthodes prétendant mesurer la même propriété, qui peut, sur le plan statistique, entraîner
une amélioration notable entre les valeurs attendues des deux méthodes d'essai prétendant mesurer la
même propriété
3.5
coefficient de corrélation
ρ
mesure statistique de la force et de la direction de la relation entre deux variables
Note 1 à l'article: Les valeurs sont toujours comprises entre −1 (relation négative forte) et +1 (relation positive
forte). Les valeurs de zéro ou proches de zéro impliquent une relation faible ou non linéaire.
3.6
erreur-type
Δ
E
statistique permettant d'estimer l'écart-type de la distribution de la statistique moyenne obtenue à
partir de l'échantillonnage aléatoire répété d'une population
3.7
écart-type de l'échantillon
s
i
estimateur de l'écart-type de la population utilisant la moyenne de l'échantillon et la taille de
l'échantillon
Note 1 à l'article: Cette note ne concerne pas la version française.
3.8
reproductibilité inter-méthodes
R
XY
expression quantitative du calcul de la valeur limite que la différence entre deux valeurs individuelles
est présumée dépasser avec une probabilité de 5 % en raison de la variation aléatoire, dans les
conditions normales et correctes d'application des deux méthodes d'essai, chaque résultat étant obtenu
par des opérateurs différents sur un échantillon d'essai identique, en utilisant un appareil différent et
en appliquant les deux méthodes X et Y, respectivement, lorsque les méthodes ont été évaluées et qu'une
correction de biais inter-méthodes appropriée a été appliquée au résultat de l'une ou l'autre méthode (X
ou Y), conformément à ce mode opératoire
3.9
somme des carrés des résidus
Σ
SR
statistique utilisée pour quantifier le degré d'accord entre les résultats de deux méthodes d'essai après
une correction de biais inter-méthodes (3.4) à l'aide de la méthodologie décrite dans le présent mode
opératoire
Note 1 à l'article: Σ est utilisé comme critère d'optimalité dans le choix des paramètres et dans le choix du
SR
modèle de correction de biais.
3.10
somme totale des carrés
Σ
ST
statistique utilisée pour quantifier le contenu d'information de l'essai interlaboratoires (3.2) sous la
forme de la variation totale des moyennes de l'échantillon par rapport à l'erreur-type (3.6) de chaque
moyenne de l'échantillon
3.11
résolution
plus petite différence entre deux résultats, représentée par une valeur différente
4 Symboles
Symbole Explication
X, Y référence aux méthodes X et Y, respectivement
ème ème ème
k résultat sur le i matériau commun obtenu par le j laboratoire à l'aide de la méthode X
X , Y
ijk ijk
et de la méthode Y, respectivement
ème
moyenne arithmétique du i échantillon à l'aide de la méthode X et de la méthode Y, res-
X , Y
i i
pectivement
moyenne pondérée sur l'ensemble des échantillons, utilisée dans le calcul des sommes totales
XY,
des carrés Σ et Σ pour la méthode X et la méthode Y, respectivement
ST,X̅ ST,Y̅
moyenne pondérée sur l'ensemble des échantillons, utilisée dans le calcul du coefficient de
 
XY,
corrélation ρ pour la méthode X et la méthode Y
ème
écart absolu des moyennes pondérées des résultats du i échantillon à partir de X̅ et de Y̅ ,
Δ , Δ
xi yi
respectivement
valeur prédite d'un échantillon, pour la méthode Y, en appliquant la correction de biais établie
Ŷ selon le présent mode opératoire par rapport à un résultat réel du même échantillon avec la
méthode X
Symbole Explication
ème
moyenne prédite du i échantillon pour la méthode Y, en appliquant la correction de biais
Ŷ établie selon le présent mode opératoire par rapport à la moyenne correspondante pour la
i
méthode X
S nombre d'échantillons de l'ensemble de données multi-échantillon et multi-laboratoire
ème
nombre de laboratoires qui ont retourné des résultats sur le i échantillon à l'aide de la
L , L
Xi Yi
méthode X et de la méthode Y, respectivement
ème ème
nombre de résultats répétés sur le i échantillon du j laboratoire à l'aide de la méthode X
n , n
Xij Yij
et de la méthode Y, respectivement
R , R reproductibilité des méthodes X et Y, respectivement
X Y
ème
reproductibilité des méthodes X et Y, évaluée à la moyenne du i échantillon des méthodes X
R , R
Xi Yi
et Y
R reproductibilité inter-méthodes
XY
ème
écart-type de reproductibilité, évalué au i échantillon à l'aide des méthodes X et Y, res-
s , s
R,Xi R,Yi
pectivement
ème
s , s écart-type de répétabilité, évalué au i échantillon à l'aide des méthodes X et Y, respectivement
r,Xi r,Yi
résidu pondéré des valeurs moyennes de la méthode Y, prédites à partir des valeurs moyennes
ε correspondantes de la méthode X, Ŷ , et de la moyenne des résultats de la méthode Y, Y , sur
i i i
ème
le i échantillon
ème
Δ , , Δ erreur-type de la moyenne du i échantillon
E Xi E,Yi
somme pondérée des carrés des résidus des résultats moyens de la méthode Y et des résultats
Σ moyens avec correction de biais de la méthode X pour un modèle p donné, où p = 0, 1a, 1b ou
SR,p
2 sur l'ensemble des échantillons i
Σ , Σ somme totale des carrés, autour des moyennes pondérées X̅ et Y̅ sur l'ensemble des échantillons i
ST,X̅ ST,Y̅
F statistique d'essai pour la comparaison des variances, définie par le quotient de deux variances
t valeur t de Student à un niveau de confiance spécifié et aux degrés de liberté spécifiés
k numéro de classe de la classe de correction de biais choisie
ν , ν degrés de liberté pour les variances de reproductibilité
X Y
coefficient de pondération associé à la différence entre les résultats moyens (corrigés) par
w
i ème
rapport au i échantillon
a, b paramètre de la correction de biais: Ŷ = a + bX
h effet de levier de l'échantillon i dans l'ensemble d'échantillons
i
logarithme naturel de la moyenne de l'échantillon, moyenné entre les deux méthodes pour
Z
i
l'échantillon i
Z moyenne globale du logarithme naturel Z de tous les échantillons
i
t , t rapport pour l'évaluation des réductions des sommes des carrés
1 2
ε différence normalisée entre Y et Ŷ , parfois appelée erreur
i i i
paramètres de la fonction quadratique pour le calcul itératif du coefficient proportionnel b
A, B, C
pour les classes de correction Classe 1b et Classe 2
D statistique de différence pour la confirmation de la corrélation
22*
statistique du test d'Anderson-Darling et statistique d'essai modifiée, respectivement
AA,
ii
ρ coefficient de corrélation
5 Présentation de la procédure
5.1 Exigences générales
Les procédures sont destinées à être exécutées par un analyste qui dispose de connaissances suffisantes
des outils statistiques et des théories décrites dans le présent document.
La méthodologie statistique est fondée sur le postulat qu'une correction de biais n'est pas nécessaire.
En l'absence de preuve statistique indiquant qu'une correction de biais améliorerait l'accord attendu
entre les deux méthodes, aucune correction de biais n'est effectuée.
Si une correction de biais est exigée, le principe de parcimonie est appliqué, c'est-à-dire qu'une
correction simple est privilégiée à une correction plus complexe si cette dernière ne conduit à aucune
amélioration statistiquement observable par rapport à la première. Toute non-conformité à ce principe
conduit généralement à un modèle surajusté qui fonctionne mal dans la pratique.
NOTE 1 Le principe de parcimonie est que l'explication la plus acceptable d'une occurrence, d'un phénomène
ou d'un événement est celle qui est la plus simple et qui implique le moins d'entités ou d'hypothèses.
Les corrections de biais du présent mode opératoire sont limitées à une correction constante, à une
correction proportionnelle ou à une correction linéaire (proportionnelle + constante).
Les méthodes de correction de biais du présent mode opératoire sont symétriques par méthode, en
ce sens que des corrections équivalentes sont obtenues, quelle que soit la méthode à laquelle une
correction de biais est appliquée pour correspondre à l'autre méthode.
La méthodologie décrite dans le présent document s'applique uniquement si l'erreur-type associée à
chaque résultat d'essai moyen est connue ou peut être calculée, et si les degrés de liberté associés à
l'ensemble des erreurs-types sont au moins de 30.
La présente méthodologie est appliquée à une source de données dérivée d'une MSMLS. L'étude doit être
réalisée sur au moins 10 matériaux indépendants au croisement des périmètres des méthodes d'essai.
Les résultats doivent être obtenus auprès d'au moins six (6) laboratoires en utilisant chaque méthode.
Les résultats sont obtenus sur le même ensemble d'échantillons comparatifs et il est recommandé que
les deux méthodes d'essai ne soient pas appliquées par le même laboratoire. Si tel est le cas, toutes les
précautions doivent être prises pour assurer l'indépendance des résultats d'essai, par exemple par des
essais en double aveugle des échantillons dans un ordre aléatoire.
Cette méthodologie ne doit pas être utilisée sur la base de déclarations de fidélité intermédiaires ou
temporaires publiées. Dans les déclarations intermédiaires ou temporaires d'exactitude, les données
appliquées sont généralement peu nombreuses, ce qui conduit à un nombre insuffisant de degrés de
liberté disponibles.
Il est admis de combiner plusieurs sources de données à condition de satisfaire aux exigences de qualité
définies dans le présent document pour l'ensemble de données.
Les méthodes d'essai utilisées par chaque laboratoire doivent être sous maîtrise statistique
conformément aux exigences de l'ISO 4259-4.
Cette méthodologie exige des données avec une résolution suffisante pour permettre d'observer toute
variation d'une manière statistiquement significative. Une variation statistiquement significative
signifie qu'il convient que le nombre total de valeurs uniques dans un ensemble de données, c'est-à-
dire les résultats de laboratoire obtenus pour chaque échantillon et pour chaque méthode d'essai, soit
suffisamment important. Si l'analyste estime que le nombre de valeurs individuelles dans l'ensemble
de données est insuffisant, les laboratoires concernés doivent être de nouveau sollicités pour fournir
des données avec une résolution suffisante. Si les données ne sont disponibles qu'avec une résolution
insuffisante, il convient de ne pas poursuivre cette évaluation.
Dans le cas où les données de la procédure sont dérivées d'un ILS, toutes les exigences de l'ISO 4259-1
doivent être respectées, et les exigences supplémentaires relatives aux données du programme d'essais
d'aptitude (PTP) ne s'appliquent pas.
NOTE 2 L'effet de levier est une mesure de la distance entre les valeurs des variables indépendantes d'une
observation et celles des autres observations.
NOTE 3 La distance de Cook est une estimation de l'influence d'un point de données. Elle est utilisée dans le
contexte de la référence pour indiquer les points de données influents dont il est particulièrement intéressant de
vérifier la validité.
5.2 Exigences supplémentaires applicables aux données de PTP
5.2.1 Conditions générales
Les calculs statistiques sont également applicables pour cette évaluation, à condition d'obtenir les
résultats et les statistiques associées de la méthode d'essai à partir d'un PTP, lequel doit satisfaire aux
exigences de l'ISO 4259-3. Les données dérivées d'un tel PTP sont caractérisées par le fait que, pour
chaque échantillon, un seul résultat de la méthode d'essai est fourni par chaque laboratoire.
Les exigences suivantes s'appliquent à l'utilisation des données d'un PTP:
— les résultats doivent être obtenus auprès d'au moins 10 laboratoires utilisant la méthode d'essai, et
suivent une distribution équidistante sur l'ensemble de la plage;
— l'effet de levier de chaque échantillon dans l'ensemble de données ne doit pas dépasser la valeur
limite de 0,5 (voir 5.2.2);
— la statistique d'Anderson-Darling ≤ 1,12 pour les essais sur la distribution normale des résultats de
laboratoire par échantillon doit être utilisée (voir 5.2.3);
— les écarts-types des échantillons ne doivent pas dépasser outre mesure les écarts-types de
reproductibilité publiés pour au moins 80 % des échantillons au seuil de significativité de 0,05
(voir 5.2.4).
5.2.2 Essai sur l'existence d'échantillons extrêmes
La valeur de levier h pour chaque échantillon i dans l'ensemble de données est examinée et ne peut
i
pas dépasser la valeur limite de 0,5. Si une valeur de h d'un échantillon dépasse cette valeur limite,
i
l'échantillon en question est caractérisé comme extrême. Pour chacune des deux méthodes, la moyenne
des résultats de laboratoire est calculée par échantillon. Chaque moyenne de laboratoire par échantillon
est ensuite moyennée entre les deux méthodes.
La valeur de levier h est définie par la Formule (1):
i
ZZ−
()
i
h =+ (1)
i
S
S
ZZ− ²
()
∑ k
k=1

h est l'effet de levier de l'échantillon i, i = 1 … S;
i
S est le nombre total d'échantillons;
Z est le logarithme naturel (ln) de la moyenne de l'échantillon, moyenné entre les deux méthodes;
i
Z̄ est la moyenne globale de toutes les valeurs de Z .
i
Si un ou plusieurs échantillons sont caractérisés comme extrêmes, ils doivent être retirés et il convient
de répéter la procédure. Le nombre minimal d'échantillons restants doit être pris en compte. Si
l'exigence minimale relative au nombre d'échantillons ne peut plus être respectée, la procédure doit
être interrompue.
5.2.3 Essai sur la distribution des résultats de laboratoire
La normalité de la distribution des résultats de laboratoire est vérifiée au moyen d'essais pour chaque
échantillon, en confirmant l'adéquation de la distribution normale à l'aide de la statistique d'Anderson-
Darling sur chaque échantillon.
NOTE 1 Le test d'Anderson-Darling est un essai statistique qui évalue si un échantillon de données spécifique
est prélevé ou non d'une distribution de probabilité spécifique. Dans le contexte du présent document, ce test est
utilisé comme essai sur la normalité, avec des paramètres de distribution de probabilité (moyenne et écart-type)
estimés à partir de l'échantillon. Voir la Référence [7] pour plus de détails.
NOTE 2 La valeur critique de 1,12 est fondée sur un seuil de significativité de 1 % environ, en tenant compte
des effets d'arrondi des données d'entrée sur la résolution.
2*
La statistique d'essai A est calculée selon la Formule (2):
i
 
07,,52 25
22*
AA=+1 + (2)
 
ii
 2 
N
N
i
 
i

N est le nombre total de résultats de laboratoire dans l'ensemble;
i
N
A
−−N ()21iF− {}ln[]()xF+−ln[]1 ()x ;
i
iN−+i 1

N
i=1
F(x ) est la fonction de distribution normale cumulée fondée sur la moyenne et l'écart-type des
i
échantillons;
x représente les données triées dans l'ordre croissant, x ≤ x ≤ x … ≤ x .
i 1 2 3 N
Il est pris pour hypothèse que la distribution des résultats suit une distribution normale si la valeur
2*
A correspondante est ≤1,12.
i
Si cet essai montre que la distribution d'un ou plusieurs échantillons ne respecte pas le critère ci-dessus,
cet échantillon doit être retiré. Il convient de prendre en compte le nombre minimal d'échantillons pour
cette procédure. Si l'exigence minimale relative au nombre d'échantillons ne peut plus être respectée, la
procédure doit être interrompue.
Des données qui ont une résolution insuffisante en raison de l'arrondi peuvent surestimer les
statistiques d'évaluation de la normalité. Voir 5.1 pour les dispositions relatives à la résolution.
5.2.4 Comparaison de la fidélité
Il convient que les écarts-types des échantillons s ne dépassent pas outre mesure les écarts-types de
i
reproductibilité publiés s pour au moins 80 % des échantillons, à un seuil de significativité de 0,05, au
Ri
moyen du test F statistique, pour la comparaison des deux variances s et s .
i Ri
Pour tout échantillon i où s est numériquement supérieure à s , réaliser le test F suivant spécifié dans
i Ri
la Formule (3):
s
i
F = (3)
s
Ri

s est l'écart-type de l'échantillon i, calculé sur les résultats de laboratoire;
i
s est l'écart-type de reproductibilité publié, évalué au niveau de concentration des résultats
Ri
moyens pour l'échantillon i.
Le nombre de degrés de liberté associés à s est égal à N-1, où N est égal au nombre de résultats pour
i
l'échantillon i.
Le nombre de degrés de liberté associés à s est, de préférence, déterminé à partir de la déclaration
Ri
de fidélité publiée de la méthode d'essai ou du rapport de recherche sous-jacent. Si s n'est pas donné
Ri
comme tel, il est admis d'estimer la valeur de s à partir de la reproductibilité publiée R , selon la
Ri i
relation s = R /(t√2), où t représente la valeur t de Student à un niveau de confiance de 0,05 et avec les
Ri i
degrés de liberté associés à R .
i
Dans ce dernier cas, si le nombre de degrés de liberté pour R est inconnu, il peut être estimé par une
i
valeur minimale de 30, et l'écart-type de reproductibilité publié est estimé par la relation s = (R /2,888).
Ri i
Si le critère ci-dessus n'est pas rempli pour un échantillon ou plus, les échantillons non conformes
doivent être retirés. Il convient de prendre en compte le nombre minimal d'échantillons pour cette
procédure. Si l'exigence minimale relative au nombre d'échantillons ne peut plus être respectée, la
procédure doit être interrompue.
5.3 Résumé des étapes séquentielles de la procédure
Le présent paragraphe est un condensé des étapes de la procédure. Voir les Figures 1 et 2 pour un
organigramme de ces étapes.
1) Vérifier l'adéquation des données disponibles
Les données disponibles sont comparées aux exigences générales (voir 5.1). Le cas échéant, les
exigences supplémentaires applicables lorsque des données de PTP sont utilisées (voir 5.2, 5.2.1,
5.2.2, 5.2.3 et 5.2.4) sont également vérifiées.
2) Calculer les moyennes et l'erreur-type des échantillons
Les moyennes arithmétiques des résultats de chaque échantillon commun obtenus par chaque
méthode sont calculées (voir 6.1.2) et les erreurs-types de ces moyennes sont estimées (voir 6.1.3).
3) Contrôler la pertinence des données au moyen d'essais
Réaliser un essai pour vérifier l'existence d'une variation suffisante au niveau des propriétés des
deux méthodes, en calculant les sommes pondérées des carrés des résidus pour la variation totale
des résultats moyens sur l'ensemble des échantillons communs pour chaque méthode. Ces sommes
des carrés sont comparées aux erreurs-types des résultats moyens pour chaque méthode, afin de
s'assurer que les échantillons sont suffisamment variés avant de poursuivre le mode opératoire
(voir 6.2.1).
Réaliser un essai pour vérifier l'existence d'une corrélation suffisante entre les deux méthodes, en
évaluant les sommes pondérées des carrés des résidus pour la correction linéaire par rapport à
la variation totale des résultats moyens obtenus pour les deux méthodes, afin de s'assurer que la
corrélation entre les deux méthodes est suffisante (voir 6.2.2).
4) Calculer la statistique de correction de biais pour chaque classe de correction de biais
Le degré d'accord des résultats moyens obtenus pour chaque méthode est évalué en utilisant
les sommes pondérées des carrés des résidus appropriées. Ces sommes des carrés sont d'abord
calculées à partir des données sans correction de biais, puis avec une correction de biais constante,
puis, si cela est approprié, avec une correction proportionnelle, et pour finir, avec une correction
linéaire (proportionnelle + constante) (voir 6.3).
5) Choisir la classe de correction de biais appropriée
La correction de biais la plus parcimonieuse est retenue, d'après la somme pondérée des carrés
des résidus obtenue à partir de chaque correction de biais et à l'aide des tests t et F appropriés
(voir 6.4).
6) Contrôler la normalité de la distribution des résidus au moyen d'essais
La normalité des résidus (pondérés) par échantillon est vérifiée au moyen d'essais. Les résidus
sont définis par la différence entre chaque valeur Y individuelle et chaque valeur X à laquelle
i i
est appliquée une correction de biais. L'essai de normalité est réalisé à l'aide du test d'Anderson-
Darling. Lorsqu'il apparaît que les résidus pondérés n'ont pas une distribution normale, ce mode
opératoire est considéré comme terminé (voir 6.5).
7) Contrôler les biais spécifiques aux échantillons au moyen d'essais
Les sommes pondérées des carrés des résidus sont évaluées pour déterminer si des sources de
variation supplémentaires inexpliquées demeurent parmi les données résiduelles (voir 6.6).
Toute variation inexpliquée qui demeure est attribuée à des biais spécifiques aux échantillons,
également appelés «interactions méthode-matériau» ou «effets de matrice». S'il apparaît que
les biais spécifiques aux échantillons sont cohérents avec un modèle d'effets aléatoires, leur
contribution à la reproductibilité inter-méthodes est estimée et cumulée dans une estimation
globale de la reproductibilité inter-méthodes.
8) Calculer la reproductibilité inter-méthodes
Calculer la reproductibilité inter-méthodes en tenant compte des biais possibles spécifiques aux
échantillons.
Lorsqu'il apparaît que les résidus ont une distribution normale et qu'il n'existe aucun biais
spécifique aux échantillons, la reproductibilité inter-méthodes est définie par la Formule (40).
Lorsqu'il apparaît que les résidus ont une distribution normale et que des biais spécifiques aux
échantillons sont présents, la reproductibilité inter-méthodes est définie par la Formule (41).
9) Consigner les résultats dans un rapport
Les résultats du présent mode opératoire sont consignés dans la section de la ou des norme(s)
appropriée(s) relative à la fidélité et au biais (voir Article 7).
10) Confirmer la corrélation
Les résultats de l'évaluation sont périodiquement confirmés par les utilisateurs de la corrélation,
en surveillant les statistiques de différence au moyen de cartes de contrôle (voir Article 8).
5.4 Organigramme de la procédure
Figure 1 — Organigramme relatif à l'adéquation et à l'applicabilité des données
Figure 2 — Procédure de détermination de la correction de biais
6 Procédure
6.1 Moyenne et erreur-type des échantillons
6.1.1 Généralités
Calculer les moyennes X et Y et les erreurs-types des échantillons à partir des résultats de la MSMLS.
i i
Les estimations de fidélité publiées sont utilisées pour estimer les erreurs-types de ces moyennes, Δ
S,Xi
et Δ .
S,Yi
ème ème
NOTE Le i matériau est le même pour les deux ensembles de données, mais le j laboratoire dans un
ème
ensemble de données n'est généralement pas le même laboratoire que le j laboratoire dans l'autre ensemble de
données.
6.1.2 Calcul des moyennes
ème
Le résultat de la moyenne arithmétique dans la méthode X pour le i échantillon est donné dans la
Formule (4):
X
∑ ijk
k
X = (4)
i ∑
j
L n
Xi X
ij
ème
où X est la moyenne des moyennes de cellules sur le i échantillon selon la méthode X.
i
ème
De la même manière, le résultat moyen dans la méthode Y pour le i échantillon est donné par la
Formule (5) analogue:
Y
ijk
1 ∑
k
Y = (5)
i ∑
j
L n
Y Y
iij
6.1.3 Calcul des erreurs-types
Les erreurs-types sont affectées aux écarts-types des moyennes et sont calculées de la manière
suivante.
Si s est l'écart-type de reproductibilité selon la méthode X, et si s est l'écart-type de répétabilité,
R,Xi r,Xi
l'erreur-type pour X est estimée par la Formule (6):
i
  
1 11
Δ =−ss 1− (6)
 
 
EX,,RXir,Xi ∑
i  j 
L Ln
 
Xi Xi Xij
  
L'erreur-type estimée pour Y est donnée par la Formule (7) analogue:
i
  
1 11
Δ =−ss 1− (7)
 
 
EY,,RYir,Yi ∑
i  j 
L Ln
 
Yi Yi Yij
  
Les écarts-types de répétabilité et les écarts-types de reproductibilité sont calculés à partir de la
répétabilité publiée et de la reproductibilité publiée, en divisant ces valeurs par t√2. Ici, t se rapporte
à la valeur t de Student à un niveau de confiance de 0,05 et avec le nombre de degrés de liberté associé
aux chiffres de fidélité.
Si les valeurs de répétabilité et de reproductibilité sont connues, mais que le nombre de degrés de
liberté associé à ces chiffres de fidélité sont inconnus, une valeur de 30 degrés de liberté est admise.
Étant donné que la répétabilité et la reproductibilité peuvent varier avec les résultats moyens de la
méthode X, X , même si les valeurs de L étaient identiques pour tous les matériaux et si les valeurs de
i Xi
n étaient identiques pour tous les laboratoires et tous les matériaux, la valeur Δ peut encore varier
Xij E,Xi
d'un matériau à l'autre. Le même constat s'applique également pour la méthode Y.
6.2 Pertinence des données
6.2.1 Essai sur la variation des propriétés
Calculer la somme totale pondérée des carrés pour chaque méthode et déterminer si les échantillons
peuvent être distingués les uns des autres par les deux méthodes. Les sommes totales des carrés sont
données par les Formules (8) et (9):
 
XX−
i
Σ = (8)
 

ST ,X
i
Δ
EX, i
 
YY− 
i
Σ = (9)
 

ST ,Y
i
Δ
 EY, i 
Les moyennes pondérées X et Y prennent en compte leurs erreurs-types correspondantes Δ et Δ ,
S,Xi S,Yi
et sont définies par les Formules (10) et (11):
 
X
i
 

i
 
Δ
EX, i
 
X = (10)
 
 

i 2
 
Δ
 EX, i 
 
Y
i
 

i
 
Δ
EY, i
 
Y = (11)
 
 

i 2
 
Δ
 EY, i 
Comparer F = Σ /(S-1) au 95e centile de la distribution F de Fisher avec (S-1) et v degrés de liberté en
ST,X̅ x
numérateur et en dénominateur, respectivement, où v représente les degrés de liberté pour la variance
X
de reproductibilité dans le cas de la méthode X.
— Si F ne dépasse pas le 95e centile, la méthode X ne présente pas une fidélité suffisante pour permettre
une distinction entre les S échantillons. Ne pas poursuivre ce mode opératoire, car il ne peut pas
produire de résultats significatifs.
— Si F dépasse le 95e centile, la méthode X présente une fidélité suffisante pour permettre une
distinction entre les S échantillons. Poursuivre avec l'essai sur la corrélation décrit en 6.2.2.
De la même manière, comparer F = Σ /(S-1) au 95e centile de la distribution F de Fisher, en remplaçant
ST,Y̅
v par les degrés de liberté de la variance de reproductibilité de la méthode Y, v . De la même façon, ne
X Y
pas poursuivre ce mode opératoire si F ne dépasse pas le 95e centile.
6.2.2 Corrélation des méthodes
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...