Corrosion of metals and alloys — Guidelines for applying statistics to analysis of corrosion data

ISO 14802:2012 gives guidance on some generally accepted methods of statistical analysis which are useful in the interpretation of corrosion test results. ISO 14802:2012 does not cover detailed calculations and methods, but rather considers a range of approaches which have applications in corrosion testing. Only those statistical methods that have wide acceptance in corrosion testing have been considered in ISO 14802:2012.

Corrosion des métaux et alliages — Lignes directrices pour l'application des statistiques à l'analyse des données de corrosion

L'ISO 14802:2012 donne des recommandations concernant des méthodes d'analyse statistique généralement acceptées qui sont utiles pour l'interprétation des résultats d'essai de corrosion. L'ISO 14802:2012 ne traite pas des calculs et des méthodes détaillés, mais plutôt d'un éventail d'approches qui ont trouvé une application dans les essais de corrosion. Seules les méthodes statistiques largement acceptées pour les essais de corrosion ont été prises en compte dans l'ISO 14802:2012.

General Information

Status
Published
Publication Date
12-Jul-2012
Current Stage
9093 - International Standard confirmed
Start Date
06-Mar-2023
Completion Date
13-Dec-2025
Ref Project
Standard
ISO 14802:2012 - Corrosion of metals and alloys -- Guidelines for applying statistics to analysis of corrosion data
English language
60 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 14802:2012 - Corrosion des métaux et alliages -- Lignes directrices pour l'application des statistiques a l'analyse des données de corrosion
French language
60 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


INTERNATIONAL ISO
STANDARD 14802
First edition
2012-07-15
Corrosion of metals and alloys —
Guidelines for applying statistics to
analysis of corrosion data
Corrosion des métaux et alliages — Lignes directrices pour l’application
des statistiques à l’analyse des données de corrosion
Reference number
©
ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or ISO’s
member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved

Contents Page
Foreword .iv
1 Scope . 1
2 Significance and use . 1
3 Scatter of data . 1
3.1 Distributions . 1
3.2 Histograms . 1
3.3 Normal distribution . 2
3.4 Normal probability paper . 2
3.5 Other probability paper . 2
3.6 Unknown distribution . 3
3.7 Extreme value analysis . 3
3.8 Significant digits . 3
3.9 Propagation of variance . 3
3.10 Mistakes . 3
4 Central measures . 3
4.1 Average . 3
4.2 Median . 4
4.3 Which to use . 4
5 Variability measures . 4
5.1 General . 4
5.2 Variance . 4
5.3 Standard deviation . 5
5.4 Coefficient of variation . 5
5.5 Range . 5
5.6 Precision . 6
5.7 Bias . 6
6 Statistical tests . 6
6.1 Null hypothesis . 6
6.2 Degrees of freedom . 7
6.3 t-Test . 7
6.4 F-test . 8
6.5 Correlation coefficient . 8
6.6 Sign test . 9
6.7 Outside count . 9
7 Curve fitting — Method of least squares . 9
7.1 Minimizing variance . 9
7.2 Linear regression — 2 variables . 9
7.3 Polynomial regression .10
7.4 Multiple regression .10
8 Analysis of variance . 11
8.1 Comparison of effects . 11
8.2 The two-level factorial design . 11
9 Extreme value statistics . 11
9.1 Scope of this clause . 11
9.2 Gumbel distribution and its probability paper .12
9.3 Estimation of distribution parameters .13
9.4 Report .15
9.5 Other topics .15
Annex A (informative) Sample calculations .46
Bibliography .60
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the International
Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 14802 was prepared by Technical Committee ISO/TC 156, Corrosion of metals and alloys.
iv © ISO 2012 – All rights reserved

INTERNATIONAL STANDARD ISO 14802:2012(E)
Corrosion of metals and alloys — Guidelines for applying
statistics to analysis of corrosion data
1 Scope
This International Standard gives guidance on some generally accepted methods of statistical analysis which
are useful in the interpretation of corrosion test results. This International Standard does not cover detailed
calculations and methods, but rather considers a range of approaches which have applications in corrosion
testing. Only those statistical methods that have wide acceptance in corrosion testing have been considered
in this International Standard.
2 Significance and use
Corrosion test results often show more scatter than many other types of tests because of a variety of factors,
including the fact that minor impurities often play a decisive role in controlling corrosion rates. Statistical
analysis can be very helpful in allowing investigators to interpret such results, especially in determining when
test results differ from one another significantly. This can be a difficult task when a variety of materials are
under test, but statistical methods provide a rational approach to this problem.
Modern data reduction programs in combination with computers have allowed sophisticated statistical analyses
to be made on data sets with relative ease. This capability permits investigators to determine whether associations
exist between different variables and, if so, to develop quantitative expressions relating the variables.
Statistical evaluation is a necessary step in the analysis of results from any procedure which provides
quantitative information. This analysis allows confidence intervals to be estimated from the measured results.
3 Scatter of data
3.1 Distributions
When measuring values associated with the corrosion of metals, a variety of factors act to produce measured
values that deviate from expected values for the conditions that are present. Usually the factors which contribute
to the scatter of measured values act in a more or less random way so that the average of several values
approximates the expected value better than a single measurement. The pattern in which data are scattered
is called its distribution, and a variety of distributions such as the normal, log–normal, bi-nominal, Poisson
distribution, and extreme-value distribution (including the Gumbel and Weibull distribution) are observed in
corrosion work.
3.2 Histograms
A bar graph, called a histogram, may be used to display the scatter of data. A histogram is constructed by
dividing the range of data values into equal intervals on the abscissa and then placing a bar over each interval
of a height equal to the number of data points within that interval.
The number of intervals, k, can be calculated using the following equation:
kn=+13,l32 og (1)
()
where
n is the total number of data.
3.3 Normal distribution
Many statistical techniques are based on the normal distribution. This distribution is bell-shaped and
symmetrical. Use of analysis techniques developed for the normal distribution on data distributed in another
manner can lead to grossly erroneous conclusions. Thus, before attempting data analysis, the data should
either be verified as being scattered like a normal distribution or a transformation should be used to obtain a
data set which is approximately normally distributed. Transformed data may be analysed statistically and the
results transformed back to give the desired results, although the process of transforming the data back can
create problems in terms of not having symmetrical confidence intervals.
3.4 Normal probability paper
3.4.1 If the histogram is not confirmatory in terms of the shape of the distribution, the data may be examined
further to see if it is normally distributed by constructing a normal probability plot as follows (see Reference [2]).
3.4.2 It is easiest to construct a normal probability plot if normal probability paper is available. This paper has
one linear axis and one axis which is arranged to reflect the shape of the cumulative area under the normal
distribution. In practice, the “probability” axis has 0,5 or 50 % at the centre, a number approaching 0 % at one
end, and a number approaching 1,0 or 100 % at the other end. The scale divisions are spaced close in the centre
and wider at both ends. A normal probability plot may be constructed as follows with normal probability paper.
NOTE Data that plot approximately on a straight line on the probability plot may be considered to be normally
distributed. Deviations from a normal distribution may be recognized by the presence of deviations from a straight line,
usually most noticeable at the extreme ends of the data.
3.4.2.1 Rearrange the data in order of magnitude from the smallest to the largest and number them as 1,2, …
i, … n, which are called the rank of the points.
3.4.2.2 In order to plot the ith ranked data on the normal probability paper, calculate the ”midpoint” plotting
position, F(x ), defined by the following equation:
i
100()i −½
Fx = (2)
()
i
n
3.4.2.3 The data points [x
, F(x )] can be plotted on the normal probability paper.
i i
NOTE Occasionally, two or more identical values are obtained in a set of results. In this case, each point may be
plotted, or a composite point may be located at the average of the plotting positions for all identical values.
It is recommended that probability plotting be used because it is a powerful tool for providing a better
understanding of the population than traditional statements made only about the mean and standard deviation.
3.5 Other probability paper
If the histogram is not symmetrical and bell-shaped, or if the probability plot shows non-linearity, a transformation
may be used to obtain a new, transformed data set that may be normally distributed. Although it is sometimes
possible to guess the type of distribution by looking at the histogram, and thus determine the exact transformation
to be used, it is usually just as easy to use a computer to calculate a number of different transformations and
to check each for the normality of the transformed data. Some transformations based on known non-normal
distributions, or that have been found to work in some situations, are listed as follows:
y = log x y = exp x
0,5 2
y = x y = x
−1 0,5
y = 1/x y = sin (x/n)
2 © ISO 2012 – All rights reserved

where
y is the transformed datum;
x is the original datum;
n is the number of data points.
Time to failure in stress corrosion cracking is often fitted with a log x transformation (see References [3][4]).
Once a set of transformed data is found that yields an approximately straight line on a probability plot, the
statistical procedures of interest can be carried out on the transformed data. It is essential that results, such as
predicted data values or confidence intervals, be transformed back using the reverse transformation.
3.6 Unknown distribution
3.6.1 General
If there are insufficient data points or if, for any other reason, the distribution type of the data cannot be
determined, then two possibilities exist for analysis.
3.6.1.1 A distribution type may be hypothesized, based on the behaviour of similar types of data. If this
distribution is not normal, a transformation may be sought which will normalize that particular distribution. See
3.5 for suggestions. Analysis may then be conducted on the transformed data.
3.6.1.2 Statistical analysis procedures that do not require any specific data distribution type, known as non-
parametric methods, may be used to analyse the data. Non-parametric tests do not use the data as efficiently.
3.7 Extreme value analysis
If determining the probability of perforation by a pitting or cracking mechanism, the usual descriptive statistics
for the normal distribution are not the most useful. Extreme value statistics should be used instead (see
Reference [5]).
3.8 Significant digits
The proper number of significant digits should be used when reporting numerical results.
3.9 Propagation of variance
If a calculated value is a function of several independent variables and those variables have errors associated
with them, the error of the calculated value can be estimated by a propagation of variance technique. See
References [6][7] for details.
3.10 Mistakes
Mistakes when carrying out an experiment or in the calculations are not a characteristic of the population
and can preclude statistical treatment of data or lead to erroneous conclusions if included in the analysis.
Sometimes mistakes can be identified by statistical methods by recognizing that the probability of obtaining a
particular result is very low. In this way, outlying observations can be identified and dealt with.
4 Central measures
4.1 Average
It is accepted practice to employ several independent (replicate) measurements of any experimental quantity
to improve the estimate of precision and to reduce the variance of the average value. If it is assumed that the
processes operating to create error in the measurement are random in nature and are as likely to overestimate
the true unknown value as to underestimate it, then the average value is the best estimate of the unknown
value in question. The average value is usually indicated by placing a bar over the symbol representing the
measured variable and calculated by
x
i
x = (3)

n
NOTE In this International Standard, the term “mean” is reserved to describe a central measure of a population, while
“average” refers to a sample.
4.2 Median
If processes operate to exaggerate the magnitude of the error, either in overestimating or underestimating the
correct measurement, then the median value is usually a better estimate. The median value, x , is defined as
m
the value in the middle of all data and can be determined from the m-th ranked data.
xnfor an even number, , of data points
 n/2
x = (4)

m
x for an odd number, n, of data points
 ()n+12/

4.3 Which to use
If the processes operating to create error affect both the probability and magnitude of the error, then other approaches
are required to find the best estimation procedure. A qualified statistician should be consulted in this case.
In corrosion testing, it is generally observed that average values are useful in characterizing corrosion rates.
In cases of penetration from pitting and cracking, failure is often defined as the first through-penetration and
average penetration rates or times are of little value. Extreme value analysis has been used in these instances.
When the average value is calculated and reported as the only result in experiments where several replicate
runs were made, information on the scatter of data is lost.
5 Variability measures
5.1 General
Several measures of distribution variability are available, which can be useful in estimating confidence intervals
and making predictions from the observed data. In the case of normal distribution, a number of procedures
are available and can be handled by computer programs. These measures include the following: variance,
standard deviation, and coefficient of variation. The range is a useful non-parametric estimate of variability and
can be used with both normal and other distributions.
5.2 Variance
Variance, σ , may be estimated for an experimental data set of n observations by computing the sample
estimated variance, S , assuming that all observations are subject to the same errors:
d ()xx−
∑∑ i
S = = (5)
()n−11()n−
where
d
is the difference between the average and the measured value;
n − 1 is the number of degrees of freedom available.
4 © ISO 2012 – All rights reserved

Variance is a useful measure because it is additive in systems that can be described by a normal distribution,
but the dimensions of variance are the square of units. A procedure known as analysis of variance (ANOVA)
has been developed for data sets involving several factors at different levels in order to estimate the effects of
these factors.
5.3 Standard deviation
Standard deviation, σ, is defined as the square root of the variance. It has the property of having the same
dimensions as the average value and the original measurements from which it was calculated, and is generally
used to describe the scatter of the observations.
The standard deviation of an average is different from the standard deviation of a single measured value, but
the two standard deviations are related as in the following equation:
S
S = (6)
x
n
where
n is the total number of measurements which were used to calculate the average value.
When reporting standard deviation calculations, it is important to note clearly whether the value reported is the
standard deviation of the average or of a single value. In either case, the number of measurements should also
be reported. The sample estimate of the standard deviation is S.
5.4 Coefficient of variation
The population coefficient of variation is defined as the standard deviation divided by the mean. The sample
coefficient of variation may be calculated as S/x and is usually reported as a percentage. This measure of
variability is particularly useful in cases where the size of the errors is proportional to the magnitude of the
measured value, so that the coefficient of variation is approximately constant over a wide range of values.
5.5 Range
The range, w, is defined as the difference between the maximum, x , and minimum, x , values in a set of
max min
replicate data values. The range is non-parametric in nature, i.e. its calculation makes no assumption about
the distribution of error.
wx=−x (7)
maxmin
In cases when small numbers of replicate values are involved and the data are normally distributed, the range
can be used to estimate the standard deviation by the relationship:
w
S = (8)
n
where
S is the estimated sample standard deviation;
w is the range;
n is the number of observations.
The range has the same dimensions as the standard deviation.
5.6 Precision
5.6.1 General
Precision is the closeness of agreement between randomly selected individual measurements or test results.
The standard deviation of the error of measurement may be used as a measure of imprecision.
5.6.1.1 One aspect of precision concerns the ability of one investigator or laboratory to reproduce a
measurement previously made at the same location with the same method. This aspect is sometimes called
repeatability.
5.6.2.1 Another aspect of precision concerns the ability of different investigators and laboratories to reproduce
a measurement. This aspect is sometimes called reproducibility.
5.7 Bias
5.7.1 General
Bias is the closeness of agreement between an observed value and an accepted reference value. When
applied to individual observations, bias includes a combination of a random component and a component due
to systematic error. Under these circumstances, accuracy contains elements of both precision and bias. Bias
refers to the tendency of a measurement technique to consistently underestimate or overestimate. In cases
where a specific quantity such as corrosion rate is being estimated, a quantitative bias may be determined.
5.7.1.1 Corrosion test methods which are intended to simulate service conditions, for example natural
environments, often produce a different severity of corrosion and relative ranking of performance of materials, as
compared to severity and ranking under the conditions which the test is simulating. This is particularly true for test
procedures which produce damage rapidly as compared to the service experience. In such cases, it is important
to establish the correspondence between results from the service environment and test results for the class of
material in question. Bias in this case refers to the variation in the acceleration of corrosion for different materials.
5.7.1.2 Another type of corrosion test method measures a characteristic that is related to the tendency of a
material to suffer a form of corrosion damage, for example pitting potential. Bias in this type of test refers to the
inability of the test to properly rank the materials to which the test applies as compared to service results.
6 Statistical tests
6.1 Null hypothesis
Null-hypothesis statistical tests are usually carried out by postulating a hypothesis of the form: the distribution
of data under test is not significantly different from some postulated distribution. It is necessary to establish a
probability that will be acceptable for rejecting the null hypothesis. In experimental work, it is conventional to
use probabilities of 0,05 or 0,01 to reject the null hypothesis.
6.1.1 Type I errors occur when the null hypothesis is rejected falsely. The probability of rejecting the null
hypothesis falsely is described as the significance level and is often designated as α.
6.1.2 Type II errors occur when the null hypothesis is accepted falsely. If the significance level is set too low,
the probability of a Type II error, β, becomes larger. When a value of α is set, the value of β is also set. With a
fixed value of β, it is possible to decrease β only by increasing the sample size, assuming that no other factors
can be changed to improve the test.
6 © ISO 2012 – All rights reserved

6.2 Degrees of freedom
The number of degrees of freedom of a statistical test refers to the number of independent measurements that
are available for the calculation.
6.3 t-Test
The t-statistic may be written in the form:
x −μ
t = (9)
Sx
()
where
is the sample average;
x
µ is the population mean;
is the estimated standard deviation of the sample average.
Sx()
The t-distribution is usually tabulated in terms of significance levels and degrees of freedom.
6.3.1 The t-test may be used to test the null hypothesis:
m = µ
For example, the value m is not significantly different from µ, the population mean. The t-test is then:
xm−
t = (10)
Sx
()
n
The calculated value of t may be compared to the value of t for the number of degrees of freedom, n, and the
significance level.
6.3.2 The t-statistic may be used to obtain a confidence interval for an unknown value, for example a corrosion-
rate value calculated from several independent measurements:
xt− Sx <<μ xt+ Sx (11)
() ()
() ()
where tS x represents the one-half width confidence interval associated with the significance level chosen.
()
6.3.3 The t-test is often used to test whether there is a significant difference between two sample averages.
In this case, the expression becomes:
xx−
t = (12)
Sx +
()
nn
where
are the sample averages;
x and x
1 2
n and n are the number of measurements used in calculating x and x ;
1 2 1 2
S(x) is the pooled estimate of the standard deviation from both sets of data.
i.e.
2 2
()nS−+11()xn()− Sx()
1 12 2
Sx()= (13)
nn+−2
6.3.4 One-sided t-test. The t-function is symmetrical and can have negative as well as positive values. In the above
examples, only absolute values of the differences were discussed. In some cases, a null hypothesis of the form:
µ > m
or
µ < m
may be desired. This is known as a one-sided t-test and the significance level associated with this t-value is
half of that for a two-sided t.
6.4 F-test
The F-test is used to test whether the variance associated with a variable, x , is significantly different from a
variance associated with a variable x . The F-statistic is then:
Fx xS= x (14)
()
12 2
The F-test is an important component in the analysis of variance used in experimental designs. Values of F
are tabulated for significance levels and degrees of freedom for both variables. In cases where the data are
not normally distributed, the F-test approach may falsely show a significant effect because of the non-normal
distribution rather than an actual difference in variances being compared.
6.5 Correlation coefficient
The correlation coefficient, r, is a measure of a linear association between two random variables. Correlation
coefficients vary between −1 and +1 and the closer they are to either −1 or +1, the better the correlation. The
sign of the correlation coefficient simply indicates whether the correlation is positive (y increases with x) or
negative (y decreases as x increases). The correlation coefficient, r, is given by:
()xx− ()yy− xy − nxy
∑ ii ∑ ii
r = = (15)
½
22 2 2 ½
 
 
()xx−−yy
()
xn− xy( −− ny )
∑∑ii
()
  ∑ ii∑
 
 
where
x are the observed values of random variable x;
i
y are the observed values of random variable y;
i
x is the average value of x;
y is the average value of y;
n is the number of observations.
Generally, r values are preferred because they avoid the problem of signs and relate directly to variance.
Values of r or r have been tabulated for different significance levels and degrees of freedom. In general, it is
desirable to report values of r or r presenting correlations and regression analyses.
NOTE The procedure for calculating correlation coefficients does not require that the x and y variables be random
and, consequently, some investigators have used the correlation coefficient as an indication of the goodness of fit of data
in a regression analysis.
8 © ISO 2012 – All rights reserved

However, the significance test using the correlation coefficient requires that the x and y values be independent variables
of a population measured on randomly selected samples.
6.6 Sign test
The sign test is a non-parametric test used in sets or in paired data to determine if one component of the pair
is consistently larger than the other (see Reference [9]). In this test method, the values of the data pairs are
compared, and, if the first entry is larger than the second, a plus sign is recorded. If the second term is larger,
then a minus sign is recorded. If both are equal, then no sign is recorded. The total number of plus signs, P,
and minus signs, N, is computed. Significance is determined by the following test:
PN−> kP+N (16)
where
k is a function of significance level as follows:
k Significance level
1,6 0,10
2,0 0,05
2,6 0,01
The sign test does not depend on the magnitude of the difference and so can be used in cases where normal
statistics would be inappropriate or impossible to apply.
6.7 Outside count
The outside count test is a useful non-parametric technique to evaluate whether the magnitude of one of two
data sets of approximately the same number of values is significantly larger than the other. The details of the
procedure may be found elsewhere (see Reference [9]).
7 Curve fitting — Method of least squares
7.1 Minimizing variance
It is often desirable to determine the best algebraic expression to fit a data set with the assumption that a
normally distributed random error is operating. In this case, the best fit will be obtained when the condition
of minimum variance between the measured value and the calculated value is obtained for the data set. The
procedures used to determine equations of best fit are based on this concept. Software is available for computer
calculation of regression equations, including linear, polynomial and multiple-variable regression equations.
7.2 Linear regression — 2 variables
Linear regression is used to fit data to a linear relationship of the following form:
ym=+xb (17)
In this case, the best fit is given by:
 
mn=−xy xy /(nx − x) (18)
()
∑∑∑ ∑ ∑
 
 
b =−xm y (19)
∑ ∑
 
n
where
y is the dependent variable;
x is the independent variable;
m is the slope of the estimated line;
b is the y intercept of the estimated line;
Σx is the sum of x values, etc.;
n is the number of observations of x and y.
This standard deviation of m and the standard error of the expression are often of interest and can be calculated
easily (see References [6][8][10]). One problem with linear regression is that all the errors are assumed to be
associated with the dependent variable, y, and this might not be a reasonable assumption. A variation of the
linear regression approach is available, assuming that the fitting equation passes through the origin. In this case,
only one adjustable parameter will result from the fit. It is possible to use statistical tests, such as the F-test,
to compare the goodness of fit between this approach and the two adjustable parameter fits described above.
7.3 Polynomial regression
Polynomial regression analysis is used to fit data to a polynomial equation of the following form:
ya=+bx++cx dx +. (20)
where
a, b, c, d are the adjustable constants used to fit the data set;
x is the observed independent variable;
y is the observed dependent variable.
The equations required to carry out the calculation of the best-fit constants are complex and best handled by
a computer. It is usually desirable to run a series of expressions and compute the residual variance for each
expression to find the simplest expression fitting the data.
7.4 Multiple regression
Multiple-regression analysis is used when data sets involving more than one independent variable are
encountered. An expression of the following form is desired in a multiple linear regression:
ya=+bx ++bx bx +. (21)
11 22 44
where
a, b , b , b , . are the adjustable constants used to obtain the best fit of the data set;
1 2 4
x , x , x , . are the observed independent variables;
1 2 4
y
is the observed dependent variable.
Because of the complexity of this problem, it is generally handled with the help of a computer. One strategy
is to compute the value of all the “b’s,” together with standard deviation for each “b”. It is usually necessary to
10 © ISO 2012 – All rights reserved

run several regression analyses, dropping variables, to establish the relative importance of the independent
variables under consideration.
8 Analysis of variance
8.1 Comparison of effects
Analysis of variance is useful to determine the effect of a number of variables on a measured value when a
small number of discrete levels of each independent variable is studied (see References [6], [8], [10], [11] and
[12]). This is best handled by using a factorial or similar experimental design to establish the magnitude of the
effects associated with each variable and the magnitude of the interactions between the variables.
8.2 The two-level factorial design
8.2.1 The two-level factorial design experiment is an excellent method for determining which variables have
an effect on the outcome.
8.2.2 Each time an additional variable is to be studied, twice as many experiments are required to complete the
two-level factorial design. When many variables are involved, the number of experiments becomes prohibitive.
8.2.3 Fractional replication can be used to reduce the amount of testing. When this is done, the amount of
information that can be obtained from the experiment is also reduced.
9 Extreme value statistics
9.1 Scope of this clause
9.1.1 Extreme-value statistics provide a powerful method for analysing localized corrosion data, and especially
for estimating pit depth. The maximum pit depth is more important than the average pit depth because perforation
is caused by the deepest pit (see References [5][13][16][18]).
9.1.2 The normal (Gausian), Poisson, binomial, exponential and log–normal distributions are often observed
in engineering data. The largest or the smallest values from these original distributions make another group of
distributions, called extreme-value distributions. There are three types of extreme value distributions which are
asymptotic limiting forms of the original distribution for large samples. Type I for the largest value is called the
Gumbel, or doubly exponential, distribution and is often observed for the distribution of the deepest pits. Type III
for the smallest value is called the Weibull distribution which is widely used for analysing failure life data in the
field of reliability engineering. The procedure for estimating the parameters of the Gumbel distribution presented
here can also be applied to the Weibull distribution.
9.1.3 This method allows for the estimation of the parameters of the Gumbel distribution. The maximum pit-
depth perforation probability for a large area of given thickness can be estimated from the Gumbel distribution
observed for small areas.
9.2 Gumbel distribution and its probability paper
When the pit depths obey an exponential type of distribution, as is typical, the maximum pit depths obey the
Gumbel distribution (see Reference [13]). The cumulative distribution function, F(x), for a random variable x with
a Gumbel distribution is given by a doubly exponential function:
 
Fx =−expexp −−x λα (22)
() ()
{}
 
where
λ is the location parameter;
α is the scale parameter.
A normalized variable, y, is defined as:
yx=−λα/ (23)
()
Then F(y) becomes:
 
Fy =−expexp −y (24)
() ()
 
Figure 1 is a Gumbel probability plot showing x and y scales along with F(y). The value of x corresponding to
y = 0 or F(y) = 0,368 corresponds to λ, while the slope corresponds to α. The scale T on the right is the return
period defined by:
Fy =−11/T (25)
()
If T ≥ 18, T can be expressed as:
yT= ln (26)
()
When one evaluates the maximum pit depth over the total area, A, from sampling blocks of small area, a,
T is given by:
TA= /a (27)
T is then an index to indicate the area effect.
12 © ISO 2012 – All rights reserved

Figure 1 — Gumbel probability paper and its coordinates
9.3 Estimation of distribution parameters
9.3.1 Data collection
The surface area A is the total surface area in the equipment in question. It is essential that the corrosion
environment over A be uniform in order that random samples within a are statistically homogeneous. If there
are any doubts, the area should be split up into suitable blocks to provide homogeneity within each. With A
defined as above, N blocks, each with area a, are selected at random for sampling. Appropriate measurements
are made on the N blocks to determine the maximum pit depth for each block. Often, the maximum depths
cannot be determined for all blocks, for example the depths in certain blocks may be less than the limit of
measurement. The actual number of data sets n can thus be less than N. The measured maximum depths x ,
x , …, x are ranked in the order from the largest, x , to the smallest, x . The cumulative probability, F(y), is
2 n 1 n
derived from the average-rank method by
i
Fy =−1 (28)
()
()N +1
A linearity test is then applied to the x and F(y) or y plots.
9.3.2 Distribution parameter estimation
9.3.2.1 Probability paper evaluation
The best-fit line is drawn and the intercept on the x-axis is taken as λ and the slope as α.
9.3.2.2 Use of a linear unbiased estimator
[14] [15]
Such a linear unbiased estimator may be of the type proposed by Lieblein and White to define the best-fit
line in such plots:
α = bN(),nx (29)
ii

α = aN(),nx (30)
ii

[16]
One can derive a (N,n) and b (N,n) here from the MVLUE coefficient tables , a part of which is presented in
i i
Table 1. One can next estimate λ and α from the equations shown above.
The extreme value, x , is the maximum pit depth expected for the total area, A, and may be determined from
max
the intercept between the extrapolated best fit line and the return period, T:
xT=+λαln() (31)
max
9.3.3 Probability distribution of x and perforation probability
max
The variable x is a random variable, and its associated cumulative distribution function, F (x), is determined
max max
from T specimens, in which a Gumbel distribution F(x) applies for x:
 
Fx =−expexp −−xTλα+ ln  /α (32)
() ()
max }
{  
 
The Gumbel distribution for x is identical to that of F(x), while the location parameter is greater than the λ in
max
F(x) by α lnT. If the wall thickness is d, the perforation probability P is:
Pd=−1exp −−expl λα+ n/T α (33)
()
{}
 
Figure 2 shows the relationship between F(x) and F (x)·x for the total can be calculated as:
max max
xT=+λαln (34)
max
This equation can be used to obtain P.
9.3.4 Estimating the deviation of x from the distribution
max
Figure 2 — Estimation of perforation probability, P, from Gumbel plot
The parameters in F(x) are determined from the fitted line for the sample data, but there is no guarantee that
those data give a distribution representing that for the population, so it is essential that the probable error be
estimated. In the linear unbiased estimator method, the error variance, V(x), is given by:
 
Vx =α AN,,ny +BN ny +CN,n (35)
() () () ()
 
in which A(N,n), B(N,n) and C(N,n) are derived from the MVLUE tables(Reference [16]), as shown in Table 2.
14 © ISO 2012 – All rights reserved
...


NORME ISO
INTERNATIONALE 14802
Première édition
2012-07-15
Corrosion des métaux et alliages —
Lignes directrices pour l’application
des statistiques à l’analyse des
données de corrosion
Corrosion of metals and alloys — Guidelines for applying statistics to
analysis of corrosion data
Numéro de référence
©
ISO 2012
DOCUMENT PROTÉGÉ PAR COPYRIGHT
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord écrit
de l’ISO à l’adresse ci-après ou du comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2012 – Tous droits réservés

Sommaire Page
Avant-propos . v
1 Domaine d’application . 1
2 Signification et usage . 1
3 Dispersion des données . 1
3.1 Distributions . 1
3.2 Histogrammes . 1
3.3 Distribution normale . 2
3.4 Papier de probabilité normale . 2
3.5 Autre papier de probabilité . 2
3.6 Distribution inconnue . 3
3.7 Analyse des valeurs extrêmes . 3
3.8 Chiffres significatifs . 3
3.9 Propagation de la variance . 3
3.10 Erreurs . 3
4 Mesures centrales . 4
4.1 Moyenne . 4
4.2 Valeur médiane . 4
4.3 Laquelle utiliser . 4
5 Mesures de la variabilité . 4
5.1 Généralités . 4
5.2 Variance . 5
5.3 Écart-type . 5
5.4 Coefficient de variation . 5
5.5 Étendue . 6
5.6 Précision . 6
5.7 Erreur systématique . 6
6 Essais statistiques . 7
6.1 Hypothèse nulle . 7
6.2 Degrés de liberté . 7
6.3 Essai t . 7
6.4 Essai F . 9
6.5 Coefficient de corrélation . 9
6.6 Essai du signe . 9
6.7 Dénombrement extérieur .10
7 Ajustement de courbe — Méthode des moindres carrés .10
7.1 Réduction de la variance .10
7.2 Régression linéaire — 2 variables .10
7.3 Régression polynomiale . 11
7.4 Régression multiple . 11
8 Analyse de variance .12
8.1 Comparaison des effets .12
8.2 Le plan factoriel à deux niveaux .12
9 Statistiques des valeurs extrêmes .12
9.1 Domaine d’application du présent article .12
9.2 Distribution de Gumbel et son papier de probabilité .12
9.3 Estimation des paramètres de distribution .14
9.4 Rapport d’essai .15
9.5 Autres sujets .16
Annexe A (informative) Exemples de calculs .47
Bibliographie .61
iv © ISO 2012 – Tous droits réservés

Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes nationaux de
normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est en général confiée aux
comités techniques de l’ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du comité
technique créé à cet effet. Les organisations internationales, gouvernementales et non gouvernementales,
en liaison avec l’ISO participent également aux travaux. L’ISO collabore étroitement avec la Commission
électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives ISO/CEI, Partie 2.
La tâche principale des comités techniques est d’élaborer les Normes internationales. Les projets de Normes
internationales adoptés par les comités techniques sont soumis aux comités membres pour vote. Leur publication
comme Normes internationales requiert l’approbation de 75 % au moins des comités membres votants.
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de droits
de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable de ne pas avoir
identifié de tels droits de propriété et averti de leur existence.
L’ISO 14802 a été élaborée par le comité technique ISO/TC 156, Corrosion des métaux et alliages.
NORME INTERNATIONALE ISO 14802:2012(F)
Corrosion des métaux et alliages — Lignes directrices pour
l’application des statistiques à l’analyse des données de corrosion
1 Domaine d’application
La présente Norme internationale donne des recommandations concernant des méthodes d’analyse statistique
généralement acceptées qui sont utiles pour l’interprétation des résultats d’essai de corrosion. La présente
Norme internationale ne traite pas des calculs et des méthodes détaillés, mais plutôt d’un éventail d’approches
qui ont trouvé une application dans les essais de corrosion. Seules les méthodes statistiques largement
acceptées pour les essais de corrosion ont été prises en compte dans la présente Norme internationale.
2 Signification et usage
Les résultats des essais de corrosion montrent souvent une dispersion plus importante que d’autres types
d’essais à cause de divers facteurs, dont le fait que des impuretés mineures jouent souvent un rôle décisif dans
la maîtrise des vitesses de corrosion. L’analyse statistique peut être très utile, car elle permet aux opérateurs
d’interpréter de tels résultats, surtout lorsque des résultats d’essai montrent des différences significatives entre
eux. Cela peut être une tâche difficile lorsque plusieurs matériaux sont soumis à l’essai, mais les méthodes
statistiques fournissent une approche rationnelle de ce problème.
Les programmes modernes de réduction des données associés à l’outil informatique permettent d’effectuer,
avec une relative simplicité, des analyses statistiques sophistiquées sur des ensembles de données. Cette
capacité permet aux opérateurs de déterminer s’il existe des associations entre plusieurs variables et, le cas
échéant, de développer des expressions quantitatives liant les variables.
L’évaluation statistique est une étape nécessaire de l’analyse des résultats à partir de tout mode opératoire qui
fournit des informations quantitatives. Cette analyse permet l’estimation des intervalles de confiance à partir
des résultats mesurés.
3 Dispersion des données
3.1 Distributions
Dans le mesurage des valeurs associées à la corrosion des métaux, divers facteurs entrent en jeu pour
produire des valeurs mesurées qui s’écartent des valeurs attendues pour les conditions existantes. En général,
les facteurs qui contribuent à la dispersion des valeurs mesurées s’appliquent de manière plus ou moins
aléatoire, de sorte que la moyenne de plusieurs valeurs est une meilleure estimation de la valeur attendue
qu’une seule mesure. L’allure de la dispersion des données est appelée sa distribution, et diverses distributions
apparaissent dans les travaux liés à la corrosion, telles que les distributions normale, log-normale, binomiale,
de Poisson et des valeurs extrêmes, dont les distributions de Gumbel et Weibull.
3.2 Histogrammes
Un graphique à barres, nommé histogramme, peut être utilisé pour afficher la dispersion des données. Un
histogramme est construit en divisant l’étendue des valeurs des données en intervalles égaux sur l’axe des
abscisses, puis en plaçant sur chaque intervalle une barre de hauteur égale au nombre de points de données
compris dans cet intervalle.
Le nombre d’intervalles, k, peut être calculé à l’aide de l’Équation (1) suivante:
kn=+13,l32 og (1)
()
où n est le nombre total de données.
3.3 Distribution normale
De nombreuses techniques statistiques sont basées sur la distribution normale. Cette distribution est en forme
de cloche et symétrique. L’utilisation des techniques d’analyse développées pour la distribution normale sur
des données distribuées d’une autre manière peut entraîner des conclusions grossièrement fausses. Ainsi,
avant d’essayer d’analyser les données, il convient de vérifier que celles-ci sont bien dispersées suivant une
distribution normale ou d’utiliser une transformation pour obtenir un ensemble de données distribué de manière
approximativement normale. Les données transformées peuvent être analysées statistiquement et les résultats
transformés dans le sens inverse pour obtenir les résultats souhaités, bien que le processus de transformation
inverse des données puisse créer des problèmes dus à l’absence de symétrie des intervalles de confiance.
3.4 Papier de probabilité normale
3.4.1 Si l’histogramme ne confirme pas en termes de forme de la distribution, les données peuvent être
examinées de manière plus approfondie, pour voir si elles suivent une distribution normale, en traçant un
graphique de probabilité normale conformément à la description suivante (voir Référence [2]).
3.4.2 Si du papier de probabilité normale est disponible, le plus simple est de tracer un graphique de probabilité
normale. Sur ce papier figurent un axe linéaire et un axe conçu pour refléter la forme de l’aire cumulée sous
la distribution normale. En pratique, l’axe des «probabilités» porte 0,5 ou 50 % en son milieu, un nombre
approchant 0 % à une extrémité et un nombre approchant 1,0 ou 100 % à l’autre extrémité. Les graduations
sont serrées au centre et plus espacées aux deux extrémités. Un graphique de probabilité normale peut être
tracé de la manière suivante avec du papier de probabilité normale.
NOTE Si les données sont alignées sur le diagramme de probabilité, on peut considérer qu’elles sont distribuées
normalement. Un écart par rapport à une distribution normale peut être reconnu par la présence d’écarts par rapport à
une ligne droite, généralement plus marqués aux valeurs extrêmes des données.
3.4.2.1 Réorganiser les données par ordre d’amplitude, de la plus petite à la plus grande, et leur associer les
numéros 1, 2, …, i, ., n, qui représentent ce qui est nommé le rang des points.
3.4.2.2 Pour tracer la valeur de rang i sur le papier de probabilité normale, calculer la position de tracé du
«point milieu», F(x ), définie par l’équation suivante:
i
100 i −½
()
Fx = (2)
()
i
n
3.4.2.3 Les points de donnée [x , F(x )] peuvent être tracés sur le papier de probabilité normale.
i i
NOTE Parfois, deux valeurs identiques ou plus sont obtenues dans un ensemble de résultats. Dans ce cas, chaque point
peut être tracé ou un point composite peut être placé à la moyenne des positions de traçage pour toutes les valeurs identiques.
Il est recommandé d’utiliser le graphique de probabilité car il s’agit d’un outil puissant permettant une meilleure
compréhension de la population que les conclusions traditionnelles ne s’appuyant que sur la moyenne et
l’écart-type.
3.5 Autre papier de probabilité
Si l’histogramme n’est pas symétrique et en forme de cloche, ou si le graphique de probabilité indique une non-
linéarité, une transformation peut être utilisée pour obtenir un nouvel ensemble de données transformé qui peut
suivre une distribution normale. Bien qu’il soit parfois possible de deviner le type de distribution en regardant
l’histogramme, et de déterminer ainsi la transformation exacte à utiliser, il est généralement aussi simple d’utiliser
un ordinateur pour calculer un certain nombre de transformations différentes et de vérifier la normalité des
données transformées pour chacune. Une liste de transformations basées sur des distributions non normales
connues, ou dont il est reconnu qu’elles fonctionnent dans certaines situations, est fournie ci-après:
2 © ISO 2012 – Tous droits réservés

y = log x y = exp x
0,5 2
y = x y = x
−1 0,5
y = 1/x y = sin (x/n)

y est la donnée transformée;
x est la donnée d’origine;
n est le nombre de points de données.
Le temps à rupture en corrosion sous contrainte est souvent ajusté à l’aide d’une transformation en log x (voir
Références [3], [4]).
Une fois qu’un ensemble de données transformées produisant une ligne presque droite sur un graphique
de probabilité a été trouvé, les modes opératoires statistiques d’intérêt peuvent être appliqués aux données
transformées. Il est primordial que les résultats, tels que les valeurs prévues ou les intervalles de confiance,
soient soumis à la transformation inverse.
3.6 Distribution inconnue
3.6.1 Généralités
Si le nombre de points de données est insuffisant, ou si, pour toute autre raison, le type de distribution des
données ne peut pas être déterminé, il existe deux possibilités en ce qui concerne l’analyse.
3.6.1.1 Un type de distribution peut faire l’objet d’une hypothèse basée sur le comportement de types de
données similaires. Si la distribution n’est pas normale, une transformation qui normalisera cette distribution
particulière peut être recherchée. Voir 3.5 pour des suggestions. Une analyse pourra alors être effectuée sur les
données transformées.
3.6.1.2 Des modes opératoires d’analyse statistique ne nécessitant aucun type de distribution de données
spécifique, connus sous le nom de méthodes non paramétriques, peuvent être utilisés pour analyser les
données. Les essais non paramétriques n’utilisent pas les données aussi efficacement.
3.7 Analyse des valeurs extrêmes
Dans le cas de la détermination de la probabilité de perforation par un mécanisme de piqûration ou de
fissuration, les statistiques descriptives habituelles pour la distribution normale ne sont pas les plus utiles. Il
convient d’utiliser plutôt les statistiques des valeurs extrêmes (voir Référence [5]).
3.8 Chiffres significatifs
Il convient d’utiliser le nombre approprié de chiffres significatifs lors de la consignation des résultats numériques.
3.9 Propagation de la variance
Si une valeur calculée est une fonction de plusieurs variables indépendantes et que des erreurs sont associées
à ces variables, l’erreur de la valeur calculée peut être estimée par une technique de propagation de la variance.
Voir les Références [6] et [7] pour de plus amples détails.
3.10 Erreurs
Les erreurs dans la réalisation d’une expérience ou dans les calculs ne sont pas une caractéristique de la
population et peuvent empêcher le traitement statistique des données ou mener à des conclusions erronées si
elles sont incluses dans l’analyse. Parfois, des erreurs peuvent être identifiées par des méthodes statistiques,
en reconnaissant que la probabilité d’obtenir un résultat spécifique est très faible. De cette manière, les
observations aberrantes peuvent être identifiées et prises en compte.
4 Mesures centrales
4.1 Moyenne
L’emploi de plusieurs mesurages (répétés) indépendants de toute quantité expérimentale est une pratique
acceptée pour améliorer l’estimation de la précision et réduire la variance de la valeur moyenne. S’il est
supposé que les processus en jeu pour la création de l’erreur de mesure sont de nature aléatoire et que les
probabilités de surestimer ou de sous-estimer la valeur inconnue sont égales, la valeur moyenne est alors
la meilleure estimation de la valeur inconnue en question. La valeur moyenne est généralement indiquée en
plaçant une barre au-dessus du symbole représentant la variable mesurée et est calculée par
x
i
x = (3)

n
NOTE Dans la présente Norme internationale, l’expression «moyenne d’une population» est réservée à la description
d’une mesure centrale d’une population, alors que «moyenne» se rapporte à un échantillon.
4.2 Valeur médiane
Si les processus en jeu mènent à une exagération de l’amplitude de l’erreur, qu’il s’agisse d’une surestimation ou
d’une sous-estimation de la mesure correcte, la valeur médiane fournit généralement une meilleure estimation.
La valeur médiane, x , est définie comme étant la valeur située au milieu de toutes les données et peut être
m
déterminée à partir de la donnée de rang m.
xnpour un nombre pair, , de points de données
 n/2
x = (4)

m
x pour un nombre impair, n, de points de données
()n+1 /22


4.3 Laquelle utiliser
Si les processus en jeu à l’origine de l’erreur affectent aussi bien la probabilité que l’amplitude de l’erreur,
d’autres méthodes doivent être employées pour trouver le meilleur mode opératoire d’estimation. Dans ce cas,
il convient de consulter un statisticien qualifié.
Pour les essais de corrosion, on observe généralement que les valeurs moyennes sont pertinentes pour la
caractérisation des vitesses de corrosion. Dans les cas de pénétration par piqûration et fissuration, une défaillance
est souvent définie comme étant la première pénétration traversante et, dans ces cas, des vitesses ou des temps
de pénétration moyens n’ont que peu de valeur. L’analyse des valeurs extrêmes est utilisée dans ces cas-là.
Si la valeur moyenne est calculée et consignée comme seul résultat des expériences lorsque plusieurs
mesurages répétés ont eu lieu, les informations concernant la dispersion des données sont perdues.
5 Mesures de la variabilité
5.1 Généralités
Plusieurs mesures de la variabilité d’une distribution sont disponibles et peuvent être utiles pour l’estimation
des intervalles de confiance et la réalisation de prévisions à partir des données observées. Dans le cas
d’une distribution normale, plusieurs modes opératoires sont disponibles et peuvent être manipulés à l’aide
de programmes informatiques. Les mesures suivantes en font partie: variance, écart-type et coefficient de
variation. L’étendue est une estimation non paramétrique utile de la variabilité et peut être utilisée pour la
distribution normale ainsi que pour les autres.
4 © ISO 2012 – Tous droits réservés

5.2 Variance
La variance, σ , peut être estimée, pour un ensemble de données expérimentales de n observations, en
calculant la variance estimée de l’échantillon, S , en supposant que toutes les observations sont soumises aux
mêmes erreurs:
d ()xx−
∑∑ i
S = = (5)
()n−11()n−

d est la différence entre la moyenne et la valeur mesurée;
n − 1 est le nombre de degrés de liberté disponibles.
La variance est une mesure utile car elle est additive dans les systèmes qui peuvent être décrits par une
distribution normale, mais la dimension de la variance est le carré de l’unité. Un mode opératoire connu sous
le nom d’analyse de la variance (ANOVA) a été développé pour les ensembles de données impliquant plusieurs
facteurs à différents niveaux, afin d’estimer les effets de ces facteurs.
5.3 Écart-type
L’écart-type, σ, est défini comme la racine carrée de la variance. Il présente la propriété d’avoir la même
dimension que la valeur moyenne et que les mesures originales à partir desquelles il a été calculé et il est
généralement utilisé pour décrire la dispersion des observations.
L’écart-type d’une moyenne est différent de l’écart-type d’une valeur mesurée seule, mais les deux écarts-
types sont liés par l’équation suivante:
S
S = (6)
x
n
où n est le nombre total de mesures utilisées pour calculer la valeur moyenne.
Lors de la consignation des calculs de l’écart-type, il est important de noter clairement si la valeur reportée est
l’écart-type de la moyenne ou d’une valeur seule. Dans les deux cas, il convient également de consigner le
nombre de mesures. L’estimation de l’écart-type pour un échantillon est S.
5.4 Coefficient de variation
Le coefficient de variation d’une population est défini comme l’écart-type divisé par la moyenne de la
population. Le coefficient de variation de l’échantillon peut être calculé par S/x et est généralement exprimé
en pourcentage. Cette mesure de la variabilité est particulièrement utile dans les cas où l’amplitude des
erreurs est proportionnelle à l’amplitude de la valeur mesurée, de sorte que le coefficient de variation est
approximativement constant sur une large étendue de valeurs.
5.5 Étendue
L’étendue, w, est définie comme étant la différence entre les valeurs maximale, x , et minimale, x , dans
max min
un ensemble de valeurs répétées. L’étendue est non paramétrique par nature, c’est-à-dire que son calcul ne
s’appuie sur aucune supposition concernant la distribution de l’erreur.
wx=−x (7)
maxmin
Dans les cas où un petit nombre de valeurs répétées sont impliquées et où les données suivent une distribution
normale, l’étendue peut être utilisée pour estimer l’écart-type à l’aide de la relation:
w
S = (8)
n

S est l’écart-type estimé de l’échantillon;
w est l’étendue;
n est le nombre d’observations.
L’étendue a la même dimension que l’écart-type.
5.6 Précision
5.6.1 Généralités
La précision est la proximité de concordance entre des mesures individuelles ou des résultats d’essai choisis
aléatoirement. L’écart-type de l’erreur de mesure peut être utilisé comme mesure de l’imprécision.
5.6.1.1 Un aspect de la précision concerne la capacité d’un opérateur ou d’un laboratoire à reproduire une
mesure obtenue préalablement au même endroit et avec la même méthode. Cet aspect est parfois nommé
répétabilité.
5.6.2.1 Un autre aspect de la précision concerne la capacité de différents opérateurs et laboratoires à
reproduire la mesure. Cet aspect est parfois nommé reproductibilité.
5.7 Erreur systématique
5.7.1 Généralités
L’erreur systématique est la proximité de concordance entre une valeur observée et une valeur de référence
acceptée. Lorsqu’elle est appliquée à des observations individuelles, l’erreur systématique est une combinaison
d’une composante aléatoire et d’une composante due à une erreur systématique. Dans ces circonstances, la
précision comporte des éléments de reproductibilité et d’erreur systématique. L’erreur systématique se rapporte
à la tendance d’une technique de mesure à sous-estimer ou surestimer. Dans les cas où une quantité spécifique
telle que la vitesse de corrosion est estimée, une erreur systématique quantitative peut être déterminée.
5.7.1.1 Les méthodes d’essai de la corrosion destinées à simuler les conditions de service, par exemple, les
environnements naturels, produisent souvent une sévérité de corrosion et un classement relatif des performances
des matériaux différents, par rapport à la sévérité et au classement dans les conditions que simule l’essai.
Cela est particulièrement vrai pour les modes opératoires d’essai qui produisent rapidement des dommages par
comparaison à l’expérience en service. Dans de tels cas, il est important d’établir la correspondance entre les
résultats dans l’environnement de service et les résultats d’essai pour la classe de matériaux concernée. Dans
ce cas, l’erreur systématique se rapporte à la variation de l’accélération de la corrosion pour différents matériaux.
6 © ISO 2012 – Tous droits réservés

5.7.1.2 Un autre type de méthode d’essai de la corrosion mesure une caractéristique qui est liée à la tendance
que présente un matériau à subir une forme de dommage par corrosion, par exemple, le potentiel de piqûration.
L’erreur systématique de ce type d’essai se rapporte à l’incapacité de l’essai à classer convenablement les
matériaux auxquels il est appliqué par rapport aux résultats en service.
6 Essais statistiques
6.1 Hypothèse nulle
Les essais statistiques selon le principe de l’hypothèse nulle sont généralement réalisés en posant une
hypothèse de la forme: la distribution des données soumises à l’essai n’est pas significativement différente
d’une distribution postulée. Il est nécessaire d’établir une probabilité qui sera acceptable pour le rejet de
l’hypothèse nulle. Dans le cadre de travaux expérimentaux, il est d’usage d’utiliser des probabilités de 0,05 ou
0,01 pour le rejet de l’hypothèse nulle.
6.1.1 Les erreurs de type I se produisent lorsque l’hypothèse nulle est rejetée à tort. La probabilité de rejet à
tort d’une hypothèse nulle est décrite comme le seuil de signification et est souvent désignée par α.
6.1.2 Les erreurs de type II se produisent lorsque l’hypothèse nulle est acceptée à tort. Si le seuil de
signification est fixé trop bas, la probabilité d’une erreur de type II, β, grandit. Lorsqu’une valeur de α est fixée,
la valeur de β est également fixée. Avec une valeur fixée de β, il n’est possible de diminuer β qu’en augmentant
la taille de l’échantillonnage, en supposant qu’aucun autre facteur ne peut être modifié pour améliorer l’essai.
6.2 Degrés de liberté
Le nombre de degrés de liberté d’un essai statistique se rapporte au nombre de mesurages indépendants qui
sont disponibles pour le calcul.
6.3 Essai t
La statistique t peut être exprimée sous la forme:
x −μ
t = (9)
Sx
()

est la moyenne de l’échantillon;
x
µ
est la moyenne de la population;
est l’écart-type estimé de la moyenne de l’échantillon.
Sx
()
La distribution t est généralement organisée en fonction des seuils de signification et des degrés de liberté.
6.3.1 L’essai t peut être utilisé pour mettre à l’essai l’hypothèse nulle:
m = µ
Par exemple, la valeur m n’est pas significativement différente de µ, la moyenne de la population. L’essai t est alors:
xm−
t = (10)
Sx
()
n
La valeur calculée de t peut être comparée à la valeur de t pour le nombre de degrés de liberté, n, et au seuil
de signification.
6.3.2 La statistique t peut être utilisée pour obtenir un intervalle de confiance pour une valeur inconnue, par
exemple la valeur d’une vitesse de corrosion calculée à partir de plusieurs mesures indépendantes:
xt− Sx <<μ xt+ Sx (11)
() ()
() ()
où tS x représente l’intervalle de confiance de demi-largeur associé au seuil de confiance choisi.
()
6.3.3 L’essai t est souvent utilisé pour déterminer s’il existe une différence importante entre deux moyennes
d’échantillon. Dans ce cas, l’expression devient:
xx−
t = (12)
Sx +
()
nn

sont les moyennes des échantillons;
x et x
1 2
n et n sont les nombres de mesures utilisées pour les calculs respectifs de x et x ;
1 2 1 2
S(x) est l’estimation pondérée de l’écart-type des deux ensembles de données.
c’est-à-dire
2 2
()nS−+11()xn()− Sx()
1 12 2
Sx()= (13)
nn+−2
6.3.4 Essai t unilatéral. La fonction t est symétrique et peut prendre des valeurs positives aussi bien que
négatives. Dans les exemples ci-dessus, seules les valeurs absolues des différences ont été discutées. Dans
certains cas, une hypothèse nulle de la forme:
µ > m
ou
µ < m
peut être souhaitée. Ceci est connu sous le nom d’essai t unilatéral et le seuil de signification associé à cette
valeur t est la moitié de celle d’un t bilatéral.
8 © ISO 2012 – Tous droits réservés

6.4 Essai F
L’essai F est utilisé pour déterminer si la variance associée à une variable x est significativement différente
d’une variance associée à une variable x . La statistique F est alors:
Fx xS= x (14)
()
12 2
L’essai F est une composante importante de l’analyse de la variance utilisée dans les plans expérimentaux.
Les valeurs de F sont organisées en fonction des seuils de signification et des degrés de liberté pour les deux
variables. Dans les cas où les données ne suivent pas une distribution normale, la méthode de l’essai F peut
montrer à tort un effet important à cause de la distribution non normale plutôt qu’une différence réelle des
variances en comparaison.
6.5 Coefficient de corrélation
Le coefficient de corrélation, r, est une mesure de l’association linéaire entre deux variables aléatoires. Les
coefficients de corrélation varient entre −1 et +1 et plus ils sont proches de −1 ou de +1, meilleure est la
corrélation. Le signe du coefficient de corrélation indique simplement si la corrélation est positive (y augmente
avec x) ou négative (y diminue quand x augmente). Le coefficient de corrélation, r, est donné par:
xx− yy− xy − nxy
()()
∑ ii ∑ ii
r = = (15)
½
22 2 2 ½
   
()xx−−yy
()
xn− xy( −− ny )
∑∑ii
  ()∑ ii∑
 
 

x sont les valeurs observées de la variable aléatoire x;
i
y sont les valeurs observées de la variable aléatoire y;
i
x est la valeur moyenne de x;
y est la valeur moyenne de y;
n est le nombre d’observations.
En général, les valeurs de r sont préférables car elles permettent d’éviter le problème du signe et elles
sont en relation directe avec la variance. Les valeurs de r ou de r ont été organisées pour différents seuils
de signification et degrés de liberté. En général, il est souhaitable de consigner les valeurs de r ou de r en
présentant des analyses de corrélation et de régression.
NOTE Le mode opératoire de calcul des coefficients de corrélation ne requiert pas que les variables x et y soient
aléatoires et, en conséquence, certains opérateurs ont utilisé le coefficient de corrélation comme indication de l’adéquation
de l’ajustement des données dans une analyse de régression.
Cependant, l’essai de signification utilisant le coefficient de corrélation nécessite que les valeurs x et y soient des variables
indépendantes d’une population mesurées sur des échantillons choisis aléatoirement.
6.6 Essai du signe
L’essai du signe est un essai non paramétrique utilisé dans les ensembles ou les données appariées pour
déterminer si l’un des composants de la paire est constamment plus grand que l’autre (voir Référence [9]).
Dans cette méthode d’essai, les valeurs des paires de données sont comparées et, si la première valeur est
plus grande que la seconde, un signe plus est enregistré. Si le second terme est plus grand, un signe moins
est enregistré. Si les deux sont égaux, aucun signe n’est enregistré. Le nombre total de signes plus, P, et de
signes moins, N, est calculé. La signification est déterminée par l’essai suivant:
PN−> kP+N (16)

k est une fonction du seuil de signification comme suit:
Seuil de
k
signification
1,6 0,10
2,0 0,05
2,6 0,01
L’essai du signe ne dépend pas de l’amplitude de la différence et peut donc être utilisé dans les cas où les
statistiques normales ne conviennent pas ou sont impossibles à appliquer.
6.7 Dénombrement extérieur
L’essai de dénombrement extérieur est une technique non paramétrique utile pour évaluer si l’amplitude de l’un
de deux ensembles de données dont le nombre de valeur est approximativement le même est significativement
plus grande que l’autre. Les détails du mode opératoire peuvent être trouvés par ailleurs (voir Référence [9]).
7 Ajustement de courbe — Méthode des moindres carrés
7.1 Réduction de la variance
Il est souvent souhaitable de déterminer la meilleure expression algébrique pour ajuster un ensemble de
données en supposant qu’une erreur aléatoire suivant une distribution normale existe. Dans ce cas, le meilleur
ajustement sera obtenu lorsque la condition de variance minimale entre la valeur mesurée et la valeur calculée
est obtenue pour l’ensemble de données. Les modes opératoires utilisés pour déterminer les équations de
meilleur ajustement s’appuient sur ce concept. Des logiciels sont disponibles pour le calcul informatique des
équations de régression telles que les équations de régression linéaire, polynomiale et à plusieurs variables.
7.2 Régression linéaire — 2 variables
La régression linéaire est utilisée pour l’ajustement des données à une relation linéaire de la forme suivante:
ym=+xb (17)
Dans ce cas, le meilleur ajustement est donné par:
 
mn=−xy xy /(nx − x) (18)
()
∑∑∑ ∑ ∑
 
 
b =−xm y (19)
∑ ∑
 
n
10 © ISO 2012 – Tous droits réservés


y est la variable dépendante;
x est la variable indépendante;
m est la pente de la ligne estimée;
b est l’ordonnée à l’origine de la ligne estimée;
Σx est la somme des valeurs de x, .;
n est le nombre d’observations de x et y.
Cet écart-type de m et l’erreur-type de l’expression présentent souvent un intérêt et peuvent être calculés
facilement (voir Références [6], [8], [10]). La régression linéaire présente le problème que toutes les erreurs
sont supposées associées à la variable dépendante, y, et cela peut ne pas être une hypothèse raisonnable.
Une variation de la méthode de la régression linéaire est disponible, en supposant que l’équation d’ajustement
passe par l’origine. Dans ce cas, seul un paramètre ajustable résultera de l’ajustement. Il est possible d’utiliser
des essais statistiques, tels que l’essai F, pour comparer l’adéquation de l’ajustement entre cette méthode et
les deux ajustements de paramètres ajustables décrits ci-dessus.
7.3 Régression polynomiale
La régression polynomiale est utilisée pour l’ajustement des données à une relation polynomiale de la forme suivante:
ya=+bx++cx dx +. (20)

a, b, c, d sont les constantes ajustables à utiliser pour ajuster l’ensemble de données;
x
est la variable indépendante observée;
y
est la variable dépendante observée.
Les équations nécessaires pour la réalisation du calcul des constantes de meilleur ajustement sont complexes
et leur traitement informatique est préférable. Il est généralement souhaitable de considérer une série
d’expressions et de calculer la variance résiduelle pour chaque expression afin de trouver l’expression la plus
simple correspondant aux données.
7.4 Régression multiple
L’analyse de régression multiple est utilisée en présence d’ensembles de données impliquant plus d’une variable
indépendante. Une expression de la forme suivante est souhaitée pour une régression linéaire multiple:
ya=+bx +++bx bx . (21)
11 22 33

a, b , b , b , . sont les constantes ajustables utilisées pour obtenir le meilleur ajustement de l’ensemble
1 2 3
de données;
x , x , x , . sont les variables indépendantes observées;
1 2 3
y est la variable dépendante observée.
Du fait de la complexité de ce problème, il fait généralement l’objet d’un traitement informatique. Une stratégie
est de calculer les valeurs de tous les «b», avec l’écart-type de chaque «b». Il est en général nécessaire
d’effectuer plusieurs analyses de régression, en éliminant des variables, pour établir l’importance relative des
variables indépendantes considérées.
8 Analyse de variance
8.1 Comparaison des effets
L’analyse de variance est utile pour déterminer l’effet d’un certain nombre de variables sur une valeur mesurée
lorsqu’un petit nombre de niveaux discrets de chaque variable indépendante est étudié (voir Références [6],
[8], [10], [11], [12]). Le meilleur traitement fait appel à un plan expérimental factoriel ou semblable pour établir
l’amplitude des effets associés à chaque variable et l’amplitude des interactions entre les variables.
8.2 Le plan factoriel à deux niveaux
8.2.1 L’expérience suivant un plan factoriel à deux niveaux est une excellente méthode pour déterminer les
variables qui ont un effet sur le résultat.
8.2.2 À chaque fois qu’une variable supplémentaire doit être étudiée, le double d’expériences doit être réalisé
pour compléter le plan factoriel à deux niveaux. Lorsque de nombreuses variables sont impliquées, le nombre
d’expériences devient excessif.
8.2.3 La répétition fractionnelle peut être utilisée pour réduire le nombre d’essais. Une fois cela fait, la quantité
d’informations qui peuvent être obtenues par l’expérience est également diminuée.
9 Statistiques des valeurs extrêmes
9.1 Domaine d’application du présent article
9.1.1 Les statistiques des valeurs extrêmes fournissent une méthode puissante pour l’analyse des données de
corrosion localisée, et particulièrement pour l’estimation de la profondeur des piqûres. La profondeur maximale
de piqûre est plus importante que la profondeur moyenne de piqûre car la perforation est due à la piqûre la plus
profonde (voir Références [5], [13], [16], [18]).
9.1.2 Les distributions normale (de Gauss), de Poisson, binomiale, exponentielle et log-normale sont souvent
observées dans les données techniques. Les valeurs les plus grandes ou les plus petites de ces distributions
originales constituent un autre groupe de distributions, nommées distributions des valeurs extrêmes. Il existe
trois types de distributions des valeurs extrêmes, qui sont des formes limitantes asymptotiques de la distribution
originale pour des grands échantillons. Le type I, pour la plus grande valeur, est appelé distribution de Gumbel,
ou exponentielle double, et est souvent observé pour la distribution des piqûres les plus profondes. Le type III,
pour la plus petite valeur, est appelé distribution de Weibull, et est largement utilisé pour l’analyse des données
de durée de vie avant rupture dans le domaine de l’ingénierie de la fiabilité. Le mode opératoire présenté ici pour
l’estimation des paramètres de la distribution de Gumbel peut également être appliqué à la distribution de Weibull.
9.1.3 La présente méthode permet l’estimation des paramètres de la distribution de Gumbel. La probabilité
de perforation à la profondeur maximale de piqûre pour une grande surface d’épaisseur donnée peut être
estimée à partir de la distribution de Gumbel observée pour des petites surfaces.
9.2 Distribution de Gumbel et son papier de probabilité
Lorsque les profondeurs de piqûre obéissent à un type de distribution exponentiel, comme c’est généralement
le cas, les profondeurs maximales de piqûre obéissent à la loi de Gumbel (voir Référence [13]). La fonction de
12 © ISO 2012 – Tous droits réservés

distribution cumulée F(x) pour une variable aléatoire x suivant une distribution de Gumbel est donnée
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...