ISO/IEC 5259-1:2024
(Main)Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 1: Overview, terminology, and examples
Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 1: Overview, terminology, and examples
This document provides the means for understanding and associating the individual documents of the ISO/IEC 5259 series and is the foundation for conceptual understanding of data quality for analytics and machine learning. It also discusses associated technologies and examples (e.g. use cases and usage scenarios).
Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 1: Vue d'ensemble, terminologie et exemples
General Information
- Status
- Published
- Publication Date
- 01-Jul-2024
- Technical Committee
- ISO/IEC JTC 1/SC 42 - Artificial intelligence
- Drafting Committee
- ISO/IEC JTC 1/SC 42/WG 2 - Data
- Current Stage
- 6060 - International Standard published
- Start Date
- 02-Jul-2024
- Due Date
- 30-Apr-2024
- Completion Date
- 02-Jul-2024
Overview
ISO/IEC 5259-1:2024 - Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 1: Overview, terminology, and examples is the foundational part of the ISO/IEC 5259 series. Published July 2024, this first edition establishes a common conceptual basis and standardized terminology for data quality in the context of analytics, machine learning (ML) and AI projects. It clarifies how the parts of the 5259 series relate, introduces core concepts, and provides illustrative examples, use cases and usage scenarios to support consistent interpretation across organizations.
Key topics and technical coverage
ISO/IEC 5259-1 focuses on the following technical topics:
- Terminology and definitions: standardized terms such as data life cycle, data originator, data holder, data user, data quality, feature, data provenance, and data architecture.
- Data quality concepts for analytics and ML: discussion of data characteristics that create quality challenges, and considerations specific to ML and analytics workflows.
- Data quality concept framework: conceptual elements including data quality management, data quality governance, and data provenance as they apply to analytics and ML.
- Data life cycle (DLC) for analytics and ML: lifecycle model, stages from conception through discontinuation, and cross-stage processes relevant to data quality.
- Examples and scenarios: informative annex with use cases to illustrate application of concepts in real projects.
This part does not prescribe detailed measurement methods or prescriptive processes; those are addressed in subsequent parts of the series (e.g., models, measures, requirements, governance and visualization).
Practical applications and users
ISO/IEC 5259-1 is intended for stakeholders who need a common conceptual foundation for data quality in AI/ML contexts:
- Data scientists and ML engineers - to align expectations about data characteristics, provenance and lifecycle considerations.
- Data stewards and data governance leads - to frame governance, stewardship and provenance requirements.
- AI project managers and architects - to design processes and data architectures that meet recognized data quality concepts.
- Compliance, risk and audit teams - to interpret terminology and examples when assessing data quality controls and documentation.
- Tool and platform vendors - to ensure features (provenance tracking, data lineage, lifecycle support) align with recognized concepts.
Use cases include preparing training and evaluation datasets, designing data-sharing agreements, implementing data lineage/provenance, and integrating data quality thinking across ML life cycles.
Related standards (ISO/IEC 5259 series)
- ISO/IEC 5259-2 - data quality model, measures and reporting (builds on ISO 8000 / ISO/IEC 25012/25024)
- ISO/IEC 5259-3 - requirements and guidance for establishing and improving data quality processes
- ISO/IEC 5259-4 - organizational approaches for quality of training and evaluation data
- ISO/IEC 5259-5 - data quality governance framework
- ISO/IEC TR 5259-6 - visualization framework for data quality
Keywords: ISO/IEC 5259-1:2024, data quality, machine learning, analytics, data life cycle, data governance, data provenance, ML projects, ISO standard.
ISO/IEC 5259-1:2024 - Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 1: Overview, terminology, and examples Released:2. 07. 2024
ISO/IEC 5259-1:2024 - Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 1: Vue d'ensemble, terminologie et exemples Released:11. 07. 2025
REDLINE ISO/IEC 5259-1:2024 - Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 1: Vue d'ensemble, terminologie et exemples Released:11. 07. 2025
Frequently Asked Questions
ISO/IEC 5259-1:2024 is a standard published by the International Organization for Standardization (ISO). Its full title is "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 1: Overview, terminology, and examples". This standard covers: This document provides the means for understanding and associating the individual documents of the ISO/IEC 5259 series and is the foundation for conceptual understanding of data quality for analytics and machine learning. It also discusses associated technologies and examples (e.g. use cases and usage scenarios).
This document provides the means for understanding and associating the individual documents of the ISO/IEC 5259 series and is the foundation for conceptual understanding of data quality for analytics and machine learning. It also discusses associated technologies and examples (e.g. use cases and usage scenarios).
ISO/IEC 5259-1:2024 is classified under the following ICS (International Classification for Standards) categories: 01.040.35 - Information technology (Vocabularies); 35.020 - Information technology (IT) in general. The ICS classification helps identify the subject area and facilitates finding related standards.
You can purchase ISO/IEC 5259-1:2024 directly from iTeh Standards. The document is available in PDF format and is delivered instantly after payment. Add the standard to your cart and complete the secure checkout process. iTeh Standards is an authorized distributor of ISO standards.
Standards Content (Sample)
International
Standard
ISO/IEC 5259-1
First edition
Artificial intelligence — Data
2024-07
quality for analytics and machine
learning (ML) —
Part 1:
Overview, terminology, and
examples
Intelligence artificielle — Qualité des données pour les analyses
de données et l’apprentissage automatique —
Partie 1: Vue d'ensemble, terminologie et exemples
Reference number
© ISO/IEC 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
© ISO/IEC 2024 – All rights reserved
ii
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Symbols and abbreviated terms. 5
5 Data quality concepts for analytics and machine learning . 5
5.1 Data quality considerations for analytics and machine learning .5
5.1.1 General .5
5.1.2 Machine learning and data quality .5
5.1.3 Data characteristics that pose quality challenges for analytics and machine
learning .6
5.1.4 Data sharing, data re-use and data quality for analytics and machine learning .6
5.2 Data quality concept framework for analytics and machine learning .6
5.2.1 Overview .6
5.2.2 Data quality management .7
5.2.3 Data quality governance .10
5.2.4 Data provenance .10
5.3 Data life cycle for analytics and ML .10
5.3.1 Overview .10
5.3.2 Data life cycle model .10
5.3.3 Processes across the multiple stages . 13
Annex A (informative) Examples and scenarios .15
Bibliography .18
© ISO/IEC 2024 – All rights reserved
iii
Foreword
ISO (the International Organization for Standardization) and IEC (the International Electrotechnical
Commission) form the specialized system for worldwide standardization. National bodies that are
members of ISO or IEC participate in the development of International Standards through technical
committees established by the respective organization to deal with particular fields of technical activity.
ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations,
governmental and non-governmental, in liaison with ISO and IEC, also take part in the work.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of document should be noted. This document was drafted in accordance with the editorial rules of the ISO/
IEC Directives, Part 2 (see www.iso.org/directives or www.iec.ch/members_experts/refdocs).
ISO and IEC draw attention to the possibility that the implementation of this document may involve the
use of (a) patent(s). ISO and IEC take no position concerning the evidence, validity or applicability of any
claimed patent rights in respect thereof. As of the date of publication of this document, ISO and IEC had not
received notice of (a) patent(s) which may be required to implement this document. However, implementers
are cautioned that this may not represent the latest information, which may be obtained from the patent
database available at www.iso.org/patents and https://patents.iec.ch. ISO and IEC shall not be held
responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO's adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT) see www.iso.org/iso/foreword.html.
In the IEC, see www.iec.ch/understanding-standards.
This document was prepared by Joint Technical Committee ISO/IEC JTC 1, Information technology,
Subcommittee SC 42, Artificial intelligence.
A list of all parts in the ISO/IEC 5259 series can be found on the ISO and IEC websites.
Any feedback or questions on this document should be directed to the user’s national standards
body. A complete listing of these bodies can be found at www.iso.org/members.html and
www.iec.ch/national-committees.
© ISO/IEC 2024 – All rights reserved
iv
Introduction
Data are the raw material for analytics and machine learning (ML) and data quality is a critical aspect for
related analytics and ML projects and systems. The aim of the ISO/IEC 5259 series is to provide tools and
methods to assess and improve the quality of data used for analytics and ML.
Other parts of the ISO/IEC 5259 series include:
1)
— ISO/IEC 5259-2 provides a data quality model, data quality measures and guidance on reporting data
quality in the context of analytics and ML. ISO/IEC 5259-2 builds on the ISO 8000 series, ISO/IEC 25012
and ISO/IEC 25024.
The aim of ISO/IEC 5259-2 is to enable organizations to achieve their data quality objectives and is
applicable to all types of organizations.
— ISO/IEC 5259-3 specifies requirements and provides guidance for establishing, implementing,
maintaining and continually improving the quality for data used in the areas of analytics and ML.
ISO/IEC 5259-3 does not define detailed processes, methods or measurement. Rather it defines the
requirements and guidance for a quality management process along with a reference process and
methods that can be tailored to meet the requirements in ISO/IEC 5259-3.
The requirements and recommendations set out in ISO/IEC 5259-3 are generic and are intended to be
applicable to all organizations, regardless of type, size or nature.
— ISO/IEC 5259-4 provides general common organizational approaches, regardless of type, size or nature
of the applying organization, to ensure data quality for training and evaluation in analytics and ML. It
includes guidelines on the data quality process for:
— supervised ML with regard to the labelling of data used for training ML systems, including common
organizational approaches for training data labelling;
— unsupervised ML;
— semi-supervised ML;
— reinforcement learning;
— analytics.
ISO/IEC 5259-4 is applicable to training and evaluation data that come from different sources, including
data acquisition and data composition, data pre-processing, data labelling, evaluation and data use.
ISO/IEC 5259-4 does not define specific services, platforms or tools.
2)
— ISO/IEC 5259-5 provides a data quality governance framework for analytics and machine learning to
enable the governing bodies of organization to direct and oversee the implementation and operation of
data quality measures, management, and related processes with adequate controls throughout the DLC
model according to ISO/IEC 5259-1.
3)
— ISO/IEC TR 5259-6 describes a visualization framework for data quality in analytics and ML. The aim is
to enable stakeholders using visualization methods to access the results of data quality measures. This
visualization framework supports data quality goals.
1) Under preparation. Stage at the time of publication: ISO/IEC FDIS 5259-2:2024.
2) Under preparation. Stage at the time of publication: ISO/IEC DIS 5259-5:2023.
3) Under preparation. Stage at the time of publication: ISO/IEC CD TR 5259-6:2023.
© ISO/IEC 2024 – All rights reserved
v
International Standard ISO/IEC 5259-1:2024(en)
Artificial intelligence — Data quality for analytics and
machine learning (ML) —
Part 1:
Overview, terminology, and examples
1 Scope
This document provides the means for understanding and associating the individual documents of the
ISO/IEC 5259 series and is the foundation for conceptual understanding of data quality for analytics and
machine learning. It also discusses associated technologies and examples (e.g. use cases and usage scenarios).
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content constitutes
requirements of this document. For dated references, only the edition cited applies. For undated references,
the latest edition of the referenced document (including any amendments) applies.
ISO/IEC 22989, Information technology — Artificial intelligence — Concepts and terminology
ISO/IEC 23053, Framework for Artificial Intelligence (AI) Systems Using Machine Learning (ML)
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO/IEC 22989 and ISO/IEC 23053 and
the following apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
data life cycle
life cycle of data
stages in the process of data usage from idea conception to its discontinuation
3.2
data originator
party that created the data and that can have rights
Note 1 to entry: A data originator can be an individual person.
Note 2 to entry: The data originator can be distinct from the natural or legal person(s) mentioned in, described by, or
implicitly or explicitly associated with the data. For example, PII can be collected by a data originator that identifies
other individuals. Those data subjects (PII Principals) can also have rights, in relation to the data set.
Note 3 to entry: Rights can include the right to publicity, right to display name, right to identity, right to prohibit data
use in a way that offends honourable mention.
[SOURCE: ISO/IEC 23751:2022, 3.2]
© ISO/IEC 2024 – All rights reserved
3.3
data holder
party that has legal control to authorize data processing of the data by other parties
Note 1 to entry: A data originator (3.2) can be a data holder.
[SOURCE: ISO/IEC 23751:2022, 3.4]
3.4
data user
party that is authorized to perform processing of data under the legal control of a data holder (3.3)
[SOURCE: ISO/IEC 23751:2022, 3.5]
3.5
data quality
characteristic of data that the data meet the organization's data requirements for a specified context
3.6
data quality characteristic
category of data quality attributes (3.13) that has a bearing on data quality (3.5)
[SOURCE: ISO/IEC 25012:2008, 4.4, modified — Definition revised.]
3.7
data quality model
defined set of characteristics which provides a framework for specifying data quality requirements (3.9) and
evaluating data quality (3.5)
[SOURCE: ISO/IEC 25012:2008, 4.6]
3.8
data quality measure
variable to which a value is assigned as the result of measurement (3.10) of a data quality characteristic (3.6)
[SOURCE: ISO/IEC 25012:2008, 4.5, modified — Note to entry removed.]
3.9
quality requirement
requirement for quality properties or attributes (3.13) of an information and communications technology
(ICT) product, data or service that satisfy needs which ensue from the purpose for which that ICT product,
data or service is to be used
[SOURCE: ISO/IEC 25030:2019, 3.15, modified — Note to entry removed.]
3.10
measurement
set of operations having the object of determining a value of a measure
[SOURCE: ISO/IEC 25024:2015, 4.27]
3.11
measurement scale
quantity-value scale
ordered set of quantity values of quantities of a given kind of quantity used in ranking, according to
magnitude, quantities of that kind
EXAMPLE 1
Celsius temperature scale.
EXAMPLE 2
Time scale.
© ISO/IEC 2024 – All rights reserved
EXAMPLE 3
Rockwell C hardness scale.
[SOURCE: ISO/IEC Guide 99: 2007, 1.28, modified — Preferred term swapped with admitted term.]
3.12
analytics
data analytics
composite concept consisting of data acquisition, data collection, data validation, data processing, including
data quantification, data visualization, data documentation and data interpretation
Note 1 to entry: Analytics is used to understand objects or events represented by data, to make predictions for a given
situation and to recommend steps to achieve objectives. The insights obtained from analytics are used for various
purposes such as decision-making, research, sustainable development, design and planning.
[SOURCE: ISO/IEC 20546:2019, 3.1.6, modified — The term "analytics" added as a preferred term, definition
and note to entry revised.]
3.13
attribute
property or characteristic of an object that can be distinguished quantitatively or qualitatively by human or
automated means
[SOURCE: ISO/IEC/IEEE 15939:2017, 3.2, modified — Definition revised.]
3.14
feature
measurable property of an object or event with respect to a set of characteristics
Note 1 to entry: Features play a role in training and prediction.
Note 2 to entry: Features provide a machine-readable way to describe the relevant objects. As the algorithm will not
go back to the objects or events themselves, feature representations are designed to contain all useful information.
[SOURCE: ISO/IEC 23053: 2022, 3.3.3]
3.15
data quality management
coordinated activities to direct and control an organization with regard to data quality (3.5)
[SOURCE: ISO 8000-2:2020, 3.8.2]
3.16
data governance
governance of data
system by which the current and future use of data is governed
3.17
data provenance
provenance
information on the place and time of origin, derivation or generation of a dataset, proof of authenticity of the
dataset, or a record of past and present ownership of the dataset
[SOURCE: ISO/IEC 11179-33:2023, 3.11, modified — The term "data provenance" added as a preferred term,
definition revised.]
© ISO/IEC 2024 – All rights reserved
3.18
visualization
scientific visualization
use of computer graphics and image processing to present models or characteristics of
processes or objects for supporting human understanding
EXAMPLE A display image created by combining magnetic resonance scans of a tumour; volumetric top and side
views of a lake showing temperature data; a two-dimensional model of electrical waves in the heart.
[SOURCE: ISO/IEC 2382:2015, 2125942, modified — Preferred term swapped with admitted term, note to
entry removed]
3.19
machine learning project
ML project
project that utilizes analytics (3.12) and machine learning and is responsible for the associated data
throughout the data’s entire life cycle
3.20
data architecture
description of the structure and interaction of the enterprise's major types and sources of data, logical data
assets, physical data assets and data management resources
Note 1 to entry: Logical data entities can be tied to applications, repositories and services and may be structured
according to implementation considerations.
Note 2 to entry: The concept of “data” is intentionally not defined here, as it is part of the data architecture definition
for each application scenario. It is according to the specific requirements of that scenario.
[SOURCE: ISO TR 21965:2019, 3.2.6]
3.21
data item
smallest identifiable unit of data within a certain context for which the definition, identification, permissible
values and other information is specified by means of a set of properties
Note 1 to entry: "Field" is considered a synonym of data item.
Note 2 to entry: Data item is a physical object “container” of data values.
[SOURCE: ISO/IEC 25024:2015, 4.9]
3.22
data record
set of related data items (3.21) treated as a unit
[SOURCE: ISO/IEC 25024:2015, 4.15]
3.23
metadata
data that define and describe other data
Note 1 to entry: In the context of analytics (3.12) and machine learning, metadata provides information on data items
(3.21) or data records (3.22) such as their properties, structure, type, context, intended use, ownership, access and
volatility.
[SOURCE: ISO/IEC 11179-1:2023, 3.2.26, modified — Note to entry added.]
© ISO/IEC 2024 – All rights reserved
4 Symbols and abbreviated terms
AI artificial intelligence
DL deep learning
DLC data life cycle
DQ data quality
ETL extract, transform and load
ML machine learning
PII personal identifiable information
5 Data quality concepts for analytics and machine learning
5.1 Data quality considerations for analytics and machine learning
5.1.1 General
Existing data quality standards, such as the ISO 8000 series, were developed from the perspectives of data
production and management. This is because data producers (or data collectors) were traditionally the
largest consumers of data. Since most of the data were used for a predetermined purpose and associated
data quality standards focused on only the characteristics necessary for the defined purpose, data produced
in that manner can require additional processing for use in other contexts.
In the field of data analysis and ML, data users are generally not producing data. They search, collect
and process data they believe are necessary and suitable for their analytics and ML project. In this case,
data quality has an impact on the quality of the analysis results and the performance of the ML model.
No matter how good the data analysis or ML model is, the results can be unreliable when using data that
does not meet requirements. Even when data meets requirements for a particular application or context,
it does not necessarily meet requirements for other applications or contexts. Using data that does not
meet requirements for a specific purpose can result in ML models that are inaccurate and prone to failure.
Therefore, to help organization ensure that data for analytics and ML meet requirements, the ISO/IEC 5259
series identifies data quality characteristics, data quality measures, data quality management requirements
and a representative process to manage data quality over the data life cycle along with the concepts data
record and data item for applying to data quality management, in addition to a governance framework to
direct and oversee the implementation and operation of all that.
5.1.2 Machine learning and data quality
ISO/IEC 22989 defines ML as the process of optimizing model parameters through computational techniques
such that the model’s behaviour reflects the data or experience. ISO/IEC 23053 further describes ML as a
branch of AI that employs computational techniques to enable systems to learn from data or experience. ML
can perform diverse tasks using data and ML algorithms. The data used in ML are categorized as training
data, validation data, testing data and production data. In supervised ML, an ML model is created by training
an ML algorithm with training data. Validation data and testing data are then used to ensure the trained
ML model performs in accordance with the organization’s requirements. The trained ML model is then
used to calculate inferences from production data. The performance of a trained ML model is dependent on
the quality characteristics of all these types of data. ISO/IEC 23053 describes several general types of ML
algorithms, which can have different sensitivities to different data quality characteristics.
EXAMPLE 1
© ISO/IEC 2024 – All rights reserved
Representativeness is one of the most important data quality characteristics for ML. When the training data does not
represent the population included in the production data, the trained ML model has a higher probability of making
incorrect inferences from the production data. When used to make decisions about people, this can lead to biased
actions for underrepresented groups of people.
EXAMPLE 2
Training an ML algorithm to produce a trained ML model is a mathematical process that iterates over a set of training
data that represents attributes of an object or event. The quality of each sample in the training data will influence the
trained ML model. If too many samples in the training data are not accurate, the model is likely to produce incorrect
inferences on production data.
NOTE See ISO/IEC 5259-2 for details of how data quality characteristics impact the performance of ML models.
5.1.3 Data characteristics that pose quality challenges for analytics and machine learning
Datasets which exhibit considerable variety or variability can influence the data quality model and
associated data quality measures. Large volumes of data and data which are rapidly generated or changing
can require the use of automated tools to perform data quality measures and to assess whether the data meet
requirements. Large volumes of data can also create challenges for just-in-time data quality measurement
and assessment.
5.1.4 Data sharing, data re-use and data quality for analytics and machine learning
The same data can be used for different analytics or ML projects. For example, data can be shared by a data
h
...
Norme
internationale
ISO/IEC 5259-1
Première édition
Intelligence artificielle — Qualité
2024-07
des données pour les analyses
de données et l’apprentissage
automatique (AA) —
Partie 1:
Vue d'ensemble, terminologie et
exemples
Artificial intelligence — Data quality for analytics and machine
learning (ML) —
Part 1: Overview, terminology, and examples
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO/IEC 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
ii
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles et abréviations . 5
5 Concepts de qualité des données pour l’analyse de données et l’apprentissage
automatique . 5
5.1 Considérations relatives à la qualité des données pour l’analyse de données et
l’apprentissage automatique .5
5.1.1 Généralités .5
5.1.2 Apprentissage automatique et qualité des données .6
5.1.3 Caractéristiques des données qui entraînent des défis de qualité pour l’analyse
de données et l’apprentissage automatique .6
5.1.4 Partage des données, réutilisation des données et qualité des données pour
l’analyse de données et l’apprentissage automatique .6
5.2 Cadre conceptuel de qualité des données pour l’analyse de données et l’apprentissage
automatique .7
5.2.1 Vue d’ensemble .7
5.2.2 Gestion de la qualité des données .7
5.2.3 Gouvernance de la qualité des données .10
5.2.4 Provenance des données .10
5.3 Cycle de vie des données pour l’analyse de données et l’AA .11
5.3.1 Vue d’ensemble .11
5.3.2 Modèle de cycle de vie des données .11
5.3.3 Processus utilisés au cours des multiples étapes .14
Annexe A (informative) Exemples et scénarios .16
Bibliographie . 19
© ISO/IEC 2024 – Tous droits réservés
iii
Avant-propos
L’ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique internationale)
forment le système spécialisé de la normalisation mondiale. Les organismes nationaux membres de l’ISO ou
de l’IEC participent au développement de Normes internationales par l’intermédiaire des comités techniques
créés par l’organisation concernée afin de s’occuper des domaines particuliers de l’activité technique.
Les comités techniques de l’ISO et de l’IEC collaborent dans des domaines d’intérêt commun. D’autres
organisations internationales, gouvernementales et non gouvernementales, en liaison avec l’ISO et l’IEC,
participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents critères
d’approbation requis pour les différents types de documents. Le présent document a été rédigé conformément
aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.iso.org/directives ou
www.iec.ch/members_experts/refdocs).
L’ISO et l’IEC attirent l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO et l’IEC ne prennent pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de propriété revendiqué à cet égard. À la date de publication du présent
document, l’ISO et l’IEC n’avaient pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires
à sa mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de
brevets, disponible à l’adresse www.iso.org/brevets et https://patents.iec.ch. L’ISO et l’IEC ne sauraient être
tenues pour responsables de ne pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions spécifiques
de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux
principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au commerce
(OTC), voir www.iso.org/iso/avant-propos. Pour l’IEC, voir www.iec.ch/understanding-standards.
Le présent document a été élaboré par le comité technique mixte ISO/IEC JTC 1, Technologies de l’information,
sous-comité SC 42, Intelligence artificielle.
Une liste de toutes les parties de la série ISO/IEC 5259 se trouve sur les sites Web de l’ISO et de l’IEC.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve aux adresses www.iso.org/members.html et www.iec.ch/national-committees.
© ISO/IEC 2024 – Tous droits réservés
iv
Introduction
Les données sont la matière première des analyses de données et de l’apprentissage automatique (AA, aussi
appelé «apprentissage machine» et abrégé en ML, de l’anglais «Machine Learning»). La qualité des données
est donc un aspect critique pour les projets et systèmes d’analyse de données et d’AA associés. L’objectif de
la série ISO/IEC 5259 est de fournir des outils et des méthodes permettant d’évaluer et d’améliorer la qualité
des données utilisées pour l’analyse de données et l’AA.
Les autres parties de la série ISO/IEC 5259 sont énumérées ci-dessous.
1)
— L’ISO/IEC 5259-2 fournit un modèle de qualité des données, des mesures de la qualité des données et
des recommandations concernant l’établissement de rapports sur la qualité des données dans le contexte
de l’analyse de données et de l’AA. L’ISO/IEC 5259-2 s’appuie sur la série ISO 8000, l’ISO/IEC 25012 et
l’ISO/IEC 25024.
L’objectif de l’ISO/IEC 5259-2 est de permettre aux organismes d’atteindre leurs objectifs de qualité des
données et s’applique à tous les types d’organismes.
— L’ISO/IEC 5259-3 spécifie des exigences et fournit des recommandations pour l’établissement, la mise en
œuvre, le maintien et l’amélioration continue de la qualité des données utilisées dans les domaines de
l’analyse de données et de l’AA.
L’ISO/IEC 5259-3 ne définit pas de processus, de méthodes ou de mesurages détaillés. Elle définit
plutôt les exigences et recommandations associées à un processus de gestion de la qualité, ainsi qu’un
processus et des méthodes de référence qui peuvent être adaptés pour satisfaire aux exigences de
l’ISO/IEC 5259-3.
Les exigences et recommandations énoncées dans l’ISO/IEC 5259-3 sont génériques et prévues pour
s’appliquer à tout organisme, quels que soient son type, sa taille et sa nature.
— L’ISO/IEC 5259-4 fournit des approches organisationnelles communes générales, indépendamment du
type, de la taille ou de la nature de l’organisme demandeur, afin de garantir la qualité des données pour
l’entraînement et l’évaluation dans le cadre de l’analyse de données et de l’AA. Elle comprend des lignes
directrices relatives au processus de qualité des données pour:
— l’AA supervisé en ce qui concerne l’étiquetage des données utilisées pour entraîner les systèmes d’AA,
y compris les approches organisationnelles communes pour l’étiquetage des données d’entraînement;
— l’AA non supervisé;
— l’AA semi-supervisé;
— l’apprentissage par renforcement;
— l’analyse de données.
L’ISO/IEC 5259-4 s’applique aux données d’entraînement et d’évaluation provenant de différentes
sources, y compris l’acquisition et la composition des données, le prétraitement des données, l’étiquetage
des données, l’évaluation et l’utilisation des données. L’ISO/IEC 5259-4 ne définit pas de services,
plateformes ou outils spécifiques.
2)
— L’ISO/IEC 5259-5 fournit un cadre de gouvernance de la qualité des données pour l’analyse de données
et l’apprentissage automatique afin de permettre aux organes de gouvernance de l’organisme de diriger
et de superviser la mise en œuvre et le fonctionnement des mesures de la qualité des données, la gestion
et les processus associés avec des contrôles adéquats dans l’ensemble du modèle de cycle de vie des
données (CVD) conformément à l’ISO/IEC 5259-1.
1) En cours d’élaboration. Stade au moment de la publication : ISO/IEC FDIS 5259-2:2024.
2) En cours d’élaboration. Stade au moment de la publication : ISO/IEC DIS 5259-5:2023.
© ISO/IEC 2024 – Tous droits réservés
v
3)
L’ISO/IEC TR 5259-6 décrit un cadre de visualisation pour la qualité des données dans le cadre de
l’analyse de données et de l’AA. L’objectif est de permettre aux parties prenantes utilisant des méthodes
de visualisation d’accéder aux résultats des mesures de la qualité des données. Ce cadre de visualisation
soutient les objectifs de qualité des données.
3) En cours d’élaboration. Stade au moment de la publication : ISO/IEC CD TR 5259-6:2023.
© ISO/IEC 2024 – Tous droits réservés
vi
Norme internationale ISO/IEC 5259-1:2024(fr)
Intelligence artificielle — Qualité des données pour les
analyses de données et l’apprentissage automatique (AA) —
Partie 1:
Vue d'ensemble, terminologie et exemples
1 Domaine d’application
Le présent document fournit les moyens de comprendre et d’associer les documents individuels de la série
ISO/IEC 5259 et constitue la base de la compréhension conceptuelle de la qualité des données pour l’analyse
de données et l’apprentissage automatique. Il traite également des technologies et exemples associés (par
exemple, cas d’utilisation et scénarios d’utilisation).
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour
les références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
ISO/IEC 22989, Technologies de l'information — Intelligence artificielle — Concepts et terminologie relatifs à
l'intelligence artificielle
ISO/IEC 23053, Cadre pour les systèmes d'intelligence artificielle (IA) qui utilisent l'apprentissage machine (ML)
3 Termes et définitions
Pour les besoins du présent document, les termes et les définitions de l’ISO/IEC 22989, l’ISO/IEC 23053 ainsi
que les suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1
cycle de vie des données
étapes du processus d’utilisation des données, depuis la conception de l’idée jusqu’à son arrêt
3.2
créateur de données
partie qui a créé les données et qui peut avoir des droits
Note 1 à l'article: Un créateur de données peut être une personne physique.
Note 2 à l'article: Le créateur de données peut être distinct de la ou des personnes physiques ou morales mentionnées
dans les données, décrites par ces dernières, ou associées implicitement ou explicitement à celles-ci. Par exemple,
des données à caractère personnel (DCP) peuvent être recueillies par un créateur de données qui identifie d’autres
personnes. Les personnes concernées (également appelées «personnes concernées par des DCP») peuvent également
avoir des droits, en relation avec l’ensemble de données.
© ISO/IEC 2024 – Tous droits réservés
Note 3 à l'article: Les droits peuvent inclure le droit à la publicité, le droit d’afficher un nom, le droit à l’identité et le
droit d’interdire l’utilisation des données dans un but offensant.
[SOURCE: ISO/IEC 23751:2022, 3.2]
3.3
détenteur de données
partie ayant le contrôle légal pour autoriser le traitement de données par d’autres parties
Note 1 à l'article: Un créateur de données (3.2) peut être un détenteur de données.
[SOURCE: ISO/IEC 23751:2022, 3.4]
3.4
utilisateur de données
partie autorisée à effectuer le traitement de données sous le contrôle légal d’un détenteur de données (3.3)
[SOURCE: ISO/IEC 23751:2022, 3.5]
3.5
qualité des données
caractéristique des données selon laquelle les données satisfont aux exigences de l’organisme en matière de
données pour un contexte spécifié
3.6
caractéristique de qualité des données
catégorie d’attributs (3.13) de qualité des données ayant une incidence sur la qualité des données (3.5)
[SOURCE: ISO/IEC 25012:2008, 4.4, modifié — La définition a été révisée.]
3.7
modèle de qualité des données
ensemble défini de caractéristiques qui fournit un cadre pour spécifier les exigences de qualité (3.9) des
données et évaluer la qualité des données (3.5)
[SOURCE: ISO/IEC 25012:2008, 4.6]
3.8
mesure de la qualité des données
variable à laquelle une valeur est attribuée comme résultat de mesure (3.10) d’une caractéristique de qualité
des données (3.6)
[SOURCE: ISO/IEC 25012:2008, 4.5, modifié — La note à l’article a été supprimée.]
3.9
exigence de qualité
exigence applicable aux propriétés ou attributs (3.13) de qualité d’un produit, d’une donnée ou d’un service
des technologies de l’information et de la communication (TIC) qui répondent aux besoins qui découlent de
la destination d’un tel produit, d’une telle donnée ou d’un tel service TIC
[SOURCE: ISO/IEC 25030:2019, 3.15, modifié — La note à l’article a été supprimée.]
3.10
mesurage
ensemble d’opérations ayant pour objet de déterminer la valeur d’une mesure
[SOURCE: ISO/IEC 25024:2015, 4.27]
© ISO/IEC 2024 – Tous droits réservés
3.11
échelle de mesure
échelle de valeurs
ensemble ordonné de valeurs de grandeurs d’une nature donnée, utilisé pour classer des grandeurs de cette
nature en ordre croissant ou décroissant de leurs expressions quantitatives
EXEMPLE 1
Échelle des températures Celsius.
EXEMPLE 2
Échelle de temps.
EXEMPLE 3
Échelle de dureté C de Rockwell.
[SOURCE: ISO/IEC Guide 99: 2007, 1.28, modifié — Le terme recommandé a été remplacé par le terme admis.]
3.12
analyse
analyse de données
concept composite comprenant l’acquisition de données, la collecte de données, la validation des données,
le traitement des données, y compris la quantification des données, la visualisation des données, la
documentation des données et l’interprétation des données
Note 1 à l'article: L’analyse de données est utilisée pour comprendre des objets ou des événements représentés par des
données, pour réaliser des prédictions pour une situation donnée et pour recommander des étapes en vue d’atteindre
des objectifs. Les informations obtenues à partir de l’analyse de données sont utilisées à diverses fins telles que la
prise de décision, la recherche, le développement durable, la conception et la planification.
[SOURCE: ISO/IEC 20546:2019, 3.1.6, modifié — Le terme «analyse» a été ajouté comme terme recommandé,
et la définition et la note à l’article ont été révisées.]
3.13
attribut
propriété ou caractéristique d’un objet qui peut être distinguée quantitativement ou qualitativement par
des moyens humains ou automatisés
[SOURCE: ISO/IEC/IEEE 15939:2017, 3.2, modifié — La définition a été révisée.]
3.14
caractéristique
propriété mesurable d’un objet ou d’un événement par rapport à un ensemble de
caractéristiques
Note 1 à l'article: Les caractéristiques jouent un rôle dans l’entraînement et la prédiction.
Note 2 à l'article: Les caractéristiques offrent une manière de décrire les objets pertinents qui est lisible par une
machine. Étant donné que l’algorithme ne revient pas sur les objets ou les événements eux-mêmes, les représentations
des caractéristiques sont conçues pour contenir toutes les informations utiles.
[SOURCE: ISO/IEC 23053: 2022, 3.3.3]
3.15
gestion de la qualité des données
activités coordonnées dans le but de diriger et piloter un organisme vis-à-vis de la qualité des données (3.5)
[SOURCE: ISO 8000-2:2020, 3.8.2]
3.16
gouvernance des données
système qui régit l’utilisation actuelle et future des données
© ISO/IEC 2024 – Tous droits réservés
3.17
provenance des données
provenance
informations sur le lieu et la date d’origine, de dérivation ou de génération d’un ensemble de données, la
preuve de l’authenticité de l’ensemble de données ou un enregistrement de la propriété passée et présente
de l’ensemble de données
[SOURCE: ISO/IEC 11179-33:2023, 3.11, modifié — Le terme «provenance des données» a été ajouté comme
terme recommandé et la définition a été révisée.]
3.18
visualisation
visualisation scientifique
utilisation de l’infographie et du traitement d’image pour représenter des modèles ou des
caractéristiques de processus ou d’objets de façon à les rendre plus compréhensibles par l’homme
EXEMPLE L’image d’une tumeur obtenue par balayage à résonance magnétique; une vue volumétrique horizontale
ou verticale d’un lac montrant les températures enregistrées; un modèle bidimensionnel des ondes électriques du cœur.
[SOURCE: ISO/IEC 2382:2015, 2125942, modifié — Le terme recommandé a été remplacé par le terme admis
et la note à l’article a été supprimée.]
3.19
projet d’apprentissage automatique
projet d’AA
projet qui utilise l’analyse de données (3.12) et l’apprentissage automatique et qui est responsable des
données associées tout au long de leur cycle de vie
3.20
architecture des données
description de la structure et de l’interaction des principaux types et sources de données de l’entreprise, des
actifs de données logiques et physiques, et des ressources de gestion des données
Note 1 à l'article: Les entités de données logiques peuvent être liées à des applications, des référentiels et des services
et peuvent être structurées en fonction de considérations de mise en œuvre.
Note 2 à l'article: Le concept de «données» n’est volontairement pas défini ici, car il est sous-jacent à la définition de
l’architecture des données pour chaque scénario d’application. Il est fonction des exigences spécifiques du scénario
considéré.
[SOURCE: ISO TR 21965:2019, 3.2.6]
3.21
élément de donnée
plus petite unité identifiable de données dans un contexte donné pour laquelle la définition, l’identification,
les valeurs admissibles et d’autres informations sont spécifiées au moyen d’un ensemble de propriétés
Note 1 à l'article: Le terme «champ» est considéré comme un synonyme de «élément de donnée».
Note 2 à l'article: L’élément de donnée est un objet physique «conteneur» de valeurs de données.
[SOURCE: ISO/IEC 25024:2015, 4.9]
3.22
registre de données
ensemble d’éléments de données (3.21) associés traités en tant qu’unité
[SOURCE: ISO/IEC 25024:2015, 4.15]
© ISO/IEC 2024 – Tous droits réservés
3.23
métadonnées
données qui définissent et décrivent d’autres données
Note 1 à l'article: Dans le contexte de l’analyse de données (3.12) et de l’apprentissage automatique, les métadonnées
fournissent des informations sur les éléments de données (3.21) ou les registres de données (3.22) telles que leurs
propriétés, leur structure, leur type, leur contexte, leur utilisation prévue, leur propriété, leur accès et leur volatilité.
[SOURCE: ISO/IEC 11179-1:2023, 3.2.26, modifié — La note à l’article a été ajoutée.]
4 Symboles et abréviations
AA apprentissage automatique
AP apprentissage profond
CVD cycle de vie des données
DCP données à caractère personnel
ETC extraire, transformer et charger
IA intelligence artificielle
QD qualité des données
5 Concepts de qualité des données pour l’analyse de données et l’apprentissage
automatique
5.1 Considérations relatives à la qualité des données pour l’analyse de données et
l’apprentissage automatique
5.1.1 Généralités
Les normes de qualité des données existantes, telles que la série ISO 8000, ont été élaborées du point de
vue de la production et de la gestion des données. En effet, les producteurs de données (ou collecteurs de
données) étaient traditionnellement les plus gros consommateurs de données. Étant donné que la plupart
des données étaient utilisées pour une finalité prédéterminée et que les normes de qualité des données
associées se concentraient uniquement sur les caractéristiques nécessaires à la finalité définie, les données
produites de cette manière peuvent nécessiter un traitement supplémentaire pour être utilisées dans
d’autres contextes.
Dans le domaine de l’analyse de données et de l’AA, les utilisateurs de données ne produisent généralement
pas de données. Ils recherchent, recueillent et traitent les données qu’ils estiment nécessaires et adaptées
à leur projet d’analyse de données et d’AA. Dans ce cas, la qualité des données a un impact sur la qualité
des résultats d’analyse et la performance du modèle d’AA. Quelle que soit la qualité de l’analyse de
données ou du modèle d’AA, les résultats peuvent ne pas être fiables lors de l’utilisation de données qui
ne satisfont pas aux exigences. Même lorsque les données satisfont aux exigences d’une application ou d’un
contexte particulier, elles ne satisfont pas nécessairement aux exigences d’autres applications ou contextes.
L’utilisation de données qui ne satisfont pas aux exigences pour une finalité spécifique peut donner lieu à des
modèles d’AA inexacts et susceptibles d’échouer. Par conséquent, pour aider l’organisme à garantir que les
données utilisées pour l’analyse de données et l’AA satisfont aux exigences, la série ISO/IEC 5259 identifie les
caractéristiques de qualité des données, les mesures de la qualité des données, les exigences de gestion de la
qualité des données et un processus représentatif pour gérer la qualité des données tout au long du cycle de
vie des données. Elle introduit également les concepts de «registre de données» et d’«élément de donnée» à
appliquer dans le cadre de la gestion de la qualité des données, en sus d’un cadre de gouvernance destiné à
orienter et superviser la mise en œuvre et le fonctionnement de l’ensemble de ces éléments.
© ISO/IEC 2024 – Tous droits réservés
5.1.2 Apprentissage automatique et qualité des données
L’ISO/IEC 22989 définit l’apprentissage automatique, ou «apprentissage machine», comme le processus
d’optimisation des paramètres de modèle à l’aide de techniques de calcul, de sorte que le comportement
du modèle reflète les données ou l’expérience. L’ISO/IEC 23053 décrit en outre l’apprentissage automatique
comme une branche de l’IA qui utilise des techniques de calcul pour permettre aux systèmes d’apprendre
à partir de données ou d’expériences. L’AA peut effectuer diverses tâches en utilisant des données et des
algorithmes d’AA. Les données utilisées dans l’AA sont classées comme données d’entraînement, données de
validation, données de test et données de production. En AA supervisé, un modèle d’AA est créé en entraînant
un algorithme d’AA à l’aide de données d’entraînement. Les données de validation et les données de test
sont ensuite utilisées pour s’assurer que le modèle d’AA entraîné fonctionne conformément aux exigences
de l’organisme. Le modèle d’AA entraîné est ensuite utilisé pour calculer des inférences à partir des données
de production. Les performances d’un modèle d’AA entraîné dépendent des caractéristiques de qualité de
tous ces types de données. L’ISO/IEC 23053 décrit plusieurs types généraux d’algorithmes d’AA, qui peuvent
avoir différentes sensibilités à différentes caractéristiques de qualité des données.
EXEMPLE 1
La représentativité est l’une des caractéristiques de qualité des données les plus importantes pour l’AA. Lorsque les
données d’entraînement ne représentent pas la population incluse dans les données de production, le modèle d’AA
entraîné a une probabilité plus élevée de faire des inférences incorrectes à partir des données de production.
Lorsqu’elles sont utilisées pour prendre des décisions impliquant des personnes, cela peut conduire à des actions
biaisées pour les groupes de personnes sous-représentés.
EXEMPLE 2
L’entraînement d’un algorithme d’AA en vue de produire un modèle d’AA entraîné est un processus mathématique qui
s’itère sur un ensemble de données d’entraînement qui représentent des attributs d’un objet ou d’un événement. La
qualité de chaque échantillon dans les données d’entraînement influence le modèle d’AA entraîné. Si les échantillons
inexacts sont trop nombreux dans les données d’entraînement, le modèle est susceptible de produire des inférences
incorrectes sur les données de production.
NOTE Voir l’ISO/IEC 5259-2 pour plus de détails sur l’impact des caractéristiques de qualité des données sur les
performances des modèles d’AA.
5.1.3 Caractéristiques des données qui entraînent des défis de qualité pour l’analyse de données et
l’apprentissage automatique
Les ensembles de données qui présentent une variété ou une variabilité considérable peuvent influencer
le modèle de qualité des données et les mesures de la qualité des données associées. Les grands volumes
de données et les données rapidement générées ou modifiées peuvent nécessiter l’utilisation d’outils
automatisés pour effectuer des mesures de la qualité des données et évaluer si les données satisfont aux
exigences. Les grands volumes de données peuvent également se révéler problématiques pour le mesurage
et l’évaluation de la qualité des données «juste à temps».
5.1.4 Partage des données, réutilisation des données et qualité des données pour l’analyse de
données et l’apprentissage automatique
Les mêmes données peuvent être utilisées pour différents projets d’analyse de données ou d’AA. Par exemple,
un détenteur de données peut partager les données avec plusieurs utilisateurs de données (internes ou
externes à l’organisme du détenteur de données). De même, un utilisateur de données peut être autorisé à
utiliser les données pour plusieurs tâches.
Les projets d’analyse de données et d’AA peuvent s’accompagner de différentes exigences de qualité des
données. Différentes exigences de qualité des données peuvent affecter le choix d’un modèle de qualité des
données, des mesures de la qualité des données associées et des critères d’évaluation.
© ISO/IEC 2024 – Tous droits réservés
5.2 Cadre conceptuel de qualité des données pour l’analyse de données et l’apprentissage
automatique
5.2.1 Vue d’ensemble
La Figure 1 fournit un cadre représentatif et décrit les relations avec la série ISO/IEC 5259 et l’ISO 8000-120
en vue de déterminer, d’évaluer et d’améliorer la qualité d’un ensemble de données à utiliser pour l’analyse
de données et l’AA. L’objectif du cadre de la Figure 1
...
ISO/IEC JTC 1/SC 42
Date: 2025-06-05
ISO/IEC 5259--1:2024(fr)
Première édition
2024-07
Intelligence artificielle — Qualité des données pour les analyses
de données et l’apprentissage automatique (AA) — —
Partie 1:
Vue d’ensemble d'ensemble, terminologie et exemples
Artificial intelligence — Data quality for analytics and machine learning (ML) — —
Part 1: Overview, terminology, and examples
ICS: 01.040.35; 35.020
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO/IEC 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre oeuvre, aucune partie
de cette publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique
ou mécanique, y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable.
Une autorisation peut être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays
du demandeur.
ISO copyright office
Case postaleCP 401 • • Ch. de Blandonnet 8
CH-1214 Vernier, GenèveGeneva
Tél.: +Phone: + 41 22 749 01 11
E-mail: copyright@iso.org
WebWebsite: www.iso.org
Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
iii
Sommaire Page
Avant-propos . v
Introduction . vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles et abréviations . 5
5 Concepts de qualité des données pour l’analyse de données et l’apprentissage
automatique . 5
5.1 Considérations relatives à la qualité des données pour l’analyse de données et
l’apprentissage automatique . 5
5.2 Cadre conceptuel de qualité des données pour l’analyse de données et l’apprentissage
automatique . 7
5.3 Cycle de vie des données pour l’analyse de données et l’AA . 12
Annexe A (informative) Exemples et scénarios . 18
Bibliographie . 21
© ISO/IEC 2024 – Tous droits réservés
iv
Avant-propos
L’ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique internationale)
forment le système spécialisé de la normalisation mondiale. Les organismes nationaux membres de l’ISO ou
de l’IEC participent au développement de Normes internationales par l’intermédiaire des comités techniques
créés par l’organisation concernée afin de s’occuper des domaines particuliers de l’activité technique. Les
comités techniques de l’ISO et de l’IEC collaborent dans des domaines d’intérêt commun. D’autres
organisations internationales, gouvernementales et non gouvernementales, en liaison avec l’ISO et l’IEC,
participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents critères
d’approbation requis pour les différents types de documents. Le présent document a été rédigé conformément
aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.iso.org/directives ou
www.iec.ch/members_experts/refdocs).
L’ISO et l’IEC attirent l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO et l’IEC ne prennent pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de propriété revendiqué à cet égard. À la date de publication du présent
document, l’ISO et l’IEC n’avaient pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires
à sa mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de brevets,
disponible à l’adresse www.iso.org/brevets et https://patents.iec.ch. L’ISO et l’IEC ne sauraient être tenues
pour responsables de ne pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions spécifiques
de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux
principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au commerce
(OTC), voir www.iso.org/iso/avant-propos. Pour l’IEC, voir www.iec.ch/understanding-standards.
Le présent document a été élaboré par le comité technique mixte ISO/IEC JTC 1, Technologies de l’information,
sous-comité SC 42, Intelligence artificielle.
Une liste de toutes les parties de la série ISO/IEC 5259 se trouve sur les sites Web de l’ISO et de l’IEC.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve aux adresses www.iso.org/members.html et www.iec.ch/national-committees.
© ISO/IEC 2024 – Tous droits réservés
v
Introduction
Les données sont la matière première des analyses de données et de l’apprentissage automatique (AA, aussi
appelé «apprentissage machine» et abrégé en ML, de l’anglais «Machine Learning»). La qualité des données
est donc un aspect critique pour les projets et systèmes d’analyse de données et d’AA associés. L’objectif de la
série ISO/IEC 5259 est de fournir des outils et des méthodes permettant d’évaluer et d’améliorer la qualité
des données utilisées pour l’analyse de données et l’AA.
Les autres parties de la série ISO/IEC 5259 sont énumérées ci-dessous.
11)
— — L’ISO/IEC 5259--2 fournit un modèle de qualité des données, des mesures de la qualité des données
et des recommandations concernant l’établissement de rapports sur la qualité des données dans le
contexte de l’analyse de données et de l’AA. L’ISO/IEC 5259--2 s’appuie sur la série ISO 8000,
l’ISO/IEC 25012 et l’ISO/IEC 25024.
L’objectif de l’ISO/IEC 5259--2 est de permettre aux organismes d’atteindre leurs objectifs de qualité des
données et s’applique à tous les types d’organismes.
— — L’ISO/IEC 5259--3 spécifie des exigences et fournit des recommandations pour l’établissement,
la mise en œuvre, le maintien et l’amélioration continue de la qualité des données utilisées dans les
domaines de l’analyse de données et de l’AA.
L’ISO/IEC 5259--3 ne définit pas de processus, de méthodes ou de mesurages détaillés. Elle définit plutôt
les exigences et recommandations associées à un processus de gestion de la qualité, ainsi qu’un processus
et des méthodes de référence qui peuvent être adaptés pour satisfaire aux exigences de l’ISO/IEC 5259--
3.
Les exigences et recommandations énoncées dans l’ISO/IEC 5259--3 sont génériques et prévues pour
s’appliquer à tout organisme, quels que soient son type, sa taille et sa nature.
— — L’ISO/IEC 5259--4 fournit des approches organisationnelles communes générales, indépendamment
du type, de la taille ou de la nature de l’organisme demandeur, afin de garantir la qualité des données pour
l’entraînement et l’évaluation dans le cadre de l’analyse de données et de l’AA. Elle comprend des lignes
directrices relatives au processus de qualité des données pour:
— — l’AA supervisé en ce qui concerne l’étiquetage des données utilisées pour entraîner les
systèmes d’AA, y compris les approches organisationnelles communes pour l’étiquetage des données
d’entraînement;
— — l’AA non supervisé;
— — l’AA semi-supervisé;
— — l’apprentissage par renforcement;
— — l’analyse de données.
L’ISO/IEC 5259--4 s’applique aux données d’entraînement et d’évaluation provenant de différentes
sources, y compris l’acquisition et la composition des données, le prétraitement des données, l’étiquetage
des données, l’évaluation et l’utilisation des données. L’ISO/IEC 5259--4 ne définit pas de services,
plateformes ou outils spécifiques.
En cours d’élaboration. Stade au moment de la publication : ISO/IEC FDIS 5259-2:2024.
1)
En cours d’élaboration. Stade au moment de la publication : ISO/IEC FDIS 5259-2:2024.
© ISO/IEC 2024 – Tous droits réservés
vi
22)
— — L’ISO/IEC 5259--5 fournit un cadre de gouvernance de la qualité des données pour l’analyse de
données et l’apprentissage automatique afin de permettre aux organes de gouvernance de l’organisme de
diriger et de superviser la mise en œuvre et le fonctionnement des mesures de la qualité des données, la
gestion et les processus associés avec des contrôles adéquats dans l’ensemble du modèle de cycle de vie
des données (CVD) conformément à l’ISO/IEC 5259--1.
33)
L’ISO/IEC TR 5259--6 décrit un cadre de visualisation pour la qualité des données dans le cadre de l’analyse
de données et de l’AA. L’objectif est de permettre aux parties prenantes utilisant des méthodes de visualisation
d’accéder aux résultats des mesures de la qualité des données. Ce cadre de visualisation soutient les objectifs
de qualité des données.
En cours d’élaboration. Stade au moment de la publication : ISO/IEC DIS 5259-5:2023.
2)
En cours d’élaboration. Stade au moment de la publication : ISO/IEC DIS 5259-5:2023.
En cours d’élaboration. Stade au moment de la publication : ISO/IEC CD TR 5259-6:2023.
3)
En cours d’élaboration. Stade au moment de la publication : ISO/IEC CD TR 5259-6:2023.
© ISO/IEC 2024 – Tous droits réservés
vii
Norme internationale ISO/IEC 5259-1:2024(fr)
Intelligence artificielle — Qualité des données pour les analyses de
données et l’apprentissage automatique (AA) — —
Partie 1:
Vue d’ensembled'ensemble, terminologie et exemples
1 Domaine d’application
Le présent document fournit les moyens de comprendre et d’associer les documents individuels de la série
ISO/IEC 5259 et constitue la base de la compréhension conceptuelle de la qualité des données pour l’analyse
de données et l’apprentissage automatique. Il traite également des technologies et exemples associés (par
exemple, cas d’utilisation et scénarios d’utilisation).
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur contenu,
des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour les
références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
ISO/IEC 22989, Technologies de l'information — Intelligence artificielle — Concepts et terminologie relatifs à
l'intelligence artificielle
ISO/IEC 23053, Cadre pour les systèmes d'intelligence artificielle (IA) qui utilisent l'apprentissage machine (ML)
3 Termes et définitions
Pour les besoins du présent document, les termes et les définitions de l’ISO/IEC 22989, l’ISO/IEC 23053 ainsi
que les suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— — ISO Online browsing platform: disponible à l’adresse https://www.iso.org/obp
— — IEC Electropedia: disponible à l’adresse https://www.electropedia.org/
3.1 3.1
cycle de vie des données
étapes du processus d’utilisation des données, depuis la conception de l’idée jusqu’à son arrêt
3.2 3.2
créateur de données
partie qui a créé les données et qui peut avoir des droits
Note 1 à l’articlel'article: Un créateur de données peut être une personne physique.
Note 2 à l’articlel'article: Le créateur de données peut être distinct de la ou des personnes physiques ou morales
mentionnées dans les données, décrites par ces dernières, ou associées implicitement ou explicitement à celles-ci. Par
© ISO/IEC 2024 – Tous droits réservés
exemple, des données à caractère personnel (DCP) peuvent être recueillies par un créateur de données qui identifie
d’autres personnes. Les personnes concernées (également appelées «personnes concernées par des DCP») peuvent
également avoir des droits, en relation avec l’ensemble de données.
Note 3 à l’articlel'article: Les droits peuvent inclure le droit à la publicité, le droit d’afficher un nom, le droit à l’identité
et le droit d’interdire l’utilisation des données dans un but offensant.
[SOURCE: ISO/IEC 23751:2022, 3.2]
3.3 3.3
détenteur de données
partie ayant le contrôle légal pour autoriser le traitement de données par d’autres parties
Note 1 à l’article l'article: Un créateur de données (3.2(3.2)) peut être un détenteur de données.
[SOURCE: ISO/IEC 23751:2022, 3.4]
3.4 3.4
utilisateur de données
partie autorisée à effectuer le traitement de données sous le contrôle légal d’un détenteur de données (3.3(3.3))
[SOURCE: ISO/IEC 23751:2022, 3.5]
3.5 3.5
qualité des données
caractéristique des données selon laquelle les données satisfont aux exigences de l’organisme en matière de
données pour un contexte spécifié
3.6 3.6
caractéristique de qualité des données
catégorie d’attributs (3.13(3.13)) de qualité des données ayant une incidence sur la qualité des données
(3.5(3.5))
[SOURCE: ISO/IEC 25012:2008, 4.4, modifié — La définition a été révisée.]
3.7 3.7
modèle de qualité des données
ensemble défini de caractéristiques qui fournit un cadre pour spécifier les exigences de qualité (3.9(3.9)) des
données et évaluer la qualité des données (3.5(3.5))
[SOURCE: ISO/IEC 25012:2008, 4.6]
3.8 3.8
mesure de la qualité des données
variable à laquelle une valeur est attribuée comme résultat de mesure (3.10(3.10)) d’une caractéristique de
qualité des données (3.6(3.6))
[SOURCE: ISO/IEC 25012:2008, 4.5, modifié — La note à l’article a été supprimée.]
3.9 3.9
exigence de qualité
exigence applicable aux propriétés ou attributs (3.13(3.13)) de qualité d’un produit, d’une donnée ou d’un
service des technologies de l’information et de la communication (TIC) qui répondent aux besoins qui
découlent de la destination d’un tel produit, d’une telle donnée ou d’un tel service TIC
[SOURCE: ISO/IEC 25030:2019, 3.15, modifié — La note à l’article a été supprimée.]
© ISO/IEC 2024 – Tous droits réservés
3.10 3.10
mesurage
ensemble d’opérations ayant pour objet de déterminer la valeur d’une mesure
[SOURCE: ISO/IEC 25024:2015, 4.27]
3.11 3.11
échelle de mesure
échelle de valeurs
ensemble ordonné de valeurs de grandeurs d’une nature donnée, utilisé pour classer des grandeurs de cette
nature en ordre croissant ou décroissant de leurs expressions quantitatives
EXEMPLE 1
Échelle des températures Celsius.
EXEMPLE 2
Échelle de temps.
EXEMPLE 3
Échelle de dureté C de Rockwell.
[SOURCE: ISO/IEC Guide 99: 2007, 1.28, modifié — Le terme recommandé a été remplacé par le terme admis.]
3.12 3.12
analyse
analyse de données
concept composite comprenant l’acquisition de données, la collecte de données, la validation des données, le
traitement des données, y compris la quantification des données, la visualisation des données, la
documentation des données et l’interprétation des données
Note 1 à l’article l'article: L’analyse de données est utilisée pour comprendre des objets ou des événements représentés
par des données, pour réaliser des prédictions pour une situation donnée et pour recommander des étapes en vue
d’atteindre des objectifs. Les informations obtenues à partir de l’analyse de données sont utilisées à diverses fins telles
que la prise de décision, la recherche, le développement durable, la conception et la planification.
[SOURCE: ISO/IEC 20546:2019, 3.1.6, modifié — Le terme «analyse» a été ajouté comme terme recommandé,
et la définition et la note à l’article ont été révisées.]
3.13 3.13
attribut
propriété ou caractéristique d’un objet qui peut être distinguée quantitativement ou qualitativement par des
moyens humains ou automatisés
[SOURCE: ISO/IEC/IEEE 15939:2017, 3.2, modifié — La définition a été révisée.]
3.14 3.14
caractéristique
propriété mesurable d’un objet ou d’un événement par rapport à un ensemble de
caractéristiques
Note 1 à l’articlel'article: Les caractéristiques jouent un rôle dans l’entraînement et la prédiction.
© ISO/IEC 2024 – Tous droits réservés
Note 2 à l’articlel'article: Les caractéristiques offrent une manière de décrire les objets pertinents qui est lisible par une
machine. Étant donné que l’algorithme ne revient pas sur les objets ou les événements eux-mêmes, les représentations
des caractéristiques sont conçues pour contenir toutes les informations utiles.
[SOURCE: ISO/IEC 23053: 2022, 3.3.3]
3.15 3.15
gestion de la qualité des données
activités coordonnées dans le but de diriger et piloter un organisme vis-à-vis de la qualité des données
(3.5 (3.5))
[SOURCE: ISO 8000-‑2:2020, 3.8.2]
3.16 3.16
gouvernance des données
système qui régit l’utilisation actuelle et future des données
3.17 3.17
provenance des données
provenance
informations sur le lieu et la date d’origine, de dérivation ou de génération d’un ensemble de données, la
preuve de l’authenticité de l’ensemble de données ou un enregistrement de la propriété passée et présente de
l’ensemble de données
[SOURCE: ISO/IEC 11179-‑33:2023, 3.11, modifié — Le terme «provenance des données» a été ajouté comme
terme recommandé et la définition a été révisée.]
3.18 3.18
visualisation
visualisation scientifique
utilisation de l’infographie et du traitement d’image pour représenter des modèles ou des
caractéristiques de processus ou d’objets de façon à les rendre plus compréhensibles par l’homme
EXEMPLE L’image d’une tumeur obtenue par balayage à résonance magnétique; une vue volumétrique horizontale
ou verticale d’un lac montrant les températures enregistrées; un modèle bidimensionnel des ondes électriques du cœur.
[SOURCE: ISO/IEC 2382:2015, 2125942, modifié — Le terme recommandé a été remplacé par le terme admis
et la note à l’article a été supprimée.]
3.19 3.19
projet d’apprentissage automatique
projet d’AA
projet qui utilise l’analyse de données (3.12(3.12)) et l’apprentissage automatique et qui est responsable des
données associées tout au long de leur cycle de vie
3.20 3.20
architecture des données
description de la structure et de l’interaction des principaux types et sources de données de l’entreprise, des
actifs de données logiques et physiques, et des ressources de gestion des données
Note 1 à l’articlel'article: Les entités de données logiques peuvent être liées à des applications, des référentiels et des
services et peuvent être structurées en fonction de considérations de mise en œuvre.
Note 2 à l’articlel'article: Le concept de «données» n’est volontairement pas défini ici, car il est sous-jacent à la définition
de l’architecture des données pour chaque scénario d’application. Il est fonction des exigences spécifiques du scénario
considéré.
© ISO/IEC 2024 – Tous droits réservés
[SOURCE: ISO TR 21965:2019, 3.2.6]
3.21 3.21
élément de donnée
plus petite unité identifiable de données dans un contexte donné pour laquelle la définition, l’identification,
les valeurs admissibles et d’autres informations sont spécifiées au moyen d’un ensemble de propriétés
Note 1 à l’articlel'article: Le terme «champ» est considéré comme un synonyme de «élément de donnée».
Note 2 à l’articlel'article: L’élément de donnée est un objet physique «conteneur» de valeurs de données.
[SOURCE: ISO/IEC 25024:2015, 4.9]
3.22 3.22
registre de données
ensemble d’éléments de données (3.21(3.21)) associés traités en tant qu’unité
[SOURCE: ISO/IEC 25024:2015, 4.15]
3.23 3.23
métadonnées
données qui définissent et décrivent d’autres données
Note 1 à l’article l'article: Dans le contexte de l’analyse de données (3.12(3.12)) et de l’apprentissage automatique,
les métadonnées fournissent des informations sur les éléments de données (3.21(3.21)) ou les registres de données
(3.22(3.22)) telles que leurs propriétés, leur structure, leur type, leur contexte, leur utilisation prévue, leur propriété,
leur accès et leur volatilité.
[SOURCE: ISO/IEC 11179-‑1:2023, 3.2.26, modifié — La note à l’article a été ajoutée.]
4 Symboles et abréviations
AA apprentissage automatique
AP apprentissage profond
CVD cycle de vie des données
DCP données à caractère personnel
ETC extraire, transformer et charger
IA intelligence artificielle
QD qualité des données
5 Concepts de qualité des données pour l’analyse de données et l’apprentissage
automatique
5.1 Considérations relatives à la qualité des données pour l’analyse de données et
l’apprentissage automatique
5.1.1 Généralités
Les normes de qualité des données existantes, telles que la série ISO 8000, ont été élaborées du point de vue
de la production et de la gestion des données. En effet, les producteurs de données (ou collecteurs de données)
étaient traditionnellement les plus gros consommateurs de données. Étant donné que la plupart des données
étaient utilisées pour une finalité prédéterminée et que les normes de qualité des données associées se
© ISO/IEC 2024 – Tous droits réservés
concentraient uniquement sur les caractéristiques nécessaires à la finalité définie, les données produites de
cette manière peuvent nécessiter un traitement supplémentaire pour être utilisées dans d’autres contextes.
Dans le domaine de l’analyse de données et de l’AA, les utilisateurs de données ne produisent généralement
pas de données. Ils recherchent, recueillent et traitent les données qu’ils estiment nécessaires et adaptées à
leur projet d’analyse de données et d’AA. Dans ce cas, la qualité des données a un impact sur la qualité des
résultats d’analyse et la performance du modèle d’AA. Quelle que soit la qualité de l’analyse de données ou du
modèle d’AA, les résultats peuvent ne pas être fiables lors de l’utilisation de données qui ne satisfont pas aux
exigences. Même lorsque les données satisfont aux exigences d’une application ou d’un contexte particulier,
elles ne satisfont pas nécessairement aux exigences d’autres applications ou contextes. L’utilisation de
données qui ne satisfont pas aux exigences pour une finalité spécifique peut donner lieu à des modèles d’AA
inexacts et susceptibles d’échouer. Par conséquent, pour aider l’organisme à garantir que les données utilisées
pour l’analyse de données et l’AA satisfont aux exigences, la série ISO/IEC 5259 identifie les caractéristiques
de qualité des données, les mesures de la qualité des données, les exigences de gestion de la qualité des
données et un processus représentatif pour gérer la qualité des données tout au long du cycle de vie des
données. Elle introduit également les concepts de «registre de données» et d’«élément de donnée» à appliquer
dans le cadre de la gestion de la qualité des données, en sus d’un cadre de gouvernance destiné à orienter et
superviser la mise en œuvre et le fonctionnement de l’ensemble de ces éléments.
5.1.2 Apprentissage automatique et qualité des données
L’ISO/IEC 22989 définit l’apprentissage automatique, ou «apprentissage machine», comme le processus
d’optimisation des paramètres de modèle à l’aide de techniques de calcul, de sorte que le comportement du
modèle reflète les données ou l’expérience. L’ISO/IEC 23053 décrit en outre l’apprentissage automatique
comme une branche de l’IA qui utilise des techniques de calcul pour permettre aux systèmes d’apprendre à
partir de données ou d’expériences. L’AA peut effectuer diverses tâches en utilisant des données et des
algorithmes d’AA. Les données utilisées dans l’AA sont classées comme données d’entraînement, données de
validation, données de test et données de production. En AA supervisé, un modèle d’AA est créé en entraînant
un algorithme d’AA à l’aide de données d’entraînement. Les données de validation et les données de test sont
ensuite utilisées pour s’assurer que le modèle d’AA entraîné fonctionne conformément aux exigences de
l’organisme. Le modèle d’AA entraîné est ensuite utilisé pour calculer des inférences à partir des données de
production. Les performances d’un modèle d’AA entraîné dépendent des caractéristiques de qualité de tous
ces types de données. L’ISO/IEC 23053 décrit plusieurs types généraux d’algorithmes d’AA, qui peuvent avoir
différentes sensibilités à différentes caractéristiques de qualité des données.
EXEMPLE 1
La représentativité est l’une des caractéristiques de qualité des données les plus importantes pour l’AA. Lorsque les
données d’entraînement ne représentent pas la population incluse dans les données de production, le modèle d’AA
entraîné a une probabilité plus élevée de faire des inférences incorrectes à partir des données de production. Lorsqu’elles
sont utilisées pour prendre des décisions impliquant des personnes, cela peut conduire à des actions biaisées pour les
groupes de personnes sous-représentés.
EXEMPLE 2
L’entraînement d’un algorithme d’AA en vue de produire un modèle d’AA entraîné est un processus mathématique qui
s’itère sur un ensemble de données d’entraînement qui représentent des attributs d’un objet ou d’un événement. La
qualité de chaque échantillon dans les données d’entraînement influence le modèle d’AA entraîné. Si les échantillons
inexacts sont trop nombreux dans les données d’entraînement, le modèle est susceptible de produire des inférences
incorrectes sur les données de production.
NOTE Voir l’ISO/IEC 5259--2 pour plus de détails sur l’impact des caractéristiques de qualité des données sur les
performances des modèles d’AA.
© ISO/IEC 2024 – Tous droits réservés
5.1.3 Caractéristiques des données qui entraînent des défis de qualité pour l’analyse de données
et l’apprentissage automatique
Les ensembles de données qui présentent une variété ou une variabilité considérable peuvent influencer le
modèle de qualité des données et les mesures de la qualité des données associées. Les grands volumes de
données et les données rapidement générées ou modifiées peuvent nécessiter l’utilisation d’outils automatisés
pour effectuer des mesures de la qualité des données et évaluer si les données satisfont aux exigences. Les
grands volumes de données peuvent également se révéler problématiques pour le mesurage et l’évaluation de
la qualité des données «juste à temps».
5.1.4 Partage des données, réutilisation des données et qualité des données pour l’analyse de
données et l’apprentissage automatique
Les mêmes données peuvent être utilisées pour différents projets d’analyse de données ou d’AA. Par exemple,
un détenteur de données peut partager les données avec plusieurs utilisateurs de données (internes ou
externes à l’organisme du détenteur de données). De même, un utilisateur de données peut être autorisé à
utiliser les données pour plusieurs tâches.
Les projets d’analyse de données et d’AA peuvent s’accompagner de différentes exigences de qualité des
données. Différentes exigences de qualité des données peuvent affecter le choix d’un modèle de qualité des
données, des mesures de la qualité des données associées et des critères d’évaluation.
5.2 Cadre conceptuel de qualité des données pour l’analyse de données et l’apprentissage
automatique
5.2.1 Vue d’ensemble
La Figure 1Figure 1 fournit un cadre représentatif et décrit les relations avec la série ISO/IEC 5259 et
l’ISO 8000--120 en vue de déterminer, d’évaluer et d’améliorer la qualité d’un ensemble de données à utiliser
pour l’analyse de données et l’AA. L’objectif du cadre de la Figure 1Figure 1 est d’identifier les processus qui
peuvent être utilisés pour déterminer et s’assurer que l’ensemble de données satisfait aux besoins et exigences
de l’organisme.
5259-1_ed1fig1_f.EPS
Figure 1 — Cadre conceptuel de qualité des données pour l’analyse de données et l’apprentissage
automatique
© ISO/IEC 2024 – Tous droits réservés
Les éléments du cadre qui sont spécifiques à la qualité des données comprennent le modèle de QD, les mesures
de la QD, l’évaluation de la QD, l’amélioration de la QD et l’établissement de rapports sur la QD. La gouvernance
de la QD, la gestion de la QD et la provenance des données sont également des processus importants.
Les processus de mesures, d’évaluation et d’amélioration de la qualité des données peuvent être itératifs
lorsque cela est nécessaire afin de satisfaire aux besoins et exigences des organismes concernant l’ensemble
de données.
En outre, pour l’apprentissage continu (c’est-à-dire lorsque l’algorithme d’AA est entraîné en continu avec de
nouvelles données), ces processus peuvent également être appliqués en continu tout au long du cycle de vie
du système.
5.2.2 Gestion de la qualité des données
5.2.2.1 Modèle de qualité des données
Pour les besoins du présent document, un modèle de qualité des données est un ensemble défini de
caractéristiques de qualité des données qui fournit un cadre en vue de
...
Die ISO/IEC 5259-1:2024 stellt eine bedeutende Grundlage für das Verständnis und die Anwendung von Datenqualität in der Analyse und im maschinellen Lernen (ML) dar. Der Umfang dieses Dokuments ist umfassend und befasst sich mit der Standardisierung von Begriffen und Konzepten, die für die gesamte ISO/IEC 5259-Serie von entscheidender Bedeutung sind. Besonders hervorzuheben ist die klare Definition der Terminologie, die Fachleuten ermöglicht, sich in dem oftmals komplexen Bereich der Datenqualität zurechtzufinden. Ein wesentlicher Stärke dieser Norm liegt in ihrer Fähigkeit, eine gemeinsame Sprache zu schaffen, die es verschiedenen Interessengruppen ermöglicht, effektiver miteinander zu kommunizieren. Dies ist besonders wichtig in einem Bereich wie dem maschinellen Lernen, wo die Datenqualität einen direkten Einfluss auf die Analyseergebnisse hat. Die normativen Vorgaben ermöglichen es Organisationen, die Datenqualität systematisch zu bewerten und zu optimieren, was zu besseren und zuverlässigeren Ergebnissen führt. Zusätzlich erweitert die ISO/IEC 5259-1:2024 ihr Format um praxisnahe Beispiele und Nutzungsszenarien. Diese Beispiele verdeutlichen nicht nur die theoretischen Konzepte, sondern zeigen auch ihre praktische Anwendbarkeit. Durch die Diskussion von Assoziationen zu anderen Technologien wird der Dokumentenrahmen weiter gestärkt und bietet einen wertvollen Kontext für das Verständnis von Datenqualität im Zusammenspiel mit modernen Analysetechniken. Die Relevanz dieser Norm ist in der heutigen datengetriebenen Welt unverkennbar, da Unternehmen zunehmend auf präzise Analysen angewiesen sind, um fundierte Entscheidungen zu treffen. Die Standardisierung von Datenqualität für Analytics und maschinelles Lernen stellt sicher, dass Daten effektiv und nachhaltig genutzt werden, was entscheidend für den Erfolg in einer Vielzahl von Branchen ist. Insgesamt bietet die ISO/IEC 5259-1:2024 eine fundierte und umfassende Grundlage für alle, die sich mit Datenqualität im Kontext von Analytics und maschinellem Lernen beschäftigen. Ihre Stärke liegt in der strukturierten Herangehensweise an ein komplexes Thema und ihrer praktischen Relevanz für die Anwendung in der Industrie.
ISO/IEC 5259-1:2024 표준은 인공지능 데이터 품질을 분석 및 기계 학습(ML) 관점에서 체계적으로 이해하는 데 필요한 기초를 제공합니다. 이 문서는 ISO/IEC 5259 시리즈의 개별 문서와의 연관성을 이해하는 방법을 제시하며, 데이터 품질의 개념적 이해를 위한 토대를 제공합니다. 이 표준의 강점은 데이터 품질의 정의 및 관련 용어를 명확히 하여 사용자들이 기계 학습과 분석을 위한 데이터의 품질을 평가하고 개선하는 데 필요한 방향성을 제시한다는 점입니다. 또한, 이 문서는 관련 기술과 실질적인 사례(사용 사례 및 사용 시나리오)를 제시함으로써 이론과 실제를 연결하는 가교 역할을 합니다. 이러한 점에서 표준은 연구자 및 실무자 모두에게 매우 유용한 자료로 작용할 것입니다. ISO/IEC 5259-1:2024 표준은 인공지능과 기계 학습의 발전에 발맞추어 데이터 품질의 중요성을 강조하고, 데이터 기반의 의사 결정을 할 때 필수적인 요소로 자리잡고 있습니다. 따라서 이 표준은 데이터 분석 및 기계 학습 분야에 관계된 모든 사람들에게 필수적인 참고 자료가 될 것으로 예상됩니다.
ISO/IEC 5259-1:2024 문서는 인공지능과 데이터 분석 및 머신러닝(ML)을 위한 데이터 품질에 대한 기초적인 이해를 제공하는 데 중점을 둡니다. 이 문서는 ISO/IEC 5259 시리즈의 개별 문서들을 이해하고 연결하는 수단을 제시하며, 데이터 품질의 개념적 이해를 위한 기초를 마련합니다. 이 표준의 강점은 정확한 용어 정의와 실질적인 예제 제공을 통해 데이터 품질의 구성 요소에 대한 명확한 통찰을 제공한다는 점입니다. 예를 들어, 다양한 사용 사례와 사용 시나리오가 포함되어 있어 이론뿐만 아니라 실제 응용에 대한 이해를 증진시킵니다. 이러한 특징은 데이터 분석 및 머신러닝을 수행하는 조직들에게 필수적인 지침이 되어, 데이터 품질 관리의 중요성을 강조합니다. 또한, ISO/IEC 5259-1:2024는 관련 기술에 대한 논의 또한 포함하고 있어, 최신 기술 트렌드와의 관련성을 유지합니다. 이는 데이터 과학자 및 분석가들이 처한 현실적인 문제를 해결하는 데 도움을 줄 수 있는 정보를 제공합니다. 전체적으로, 이 표준은 데이터 품질을 향상시키기 위한 이론적 및 실용적 기초를 제공하며, 인공지능 분야의 발전을 위한 중요한 원칙을 담고 있습니다.
La norme ISO/IEC 5259-1:2024 apporte une contribution significative à la compréhension de la qualité des données dans le contexte de l'intelligence artificielle, en particulier pour l'analyse et l'apprentissage machine (ML). Son champ d'application est clair et bien défini, servant de fondation pour l'association et la compréhension des documents individuels de la série ISO/IEC 5259. Une des forces majeures de cette norme réside dans sa capacité à fournir un cadre conceptuel exhaustif pour la qualité des données. En établissant une terminologie précise, elle facilite les discussions et les comparaisons autour des concepts clés liés à l'analyse des données. De plus, la norme n'hésite pas à inclure des exemples pertinents, tels que des cas d'utilisation et des scénarios d'application, ce qui renforce sa pertinence dans le monde pratique. La norme aborde également les technologies associées, ce qui permet aux professionnels de mieux comprendre comment ces technologies interagissent avec les concepts de qualité des données. En intégrant cette dimension technologique, ISO/IEC 5259-1:2024 répond aux besoins croissants des entreprises qui souhaitent intégrer l'intelligence artificielle et l'analyse de données dans leurs processus décisionnels. En somme, ISO/IEC 5259-1:2024 s'affirme comme un document essentiel pour ceux qui cherchent à naviguer dans le paysage complexe de la qualité des données en rapport avec l'intelligence artificielle, offrant à la fois une vue d'ensemble et des outils pratiques pour améliorer la qualité des données dans les projets d'analyse et d'apprentissage machine.
ISO/IEC 5259-1:2024は、人工知能におけるデータ品質に関する標準の第一部であり、特に分析および機械学習(ML)の文脈で重要な役割を果たします。この文書は、ISO/IEC 5259シリーズの個々の文書を理解し、関連付ける手段を提供するものであり、データ品質に対する概念的理解の基礎を形成しています。 この標準の強みは、データ品質の評価と改善により、分析と機械学習の結果を向上させる具体的な方法論と用語を明確に定義している点です。術語の定義が明確であることで、関係者が共通の言語を持ち、異なる技術者や研究者間でのコミュニケーションが円滑になります。また、関連技術や使用事例(ユースケース)についての説明も含まれており、実際の適用シナリオを参考にすることで、理解を深めることができます。 加えて、この標準はデータ品質の重要性を広く認識させるための基盤を提供しており、特に人工知能の進化と相まって、現代のビジネス環境におけるデータ戦略において不可欠な要素となっています。データの質を確保することは、機械学習モデルの精度を高めるための鍵であり、そのための枠組みを提供するISO/IEC 5259-1:2024の重要性は増しています。 このように、ISO/IEC 5259-1:2024は、データ品質に関する包括的な理解を促進し、分析および機械学習の領域における実践的な指針となるものであり、今後の技術的進展に対応するための基盤を築いていると言えます。
Die Norm ISO/IEC 5259-1:2024 bietet eine umfassende Grundlage für das Verständnis der Datenqualität im Kontext von Analytik und maschinellem Lernen. Sie deckt maßgebliche Aspekte ab, die für die korrekte Anwendung von KI-Technologien relevant sind und stellt sicher, dass die Nutzer in der Lage sind, die verschiedenen Dokumente der ISO/IEC 5259-Serie zu erkennen und miteinander zu koppeln. Dieser Standard trägt wesentlich zur Sicherstellung von Datenqualität bei, was entscheidend ist für erfolgreiche Ergebnisse in analytischen Verfahren und beim maschinellen Lernen. Ein herausragendes Merkmal dieser Norm ist ihre detaillierte Übersicht und die klare Definition von Begrifflichkeiten, die im Bereich der Datenqualität angewendet werden. Dies ist besonders wichtig, da viele Fachleute und Unternehmen oft mit missverständlichen Begriffen zu kämpfen haben, die ohne klaren Rahmen schwer zu kommunizieren sind. Darüber hinaus werden zahlreiche Beispiele wie Anwendungsfälle und Nutzungsszenarien präsentiert, die den Anwendern helfen, die theoretischen Konzepte in der Praxis anzuwenden. Die Relevanz der ISO/IEC 5259-1:2024 ergibt sich aus der zunehmenden Bedeutung von Daten in Entscheidungsprozessen innerhalb der Unternehmen. Durch die Norm können Unternehmen sicherstellen, dass sie qualitativ hochwertige Daten für ihre Analysen verwenden, was die Effizienz und Genauigkeit der maschinellen Lernmodelle steigert. Somit wird die Datenqualität als entscheidender Faktor hervorgehoben, der nicht nur die Vertrauenswürdigkeit der Analysen erhöht, sondern auch die Grundlage für innovative Lösungen in der KI-Schaffung bildet. Insgesamt stellt die Norm ein wichtiges Instrument dar, das dem ständig wachsenden Bedarf an qualitativ hochwertigen Daten in der modernen Datenanalyse entspricht und das Verständnis und die Anwendung von Maschinellem Lernen durch strukturierte, einheitliche Ansätze fördert.
The ISO/IEC 5259-1:2024 standard provides a comprehensive overview of artificial intelligence and its correlation with data quality for analytics and machine learning (ML). The scope of this standard is particularly insightful, as it establishes a framework for the understanding and association of the individual documents within the ISO/IEC 5259 series. This foundation facilitates a conceptual understanding of data quality, which is crucial for professionals in the fields of analytics and machine learning. One significant strength of the ISO/IEC 5259-1:2024 standard is its inclusion of terminology that is vital for clear communication among stakeholders. The glossary of terms defined within the document helps to eliminate ambiguity and fosters a common understanding, which is essential in collaborative environments where varied expertise converges. Additionally, the standard's discussion of associated technologies, use cases, and usage scenarios enhances its practicality. By providing concrete examples, ISO/IEC 5259-1:2024 allows practitioners to visualize the application of theoretical concepts in real-world situations, thereby bridging the gap between abstract principles and actionable insights. This aspect is particularly relevant as organizations strive to harness the power of machine learning while ensuring the integrity and quality of their data. In summary, ISO/IEC 5259-1:2024 stands out as a relevant and robust document that serves as a cornerstone for understanding data quality in the context of artificial intelligence. Its clear scope, well-defined terminology, and practical examples position it as an essential resource for professionals seeking to enhance their analytics and machine learning initiatives.
La norme ISO/IEC 5259-1:2024 constitue un pilier essentiel pour quiconque souhaite appréhender la qualité des données dans le cadre de l'analyse et de l'apprentissage automatique (ML). Son champ d'application est particulièrement vaste, car elle sert de base pour la compréhension des documents individuels de la série ISO/IEC 5259. Ce faisant, elle facilite non seulement la compréhension conceptuelle de la qualité des données, mais elle établit également des liens avec des technologies associées et des scénarios d'utilisation concrets. Une des forces majeures de cette norme est sa capacité à clarifier la terminologie spécifique au domaine de l'intelligence artificielle. En fournissant des exemples pratiques et des cas d'utilisation, la norme permet aux professionnels du secteur de mieux saisir les enjeux de la qualité des données, ce qui est crucial dans les démarches analytiques et les projets de machine learning. La richesse des exemples présentés dans le document illustre l'application des principes théoriques dans des contextes concrets, rendant ainsi l'information accessible et applicable. De plus, la norme ISO/IEC 5259-1:2024 aborde des technologies associées, renforçant ainsi sa pertinence dans un paysage technologique en constante évolution. En conjuguant théorie et pratique, cette norme répond non seulement aux besoins des chercheurs et des praticiens, mais elle s'inscrit également dans une démarche de standardisation nécessaire pour garantir la qualité et la fiabilité des données utilisées en intelligence artificielle. En somme, la norme ISO/IEC 5259-1:2024 s’affirme comme un document fondamental pour tous les acteurs de l'intelligence artificielle désireux de s'assurer de la qualité des données dans leurs processus analytiques et d'apprentissage machine. Sa contribution à l'établissement d'un vocabulaire commun et à la mise en lumière des meilleures pratiques en matière de qualité des données positionne cette norme comme un outil essentiel dans le domaine.
ISO/IEC 5259-1:2024は、人工知能(AI)に関連するデータ品質の重要性を理解するための基盤を提供します。この標準は、データ分析と機械学習(ML)におけるデータ品質に関する個別の文書を関連付け、全体を俯瞰するための概要、用語、および具体例を提示しています。これにより、利用者は関連する技術や使用シナリオを理解することができ、より高いデータ品質を実現するための手法を促進します。 この文書の特徴として、データ品質の概念を包括的に整理し、AIとML分野におけるデータの取り扱い方を明確にする点が挙げられます。また、実例やユースケースを通じて理解を助けるため、現実のアプリケーションへの適用性が高いことも評価されます。特に、機械学習のモデル開発やデータ分析タスクにおいて、質の高いデータを扱うことの重要性が強調されています。 ISO/IEC 5259-1:2024の関連性は、ますますデータ駆動型の意思決定が求められる現代において、非常に高くなっています。組織がデータの品質管理を強化し、競争力を維持するためには、この標準を理解し活用することが不可欠です。全体的に、ISO/IEC 5259-1:2024は、データ品質に対する包括的なアプローチを提供し、AIおよびMLの進展に寄与する重要な文書です。
ISO/IEC 5259-1:2024 표준 문서는 인공지능과 분석, 머신러닝(ML)에서 데이터 품질을 이해하고 관련 문서들과 연계하는 기초를 제공합니다. 이 표준은 데이터 품질의 개념적 이해를 위한 기반을 제공하며, 따라서 데이터 기반 의사결정의 생태계에서 필수적인 자원으로 자리잡고 있습니다. 이 표준의 주요 강점 중 하나는 명확한 용어 정의와 다양한 예시를 통해 데이터 품질의 복잡성을 쉽게 소화할 수 있도록 도와준다는 점입니다. 사용 사례 및 활용 시나리오를 포함한 설명은 실제 환경에서의 적용 가능성을 높여주며, 머신러닝 및 데이터 분석의 품질 향상에 기여할 수 있습니다. 또한, 이 표준은 분석 및 머신러닝을 위한 데이터 품질의 중요성을 강조하며, 데이터 과학자 및 엔지니어들에게 필수적인 가이드라인을 제공합니다. ISO/IEC 5259-1:2024는 정보기술 및 데이터 관리 분야의 발전에 발맞추어 최신 기술 동향과 연계된 내용을 포함하고 있어, 현재와 미래의 기술적 요구에 적합한 데이터 품질 관리의 방향성을 제시합니다. 이는 기업들이 효과적인 데이터 분석을 통해 더 나은 의사 결정을 내리고, 경쟁력을 유지하기 위한 전략적 자원으로 보여집니다. 결론적으로, 이 표준은 인공지능 및 머신러닝 분야에서 데이터 품질 관리의 핵심 요소를 상세히 설명하고 있으며, 관련 분야 전문가들에게 유익한 참고자료가 될 것입니다.
ISO/IEC 5259-1:2024は、人工知能や機械学習(ML)におけるデータ品質の理解を促進するための重要な標準です。本標準のスコープは、ISO/IEC 5259シリーズの各個別文書を理解し関連付ける手段を提供することであり、分析や機械学習におけるデータ品質の概念的理解の基盤を形成します。この文書は、関連する技術や具体的な例(ユースケースや使用シナリオ)についても触れており、理論的な知識だけでなく実際の応用に役立つ情報を網羅しています。 この標準の強みは、データ品質に関する一貫した用語や定義を提供し、関連する文書との相互関連性を明確にする点にあります。また、データ品質が重要となる現代のテクノロジー環境において、実践的な例を示すことで、専門家や研究者が具体的な状況においてデータ品質を考慮する方法を学ぶ手助けをします。これにより、データがどのようにして意思決定に影響を与えるかを理解しやすくなっています。 ISO/IEC 5259-1:2024は、データ品質に特化した分析や機械学習の分野での基礎的な枠組みを提供し、その重要性を再認識させるものであり、専門家にとって不可欠なリソースと言えるでしょう。この標準が持つ関連性は、AIやMLの進化が続く中でさらに高まっており、将来のデータ分析の質を向上させるための土台を築いています。
The ISO/IEC 5259-1:2024 standard serves as a foundational reference for understanding data quality in the context of analytics and machine learning (ML). Its well-defined scope emphasizes the importance of data quality by providing comprehensive terminology and illustrative examples that aid users in grasping the core concepts of this rapidly evolving field. One of the key strengths of this standard is its structured approach, which facilitates a clear association with the other documents in the ISO/IEC 5259 series. This interconnectedness ensures that practitioners can easily navigate through a cohesive framework dedicated to enhancing data quality. The focus on terminology is essential, as it promotes a common language among stakeholders, fostering better communication and understanding in data-related projects. Additionally, the inclusion of use cases and usage scenarios within the standard enriches the content by offering practical insights that can be readily applied in real-world contexts. This contextualization not only aids in the comprehension of theoretical aspects but also empowers organizations to implement the principles effectively within their analytics and machine learning workflows. The relevance of the ISO/IEC 5259-1:2024 standard cannot be overstated in today’s data-driven landscape, where the integrity and quality of data directly impact the success of machine learning initiatives. By establishing a clear foundation for understanding data quality, this standard helps organizations navigate the complexities of data analytics with confidence, ensuring that they are well-equipped to leverage their data for optimal outcomes. In summary, the ISO/IEC 5259-1:2024 standard stands out due to its clear scope, robust structure, and practical relevance, making it an indispensable resource for anyone involved in the fields of analytics and machine learning.
The ISO/IEC 5259-1:2024 standard plays a crucial role in establishing a foundational understanding of data quality specifically tailored for analytics and machine learning (ML). Its comprehensive scope addresses the need for consistent terminology and conceptual frameworks that serve as the backbone of the ISO/IEC 5259 series. By offering a cohesive overview, this document facilitates better comprehension of the intricate relationships among various documents in the series, which is essential for practitioners in the field. One of the strengths of ISO/IEC 5259-1:2024 is its ability to elucidate key concepts related to data quality, thereby providing a robust framework that can be applied across different analytics and machine learning projects. Moreover, the inclusion of relevant associated technologies enhances its applicability and relevance. This positions the standard as an invaluable resource for professionals seeking to advance their understanding of how data quality influences the performance and reliability of analytics and machine learning systems. Additionally, the standard’s presentation of examples, including use cases and usage scenarios, serves to bridge theoretical concepts with practical applications. This not only aids in reinforcing the importance of maintaining high data quality but also assists organizations in visualizing potential challenges and solutions in real-world contexts. As such, ISO/IEC 5259-1:2024 remains highly relevant in today's data-driven landscape, where the success of analytics and machine learning initiatives often hinges on the quality and integrity of the underlying data.


















Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...