Biotechnology -- Massively parallel sequencing

This document specifies general requirements and recommendations for quality assessments and control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures, sequencing alignments, and variant calling. This document also gives general guidelines for validation and documentation of MPS data. This document does not apply to any processes related to de novo assembly.

Biotechnologie -- Séquençage massivement parallèle

Le présent document spécifie les exigences générales et les recommandations applicables ŕ l'évaluation et au contrôle de la qualité des données de séquençage massivement parallčle (SMP). Il traite des modes opératoires faisant suite ŕ la production des données brutes, en incluant la génération des alignements de séquences et la détection des variants. Le présent document fournit également des lignes directrices générales applicables ŕ la validation et ŕ la documentation des données SMP. Le présent document ne s'applique pas aux processus relatifs ŕ l'assemblage de novo.

General Information

Status
Published
Publication Date
31-Jan-2021
Current Stage
5060 - Close of voting Proof returned by Secretariat
Start Date
29-Dec-2020
Completion Date
28-Dec-2020
Ref Project

Buy Standard

Standard
ISO 20397-2:2021 - Biotechnology -- Massively parallel sequencing
English language
21 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 20397-2:2021 - Biotechnologie -- Séquençage massivement parallèle
French language
22 pages
sale 15% off
Preview
sale 15% off
Preview
Draft
ISO/FDIS 20397-2:Version 24-okt-2020 - Biotechnology -- Massively parallel sequencing
English language
21 pages
sale 15% off
Preview
sale 15% off
Preview
Draft
ISO/FDIS 20397-2:Version 28-nov-2020 - Biotechnologie -- Séquençage massivement parallele
French language
22 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (sample)

INTERNATIONAL ISO
STANDARD 20397-2
First edition
2021-02
Biotechnology — Massively parallel
sequencing —
Part 2:
Quality evaluation of sequencing data
Biotechnologie — Séquençage massivement parallèle —
Partie 2: Évaluation de la qualité des données de séquençage
Reference number
ISO 20397-2:2021(E)
ISO 2021
---------------------- Page: 1 ----------------------
ISO 20397-2:2021(E)
COPYRIGHT PROTECTED DOCUMENT
© ISO 2021

All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may

be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting

on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address

below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2021 – All rights reserved
---------------------- Page: 2 ----------------------
ISO 20397-2:2021(E)
Contents Page

Foreword ........................................................................................................................................................................................................................................iv

Introduction ..................................................................................................................................................................................................................................v

1 Scope ................................................................................................................................................................................................................................. 1

2 Normative references ...................................................................................................................................................................................... 1

3 Terms and definitions ..................................................................................................................................................................................... 1

4 Raw data ........................................................................................................................................................................................................................ 6

4.1 General ........................................................................................................................................................................................................... 6

4.2 Raw data file .............................................................................................................................................................................................. 6

4.3 Quality assessment of raw data ................................................................................................................................................ 6

4.3.1 General...................................................................................................................................................................................... 6

4.3.2 Basic statistics .................................................................................................................................................................... 7

4.3.3 Quality metrics .................................................................................................................................................................. 7

4.4 Raw data pre-processing ................................................................................................................................................................ 8

5 Sequence alignment and mapping ..................................................................................................................................................... 8

5.1 General ........................................................................................................................................................................................................... 8

5.2 Alignment and mapping file format ...................................................................................................................................... 9

5.3 Quality control of sequencing alignment and mapping ....................................................................................... 9

5.3.1 Basic alignment statistics ......................................................................................................................................... 9

5.3.2 Quality indicators .........................................................................................................................................................10

5.3.3 Methods for alignment and mapping quality assessment ........................................................11

5.4 Alignment post-processing .......................................................................................................................................................11

6 Variant calling ......................................................................................................................................................................................................11

6.1 General ........................................................................................................................................................................................................11

6.2 Data file for variant calling ........................................................................................................................................................11

6.3 Quality metrics in the variant calling ...............................................................................................................................12

6.4 Processing of false positive variants .................................................................................................................................12

6.5 Sequence annotation ......................................................................................................................................................................12

7 Validation ..................................................................................................................................................................................................................12

7.1 General ........................................................................................................................................................................................................12

7.2 Validation of quality metrics ....................................................................................................................................................13

8 Documentation ....................................................................................................................................................................................................14

Annex A (informative) Quality metrics for specific example MPS platforms ..........................................................15

Annex B (informative) Coverage and read recommendations by applications .....................................................16

Annex C (informative) Software for sequence alignment and mapping .......................................................................18

Bibliography .............................................................................................................................................................................................................................19

© ISO 2021 – All rights reserved iii
---------------------- Page: 3 ----------------------
ISO 20397-2:2021(E)
Foreword

ISO (the International Organization for Standardization) is a worldwide federation of national standards

bodies (ISO member bodies). The work of preparing International Standards is normally carried out

through ISO technical committees. Each member body interested in a subject for which a technical

committee has been established has the right to be represented on that committee. International

organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.

ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of

electrotechnical standardization.

The procedures used to develop this document and those intended for its further maintenance are

described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the

different types of ISO documents should be noted. This document was drafted in accordance with the

editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).

Attention is drawn to the possibility that some of the elements of this document may be the subject of

patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of

any patent rights identified during the development of the document will be in the Introduction and/or

on the ISO list of patent declarations received (see www .iso .org/ patents).

Any trade name used in this document is information given for the convenience of users and does not

constitute an endorsement.

For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and

expressions related to conformity assessment, as well as information about ISO's adherence to the

World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/

iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 276, Biotechnology
A list of all parts in the ISO 20397 series can be found on the ISO website.

Any feedback or questions on this document should be directed to the user’s national standards body. A

complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2021 – All rights reserved
---------------------- Page: 4 ----------------------
ISO 20397-2:2021(E)
Introduction

Massively parallel sequencing (MPS) is a high-throughput analytical approach to nucleic acid sequencing

utilizing massively parallel processing, that allows whole genomes, transcriptomes and specific nucleic

acid targets from different organisms to be investigated in a relatively short time.

MPS is used in many life science disciplines permitting determination and high throughput analysis of

millions and thousands of millions of nucleotide bases. The biological variability of deoxyribonucleic

and ribonucleic acid polymers from living organisms results in challenges in accurately determining

their sequences. The quality of sequence determination by MPS depends on many factors including but

not limited to sample quality, library preparation, platform selection, and sequencing data quality.

The analysis of sequencing data poses significant bioinformatics challenges in various areas such as

data storage, computation time and variant detection accuracy. One of the major challenges associated

with sequencing data that is sometimes easily overlooked is monitoring quality control metrics over

all stages of the data processing pipeline. Knowledge of data quality is essential for downstream

analysis of sequences. Quality control for nucleic acid sequencing data handling and analysis can be

separated into three stages: raw data, alignment and variant calling. This document provides a list of

considerations for quality evaluation of MPS sequencing data, and the specific recommendations for

different MPS platforms.
© ISO 2021 – All rights reserved v
---------------------- Page: 5 ----------------------
INTERNATIONAL STANDARD ISO 20397-2:2021(E)
Biotechnology — Massively parallel sequencing —
Part 2:
Quality evaluation of sequencing data
1 Scope

This document specifies general requirements and recommendations for quality assessments and

control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures,

sequencing alignments, and variant calling.

This document also gives general guidelines for validation and documentation of MPS data.

This document does not apply to any processes related to de novo assembly.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.

ISO and IEC maintain terminological databases for use in standardization at the following addresses:

— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at http:// www .electropedia .org/
3.1
adapter sequence
adapter

artificial oligonucleotide of a known sequence that can be added to the 3’ or 5’ ends of a nucleic acid

fragment

Note 1 to entry: It provides the primer site as well as other necessary sequences for sequencing the insert.

3.2
algorithm

completely determined finite sequence of instructions by which the values of the output variables may

be calculated from the values of the input variables
[SOURCE: IEC 60050-351:2013, 351-42-27, modified — The notes were deleted.]
3.3
base calling

computational process in massively parallel sequencing of translating raw electrical signals to

nucleotide sequence

Note 1 to entry: Base calling application and algorithm performance is characteristically defined by read and

consensus accuracy.
© ISO 2021 – All rights reserved 1
---------------------- Page: 6 ----------------------
ISO 20397-2:2021(E)
3.4
bioinformatics pipeline

individual programs, scripts, or pieces of software linked together, where raw data or output from one

program is used as input for the next step in data processing

EXAMPLE The output from a base quality trimming program may be used as input to a de-novo assembler.

3.5
capture efficiency
percent of all sequenced or mapped reads that overlap the targeted regions
3.6
coverage
coverage depth
number of times that a given base position is read in a sequencing run
Note 1 to entry: The number of reads that cover a particular position.
3.7
coverage breadth
fraction of the genome in assembled/target genome size in sequencing runs
3.8
cluster density
number of clusters for each tile

Note 1 to entry: The cluster density applied to the MPS (3.30) platforms requires an amplification step.

Note 2 to entry: The density of individual sequence clusters, each arising from a single molecule on some

sequencing platforms.
Note 3 to entry: Cluster density is usually expressed in thousands per mm .
3.9
CCS
circular consensus sequencing

sequencing mode where the insert size is sequenced multiple times in a rolling circle amplification type

reaction, leading to high accuracy

Note 1 to entry: In this mode, multiple passes from the same molecule can be used to achieve higher single

molecule accuracy.
3.10
coverage range
range of coverage depth across a genome for sequencing runs
3.11
CNV
copy number variation
copy number variant

variation of the number of copies of one or more sections of the DNA present in the genome of an

organism

Note 1 to entry: CNVs are insertions, deletions, inversions and duplications containing at least 1 000 bases in length.

3.12
DNA
deoxyribonucleic acid

polymer of deoxyribonucleotides occurring in a double-stranded (dsDNA) or single-stranded (ssDNA)

form
[SOURCE: ISO 22174:2005, 3.1.2]
2 © ISO 2021 – All rights reserved
---------------------- Page: 7 ----------------------
ISO 20397-2:2021(E)
3.13
deletion

loss of one (or more) nucleotide base pair(s) from a nucleic acid sequence compared to its reference

sequence
3.14
duplication level
number of identical repeats for every sequence in a library

Note 1 to entry: The duplication level is usually displayed in a plot showing the relative number of sequences

with different degrees of duplication.
3.15
GC content
percentage of guanine and cytosine in one or more nucleic acid sequence(s)

Note 1 to entry: The amount of guanine and cytosine in a polynucleic acid, is usually expressed in mole fraction

(or percentage) of total nitrogenous bases. Total nitrogenous bases comprise the total number of nucleotide

bases of reads from one or more MPS run.
3.16
gene

sequence of nucleotides in DNA or RNA encoding either an RNA or a protein product

Note 1 to entry: Genes are recognized as the basic unit of heredity.

Note 2 to entry: A gene can consist of non-contiguous nucleic acid segments that are rearranged through a

nuclear processing step.

Note 3 to entry: A gene may include or be part of an operon that includes elements for gene expression.

3.17
indel
insertion (3.18) or /and deletion (3.13) of nucleotides in genomic DNA
Note 1 to entry: Indels are less than 1 000 bases in length.
3.18
insertion
addition of one (or more) nucleotide base pair(s) into a nucleic acid sequence
[SOURCE: ISO/TS 20428: 2017, 3.19, modified — DNA was replaced by nucleic acid.]
3.19
sequencing

determining the order and the content of nucleotide bases (adenine, guanine, cytosine, thymine, and

uracil) of a nucleic acid molecule
Note 1 to entry: A sequence is generally described from the 5’ to 3’ end.

[SOURCE: ISO/TS 17822-1:2020, 3.19, modified — DNA was deleted in the term; DNA was replaced by

nucleic acid, and uracil was added in the definition.]
3.20
sequence alignment
arrangement of nucleic acid sequences according to regions of similarity

Note 1 to entry: Sequence alignment may not require a reference genome /reference targeted nucleic acid region

and its aim might not produce an assembly.
© ISO 2021 – All rights reserved 3
---------------------- Page: 8 ----------------------
ISO 20397-2:2021(E)
3.21
raw data

primary sequencing data produced by a sequencer without involving any software-based pre-filtering

for analysis purpose
3.22
RNA
ribonucleic acid

polymer of ribonucleotides occurring in a double-stranded or single-stranded form

Note 1 to entry: Synthesis of proteins in cells is directed by genetic information carried in the sequence of

nucleotides in a class of RNA known as messenger RNA (mRNA).
3.23
ribonucleotide

nucleotide containing ribose as its pentose component forming the basic building blocks for RNA

Note 1 to entry: The ribonucleotides consist of adenylate (AMP), guanylate (GMP), cytidylate (CMP), or

uridylate (UMP).
3.24
read
sequence read
nucleotide sequence generated by a sequencing device

Note 1 to entry: A read is a deduced sequence of nucleic acid base pairs (or base pairs probabilities) corresponding

to all (or part of) a single nucleic acid fragment. Read can be used to refer to as those sequences obtained from

MPS experiments.
3.25
read type

category of sequence that depends on how the sequence reading experiment is designed and conducted

EXAMPLE Read type can be single-end, paired-end, mate-paired end, continuous long read, circular

consensus.
3.26
reference sequence

nucleic acid sequence used either to align by mapping sequence reads or as the basis for annotations

such as genes and sequence variations
3.27
demultiplexing

computational reverse of multiplexing process, mixing two or more samples together such that they

can be sequenced in a single run on an MPS instrument

Note 1 to entry: Samples that are to be combined need to be barcoded/indexed prior to being mixed together.

Note 2 to entry: Demultiplexing is a computational algorithm that separates a pool of reads according to their

original sample based on the barcode.
3.28
mapping

assembling nucleic acid sequences against an existing backbone (reference) sequence, in order to build

a consensus sequence
3.29
mate pairs
mate pair reads

paired-end read which correspond to the ends of a long nucleic acid sequence fragment obtained by

shrinking the sample into large chunks (larger than 2 kb or at least 2 kb)
4 © ISO 2021 – All rights reserved
---------------------- Page: 9 ----------------------
ISO 20397-2:2021(E)
3.30
MPS
massively parallel sequencing

sequencing technique based on the determination of incremental template based polymerization of

many independent DNA molecules simultaneously

Note 1 to entry: Massively parallel sequencing technology can provide millions or billions of short reads per run.

3.31
paired-end reads
sequencing reads from both ends of a DNA fragment

Note 1 to entry: In paired-end sequencing, the instrument sequences both ends of short inserts typically ranging

from 200 bps to 800 bps.
3.32
quality score
Q score
Phred quality score
measure of the sequencing quality of a given nucleotide base
Note 1 to entry: Q is defined by the following formula:
Qp=−10log10()
where p is the estimated probability of the base call being wrong.

Note 2 to entry: A quality score of 20 represents an error rate of 1 in 100, with a corresponding call accuracy

of 99 %.

Note 3 to entry: Higher quality scores indicate a smaller probability of error. Lower quality scores can result in a

significant portion of the reads being unusable. Low quality scores can also indicate false-positive variant calls,

resulting in inaccurate conclusions.
3.33
run

single process cycle of the sequencer from initiation until the raw data is obtained

3.34
sequence annotation

process of adding a note of explanation, comment or reference about specific features in a DNA, RNA or

protein sequence with descriptive information about structure or function

Note 1 to entry: The process of sequence annotation can be regarded as assigning metadata to the sequence.

3.35
single-end read
sequence read obtained by reading a DNA fragment from one end to the other
3.36
SNV
single nucleotide variant
variation in a single nucleotide of a nucleic acid molecule
3.37
structural variation

region of DNA approximately 1 000 bases or larger in size which can include inversions and balanced

translocations or genomic imbalances

Note 1 to entry: Common types of structural variants include copy number variants (deletions, insertions,

amplifications, duplications), copy number neutral deletions (loss of heterozygosity), inversions, segmental

duplications, and translocations (balanced or imbalanced).
© ISO 2021 – All rights reserved 5
---------------------- Page: 10 ----------------------
ISO 20397-2:2021(E)
3.38
subread
fraction of the read that is present in between hairpin adapters
3.39
trimming of raw reads

procedure aimed at removing low quality portions or sequence contaminations while preserving the

longest high-quality part of an MPS read
3.40
variation

differences of one or more nucleic acid bases in a sequence with respect to the expected one(s)

3.41
variant calling

process of accurately identifying the variations from sequence data with respect to a reference sequence

3.42
ZMW
zero mode waveguide

optical waveguide that guides light energy into a volume that is small in all dimensions compared to the

wavelength of the light

Note 1 to entry: A polymerase is anchored at the bottom of that ZMW and the incorporation of nucleotides

is measured by the increase of fluorescence during binding followed by the subsequent reduction after

incorporation.
4 Raw data
4.1 General

Each nucleotide in a sequence should be assigned a numerical value (base quality score) that correlates

to the inferred accuracy of the base calling process, if applicable.
4.2 Raw data file

Generation of sequence read files should use instrument-specific software and/or instrument-specific

pipelines. Monitored physical parameters such as signal to noise ratio shall be documented. These

physical parameters should be monitored of during each sequencing experiment.

Sequence read files should be configured in the appropriate file format, containing the compilation of

individual sequence reads, each with its own identifier, and an associated base quality score for each

nucleotide.

NOTE FASTQ format (or convertible to FASTQ format) can be used as a de facto standard format for

downstream analysis of the quality of MPS data sets. FASTQ is widely accepted as a cross platform interchange

file format.

The output files generated after a sequencing run, and associated quality metrics should be analysed in

the downstream bioinformatics pipeline using appropriate software.
4.3 Quality assessment of raw data
4.3.1 General

Quality control indicators can differ depending on the MPS platform, library preparation method, and

intended use of the analysis.
6 © ISO 2021 – All rights reserved
---------------------- Page: 11 ----------------------
ISO 20397-2:2021(E)

Sequence results should be interpreted by competent staff. The interpretation should be performed to

meet the quality level fitting the intended purpose of the analysis considering a statistically reliable

repeat number of reads.

Read processing tools should be applied with consideration for quality assessment and trimming of

raw reads.
4.3.2 Basic statistics
Basic statistics shall be recorded, including but not limited to:
a) type of platform;
b) type of read;
c) library preparation kit;
d) read length;
e) number of reads;
f) overall GC content;
g) total sequence length.
4.3.3 Quality metrics

The quality control metrics for raw data assessment can refer to but are not limited to:

a) sequence length distribution;
b) per sequence GC content;
c) quality score;
1) per base sequence quality;
2) per sequence quality score;
NOTE 1 Low-quality scores can indicate increased false-positive variant calls.

3) all sequences should be flagged as either ‘warn’ or ‘pass’ for per base sequence quality.

d) per base sequence content;
e) acceptability of signal/noise ratio;
f) sequence duplication levels;
g) overrepresented level;
h) cluster density;

i) transition/transversion ratio for whole-exome or whole-genome sequencing or large amplicons

sequencing;
g) adaptor rate/adaptor sequence contamination;
k) contaminants (identification, quantification);
l) error rate;

NOTE 2 This includes homopolymer errors: errors in the number of bases called when a single nucleotide

occurs more than once in consecutive order in a sequence.
© ISO 2021 – All rights reserved 7
---------------------- Page: 12 ----------------------
ISO 20397-2:2021(E)
m) k-mer analysis;

NOTE 3 In computational genomics, k-mers refer to all the possible subsequences (of length k) from a

nucleic acid sequence. Overrepresentation of k-mers can be analysed to detect potential genome mis-

assembly where repeated DNA sequences have possibly been combined.
n) N fragment;
NOTE 4 Number and/or percentage of ambiguous calls.
o) repeat stretch and repeat sequence;
p) nucleotide distribution across cycles.
4.4 Raw data pre-processing

Raw data pre-processing may include but is not limited to the following computational steps, if

applicable:
a) removal/trimming of low-quality sequences/bases;
b) demultiplexing;
c) removal of adapters/primers and contamination;
d) error correction;
e) filtration of duplicated read;
f) trimming of reads to fixed length;
g) calling the CCS reads.

When CCS data are being used, the CCS reads should be obtained and filtered prior to downstream

analysis.
5 Sequence alignment and mapping
5.1 General

Sequence alignment and mapping strategy should be chosen based on the application.

EXAMPLE There is spliced mapping for RNA and un-spliced mapping for the mapping strategy of RNA

sequencing.
Alignment and mapping software and tools can be used for alignment.

Alignment quality can be assessed visually using proper alignment views, and using the information

provided in the alignment file.

Examples of the software for sequence alignment and mapping of different applications are described

in Annex C.

Reference genomes/reference targeted nucleic acid regions shall be used for mapping and should be

carefully chosen depending on experimental design.

NOTE 1 Considerations include the version of the reference genome/reference targeted nucleic acid region,

choice of different strains in one organism, and choice of masked, soft-masked or unmasked genomes.

NOTE 2 Open source sequencing alignment and mapping software is available online.

8 © ISO 2021 – All rights reserved
---------------------- Page: 13 ----------------------
ISO 20397-2:2021(E)
5.2 Alignment and mapping file format
Alignments are always stored in the following file formats.
[17][24]
a) Sequence alignment format (SAM) .

NOTE 1 SAM is a TAB-delimited text format consisting of a header section, which is optional, and an

alignment section. Each alignment line has 11 mandatory fields for essential alignment information such as

mapping position and variable number of optional fields for flexible or aligner specific information.

[15][17]
b) Binary alignment format (BAM) .
NOTE 2 It is the compressed format analogous to the SAM format in binary form.
[16]
c) Compressed reference-oriented alignment map (CRAM) .

NOTE 3 CRAM is a sequencing read file format that is space efficient by using reference-based compression

of sequence data and offers both lossless and lossy modes of compression.
[3][4][5][6][7][8]
d) Moving pictures experts group for genomics (MPEG-G) .

NOTE 4 MPEG-G is a genomics representation format based on the concept of a Genomic Record, a data

structure consisting of either a single sequence read, or a paired sequence read, and its associated sequencing

and alignment information; it can contain detailed mapping and alignment data, a single or paired read

identifier (read name) and quality values. Genomic Records are aggregated and encoded in structures called

Access Units. These structures are units of coded genomic information that can be separately accessed and

inspected.
NOT
...

NORME ISO
INTERNATIONALE 20397-2
Première édition
2021-02
Biotechnologie — Séquençage
massivement parallèle —
Partie 2:
Évaluation de la qualité des données
de séquençage
Biotechnology — Massively parallel sequencing —
Part 2: Quality evaluation of sequencing data
Numéro de référence
ISO 20397-2:2021(F)
ISO 2021
---------------------- Page: 1 ----------------------
ISO 20397-2:2021(F)
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2021

Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette

publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,

y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut

être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.

ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2021 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO 20397-2:2021(F)
Sommaire Page

Avant-propos ..............................................................................................................................................................................................................................iv

Introduction ..................................................................................................................................................................................................................................v

1 Domaine d’application ................................................................................................................................................................................... 1

2 Références normatives ................................................................................................................................................................................... 1

3 Termes et définitions ....................................................................................................................................................................................... 1

4 Données brutes ...................................................................................................................................................................................................... 6

4.1 Généralités .................................................................................................................................................................................................. 6

4.2 Fichier de données brutes ............................................................................................................................................................. 7

4.3 Évaluation de la qualité des données brutes ................................................................................................................. 7

4.3.1 Généralités ............................................................................................................................................................................ 7

4.3.2 Statistiques élémentaires ......................................................................................................................................... 7

4.3.3 Mesures de qualité ......................................................................................................................................................... 7

4.4 Prétraitement des données brutes ........................................................................................................................................ 8

5 Alignement et cartographie des séquences .............................................................................................................................. 9

5.1 Généralités .................................................................................................................................................................................................. 9

5.2 Format des fichiers d’alignement et de cartographie ............................................................................................ 9

5.3 Contrôle qualité de l’alignement et de la cartographie des séquences ...............................................10

5.3.1 Statistiques sur les alignements de base .................................................................................................10

5.3.2 Indicateurs de qualité ...............................................................................................................................................11

5.3.3 Méthodes d’évaluation de la qualité d’alignement et de cartographie ..........................12

5.4 Post-traitement de l’alignement ...........................................................................................................................................12

6 Détection de variants ....................................................................................................................................................................................12

6.1 Généralités ...............................................................................................................................................................................................12

6.2 Fichier de données pour la détection de variants .................................................................................................12

6.3 Mesures de qualité lors de la détection de variants ......... ....................................................................................12

6.4 Traitement des variants faux-positifs ...............................................................................................................................13

6.5 Annotation de séquences ............................................................................................................................................................13

7 Validation ..................................................................................................................................................................................................................13

7.1 Généralités ...............................................................................................................................................................................................13

7.2 Validation des mesures de qualité ......................................................................................................................................14

8 Documentation ....................................................................................................................................................................................................15

Annexe A (informative) Mesures de qualité applicables aux plateformes SMP ...................................................16

Annexe B (informative) Recommandations applicables à la couverture et aux lectures en

fonction des applications .........................................................................................................................................................................17

Annexe C (informative) Logiciel d’alignement et de cartographie des séquences ............................................19

Bibliographie ...........................................................................................................................................................................................................................20

© ISO 2021 – Tous droits réservés iii
---------------------- Page: 3 ----------------------
ISO 20397-2:2021(F)
Avant-propos

L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes

nationaux de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est

en général confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude

a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,

gouvernementales et non gouvernementales, en liaison avec l'ISO participent également aux travaux.

L'ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui

concerne la normalisation électrotechnique.

Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont

décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents

critères d'approbation requis pour les différents types de documents ISO. Le présent document a été

rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www

.iso .org/ directives).

L'attention est attirée sur le fait que certains des éléments du présent document peuvent faire l'objet de

droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable

de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant

les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de

l'élaboration du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de

brevets reçues par l'ISO (voir www .iso .org/ brevets).

Les appellations commerciales éventuellement mentionnées dans le présent document sont données

pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un

engagement.

Pour une explication de la nature volontaire des normes, la signification des termes et expressions

spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion

de l'ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles

techniques au commerce (OTC), voir www .iso .org/ avant -propos.

Le présent document a été élaboré par le Comité technique ISO/TC 276, Biotechnologie.

Une liste de toutes les parties de la série ISO 20397 se trouve sur le site web de l'ISO.

Il convient que l'utilisateur adresse tout retour d'information ou toute question concernant le présent

document à l'organisme national de normalisation de son pays. Une liste exhaustive desdits organismes

se trouve à l'adresse www .iso .org/ members .html.
iv © ISO 2021 – Tous droits réservés
---------------------- Page: 4 ----------------------
ISO 20397-2:2021(F)
Introduction

Le séquençage massivement parallèle (SMP) est une approche analytique de séquençage de l’acide

nucléique à haut débit qui utilise un traitement massivement parallèle pour étudier des génomes

entiers, des transcriptomes et des séquences ciblées d’acides nucléiques de différentes origines, en un

laps de temps relativement court.

Le SMP est utilisé dans de nombreux domaines des sciences de la vie. Il permet une détermination et

une analyse à haut débit de milliards de nucléotides. Du fait de la variabilité biologique des polymères

d’acide désoxyribonucléique et d’acide ribonucléique à travers le vivant, la détermination précise de

leurs séquences constitue un véritable défi. La qualité des séquences générées par SMP dépend de

nombreux facteurs, notamment, entre autres, la qualité de l’échantillon, la préparation de la banque, le

choix de la plateforme de lecture et la qualité des données de séquençage.

L’analyse des données de séquençage peut représenter de véritables défis bio-informatiques liés

au stockage des données, au temps de calcul et à la précision de détection des variants. L’une des

principales difficultés associées aux données de séquençage, trop souvent négligée, porte sur les

mesures de contrôle qualité à tous les stades du pipeline de traitement des données, alors mêmes qu’ils

sont essentiels à toute l’analyse en aval des données de séquences. Le contrôle qualité applicable au

traitement et à l’analyse des données de séquençage de l’acide nucléique concerne trois niveaux distincts:

données brutes, alignement et détection des variants. Le présent document fournit une liste d’éléments

à prendre en compte lors de l'évaluation de la qualité des données de séquençage massivement parallèle,

ainsi que les recommandations spécifiques à différentes plateformes SMP.
© ISO 2021 – Tous droits réservés v
---------------------- Page: 5 ----------------------
NORME INTERNATIONALE ISO 20397-2:2021(F)
Biotechnologie — Séquençage massivement parallèle —
Partie 2:
Évaluation de la qualité des données de séquençage
1 Domaine d’application

Le présent document spécifie les exigences générales et les recommandations applicables à l'évaluation

et au contrôle de la qualité des données de séquençage massivement parallèle (SMP). Il traite des modes

opératoires faisant suite à la production des données brutes, en incluant la génération des alignements

de séquences et la détection des variants.

Le présent document fournit également des lignes directrices générales applicables à la validation et à

la documentation des données SMP.

Le présent document ne s’applique pas aux processus relatifs à l’assemblage de novo.

2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions

Pour les besoins du présent document, les termes et définitions suivants s’appliquent.

L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en

normalisation, consultables aux adresses suivantes:

— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp

— IEC Electropedia: disponible à l’adresse http:// www .electropedia .org/
3.1
séquence d’adaptateur
adaptateur

oligonucléotide artificiel d’une séquence connue qui peut être ajouté aux extrémités 3’ ou 5’ d’un

fragment d’acide nucléique

Note 1 à l'article: Il fournit le site d’amorçage ainsi que les autres séquences nécessaires au séquençage de l’insert.

3.2
algorithme

séquence finie d'instructions complètement déterminée par laquelle les valeurs des variables de sortie

peuvent être calculées à partir des valeurs des variables d’entrée

[SOURCE: IEC 60050-351:2013, 351-42-27, modifiée — Les notes ont été supprimées.]

3.3
détection de bases

lors du séquençage massivement parallèle, processus de calcul consistant à traduire les signaux

électriques bruts en séquence nucléotidique

Note 1 à l'article: La performance de l’application de détection de bases et de l’algorithme est caractéristiquement

définie par une précision de lecture et un consensus.
© ISO 2021 – Tous droits réservés 1
---------------------- Page: 6 ----------------------
ISO 20397-2:2021(F)
3.4
pipeline bio-informatique

suite de programmes individuels, scripts ou briques logicielles liés entre eux, dans lesquels les données

brutes ou les résultats d’un programme sont utilisés comme données d’entrée dans l'étape suivante du

traitement des données

EXEMPLE Les résultats d’un programme de découpage (trimming) peuvent être utilisés comme données

d’entrée pour un assembleur de novo.
3.5
efficacité de capture

pourcentage de l’ensemble des lectures séquencées ou cartographiées qui chevauchent les régions ciblées

3.6
couverture
profondeur de couverture

nombre de fois qu’une position de base donnée est lue dans un cycle de séquençage

Note 1 à l'article: Nombre de lectures qui couvrent une position particulière.
3.7
largeur de couverture
fraction du génome cible qui est identifiée lors des cycles de séquençage
3.8
densité de clusters
nombre de clusters pour chaque flow cell de séquençage

Note 1 à l'article: La densité de clusters s’applique aux plateformes SMP (3.30) nécessitant une étape

d’amplification.

Note 2 à l'article: La densité de clusters de séquence individuels, provenant chacun d’une seule molécule sur

certaines plateformes de séquençage.

Note 3 à l'article: La densité de clusters est généralement exprimée en milliers par mm .

3.9
CCS
séquençage consensus sur séquences circulaires

mode de séquençage où la taille de l’insert est séquencée plusieurs fois lors d’une réaction de type

amplification par cercle roulant, ce qui permet d’obtenir une haute précision.

Note 1 à l'article: Dans ce mode, plusieurs lectures de la même molécule peuvent être utilisées pour atteindre une

précision moléculaire individuelle supérieure.
3.10
étendue de couverture

étendue de la profondeur de couverture d’un génome à l’issue des cycles de séquençage

3.11
CNV
variation du nombre de copies
variation du nombre de copies sur un segment d’ADN génomique d’un organisme

Note 1 à l'article: Les CNV sont des insertions, délétions, inversions et duplications contenant au moins

1 000 bases en longueur.
2 © ISO 2021 – Tous droits réservés
---------------------- Page: 7 ----------------------
ISO 20397-2:2021(F)
3.12
ADN
acide désoxyribonucléique

polymère de désoxyribonucléotides se présentant sous la forme de double brin (ADNdb) ou de brin

simple (ADNsb)
[SOURCE: ISO 22174:2005, 3.1.2]
3.13
délétion

perte d’une (ou de plusieurs) paire(s) de bases nucléotidiques d’une séquence d’acide nucléique par

rapport à sa séquence de référence
3.14
niveau de duplication
nombre de répétitions identiques pour chaque séquence d’une banque

Note 1 à l'article: Le niveau de duplication apparaît généralement sous la forme d’un graphique représentant le

nombre relatif de séquences à différents degrés de duplication.
3.15
taux de GC

pourcentage de guanine et cytosine dans une ou plusieurs séquence(s) d’acide nucléique

Note 1 à l'article: La quantité de guanine et de cytosine dans un acide nucléique est généralement exprimée en

fraction molaire (ou pourcentage) de bases azotées totales. Les bases azotées totales comprennent le nombre

total de bases nucléotidiques lues après un ou plusieurs cycle(s) de SMP.
3.16
gène

séquence de nucléotides dans l’ADN ou l’ARN codant soit pour un ARN soit pour un produit protéique

Note 1 à l'article: Les gènes sont reconnus comme étant l’unité de base de l’hérédité.

Note 2 à l'article: Un gène peut comprendre des segments d’acide nucléique non contigus qui sont remaniés à

l’occasion d’un processus nucléaire.

Note 3 à l'article: Un gène peut comprendre ou faire partie d’un opéron qui inclut des éléments de l’expression

génétique.
3.17
indel
insertion (3.18) ou/et délétion (3.13) de nucléotides dans l’ADN génomique
Note 1 à l'article: Les indels ont des longueurs inférieures à 1 000 bases.
3.18
insertion

ajout d’une (ou de plusieurs) bases nucléotidiques dans une séquence d’acide nucléique

[SOURCE: ISO/TS 20428: 2017, 3.19, modifiée — Le terme «ADN» a été remplacé par «acide nucléique».]

3.19
séquençage

détermination de l’ordre et de la concentration des bases nucléotidiques (adénine, guanine, cytosine,

thymine et uracile) d’une molécule d’acide nucléique

Note 1 à l'article: Une séquence est généralement décrite de l’extrémité 5’ à l’extrémité 3’.

[SOURCE: ISO/TS 17822-1:2020, 3.19, modifiée — «ADN» a été supprimé dans le terme; «ADN» a été

remplacé par acide nucléique, et «uracile» a été ajouté dans la définition.]
© ISO 2021 – Tous droits réservés 3
---------------------- Page: 8 ----------------------
ISO 20397-2:2021(F)
3.20
alignement de séquences

agencement de plusieurs séquences d’acides nucléiques en fonction de leurs régions de similarité

Note 1 à l'article: L’alignement de séquences ne nécessite pas forcément un génome de référence/une région

d’acide nucléique cible de référence et son objectif n’est pas nécessairement de produire un assemblage.

3.21
données brutes

données de séquençage primaires produites par un séquenceur sans avoir recours à un pré-filtrage

informatique pour l’analyse
3.22
ARN
acide ribonucléique

polymère de ribonucléotides se présentant sous la forme de double brin ou de brin simple

Note 1 à l'article: La synthèse des protéines dans les cellules est régie par les informations génétiques contenues

dans la séquence de nucléotides d’une classe d’ARN connue sous le nom d’ARN messager (ARNm).

3.23
ribonucléotide

nucléotide contenant de la ribose comme composant pentosique formant le bloc élémentaire de

construction de l’ARN

Note 1 à l'article: Les ribonucléotides comprennent l’adénylate (AMP), le guanylate (GMP), le cytidylate (CMP) ou

l’uridylate (UMP).
3.24
lecture
séquence
séquence nucléotidique générée par un séquenceur

Note 1 à l'article: Une lecture (read) est une séquence déduite de paires de bases d’acide nucléique (ou de

probabilités de paires de bases) correspondant à tout (ou partie) d’un fragment d’acide nucléique. La lecture peut

être utilisée pour désigner les séquences obtenues par SMP.
3.25
type de lecture

catégorie de séquence qui dépend de la façon dont l’expérience de lecture des séquences est conçue et

réalisée

EXEMPLE Le type de lecture peut être la lecture sur une seule extrémité (single-end), la lecture d’extrémités

appariées (paired-end), la lecture d’extrémités appariées de plus grandes longueurs (mate-paired end), la lecture

longue continue (long read) ou la lecture consensus sur séquences circulaires.
3.26
séquence de référence

séquence d’acide nucléique servant soit à aligner les lectures de séquençage, soit de référence pour des

annotations telles que les gènes et les variations de séquence
3.27
démultiplexage

opération informatique inverse du processus de multiplexage, au cours de laquelle deux ou plusieurs

échantillons sont mélangés afin de pouvoir les séquencer en une seule fois sur un instrument SMP

Note 1 à l'article: Les échantillons qui doivent être combinés doivent être munis d'un code-barres/indexés avant

d’être mélangés.

Note 2 à l'article: Le démultiplexage est un algorithme de calcul qui sépare un groupe de lectures en fonction de

leur échantillon d’origine d’après le code-barres.
4 © ISO 2021 – Tous droits réservés
---------------------- Page: 9 ----------------------
ISO 20397-2:2021(F)
3.28
cartographie

assemblage de séquences d’acides nucléiques en fonction d’une séquence de référence existante, servant

à construire une séquence consensus
3.29
lecture d’extrémités appariées de fragments de grandes longueurs

lecture des deux extrémités appariées situées aux deux extrémités d’un fragment de séquence d’acide

nucléique long de plusieurs kilobases (plus de 2 kb ou au moins 2 kb)
3.30
SMP
séquençage massivement parallèle

technique de séquençage permettant la détermination simultanée de la séquence de multiples molécules

d’acides nucléiques indépendantes basée sur le modèle incrémentiel

Note 1 à l'article: La technologie de séquençage massivement parallèle permet d’obtenir plusieurs millions ou

milliards de lectures courtes par cycle.
3.31
lecture d’extrémités appariées

lecture par SMP des deux extrémités appariées situées aux deux extrémités d’un fragment d’ADN

Note 1 à l'article: Dans le séquençage d’extrémités appariées, l’instrument séquence les deux extrémités de courts

fragments d’une longueur généralement comprise entre 200 pb et 800 pb.
3.32
score de qualité
score Q
score de qualité Phred
mesure de la qualité de séquençage d’une base nucléotidique donnée
Note 1 à l'article: Q est défini par la formule suivante:
Qp=−10log10()
où p est la probabilité estimée pour que la détection de bases soit erronée.

Note 2 à l'article: Un score de qualité de 20 représente un rapport d’erreur de 1 sur 100, avec une précision de

détection correspondante de 99 %.

Note 3 à l'article: Des scores de qualité élevés indiquent une plus faible probabilité d’erreur de séquençage. Des

scores de qualité faibles peuvent rendre inutilisables les lectures correspondantes. Des scores de qualité faibles

peuvent également conduire à des appels de variants faux-positifs, aboutissant à des conclusions inexactes.

3.33
run

processus complet de réalisation de l’opération de séquençage, de la charge des échantillons jusqu’à

l’obtention des données brutes
3.34
annotation de séquences

processus consistant à ajouter une note d’explication, un commentaire ou une référence sur les

caractéristiques spécifiques présentes dans une séquence d’ADN, d’ARN ou de protéines, grâce à des

informations descriptives sur la structure ou la fonction

Note 1 à l'article: Le processus d’annotation de séquences peut être considéré comme une assignation de données

à la séquence.
© ISO 2021 – Tous droits réservés 5
---------------------- Page: 10 ----------------------
ISO 20397-2:2021(F)
3.35
lecture d’extrémité simple

lecture de séquence obtenue en lisant un seul des deux brins d’un fragment d’ADN à partir d’une des

deux extrémités
3.36
SNV
variant nucléotidique unique
variation sur un seul nucléotide d’une molécule d’acide nucléique
3.37
variation structurale

région d’ADN d’environ 1 000 bases ou de taille supérieure, pouvant inclure des inversions et des

translocations équilibrées ou des déséquilibres génomiques

Note 1 à l'article: Il existe plusieurs types fréquents de variants structurels: variants du nombre de

copies (délétions, insertions, amplifications, duplications), délétions neutres du nombre de copies (perte

d’hétérozygosité), inversions, duplications segmentaires et translocations (équilibrées ou déséquilibrées).

3.38
sous-séquence
fraction d’une séquence présente entre des adaptateurs en épingle à cheveux
3.39
découpage (trimming) des lectures brutes

opération visant à supprimer les parties de faible qualité ou les séquences contaminantes tout en

préservant la partie de haute qualité d’une lecture SMP la plus longue possible
3.40
variation

différences d’une ou de plusieurs bases d’acides nucléiques dans une séquence par rapport à la base/aux

bases prévue(s)
3.41
détection de variants

processus d'identification précise des variations des données de séquence par rapport à une séquence

de référence
3.42
ZMW
guide d’onde mode zéro

guide d’onde optique qui guide l’énergie lumineuse dans un volume de petite dimension relativement à

la longueur d'onde de la lumière

Note 1 à l'article: Une polymérase est ancrée au fond de ce ZMW et l’incorporation de nucléotides est mesurée par

une hausse de fluorescence pendant la fixation puis par une réduction ultérieure après incorporation.

4 Données brutes
4.1 Généralités

Il convient d’attribuer à chaque nucléotide d’une séquence une valeur numérique (score de qualité de

base) correspondant à la précision présumée du processus de détection de bases, le cas échéant.

6 © ISO 2021 – Tous droits réservés
---------------------- Page: 11 ----------------------
ISO 20397-2:2021(F)
4.2 Fichier de données brutes

Il convient que la génération de fichiers de données brutes utilise un logiciel et/ou un pipeline propre à

l’instrument. Les paramètres physiques contrôlés, notamment le rapport signal sur bruit, doivent être

documentés. Il convient de veiller à contrôler ces paramètres physiques pendant chaque séquençage.

Il convient de configurer les fichiers de séquençage au format approprié, contenant la compilation des

lectures de séquence individuelles, chacune avec son propre identifiant, et un score de qualité de base

correspondant à chaque nucléotide séquencé.

NOTE Le format FASTQ (ou convertible au format FASTQ) peut être utilisé comme format standard de facto

pour l’analyse en aval de la qualité des ensembles de données SMP. FASTQ est communément admis comme

format de fichier d'échange entre plateformes.

Il convient d’analyser les fichiers de sortie générés après un run de séquençage, ainsi que les mesures de

qualité associées, dans le pipeline bio-informatique en aval, à l’aide d’un logiciel approprié.

4.3 Évaluation de la qualité des données brutes
4.3.1 Généralités

Les indicateurs de contrôle qualité peuvent différer selon la plateforme SMP, la méthode de préparation

des banques et l’usage prévu de l’analyse.

Il convient que les résultats de séquençage soient interprétés par un personnel compétent. Il convient

d’effectuer l’interprétation en respectant le niveau de qualité correspondant à l’objectif prévu de

l’analyse, en tenant compte du nombre de répétitions statistiquement fiables des lectures.

Il convient d’appliquer les outils de traitement des lectures en s’appuyant sur différentes métriques de

qualité des lectures brutes et de leur pré-traitement (trimming).
4.3.2 Statistiques élémentaires

Les statistiques élémentaires doivent être enregistrées, en précisant notamment, entre autres:

a) le type de plateforme;
b) le type de lecture;
c) le kit de préparation des banques;
d) la longueur de lecture;
e) le nombre de lectures;
f) le taux de GC par rapport au nombre total de bases lues;
g) la longueur totale de la séquence.
4.3.3 Mesures de qualité

Les mesures de contrôle qualité applicables à l’évaluation des données brutes peuvent notamment

concerner:
a) la distribution de la longueur des séquences;
b) le taux de GC par séquence;
c) le score de qualité;
1) la qualité des séquences par base;
© ISO 2021 – Tous droits réservés 7
---------------------- Page: 12 ----------------------
ISO 20397-2:2021(F)
2) le score de qualité par séquence;

NOTE 1 De mauvais scores de qualité peuvent indiquer une augmentation des faux-positifs lors de la

détection des variants.

3) il convient de marquer chaque séquence avec les termes ‘warn’ ou ‘pass’ en fonction de la

qualité des séquences par base.
d) la composition en nucléotides par base;
e) l’acceptabilité du rapport signal/bruit;
f) les niveaux de duplication des séquences;
g) le niveau de surreprésentation;
h) la densité des clusters;

i) le rapport transition/transversion pour le séquençage d’exome, de génome ou de grands amplicons;

g) le taux de séquences d’adaptateurs et la contamination par les séquences d’adaptateurs;

k) les contaminants (identification, quantification);
l) le taux d’erreur;
NOTE 2 Cela inclut les erreurs du
...

FINAL
INTERNATIONAL ISO/FDIS
DRAFT
STANDARD 20397-2
ISO/TC 276
Biotechnology — Massively parallel
Secretariat: DIN
sequencing —
Voting begins on:
2020-11-02
Part 2:
Voting terminates on:
Quality evaluation of sequencing data
2020-12-28
RECIPIENTS OF THIS DRAFT ARE INVITED TO
SUBMIT, WITH THEIR COMMENTS, NOTIFICATION
OF ANY RELEVANT PATENT RIGHTS OF WHICH
THEY ARE AWARE AND TO PROVIDE SUPPOR TING
DOCUMENTATION.
IN ADDITION TO THEIR EVALUATION AS
Reference number
BEING ACCEPTABLE FOR INDUSTRIAL, TECHNO-
ISO/FDIS 20397-2:2020(E)
LOGICAL, COMMERCIAL AND USER PURPOSES,
DRAFT INTERNATIONAL STANDARDS MAY ON
OCCASION HAVE TO BE CONSIDERED IN THE
LIGHT OF THEIR POTENTIAL TO BECOME STAN-
DARDS TO WHICH REFERENCE MAY BE MADE IN
NATIONAL REGULATIONS. ISO 2020
---------------------- Page: 1 ----------------------
ISO/FDIS 20397-2:2020(E)
COPYRIGHT PROTECTED DOCUMENT
© ISO 2020

All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may

be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting

on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address

below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2020 – All rights reserved
---------------------- Page: 2 ----------------------
ISO/FDIS 20397-2:2020(E)
Contents Page

Foreword ........................................................................................................................................................................................................................................iv

Introduction ..................................................................................................................................................................................................................................v

1 Scope ................................................................................................................................................................................................................................. 1

2 Normative references ...................................................................................................................................................................................... 1

3 Terms and definitions ..................................................................................................................................................................................... 1

4 Raw data ........................................................................................................................................................................................................................ 6

4.1 General ........................................................................................................................................................................................................... 6

4.2 Raw data file .............................................................................................................................................................................................. 6

4.3 Quality assessment of raw data ................................................................................................................................................ 6

4.3.1 General...................................................................................................................................................................................... 6

4.3.2 Basic statistics .................................................................................................................................................................... 7

4.3.3 Quality metrics .................................................................................................................................................................. 7

4.4 Raw data pre-processing ................................................................................................................................................................ 8

5 Sequence alignment and mapping ..................................................................................................................................................... 8

5.1 General ........................................................................................................................................................................................................... 8

5.2 Alignment and mapping file format ...................................................................................................................................... 9

5.3 Quality control of sequencing alignment and mapping ....................................................................................... 9

5.3.1 Basic alignment statistics ......................................................................................................................................... 9

5.3.2 Quality indicators .........................................................................................................................................................10

5.3.3 Methods for alignment and mapping quality assessment ........................................................11

5.4 Alignment post-processing .......................................................................................................................................................11

6 Variant calling ......................................................................................................................................................................................................11

6.1 General ........................................................................................................................................................................................................11

6.2 Data file for variant calling ........................................................................................................................................................11

6.3 Quality metrics in the variant calling ...............................................................................................................................12

6.4 Processing of false positive variants .................................................................................................................................12

6.5 Sequence annotation ......................................................................................................................................................................12

7 Validation ..................................................................................................................................................................................................................12

7.1 General ........................................................................................................................................................................................................12

7.2 Validation of quality metrics ....................................................................................................................................................13

8 Documentation ....................................................................................................................................................................................................14

Annex A (informative) Quality metrics for specific example MPS platforms ..........................................................15

Annex B (informative) Coverage and read recommendations by applications .....................................................16

Annex C (informative) Software for sequence alignment and mapping .......................................................................18

Bibliography .............................................................................................................................................................................................................................19

© ISO 2020 – All rights reserved iii
---------------------- Page: 3 ----------------------
ISO/FDIS 20397-2:2020(E)
Foreword

ISO (the International Organization for Standardization) is a worldwide federation of national standards

bodies (ISO member bodies). The work of preparing International Standards is normally carried out

through ISO technical committees. Each member body interested in a subject for which a technical

committee has been established has the right to be represented on that committee. International

organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.

ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of

electrotechnical standardization.

The procedures used to develop this document and those intended for its further maintenance are

described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the

different types of ISO documents should be noted. This document was drafted in accordance with the

editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).

Attention is drawn to the possibility that some of the elements of this document may be the subject of

patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of

any patent rights identified during the development of the document will be in the Introduction and/or

on the ISO list of patent declarations received (see www .iso .org/ patents).

Any trade name used in this document is information given for the convenience of users and does not

constitute an endorsement.

For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and

expressions related to conformity assessment, as well as information about ISO's adherence to the

World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/

iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 276, Biotechnology
A list of all parts in the ISO 20397 series can be found on the ISO website.

Any feedback or questions on this document should be directed to the user’s national standards body. A

complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2020 – All rights reserved
---------------------- Page: 4 ----------------------
ISO/FDIS 20397-2:2020(E)
Introduction

Massively parallel sequencing (MPS) is a high-throughput analytical approach to nucleic acid sequencing

utilizing massively parallel processing, that allows whole genomes, transcriptomes and specific nucleic

acid targets from different organisms to be investigated in a relatively short time.

MPS is used in many life science disciplines permitting determination and high throughput analysis of

millions and thousands of millions of nucleotide bases. The biological variability of deoxyribonucleic

and ribonucleic acid polymers from living organisms results in challenges in accurately determining

their sequences. The quality of sequence determination by MPS depends on many factors including but

not limited to sample quality, library preparation, platform selection, and sequencing data quality.

The analysis of sequencing data poses significant bioinformatics challenges in various areas such as

data storage, computation time and variant detection accuracy. One of the major challenges associated

with sequencing data that is sometimes easily overlooked is monitoring quality control metrics over

all stages of the data processing pipeline. Knowledge of data quality is essential for downstream

analysis of sequences. Quality control for nucleic acid sequencing data handling and analysis can be

separated into three stages: raw data, alignment and variant calling. This document provides a list of

considerations for quality evaluation of MPS sequencing data, and the specific recommendations for

different MPS platforms.
© ISO 2020 – All rights reserved v
---------------------- Page: 5 ----------------------
FINAL DRAFT INTERNATIONAL STANDARD ISO/FDIS 20397-2:2020(E)
Biotechnology — Massively parallel sequencing —
Part 2:
Quality evaluation of sequencing data
1 Scope

This document specifies general requirements and recommendations for quality assessments and

control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures,

sequencing alignments, and variant calling.

This document also gives general guidelines for validation and documentation of MPS data.

This document does not apply to any processes related to de novo assembly.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.

ISO and IEC maintain terminological databases for use in standardization at the following addresses:

— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at http:// www .electropedia .org/
3.1
adapter sequence
adapter

artificial oligonucleotide of a known sequence that can be added to the 3’ or 5’ ends of a nucleic acid

fragment

Note 1 to entry: It provides the primer site as well as other necessary sequences for sequencing the insert.

3.2
algorithm

completely determined finite sequence of instructions by which the values of the output variables may

be calculated from the values of the input variables
[SOURCE: IEC 60050-351:2013, 351-42-27, modified — The notes were deleted.]
3.3
base calling

computational process in massively parallel sequencing of translating raw electrical signals to

nucleotide sequence

Note 1 to entry: Base calling application and algorithm performance is characteristically defined by read and

consensus accuracy.
© ISO 2020 – All rights reserved 1
---------------------- Page: 6 ----------------------
ISO/FDIS 20397-2:2020(E)
3.4
bioinformatics pipeline

individual programs, scripts, or pieces of software linked together, where raw data or output from one

program is used as input for the next step in data processing

EXAMPLE The output from a base quality trimming program may be used as input to a de-novo assembler.

3.5
capture efficiency
percent of all sequenced or mapped reads that overlap the targeted regions
3.6
coverage
coverage depth
number of times that a given base position is read in a sequencing run
Note 1 to entry: The number of reads that cover a particular position.
3.7
coverage breadth
fraction of the genome in assembled/target genome size in sequencing runs
3.8
cluster density
number of clusters for each tile

Note 1 to entry: The cluster density applied to the MPS (3.30) platforms requires an amplification step.

Note 2 to entry: The density of individual sequence clusters, each arising from a single molecule on some

sequencing platforms.
Note 3 to entry: Cluster density is usually expressed in thousands per mm .
3.9
CCS
circular consensus sequencing

sequencing mode where the insert size is sequenced multiple times in a rolling circle amplification type

reaction, leading to high accuracy

Note 1 to entry: In this mode, multiple passes from the same molecule can be used to achieve higher single

molecule accuracy.
3.10
coverage range
range of coverage depth across a genome for sequencing runs
3.11
CNV
copy number variation
copy number variant

variation of the number of copies of one or more sections of the DNA present in the genome of an

organism

Note 1 to entry: CNVs are insertions, deletions, insertions and duplications containing at least 1 000 bases in length.

3.12
DNA
deoxyribonucleic acid

polymer of deoxyribonucleotides occurring in a double-stranded (dsDNA) or single-stranded (ssDNA)

form
[SOURCE: ISO 22174:2005, 3.1.2]
2 © ISO 2020 – All rights reserved
---------------------- Page: 7 ----------------------
ISO/FDIS 20397-2:2020(E)
3.13
deletion

loss of one (or more) nucleotide base pair(s) from a nucleic acid sequence compared to its reference

sequence
3.14
duplication level
number of identical repeats for every sequence in a library

Note 1 to entry: The duplication level is usually displayed in a plot showing the relative number of sequences

with different degrees of duplication.
3.15
GC content
percentage of guanine and cytosine in one or more nucleic acid sequence(s)

Note 1 to entry: The amount of guanine and cytosine in a polynucleic acid, is usually expressed in mole fraction

(or percentage) of total nitrogenous bases. Total nitrogenous bases comprise the total number of nucleotide

bases of reads from one or more MPS run.
3.16
gene
sequence of nucleotides in DNA or RNA encoding either an RNA or protein product
Note 1 to entry: Genes are recognized as the basic unit of heredity.

Note 2 to entry: A gene can consist of non-contiguous nucleic acid segments that are rearranged through a

nuclear processing step.

Note 3 to entry: A gene may include or be part of an operon that includes elements for gene expression.

3.17
indel
insertion (3.18) or /and deletion (3.13) of nucleotides in genomic DNA
Note 1 to entry: Indels are less than 1 000 bases in length.
3.18
insertion
addition of one (or more) nucleotide base pair(s) into a nucleic acid sequence
[SOURCE: ISO/TS 20428: 2017, 3.19, modified — DNA was replaced by nucleic acid.]
3.19
sequencing

determining the order and the content of nucleotide bases (adenine, guanine, cytosine, thymine, and

uracil) of a nucleic acid molecule
Note 1 to entry: A sequence is generally described from the 5’ to 3’ end.

[SOURCE: ISO/TS 17822-1:2014, 3.20, modified — DNA was deleted in the term; DNA was replaced by

nucleic acid, and uracil was added in the definition.]
3.20
sequence alignment
arrangement of nucleic acid sequences according to regions of similarity

Note 1 to entry: Sequence alignment may not require a reference genome /reference targeted nucleic acid region

and its aim might not produce an assembly.
© ISO 2020 – All rights reserved 3
---------------------- Page: 8 ----------------------
ISO/FDIS 20397-2:2020(E)
3.21
raw data

primary sequencing data produced by a sequencer without involving any software-based pre-filtering

for analysis purpose
3.22
RNA
ribonucleic acid

polymer of ribonucleotides occurring in a double-stranded or single-stranded form

Note 1 to entry: Synthesis of proteins in cells is directed by genetic information carried in the sequence of

nucleotides in a class of RNA known as messenger RNA (mRNA).
3.23
ribonucleotide

nucleotide containing ribose as its pentose component forming the basic building blocks for RNA

Note 1 to entry: The ribonucleotides consist of adenylate (AMP), guanylate (GMP), cytidylate (CMP), or

uridylate (UMP).
3.24
read
sequence read
nucleotide sequence generated by a sequencing device

Note 1 to entry: A read is a deduced sequence of nucleic acid base pairs (or base pairs probabilities) corresponding

to all (or part of) a single nucleic acid fragment. Read can be used to refer to as those sequences obtained from

MPS experiments.
3.25
read type

category of sequence that depends on how the sequence reading experiment is designed and conducted

EXAMPLE Read type can be single-end, paired-end, mate-paired end, continuous long read, circular

consensus.
3.26
reference sequence

nucleic acid sequence used either to align by mapping sequence reads or as the basis for annotations

such as genes and sequence variations
3.27
demultiplexing

computational reverse of multiplexing process, mixing two or more samples together such that they

can be sequenced in a single run on an MPS instrument

Note 1 to entry: Samples that are to be combined need to be barcoded/indexed prior to being mixed together.

Note 2 to entry: Demultiplexing is a computational algorithm that separates a pool of reads according to their

original sample based on the barcode.
3.28
mapping

assembling nucleic acid sequences against an existing backbone (reference) sequence, in order to build

a consensus sequence
3.29
mate pairs
mate pair reads

paired-end read which correspond to the ends of a long nucleic acid sequence fragment obtained by

shrinking the sample into large chunks (larger than 2 kb or at least 2 kb)
4 © ISO 2020 – All rights reserved
---------------------- Page: 9 ----------------------
ISO/FDIS 20397-2:2020(E)
3.30
MPS
massively parallel sequencing

sequencing technique based on the determination of incremental template based polymerization of

many independent DNA molecules simultaneously

Note 1 to entry: Massively parallel sequencing technology can provide millions or billions of short reads per run.

3.31
paired-end reads
sequencing reads from both ends of a DNA fragment

Note 1 to entry: In paired-end sequencing, the instrument sequences both ends of short inserts typically ranging

from 200 bps to 800 bps.
3.32
quality score
Q score
Phred quality score
measure of the sequencing quality of a given nucleotide base
Note 1 to entry: Q is defined by the following formula:
Qp=−10log10()
where p is the estimated probability of the base call being wrong.

Note 2 to entry: A quality score of 20 represents an error rate of 1 in 100, with a corresponding call accuracy

of 99 %.

Note 3 to entry: Higher quality scores indicate a smaller probability of error. Lower quality scores can result in a

significant portion of the reads being unusable. Low quality scores can also indicate false-positive variant calls,

resulting in inaccurate conclusions.
3.33
run

single process cycle of the sequencer from initiation until the raw data is obtained

3.34
sequence annotation

process of adding a note of explanation, comment or reference about specific features in a DNA, RNA or

protein sequence with descriptive information about structure or function

Note 1 to entry: The process of sequence annotation can be regarded as assigning metadata to the sequence.

3.35
single-end read
sequence read obtained by reading a DNA fragment from one end to the other
3.36
SNV
single nucleotide variant
variation in a single nucleotide of a nucleic acid molecule
3.37
structural variation

region of DNA approximately 1 000 bases or larger in size which can include inversions and balanced

translocations or genomic imbalances

Note 1 to entry: Common types of structural variants include copy number variants (deletions, insertions,

amplifications, duplications), copy number neutral deletions (loss of heterozygosity), inversions, segmental

duplications, and translocations (balanced or imbalanced).
© ISO 2020 – All rights reserved 5
---------------------- Page: 10 ----------------------
ISO/FDIS 20397-2:2020(E)
3.38
subread
fraction of the read that is present in between hairpin adapters
3.39
trimming of raw reads

procedure aimed at removing low quality portions or sequence contaminations while preserving the

longest high-quality part of an MPS read
3.40
variation

differences of one or more nucleic acid bases in a sequence with respect to the expected one(s)

3.41
variant calling

process of accurately identifying the variations from sequence data with respect to a reference sequence

3.42
ZMW
zero mode waveguide

optical waveguide that guides light energy into a volume that is small in all dimensions compared to the

wavelength of the light

Note 1 to entry: A polymerase is anchored at the bottom of that ZMW and the incorporation of nucleotides

is measured by the increase of fluorescence during binding followed by the subsequent reduction after

incorporation.
4 Raw data
4.1 General

Each nucleotide in a sequence should be assigned a numerical value (base quality score) that correlates

to the inferred accuracy of the base calling process, if applicable.
4.2 Raw data file

Generation of sequence read files should use instrument-specific software and/or instrument-specific

pipelines. Monitored physical parameters such as signal to noise ratio shall be documented. These

physical parameters should be monitored of during each sequencing experiment.

Sequence read files should be configured in the appropriate file format, containing the compilation of

individual sequence reads, each with its own identifier, and an associated base quality score for each

nucleotide.

NOTE FASTQ format (or convertible to FASTQ format) can be used as a de facto standard format for

downstream analysis of the quality of MPS data sets. FASTQ is widely accepted as a cross platform interchange

file format.

The output files generated after a sequencing run, and associated quality metrics should be analysed in

the downstream bioinformatics pipeline using appropriate software.
4.3 Quality assessment of raw data
4.3.1 General

Quality control indicators can differ depending on the MPS platform, library preparation method, and

intended use of the analysis.
6 © ISO 2020 – All rights reserved
---------------------- Page: 11 ----------------------
ISO/FDIS 20397-2:2020(E)

Sequence results should be interpreted by competent staff. The interpretation should be performed to

meet the quality level fitting the intended purpose of the analysis considering a statistically reliable

repeat number of reads.

Read processing tools should be applied with consideration for quality assessment and trimming of

raw reads.
4.3.2 Basic statistics
Basic statistics shall be recorded, including but not limited to:
a) type of platform;
b) type of read;
c) library preparation kit;
d) read length;
e) number of reads;
f) overall GC content;
g) total sequence length.
4.3.3 Quality metrics

The quality control metrics for raw data assessment can refer to but are not limited to:

a) sequence length distribution;
b) per sequence GC content;
c) quality score;
1) per base sequence quality;
2) per sequence quality score;
NOTE 1 Low-quality scores can indicate increased false-positive variant calls.

3) all sequences should be flagged as either ‘warn’ or ‘pass’ for per base sequence quality.

d) per base sequence content;
e) acceptability of signal/noise ratio;
f) sequence duplication levels;
g) overrepresented level;
h) cluster density;

i) transition/transversion ratio for whole-exome or whole-genome sequencing or large amplicons

sequencing;
g) adaptor rate/adaptor sequence contamination;
k) contaminants (identification, quantification);
l) error rate;

NOTE 2 This includes homopolymer errors: errors in the number of bases called when a single nucleotide

occurs more than once in consecutive order in a sequence.
© ISO 2020 – All rights reserved 7
---------------------- Page: 12 ----------------------
ISO/FDIS 20397-2:2020(E)
m) k-mer analysis;

NOTE 3 In computational genomics, k-mers refer to all the possible subsequences (of length k) from a

nucleic acid sequence. Overrepresentation of k-mers can be analysed to detect potential genome mis-

assembly where repeated DNA sequences have possibly been combined.
n) N fragment;
NOTE 4 Number and/or percentage of ambiguous calls.
o) repeat stretch and repeat sequence;
p) nucleotide distribution across cycles.
4.4 Raw data pre-processing

Raw data pre-processing may include but is not limited to the following computational steps, if

applicable:
a) removal/trimming of low-quality sequences/bases;
b) demultiplexing;
c) removal of adapters/primers and contamination;
d) error correction;
e) filtration of duplicated read;
f) trimming of reads to fixed length;
g) calling the CCS reads.

When CCS data are being used, the CCS reads should be obtained and filtered prior to downstream

analysis.
5 Sequence alignment and mapping
5.1 General

Sequence alignment and mapping strategy should be chosen based on the application.

EXAMPLE There is spliced mapping for RNA and un-spliced mapping for the mapping strategy of RNA

sequencing.
Alignment and mapping software and tools can be used for alignment.

Alignment quality can be assessed visually using proper alignment views, and using the information

provided in the alignment file.

Examples of the software for sequence alignment and mapping of different applications are described

in Annex C.

Reference genomes/reference targeted nucleic acid regions shall be used for mapping and should be

carefully chosen depending on experimental design.

NOTE 1 Considerations include the version of the reference genome/reference targeted nucleic acid region,

choice of different strains in one organism, and choice of masked, soft-masked or unmasked genomes.

NOTE 2 Open source sequencing alignment and mapping software is available online.

8 © ISO 2020 – All rights reserved
---------------------- Page: 13 ----------------------
ISO/FDIS 20397-2:2020(E)
5.2 Alignment and mapping file format
Alignments are always stored in the following file formats.
[17][24]
a) Sequence alignment format (SAM) .

NOTE 1 SAM is a TAB-delimited text format consisting of a header section, which is optional, and an

alignment section. Each alignment line has 11 mandatory fields for essential alignment information such as

mapping position and variable number of optional fields for flexible or aligner specific information.

[15][17]
b) Binary alignment format (BAM) .
NOTE 2 It is the compressed format analogous to the SAM format in binary form.
[16]
c) Compressed reference-oriented alignment map (CRAM) .

NOTE 3 CRAM is a sequencing read file format that is space efficient by using reference-based compression

of sequence data and offers both lossless and lossy modes of compression.
[3][4][5][6][7][8]
d) Moving pictures experts group for genomics (MPEG-G) .
NOTE 4 MPEG-
...

PROJET
NORME ISO/FDIS
FINAL
INTERNATIONALE 20397-2
ISO/TC 276
Biotechnologie — Séquençage
Secrétariat: DIN
massivement parallèle —
Début de vote:
2020-11-02
Partie 2:
Vote clos le:
Évaluation de la qualité des données
2020-12-28
de séquençage
Biotechnology — Massively parallel sequencing —
Part 2: Quality evaluation of sequencing data
LES DESTINATAIRES DU PRÉSENT PROJET SONT
INVITÉS À PRÉSENTER, AVEC LEURS OBSER-
VATIONS, NOTIFICATION DES DROITS DE PRO-
PRIÉTÉ DONT ILS AURAIENT ÉVENTUELLEMENT
CONNAISSANCE ET À FOURNIR UNE DOCUMEN-
TATION EXPLICATIVE.
OUTRE LE FAIT D’ÊTRE EXAMINÉS POUR
ÉTABLIR S’ILS SONT ACCEPTABLES À DES FINS
INDUSTRIELLES, TECHNOLOGIQUES ET COM-
Numéro de référence
MERCIALES, AINSI QUE DU POINT DE VUE
ISO/FDIS 20397-2:2020(F)
DES UTILISATEURS, LES PROJETS DE NORMES
INTERNATIONALES DOIVENT PARFOIS ÊTRE
CONSIDÉRÉS DU POINT DE VUE DE LEUR POSSI-
BILITÉ DE DEVENIR DES NORMES POUVANT
SERVIR DE RÉFÉRENCE DANS LA RÉGLEMENTA-
TION NATIONALE. ISO 2020
---------------------- Page: 1 ----------------------
ISO/FDIS 20397-2:2020(F)
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2020

Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette

publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,

y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut

être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.

ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2020 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO/FDIS 20397-2:2020(F)
Sommaire Page

Avant-propos ..............................................................................................................................................................................................................................iv

Introduction ..................................................................................................................................................................................................................................v

1 Domaine d’application ................................................................................................................................................................................... 1

2 Références normatives ................................................................................................................................................................................... 1

3 Termes et définitions ....................................................................................................................................................................................... 1

4 Données brutes ...................................................................................................................................................................................................... 6

4.1 Généralités .................................................................................................................................................................................................. 6

4.2 Fichier de données brutes ............................................................................................................................................................. 7

4.3 Évaluation de la qualité des données brutes ................................................................................................................. 7

4.3.1 Généralités ............................................................................................................................................................................ 7

4.3.2 Statistiques élémentaires ......................................................................................................................................... 7

4.3.3 Mesures de qualité ......................................................................................................................................................... 7

4.4 Prétraitement des données brutes ........................................................................................................................................ 8

5 Alignement et cartographie des séquences .............................................................................................................................. 9

5.1 Généralités .................................................................................................................................................................................................. 9

5.2 Format des fichiers d’alignement et de cartographie ............................................................................................ 9

5.3 Contrôle qualité de l’alignement et de la cartographie des séquences ...............................................10

5.2.1 Statistiques sur les alignements de base .................................................................................................10

5.3.1.1 Généralités .........................................................................................................................................................................10

5.3.1.2 Statistiques de cartographie pour les lectures sur un brin unique ...................................10

5.3.1.3 Statistiques de cartographie pour les lectures sur les deux extrémités

appariées .............................................................................................................................................................................10

5.3.1.4 Longueur de sous-séquence cartographiée ...........................................................................................11

5.2.2 Indicateurs de qualité ...............................................................................................................................................11

5.2.3 Méthodes d’évaluation de la qualité d’alignement et de cartographie ..........................12

5.4 Post-traitement de l’alignement ...........................................................................................................................................12

6 Détection de variants ....................................................................................................................................................................................12

6.1 Généralités ...............................................................................................................................................................................................12

6.2 Fichier de données pour la détection de variants .................................................................................................12

6.3 Mesures de qualité lors de la détection de variants ......... ....................................................................................12

6.4 Traitement des variants faux-positifs ...............................................................................................................................13

6.5 Annotation de séquences ............................................................................................................................................................13

7 Validation ..................................................................................................................................................................................................................13

7.1 Généralités ...............................................................................................................................................................................................13

7.2 Validation des mesures de qualité ......................................................................................................................................14

8 Documentation ....................................................................................................................................................................................................15

Annexe A (informative) Mesures de qualité applicables aux plateformes SMP ...................................................16

Annexe B (informative) Recommandations applicables à la couverture et aux lectures en

fonction des applications .........................................................................................................................................................................17

Annexe C (informative) Logiciel d’alignement et de cartographie des séquences ............................................19

Bibliographie ...........................................................................................................................................................................................................................20

© ISO 2020 – Tous droits réservés iii
---------------------- Page: 3 ----------------------
ISO/FDIS 20397-2:2020(F)
Avant-propos

L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes

nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est

en général confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude

a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,

gouvernementales et non gouvernementales, en liaison avec l'ISO participent également aux travaux.

L'ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui

concerne la normalisation électrotechnique.

Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont

décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents

critères d'approbation requis pour les différents types de documents ISO. Le présent document a été

rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www

.iso .org/ directives).

L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de

droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable

de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant

les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de

l'élaboration du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de

brevets rédigées par l'ISO (voir www .iso .org/ brevets).

Les appellations commerciales éventuellement mentionnées dans le présent document sont données

pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un

engagement.

Pour une explication de la nature volontaire des normes, de la signification des termes et expressions

spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute autre information au sujet de

l’adhésion de l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les

obstacles techniques au commerce (OTC), voir le lien suivant: www .iso .org/ iso/ fr/ avant -propos .html.

Le présent document a été élaboré par le Comité technique ISO/TC 276, Biotechnologie.

Une liste de toutes les parties de la série ISO 20397 se trouve sur le site web de l'ISO.

Il convient que l'utilisateur adresse tout retour d'information ou toute question concernant le présent

document à l'organisme national de normalisation de son pays. Une liste exhaustive desdits organismes

se trouve à l'adresse www .iso .org/ members .html.
iv © ISO 2020 – Tous droits réservés
---------------------- Page: 4 ----------------------
ISO/FDIS 20397-2:2020(F)
Introduction

Le séquençage massivement parallèle (SMP) est une approche analytique de séquençage de l’acide

nucléique à haut débit qui utilise un traitement massivement parallèle pour étudier des génomes

entiers, des transcriptomes et des séquences ciblées d’acides nucléiques de différentes origines, en un

laps de temps relativement court.

Le SMP est utilisé dans de nombreux domaines des sciences de la vie. Il permet une détermination et

une analyse à haut débit de milliards de nucléotides. Du fait de la variabilité biologique des polymères

d’acide désoxyribonucléique et d’acide ribonucléique à travers le vivant, la détermination précise de

leurs séquences constitue un véritable défi. La qualité des séquences générées par SMP dépend de

nombreux facteurs, notamment, entre autres, la qualité de l’échantillon, la préparation de la banque, le

choix de la plateforme de lecture et la qualité des données de séquençage.

L’analyse des données de séquençage peut représenter de véritables défis bio-informatiques liés

au stockage des données, au temps de calcul et à la précision de détection des variants. L’une des

principales difficultés associées aux données de séquençage, trop souvent négligée, porte sur les

mesures de contrôle qualité à tous les stades du pipeline de traitement des données, alors mêmes qu’ils

sont essentiels à toute l’analyse en aval des données de séquences. Le contrôle qualité applicable au

traitement et à l’analyse des données de séquençage de l’acide nucléique concerne trois niveaux distincts:

données brutes, alignement et détection des variants. Le présent document fournit une liste d’éléments

à prendre en compte lors de l'évaluation de la qualité des données de séquençage massivement parallèle,

ainsi que les recommandations spécifiques à différentes plateformes SMP.
© ISO 2020 – Tous droits réservés v
---------------------- Page: 5 ----------------------
PROJET FINAL DE NORME INTERNATIONALE ISO/FDIS 20397-2:2020(F)
Biotechnologie — Séquençage massivement parallèle —
Partie 2:
Évaluation de la qualité des données de séquençage
1 Domaine d’application

Le présent document spécifie les exigences générales et les recommandations applicables à l'évaluation

et au contrôle de la qualité des données de séquençage massivement parallèle (SMP). Il traite des modes

opératoires faisant suite à la production des données brutes, en incluant la génération des alignements

de séquences et la détection des variants.

Le présent document fournit également des lignes directrices générales applicables à la validation et à

la documentation des données SMP.

Le présent document ne s’applique pas aux processus relatifs à l’assemblage de novo.

2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions

Pour les besoins du présent document, les termes et définitions suivants s'appliquent.

L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en

normalisation, consultables aux adresses suivantes:

— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp

— IEC Electropedia: disponible à l’adresse http:// www .electropedia .org/
3.1
séquence d’adaptateur
adaptateur

oligonucléotide artificiel d’une séquence connue qui peut être ajouté aux extrémités 3’ ou 5’ d’un

fragment d’acide nucléique

Note 1 à l'article: Il fournit le site d’amorçage ainsi que les autres séquences nécessaires au séquençage de l’insert.

3.2
algorithme

séquence finie d'instructions complètement déterminée par laquelle les valeurs des variables de sortie

peuvent être calculées à partir des valeurs des variables d’entrée

[SOURCE: IEC 60050-351:2013, 351-42-27, modifiée — Les notes ont été supprimées.]

3.3
détection de bases

lors du séquençage massivement parallèle, processus de calcul consistant à traduire les signaux

électriques bruts en séquence nucléotidique

Note 1 à l'article: La performance de l’application de détection de bases et de l’algorithme est caractéristiquement

définie par une précision de lecture et un consensus.
© ISO 2020 – Tous droits réservés 1
---------------------- Page: 6 ----------------------
ISO/FDIS 20397-2:2020(F)
3.4
pipeline bio-informatique

suite de programmes individuels, scripts ou briques logicielles liés entre eux, dans lesquels les données

brutes ou les résultats d’un programme sont utilisés comme données d’entrée dans l'étape suivante du

traitement des données

EXEMPLE Les résultats d’un programme de découpage (trimming) peuvent être utilisés comme données

d’entrée pour un assembleur de novo.
3.5
efficacité de capture

pourcentage de l’ensemble des lectures séquencées ou cartographiées qui chevauchent les régions ciblées

3.6
couverture
profondeur de couverture

nombre de fois qu’une position de base donnée est lue dans un cycle de séquençage

Note 1 à l'article: Nombre de lectures qui couvrent une position particulière.
3.7
largeur de couverture
fraction du génome cible qui est identifiée lors des cycles de séquençage
3.8
densité de clusters
nombre de clusters pour chaque flow cell de séquençage

Note 1 à l'article: La densité de clusters s’applique aux plateformes SMP (3.30) nécessitant une étape

d’amplification.

Note 2 à l'article: La densité de clusters de séquence individuels, provenant chacun d’une seule molécule sur

certaines plateformes de séquençage.

Note 3 à l'article: La densité de clusters est généralement exprimée en milliers par mm .

3.9
CCS
séquençage consensus sur séquences circulaires

mode de séquençage où la taille de l’insert est séquencée plusieurs fois lors d’une réaction de type

amplification par cercle roulant, ce qui permet d’obtenir une haute précision.

Note 1 à l'article: Dans ce mode, plusieurs lectures de la même molécule peuvent être utilisées pour atteindre une

précision moléculaire individuelle supérieure.
3.10
étendue de couverture

étendue de la profondeur de couverture d’un génome à l’issue des cycles de séquençage

3.11
CNV
variation du nombre de copies
variation du nombre de copies sur un segment d’ADN génomique d’un organisme

Note 1 à l'article: Les CNV sont des insertions, délétions, insertions et duplications contenant au moins 1 000 bases

en longueur.
2 © ISO 2020 – Tous droits réservés
---------------------- Page: 7 ----------------------
ISO/FDIS 20397-2:2020(F)
3.12
ADN
acide désoxyribonucléique

polymère de désoxyribonucléotides se présentant sous la forme de double brin (ADNdb) ou de brin

simple (ADNsb)
[SOURCE: ISO 22174:2005, 3.1.2]
3.13
délétion

perte d’une (ou de plusieurs) paire(s) de bases nucléotidiques d’une séquence d’acide nucléique par

rapport à sa séquence de référence
3.14
niveau de duplication
nombre de répétitions identiques pour chaque séquence d’une banque

Note 1 à l'article: Le niveau de duplication apparaît généralement sous la forme d’un graphique représentant le

nombre relatif de séquences à différents degrés de duplication.
3.15
taux de GC

pourcentage de guanine et cytosine dans une ou plusieurs séquence(s) d’acide nucléique

Note 1 à l'article: La quantité de guanine et de cytosine dans un acide nucléique est généralement exprimée en

fraction molaire (ou pourcentage) de bases azotées totales. Les bases azotées totales comprennent le nombre

total de bases nucléotidiques lues après un ou plusieurs cycle(s) de SMP.
3.16
gène

séquence de nucléotides dans l’ADN ou l’ARN codant soit pour un ARN soit pour un produit protéique

Note 1 à l'article: Les gènes sont reconnus comme étant l’unité de base de l’hérédité.

Note 2 à l'article: Un gène peut comprendre des segments d’acide nucléique non contigus qui sont remaniés à

l’occasion d’un processus nucléaire.

Note 3 à l'article: Un gène peut comprendre ou faire partie d’un opéron qui inclut des éléments de l’expression

génétique.
3.17
indel
insertion (3.18) ou/et délétion (3.13) de nucléotides dans l’ADN génomique
Note 1 à l'article: Les indels ont des longueurs inférieures à 1 000 bases.
3.18
insertion

ajout d’une (ou de plusieurs) bases nucléotidiques dans une séquence d’acide nucléique

[SOURCE: ISO/TS 20428: 2017, 3.19, modifiée — Le terme « ADN » a été remplacé par « acide nucléique ».]

3.19
séquençage

détermination de l’ordre et de la concentration des bases nucléotidiques (adénine, guanine, cytosine,

thymine et uracile) d’une molécule d’acide nucléique

Note 1 à l'article: Une séquence est généralement décrite de l’extrémité 5’ à l’extrémité 3’.

[SOURCE: ISO/TS 17822-1:2014, 3.20, modifiée — « ADN » a été supprimé dans le terme; « ADN » a été

remplacé par acide nucléique, et « uracile » a été ajouté dans la définition.]
© ISO 2020 – Tous droits réservés 3
---------------------- Page: 8 ----------------------
ISO/FDIS 20397-2:2020(F)
3.20
alignement de séquences

agencement de plusieurs séquences d’acides nucléiques en fonction de leurs régions de similarité

Note 1 à l'article: L’alignement de séquences ne nécessite pas forcément un génome de référence/une région

d’acide nucléique cible de référence et son objectif n’est pas nécessairement de produire un assemblage.

3.21
données brutes

données de séquençage primaires produites par un séquenceur sans avoir recours à un pré-filtrage

informatique pour l’analyse
3.22
ARN
acide ribonucléique

polymère de ribonucléotides se présentant sous la forme de double brin ou de brin simple

Note 1 à l'article: La synthèse des protéines dans les cellules est régie par les informations génétiques contenues

dans la séquence de nucléotides d’une classe d’ARN connue sous le nom d’ARN messager (ARNm).

3.23
ribonucléotide

nucléotide contenant de la ribose comme composant pentosique formant le bloc élémentaire de

construction de l’ARN

Note 1 à l'article: Les ribonucléotides comprennent l’adénylate (AMP), le guanylate (GMP), le cytidylate (CMP) ou

l’uridylate (UMP).
3.24
lecture
séquence
séquence nucléotidique générée par un séquenceur

Note 1 à l'article: Une lecture (read) est une séquence déduite de paires de bases d’acide nucléique (ou de

probabilités de paires de bases) correspondant à tout (ou partie) d’un fragment d’acide nucléique. La lecture peut

être utilisée pour désigner les séquences obtenues par SMP.
3.25
type de lecture

catégorie de séquence qui dépend de la façon dont l’expérience de lecture des séquences est conçue et

réalisée

EXEMPLE Le type de lecture peut être la lecture sur une seule extrémité (single-end), la lecture d’extrémités

appariées (paired-end), la lecture d’extrémités appariées de plus grandes longueurs (mate-paired end), la lecture

longue continue (long read) ou la lecture consensus sur séquences circulaires.
3.26
séquence de référence

séquence d’acide nucléique servant soit à aligner les lectures de séquençage, soit de référence pour des

annotations telles que les gènes et les variations de séquence
3.27
démultiplexage

opération informatique inverse du processus de multiplexage, au cours de laquelle deux ou plusieurs

échantillons sont mélangés afin de pouvoir les séquencer en une seule fois sur un instrument SMP

Note 1 à l'article: Les échantillons qui doivent être combinés doivent être munis d'un code-barres/indexés avant

d’être mélangés.

Note 2 à l'article: Le démultiplexage est un algorithme de calcul qui sépare un groupe de lectures en fonction de

leur échantillon d’origine d’après le code-barres.
4 © ISO 2020 – Tous droits réservés
---------------------- Page: 9 ----------------------
ISO/FDIS 20397-2:2020(F)
3.28
cartographie

assemblage de séquences d’acides nucléiques en fonction d’une séquence de référence existante, servant

à construire une séquence consensus
3.29
lecture d’extrémités appariées de fragments de grandes longueurs

lecture des deux extrémités appariées situées aux deux extrémités d’un fragment de séquence d’acide

nucléique long de plusieurs kilobases (plus de 2 kb ou au moins 2 kb)
3.30
SMP
séquençage massivement parallèle

technique de séquençage permettant la détermination simultanée de la séquence de multiples molécules

d’acides nucléiques indépendantes basée sur le modèle incrémentiel

Note 1 à l'article: La technologie de séquençage massivement parallèle permet d’obtenir plusieurs millions ou

milliards de lectures courtes par cycle.
3.31
lecture d’extrémités appariées

lecture par SMP des deux extrémités appariées situées aux deux extrémités d’un fragment d’ADN

Note 1 à l'article: Dans le séquençage d’extrémités appariées, l’instrument séquence les deux extrémités de courts

fragments d’une longueur généralement comprise entre 200 pb et 800 pb.
3.32
score de qualité
score Q
score de qualité Phred
mesure de la qualité de séquençage d’une base nucléotidique donnée
Note 1 à l'article: Q est défini par la formule suivante:
Qp=−10log10()
où p est la probabilité estimée pour que la détection de bases soit erronée.

Note 2 à l'article: Un score de qualité de 20 représente un rapport d’erreur de 1 sur 100, avec une précision de

détection correspondante de 99 %.

Note 3 à l'article: Des scores de qualité élevés indiquent une plus faible probabilité d’erreur de séquençage. Des

scores de qualité faibles peuvent rendre inutilisables les lectures correspondantes. Des scores de qualité faibles

peuvent également conduire à des appels de variants faux-positifs, aboutissant à des conclusions inexactes.

3.33
run

processus complet de réalisation de l’opération de séquençage, de la charge des échantillons jusqu’à

l’obtention des données brutes
3.34
annotation de séquences

processus consistant à ajouter une note d’explication, un commentaire ou une référence sur les

caractéristiques spécifiques présentes dans une séquence d’ADN, d’ARN ou de protéines, grâce à des

informations descriptives sur la structure ou la fonction

Note 1 à l'article: Le processus d’annotation de séquences peut être considéré comme une assignation de données

à la séquence.
© ISO 2020 – Tous droits réservés 5
---------------------- Page: 10 ----------------------
ISO/FDIS 20397-2:2020(F)
3.35
lecture d’extrémité simple

lecture de séquence obtenue en lisant un seul des deux brins d’un fragment d’ADN à partir d’une des

deux extrémités
3.36
SNV
variant nucléotidique unique
variation sur un seul nucléotide d’une molécule d’acide nucléique
3.37
variation structurale

région d’ADN d’environ 1 000 bases ou de taille supérieure, pouvant inclure des inversions et des

translocations équilibrées ou des déséquilibres génomiques

Note 1 à l'article: Il existe plusieurs types fréquents de variants structurels: variants du nombre de

copies (délétions, insertions, amplifications, duplications), délétions neutres du nombre de copies (perte

d’hétérozygosité), inversions, duplications segmentaires et translocations (équilibrées ou déséquilibrées).

3.38
sous-séquence
fraction d’une séquence présente entre des adaptateurs en épingle à cheveux
3.39
découpage (trimming) des lectures brutes

opération visant à supprimer les parties de faible qualité ou les séquences contaminantes tout en

préservant la partie de haute qualité d’une lecture SMP la plus longue possible
3.40
variation

différences d’une ou de plusieurs bases d’acides nucléiques dans une séquence par rapport à la base/aux

bases prévue(s)
3.41
détection de variants

processus d'identification précise des variations des données de séquence par rapport à une séquence

de référence
3.42
ZMW
guide d’onde mode zéro

guide d’onde optique qui guide l’énergie lumineuse dans un volume de petite dimension relativement à

la longueur d'onde de la lumière

Note 1 à l'article: Une polymérase est ancrée au fond de ce ZMW et l’incorporation de nucléotides est mesurée par

une hausse de fluorescence pendant la fixation puis par une réduction ultérieure après incorporation.

4 Données brutes
4.1 Généralités

Il convient d’attribuer à chaque nucléotide d’une séquence une valeur numérique (score de qualité de

base) correspondant à la précision présumée du processus de détection de bases, le cas échéant.

6 © ISO 2020 – Tous droits réservés
---------------------- Page: 11 ----------------------
ISO/FDIS 20397-2:2020(F)
4.2 Fichier de données brutes

Il convient que la génération de fichiers de données brutes utilise un logiciel et/ou un pipeline propre à

l’instrument. Les paramètres physiques contrôlés, notamment le rapport signal sur bruit, doivent être

documentés. Il convient de veiller à contrôler ces paramètres physiques pendant chaque séquençage.

Il convient de configurer les fichiers de séquençage au format approprié, contenant la compilation des

lectures de séquence individuelles, chacune avec son propre identifiant, et un score de qualité de base

correspondant à chaque nucléotide séquencé.

NOTE Le format FASTQ (ou convertible au format FASTQ) peut être utilisé comme format standard de facto

pour l’analyse en aval de la qualité des ensembles de données SMP. FASTQ est communément admis comme

format de fichier d'échange entre plateformes.

Il convient d’analyser les fichiers de sortie générés après un run de séquençage, ainsi que les mesures de

qualité associées, dans le pipeline bio-informatique en aval, à l’aide d’un logiciel approprié.

4.3 Évaluation de la qualité des données brutes
4.3.1 Généralités

Les indicateurs de contrôle qualité peuvent différer selon la plateforme SMP, la méthode de préparation

des banques et l’usage prévu de l’analyse.

Il convient que les résultats de séquençage soient interprétés par un personnel compétent. Il convient

d’effectuer l’interprétation en respectant le niveau de qualité correspondant à l’objectif prévu de

l’analyse, en tenant compte du nombre de répétitions statistiquement fiables des lectures.

Il convient d’appliquer les outils de traitement des lectures en s’appuyant sur différentes métriques de

qualité des lectures brutes et de leur pré-traitement (trimming).
4.3.2 Statistiques élémentaires
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.