Genomics informatics -- Omics Markup Language (OML)

titre manque

General Information

Status
Published
Current Stage
4060 - Close of voting
Start Date
09-Oct-2019
Completion Date
08-Oct-2019
Ref Project

Buy Standard

Draft
ISO/DIS 21393 - Genomics informatics -- Omics Markup Language (OML)
English language
83 pages
sale 15% off
Preview
sale 15% off
Preview
Draft
ISO/DIS 21393 - titre manque
French language
82 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (sample)

DRAFT INTERNATIONAL STANDARD
ISO/DIS 21393
ISO/TC 215 Secretariat: ANSI
Voting begins on: Voting terminates on:
2019-07-16 2019-10-08
Health informatics — Omics Markup Language (OML)
Informatique de santé — Langage de balisage Omics (OML)
ICS: 35.240.80
THIS DOCUMENT IS A DRAFT CIRCULATED
This document is circulated as received from the committee secretariat.
FOR COMMENT AND APPROVAL. IT IS
THEREFORE SUBJECT TO CHANGE AND MAY
NOT BE REFERRED TO AS AN INTERNATIONAL
STANDARD UNTIL PUBLISHED AS SUCH.
IN ADDITION TO THEIR EVALUATION AS
ISO/CEN PARALLEL PROCESSING
BEING ACCEPTABLE FOR INDUSTRIAL,
TECHNOLOGICAL, COMMERCIAL AND
USER PURPOSES, DRAFT INTERNATIONAL
STANDARDS MAY ON OCCASION HAVE TO
BE CONSIDERED IN THE LIGHT OF THEIR
POTENTIAL TO BECOME STANDARDS TO
WHICH REFERENCE MAY BE MADE IN
Reference number
NATIONAL REGULATIONS.
ISO/DIS 21393:2019(E)
RECIPIENTS OF THIS DRAFT ARE INVITED
TO SUBMIT, WITH THEIR COMMENTS,
NOTIFICATION OF ANY RELEVANT PATENT
RIGHTS OF WHICH THEY ARE AWARE AND TO
PROVIDE SUPPORTING DOCUMENTATION. ISO 2019
---------------------- Page: 1 ----------------------
ISO/DIS 21393:2018[E]
ISO/DIS 21393:2019(E)
Contents Page

Foreword ..................................................................................................................................................................... iv

Introduction ................................................................................................................................................................. v

1 Scope ................................................................................................................................................................ 1

2 Normative references ................................................................................................................................ 1

3 Terms and definitions ................................................................................................................................ 1

4 OML specification ........................................................................................................................................ 7

4.1 Specification requirements and OML positioning (informative) ................................................. 7

4.2 OML Structure (normative) ...................................................................................................................... 8

4.3 OML DTD (informative) and XML Schema (normative) .................................................................. 8

5 OML development process (informative) ............................................................................................ 8

6 Figures ............................................................................................................................................................ 9

7 Tables ............................................................................................................................................................ 49

Annex A (informative) Reference Works ........................................................................................................ 78

A.1 Introduction ................................................................................................................................................ 78

A.2 Use case analysis ........................................................................................................................................ 78

A.2.1 Overview ...................................................................................................................................................... 79

A.2.2 Use case of SNP analysis as an example of Omics analysis ........................................................... 79

A.2.3 UML example of SNP analysis as an example of Omics analysis ................................................. 79

A.2.4 Use case of database integration .......................................................................................................... 80

A.2.5 Use case and required elements ........................................................................................................... 80

A.3 Diversity of SNP databases ..................................................................................................................... 80

A.3.1 Diversity of databases .............................................................................................................................. 81

A.3.2 Diversity of data representation .......................................................................................................... 81

A.3.3 Diversity of sequence variation data representation .................................................................... 81

A.4 Markup language comparison ............................................................................................................... 81

A.4.1 Mapping of each markup language to the data categories ........................................................... 82

A.4.2 OML originated needs and its specifications .................................................................................... 83

A.5 Interface analysis to Health Level Seven ............................................................................................ 83

A.5.1 Comparison with HL7 genomics model .............................................................................................. 83

A.5.2 Information Model of Genotype in HL7 .............................................................................................. 84

A.6 Interface analysis to CEN en ISO13606 ............................................................................................... 84

A.7 Interface analysis to SNOMED‐CT ......................................................................................................... 84

A.8 Interface analysis to WHO‐ICD iCOS .................................................................................................... 85

Bibliography.............................................................................................................................................................. 86

COPYRIGHT PROTECTED DOCUMENT
© ISO 2019

All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may

be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting

on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address

below or ISO’s member body in the country of the requester.
ISO copyright office
© ISO 2018 – All rights reserved
iii
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Fax: +41 22 749 09 47
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2019 – All rights reserved
---------------------- Page: 2 ----------------------
ISO/DIS 21393:2019[E]
Contents Page

Foreword ......................................................................................................................................................................... iv

Introduction ..................................................................................................................................................................... v

1 Scope ....................................................................................................................................................................1

2 Normative references ....................................................................................................................................1

3 Terms and definitions ....................................................................................................................................1

4 OML specification ............................................................................................................................................7

4.1 Specification requirements and OML positioning (informative) ...................................................7

4.2 OML Structure (normative)..........................................................................................................................8

4.3 OML DTD (informative) and XML Schema (normative) .....................................................................8

5 OML development process (informative) ...............................................................................................8

6 Figures .................................................................................................................................................................9

7 Tables ................................................................................................................................................................ 49

Annex A (informative) Reference Works .......................................................................................................... 78

A.1 Introduction.................................................................................................................................................... 78

A.2 Use case analysis ........................................................................................................................................... 78

A.2.1 Overview .......................................................................................................................................................... 79

A.2.2 Use case of SNP analysis as an example of Omics analysis ............................................................ 79

A.2.3 UML example of SNP analysis as an example of Omics analysis .................................................. 79

A.2.4 Use case of database integration ............................................................................................................. 80

A.2.5 Use case and required elements.............................................................................................................. 80

A.3 Diversity of SNP databases ........................................................................................................................ 80

A.3.1 Diversity of databases ................................................................................................................................. 81

A.3.2 Diversity of data representation ............................................................................................................. 81

A.3.3 Diversity of sequence variation data representation ...................................................................... 81

A.4 Markup language comparison ................................................................................................................. 81

A.4.1 Mapping of each markup language to the data categories ............................................................ 82

A.4.2 OML originated needs and its specifications ...................................................................................... 83

A.5 Interface analysis to Health Level Seven .............................................................................................. 83

A.5.1 Comparison with HL7 genomics model ................................................................................................ 83

A.5.2 Information Model of Genotype in HL7 ................................................................................................ 84

A.6 Interface analysis to CEN en ISO13606 ................................................................................................. 84

A.7 Interface analysis to SNOMED-CT ........................................................................................................... 84

A.8 Interface analysis to WHO-ICD iCOS ....................................................................................................... 85

Bibliography ................................................................................................................................................................. 86

© ISO 2018 – All rights reserved
iii
---------------------- Page: 3 ----------------------
ISO/DIS 21393:2019(E)
Foreword

ISO (the International Organization for Standardization) is a worldwide federation of national standards

bodies (ISO member bodies). The work of preparing International Standards is normally carried out

through ISO technical committees. Each member body interested in a subject for which a technical

committee has been established has the right to be represented on that committee. International

organizations, governmental and non-governmental, in liaison with ISO, also take part in the work. ISO

collaborates closely with the International Electrotechnical Commission (IEC) on all matters of

electrotechnical standardization.

The procedures used to develop this document and those intended for its further maintenance are

described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the

different types of ISO documents should be noted. This document was drafted in accordance with the

editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).

Attention is drawn to the possibility that some of the elements of this document may be the subject of

patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of any

patent rights identified during the development of the document will be in the Introduction and/or on

the ISO list of patent declarations received (see www.iso.org/patents).

Any trade name used in this document is information given for the convenience of users and does not

constitute an endorsement.

For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and

expressions related to conformity assessment, as well as information about ISO's adherence to the World

Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see

www.iso.org/iso/foreword.html.

This document was prepared by Technical Committee ISO/TC 125, Health Informatics, Subcommittee SC

1, Clinical Genomics.

Any feedback or questions on this document should be directed to the user’s national standards body. A

complete listing of these bodies can be found at www.iso.org/members.html.
© ISO 2018 – All rights reserved
---------------------- Page: 4 ----------------------
ISO/DIS 21393:2019[E]
Introduction

In this next generation post genomic era, the management of health-related data is becoming increasingly

important to both omics research and omics-based medicine [1]. Informational approaches to the

management of clinical, image and omics data are beginning to have as much worth as basic, bench top

research. Nowadays there are many kinds of omics data around the world awaiting effective utilization

for human health. The hurdle that must be overcome to achieve this goal is the development of data

format and message standards to support the interchange of clinical omics data. Omics data includes

omics sequence, sequence variation and other expression data, proteomics data, molecular network, etc.

As an entry point, this standard focuses on the data exchange.

In the present circumstances, omics is expected to be a key to understand human response to external

stimuli such as any kinds of alien invasions, therapies, and the environmental interactions [2]. Bacterial

infection is an example of alien invasion, and the responses to the infections are different among the

individuals. According to the therapy, the side effects to a drug are different among the patients. These

responses are also different in various environments. As a result of recent explosive amount of these

omics researches, the huge amounts of experimental data have been accumulating in many databases in

various types of data formats. These data are waiting to be used in drug discovery, clinical diagnosis, and

clinical researches.

The Markup Language is a set of symbols and rules for their use when doing a markup of a document [3].

The first standardized markup language was Standard Generalized Markup Language (SGML) [4] which

has strong similarities with troff and nroff text layout languages supplied with Unix systems. Hypertext

Markup Language (HTML) is based on SGML [5]. Extensible Markup Language (XML is a pared-down

version of SGML, designed especially for Web documents [6]. XML acts as the basis for Extensible HTML

(XHTML) [7] and Wireless Markup Language (WML) [8] and for standardized definitions of system

interaction such as Simple Object Access Protocol (SOAP) [9]. By contrast, text layout or semantics are

often defined in a purely machine-interpretable form, as in most word processor file formats [10].

Markup Language for the biomedical field, based on XML, has been in development for several decades

to enhance the exchange data among researchers. Bioinformatic Sequence Markup Language (BSML)

[11], Systems Biology Markup Language (SBML) [12], Cell Markup Language (Cell ML) [13], and Neuro

Markup Language (Neuro-ML) [14] are examples of markup languages. Polymorphism Mining and

Annotation Programs (PolyMAPr) [15] is centric on SNP and tries to achieve mining, annotation, and

functional analysis of public database as dbSNP [16], CGAP [17], and JSNP [18] through programming.

ISO 25720 Genomic Sequence Variation Markup Language (GSVML) is the first standardized ML for

clinical genomic sequence variation data exchange.

The purpose of Omics Markup Language (OML) is to provide a standardized data exchange format for

omics in human health.

The recent expansion in omics research has produced large quantities of data held in many databases

with different formats. Standardization of data exchange is necessary for managing, analysing and

utilizing these data. Considering that omics, especially transcriptomics, proteomics, signalomics and

metabolomics, has significant meaning in molecular-based medicine and pharmacogenomics, the data

exchange format is key to enhancing omics-based clinical research and omics-based medicine.

Recently, informational approaches have become more important to both omics research and omics-

based medicine. The management of omics data is as critical as basic research data in this new era. There

are many kinds of omics data around the world, and the time has come to effectively use this omics data

© ISO 2018 – All rights reserved
---------------------- Page: 5 ----------------------
ISO/DIS 21393:2019(E)

for human health. To use this data effectively and efficiently, standards must be developed to permit the

interoperable interchange of omics data globally. These standards must define the data format as well as

the messages to be used to interchange and share this data globally. This standard addresses those

requirements, using a markup language.

OML is a base frame of all kinds of clinical omics data. Each omics category will be introduced as a specific

add on component part. As an instance, Whole Genome sequence Markup Language will be a specific add

on component part for whole genome sequence data, and Genomic Sequence Variation Markup Language

will be a specific add on component part for genomic sequence variation data.

To utilize the accumulated omics data among many facilities around the world, standards for the

interchange of omics data must be defined. The required standards include defining a data format and

exchange messages. Markup Language is the reasonable choice to address this need. As for omics data

message handling, Health Level Seven Clinical Genomics Work Group [19] has summarized clinical use

cases for general omics data. The OML project has contributed to these efforts. Additionally, this work

incorporated use cases based on the Japanese millennium project [20] . Based on these contexts and

investigations, this document elucidates the needs and the requirements for OML and then proposes the

specification of OML for the international standardization.

A list of references related this part of ISO/DIS 21393 is given in the bibliography.

© ISO 2018 – All rights reserved
---------------------- Page: 6 ----------------------
DIS ISO/DIS 21393:2019[E]
Health informatics — Omics Markup Language
1 Scope

OML is a data exchange format designed to facilitate exchanging omics data around the world without

forcing changes to existing databases.

From an informatics perspective, OML is an XML-based data exchange format. The data exchange format

(e.g., XML schema and DTD) is in scope. The structure of the systems and databases sending or receiving

the information schemas are out of the scope.

From a biological perspective, all kinds of omics are in scope, but the details (e.g., details of genomic

sequence variations or whole genomic sequence) are out of the scope. Annotations including clinical

concerns and relations with other omics concerns are in scope.

The application focus is human health including clinical practice, preventive medicine, translational

research, and clinical research including drug discovery. The scope includes health-associated species,

including human and preclinical animals, and associated cell lines. Other species, basic research, and

other scientific fields are out of scope.
2 Normative references

The following documents are referred to in the text in such a way that some or all of their content

constitutes requirements of this document. For dated references, only the edition cited applies. For

undated references, the latest edition of the referenced document (including any amendments) applies.

ISO 25720:2009, Health informatics -- Genomic Sequence Variation Markup Language (GSVML)

ISO/HL7 21731:2006, Health informatics – HL7 version 3 – Reference information model – Release 1

CEN EN 13606, Health informatics -- Electronic Healthcare Record Communication
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
3.1
actor
something or someone who supplies a stimulus to the system

Note to entry: Actors include both humans and other quasi-autonomous things, such as machines, computer tasks

and systems.
[SOURCE: ISO 25720:2009(en), 4.1]
3.2
allele

a gene that is found in one of two or more different forms in the same position in a chromosome

© ISO 2018 – All rights reserved
---------------------- Page: 7 ----------------------
ISO/DIS 21393:2019(E)
3.3
BSML
bioinformatic sequence markup language
extensible language specification and container for bioinformatic data
[SOURCE: ISO 25720:2009(en), 4.2]
3.4
Cell ML
cell markup language
a standard for representing and exchanging computer-based biological models
[SOURCE: ISO 25720:2009(en), 4.3]
3.5
CGAP
Cancer Gene Anatomy Project

genomic expression data collected for various tumorigenic tissues in both humans and mice.

Note to entry: CGAP also provides information on methods and reagents used in deriving the genomic data

[SOURCE: ISO 25720:2009(en), 4.4]
3.6
codon

a sequence of three nucleotides which together form a unit of genetic code in a DNA or RNA molecule.

3.7
dbSNP

database of SNPs (4.29) provided by the US National Center for Biotechnology Information (NCBI)

Note to entry: available at https://www.ncbi.nlm.nih.gov/SNP/
[SOURCE: ISO/TS 20428:2017(en), 3.9]
3.8
DICOM
digital imaging and communications in medicine

a standard in the field of medical informatics for exchanging digital information between medical imaging

equipment (such as radiological imaging) and other systems, ensuring interoperability

[SOURCE: ISO 25720:2009(en), 4.6]
3.9
DNA
deoxyribonucleic acid
a molecule that encodes genetic information in the nucleus of cells
[SOURCE: ISO 25720:2009(en), 4.7]
3.10
DNA sequence variation
differences of DNA (4.8) sequence among individuals in a population
© ISO 2018 – All rights reserved
---------------------- Page: 8 ----------------------
ISO/DIS 21393:2019[E]
Note to entry: DNA sequence variation implies polymorphism (4.xx)
[SOURCE: ISO 25720:2009(en), 4.8]
3.11
DTD
document type definition

a document that contains formal definitions of all of the data elements in a particular type of HTML (4.15),

SGML (4.28), or XML (4.38) document
[SOURCE: ISO 25720:2009(en), 4.9]
3.12
entry point

reference point that designate the class(es) from which the messages begin for the domain

[SOURCE: ISO 25720:2009(en), 4.10]
3.13
exon

any part of a gene that will encode a part of the final mature RNA produced by that gene after introns

have been removed by RNA splicing.
3.14
gene-based medicine
medicine based on genes or genetic science
[SOURCE: ISO 25720:2009(en), 4.11]
3.15
GSVML
genomic sequence variation markup language
a standard for data exchange of genomic sequence variation data
[SOURCE: ISO 25720:2009(en)]
3.16
HTML
Hypertext Markup Language

a set of markup symbols or codes inserted in a file intended for display in a browser

[SOURCE: ISO 25720:2009(en), 4.12]
3.17
ICD-11
international classification of diseases 11 revision

a standard diagnostic tool for epidemiology, health management and clinical purposes

Note to entry: available at https://icd.who.int/
© ISO 2018 – All rights reserved
---------------------- Page: 9 ----------------------
ISO/DIS 21393:2019(E)
3.18
iCOS
clinical omics sub-information model for ICD

Note to entry: Add-on sub-information model to enhance the representation ability of ICD11 contents model to

cover omics information.
3.19
intron

any nucleotide sequence within a gene that is removed by RNA splicing during maturation of the final

RNA product
3.20
JPEG
joint photographic experts group
compression technique for images
[SOURCE: ISO 25720:2009(en), 4.13]
3.21
JSNP
Japanese single nucleotide polymorphisms
database of Japanese Single Nucleotide Polymorphisms
[SOURCE: ISO 25720:2009(en), 4.14]
3.22
markup language
a set of symbols and rules for their uses when doing a markup of a document
[SOURCE: ISO 25720:2009(en), 4.15]
3.23
microarray gene expression markup language
MAGE-ML

a data format for describing information about DNA-array based experiments and gene expression data

3.24
neuro-ML
Neuro Markup Language
markup language (4.20) for describing models of neurons and networks of neurons.
[SOURCE: ISO 25720:2009(en), 4.16]
3.25
nroff
text-formatting program on Unix and unix-like systems
[SOURCE: https://en.wikipedia.org/wiki/Nroff]
© ISO 2018 – All rights reserved
---------------------- Page: 10 ----------------------
ISO/DIS 21393:2019[E]
3.26
omics
a field of study in biology ending in -omics

Note to entry: includes, but is not limited to, genomics, proteomics, and metabolomics.

3.27
pharmacogenomics

a branch of pharmaceutics aiming to develop rational means to optimize drug therapy, with respect to

the patient's genotype
3.28
PolyMAPr
polymorphism mining and annotation programs
programs for polymorphism database mining, annotation, and functional analysis
[SOURCE: ISO 25720:2009(en), 4.19]
3.29
polymorphism
variation in the sequence of DNA (4.8) among individuals
Note to entry: polymorphism implies SNP (4.29) and STRP (4.32)
[SOURCE: ISO 25720:2009(en), 4.20]
3.30
RNA
ribonucleic acid

polymer of ribonucleotides occurring in a double-stranded or single-stranded form

[SOURCE: ISO 22174:2005, 3.1.3]
3.31
RNAML
a data format for exchanging RNA information
3.32
SBML
systems biology markup language
markup language (4.20) for simulations in systems biology
[SOURCE: ISO 25720:2009(en), 4.21]
3.33
SGML
standard generalized markup language

markup language (4.20) for document representation that formalizes markup and frees it of system and

processing dependencies
[SOURCE: ISO 8879:1986, 4.305]
© ISO 2018 – All rights reserved
---------------------- Page: 11 ----------------------
ISO/DIS 21393:2019(E)
3.34
SNP
single nucleotide polymorphism

single nucleotide variation in a genetic sequence that occurs at appreciable frequency in the population

[SOURCE: ISO 25720:2009(en), 4.23]
3.35
SNOMED-CT
systematized nomenclature of medicine - Clinical Terms

dynamic, scientifically validated clinical health care terminology and infrastructure

[SOURCE: ISO 25720:2009(en), 4.24]
3.36
SOAP
simple object access protocol

lightweight protocol for exchange of information in a decentralized, distributed environment

[SOURCE: ISO 25720:2009(en), 4.25]
3.37
STRP
short tandem repeat polymorphism

variable segments of DNA (4.8) that are two to five bases long with numerous repeats

[SOURCE: ISO 25720:2009(en), 4.26]
3.38
troff

the major component of a document processing system developed by AT&T for the Unix operating system

3.39
VNTR
variable number of tandem repeat

class of polymorphism characterized by the highly variable copy number of identical or closely related

sequences
[SOURCE: ISO 25720:2009(en), 4.28]
3.40
WML
wireless markup language

XML language used to specify content and user interface for WAP (Wireless Application Protocol) devices

[SOURCE: ISO 25720:2009(en), 4.29]
3.41
WGML
whole genome sequence markup language
markup language to represent complete genome sequence
© ISO 2018 – All rights reserved
---------------------- Page: 12 ----------------------
ISO/DIS 21393:2019[E]
3.42
XHTML
extensible HTML

hybrid between HTML (4.5) and XML (4.38) specifically designed for net device displays

[SOURCE: ISO 25720:2009(en), 4.30]
3.43
XML
...

PROJET DE NORME INTERNATIONALE
ISO/DIS 21393
ISO/TC 215 Secrétariat: ANSI
Début de vote: Vote clos le:
2019-07-16 2019-10-08
Informatique de santé — Langage de balisage Omics (OML)
Health informatics — Omics Markup Language (OML)
ICS: 35.240.80
CE DOCUMENT EST UN PROJET DIFFUSÉ POUR
OBSERVATIONS ET APPROBATION. IL EST DONC
SUSCEPTIBLE DE MODIFICATION ET NE PEUT

Le présent document est distribué tel qu’il est parvenu du secrétariat du comité.

ÊTRE CITÉ COMME NORME INTERNATIONALE
AVANT SA PUBLICATION EN TANT QUE TELLE.
OUTRE LE FAIT D’ÊTRE EXAMINÉS POUR
ÉTABLIR S’ILS SONT ACCEPTABLES À DES
FINS INDUSTRIELLES, TECHNOLOGIQUES ET
COMMERCIALES, AINSI QUE DU POINT DE VUE TRAITEMENT PARALLÈLE ISO/CEN
DES UTILISATEURS, LES PROJETS DE NORMES
INTERNATIONALES DOIVENT PARFOIS ÊTRE
CONSIDÉRÉS DU POINT DE VUE DE LEUR
POSSIBILITÉ DE DEVENIR DES NORMES
POUVANT SERVIR DE RÉFÉRENCE DANS LA
RÉGLEMENTATION NATIONALE.
Numéro de référence
LES DESTINATAIRES DU PRÉSENT PROJET
ISO/DIS 21393:2019(F)
SONT INVITÉS À PRÉSENTER, AVEC LEURS
OBSERVATIONS, NOTIFICATION DES DROITS
DE PROPRIÉTÉ DONT ILS AURAIENT
ÉVENTUELLEMENT CONNAISSANCE ET À
FOURNIR UNE DOCUMENTATION EXPLICATIVE. ISO 2019
---------------------- Page: 1 ----------------------
ISO/DIS 21393:2019(F)
ISO/DIS 21393:2019(F)
Sommaire Page

Avant-propos .................................................................................................................................................................. iv

Introduction .................................................................................................................................................................... v

1 Domaine d'application .................................................................................................................................. 1

2 Références normatives .................................................................................................................................. 1

3 Termes et définitions ..................................................................................................................................... 2

4 Spécifications de l’OML .................................................................................................................................. 8

4.1 Exigences de spécification et positionnement de l’OML (informative) ....................................... 8

4.2 Structure de l’OML (normative) ................................................................................................................. 9

4.3 DTD de l’OML (informative) et schéma XML (normatif) ................................................................... 9

5 Processus de développement de l’OML (informatif) .......................................................................... 9

6 Figures .............................................................................................................................................................. 10

7 Tableaux .......................................................................................................................................................... 46

ȋ‹ˆ‘”ƒ–‹˜‡Ȍ Travaux de référence ................................................................................................. 72

A.1 Introduction ................................................................................................................................................... 72

A.2 Analyse de cas d'utilisation ...................................................................................................................... 72

A.2.1 Aperçu général .............................................................................................................................................. 73

A.2.2 Cas d'utilisation de l’analyse SNP comme exemple d’analyse omique ..................................... 73

A.2.3 Exemple UML de l’analyse SNP comme exemple d’analyse omique .......................................... 74

A.2.4 Cas d'utilisation de l’intégration de la base de données ................................................................ 74

A.2.5 Cas d'utilisation et éléments requis ...................................................................................................... 74

A.3 Diversité des bases de données sur les SNP ....................................................................................... 75

A.3.1 Diversité des bases de données .............................................................................................................. 75

A.3.2 Diversité de la représentation de données ......................................................................................... 75

A.3.3 Diversité de la représentation des données relatives à la variation de séquence ............... 76

A.4 Comparaison des langages de balisage ................................................................................................ 76

A.4.1 Mappage de chaque langage de balisage aux catégories de données ........................................ 76

A.4.2 Besoins dérivés de l’OML et spécifications ......................................................................................... 78

A.5 Interface d'analyse avec le Health Level Seven ................................................................................. 78

A.5.1 Comparaison avec le modèle génomique HL7 ................................................................................... 78

A.5.2 Modèle d'informations du génotype dans HL7 .................................................................................. 79

A.6 Analyse d'interface par rapport à la norme ISO 13606 .................................................................. 79

A.7 Analyse d'interface au SNOMED-CT ....................................................................................................... 80

A.8 Analyse d'interface à l’iCOS CIM de l’OMS ............................................................................................ 80

Bibliographie................................................................................................................................................................ 81

DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2019

Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en oeuvre, aucune partie de cette

publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,

y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut

être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.

ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
̹ ʹͲͳͻ–‘—•†”‘‹–•”±•‡”˜±•
‹‹‹
Tél.: +41 22 749 01 11
Fax: +41 22 749 09 47
E-mail: copyright@iso.org
Website: www.iso.org
Publié en Suisse
ii © ISO 2019 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO/DIS 21393:2019(F)
Sommaire Page

Avant-propos .................................................................................................................................................................. iv

Introduction .................................................................................................................................................................... v

1 Domaine d'application .................................................................................................................................. 1

2 Références normatives .................................................................................................................................. 1

3 Termes et définitions ..................................................................................................................................... 2

4 Spécifications de l’OML .................................................................................................................................. 8

4.1 Exigences de spécification et positionnement de l’OML (informative) ....................................... 8

4.2 Structure de l’OML (normative) ................................................................................................................. 9

4.3 DTD de l’OML (informative) et schéma XML (normatif) ................................................................... 9

5 Processus de développement de l’OML (informatif) .......................................................................... 9

6 Figures .............................................................................................................................................................. 10

7 Tableaux .......................................................................................................................................................... 46

(informative) Travaux de référence ................................................................................................. 72

A.1 Introduction ................................................................................................................................................... 72

A.2 Analyse de cas d'utilisation ...................................................................................................................... 72

A.2.1 Aperçu général .............................................................................................................................................. 73

A.2.2 Cas d'utilisation de l’analyse SNP comme exemple d’analyse omique ..................................... 73

A.2.3 Exemple UML de l’analyse SNP comme exemple d’analyse omique .......................................... 74

A.2.4 Cas d'utilisation de l’intégration de la base de données ................................................................ 74

A.2.5 Cas d'utilisation et éléments requis ...................................................................................................... 74

A.3 Diversité des bases de données sur les SNP ....................................................................................... 75

A.3.1 Diversité des bases de données .............................................................................................................. 75

A.3.2 Diversité de la représentation de données ......................................................................................... 75

A.3.3 Diversité de la représentation des données relatives à la variation de séquence ............... 76

A.4 Comparaison des langages de balisage ................................................................................................ 76

A.4.1 Mappage de chaque langage de balisage aux catégories de données ........................................ 76

A.4.2 Besoins dérivés de l’OML et spécifications ......................................................................................... 78

A.5 Interface d'analyse avec le Health Level Seven ................................................................................. 78

A.5.1 Comparaison avec le modèle génomique HL7 ................................................................................... 78

A.5.2 Modèle d'informations du génotype dans HL7 .................................................................................. 79

A.6 Analyse d'interface par rapport à la norme ISO 13606 .................................................................. 79

A.7 Analyse d'interface au SNOMED-CT ....................................................................................................... 80

A.8 Analyse d'interface à l’iCOS CIM de l’OMS ............................................................................................ 80

Bibliographie................................................................................................................................................................ 81

© ISO 2019 – Tous droits réservés
iii
---------------------- Page: 3 ----------------------
ISO/DIS 21393:2019(F)
Avant-propos

L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux

de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général

confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire

partie du comité technique créé à cet effet. Les organisations internationales, gouvernementales et non

gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement

avec la Commission électrotechnique internationale (IEC) en ce qui concerne la normalisation

électrotechnique.

Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont

décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents

critères d'approbation requis pour les différents types de documents ISO. Le présent document a été

rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2

(voir www.iso.org/directives).

L'attention est attirée sur le fait que certains des éléments du présent document peuvent faire l'objet de

droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de

ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant les

références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de l'élaboration

du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de brevets reçues par

l’ISO (voir www.iso.org/brevets).

Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour

information, par souci de commodité, à l'intention des utilisateurs et ne sauraient constituer un

engagement.

Pour une explication de la nature volontaire des normes, la signification des termes et expressions

spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion de

l'ISO aux principes de l'Organisation mondiale du commerce (OMC) concernant les obstacles techniques au

commerce (OTC), voir le lien suivant : www.iso.org/iso/fr/foreword.html.

Le présent document a été élaboré par le comité technique ISO/TC 215, Informatique de santé,

sous-comité SC 1, Génomique clinique.

Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent

document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se

trouve à l'adresse www.iso.org/members.html.
© ISO 2019 – Tous droits réservés
---------------------- Page: 4 ----------------------
ISO/DIS 21393:2019(F)
Introduction

Dans cette ère post-génomique de nouvelle génération, la gestion des données de santé devient de plus en

plus importante tant pour la médecine omique (« omics ») que pour la médecine basée sur les approches

omiques [1]. Les approches informationnelles de la gestion des données cliniques, d'images et d’omique

commencent à avoir autant de valeur que les recherches ordinaires en laboratoire. Il existe aujourd’hui de

nombreux types de données omiques de par le monde qui attendent une utilisation efficace dans le

domaine de la santé humaine. Pour atteindre cet objectif, le premier obstacle à franchir est de développer

un format de données et des normes de message pour prendre en charge l’échange de données omiques

cliniques. Les données omiques comprennent la séquence omique, la variation de séquence et d’autres

données d'expression, les données protéomiques, le réseau moléculaire, etc. Comme point d'entrée, la

présente norme se concentre sur l’échange de données.

Dans les circonstances actuelles, on s'attend à ce que l’omique soit une clé pour comprendre la réponse

humaine aux stimuli externes tels que n'importe quels types d'invasions étrangères, de thérapies, et

d'interactions environnementales [2]. L'infection bactérienne est un exemple d'invasion étrangère et les

réponses aux infections diffèrent d'un individu à l'autre. Selon la thérapie utilisée, les effets secondaires

d'un médicament diffèrent d'un patient à l'autre. Ces réponses diffèrent également d'un environnement à

l'autre. Le nombre de ces recherches omiques ayant explosé récemment, les données expérimentales

s'accumulent en grande quantité dans de nombreuses bases de données sous différents types de formats

de données. Ces données attendent d'être utilisées dans la découverte de médicaments, le diagnostic

clinique et les recherches cliniques.

Le langage de balisage est un ensemble de symboles et de règles permettant de les utiliser dans le balisage

d'un document [3]. Le premier langage de balisage normalisé a été le SGML (langage normalisé de balisage

généralisé) [4] qui a de fortes similitudes avec les langages de présentation de texte troff et nroff qui

accompagnent les systèmes Unix. Le langage HTML (langage de balisage hypertexte) est basé sur SGML [5].

XML (langage de balisage extensible) est une version réduite du SGML, conçue particulièrement pour les

documents Web [6]. XML sert de base au XHTML (HTML extensible) [7] et au WML (langage de balisage

sans fil) [8] ainsi qu'à des définitions normalisées d'interaction système telles que SOAP (Simple Object

Access Protocol) [9]. Par contre, la présentation de texte ou la sémantique est souvent définie sous une

forme purement interprétable par machine, comme dans la plupart des formats de fichiers de traitement

de texte [10].

Ces dernières années, le langage de balisage dans le domaine biomédical basé sur XML connaît un

développement soutenu afin de renforcer l'échange de données parmi des chercheurs. Le BSML (langage

de balisage de séquence bioinformatique) [11], le SBML (langage de balisage en biologie des

systèmes) [12], le Cell ML (langage de balisage de cellules) [13] et le Neuro-ML (Langage de balisage

neuronal) [14] sont des exemples de langages de balisage. Le Polymorphism Mining and Annotation

Programs (PolyMAPr) [15] est centré sur le SNP et tente de réaliser l'exploration, l'annotation et l'analyse

fonctionnelle des bases de données publiques telles que dbSNP [16], CGAP [17], et JSNP [18] par le biais de

la programmation. Le langage de balisage de variation de la séquence génomique (GSVML) de l’ISO 25720

est le premier langage de balisage normalisé pour l’échange de données relatives à la variation de la

séquence génomique dans un contexte clinique.

Le langage de balisage Omics (OML) vise à fournir le format normalisé d'échange de données pour les

sciences omiques dans le domaine de la santé humaine.
© ISO 2019 – Tous droits réservés
---------------------- Page: 5 ----------------------
ISO/DIS 21393:2019(F)

L’essor récent de la recherche omique a généré d’importantes quantités de données conservées dans de

nombreuses bases de données sous différents formats. La gestion, l’analyse et l’utilisation de ces données

exigent une normalisation de l’échange de données. Compte tenu de l’importance des sciences omiques

pour la médecine moléculaire et la pharmacogénomique, en particulier la transcriptomique, la

protéomique, la signalomique et la métabolomique, le format d’échange de données est essentiel pour

améliorer la recherche clinique et la médecine basées sur des approches omiques.

Les approches informationnelles ont récemment gagné en importance tant pour la recherche omique que

pour la médecine basée sur les sciences omiques. Dans cette nouvelle ère, la gestion des données omiques

est devenue aussi essentielle que celle des données de recherche fondamentale. Il existe de nombreux

types de données omiques dans le monde et le temps est venu d’utiliser efficacement ces données pour la

santé humaine. Pour utiliser ces données de manière efficace et efficiente, il est impératif d’élaborer des

normes pour permettre l’échange interopérable des données omiques dans le monde. Ces normes doivent

définir le format de données ainsi que les messages à utiliser pour échanger et partager ces données à

l’internationale. La présente norme répond à ces exigences à l’aide d’un langage de balisage.

OML est un cadre de base pour tous les types de données omiques cliniques. Chaque catégorie du domaine

omique sera présentée sous la forme d’une composante complémentaire spécifique. Par exemple, le

langage de balisage du séquençage de génome complet formera une composante complémentaire

spécifique pour des données de séquençage de génome complet, et le langage de balisage de la variation de

la séquence génomique formera une composante complémentaire spécifique des données de variation de

la séquence génomique.

Pour utiliser les données omiques cumulées parmi de nombreux établissements à travers le monde, des

normes doivent être définies autour de l’échange de données omiques. Les normes requises incluent la

définition d’un format de données et de messages d’échange. Le langage de balisage est le choix

raisonnable pour répondre à ce besoin. Quant à la gestion des messages de données omiques, le groupe de

travail de génomique clinique au sein du Health Level Seven [19] a récapitulé les cas d'utilisation clinique

pour les données omiques générales. Le projet OML a contribué à ces efforts. En outre, ces travaux ont

incorporé des cas d'utilisation basés sur le « Millennium Project » japonais [20]. Basé sur ces contextes et

investigations, le présent document élucide les besoins et les exigences pour l’OML et propose ensuite la

spécification de l’OML en vue de la normalisation internationale.

Une liste de références se rapportant à la présente partie de l'ISO/DIS 21393 est donnée dans la

bibliographie.
© ISO 2019 – Tous droits réservés
---------------------- Page: 6 ----------------------
PROJET DE NORME INTERNATIONALE ISO/DIS 21393:2019(F)
Informatique de santé — Langage de balisage Omics (OML)
1 Domaine d'application

OML est un format d’échange de données conçu pour faciliter l’échange de données omiques à travers le

monde sans introduire de modifications aux bases de données existantes.

D’un point de vue informatique, OML est un format d’échange de données basé sur XML. Le format

d’échange de données (par exemple, schéma et DTD XML) entre dans le domaine d’application. La

structure des systèmes et des bases de données qui envoient ou reçoivent les schémas d’informations

ne s’inscrivent pas dans le domaine d’application.

D’un point de vue biologique, tous les types d’omique relèvent du domaine d’application, mais les

détails (par exemple, détails des variations de la séquence génomique ou séquence génomique

complète) en sont exclus. Les annotations incluant les questions cliniques et les relations avec les autres

questions omiques entrent dans le domaine d’application.

L’application est concentrée sur la santé humaine, y compris les pratiques cliniques, la médecine

préventive, la recherche translationnelle et la recherche clinique, notamment la découverte de

médicaments. Le domaine d’application couvre les espèces associées à la santé humaine, notamment

l’homme, les animaux en préclinique et les lignées cellulaires associées. Les autres espèces, recherches

fondamentales et autres domaines scientifiques ne relèvent pas du domaine d’application.

2 Références normatives

Les documents suivants cités dans le texte constituent, pour tout ou partie de leur contenu, des

exigences du présent document. Pour les références datées, seule l'édition citée s'applique. Pour les

références non datées, la dernière édition du document de référence s'applique (y compris les éventuels

amendements).

ISO 25720:2009, Informatique de santé — Langage de balisage de la variation de séquence génomique

ISO/HL7 21731:2006, Informatique de santé — HL7 version 3 — Modèle d'information de référence —

Version 1

CEN EN 13606, Informatique de santé — Communication du dossier de santé informatisé

© ISO 2019 – Tous droits réservés
---------------------- Page: 7 ----------------------
ISO/DIS 21393:2019(F)
3 Termes et définitions

Pour les besoins du présent document, les termes et définitions suivants s'appliquent.

3.1
acteur
agent
entité qui fournit un stimulus au système

Note 1 à l'article : Les acteurs englobent tant les humains que d'autres entités quasi autonomes, telles que

machines, tâches informatiques et systèmes.
[SOURCE : ISO 25720:2009(F), 4.1]
3.2
allèle
gène trouvé dans différentes formes à la même position dans un chromosome
3.3
BSML
Bioinformatic Sequence Markup Language
spécification de langage extensible et conteneur pour données bioinformatiques
[SOURCE : ISO 25720:2009(F), 4.2]
3.4
Cell ML
Cell Markup Language

norme permettant de représenter et d'échanger des modèles biologiques informatisés

[SOURCE : ISO 25720:2009(F), 4.3]
3.5
CGAP
Cancer Gene Anatomy Project

données d'expression génomiques recueillies pour différents tissus tumorigènes chez l'homme et chez

la souris

Note 1 à l'article : Le projet CGAP fournit également des informations sur des méthodes et des réactifs utilisés

pour obtenir les données génomiques.
[SOURCE : ISO 25720:2009(F), 4.4]
3.6
codon

séquence de trois nucléotides qui, ensemble, forment une unité de code génétique dans une molécule

d’ADN ou d’ARN
© ISO 2019 – Tous droits réservés
---------------------- Page: 8 ----------------------
ISO/DIS 21393:2019(F)
3.7
dbSNP

base de données de SNP (4.29) fournie par le National Center for Biotechnology Information (NCBI) des

États-Unis d'Amérique
Note 1 à l’article : Disponible sur https://www.ncbi.nlm.nih.gov/SNP/.
[SOURCE : ISO/TS 20428:2017(E), 3.9]
3.8
DICOM
Digital Imaging and Communications in Medicine

norme dans le domaine de l'informatique médicale pour l'échange d'information numérique entre un

équipement d'imagerie médicale (tel qu'une imagerie radiologique) et d'autres systèmes, assurant

l'interopérabilité
[SOURCE : ISO 25720:2009(F), 4.6]
3.9
ADN
acide désoxyribonucléique
molécule qui code l'information génétique dans le noyau des cellules
[SOURCE : ISO 25720:2009(F), 4.7]
3.10
variation de la séquence d'ADN
différences de séquence d'ADN (4.8) parmi des individus dans une population

Note 1 à l'article : La variation de la séquence d'ADN implique le polymorphisme (4.xx).

[SOURCE : ISO 25720:2009(F), 4.8]
3.11
DTD
Document Type Definition

document qui contient les définitions formelles de tous les éléments de données dans un type

particulier de document HTML (4.15), SGML (4.28) ou XML (4.38)
[SOURCE : ISO 25720:2009(F), 4.9]
3.12
point d’entrée

point de référence qui indique la (les) classe(s) où les messages débutent pour le domaine

[SOURCE : ISO 25720:2009(F), 4.10]
3.13
exon

toute partie d'un gène qui encode une partie de l’ARN mature final produit par ce gène après

l’élimination des introns par épissage de l’ARN
© ISO 2019 – Tous droits réservés
---------------------- Page: 9 ----------------------
ISO/DIS 21393:2019(F)
3.14
médecine génique
médecine basée sur les gènes ou science génétique
[SOURCE : ISO 25720:2009(F), 4.11]
3.15
GSVML
Genomic Sequence Variation Markup Language
norme pour l’échange de données de la variation de la séquence génomique
[SOURCE : ISO 25720:2009(F)]
3.16
HTML
HyperText Markup Language

ensemble de symboles ou codes de balisage insérés dans un fichier destiné à l'affichage dans un

navigateur
[SOURCE : ISO 25720:2009(F), 4.12]
3.17
CIM-11
Classification Internationale des Maladies, révision 11

outil de diagnostic normalisé pour l’épidémiologie, la gestion de la santé et les applications cliniques

Note 1 à l’article : Disponible sur https://icd.who.int/.
3.18
iCOS
sous-modèle d'informations omiques cliniques pour la CIM

Note 1 à l'article : Modèle d'informations complémentaires pour renforcer la capacité de représentation du

modèle de contenu CIM-11 afin de couvrir les informations relatives aux domaines omiques.

3.19
intron

toute séquence nucléotidique dans un gène qui est éliminée par épissage de l’ARN pendant la

maturation du produit ARN final
3.20
JPEG
Joint Photographic Experts Group
technique de compression d'images
[SOURCE : ISO 25720:2009(F), 4.13]
© ISO 2019 – Tous droits réservés
---------------------- Page: 10 ----------------------
ISO/DIS 21393:2019(F)
3.21
JSNP
Japanese Single Nucleotide Polymorphisms
base de données japonaise pour les polymorphismes mononucléotidiques
[SOURCE : ISO 25720:2009(F), 4.14]
3.22
langage de balisage

ensemble de symboles et des règles pour leurs utilisations dans le balisage d'un document

[SOURCE : ISO 25720:2009(F), 4.15]
3.23
Microarray Gene Expression Markup Language
MAGE-ML

format de données pour décrire des informations sur des expérimentations basées sur le réseau d'ADN

et les données d'expression des gènes
3.24
Neuro-ML
Neuro Markup Language

langage de balisage (4.20) pour décrire des modèles de neurones et les réseaux de neurones

[SOURCE : ISO 25720:2009(F), 4.16]
3.25
nroff

programme de formatage de texte sous systèmes Unix et autres systèmes apparentés à Unix

[SOURCE : https://en.wikipedia.org/wiki/Nroff]
3.26
omique
« omics »
domaine d’étude biologique ayant le suffixe « omique »

Note 1 à l’article : Inclut, sans toutefois s’y limiter, la génomique, la protéomique et la métabolomique.

3.27
pharmacogénomique

branche de la pharmacie visant à développer un moyen rationnel permettant d'optimiser la

chimiothérapie, en fonction du génotype du patient
3.28
PolyMAPr
Polymorphism Mining and Annotation Programs
programmes pour l'exploration, l'annotation et l'analyse fonctionnelle
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.