ISO/DIS 21393
Genomics informatics -- Omics Markup Language (OML)
Genomics informatics -- Omics Markup Language (OML)
titre manque
General Information
Standards Content (sample)
DRAFT INTERNATIONAL STANDARD
ISO/DIS 21393
ISO/TC 215 Secretariat: ANSI
Voting begins on: Voting terminates on:
2019-07-16 2019-10-08
Health informatics — Omics Markup Language (OML)
Informatique de santé — Langage de balisage Omics (OML)
ICS: 35.240.80
THIS DOCUMENT IS A DRAFT CIRCULATED
This document is circulated as received from the committee secretariat.
FOR COMMENT AND APPROVAL. IT IS
THEREFORE SUBJECT TO CHANGE AND MAY
NOT BE REFERRED TO AS AN INTERNATIONAL
STANDARD UNTIL PUBLISHED AS SUCH.
IN ADDITION TO THEIR EVALUATION AS
ISO/CEN PARALLEL PROCESSING
BEING ACCEPTABLE FOR INDUSTRIAL,
TECHNOLOGICAL, COMMERCIAL AND
USER PURPOSES, DRAFT INTERNATIONAL
STANDARDS MAY ON OCCASION HAVE TO
BE CONSIDERED IN THE LIGHT OF THEIR
POTENTIAL TO BECOME STANDARDS TO
WHICH REFERENCE MAY BE MADE IN
Reference number
NATIONAL REGULATIONS.
ISO/DIS 21393:2019(E)
RECIPIENTS OF THIS DRAFT ARE INVITED
TO SUBMIT, WITH THEIR COMMENTS,
NOTIFICATION OF ANY RELEVANT PATENT
RIGHTS OF WHICH THEY ARE AWARE AND TO
PROVIDE SUPPORTING DOCUMENTATION. ISO 2019
---------------------- Page: 1 ----------------------
ISO/DIS 21393:2018[E]
ISO/DIS 21393:2019(E)
Contents Page
Foreword ..................................................................................................................................................................... iv
Introduction ................................................................................................................................................................. v
1 Scope ................................................................................................................................................................ 1
2 Normative references ................................................................................................................................ 1
3 Terms and definitions ................................................................................................................................ 1
4 OML specification ........................................................................................................................................ 7
4.1 Specification requirements and OML positioning (informative) ................................................. 7
4.2 OML Structure (normative) ...................................................................................................................... 8
4.3 OML DTD (informative) and XML Schema (normative) .................................................................. 8
5 OML development process (informative) ............................................................................................ 8
6 Figures ............................................................................................................................................................ 9
7 Tables ............................................................................................................................................................ 49
Annex A (informative) Reference Works ........................................................................................................ 78
A.1 Introduction ................................................................................................................................................ 78
A.2 Use case analysis ........................................................................................................................................ 78
A.2.1 Overview ...................................................................................................................................................... 79
A.2.2 Use case of SNP analysis as an example of Omics analysis ........................................................... 79
A.2.3 UML example of SNP analysis as an example of Omics analysis ................................................. 79
A.2.4 Use case of database integration .......................................................................................................... 80
A.2.5 Use case and required elements ........................................................................................................... 80
A.3 Diversity of SNP databases ..................................................................................................................... 80
A.3.1 Diversity of databases .............................................................................................................................. 81
A.3.2 Diversity of data representation .......................................................................................................... 81
A.3.3 Diversity of sequence variation data representation .................................................................... 81
A.4 Markup language comparison ............................................................................................................... 81
A.4.1 Mapping of each markup language to the data categories ........................................................... 82
A.4.2 OML originated needs and its specifications .................................................................................... 83
A.5 Interface analysis to Health Level Seven ............................................................................................ 83
A.5.1 Comparison with HL7 genomics model .............................................................................................. 83
A.5.2 Information Model of Genotype in HL7 .............................................................................................. 84
A.6 Interface analysis to CEN en ISO13606 ............................................................................................... 84
A.7 Interface analysis to SNOMED‐CT ......................................................................................................... 84
A.8 Interface analysis to WHO‐ICD iCOS .................................................................................................... 85
Bibliography.............................................................................................................................................................. 86
COPYRIGHT PROTECTED DOCUMENT© ISO 2019
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.ISO copyright office
© ISO 2018 – All rights reserved
iii
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Fax: +41 22 749 09 47
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2019 – All rights reserved
---------------------- Page: 2 ----------------------
ISO/DIS 21393:2019[E]
Contents Page
Foreword ......................................................................................................................................................................... iv
Introduction ..................................................................................................................................................................... v
1 Scope ....................................................................................................................................................................1
2 Normative references ....................................................................................................................................1
3 Terms and definitions ....................................................................................................................................1
4 OML specification ............................................................................................................................................7
4.1 Specification requirements and OML positioning (informative) ...................................................7
4.2 OML Structure (normative)..........................................................................................................................8
4.3 OML DTD (informative) and XML Schema (normative) .....................................................................8
5 OML development process (informative) ...............................................................................................8
6 Figures .................................................................................................................................................................9
7 Tables ................................................................................................................................................................ 49
Annex A (informative) Reference Works .......................................................................................................... 78
A.1 Introduction.................................................................................................................................................... 78
A.2 Use case analysis ........................................................................................................................................... 78
A.2.1 Overview .......................................................................................................................................................... 79
A.2.2 Use case of SNP analysis as an example of Omics analysis ............................................................ 79
A.2.3 UML example of SNP analysis as an example of Omics analysis .................................................. 79
A.2.4 Use case of database integration ............................................................................................................. 80
A.2.5 Use case and required elements.............................................................................................................. 80
A.3 Diversity of SNP databases ........................................................................................................................ 80
A.3.1 Diversity of databases ................................................................................................................................. 81
A.3.2 Diversity of data representation ............................................................................................................. 81
A.3.3 Diversity of sequence variation data representation ...................................................................... 81
A.4 Markup language comparison ................................................................................................................. 81
A.4.1 Mapping of each markup language to the data categories ............................................................ 82
A.4.2 OML originated needs and its specifications ...................................................................................... 83
A.5 Interface analysis to Health Level Seven .............................................................................................. 83
A.5.1 Comparison with HL7 genomics model ................................................................................................ 83
A.5.2 Information Model of Genotype in HL7 ................................................................................................ 84
A.6 Interface analysis to CEN en ISO13606 ................................................................................................. 84
A.7 Interface analysis to SNOMED-CT ........................................................................................................... 84
A.8 Interface analysis to WHO-ICD iCOS ....................................................................................................... 85
Bibliography ................................................................................................................................................................. 86
© ISO 2018 – All rights reservediii
---------------------- Page: 3 ----------------------
ISO/DIS 21393:2019(E)
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work. ISO
collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of any
patent rights identified during the development of the document will be in the Introduction and/or on
the ISO list of patent declarations received (see www.iso.org/patents).Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the World
Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see
www.iso.org/iso/foreword.html.This document was prepared by Technical Committee ISO/TC 125, Health Informatics, Subcommittee SC
1, Clinical Genomics.Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.© ISO 2018 – All rights reserved
---------------------- Page: 4 ----------------------
ISO/DIS 21393:2019[E]
Introduction
In this next generation post genomic era, the management of health-related data is becoming increasingly
important to both omics research and omics-based medicine [1]. Informational approaches to the
management of clinical, image and omics data are beginning to have as much worth as basic, bench top
research. Nowadays there are many kinds of omics data around the world awaiting effective utilization
for human health. The hurdle that must be overcome to achieve this goal is the development of data
format and message standards to support the interchange of clinical omics data. Omics data includes
omics sequence, sequence variation and other expression data, proteomics data, molecular network, etc.
As an entry point, this standard focuses on the data exchange.In the present circumstances, omics is expected to be a key to understand human response to external
stimuli such as any kinds of alien invasions, therapies, and the environmental interactions [2]. Bacterial
infection is an example of alien invasion, and the responses to the infections are different among the
individuals. According to the therapy, the side effects to a drug are different among the patients. These
responses are also different in various environments. As a result of recent explosive amount of these
omics researches, the huge amounts of experimental data have been accumulating in many databases in
various types of data formats. These data are waiting to be used in drug discovery, clinical diagnosis, and
clinical researches.The Markup Language is a set of symbols and rules for their use when doing a markup of a document [3].
The first standardized markup language was Standard Generalized Markup Language (SGML) [4] which
has strong similarities with troff and nroff text layout languages supplied with Unix systems. Hypertext
Markup Language (HTML) is based on SGML [5]. Extensible Markup Language (XML is a pared-down
version of SGML, designed especially for Web documents [6]. XML acts as the basis for Extensible HTML
(XHTML) [7] and Wireless Markup Language (WML) [8] and for standardized definitions of system
interaction such as Simple Object Access Protocol (SOAP) [9]. By contrast, text layout or semantics are
often defined in a purely machine-interpretable form, as in most word processor file formats [10].
Markup Language for the biomedical field, based on XML, has been in development for several decades
to enhance the exchange data among researchers. Bioinformatic Sequence Markup Language (BSML)
[11], Systems Biology Markup Language (SBML) [12], Cell Markup Language (Cell ML) [13], and Neuro
Markup Language (Neuro-ML) [14] are examples of markup languages. Polymorphism Mining and
Annotation Programs (PolyMAPr) [15] is centric on SNP and tries to achieve mining, annotation, and
functional analysis of public database as dbSNP [16], CGAP [17], and JSNP [18] through programming.
ISO 25720 Genomic Sequence Variation Markup Language (GSVML) is the first standardized ML for
clinical genomic sequence variation data exchange.The purpose of Omics Markup Language (OML) is to provide a standardized data exchange format for
omics in human health.The recent expansion in omics research has produced large quantities of data held in many databases
with different formats. Standardization of data exchange is necessary for managing, analysing and
utilizing these data. Considering that omics, especially transcriptomics, proteomics, signalomics and
metabolomics, has significant meaning in molecular-based medicine and pharmacogenomics, the data
exchange format is key to enhancing omics-based clinical research and omics-based medicine.
Recently, informational approaches have become more important to both omics research and omics-
based medicine. The management of omics data is as critical as basic research data in this new era. There
are many kinds of omics data around the world, and the time has come to effectively use this omics data
© ISO 2018 – All rights reserved---------------------- Page: 5 ----------------------
ISO/DIS 21393:2019(E)
for human health. To use this data effectively and efficiently, standards must be developed to permit the
interoperable interchange of omics data globally. These standards must define the data format as well as
the messages to be used to interchange and share this data globally. This standard addresses those
requirements, using a markup language.OML is a base frame of all kinds of clinical omics data. Each omics category will be introduced as a specific
add on component part. As an instance, Whole Genome sequence Markup Language will be a specific add
on component part for whole genome sequence data, and Genomic Sequence Variation Markup Language
will be a specific add on component part for genomic sequence variation data.To utilize the accumulated omics data among many facilities around the world, standards for the
interchange of omics data must be defined. The required standards include defining a data format and
exchange messages. Markup Language is the reasonable choice to address this need. As for omics data
message handling, Health Level Seven Clinical Genomics Work Group [19] has summarized clinical use
cases for general omics data. The OML project has contributed to these efforts. Additionally, this work
incorporated use cases based on the Japanese millennium project [20] . Based on these contexts and
investigations, this document elucidates the needs and the requirements for OML and then proposes the
specification of OML for the international standardization.A list of references related this part of ISO/DIS 21393 is given in the bibliography.
© ISO 2018 – All rights reserved---------------------- Page: 6 ----------------------
DIS ISO/DIS 21393:2019[E]
Health informatics — Omics Markup Language
1 Scope
OML is a data exchange format designed to facilitate exchanging omics data around the world without
forcing changes to existing databases.From an informatics perspective, OML is an XML-based data exchange format. The data exchange format
(e.g., XML schema and DTD) is in scope. The structure of the systems and databases sending or receiving
the information schemas are out of the scope.From a biological perspective, all kinds of omics are in scope, but the details (e.g., details of genomic
sequence variations or whole genomic sequence) are out of the scope. Annotations including clinical
concerns and relations with other omics concerns are in scope.The application focus is human health including clinical practice, preventive medicine, translational
research, and clinical research including drug discovery. The scope includes health-associated species,
including human and preclinical animals, and associated cell lines. Other species, basic research, and
other scientific fields are out of scope.2 Normative references
The following documents are referred to in the text in such a way that some or all of their content
constitutes requirements of this document. For dated references, only the edition cited applies. For
undated references, the latest edition of the referenced document (including any amendments) applies.
ISO 25720:2009, Health informatics -- Genomic Sequence Variation Markup Language (GSVML)
ISO/HL7 21731:2006, Health informatics – HL7 version 3 – Reference information model – Release 1
CEN EN 13606, Health informatics -- Electronic Healthcare Record Communication3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
3.1
actor
something or someone who supplies a stimulus to the system
Note to entry: Actors include both humans and other quasi-autonomous things, such as machines, computer tasks
and systems.[SOURCE: ISO 25720:2009(en), 4.1]
3.2
allele
a gene that is found in one of two or more different forms in the same position in a chromosome
© ISO 2018 – All rights reserved---------------------- Page: 7 ----------------------
ISO/DIS 21393:2019(E)
3.3
BSML
bioinformatic sequence markup language
extensible language specification and container for bioinformatic data
[SOURCE: ISO 25720:2009(en), 4.2]
3.4
Cell ML
cell markup language
a standard for representing and exchanging computer-based biological models
[SOURCE: ISO 25720:2009(en), 4.3]
3.5
CGAP
Cancer Gene Anatomy Project
genomic expression data collected for various tumorigenic tissues in both humans and mice.
Note to entry: CGAP also provides information on methods and reagents used in deriving the genomic data
[SOURCE: ISO 25720:2009(en), 4.4]3.6
codon
a sequence of three nucleotides which together form a unit of genetic code in a DNA or RNA molecule.
3.7dbSNP
database of SNPs (4.29) provided by the US National Center for Biotechnology Information (NCBI)
Note to entry: available at https://www.ncbi.nlm.nih.gov/SNP/[SOURCE: ISO/TS 20428:2017(en), 3.9]
3.8
DICOM
digital imaging and communications in medicine
a standard in the field of medical informatics for exchanging digital information between medical imaging
equipment (such as radiological imaging) and other systems, ensuring interoperability
[SOURCE: ISO 25720:2009(en), 4.6]3.9
DNA
deoxyribonucleic acid
a molecule that encodes genetic information in the nucleus of cells
[SOURCE: ISO 25720:2009(en), 4.7]
3.10
DNA sequence variation
differences of DNA (4.8) sequence among individuals in a population
© ISO 2018 – All rights reserved
---------------------- Page: 8 ----------------------
ISO/DIS 21393:2019[E]
Note to entry: DNA sequence variation implies polymorphism (4.xx)
[SOURCE: ISO 25720:2009(en), 4.8]
3.11
DTD
document type definition
a document that contains formal definitions of all of the data elements in a particular type of HTML (4.15),
SGML (4.28), or XML (4.38) document[SOURCE: ISO 25720:2009(en), 4.9]
3.12
entry point
reference point that designate the class(es) from which the messages begin for the domain
[SOURCE: ISO 25720:2009(en), 4.10]3.13
exon
any part of a gene that will encode a part of the final mature RNA produced by that gene after introns
have been removed by RNA splicing.3.14
gene-based medicine
medicine based on genes or genetic science
[SOURCE: ISO 25720:2009(en), 4.11]
3.15
GSVML
genomic sequence variation markup language
a standard for data exchange of genomic sequence variation data
[SOURCE: ISO 25720:2009(en)]
3.16
HTML
Hypertext Markup Language
a set of markup symbols or codes inserted in a file intended for display in a browser
[SOURCE: ISO 25720:2009(en), 4.12]3.17
ICD-11
international classification of diseases 11 revision
a standard diagnostic tool for epidemiology, health management and clinical purposes
Note to entry: available at https://icd.who.int/© ISO 2018 – All rights reserved
---------------------- Page: 9 ----------------------
ISO/DIS 21393:2019(E)
3.18
iCOS
clinical omics sub-information model for ICD
Note to entry: Add-on sub-information model to enhance the representation ability of ICD11 contents model to
cover omics information.3.19
intron
any nucleotide sequence within a gene that is removed by RNA splicing during maturation of the final
RNA product3.20
JPEG
joint photographic experts group
compression technique for images
[SOURCE: ISO 25720:2009(en), 4.13]
3.21
JSNP
Japanese single nucleotide polymorphisms
database of Japanese Single Nucleotide Polymorphisms
[SOURCE: ISO 25720:2009(en), 4.14]
3.22
markup language
a set of symbols and rules for their uses when doing a markup of a document
[SOURCE: ISO 25720:2009(en), 4.15]
3.23
microarray gene expression markup language
MAGE-ML
a data format for describing information about DNA-array based experiments and gene expression data
3.24neuro-ML
Neuro Markup Language
markup language (4.20) for describing models of neurons and networks of neurons.
[SOURCE: ISO 25720:2009(en), 4.16]
3.25
nroff
text-formatting program on Unix and unix-like systems
[SOURCE: https://en.wikipedia.org/wiki/Nroff]
© ISO 2018 – All rights reserved
---------------------- Page: 10 ----------------------
ISO/DIS 21393:2019[E]
3.26
omics
a field of study in biology ending in -omics
Note to entry: includes, but is not limited to, genomics, proteomics, and metabolomics.
3.27pharmacogenomics
a branch of pharmaceutics aiming to develop rational means to optimize drug therapy, with respect to
the patient's genotype3.28
PolyMAPr
polymorphism mining and annotation programs
programs for polymorphism database mining, annotation, and functional analysis
[SOURCE: ISO 25720:2009(en), 4.19]
3.29
polymorphism
variation in the sequence of DNA (4.8) among individuals
Note to entry: polymorphism implies SNP (4.29) and STRP (4.32)
[SOURCE: ISO 25720:2009(en), 4.20]
3.30
RNA
ribonucleic acid
polymer of ribonucleotides occurring in a double-stranded or single-stranded form
[SOURCE: ISO 22174:2005, 3.1.3]3.31
RNAML
a data format for exchanging RNA information
3.32
SBML
systems biology markup language
markup language (4.20) for simulations in systems biology
[SOURCE: ISO 25720:2009(en), 4.21]
3.33
SGML
standard generalized markup language
markup language (4.20) for document representation that formalizes markup and frees it of system and
processing dependencies[SOURCE: ISO 8879:1986, 4.305]
© ISO 2018 – All rights reserved
---------------------- Page: 11 ----------------------
ISO/DIS 21393:2019(E)
3.34
SNP
single nucleotide polymorphism
single nucleotide variation in a genetic sequence that occurs at appreciable frequency in the population
[SOURCE: ISO 25720:2009(en), 4.23]3.35
SNOMED-CT
systematized nomenclature of medicine - Clinical Terms
dynamic, scientifically validated clinical health care terminology and infrastructure
[SOURCE: ISO 25720:2009(en), 4.24]3.36
SOAP
simple object access protocol
lightweight protocol for exchange of information in a decentralized, distributed environment
[SOURCE: ISO 25720:2009(en), 4.25]3.37
STRP
short tandem repeat polymorphism
variable segments of DNA (4.8) that are two to five bases long with numerous repeats
[SOURCE: ISO 25720:2009(en), 4.26]3.38
troff
the major component of a document processing system developed by AT&T for the Unix operating system
3.39VNTR
variable number of tandem repeat
class of polymorphism characterized by the highly variable copy number of identical or closely related
sequences[SOURCE: ISO 25720:2009(en), 4.28]
3.40
WML
wireless markup language
XML language used to specify content and user interface for WAP (Wireless Application Protocol) devices
[SOURCE: ISO 25720:2009(en), 4.29]3.41
WGML
whole genome sequence markup language
markup language to represent complete genome sequence
© ISO 2018 – All rights reserved
---------------------- Page: 12 ----------------------
ISO/DIS 21393:2019[E]
3.42
XHTML
extensible HTML
hybrid between HTML (4.5) and XML (4.38) specifically designed for net device displays
[SOURCE: ISO 25720:2009(en), 4.30]3.43
XML
...
PROJET DE NORME INTERNATIONALE
ISO/DIS 21393
ISO/TC 215 Secrétariat: ANSI
Début de vote: Vote clos le:
2019-07-16 2019-10-08
Informatique de santé — Langage de balisage Omics (OML)
Health informatics — Omics Markup Language (OML)
ICS: 35.240.80
CE DOCUMENT EST UN PROJET DIFFUSÉ POUR
OBSERVATIONS ET APPROBATION. IL EST DONC
SUSCEPTIBLE DE MODIFICATION ET NE PEUT
Le présent document est distribué tel qu’il est parvenu du secrétariat du comité.
ÊTRE CITÉ COMME NORME INTERNATIONALEAVANT SA PUBLICATION EN TANT QUE TELLE.
OUTRE LE FAIT D’ÊTRE EXAMINÉS POUR
ÉTABLIR S’ILS SONT ACCEPTABLES À DES
FINS INDUSTRIELLES, TECHNOLOGIQUES ET
COMMERCIALES, AINSI QUE DU POINT DE VUE TRAITEMENT PARALLÈLE ISO/CEN
DES UTILISATEURS, LES PROJETS DE NORMES
INTERNATIONALES DOIVENT PARFOIS ÊTRE
CONSIDÉRÉS DU POINT DE VUE DE LEUR
POSSIBILITÉ DE DEVENIR DES NORMES
POUVANT SERVIR DE RÉFÉRENCE DANS LA
RÉGLEMENTATION NATIONALE.
Numéro de référence
LES DESTINATAIRES DU PRÉSENT PROJET
ISO/DIS 21393:2019(F)
SONT INVITÉS À PRÉSENTER, AVEC LEURS
OBSERVATIONS, NOTIFICATION DES DROITS
DE PROPRIÉTÉ DONT ILS AURAIENT
ÉVENTUELLEMENT CONNAISSANCE ET À
FOURNIR UNE DOCUMENTATION EXPLICATIVE. ISO 2019
---------------------- Page: 1 ----------------------
ISO/DIS 21393:2019(F)
ISO/DIS 21393:2019(F)
Sommaire Page
Avant-propos .................................................................................................................................................................. iv
Introduction .................................................................................................................................................................... v
1 Domaine d'application .................................................................................................................................. 1
2 Références normatives .................................................................................................................................. 1
3 Termes et définitions ..................................................................................................................................... 2
4 Spécifications de l’OML .................................................................................................................................. 8
4.1 Exigences de spécification et positionnement de l’OML (informative) ....................................... 8
4.2 Structure de l’OML (normative) ................................................................................................................. 9
4.3 DTD de l’OML (informative) et schéma XML (normatif) ................................................................... 9
5 Processus de développement de l’OML (informatif) .......................................................................... 9
6 Figures .............................................................................................................................................................. 10
7 Tableaux .......................................................................................................................................................... 46
ȋ‹ˆ‘”ƒ–‹˜‡Ȍ Travaux de référence ................................................................................................. 72
A.1 Introduction ................................................................................................................................................... 72
A.2 Analyse de cas d'utilisation ...................................................................................................................... 72
A.2.1 Aperçu général .............................................................................................................................................. 73
A.2.2 Cas d'utilisation de l’analyse SNP comme exemple d’analyse omique ..................................... 73
A.2.3 Exemple UML de l’analyse SNP comme exemple d’analyse omique .......................................... 74
A.2.4 Cas d'utilisation de l’intégration de la base de données ................................................................ 74
A.2.5 Cas d'utilisation et éléments requis ...................................................................................................... 74
A.3 Diversité des bases de données sur les SNP ....................................................................................... 75
A.3.1 Diversité des bases de données .............................................................................................................. 75
A.3.2 Diversité de la représentation de données ......................................................................................... 75
A.3.3 Diversité de la représentation des données relatives à la variation de séquence ............... 76
A.4 Comparaison des langages de balisage ................................................................................................ 76
A.4.1 Mappage de chaque langage de balisage aux catégories de données ........................................ 76
A.4.2 Besoins dérivés de l’OML et spécifications ......................................................................................... 78
A.5 Interface d'analyse avec le Health Level Seven ................................................................................. 78
A.5.1 Comparaison avec le modèle génomique HL7 ................................................................................... 78
A.5.2 Modèle d'informations du génotype dans HL7 .................................................................................. 79
A.6 Analyse d'interface par rapport à la norme ISO 13606 .................................................................. 79
A.7 Analyse d'interface au SNOMED-CT ....................................................................................................... 80
A.8 Analyse d'interface à l’iCOS CIM de l’OMS ............................................................................................ 80
Bibliographie................................................................................................................................................................ 81
DOCUMENT PROTÉGÉ PAR COPYRIGHT© ISO 2019
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en oeuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright officeCase postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
̹ʹͲͳͻ–‘—•†”‘‹–•”±•‡”˜±•
‹‹‹
Tél.: +41 22 749 01 11
Fax: +41 22 749 09 47
E-mail: copyright@iso.org
Website: www.iso.org
Publié en Suisse
ii © ISO 2019 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO/DIS 21393:2019(F)
Sommaire Page
Avant-propos .................................................................................................................................................................. iv
Introduction .................................................................................................................................................................... v
1 Domaine d'application .................................................................................................................................. 1
2 Références normatives .................................................................................................................................. 1
3 Termes et définitions ..................................................................................................................................... 2
4 Spécifications de l’OML .................................................................................................................................. 8
4.1 Exigences de spécification et positionnement de l’OML (informative) ....................................... 8
4.2 Structure de l’OML (normative) ................................................................................................................. 9
4.3 DTD de l’OML (informative) et schéma XML (normatif) ................................................................... 9
5 Processus de développement de l’OML (informatif) .......................................................................... 9
6 Figures .............................................................................................................................................................. 10
7 Tableaux .......................................................................................................................................................... 46
(informative) Travaux de référence ................................................................................................. 72
A.1 Introduction ................................................................................................................................................... 72
A.2 Analyse de cas d'utilisation ...................................................................................................................... 72
A.2.1 Aperçu général .............................................................................................................................................. 73
A.2.2 Cas d'utilisation de l’analyse SNP comme exemple d’analyse omique ..................................... 73
A.2.3 Exemple UML de l’analyse SNP comme exemple d’analyse omique .......................................... 74
A.2.4 Cas d'utilisation de l’intégration de la base de données ................................................................ 74
A.2.5 Cas d'utilisation et éléments requis ...................................................................................................... 74
A.3 Diversité des bases de données sur les SNP ....................................................................................... 75
A.3.1 Diversité des bases de données .............................................................................................................. 75
A.3.2 Diversité de la représentation de données ......................................................................................... 75
A.3.3 Diversité de la représentation des données relatives à la variation de séquence ............... 76
A.4 Comparaison des langages de balisage ................................................................................................ 76
A.4.1 Mappage de chaque langage de balisage aux catégories de données ........................................ 76
A.4.2 Besoins dérivés de l’OML et spécifications ......................................................................................... 78
A.5 Interface d'analyse avec le Health Level Seven ................................................................................. 78
A.5.1 Comparaison avec le modèle génomique HL7 ................................................................................... 78
A.5.2 Modèle d'informations du génotype dans HL7 .................................................................................. 79
A.6 Analyse d'interface par rapport à la norme ISO 13606 .................................................................. 79
A.7 Analyse d'interface au SNOMED-CT ....................................................................................................... 80
A.8 Analyse d'interface à l’iCOS CIM de l’OMS ............................................................................................ 80
Bibliographie................................................................................................................................................................ 81
© ISO 2019 – Tous droits réservésiii
---------------------- Page: 3 ----------------------
ISO/DIS 21393:2019(F)
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux
de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général
confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire
partie du comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement
avec la Commission électrotechnique internationale (IEC) en ce qui concerne la normalisation
électrotechnique.Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2
(voir www.iso.org/directives).L'attention est attirée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de
ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant les
références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de l'élaboration
du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de brevets reçues par
l’ISO (voir www.iso.org/brevets).Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l'intention des utilisateurs et ne sauraient constituer un
engagement.Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion de
l'ISO aux principes de l'Organisation mondiale du commerce (OMC) concernant les obstacles techniques au
commerce (OTC), voir le lien suivant : www.iso.org/iso/fr/foreword.html.Le présent document a été élaboré par le comité technique ISO/TC 215, Informatique de santé,
sous-comité SC 1, Génomique clinique.Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve à l'adresse www.iso.org/members.html.© ISO 2019 – Tous droits réservés
---------------------- Page: 4 ----------------------
ISO/DIS 21393:2019(F)
Introduction
Dans cette ère post-génomique de nouvelle génération, la gestion des données de santé devient de plus en
plus importante tant pour la médecine omique (« omics ») que pour la médecine basée sur les approches
omiques [1]. Les approches informationnelles de la gestion des données cliniques, d'images et d’omique
commencent à avoir autant de valeur que les recherches ordinaires en laboratoire. Il existe aujourd’hui de
nombreux types de données omiques de par le monde qui attendent une utilisation efficace dans le
domaine de la santé humaine. Pour atteindre cet objectif, le premier obstacle à franchir est de développer
un format de données et des normes de message pour prendre en charge l’échange de données omiques
cliniques. Les données omiques comprennent la séquence omique, la variation de séquence et d’autres
données d'expression, les données protéomiques, le réseau moléculaire, etc. Comme point d'entrée, la
présente norme se concentre sur l’échange de données.Dans les circonstances actuelles, on s'attend à ce que l’omique soit une clé pour comprendre la réponse
humaine aux stimuli externes tels que n'importe quels types d'invasions étrangères, de thérapies, et
d'interactions environnementales [2]. L'infection bactérienne est un exemple d'invasion étrangère et les
réponses aux infections diffèrent d'un individu à l'autre. Selon la thérapie utilisée, les effets secondaires
d'un médicament diffèrent d'un patient à l'autre. Ces réponses diffèrent également d'un environnement à
l'autre. Le nombre de ces recherches omiques ayant explosé récemment, les données expérimentales
s'accumulent en grande quantité dans de nombreuses bases de données sous différents types de formats
de données. Ces données attendent d'être utilisées dans la découverte de médicaments, le diagnostic
clinique et les recherches cliniques.Le langage de balisage est un ensemble de symboles et de règles permettant de les utiliser dans le balisage
d'un document [3]. Le premier langage de balisage normalisé a été le SGML (langage normalisé de balisage
généralisé) [4] qui a de fortes similitudes avec les langages de présentation de texte troff et nroff qui
accompagnent les systèmes Unix. Le langage HTML (langage de balisage hypertexte) est basé sur SGML [5].
XML (langage de balisage extensible) est une version réduite du SGML, conçue particulièrement pour les
documents Web [6]. XML sert de base au XHTML (HTML extensible) [7] et au WML (langage de balisage
sans fil) [8] ainsi qu'à des définitions normalisées d'interaction système telles que SOAP (Simple Object
Access Protocol) [9]. Par contre, la présentation de texte ou la sémantique est souvent définie sous une
forme purement interprétable par machine, comme dans la plupart des formats de fichiers de traitement
de texte [10].Ces dernières années, le langage de balisage dans le domaine biomédical basé sur XML connaît un
développement soutenu afin de renforcer l'échange de données parmi des chercheurs. Le BSML (langage
de balisage de séquence bioinformatique) [11], le SBML (langage de balisage en biologie des
systèmes) [12], le Cell ML (langage de balisage de cellules) [13] et le Neuro-ML (Langage de balisage
neuronal) [14] sont des exemples de langages de balisage. Le Polymorphism Mining and Annotation
Programs (PolyMAPr) [15] est centré sur le SNP et tente de réaliser l'exploration, l'annotation et l'analyse
fonctionnelle des bases de données publiques telles que dbSNP [16], CGAP [17], et JSNP [18] par le biais de
la programmation. Le langage de balisage de variation de la séquence génomique (GSVML) de l’ISO 25720
est le premier langage de balisage normalisé pour l’échange de données relatives à la variation de la
séquence génomique dans un contexte clinique.Le langage de balisage Omics (OML) vise à fournir le format normalisé d'échange de données pour les
sciences omiques dans le domaine de la santé humaine.© ISO 2019 – Tous droits réservés
---------------------- Page: 5 ----------------------
ISO/DIS 21393:2019(F)
L’essor récent de la recherche omique a généré d’importantes quantités de données conservées dans de
nombreuses bases de données sous différents formats. La gestion, l’analyse et l’utilisation de ces données
exigent une normalisation de l’échange de données. Compte tenu de l’importance des sciences omiques
pour la médecine moléculaire et la pharmacogénomique, en particulier la transcriptomique, la
protéomique, la signalomique et la métabolomique, le format d’échange de données est essentiel pour
améliorer la recherche clinique et la médecine basées sur des approches omiques.Les approches informationnelles ont récemment gagné en importance tant pour la recherche omique que
pour la médecine basée sur les sciences omiques. Dans cette nouvelle ère, la gestion des données omiques
est devenue aussi essentielle que celle des données de recherche fondamentale. Il existe de nombreux
types de données omiques dans le monde et le temps est venu d’utiliser efficacement ces données pour la
santé humaine. Pour utiliser ces données de manière efficace et efficiente, il est impératif d’élaborer des
normes pour permettre l’échange interopérable des données omiques dans le monde. Ces normes doivent
définir le format de données ainsi que les messages à utiliser pour échanger et partager ces données à
l’internationale. La présente norme répond à ces exigences à l’aide d’un langage de balisage.
OML est un cadre de base pour tous les types de données omiques cliniques. Chaque catégorie du domaine
omique sera présentée sous la forme d’une composante complémentaire spécifique. Par exemple, le
langage de balisage du séquençage de génome complet formera une composante complémentaire
spécifique pour des données de séquençage de génome complet, et le langage de balisage de la variation de
la séquence génomique formera une composante complémentaire spécifique des données de variation de
la séquence génomique.Pour utiliser les données omiques cumulées parmi de nombreux établissements à travers le monde, des
normes doivent être définies autour de l’échange de données omiques. Les normes requises incluent la
définition d’un format de données et de messages d’échange. Le langage de balisage est le choix
raisonnable pour répondre à ce besoin. Quant à la gestion des messages de données omiques, le groupe de
travail de génomique clinique au sein du Health Level Seven [19] a récapitulé les cas d'utilisation clinique
pour les données omiques générales. Le projet OML a contribué à ces efforts. En outre, ces travaux ont
incorporé des cas d'utilisation basés sur le « Millennium Project » japonais [20]. Basé sur ces contextes et
investigations, le présent document élucide les besoins et les exigences pour l’OML et propose ensuite la
spécification de l’OML en vue de la normalisation internationale.Une liste de références se rapportant à la présente partie de l'ISO/DIS 21393 est donnée dans la
bibliographie.© ISO 2019 – Tous droits réservés
---------------------- Page: 6 ----------------------
PROJET DE NORME INTERNATIONALE ISO/DIS 21393:2019(F)
Informatique de santé — Langage de balisage Omics (OML)
1 Domaine d'application
OML est un format d’échange de données conçu pour faciliter l’échange de données omiques à travers le
monde sans introduire de modifications aux bases de données existantes.D’un point de vue informatique, OML est un format d’échange de données basé sur XML. Le format
d’échange de données (par exemple, schéma et DTD XML) entre dans le domaine d’application. La
structure des systèmes et des bases de données qui envoient ou reçoivent les schémas d’informations
ne s’inscrivent pas dans le domaine d’application.D’un point de vue biologique, tous les types d’omique relèvent du domaine d’application, mais les
détails (par exemple, détails des variations de la séquence génomique ou séquence génomique
complète) en sont exclus. Les annotations incluant les questions cliniques et les relations avec les autres
questions omiques entrent dans le domaine d’application.L’application est concentrée sur la santé humaine, y compris les pratiques cliniques, la médecine
préventive, la recherche translationnelle et la recherche clinique, notamment la découverte de
médicaments. Le domaine d’application couvre les espèces associées à la santé humaine, notamment
l’homme, les animaux en préclinique et les lignées cellulaires associées. Les autres espèces, recherches
fondamentales et autres domaines scientifiques ne relèvent pas du domaine d’application.
2 Références normativesLes documents suivants cités dans le texte constituent, pour tout ou partie de leur contenu, des
exigences du présent document. Pour les références datées, seule l'édition citée s'applique. Pour les
références non datées, la dernière édition du document de référence s'applique (y compris les éventuels
amendements).ISO 25720:2009, Informatique de santé — Langage de balisage de la variation de séquence génomique
ISO/HL7 21731:2006, Informatique de santé — HL7 version 3 — Modèle d'information de référence —
Version 1CEN EN 13606, Informatique de santé — Communication du dossier de santé informatisé
© ISO 2019 – Tous droits réservés---------------------- Page: 7 ----------------------
ISO/DIS 21393:2019(F)
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s'appliquent.
3.1acteur
agent
entité qui fournit un stimulus au système
Note 1 à l'article : Les acteurs englobent tant les humains que d'autres entités quasi autonomes, telles que
machines, tâches informatiques et systèmes.[SOURCE : ISO 25720:2009(F), 4.1]
3.2
allèle
gène trouvé dans différentes formes à la même position dans un chromosome
3.3
BSML
Bioinformatic Sequence Markup Language
spécification de langage extensible et conteneur pour données bioinformatiques
[SOURCE : ISO 25720:2009(F), 4.2]
3.4
Cell ML
Cell Markup Language
norme permettant de représenter et d'échanger des modèles biologiques informatisés
[SOURCE : ISO 25720:2009(F), 4.3]3.5
CGAP
Cancer Gene Anatomy Project
données d'expression génomiques recueillies pour différents tissus tumorigènes chez l'homme et chez
la sourisNote 1 à l'article : Le projet CGAP fournit également des informations sur des méthodes et des réactifs utilisés
pour obtenir les données génomiques.[SOURCE : ISO 25720:2009(F), 4.4]
3.6
codon
séquence de trois nucléotides qui, ensemble, forment une unité de code génétique dans une molécule
d’ADN ou d’ARN© ISO 2019 – Tous droits réservés
---------------------- Page: 8 ----------------------
ISO/DIS 21393:2019(F)
3.7
dbSNP
base de données de SNP (4.29) fournie par le National Center for Biotechnology Information (NCBI) des
États-Unis d'AmériqueNote 1 à l’article : Disponible sur https://www.ncbi.nlm.nih.gov/SNP/.
[SOURCE : ISO/TS 20428:2017(E), 3.9]
3.8
DICOM
Digital Imaging and Communications in Medicine
norme dans le domaine de l'informatique médicale pour l'échange d'information numérique entre un
équipement d'imagerie médicale (tel qu'une imagerie radiologique) et d'autres systèmes, assurant
l'interopérabilité[SOURCE : ISO 25720:2009(F), 4.6]
3.9
ADN
acide désoxyribonucléique
molécule qui code l'information génétique dans le noyau des cellules
[SOURCE : ISO 25720:2009(F), 4.7]
3.10
variation de la séquence d'ADN
différences de séquence d'ADN (4.8) parmi des individus dans une population
Note 1 à l'article : La variation de la séquence d'ADN implique le polymorphisme (4.xx).
[SOURCE : ISO 25720:2009(F), 4.8]3.11
DTD
Document Type Definition
document qui contient les définitions formelles de tous les éléments de données dans un type
particulier de document HTML (4.15), SGML (4.28) ou XML (4.38)[SOURCE : ISO 25720:2009(F), 4.9]
3.12
point d’entrée
point de référence qui indique la (les) classe(s) où les messages débutent pour le domaine
[SOURCE : ISO 25720:2009(F), 4.10]3.13
exon
toute partie d'un gène qui encode une partie de l’ARN mature final produit par ce gène après
l’élimination des introns par épissage de l’ARN© ISO 2019 – Tous droits réservés
---------------------- Page: 9 ----------------------
ISO/DIS 21393:2019(F)
3.14
médecine génique
médecine basée sur les gènes ou science génétique
[SOURCE : ISO 25720:2009(F), 4.11]
3.15
GSVML
Genomic Sequence Variation Markup Language
norme pour l’échange de données de la variation de la séquence génomique
[SOURCE : ISO 25720:2009(F)]
3.16
HTML
HyperText Markup Language
ensemble de symboles ou codes de balisage insérés dans un fichier destiné à l'affichage dans un
navigateur[SOURCE : ISO 25720:2009(F), 4.12]
3.17
CIM-11
Classification Internationale des Maladies, révision 11
outil de diagnostic normalisé pour l’épidémiologie, la gestion de la santé et les applications cliniques
Note 1 à l’article : Disponible sur https://icd.who.int/.3.18
iCOS
sous-modèle d'informations omiques cliniques pour la CIM
Note 1 à l'article : Modèle d'informations complémentaires pour renforcer la capacité de représentation du
modèle de contenu CIM-11 afin de couvrir les informations relatives aux domaines omiques.
3.19intron
toute séquence nucléotidique dans un gène qui est éliminée par épissage de l’ARN pendant la
maturation du produit ARN final3.20
JPEG
Joint Photographic Experts Group
technique de compression d'images
[SOURCE : ISO 25720:2009(F), 4.13]
© ISO 2019 – Tous droits réservés
---------------------- Page: 10 ----------------------
ISO/DIS 21393:2019(F)
3.21
JSNP
Japanese Single Nucleotide Polymorphisms
base de données japonaise pour les polymorphismes mononucléotidiques
[SOURCE : ISO 25720:2009(F), 4.14]
3.22
langage de balisage
ensemble de symboles et des règles pour leurs utilisations dans le balisage d'un document
[SOURCE : ISO 25720:2009(F), 4.15]3.23
Microarray Gene Expression Markup Language
MAGE-ML
format de données pour décrire des informations sur des expérimentations basées sur le réseau d'ADN
et les données d'expression des gènes3.24
Neuro-ML
Neuro Markup Language
langage de balisage (4.20) pour décrire des modèles de neurones et les réseaux de neurones
[SOURCE : ISO 25720:2009(F), 4.16]3.25
nroff
programme de formatage de texte sous systèmes Unix et autres systèmes apparentés à Unix
[SOURCE : https://en.wikipedia.org/wiki/Nroff]3.26
omique
« omics »
domaine d’étude biologique ayant le suffixe « omique »
Note 1 à l’article : Inclut, sans toutefois s’y limiter, la génomique, la protéomique et la métabolomique.
3.27pharmacogénomique
branche de la pharmacie visant à développer un moyen rationnel permettant d'optimiser la
chimiothérapie, en fonction du génotype du patient3.28
PolyMAPr
Polymorphism Mining and Annotation Programs
programmes pour l'exploration, l'annotation et l'analyse fonctionnelle
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.