ISO 23185:2009
(Main)Assessment and benchmarking of terminological resources — General concepts, principles and requirements
Assessment and benchmarking of terminological resources — General concepts, principles and requirements
ISO 23185:2009 describes fundamental concepts related to the effective use of terminological data. It provides general principles for a model applicable to a variety of terminological resources. It clarifies the usability attributes that constitute the model and provides guidelines for the overall assessment of terminological resources by taking the user's objectives into account.
Critères d'évaluation comparative des ressources terminologiques — Concepts, principes et exigences d'ordre général
L'ISO 23185:2009 décrit les concepts fondamentaux relatifs à l'utilisation efficace des données terminologiques. Elle fournit les principes généraux pour définir un modèle applicable à diverses ressources terminologiques. Elle définit les attributs d'utilisabilité qui constituent le modèle et fournit des lignes directrices pour l'évaluation globale des ressources terminologiques en tenant compte des objectifs de l'utilisateur.
General Information
Buy Standard
Standards Content (Sample)
INTERNATIONAL ISO
STANDARD 23185
First edition
2009-09-01
Assessment and benchmarking of
terminological resources — General
concepts, principles and requirements
Critères d'évaluation comparative des ressources terminologiques —
Concepts, principes et exigences d'ordre général
Reference number
ISO 23185:2009(E)
©
ISO 2009
---------------------- Page: 1 ----------------------
ISO 23185:2009(E)
PDF disclaimer
This PDF file may contain embedded typefaces. In accordance with Adobe's licensing policy, this file may be printed or viewed but
shall not be edited unless the typefaces which are embedded are licensed to and installed on the computer performing the editing. In
downloading this file, parties accept therein the responsibility of not infringing Adobe's licensing policy. The ISO Central Secretariat
accepts no liability in this area.
Adobe is a trademark of Adobe Systems Incorporated.
Details of the software products used to create this PDF file can be found in the General Info relative to the file; the PDF-creation
parameters were optimized for printing. Every care has been taken to ensure that the file is suitable for use by ISO member bodies. In
the unlikely event that a problem relating to it is found, please inform the Central Secretariat at the address given below.
COPYRIGHT PROTECTED DOCUMENT
© ISO 2009
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2009 – All rights reserved
---------------------- Page: 2 ----------------------
ISO 23185:2009(E)
Contents Page
Foreword .iv
Introduction.v
1 Scope.1
2 Terms and definitions .1
3 Uses of terminological resources.2
4 Terminological resources.3
4.1 General .3
4.2 Model for assessment of terminological resources .4
4.3 General usability attributes of terminological resources.4
5 Guidelines for an assessment and benchmarking project .11
5.1 Overview.11
5.2 Main steps of the workflow.12
5.3 Test-case assessment .12
Annex A (normative) Usability attributes of terminological resources and basic rules for
measurement .13
Annex B (informative) Typical application of usability attributes as benchmarks .17
Bibliography.21
© ISO 2009 – All rights reserved iii
---------------------- Page: 3 ----------------------
ISO 23185:2009(E)
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 23185 was prepared by Technical Committee ISO/TC 37, Terminology and other language and content
resources, Subcommittee SC 2, Terminographical and lexicographical working methods.
iv © ISO 2009 – All rights reserved
---------------------- Page: 4 ----------------------
ISO 23185:2009(E)
Introduction
Global society is undergoing an accelerated development towards becoming a science- and technology-driven
multilingual information and knowledge society characterized by the all-pervading influence of information and
communication technology (ICT). Reliable language resources (such as text and speech corpora,
terminologies, computational lexicons, etc.) are essential to support the emerging knowledge and content
industries. Terminology information is thus becoming a key element in all regulatory activities, as seen, for
example, in technical standardization, quality management and regulation of intellectual property rights.
In the emerging semantic web, dedicated and non-dedicated browsers or web services search web-based
databases and portals containing structured content (i.e. collections of content items at the level of lexical
semantics). The user increasingly does not want to be overburdened with non-evaluated information, but to
receive the most pertinent and reliable information for his/her purpose without missing important information.
The results of automatic or semi-automatic searches, therefore, will increasingly have to be compounded and
condensed by semantic analyses in order to meet user requirements.
If seemingly relevant information is found in a multitude of collections of structured content, systematic
syntactic and semantic filtering, selection and evaluation processes take place. At some stage of these
processes, browsers or web services have to globally distinguish between more or less pertinent and reliable
terminological data as it is being collected for the sake of prioritization and optimization.
Terminological data can have many functions, the most prominent of which are
⎯ knowledge representation (concept),
⎯ knowledge ordering (concept classification),
⎯ access to other kinds of structured or unstructured content, and
⎯ means or elements of communication and knowledge transfer.
For uses and reuses such as translation, localization and content management, a systematic approach to
automatic or semi-automatic assessment and benchmarking of resources or containing terminological data
becomes necessary.
© ISO 2009 – All rights reserved v
---------------------- Page: 5 ----------------------
INTERNATIONAL STANDARD ISO 23185:2009(E)
Assessment and benchmarking of terminological resources —
General concepts, principles and requirements
1 Scope
This International Standard describes fundamental concepts related to the effective use of terminological data.
It provides general principles for a model applicable to a variety of terminological resources. It clarifies the
usability attributes that constitute the model and provides guidelines for the overall assessment of
terminological resources by taking the user’s objectives into account.
2 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
2.1
assessment
〈terminology〉 process to demonstrate that a terminological resource (2.8) fulfils specified requirements
2.2
benchmark
〈terminology〉 usability attribute (2.11) used as a reference point or metric against which the usability (2.10)
of a terminological resource (2.8) can be measured
2.3
benchmarking
〈terminology〉 application of benchmarks (2.2) to terminological resources (2.8)
2.4
entity
any concrete or abstract thing that exists, did exist, or might exist, including associations among these things
EXAMPLE A person, an object, an event, an idea, a process, etc.
[ISO/IEC 2382-17:1999, 17.02.05]
2.5
model for assessment
〈terminology〉 model that identifies the usability attributes (2.11) of terminological resources (2.8) and their
interrelationships
2.6
special language
language used in a subject field and characterized by the use of specific linguistic means of expression
[ISO 1087-1:2000, definition 3.1.3]
2.7
terminological data
data related to concepts or their designations
[ISO 1087-1:2000, definition 3.8.1]
© ISO 2009 – All rights reserved 1
---------------------- Page: 6 ----------------------
ISO 23185:2009(E)
2.8
terminological resource
terminological data resource
entity (2.4) composed of collections of terminological data (2.7) with the usability attributes (2.11) that are
generated by grouping/structuring the data, or incorporating the data into an application
NOTE 1 A terminological resource generally contains terminological data (2.7) that are structured (e.g. a terminology
database), marked up with a mark-up language (e.g. an XML data file) or associated with a structured layout
(e.g. a dictionary). A terminological resource can contain even plain texts (e.g. texts with distinguishable language style)
from which usable terminology data can be extracted with the help of modern content-processing technology.
NOTE 2 Generally, terminological resources produced through professional terminological activities have
well-organized/structured and high-quality terminological data (2.7) and thus have sufficient usability attributes (2.11).
Those terminological resources created through other processes/activities often have unpredictable quality and usability.
2.9
terminology
set of designations applied to concepts belonging to one special language (2.6)
NOTE The definition in ISO 1087-1 is “set of designations belonging to one special language” (ISO 1087-1:2000,
definition 3.5.1).
2.10
usability
extent to which an entity can be used to achieve goals effectively, efficiently and satisfactorily
2.11
usability attribute
〈terminology〉 property of terminological data (2.7) related to usability (2.10)
NOTE 1 Usability attributes can be distinguished as measurable or non-measurable. Measurable usability attributes
can be measured quantitatively, whereas non-measurable usability attributes need to be described qualitatively.
NOTE 2 A usability attribute is described according to specified requirements or measured on a given basis.
3 Uses of terminological resources
Generally, a terminological resource is needed:
⎯ to consult the knowledge content related to concepts or concept representations in a special language
(e.g. looking up terms in a dictionary, querying a database, searching in a terminology portal);
⎯ to manage domain-specific information (e.g. the management of e-business, e-government, e-learning);
⎯ to exchange terminological data efficiently (e.g. the data exchange between activities, information
systems and terminology institutes; importing terminological data to a translation memory; exporting
terminological data for compiling a specialized dictionary);
⎯ to facilitate terminological work processes (e.g. works by terminologists);
⎯ to merge distributed paralleling terminological resources for the provision of data services (e.g. on-line
services that allow customized data output, cooperative data input or management, semantic web
approaches).
2 © ISO 2009 – All rights reserved
---------------------- Page: 7 ----------------------
ISO 23185:2009(E)
4 Terminological resources
4.1 General
The concept of terminological resources shall be understood from the following perspectives.
a) Terminological data are presented, recorded or stored in data media via processes of data preparation,
recording and processing.
b) Using terminological data involves activities such as
1) processing the terminological data with various technologies to provide a service to users,
2) acquiring proper logic content, epistemological forms and linguistic expressions of specialized
knowledge represented by terminological data,
3) transporting/transforming specialized knowledge into the user's intended language context,
e.g. translation or localization. However, whether or not a piece of terminological data fits to an
intended language context is beyond the scope of this International Standard.
c) From user's point of view, the two main requirements for usable terminological data are that
1) the terminological data meet the user’s need to acquire terminological information content,
2) the terminological data are designed to allow desired access or processing.
Therefore, when terminological resources are analysed, it is generally the case that the terminological data
are associated with technological means. In other words, technological means are generally required to make
terminological data usable as a terminological resource.
A terminological resource shall be seen as an integrated dynamic system of terminological data. The system
begins to exist, to evolve and to function once the terminological data are presented. The usability of the
system is demonstrated by its usability attributes. This International Standard clarifies these attributes.
Terminological resources can be systematically assessed. If possible, they may also be automatically
assessed. Terminological resources shall be assessed on the basis of analyses of their creation, their
management and their potential use.
EXAMPLE 1 One thousand term entries on a digital medium are usually accompanied by a user guide explaining how
the medium is accessed and what equipment or tools are required to read the data. The users can then follow the
instructions and browse the data to determine if they are useful for their purpose. In this case, the terminological resource
is composed of the physical data and the medium that verify the usability attributes explained in the user guide.
EXAMPLE 2 A dictionary of terminologies in mathematics, physics and chemistry is also a terminological resource. In
theory, to a user who only needs to access chemical terminology, this dictionary will be little different from a dictionary that
has only chemical terminology, i.e. without mathematical or physics-related terminologies. Such a terminological resource
will be evaluated differently by users who need to consult mathematical or physics-related terminologies.
These two examples propose that the systematic methodological approach to an assessment focused on the
terminological data be
⎯ to take the data together with their overall associations as a terminological resource,
⎯ to assess the usability attributes of the terminological resource through comprehensive analysis of the
following elements: data recording, data storage, data format, data structure, the appropriately assigned
subject field and user's practical need, etc.
© ISO 2009 – All rights reserved 3
---------------------- Page: 8 ----------------------
ISO 23185:2009(E)
4.2 Model for assessment of terminological resources
A model for assessment of terminological resources shall consist of four sets of usability attributes, each
related respectively to
⎯ terminological data,
⎯ data management,
⎯ data output,
⎯ data input.
Not every set of usability attributes is necessarily pertinent to every terminological resource.
EXAMPLE 1 If a hardcopy of a specialized dictionary is considered to be a terminological resource, it will not have
significant usability attributes of data input and data management; its usability attributes will only include those derived
from the output (printed pages), namely the terminological data that are on those pages and the printed indexes.
Similarly, not all the individual usability attributes related to data management, data output and data input are
necessarily pertinent to every terminological resource.
EXAMPLE 2 In the context of a database, an index displayed on user interfaces is not necessary. The user will
generally not consider such a displayed index to be a usability attribute.
Figure 1 illustrates the general structure of the model for assessment.
Figure 1 — Four sets of usability attributes
Although in the following clauses the attributes are described individually, it is necessary to bear in mind that
the usability attributes can be interrelated with, and dependent on, each other.
4.3 General usability attributes of terminological resources
4.3.1 Usability attributes related to terminological data
A terminological resource shall have enough attributes to meet the complexity of the terminological data while
at the same time meeting the requirements for specific purposes, such as
⎯ data structure specification,
⎯ data category coverage,
4 © ISO 2009 – All rights reserved
---------------------- Page: 9 ----------------------
ISO 23185:2009(E)
⎯ subject field coverage,
⎯ language coverage,
⎯ compliance with rules of coherence,
⎯ use of controlled external data,
⎯ use of authoritative sources,
⎯ intellectual property rights ownership indication,
⎯ symmetry of the terminological data collection,
⎯ size of the terminological data collection.
4.3.1.1 Data structure specification
Data structure specification refers to the data model of a terminological resource. With an understanding of
the data model, users can employ appropriate technologies to extract terminological data from a
terminological resource or to further set up services using a terminological resource, and so on. Therefore, the
data structure specification shall be explicit to users. This is the rule for this usability attribute.
4.3.1.2 Data category coverage
Data category coverage refers to the set of data categories that are used in the data model of a terminological
resource. The composition of the set of data categories varies depending on subject fields or applications.
EXAMPLE ISO 12616 specifies the necessary data categories for translation-oriented terminography. This provides
a metric for determining whether a terminological resource is suitable for translation-oriented terminography.
ISO 12620 has specified possible data categories for recording terminological data.
Data category coverage is measurable if data categories specified in ISO 12620 are used and if a data model
is implemented to comply with ISO 16642. If the data model and data categories of a terminological resource
do not comply with ISO 16642 and ISO 12620, a mapping mechanism is necessary when evaluating the
terminological resource.
4.3.1.3 Subject field coverage
Subject field coverage refers to the set of subject fields in which the knowledge information is represented by
the terminological data of a terminological resource.
A terminology deals with special language in a particular field of knowledge. This particular field of knowledge
shall be indicated by one or more subject field indicators belonging to
⎯ a discipline in an established classification scheme or controlled language, or
⎯ an application-specific or domain-specific community.
If not, it shall be indicated by explicit subject field indicators. A subject field indicator, either a representation in
a controlled language or a commonly used explicit indicator, can refer to a collection of terminological data as
a whole, apply to each individual entry, or both.
Subject field coverage is measurable when the controlled languages or explicit subject field indicators
employed to indicate subject fields are comparable. Consequently, users can match the subject fields covered
by a terminological resource against their expectations.
© ISO 2009 – All rights reserved 5
---------------------- Page: 10 ----------------------
ISO 23185:2009(E)
4.3.1.4 Language coverage
Language coverage refers to language indication, i.e. a set of names or symbols that designate human
languages or their variants. It shows the language or languages used to record terminological data and
reveals how many languages the information in a terminological resource covers.
The language indication of a terminological resource shall be studied under four aspects:
⎯ language sections;
⎯ metadata language;
⎯ geographic indication;
⎯ writing systems and character encoding systems.
The ISO 639 series provides standardized codes representing the names of languages. ISO 15924 provides a
standardized code for representing scripts. In addition, language indications may have to be further specified
with codes representing geographical entities according to the ISO 3166 series.
If the language indication used in a terminological resource conforms to these standards, this usability
attribute is measurable, i.e. it can be matched easily against practical needs without additional translation.
4.3.1.5 Compliance with rules of coherence
Compliance with rules of coherence refers to the proper observation of the rules defined for recorded
terminological data. These rules usually control relationships between terminological data, i.e.
⎯ cross-references between terms and the entry where they are defined
⎯ The cross-reference relations can be validated/tracked/checked manually or automatically.
⎯ Whether or not cross-reference relations are well established can be measured quantitatively.
⎯ use of unified spelling, unified phraseology, etc. to represent knowledge information
⎯ This attribute is non-measurable.
⎯ organization of data according to a system of concepts
⎯ Some computer programmes can generate a system of concepts based on the existing data. Such
programmes can help to show if a terminological resource contains systematic terminological data.
Therefore, this attribute is “computable” for qualitative judgment instead of being simply “measurable”.
Whether or not these rules are well observed in a terminological resource shall thus be measured through
studying these aspects.
4.3.1.6 Use of controlled external data
1)
Use of controlled external data refers to complementary information comprising external resources such as
independently maintained standards, thesauri, ontologies and bibliographies. This is an attribute that can
show the quality of the data. The better the links are established, the higher the expectations are of data
quality. In a computer application context, the links to external resources can be calculated quantitatively.
1) In ISO 16642:2003, 3.1, complementary information is defined as “information supplementary to that described in
terminological entries and shared across the terminological data collection”.
6 © ISO 2009 – All rights reserved
---------------------- Page: 11 ----------------------
ISO 23185:2009(E)
4.3.1.7 Use of authoritative sources
Use of authorative sources refers to the authoritative nature of documents or other sources from which the
terminological data are taken. The more authoritative the sources used, the higher the data quality is likely to
be. The criteria for “authoritative” sources are qualitative issues.
4.3.1.8 Intellectual property rights ownership indication
Intellectual property rights ownership indication refers to the indication of the ownership of certain data by
individuals or organizations/institutions. Ownership is often linked to the source of the information. Indirectly,
this indication signals to the user that the owner has set certain conditions that must be met to use or reuse
the terminological data in the resource. This is a non-measurable usability attribute.
With more deliberate approaches to IT technology, such indications could be made for the whole
terminological resource as well as for each entry or even for information elements. If the ownership (or
permission) is detailed enough and entered in a controlled way, the copyright status of the terminological
resource can be indicated as a quantitative statistic, which makes it a measurable usability attribute.
4.3.1.9 Symmetry of the terminological data collection
Symmetry of the terminological data collection refers to the equal comprehensiveness of information in
different languages. This attribute can be measured by “complete”, “incomplete” or the number of the
complete information sections, etc.
EXAMPLE It is essential that definitions in each language in a bilingual or multi-lingual terminological resource be
complete and available. If information on only one language is complete and available in a “bilingual terminological
resource”, the resource is not to be valued as a bilingual resource.
4.3.1.10 Size of the terminological data collection
The size refers to the total amount of information available in a terminological resource. Size can be measured
in numbers of entries or bytes, megabytes, etc. The size of a single terminological resource can be different in
assessments that serve different uses, subject fields or applications. It is a benchmark for comparing the
comprehensive coverage of different terminological resources.
EXAMPLE The number of designations (by language if applicable), or definitions, etc. can be such attributes.
4.3.2 Usability attributes related to data management
Usability attributes related to data management concern methods and mechanisms that shall be employed in
a terminological resource for the purpose of:
⎯ data validation
⎯ completeness
⎯ linguistic correctness
⎯ conformity to presentation conventions
⎯ control of redundancy/control of concept level duplication
⎯ regular maintenance of data
⎯ regular maintenance of metadata (i.e. Metadata Registry, see ISO 11179)
Many of the usability attributes described in this clause are linked to those related to data input or data output.
© ISO 2009 – All rights reserved 7
---------------------- Page: 12 ----------------------
ISO 23185:2009(E)
4.3.2.1 Data validation
Data validation refers to the controls for the systematic correctness of terminological data. If the user learns
the validation rules for the data provided, this is helpful for determining the status of the data, even
automatically.
Due to the complexity of terminological data, this usability attribute shall be analysed from different aspects:
completeness, linguistic correctness and conformity to presentation conventions.
4.3.2.1.1 Completeness
Completeness refers to ensuring that recorded terminological data are composed of elements that match the
required data categories, as defined in the data model. This attribute is measurable especially in a
computerized environment.
EXAMPLE ISO 10241:1992, 6.1 stipulates that “For standardization purposes, the entry shall contain at least a) the
entry number; b) the preferred term representing the concept; c) the definition of the concept …” If a term entry does not
meet this minimal requirement, it will not be a qualified ISO standardized terminology entry. A statistic can be used to
show the degree of conformity to ISO 10241:1992, 6.1.
4.3.2.1.2 Linguistic correctness
This attribute refers to the control of linguistic correctness of terminological data. To assess linguistic
correctness, it is necessary to check the general linguistic conventions and domain-specific conventions
applied to the terminological data. This attribute is measurable especially in a computerized environment.
EXAMPLE Spell-checkers exist for many human languages. For the purposes of assessment, a statistic for mistakes,
in terms of either a percentage or an absolute number, will help the user evaluate linguistic correctness.
4.3.2.1.3 Conformity to presentation conventions
This attribute refers to the standardized presentation of content in a terminological resource. It is especially
measurable in a computerized environment.
EXAMPLE 1 Codes for the presentation of language names, geographical names, etc. are standardized as in ISO 639,
ISO 3166 and ISO 15924. The conformity to these International Standards can be measured statistically.
EXAMPLE 2 Presentation of terminological data in ISO printed standards of terminologies conforms to specifications
in ISO 10241.
4.3.2.2 Control of redundancy
Control of redundancy refers to the control of duplication of identical data content in a terminolo
...
NORME ISO
INTERNATIONALE 23185
Première édition
2009-09-01
Critères d'évaluation comparative des
ressources terminologiques — Concepts,
principes et exigences d'ordre général
Assessment and benchmarking of terminological resources — General
concepts, principles and requirements
Numéro de référence
ISO 23185:2009(F)
©
ISO 2009
---------------------- Page: 1 ----------------------
ISO 23185:2009(F)
PDF – Exonération de responsabilité
Le présent fichier PDF peut contenir des polices de caractères intégrées. Conformément aux conditions de licence d'Adobe, ce fichier
peut être imprimé ou visualisé, mais ne doit pas être modifié à moins que l'ordinateur employé à cet effet ne bénéficie d'une licence
autorisant l'utilisation de ces polices et que celles-ci y soient installées. Lors du téléchargement de ce fichier, les parties concernées
acceptent de fait la responsabilité de ne pas enfreindre les conditions de licence d'Adobe. Le Secrétariat central de l'ISO décline toute
responsabilité en la matière.
Adobe est une marque déposée d'Adobe Systems Incorporated.
Les détails relatifs aux produits logiciels utilisés pour la création du présent fichier PDF sont disponibles dans la rubrique General Info
du fichier; les paramètres de création PDF ont été optimisés pour l'impression. Toutes les mesures ont été prises pour garantir
l'exploitation de ce fichier par les comités membres de l'ISO. Dans le cas peu probable où surviendrait un problème d'utilisation,
veuillez en informer le Secrétariat central à l'adresse donnée ci-dessous.
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2009
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l'accord écrit
de l'ISO à l'adresse ci-après ou du comité membre de l'ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Version française parue en 2010
Publié en Suisse
ii © ISO 2009 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO 23185:2009(F)
Sommaire Page
Avant-propos .iv
Introduction.v
1 Domaine d'application .1
2 Termes et définitions .1
3 Utilisations des ressources terminologiques .2
4 Ressources terminologiques .3
4.1 Introduction.3
4.2 Modèle d'évaluation des ressources terminologiques .4
4.3 Attributs d'utilisabilité généraux des ressources terminologiques.5
5 Lignes directrices pour un projet d'évaluation et d'analyse comparative .12
5.1 Introduction.12
5.2 Principales étapes du flux .12
5.3 Évaluation par étude de cas.13
Annexe A (normative) Attributs d'utilisabilité des ressources terminologiques et règles de base
pour leur mesure .14
Annexe B (informative) Application type des attributs d'utilisabilité comme points de référence.19
Bibliographie.23
© ISO 2009 – Tous droits réservés iii
---------------------- Page: 3 ----------------------
ISO 23185:2009(F)
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux de
normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général confiée
aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du
comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec
la Commission électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives ISO/CEI,
Partie 2.
La tâche principale des comités techniques est d'élaborer les Normes internationales. Les projets de Normes
internationales adoptés par les comités techniques sont soumis aux comités membres pour vote. Leur
publication comme Normes internationales requiert l'approbation de 75 % au moins des comités membres
votants.
L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de ne
pas avoir identifié de tels droits de propriété et averti de leur existence.
L'ISO 23185 a été élaborée par le comité technique ISO/TC 37, Terminologie et autres ressources
langagières et ressources de contenu, sous-comité SC 2, Méthodes de travail terminographiques et
lexicographiques.
iv © ISO 2009 – Tous droits réservés
---------------------- Page: 4 ----------------------
ISO 23185:2009(F)
Introduction
La communauté mondiale est en train d'évoluer rapidement vers une société de l'information et de la
connaissance multilingue régie par les sciences et technologies et caractérisée par l'influence prépondérante
des technologies de l'information et de la communication (TIC). Il est crucial de disposer de ressources
linguistiques fiables (comme les corpus de texte et de parole, les terminologies, les lexiques informatiques,
etc.) pour soutenir les industries émergentes de la connaissance et du contenu. L'information terminologique
devient donc un élément clé dans toutes les activités réglementaires, comme c'est le cas par exemple pour la
normalisation technique, la gestion de la qualité et la réglementation des droits de propriété intellectuelle.
Dans le Web sémantique émergent, des navigateurs ou services Web dédiés ou non interrogent également
des bases de données et portails Web contenant un contenu structuré (c'est-à-dire des collections d'éléments
de contenu au niveau de la sémantique lexicale). L'utilisateur veut de moins en moins être inondé
d'informations non évaluées, mais souhaite au contraire recevoir les informations les plus pertinentes et
fiables pour son usage personnel, sans manquer des informations importantes. Les résultats des requêtes
automatiques ou semi-automatiques devront donc être de plus en plus rassemblés et condensés au moyen
d'analyses sémantiques afin de répondre aux besoins des utilisateurs.
Si des informations apparemment similaires se trouvent dans une multitude de collections de contenu
structuré, des filtrages systématiques, syntaxiques et sémantiques, et des processus de sélection et
d'évaluation ont lieu. À une étape de ces processus, les navigateurs ou services Web ont à distinguer
globalement les données terminologiques plus ou moins pertinentes et fiables au niveau de la collection, à
des fins de priorisation et d'optimisation.
Les données terminologiques peuvent avoir de nombreuses fonctions, dont les plus importantes sont les
suivantes:
⎯ représentation des connaissances (concept);
⎯ classement des connaissances (classification par concept);
⎯ accès à d'autres types de contenus structurés ou non;
⎯ moyens ou éléments de communication et de transfert des connaissances.
Pour des utilisations et réutilisations comme la traduction, la localisation et la gestion de contenu, une
approche systématique de l'évaluation et de l'analyse comparative automatiques ou semi-automatiques des
ressources de données terminologiques ou contenant des données terminologiques devient nécessaire.
© ISO 2009 – Tous droits réservés v
---------------------- Page: 5 ----------------------
NORME INTERNATIONALE ISO 23185:2009(F)
Critères d'évaluation comparative des ressources
terminologiques — Concepts, principes et exigences d'ordre
général
1 Domaine d'application
Pour garantir l'utilisation et la réutilisation efficaces des données terminologiques, un processus d'évaluation
est nécessaire. Pour les besoins de l'évaluation, la présente Norme internationale décrit les concepts
fondamentaux et fournit les principes généraux pour définir un modèle applicable à diverses ressources
terminologiques. Elle définit les attributs d'utilisabilité qui constituent le modèle et fournit des lignes directrices
pour l'évaluation globale des ressources terminologiques en tenant compte des objectifs de l'utilisateur.
2 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s'appliquent.
2.1
évaluation
〈terminologie〉 processus permettant de démontrer qu'une ressource terminologique (2.8) répond aux
exigences spécifiées
2.2
point de référence
〈terminologie〉 attribut d'utilisabilité (2.11) utilisé comme point de référence ou métrique par rapport auquel
l'utilisabilité (2.10) d'une ressource terminologique (2.8) peut être mesurée
2.3
analyse comparative
〈terminologie〉 application de points de référence (2.2) à des ressources terminologiques (2.8)
2.4
entité
tout objet ou association d'objets, concret ou abstrait, existant, ayant existé ou pouvant exister, y compris les
relations entre ces objets
EXEMPLE Personne, objet, événement, idée, processus, etc.
[ISO/CEI 2382-17:1999, 17.02.05]
2.5
modèle d'évaluation
〈terminologie〉 modèle permettant d'identifier les attributs d'utilisabilité (2.11) des ressources
terminologiques (2.8) et leurs relations
2.6
langue de spécialité
langue utilisée dans un domaine et caractérisée par l'utilisation de moyens d'expression linguistiques
particuliers
[ISO 1087-1:2000, définition 3.1.3]
© ISO 2009 – Tous droits réservés 1
---------------------- Page: 6 ----------------------
ISO 23185:2009(F)
2.7
donnée terminologique
donnée relative à un concept ou à sa désignation
[ISO 1087-1:2000, définition 3.8.1]
2.8
ressource terminologique
ressource de données terminologiques
entité (2.4) composée de collections de données terminologiques (2.7) et des attributs d'utilisabilité
(2.11) générés par le regroupement ou la structuration des données, ou l'incorporation des données dans une
application
NOTE 1 Une ressource terminologique contient généralement des données terminologiques (2.7) qui sont
structurées (par exemple une base de données terminologique), balisées au moyen d'un langage de balisage
(par exemple un fichier de données XML) ou associées à une présentation structurée (par exemple un dictionnaire).
Toutefois, une ressource terminologique peut même contenir des textes en clair (par exemple des textes avec un style de
langue identifiable) à partir desquels il est possible d'extraire des données terminologiques utilisables grâce à la
technologie moderne de traitement du contenu.
NOTE 2 En règle générale, les ressources terminologiques générées par des activités de terminologie
professionnelles comportent des données terminologiques (2.7) bien organisées, bien structurées et de bonne qualité
avec par conséquent un nombre suffisant d'attributs d'utilisabilité (2.11). Au contraire, les ressources terminologiques
créées par d'autres processus ou activités ont souvent une qualité et une utilisabilité imprévisibles.
2.9
terminologie
ensemble des désignations appliquées aux concepts appartenant à une langue de spécialité (2.6)
NOTE La définition de l'ISO 1087-1 est «ensemble des désignations appartenant à une langue de spécialité»
(ISO 1087-1:2000, définition 3.5.1).
2.10
utilisabilité
mesure dans laquelle une entité peut être utilisée pour atteindre réellement des objectifs, de manière efficace
et satisfaisante
2.11
attribut d'utilisabilité
〈terminologie〉 propriété des données terminologiques (2.7) liée à l'utilisabilité (2.10)
NOTE 1 Les attributs d'utilisabilité peuvent être mesurables ou non mesurables. Les attributs d'utilisabilité mesurables
peuvent être mesurés quantitativement, tandis que les attributs d'utilisabilité non mesurables sont décrits qualitativement.
NOTE 2 Un attribut d'utilisabilité est décrit en fonction d'exigences spécifiées ou est mesuré sur une base donnée.
3 Utilisations des ressources terminologiques
En général, une ressource terminologique est nécessaire pour:
⎯ consulter le contenu en connaissances lié à des concepts ou des représentations de concepts dans une
langue de spécialité (par exemple recherche de termes dans un dictionnaire, interrogation d'une base de
données, recherche sur un portail terminologique);
⎯ gérer des informations spécifiques au domaine (par exemple gestion de l'e-business, services
gouvernementaux en ligne, apprentissage en ligne);
⎯ échanger efficacement des données terminologiques (par exemple échanges de données entre activités,
systèmes d'informations et organismes de terminologie; importation de données terminologiques dans
une mémoire de traduction; exportation de données terminologiques pour compiler un dictionnaire
spécialisé);
2 © ISO 2009 – Tous droits réservés
---------------------- Page: 7 ----------------------
ISO 23185:2009(F)
⎯ faciliter les processus de travail terminologique (par exemple des travaux de terminologues);
⎯ fusionner des ressources terminologiques parallèles réparties pour offrir des services de données
(par exemple des services en ligne permettant d'obtenir des données de sortie personnalisées, une
saisie ou une gestion coopérative des données, des approches du Web sémantique).
4 Ressources terminologiques
4.1 Introduction
Le concept de ressource terminologique doit être considéré sous les aspects suivants:
a) les données terminologiques sont présentées, enregistrées ou stockées sur des supports de données via
des processus de préparation, d'enregistrement et de traitement des données.
b) l'utilisation de données terminologiques implique des activités telles que:
1) traiter les données terminologiques avec différentes technologies afin de fournir un service aux
utilisateurs;
2) acquérir un contenu logique adapté, des formes épistémologiques et des expressions linguistiques
des connaissances spécialisées représentées par les données terminologiques;
3) placer ou transformer les connaissances spécialisées dans le contexte linguistique prévu de
l'utilisateur, par exemple pour la traduction ou la localisation. Toutefois, le fait qu'une donnée
terminologique se situe ou non dans un contexte linguistique prévu n'entre pas dans le domaine
d'application de la présente Norme internationale.
c) du point de vue d'un utilisateur, les deux principales exigences pour des données terminologiques
utilisables sont que
1) les données terminologiques répondent au besoin de l'utilisateur d'acquérir un contenu d'information
terminologique;
2) les données terminologiques sont conçues pour permettre l'accès ou le traitement souhaité.
Ainsi, lorsque des ressources terminologiques sont analysées, les données terminologiques sont
généralement associées à des moyens technologiques. En d'autres termes, des moyens technologiques sont
généralement requis pour permettre aux données terminologiques d'être utilisables en tant que ressource
terminologique.
Une ressource terminologique doit être considérée comme un système dynamique intégré de données
terminologiques. Le système commence à exister, évoluer et fonctionner à partir du moment où sont
présentées les données terminologiques. L'utilisabilité du système est démontrée par ses attributs
d'utilisabilité. La présente Norme internationale définit ces attributs.
Il existe des ressources terminologiques qui peuvent être évaluées systématiquement et, si possible,
automatiquement. Les ressources terminologiques doivent être évaluées sur la base d'analyses de leur
création, de leur gestion et de leur utilisation potentielle.
EXEMPLE 1 Mille entrées terminologiques sur un support numérique sont généralement accompagnées d'un guide
d'utilisation expliquant comment accéder au support et quels équipements ou quels outils sont requis pour lire les
données. Les utilisateurs peuvent alors suivre les instructions et parcourir les données afin de déterminer si elles sont
utiles pour eux. Dans ce cas, la ressource terminologique se compose des données physiques et du support qui offrent
les attributs d'utilisabilité expliqués dans le guide d'utilisation.
EXEMPLE 2 Un dictionnaire des terminologies employées en mathématiques, physique et chimie est également une
ressource terminologique. En théorie, pour un utilisateur ayant uniquement besoin de la terminologie employée en chimie,
peu importe que le dictionnaire comprenne uniquement les termes de chimie utiles ou également des termes de
© ISO 2009 – Tous droits réservés 3
---------------------- Page: 8 ----------------------
ISO 23185:2009(F)
mathématiques ou physique. En revanche, les utilisateurs ayant besoin des terminologies employées en mathématiques
ou en physique évalueront ce type de ressource terminologique différemment de ceux ayant besoin des terminologies
employées en chimie.
Ces deux exemples suggèrent que l'approche méthodologique systématique d'une évaluation focalisée sur
les données terminologiques consiste à:
⎯ considérer les données ainsi que les/leurs relations générales comme une ressource terminologique;
⎯ déduire les attributs d'utilisabilité de la ressource terminologique par une analyse complète de
l'enregistrement, du stockage, du format et de la structure des données, ainsi que de l'attribution correcte
du domaine, des besoins pratiques de l'utilisateur, etc.
4.2 Modèle d'évaluation des ressources terminologiques
Un modèle d'évaluation des ressources terminologiques doit consister en quatre ensembles d'attributs
d'utilisabilité, chacun se rapportant respectivement:
⎯ aux données terminologiques;
⎯ à la gestion des données;
⎯ aux données de sortie;
⎯ aux données d'entrée.
Tous les ensembles d'attributs d'utilisabilité ne sont pas nécessairement pertinents pour chaque ressource
terminologique.
EXEMPLE 1 Si la version papier d'un dictionnaire spécialisé est considérée comme une ressource terminologique, elle
n'aura pas d'attributs d'utilisabilité significatifs pour les données d'entrée et la gestion des données, ses attributs
d'utilisabilité incluront uniquement ceux dérivés des données de sortie (pages imprimées), à savoir les données
terminologiques qui figurent dans ces pages et dans les index imprimés.
De même, tous les attributs d'utilisabilité relatifs à la gestion des données, aux données de sortie et aux
données d'entrée ne sont pas nécessairement pertinents pour chaque ressource terminologique.
EXEMPLE 2 Dans le contexte d'une base de données, il n'est pas nécessaire que les interfaces utilisateur comprennent
un index. En général, ce type d'index ne sera pas considéré par l'utilisateur comme un attribut d'utilisabilité.
La Figure 1 montre la structure générale du modèle d'évaluation:
Figure 1 — Quatre ensembles d'attributs d'utilisabilité
4 © ISO 2009 – Tous droits réservés
---------------------- Page: 9 ----------------------
ISO 23185:2009(F)
Bien que, dans les articles suivants, les attributs soient décrits individuellement, il est nécessaire de garder à
l'esprit que les attributs d'utilisabilité peuvent être corrélés et interdépendants.
4.3 Attributs d'utilisabilité généraux des ressources terminologiques
4.3.1 Attributs d'utilisabilité associés aux données terminologiques
Une ressource terminologique doit posséder un nombre suffisant d'attributs pour répondre à la complexité des
données terminologiques tout en respectant les exigences s'appliquant à des objectifs spécifiques,
notamment:
⎯ la spécification de la structure des données;
⎯ l'inclusion des catégories de données;
⎯ l'inclusion du domaine;
⎯ l'inclusion de la langue;
⎯ le respect de règles de cohérence;
⎯ l'utilisation de données externes contrôlées;
⎯ l'utilisation de sources faisant autorité;
⎯ l'indication des droits de propriété intellectuelle;
⎯ la symétrie de la collection de données terminologiques;
⎯ la taille de la collection de données terminologiques.
4.3.1.1 Spécification de la structure des données
La spécification de la structure des données fait référence au modèle de données d'une ressource
terminologique. La compréhension du modèle de données permet aux utilisateurs d'employer les technologies
appropriées pour extraire les données terminologiques d'une ressource terminologique, ou pour développer
des services utilisant une ressource terminologique, etc. Par conséquent, la spécification de la structure des
données doit être explicite pour les utilisateurs. C'est tout l'enjeu de cet attribut d'utilisabilité.
4.3.1.2 Inclusion des catégories de données
L'inclusion des catégories de données fait référence à l'ensemble des catégories de données qui sont
utilisées dans le modèle de données d'une ressource terminologique. La composition de l'ensemble des
catégories de données varie en fonction des domaines ou des applications.
EXEMPLE L'ISO 12616 spécifie les catégories de données nécessaires pour une terminographie axée sur la
traduction. Ceci fournit une métrique pour déterminer si une ressource terminologique est adaptée à la terminographie
axée sur la traduction.
L'ISO 12620 a spécifié des catégories de données possibles pour l'enregistrement des données
terminologiques.
L'inclusion des catégories de données est mesurable si des catégories de données spécifiées dans
l'ISO 12620 sont utilisées et si un modèle de données est appliqué conformément à l'ISO 16642. Si le modèle
de données et les catégories de données d'une ressource terminologique ne sont pas conformes à
l'ISO 16642 et à l'ISO 12620, un mécanisme de projection est requis pour l'évaluation de la ressource
terminologique.
© ISO 2009 – Tous droits réservés 5
---------------------- Page: 10 ----------------------
ISO 23185:2009(F)
4.3.1.3 Inclusion du domaine
L'inclusion du domaine fait référence à l'ensemble des domaines dont le contenu des connaissances est
représenté par les données terminologiques d'une ressource terminologique.
Une terminologie traite d'une langue de spécialité dans un domaine de connaissance particulier. Ce domaine
de connaissance particulier doit être indiqué par un ou plusieurs indicateurs de domaine appartenant
⎯ à une discipline dans un schéma de classification établi ou un langage contrôlé, ou
⎯ à une communauté spécifique à l'application ou au domaine.
Dans le cas contraire, il doit être indiqué par des indicateurs de domaine explicites. Un indicateur de domaine,
qu'il s'agisse d'une représentation dans un langage contrôlé ou d'un indicateur explicite couramment employé,
peut désigner une collection de données terminologiques dans son ensemble, s'appliquer à chaque entrée
individuelle, ou les deux.
L'inclusion du domaine est mesurable lorsque les langages contrôlés ou les indicateurs de domaine explicites
utilisés pour indiquer les domaines sont comparables. Les utilisateurs peuvent alors comparer les domaines
couverts par une ressource terminologique par rapport à leurs attentes.
4.3.1.4 Inclusion de la langue
L'inclusion de la langue fait référence à l'indication de la langue, c'est-à-dire à l'ensemble des noms ou
symboles désignant les langues humaines ou leurs variantes. Elle indique la ou les langues employées pour
enregistrer les données terminologiques, et également combien de langues sont couvertes par les
informations issues d'une ressource terminologique.
L'indication de la langue d'une ressource terminologique doit être étudiée sous quatre aspects différents:
⎯ les sections de langue;
⎯ la langue des métadonnées;
⎯ l'indication géographique;
⎯ les systèmes d'écriture et les systèmes de codage de caractères.
La série de normes ISO 639 fournit des codes normalisés pour la représentation des noms de langues.
L'ISO 15924 fournit un code normalisé pour la représentation des noms d'écritures. Il peut également être
nécessaire de compléter les indications de langue par des codes représentant des entités géographiques
selon la série de normes ISO 3166.
Si l'indicateur de langue utilisé dans une ressource terminologique est conforme à ces normes, cet attribut
d'utilisabilité est mesurable, c'est-à-dire qu'il peut facilement être comparé à des besoins pratiques, sans autre
traduction.
4.3.1.5 Respect des règles de cohérence
Le respect des règles de cohérence fait référence à l'observation des règles définies pour les données
terminologiques enregistrées. Ces règles régissent généralement les relations entre les données
terminologiques, c'est-à-dire:
⎯ le renvoi entre les termes et l'article dans lequel ils sont définis
⎯ Les relations de renvoi peuvent être validées/suivies/vérifiées manuellement ou automatiquement.
6 © ISO 2009 – Tous droits réservés
---------------------- Page: 11 ----------------------
ISO 23185:2009(F)
⎯ Le fait que les relations de renvoi soient correctement établies ou non peut être mesuré
quantitativement.
⎯ l'utilisation d'une orthographe unifiée, d'une phraséologie unifiée, etc. pour représenter le contenu des
connaissances
⎯ Cet attribut est non mesurable.
⎯ l'organisation des données selon un système de concepts
⎯ Certains programmes informatiques peuvent générer un système de concepts basé sur les données
existantes. Ce type de programme peut aider à déterminer si une ressource terminologique contient
des données terminologiques structurées en système. Cet attribut est donc «calculable» en vue
d'une évaluation qualitative et non simplement mesurable.
La bonne observation des règles de cohérence au sein d'une ressource terminologique doit donc être
mesurée en étudiant ces aspects.
4.3.1.6 Utilisation de données externes contrôlées
1)
L'utilisation de données externes contrôlées fait référence à des informations complémentaires comprenant
des ressources externes, telles que des normes, des thésaurus, des ontologies et des bibliographies gérés de
manière indépendante. Cet attribut peut montrer la qualité des données. Plus les liens établis sont corrects,
plus on s'attend à ce que les données soient de bonne qualité. Dans le contexte d'une application
informatique, les liens vers des ressources externes peuvent être calculés quantitativement.
4.3.1.7 Utilisation de sources faisant autorité
L'utilisation de sources faisant autorité fait référence à la nature officielle des documents ou autres sources
dont sont tirées les données terminologiques. Plus les sources utilisées sont officielles, plus il est probable
que les données soient de bonne qualité. Toutefois, le caractère «officiel» relève de critères qualitatifs.
4.3.1.8 Indication des droits de propriété intellectuelle
L'indication des droits de propriété intellectuelle fait référence à l'indication de la propriété de certaines
données par des particuliers, des organismes ou des institutions. La propriété est souvent liée à la source des
informations. Indirectement, cette indication signale à l'utilisateur que le propriétaire a posé certaines
conditions qui doivent être respectées pour l'utilisation ou la réutilisation des données terminologiques
contenues dans la ressource. Cet attribut d'utilisabilité n'est pas mesurable.
Dans le cadre d'approches davantage tournées vers les technologies de l'information, ces indications peuvent
être données pour l'ensemble de la ressource terminologique ainsi que pour chaque article, voire pour des
éléments d'information. Si la propriété (ou l'autorisation) est détaillée de manière suffisante et contrôlée, le
statut de propriété intellectuelle de la ressource terminologique peut être indiqué sous la forme d'une
statistique quantitative, rendant cet attribut d'utilisabilité mesurable.
4.3.1.9 Symétrie de la collection de données terminologiques
La symétrie de la collection de données terminologiques fait référence à l'exhaustivité équivalente des
informations dans plusieurs langues. Cet attribut peut être mesuré par le qualificatif «complet», «incomplet»
ou le nombre de sections d'informations complètes, etc.
1) Dans l'ISO 16642:2003, 3.1, information complémentaire est défini comme «information supplémentaire à celle
décrite dans les articles terminologiques et commune à l'ensemble des données terminologiques».
© ISO 2009 – Tous droits réservés 7
----------------------
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.