Computational aids in terminology — Creation and use of terminological databases and text corpora

Provides guidance on the basic principles and methods for the application of data processing support in the preparation and use of terminological data collections. Especially applicable to the creation and use of terminological databases and text corpora.

Aides informatiques en terminologie — Création et utilisation de bases de données terminologiques et de corpus de textes

General Information

Status
Withdrawn
Publication Date
16-Nov-1994
Withdrawal Date
16-Nov-1994
Current Stage
9599 - Withdrawal of International Standard
Completion Date
23-Mar-2004
Ref Project

Buy Standard

Technical report
ISO/TR 12618:1994 - Computational aids in terminology -- Creation and use of terminological databases and text corpora
English language
16 pages
sale 15% off
Preview
sale 15% off
Preview
Technical report
ISO/TR 12618:1994 - Aides informatiques en terminologie -- Création et utilisation de bases de données terminologiques et de corpus de textes
French language
15 pages
sale 15% off
Preview
sale 15% off
Preview
Technical report
ISO/TR 12618:1994 - Aides informatiques en terminologie -- Création et utilisation de bases de données terminologiques et de corpus de textes
French language
15 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)

TECHNICAL
REPORT 12618
First edition
1994-11-15
Computational aids in terminology -
Creation and use of terminological
databases and text corpora
Aides in forma tiques en terminologie - Creation et utilisation de bases de
donnkes terminologiques et de corpus de textes
Reference number
lSO/TR 12618:1994(E)

---------------------- Page: 1 ----------------------
ISO/TR 12618:1994(E)
Contents
Page
Foreword . . . . . . . . . . . . . . . . . . . . . . . . . _.__._____.______._ .__._ _._. __.__ __._. .__._.__ ___ iii
Introduction . . . . . . . . . . . . . . . . . . . .____._._.________.__.___________ _________ _._._._____. iV
1 Scope . . . . . . 1
2 Ref erences . 1
3 Definitions . . . . . 1
4 Types of terminological data collections . 2
5 Criteria for creating a terminological database . . .2
Hardware and Software requirements .
6 3
Terminological data categories .
7 3
8 Data structure . 4
9 Data input . .7
IO Character set . 8
11 Data retrieval . 8
12 Sorting . . 11
Production of printouts and printed vocabularies . . 12
13
Data protection . I2
14
Data transf er . . .12
15
16 Feedback from users. . . . .12
17 Maintenance and updating . . . 13
Portability . ._. _. _. . _. . . __ _. . . . . . . . . . . . . _. . . . . . . _. _. _. .
18 13
Data communication . . .
19 . 13
20 Creation and use of a text Corpus . 13
0 ISO 1994
All rights reserved. No part of this publication may be reproduced or utilized in any
electronie or mechanical, including photocopying and
form or by any means,
microfilm, without Permission in writing from the publisher.
International Organization for Standardization
Case Postale 56 l CH-121 1 Geneve 20 * Switzerland
Printed in Switzerland

---------------------- Page: 2 ----------------------
0 ISO
ISO/TR 12618:1994(E)
Foreword
ISO (the International Organization for Standardization) is a world-
wide federation of national Standards bodies (ISO member bodies).
The work of preparing International Standards is normally carried
out through ISO technical committees. Esch member body inter-
ested in a subject for which a technical committee has been
established has the right to be represented on that committee. Inter-
national organizations, governmental and non-governmental, in
liaison with ISO, also take part in the work. ISO collaborates closely
with the International Electrotechnical Commission (IEC) on all mat-
ters of electrotechnical standardization.
The main task of ISO technical committees is to prepare Inter-
national Standards. In exceptional circumstances a technical com-
mittee may propose the publication of a Technical Report of one of
the following types:
- type 1, when the required support cannot be obtained for the
publication of an International Standard, despite repeated
efforts;
- type 2, when the subject is still under technical development or
where for any other reason there is the future but not imme-
diate possibility of an agreement on an International Standard;
- type 3, when a technical committee has collected data of a
different kind from that which is normally published as an
International Standard ( “state of the art ”, for example).
Technical Reports of types 1 and 2 are subject to review within
three years of publication, to decide whether they tan be trans-
formed into International Standards. Technical Reports of type 3 do
not necessarily have to be reviewed until the data they provide are
considered to be no longer valid or useful.
ISO/TR 12618, which is a Technical Report of type 3, was prepared
by Technical Committee ISOFC 37, Terminology (principles and
coordination), Sub-Committee SC 3, Computational aids in termin-
ology.
. . .
Ill

---------------------- Page: 3 ----------------------
0 ISO
ISO/TR 12618:1994(E)
Introduction
Because the scope of this Technical Report is limited to compu-
tational aids for terminology work, the user is advised to consult
ISO 704 and ISO 1087 for questions of basic principles of termino-
IWY-
In addition to the advice for creating and using terminological
databases given in this Technical Report, an exchange format for
terminological and lexicographical data is standardized by ISO 6156
and ISO 12200.
Computers tan be employed at various stages in the preparation
and use of terminological data collections. The preparation of term-
inological data collections typically includes the following phases:
a) defining scope;
b) identifying, selecting and recording sources;
collecting terms, definitions, explanations, text examples, etc.;
c)
d) elaborating Systems of concepts;
establishing equivalence relations between concepts in two or
more languages;
recording term inolog ical information, including information on
f )
Systems 0 fcon cepts;
g) updating terminological data.
These phases are presented above in the chronological Order of the
process, but they often overlap and each Phase may have to be
repeated subsequently. Depending on the type of project and re-
sources involved, Computers may prove useful in many phases,
particularly b), c), f), and g).
Computer-aided use of terminological data collections includes
retrieval of terminological information stored in a database, and
production of printouts and dictionaries.
The emphasis of this Technical Report is on the creation and
maintenance of a terminological database (i.e. phases f) and g)
above). A short introduction concerning the creation and use of a
machine-readable text Corpus which may be used in Phase c) is
given in clause 20, it being borne in mind that the creation of a text
Corpus precedes the creation of a terminological database. Informa-
tion on Phase b), however, is beyond the scope of this Technical
Report.

---------------------- Page: 4 ----------------------
TECHNICAL REPORT @ ~0 ISO/TR 12618:1994(E)
Computational aids in terminology - Creation and use of
terminological databases and text corpora
ISO 8777:1993, Information and documentation -
1 Scope
Commands for interactive text searching.
This Technical Report provides guidance on the
ISO 8879:1986 [+ Amd 1:1988], Information pro-
basic principles and methods for the application of
cessing - Text and Office Systems - Standard
data processing support in the preparation and
Generalized Markup Language (SGML).
use of terminological data collections. This Tech-
nical Report is especially applicable to the creation
lSO/IEC 9075: 1992, Information technology -
and use of terminological databases and text cor-
Database Languages - SQL.
pora.
ISO 10241: 1992, International terminology stan-
dards - Preparation and layout.
2 References
ISO 12200:- ‘1 , Computational aids in terminology
- Terminological interchange format (TIF) - An
ISO 704:1987, Principles and methods of termino-
SGML application.
lWY*
ISO 860: 1994, Terminology work - International
harmonization of concepts and terms.
3 Definitions
ISO 1087: 1990, Terminology - Vocabulary.
For the purpose of this Technical Report, the fol-
ISO 1087-2:- l) Terminology work - Vocabulary
,
lowing definitions apply.
- Part 2: Computational aids in terminology.
NOTE 1 Most of these definitions will be incorporated in
ISO/IEC 2382-1:1993, Information processing -
ISO 1087-2, and are at present provisional.
Vocabulary - Part 7: Fundamental terms.
3.1 data bank
ISO 2382-4: 1987, Information processing - Voca-
collection of databases including the organiza-
Part 4: Organization of data.
bulary -
tional framework for managing them
ISO 6156:1987, Magnetit tape exchange format for
NOTE 2 See also lSO/IEC 2382-1:1993.
terminologicaI/ lexicographical records (MATER).
lSO/TR 8393:1985, Documentation - ISO bib- 3.2 database
filing rules (International Standard collection of data organized according to a con-
liographic
Bibliographie Filing ßules) - Exemplification of ceptual structure
bibliographic filing principles in a model set of
NOTE 3 Adapted from lSO/IEC 2382-1:1993.
rules.
To be published.
1)

---------------------- Page: 5 ----------------------
0 ISO
ISO/TR 12618:1994(E)
3.3 data category
4 Types of terminological data
data element type
collections
instruction for interpreting a given data field
The following
criteria effect the ways that
terminological data collections are manipulated
3.4 data element
and accessed:
smallest identifiable unit of content in a given
reco rd
r
- size: nu mbe of entries f su bject fields, lan-
data C ategories;
wwes,
3.5 data field
variable or fixed length portion of a record
- hardware: microcomputer, minicomputer,
reserved for a particular data element
mainframe-Computer; hard disk storage, disk-
ette, CD-ROM; standalone System or network
NOTE 4 Adapted from ISO 6156:1987.
System;
3.6 record - Software: database management System,
information retrieval System, dictionary edit-
set of data elements treated as a unit
[ISO 2382-4: 19871 ing System; off-the-shelf or custom-tailored
design;
3.7 terminography
international organization, na-
- owner/user:
recording, processing and presentation of term-
tional institution, Company, individual; free
inological data
access or restricted access;
NOTE 5 Adapted from SS0 1087:1990.
on-line or off-line retrieval of
- applications:
terms for computer-aided translation, print-
3.8 term bank
outs (e.g. containing all entries within a
terminological data bank
subject field as basic material for a working
data bank containing terminological data
group), production of printed vocabularies,
Computer typesetting); use in expert Systems
or machine translation Systems.
3.9 terminological database
database containing terminological data
Other types of data collection may be integrated
with the terminological data collection, e.g.:
3.10 terminological data collection
collection of data containing information on con-
- full text databases (see also clause 20);
cepts of specific subject fields
- graphical databases;
3.11 terminological entry
- numerical databases;
part of a terminological data collection that con-
tains the terminological data related to one
- bibliographical databases.
concept
NOTE 6 See also ISO 1087: 1990, su belause 6.2.2.2.
3.12 text Corpus
Criteria for creating a terminological
5
Corpus
database
systematic collection of machine-readable texts or
Parts of text prepared, coded and stored according
Establishing a terminological database may be
to predefined rules
useful if one or more of the following criteria are
NOTE 7 A text Corpus may be limited according to aspects of met:
subject fields, size or time, e.g. mathematical texts, or certain
periodicals from 1986 onwards. lt is used as Source material for
a) There is a need for a harmonized mono-, bi-,
further Iinguistic analysis or terminology work.
or multilingual terminology at international,
national or Company Ievel.
See also ISO 1087:1990, subclause 6.1.2.2.
NOTE 8
2

---------------------- Page: 6 ----------------------
0 ISO
ISO/TR 12618:1994(E)
There is a permanent need for updating and
Some Systems run on microcomputers with very
b)
revising Iarge volumes of data. limited internal storage, but it is often advisable to
invest in additional RAM capacity. If a database
c) There is a need to search within termino- System interacts with other programs and thus
logical data by means of different criteria or forms an integrated patt of a more powerful
combinations of criteria (e.g. by term in one
System, even more capacity is needed.
language, by subject or by Source).
Most database Systems require additional storage
d) There is a need for presenting data in different space for data management purposes (internal
formats according to user specifications (e.g. markers, indexes etc.) - sometimes up to 10 times
alphabetically or systematically ordered spe- the space needed for the “raw” text of the
cial vocabularies as subsets for machine terminological entries. With an average entry size
translation or computer-aided translation). of, e-g. 1 000 characters (bytes), 1 000 entries may
occupy up to 10 MB storage capacity, although
e) The number of potential users needing fast
many Systems have facilities for reducing the
access to the data is large enough to justify space occupied by the database. There should be
the investment in hardware, Software and facilities for back-up, e.g. on hard disk or disket-tes
human resources (training, programming, or by using streaming tape.
maintenance, etc.).
A terminological database may be made available
f) The human resources needed are available on Optical media, e.g. CD-ROM (Compact Disk -
both for the training of the personnel and for Read-Only Memory), which tan hold large
creating and maintaining the database, as amounts of data. Special equipment is needed to
well as the financial resources needed for ac- read an Optical media database.
quiring hardware and Software.
7 Terminological data categories
6 Hardware and Software requirements
The structure and data categories of termino-
The size of the terminological data collection and logical entries must be clearly described. These
the number of potential users will determine descriptions are necessary for data handling.
whether a microcomputer, a minicomputer or a
mainframe Computer is needed. Data categories should be defined and delimited
independently. Thus each data element tan be
Various types of Software tan be used for unambigously assigned to one and only one
recording and using terminological data collec- category. “Subject classification” is an example of
tions, e.g. word processing Systems, dictionary a data category. “UDC 621” or “UDC 347” could
editing Systems, database management Systems then be relevant data elements.
and information retrieval Systems. Database man-
agement Systems - and to some extent infor- Other examples of data categories are:
mation retrieval Systems - are the most flexible
Systems for handling data. This Technical Report, - term;
therefore, focuses on the creation and use of a - grammatical information;
terminological database by means of a database - definition;
management System or an information retrieval - context;
System. In the following text, “database System” is - collocation;
used to cover both database management Systems - relation between concepts;
and information retrieval Systems. - Source references.
Many database Systems are available for different Different types of data collection require different
operating Systems, in either Single- or multi-user combinations of data categories. A database used
Versions. Some Systems run on micro-, mini-, and for producing printed dictionaries contains data
mainframe Computers. Ideally it should be pos- categories different from those in a database used
sible to upgrade a System (from the micro- to the for the retrieval of individual terms. Different user
minicomputer version or from the Single-User to groups (e.g. students, translators, subject field
the multi-user Version) (see clause 18). experts) need different types of information.

---------------------- Page: 7 ----------------------
0 ISO
ISO/TR 12618:1994(E)
Very often a terminological database is multi-
regional usage restrictions. lt is often necessary to
functional. lt is not, however, always possible to
append a number of items to each term (e.g.
foresee all future needs during the planning Stage.
Source references, collocations, notes, etc.) The
Therefore it is advisable to define a database
terms illustrated in figure 1 could also be arranged
structure to be as flexible as possible so that it as one preferred term (in the TERM field) and two
allows for the addition of new data categories at admitted terms (in a SYNONYM field). This
any later Stage.
procedure would apply in a terminological data-
base for standardized terminology.
Esch terminological entry contains the information
on one concept in one or more languages. lt may,
however, sometimes be sensible to include
8 Data structure
partially equivalent concepts in two languages in
the Same entry if, despite the differentes, it is
8.1 Terminological data structure
reasonable to use the terms for the two languages
as translations of each other. In such cases,
To be able to describe the structure of the entries
however, the differentes between the two
in a terminological data collection, information is
concepts should be clearly indicated in a note on
needed on the relations between the data ele-
equivalence.
ments.
Within subject fields where there are no significant
Esch data element is related to the concept as a
equivalence differentes - which is often the case
whole or to any other data element, typically a
in technical subject fields - one entry tan contain
term. Data elements may be optional or man-
information on more than two languages. In
datory, repeatable or not.
subject fields like law, social sciences, education,
etc. the equivalence differentes often make a
The internal data format normally differs from the
multilingual approach impossible. In such cases it
extemal format, i. e. the format presented to the
is better that the information in each entry refer to
User.
a Single language pair. Ideally, it should be
Data elements such as definition, responsible
possible to store mono-, bi- and multilingual
terminologist, etc. are customarily related to the
terminology in the same database.
concept. Part of Speech, collocations, etc. are re-
lated to terms. Source reference may be related to
A database may consist of language pairs, where
definitions, terms, collocations, etc. These rela-
one language is always the Same, e.g. English in
tionships are illustrated in figure 1.
an English term bank. In case searches between
two other languages, e.g. French and German,
Responsible
terminologist
should be permitted, it is advisable to build in
automatically generated restrictions or warnings
that Point out that the equivalence relationship is
\
Definition - Concept
only established between a given language and
English. If, for example, an English concept is
related to both a German and a French concept,
1 /Tl
Source and partial equivalence has been shown in both
language pairs (English-German and English-
French), the user should be informed that the
equivalence relationship between German and
Source Source Part of
Collocation Collocation
French has not been verified.
reference reference
Speech
In ideal cases the terminology of a subject field is
Sout-Le
worked out in parallel in two or more languages.
reference
Concept Systems are established, and concepts are
defined independently for all the languages.
Figure 1 - Data elements in a monolingual entry
Equivalence relationships between the languages
with three synonymous terms
are then established by comparing the definitions
and the Systems of concepts (see ISO 860). All
information
The terms in figure 1 are synonymous terms that categories, definitions, contexts,
may be accompanied by information on stylistic or sources, etc., may be supplied for each concept in
4

---------------------- Page: 8 ----------------------
0 ISO
ISO/TR 12618:1994(E)
8.2 Database implementation
all the languages. Consequently no language is
considered as the Source or the target language in
To establish a terminological database, a form-
the data base.
alized description of the data structure is needed.
For this purpose, various types of diagrams may
When the database is used for interactive retrieval
be used. One type of diagram is the entity-
and production of a printed vocabulary, each
relationship diagram for the description of the
language may be Chosen as either the Source or
data structure in a hierarchical, relational or net-
the target language, and it is possible to select
work database. The simplified tree structure of a
different subsets of information according to the
terminological entry in figure 1 may be repre-
user group and purpose of the dictionary (see
sented in an Entity-Relationship diagram as shown
clause 11).
in figure 2, where the following types of relation-
ship occur:
When a concept in one language does not have an
- one-to-one (IA) relationships, e.g. between
equivalent in another language a translation may
term and patt of Speech;
be suggested, but this proposed translation
- one-to-many (Im) relationships, e.g. between
should never appear as a Source language term in
concept and term;
a printed dictionary. Therefore, such proposed
- many-to-many (n:m) relationships, e.g. be-
translations need to be marked as such in the
tween term and collocation.
data base.
Responsible
terminologist
L--J
1
Concept
1 identification /
Definition
1
m
- Collocation
Explanation of symbols
II Entity type Relationship type
Figure 2 - Example of an entity-relationship diagram for a terminological database

---------------------- Page: 9 ----------------------
0 ISO
lSO/TR 12618:1994(E)
The structure of the terminological entry is imple-
defref
mented in different ways in various types of
System. Figure 3 illustrates one possible imple-
mentation in a relational database System of the
data structure shown in figure 2.
concept
ID LANG RESP
60201 da HPL
160201 Ifr 1 HPL I
term
160201 1 es 1 MMJ I
1 ID 1 LANG 1 TNO 1 TERM
1
160201 1 da 11 1 forsi krino
160201 Ifr 11 1 assurance
I
160201 Im& 11 1SeiiK~ 1
160204 1 da 11 [ I ivsforsiksikrK~~~ 1
1 60204 1 fr 1 I TZXKrancesuXZYie
1
160204 1 fr assurance-vie
12 1 1
160204 1 es 11 1 seguro sobre Ia vida
def 160204 1 es 12 1 seguro de vida I
ID LANG DEF
I I I I I
Juridisk er forsikring en aftale, hvor den
60201 da
ene Part, forsikringsgiveren, forpligter sig
til at udbetale en erstatning til den anden
Part, forsikringstageren, safremt en af
termref
aftelen omfattet begivenhed indtraeder.
1 ID 1 LANG 1 TNO 1 REF I
Som modydelse betaler forsikringstageren
en praemie. 160201 I da 11 I Bat D 9 I
160201 Ifr II I Bes p 2 I
160201 Ies II 1 MMJ I
60201 fr Une Operation par laquelle une Partie,
160204 I da 11 I PL D 383 I
I ’assure, se fait promettre, moyennant une
remuneration, Ia Prime, pour lui ou pour un 60204 fr 1 Bes p 32
tiers, en cas de realisation d ’un risque, une 60204 fr 2 Vey II p 180
prestation par une autre Partie, l ’assureur,
60204 es 1 CCE p 416
qui, prenant en Charge un ensemble de
2 MMJ
60204 es
risques, les compenses conformement aux
lois de Ia statistique.
60204 da Ved Iivsforsikring forstas dels en forsikring,
hvor forsikringssummen udbetales ved
eller en bestemt tid efter en persons dgd,
og dels en forsikring, hvor summen
udbetales i Ievende live, fx. ved opnaelse af
en bestemt alder eller ved indgaelse af
aegteskab.
Les assurances sur Ia vie sont destinees a
60204 fr
garantir, soit Ie risque de mort de Ia I I l I I I
personne assuree (assurance en cas de
deces), soit Ie risque de sa survie a une
epoque determinee (assurance en cas de
vie).
collref
60204 es El seguro sobre Ia vida comprendera todas
ID LANG TNO CNO REF
cas combinacion que pueden hacerse,
60201 da 1 1 PL p 126
pactando entregas de Primas o entrega de
60201 da 1 2 Bat p 11
capital a cambio de disfrute de renta
60201 fr 1 1 Bes p 75
vitalicia o hasta cierta edad, o percibo de
60201 fr 1 2 Bes p 75
capitales al fallecimiento de persona cierta.
I I I I I I
Figure 3 - Tables in a relational database with Sample data
6

---------------------- Page: 10 ----------------------
0 ISO
lSO/TR 12618:1994(E)
In a relational database the terminological entry is maximum of about one million will often be
Split up into several records in various inter- suff icient);
connected tables. As an example, the relationship
between a concept and one or more synonymous - no limit to the number of fields (data ele-
terms is given by means of IDentification number ments) per entry;
and LANGuage. During retrieval, data elements
connected to one terminological entry are linked - no limit to the number of characters per field
together and presented as a unit. (field length).
In other Systems, e.g. an information retrieval sys- A database System that allowed only fixed-length
tem, all data elements of one terminological entry data fields would be inadequate, because termino-
are stored in one record. Regardless of the type of logical data often are of variable length and may
System used, it is very important for interactive include optional data elements.
retrieval, production of vocabularies and data ex-
Change that each data element and its connections
to other data elements tan be identified sep-
arately. If this requirement is not met, it is not
possible, for example, to specify user-group-
specific search and presentation profiles (see 11.9).
9 Data input
8.3 Modifying the data structure
Data may be entered by interactive or batch data
input or by combinations of these.
Although a prescribed entry structure is needed
before a term bank tan be set up, there should be
9.ll Interactive data input
facilities for making changes in the data structure
at any time.
Most database Systems have the capability for
direct data input and allow updating and
For instance, it should be possible to
corrections in interactive mode. This normally
means that corrected data are immediately avail-
- add a field;
able for retrieval purposes. This form of data input
- reorganize hierarchical structures;
is practical only when limited volumes of data are
- Change the Order of fields;
to be entered. Otherwise, updating takes place at
- subdivide or merge fields;
regular intervals.
- Change the data types of fields (e.g. integer,
Character, date).
9.2 Batch data input
EXAMPLE
Database Systems will normally have a batch input
In the first version of a terminological data-
capability to transfer externally created data to the
base, synonymous terms are classified as one
database proper. Data are entered using an ex-
term (TERM field) and one or more Synonyms
ternal data entry Utility and transferred to the
(SYNONYMS field). At a later Stage it is de-
database as a batch process when a suitable
cided to classify all synonymous terms as
amount of data has been entered. The extemal
terms and delete the SYNONYM field (see
entry Utility may, for instance, be a word-
. .
8 1)
processing program.
Ideally, names of the fields should be mnemonic
Terminological data in machine-readable form and
abbreviations such as TERM, DEF, REF, etc.
data that may be made machine-readable, e.g. by
Optical scanning, tan normally be transferred to a
8.4 Quantitative requirements terminological database. Such data usually have
to be restructured in terms of record format and
Some database Systems have quantitative restric-
Character set. The nature and extent of the
tions which are unacceptable for terminology
restructuring will depend on the Source data. If
work, where the following conditions need to be
Source data are printed dictionary data, the
satisfied:
typeface and the punctuation have to be analysed
to determine the corresponding categories. In
no limit to the nu mber of terminolo gical
some cases, very sophisticated and specialized
entries included in th e data base (in practi ce, a
parsing programs need to be developed.

---------------------- Page: 11 ----------------------
0 ISO
ISO/TR 12618:1994(E)
9.3 Word-processing and checking Utilities content (e.g. information on subject field) may be
entered automatically in some or all records.
Extensive word-processing capability should be
provided for entering, editing, modifying and lt should be possible to carry out changes in one
correcting data. record or to Change a specified content of one field
in all or selected records of the database. For
Data Validation is needed in connection with data example, it should be possible to Change an
entry and editorial changes (for example, for abbreviation of a given subject field for all con-
checking on field names, field content and field cepts belonging to this subject field.
Order). Most database Systems already offer these
capabilities, but if special data entry programs are
developed, it is advisable to provide a Validation
10 Character set
Utility.
The Character set should be as open-ended as
Examples of data Validation:
possible. Ideally, additions to the Character set
should be possible at any Stage. For most
- DO uble-entry check: a check to determine that
terminological projects, special characters are
an entry is stored on once.
IY needed that are not part sf the Standard set.
Special characters should be directly accessible,
- Consistency check: a check to deter
...

ISO
RAPPORT
TR 12618
TECHNIQUE
Première édition
1994-I 1-l 5
Aides à apporter par les ordinateurs dans les
travaux de terminologie - Création et
utilisation de bases de données
terminologiques et de corpus de textes
Creation and use of terminological
Computational aids in terminology -
databases and text corpora
Numéro de référence
ISO/TR 12618:1994(F)

---------------------- Page: 1 ----------------------
ISO/TR 12618:1994(F)
Sommaire
Page
...
III
Avant-propos .
...................................................................................... iv
Introduction
1
1 Domaine d’application .
1
2 Références .
1
3 Définitions .
............................ 2
4 Types d’ensembles de données terminologiques
5 Critères de création d’une base de données terminologiques . 2
6 Besoins de matériel et de logiciel . 3
7 Catégories de données terminologiques . 3
8 Structure des données . 4
9 Entrée des données . 7
10 Jeux de caractères . 8
11 Extraction des données . 8
.
12 Tri . 11
Production d’imprimés et de vocabulaires imprimés . 12
13
14 Protection des données . 12
...................................................................... 12
15 Transfert des données
.................................................................. 12
16 Réaction des utilisateurs
12
17 Maintenance et mise à jour .
18 Portabilité . 13
19 Transmission des données . 13
20 Création et utilisation d’un corpus de textes . 13
0 ISO 1994
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’auteur.
Organisation internationale de normalisation
Case postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1995
Imprimé en Suisse
ii

---------------------- Page: 2 ----------------------
@ ISO
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération
mondiale d’organismes nationaux de normalisation (comités membres de
I’ISO). L’élaboration des Normes internationales est en général confiée aux
comites techniques de I’ISO. Chaque comité membre intéressé par une
étude a le droit de faire partie du comité technique créé à cet effet. Les
organisations internationales, gouvernementales et non gouvernemen-
tales, en liaison avec I’ISO participent également aux travaux. L’ISO colla-
bore étroitement avec la Commission électrotechnique internationale (CEI)
en ce qui concerne la normalisation électrotechnique.
La tâche principale des comités techniques de I’ISO est d’élaborer les
Normes internationales. Exceptionnellement, un comité technique peut
proposer la publication d’un rapport technique de l’un des types suivants:
- type 1: lorsque, en dépit de maints efforts, l’accord requis ne peut être
réalisé en faveur de la publication d’une Norme internationale;
- type 2: lorsque le sujet en question est encore en cours de dévelop-
pement technique ou lorsque, pour toute autre raison, la possibilité
d’un accord pour la publication d’une Norme internationak ? peut être
envisagée pour l’avenir mais pas dans l’immédiat:
- type 3: lorsqu’un comité technique a réuni des données de nature dif-
férente de celles qui sont normalement publiées comme No mes inter-
nationales (ceci pouvant comprendre des informations sur I ‘état de la
technique, par exemple).
Les rapports techniques des types 1 et 2 font l’objet d’un nouvel examen
trois ans au plus tard après leur publication afin de décider éventuellement
de leur transformation en Normes internationales. Les rapports techniques
du type 3 ne doivent pas necessairement être révisés avant que les don-
nées fournies ne soient plus jugées valables ou utiles.
L’ISO/rR 12618, rapport technique du type 3, a été élaboré par le comité
technique lSO/TC 37, Terminologie (principes et coordination), sous-comité
SC 3, Aides à apporter par les ordinateurs dans les travaux de
terminologie.

---------------------- Page: 3 ----------------------
liSO/TR 12618:1994(F) @ ISO
Introduction
Comme le présent Rapport technique se limite aux aides informatiques
utilisées pour la réalisation de travaux terminologiques, il convient que
l’utilisateur consulte I’ISO 704 et I’ISO 1087 pour les principes de base en
terminologie.
En plus des conseils qui sont donnés dans le présent Rapport technique
sur la création et l’utilisation de bases de données terminologiques, il se-
rait bon de consulter I’ISO 6156 et I’ISO 12200 sur le format d’échange
normalisé des données terminologiques et lexicographiques.
Les ordinateurs peuvent être utilisés à divers stades de la préparation et
de l’utilisation d’ensembles de données terminologiques. La préparation
d’ensemble de données terminologiques suppose les étapes suivantes:
définition de la portée;
a)
désignation, choix et enregistrement des sources;
b)
c) collecte des termes, définitions, explications, exemples de textes,
etc.;
d) élaboration des systèmes de notions;
étab lissement des relations d’équivalence entre les notions en deux
e)
lang ues ou plu
s;
f) enregistrement de l’information terminologique, y compris I’informa-
tion sur les systèmes de notions;
mise à jour des données terminologiques.
g)
Ces étapes sont énumérées dans l’ordre chronologique du processus,
mais elles se chevauchent souvent et chacune peut devoir être reprise.
Selon le type de projet et de ressources, les ordinateurs peuvent se révé-
ler utiles dans bon nombre d’étapes, en particulier b), c), f) et g).
L’utilisation automatisée d’ensembles de données terminologiques com-
prend l’extraction de l’information terminologique stockée dans une base
de données ainsi que la production d’imprimés et de dictionnaires.
Dans le présent Rapport technique, l’accent est mis sur la création et la
maintenance d’une base de données terminologiques [c’est-à-dire les éta-
pes f) et g)]. Une brève introduction à la création et à l’utilisation d’un cor-
pus de textes pouvant servir à l’étape c) est donnée a l’article 20; il ne faut
pas oublier que la création d’un corpus de textes précède la création d’une
base de données terminologiques. L’information sur l’étape b), toutefois,
dépasse le domaine d’application du présent Rapport technique.

---------------------- Page: 4 ----------------------
ISO/TR 12618:1994(F)
RAPPORT TECHNIQUE @ ISO
Aides à apporter par les ordinateurs dans les travaux de
terminologie - Création et utilisation de bases de données
terminologiques et de corpus de textes
1 Domaine d’application
ISO 6156:1987, Format d’échange sur bande magné-
tique des données terminologiques et/ou lexicogra-
Le présent Rapport technique fournit des conseils sur
phiques (MA TER).
les principes de base et les méthodes qu’il faut res-
pecter pour avoir recours à l’informatique dans la pré-
lSO/TR 8393:1985, Documentation - Règles de clas-
paration et l’utilisation d’ensembles de données ter-
sement bibliographique de /‘/SO (Règles standards
minologiques. II vise particulièrement la création et
in terna tionales de classement bibliographique) -
l’utilisation de bases de données terminologiques et
Contré tisa tion des principes de classement bibliogra-
de corpus de textes.
phique par des régles modèles.
ISO 8777:1993, Information et documentation -
2 Références
Commandes pour les systèmes interactifs de recher-
Les normes suivantes contiennent des dispositions
che d’information.
qui, par suite de la référence qui en est faite, consti-
tuent des dispositions valables pour le présent Rap-
ISO 8879:1986 [+ Amd I:l 9881, Traitement de I’in-
port technique. Au moment de la publication, les édi-
formation - Systèmes bureautiques - Langage
tions indiquées étaient en vigueur. Toute norme est
normalisé de balisage généralisé (SGML).
sujette à révision et les parties prenantes des accords
lSO/CEI 9075: 1992, Technologies de l’information -
fondés sur le présent Rapport technique sont invitées
à rechercher la possibilité d’appliquer les éditions les Langages de base de données - SQL.
plus récentes des normes indiquées ci-aprés. Les
I S 0 1024 1: 1992, Normes terminologiques in terna tio-
membres de la CEI et de I’ISO possèdent le registre
nales - Élaboration et présen ta tion.
des Normes internationales en vigueur à un moment
donné.
ISO 12200: -Il, Aides à apporter par les ordinateurs
ISO 704:1987, Principes et méthodes de la termino-
dans les travaux de terminologie - Format d’échange
logie.
terminologique (TIF) - Une application SGML.
ISO 860: 1994, Travaux de terminologie - Harmonisa-
tion in ternationale des notions et des termes.
3 Définitions
ISO 1087: 1990, Terminologie - Vocabulaire.
Pour les besoins du présent Rapport technique, les
ISO 1087-2:- l) , Travaux de terminologie - Vocabu-
définitions suivantes s’appliquent.
laire - Partie 2: Aides à apporter par les ordinateurs
dans les travaux de terminologie. NOTE 1 La plupart de ces définitions seront intégrées à
I’ISO 1087-Z et elles sont encore provisoires.
lSO/CEI 2382-l :1993, Technologies de l’information -
Vocabulaire - Partie 1: Termes fondamen taux.
3.1 banque de données
ensemble de bases de données comprenant le cadre
ISO 2382-4:1987, Systèmes de traitement de I’infor-
organisationnel qui les gère
mation - Vocabulaire - Partie 4: Organisation des
données. NOTE 2 Voir aussi lSO/CEI 2382-l :1993.
1) À publier.

---------------------- Page: 5 ----------------------
@ ISO
ISO/TR 12618:1994(F)
3.2 base de données 4 Types d’ensembles de données
ensemble de donnees organisé selon une structure
terminologiques
conceptuelle
Les critères suivants influent sur la manipulation des
NOTE 3 Adaptée de I’ISO/CEI 2382-1 :1993.
ensembles de données terminologiques et sur leur
accès:
3.3 catégorie de données
- volume: nombre d’entrées, domaines, langues,
type d’éléments de données
types de données;
instruction pour interpréter une zone de données dé-
terminee
- matériel: micro-ordinateur, mini-ordinateur, ordi-
nateur central; disque dur, disquette, CD-ROM;
3.4 élément de données
système autonome ou réseau;
plus petite unité identifiable du contenu dans un en-
registrement donné - logiciel: système de gestion de base de don-
nées, système de recherche documentaire, sys-
tème d’édition de dictionnaire; conception stan-
3.5 zone de données
dard ou personnalisée;
portion de longueur variable ou fixe d’un enregistre-
ment renfermant un élement de données particulier
- propriétaire/utilisateur: organisation internatio-
nale, institution nationale, société, particulier; ac-
NOTE 4 Adaptée de I’ISO 6156:1987.
cès libre ou restreint;
3.6 enregistrement
- applications: extraction en ligne ou hors ligne
ensemble d’éléments de données considéré comme
des termes pour la traduction assistée par ordina-
un tout [ISO 2382-4:19871
teur, imprimés (par exemple contenant toutes les
entrées d’un domaine comme matériel de base à
3.7 terminographie
l’intention d’un groupe de travail), production de
consignation, traitement et présentation des données
vocabulaires imprimés (composition par ordina-
terminologiques
teur); utilisation dans des systèmes experts ou
dans des systèmes de traduction machine.
NOTE 5 Adaptée de I’ISO 1087:1990.
D’autres types d’ensembles de données peuvent être
3.8 banque de termes
intégrés à des ensembles de données terminologi-
banque de données terminologiques
ques, par exemple:
banque de données renfermant des données termino-
- bases de données de textes intégraux (voir aussi
logiques
article 20);
3.9 base de données terminologiques
bases de données graphiques;
base de données renfermant des données terminolo-
- bases de données numériques;
giques
- bases de données bibliographiques.
3.10 ensemble de données terminologiques
ensemble de données contenant de l’information sur
des notions de domaines précis
5 Critères de création d’une base de
données terminologiques
3.11 entrée terminologique
partie d’un ensemble de données terminologiques qui
renferme des données terminologiques reliées à une
seule notion
NOTE 6 Voir aussi ISO 1087:1990, paragraphe 6.2.2.2.
a) II faut uniformiser la terminologie monolingue, bi-
lingue ou multilingue au niveau international ou
3.12 corpus de textes
national ou au niveau de l’entreprise.
corpus
ensemble systématique de données exploitables par
b) II existe un besoin perma nent de mise à jour ou
machine, de textes ou de parties de texte, préparés,
de révision de volumes im portants de don nées.
codés et stockés selon des règles prédéfinies
c) II existe un besoin de consultation de données
NOTE 7 Un corpus de textes peut être limité selon les
terminologiques au moyen de critères différents
aspects des domaines, volumes ou temps, par exemple
ou de combinaisons de critères (par exemple, par
des textes mathématiques, ou certains périodiques publiés
terme dans une langue, par sujet ou par source).
depuis 1986. II est utilisé en tant que source pour des tra-
vaux ultérieurs d’analyse linguistique ou de terminologie.
d) II existe un besoin de présentation des données
dans des formats différents selon les spécifica-
NOTE 8 Voir aussi ISO 1087:1990, paragraphe 6.1.2.2.
tions de l’utilisateur (par exemple, vocabulaires

---------------------- Page: 6 ----------------------
ISO/TR 12618:1994(F)
@ ISO
fois jusqu’à 10 fois l’espace requis pour le texte
spéciaux classés alphabétiquement ou systéma-
«brut)) des entrées terminologiques. Par exemple, si
tiquement comme sous-ensembles pour traduc-
d’une entrée
tion machine ou assistée par ordinateur). le volume moyen est de
1 000 caractères (octets), 1 000 entrées peuvent oc-
e) Le nombre d’utilisateurs éventuels nécessitant un
cuper jusqu’à 10 Mo d’espace mémoire, bien que
accès rapide aux données est suffisamment
beaucoup de systèmes aient des fonctions qui rédui-
élevé pour justifier l’investissement en matériel,
sent l’espace occupé par la base de données. II de-
logiciel et ressources humaines (formation, pro-
vrait y avoir des fonctions de sauvegarde, sur disque
grammation, maintenance, etc.).
dur ou sur disquette, ou sur une unité à bande ma-
gnétique.
Les ressources humaines nécessaires sont dis-
f 1
ponibles pour la formation du personnel et pour la
Une base de données terminologiques peut être ac-
création et la maintenance de la base de don-
cessible sur support optique, par exemple sur disque
nées, tout comme le sont les ressources financiè-
compact CD-ROM, qui peut contenir de grandes
res pour l’acquisition du matériel et du logiciel.
quantités de données. II faut du matériel spécial pour
consulter une base de données sur support optique.
6 Besoins de matériel et de logiciel
7 Catégories de données
Le volume de l’ensemble de données terminologiques
terminologiques
et le nombre d’utilisateurs éventuels déterminent s’il
faut un micro-ordinateur, un mini-ordinateur ou un or-
La structure et les types de données des entrées
dinateur central.
terminologiques doivent être clairement décrits. Ces
On peut se servir de divers types de logiciels pour en- descriptions sont nécessaires à la manipulation des
registrer et utiliser des ensembles de données termi- données.
nologiques, par exemple des systèmes de traitement
de texte, des systèmes d’édition de dictionnaire, des II convient que les types de données soient définis et
systèmes de gestion de base de données et des sys- délimités indépendamment. Ainsi, chaque élément de
tèmes de recherche documentaire. Les systèmes de données peut être attribué sans ambiguïté à un seul
gestion de base de données - et dans une certaine type. La ((classification des domaines)) est un exem-
mesure les systèmes de recherche documentaire - ple de type de données. «CDU 621)) ou ((CDU 347))
sont les systèmes les plus souples pour la manipula- pourraient donc être des éléments de données perti-
tion des données. Par conséquent, le présent Rapport nents.
technique met l’accent sur la création et l’utilisation
d’une base de données terminologiques à l’aide d’un Voici d’autres exemples de types de données:
systéme de gestion de base de données ou d’un sys-
- terme;
terne de recherche documentaire. Dans le texte qui
suit, l’expression «système de base de données)) vaut
- information grammaticale;
tant pour les systèmes de gestion de base de don-
- définition;
nées que pour les systèmes de recherche documen-
taire.
- contexte;
- collocation;
Beaucoup de systèmes de base de données sont dis-
ponibles pour différents systèmes d’exploitation, en
- relation entre notions;
versions monoutilisateur ou multiutilisateur. Certains
systèmes tournent sur micro-ordinateur, mini-ordina- - sources.
teur et ordinateur central. Idéalement, il devrait être
possible de faire passer le système a une puissance Des ensembles de données différents nécessitent
supérieure (de la version micro-ordinateur à la version
des combinaisons différentes de types de données.
miniordinateur ou de la version monoutilisateur a la
Une base de données qui sert à produire des diction-
version multiutilisateur, voir article 18).
naires imprimés contient des types de données diffé-
rents de ceux d’une base servant à la recherche de
Certains systèmes tournent sur des micro-ordinateurs
termes individuels. Des groupes d’utilisateurs diffé-
dotés d’une mémoire interne très limitée, mais il est
rents (par exemple, des étudiants, des traducteurs,
souvent recommandable d’investir dans. de l’espace
des experts) ont besoin d’informations différentes.
mémoire vive supplémentaire. Si le système dialogue
avec d’autres programmes et fait ainsi partie inté-
Bien souvent, une base de données terminologiques
grante d’un système plus puissant, il faut encore da-
est multifonctionnelle. Toutefois, il n’est pas toujours
vantage d’espace mémoire.
possible de prévoir tous les besoins à l’étape de la
planification. II est donc conseillé de définir une struc-
La plupart des systèmes de base de données ont be-
ture de base de données qui soit la plus souple possi-
soin d’espace mémoire supplémentaire pour la ges-
ble afin de pouvoir ajouter de nouveaux types de don-
tion des données (marques internes, index, etc.), par-
nées a n’importe quelle étape.
3

---------------------- Page: 7 ----------------------
@ ISO
ISO/TR 12618:1994(F)
sonnable d’utiliser les termes comme traduction l’un
8 Structure des données
de l’autre. Dans ce cas, les différences entre les deux
notions doivent être clairement indiquées dans une
8.1 Structure des données terminologiques
note sur l’équivalence.
Afin de pouvoir décrire la structure des entrées dans
Dans des domaines où il n’y a pas de différences im-
un ensemble de données terminologiques, il faut avoir
portantes d’équivalence - ce qui est souvent le cas
de l’information sur les relations entre les éléments de
dans les domaines techniques - une entrée peut
données
contenir de l’information dans plus de deux langues.
Dans les domaines comme le droit, les sciences
Chaque élément de données est relié a la notion dans
sociales, l’éducation, etc., les différences d’équiva-
son ensemble ou à tout autre élément de donnée, gé-
lence rendent souvent l’approche multilingue impos-
néralement un terme. Les éléments de données peu-
sible. Dans ce cas, il vaut mieux que l’information de
vent être facultatifs ou obligatoires et on doit pouvoir
chaque entrée se rapporte à une seule paire de lan-
les répéter ou non.
gues. Idéalement, il devrait être possible de stocker
une terminologie unilingue, bilingue et multilingue
Le format interne des données diffère normalement
dans la même base de données.
du format externe, c’est-à-dire le format présenté à
l’utilisateur.
Une base de données peut se composer de paires de
langues, une des langues étant toujours la même, par
Certains éléments de données comme la définition, le
terminologue responsable, etc., sont habituellement exemple l’anglais dans une banque de termes anglais.
reliés à la notion. La partie du discours, les colloca- Si l’on veut permettre des recherches dans deux au-
tions, etc., sont reliés aux termes. La source peut être tres langues, par exemple le français et l’allemand, il
reliée aux définitions, aux termes, aux collocations, est conseillé de prévoir des restrictions ou des avertis-
etc. Ces relations sont illustrées à la figure 1. sements automatiques signalant que la relation
d’équivalence n’est établie qu’entre une langue don-
née et l’anglais. Par exemple, si une notion anglaise
Terminologue
est reliée à une notion allemande et à une notion fran-
responsable
çaise, et s’il y a une équivalence partielle dans les
deux paires de langues (anglais-allemand et an-
glais-français), l’utilisateur doit être informé que la
\
Def inition - Notion relation d’équivalence entre l’allemand et le français
n’a pas été vérifiée.
l 1
Idéalement, la terminologie d’un domaine doit être
Terme Terme
Source Terme
établie parallèlement en deux langues ou plus. Les
systèmes de notions sont établis et les notions sont
définies indépendamment pour toutes les langues.
Collocation CoLLoca tion Partie du
Source Source
Les relations d’équivalence entre les langues sont en-
discours
suite établies en comparant les définitions et les sys-
tèmes de notions (voir ISO 860). Toutes les catégories
d’information, définitions, contextes, sources, etc.,
Source
peuvent être fournies pour chaque notion dans toutes
. les langues. Par conséquent, aucune langue n’est
ure 1 - Éléments de données dans une entrée
Fig
considérée comme langue-source ou une langue-cible
uni lingue avec trois termes synonymes
dans la base de données.
Les termes de la figure 1 sont des synonymes qui
Lorsque la base de données est utilisée pour I’interro-
peuvent être accompagnés d’information sur les res-
gation interactive de termes ou pour la production
trictions d’usage stylistique ou régional. II faut souvent
d’un vocabulaire imprimé, chaque langue peut être
ajouter certains éléments à chaque terme (par exem-
choisie comme langue-source ou langue-cible, et il est
ple sources, collocations, notes, etc.). Les termes il-
possible de choisir différents sous-ensembles d’in-
lustrés à la figure 1 pourraient aussi être organisés en
formation selon le groupe d’utilisateurs et l’objet du
un seul terme privilégié (dans la zone TERME) et en
dictionnaire (voir article 1 1).
deux termes admis (dans une zone SYNONYME).
Cette méthode s’applique à une base de données
terminologiques pour une terminologie uniformisée.
Lorsqu’une notion dans une langue n’a pas d’équiva-
lent dans une autre langue, une traduction peut être
Chaque entrée terminologique renferme de I’informa- suggérée, mais cette dernière ne doit jamais figurer
tion sur une notion dans une ou plusieurs langues. Il
comme terme de la langue-source dans un diction-
peut toutefois être valable d’inclure des notions par-
naire imprimé. Par conséquent, ces traductions pro-
tiellement équivalentes en deux langues dans la
posées doivent être signalées comme telles dans la
même entrée si, en dépit des différences, il est rai-
base de données.
4

---------------------- Page: 8 ----------------------
@ ISO ISO/TR 12618:1994(F)
- relations plusieurs-à-plusieurs (n:m), par exemple
8.2 Établissement d’une base de donnbes
entre terme et collocation.
Pour établir une base de données terminologiques, il
faut une description formelle de la structure des don- La structure d’une entrée terminologique est mise en
nées. À cette fin, on peut utiliser divers types de dia- place de façons différentes dans divers systèmes. La
grammes. L’un deux est le diagramme entité-relation figure 3 illustre une des façons possibles, dans un
qui sert à décrire la structure des données dans une
système de base de données relationnelle, de mettre
base de données hiérarchique ou relationnelle ou en-
en place la structure de données (illustrée à la fi-
core dans une base de données en réseau. La struc-
gure 2).
ture arborescente simplifiée d’une entrée terminologi-
Dans une base de données relationnelle, l’entrée
que de la figure 1 peut être représentée dans un dia-
terminologique est divisée en plusieurs enregistre-
gramme entité-relation comme l’illustre la figure 2
ments dans diverses tables interreliées. Par exemple,
dans laquelle on peut observer les types de relations
la relation entre une notion et un ou plusieurs syno-
suivants:
nymes est établie au moyen du numéro d’lDentifica-
- relations un-a-un (1 :l ), par exemple entre terme
tion et de la LANGue. Pendant l’extraction, les élé-
et partie du discours;
ments de données reliés a une même entrée
terminologique sont regroupés et présentés comme
- relations un-à-plusieurs (I:n), par exemple entre
une seule unité.
notion et terme;
I
v
1
c
Def inition
1 Partie du
discours
,
Explication des symboles
o Type d’entite 0 Type de relation
Figure 2 - Exemple de diagramme entité-relation d’une base de données terminologiques

---------------------- Page: 9 ----------------------
lSO/TR 12618:1994(F) @ ISO
defref
concept
ID LANG REF
60201 da Bac p 9
60201 fr BES p 2
60204 da
PL p 383
60204 fr Bes p 32
60204 da HPL
60204 es CC416
60204 fr HPL
MMJ
60204 es
term
ID LANG TN0 TERM
60201 da 1 forsi kring
60201 fr 1 assurance
60201 es 1
seguro
60204 da 1 livsforsi kring
def
60204 fr 1 assurance sur la vie
ID LANG DEF
60204 fr
2 assurance-vie
60204 es 1 seguro sobre la vida
60201 da Juridisk er forsikring en aftale, hvor den
ene part, forsikringsgiveren, forpligter sig 60204 es 2 seguro de vida
til at udbetale en erstatning til den anden
part, forsikringstageren, safremt en af
aftelen omfattet begivenhed indtraeder.
termref
Som modydelse betaler forsikringstageren
en praemie.
60201 fr Une opération par laquelle une partie,
l’assuré, se fait promettre, moyennant une
rémunération, la prime, pour lui ou pour un
tiers, en cas de réalisation d’un risque, une
prestation par une autre partie, l’assureur,
qui, prenant en charge un ensemble de
risques, les compenses conformément aux
60204 es 1 CCE p 416
lois de la statistique.
60204 es 2 MMJ
Ved livsforsikring forstas dels en forsikring,
60204 da
hvor forsikringssummen udbetales ved
eller en bestemt tid efter en persons dod,
col1
og dels en forsikring, hvor summen
ID LANG
TN0 CNO COLL
udbetales i levende live, fx. ved opnaelse af
60201 da
1 1 tegne forsi kring
en bestemt alder eller ved indgaelse af
aegteskab. 60201 da 1 2 forsikringen daekker tab
60201 fr 1 1 contracter une assurance
Les assurances sur la vie sont déstinées à
60204 fr
60201 fr 1 2 conclure une assurance
garantir, soit le risque de mort de la
personne assurée (assurance en cas de
décès), soit le risque de sa survie à une
époque déterminée (assurance en cas de vie).
collref
.
ID LANG TN0 CNO REF
60204 es El seguro sobre la vida comprendera todas
60201 da 1 1 PIpl26
cas combinacion que pueden hacerse,
pactando entregas de primas o entrega de 60201 da 1 2 Bac p 11
capital a cambio de disfrute de renta
60201 fr 1 1 Bes p 75
vitalicia o hasta cierta edad, o percibo de
60201 fr 1 2 Bes p 75
capitales as fallecimiento de persona cierta.
I I I I I
I
Figure 3 - Tables d’une base de données relationnelle avec exemple de données

---------------------- Page: 10 ----------------------
@ ISO ISO/TR 12618:1994(F)
Dans d’autres systèmes, par exemple un système de - aucune limite au nombre de zones (éléments de
recherche documentaire, tous les elements de don- données) par entrée;
nées d’une entrée terminologique sont stockes dans
aucune limite au nombre de caractéres par zone
un seul enregistrement. Quel que soit le type de sys-
-
(longueur de zone).
tème utilise, il est trés important pour la recherche in-
teractive, la production de vocabulaires et l’échange
de données que chaque élement de donnée et ses Un système de base de données dans lequel la lon-
relations avec les autres éléments puissent être dé- gueur des zones est fixe ne conviendrait pas parce
que les données terminologiques sont souvent de
terminés séparément. Si cette exigence n’est pas
longueur variable et peuvent renfermer des éléments
respectée, il n’est pas possible, par exemple, de
de données facultatifs.
spécifier des profils de recherche et de représentation
propres à des groupes d’utilisateurs (voir 11.9).
9 Entrée des données
Les données peuvent être introduites par entrée inter-
8.3 Modification de la structure des données
active de
...

ISO
RAPPORT
TR 12618
TECHNIQUE
Première édition
1994-I 1-l 5
Aides à apporter par les ordinateurs dans les
travaux de terminologie - Création et
utilisation de bases de données
terminologiques et de corpus de textes
Creation and use of terminological
Computational aids in terminology -
databases and text corpora
Numéro de référence
ISO/TR 12618:1994(F)

---------------------- Page: 1 ----------------------
ISO/TR 12618:1994(F)
Sommaire
Page
...
III
Avant-propos .
...................................................................................... iv
Introduction
1
1 Domaine d’application .
1
2 Références .
1
3 Définitions .
............................ 2
4 Types d’ensembles de données terminologiques
5 Critères de création d’une base de données terminologiques . 2
6 Besoins de matériel et de logiciel . 3
7 Catégories de données terminologiques . 3
8 Structure des données . 4
9 Entrée des données . 7
10 Jeux de caractères . 8
11 Extraction des données . 8
.
12 Tri . 11
Production d’imprimés et de vocabulaires imprimés . 12
13
14 Protection des données . 12
...................................................................... 12
15 Transfert des données
.................................................................. 12
16 Réaction des utilisateurs
12
17 Maintenance et mise à jour .
18 Portabilité . 13
19 Transmission des données . 13
20 Création et utilisation d’un corpus de textes . 13
0 ISO 1994
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’auteur.
Organisation internationale de normalisation
Case postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1995
Imprimé en Suisse
ii

---------------------- Page: 2 ----------------------
@ ISO
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération
mondiale d’organismes nationaux de normalisation (comités membres de
I’ISO). L’élaboration des Normes internationales est en général confiée aux
comites techniques de I’ISO. Chaque comité membre intéressé par une
étude a le droit de faire partie du comité technique créé à cet effet. Les
organisations internationales, gouvernementales et non gouvernemen-
tales, en liaison avec I’ISO participent également aux travaux. L’ISO colla-
bore étroitement avec la Commission électrotechnique internationale (CEI)
en ce qui concerne la normalisation électrotechnique.
La tâche principale des comités techniques de I’ISO est d’élaborer les
Normes internationales. Exceptionnellement, un comité technique peut
proposer la publication d’un rapport technique de l’un des types suivants:
- type 1: lorsque, en dépit de maints efforts, l’accord requis ne peut être
réalisé en faveur de la publication d’une Norme internationale;
- type 2: lorsque le sujet en question est encore en cours de dévelop-
pement technique ou lorsque, pour toute autre raison, la possibilité
d’un accord pour la publication d’une Norme internationak ? peut être
envisagée pour l’avenir mais pas dans l’immédiat:
- type 3: lorsqu’un comité technique a réuni des données de nature dif-
férente de celles qui sont normalement publiées comme No mes inter-
nationales (ceci pouvant comprendre des informations sur I ‘état de la
technique, par exemple).
Les rapports techniques des types 1 et 2 font l’objet d’un nouvel examen
trois ans au plus tard après leur publication afin de décider éventuellement
de leur transformation en Normes internationales. Les rapports techniques
du type 3 ne doivent pas necessairement être révisés avant que les don-
nées fournies ne soient plus jugées valables ou utiles.
L’ISO/rR 12618, rapport technique du type 3, a été élaboré par le comité
technique lSO/TC 37, Terminologie (principes et coordination), sous-comité
SC 3, Aides à apporter par les ordinateurs dans les travaux de
terminologie.

---------------------- Page: 3 ----------------------
liSO/TR 12618:1994(F) @ ISO
Introduction
Comme le présent Rapport technique se limite aux aides informatiques
utilisées pour la réalisation de travaux terminologiques, il convient que
l’utilisateur consulte I’ISO 704 et I’ISO 1087 pour les principes de base en
terminologie.
En plus des conseils qui sont donnés dans le présent Rapport technique
sur la création et l’utilisation de bases de données terminologiques, il se-
rait bon de consulter I’ISO 6156 et I’ISO 12200 sur le format d’échange
normalisé des données terminologiques et lexicographiques.
Les ordinateurs peuvent être utilisés à divers stades de la préparation et
de l’utilisation d’ensembles de données terminologiques. La préparation
d’ensemble de données terminologiques suppose les étapes suivantes:
définition de la portée;
a)
désignation, choix et enregistrement des sources;
b)
c) collecte des termes, définitions, explications, exemples de textes,
etc.;
d) élaboration des systèmes de notions;
étab lissement des relations d’équivalence entre les notions en deux
e)
lang ues ou plu
s;
f) enregistrement de l’information terminologique, y compris I’informa-
tion sur les systèmes de notions;
mise à jour des données terminologiques.
g)
Ces étapes sont énumérées dans l’ordre chronologique du processus,
mais elles se chevauchent souvent et chacune peut devoir être reprise.
Selon le type de projet et de ressources, les ordinateurs peuvent se révé-
ler utiles dans bon nombre d’étapes, en particulier b), c), f) et g).
L’utilisation automatisée d’ensembles de données terminologiques com-
prend l’extraction de l’information terminologique stockée dans une base
de données ainsi que la production d’imprimés et de dictionnaires.
Dans le présent Rapport technique, l’accent est mis sur la création et la
maintenance d’une base de données terminologiques [c’est-à-dire les éta-
pes f) et g)]. Une brève introduction à la création et à l’utilisation d’un cor-
pus de textes pouvant servir à l’étape c) est donnée a l’article 20; il ne faut
pas oublier que la création d’un corpus de textes précède la création d’une
base de données terminologiques. L’information sur l’étape b), toutefois,
dépasse le domaine d’application du présent Rapport technique.

---------------------- Page: 4 ----------------------
ISO/TR 12618:1994(F)
RAPPORT TECHNIQUE @ ISO
Aides à apporter par les ordinateurs dans les travaux de
terminologie - Création et utilisation de bases de données
terminologiques et de corpus de textes
1 Domaine d’application
ISO 6156:1987, Format d’échange sur bande magné-
tique des données terminologiques et/ou lexicogra-
Le présent Rapport technique fournit des conseils sur
phiques (MA TER).
les principes de base et les méthodes qu’il faut res-
pecter pour avoir recours à l’informatique dans la pré-
lSO/TR 8393:1985, Documentation - Règles de clas-
paration et l’utilisation d’ensembles de données ter-
sement bibliographique de /‘/SO (Règles standards
minologiques. II vise particulièrement la création et
in terna tionales de classement bibliographique) -
l’utilisation de bases de données terminologiques et
Contré tisa tion des principes de classement bibliogra-
de corpus de textes.
phique par des régles modèles.
ISO 8777:1993, Information et documentation -
2 Références
Commandes pour les systèmes interactifs de recher-
Les normes suivantes contiennent des dispositions
che d’information.
qui, par suite de la référence qui en est faite, consti-
tuent des dispositions valables pour le présent Rap-
ISO 8879:1986 [+ Amd I:l 9881, Traitement de I’in-
port technique. Au moment de la publication, les édi-
formation - Systèmes bureautiques - Langage
tions indiquées étaient en vigueur. Toute norme est
normalisé de balisage généralisé (SGML).
sujette à révision et les parties prenantes des accords
lSO/CEI 9075: 1992, Technologies de l’information -
fondés sur le présent Rapport technique sont invitées
à rechercher la possibilité d’appliquer les éditions les Langages de base de données - SQL.
plus récentes des normes indiquées ci-aprés. Les
I S 0 1024 1: 1992, Normes terminologiques in terna tio-
membres de la CEI et de I’ISO possèdent le registre
nales - Élaboration et présen ta tion.
des Normes internationales en vigueur à un moment
donné.
ISO 12200: -Il, Aides à apporter par les ordinateurs
ISO 704:1987, Principes et méthodes de la termino-
dans les travaux de terminologie - Format d’échange
logie.
terminologique (TIF) - Une application SGML.
ISO 860: 1994, Travaux de terminologie - Harmonisa-
tion in ternationale des notions et des termes.
3 Définitions
ISO 1087: 1990, Terminologie - Vocabulaire.
Pour les besoins du présent Rapport technique, les
ISO 1087-2:- l) , Travaux de terminologie - Vocabu-
définitions suivantes s’appliquent.
laire - Partie 2: Aides à apporter par les ordinateurs
dans les travaux de terminologie. NOTE 1 La plupart de ces définitions seront intégrées à
I’ISO 1087-Z et elles sont encore provisoires.
lSO/CEI 2382-l :1993, Technologies de l’information -
Vocabulaire - Partie 1: Termes fondamen taux.
3.1 banque de données
ensemble de bases de données comprenant le cadre
ISO 2382-4:1987, Systèmes de traitement de I’infor-
organisationnel qui les gère
mation - Vocabulaire - Partie 4: Organisation des
données. NOTE 2 Voir aussi lSO/CEI 2382-l :1993.
1) À publier.

---------------------- Page: 5 ----------------------
@ ISO
ISO/TR 12618:1994(F)
3.2 base de données 4 Types d’ensembles de données
ensemble de donnees organisé selon une structure
terminologiques
conceptuelle
Les critères suivants influent sur la manipulation des
NOTE 3 Adaptée de I’ISO/CEI 2382-1 :1993.
ensembles de données terminologiques et sur leur
accès:
3.3 catégorie de données
- volume: nombre d’entrées, domaines, langues,
type d’éléments de données
types de données;
instruction pour interpréter une zone de données dé-
terminee
- matériel: micro-ordinateur, mini-ordinateur, ordi-
nateur central; disque dur, disquette, CD-ROM;
3.4 élément de données
système autonome ou réseau;
plus petite unité identifiable du contenu dans un en-
registrement donné - logiciel: système de gestion de base de don-
nées, système de recherche documentaire, sys-
tème d’édition de dictionnaire; conception stan-
3.5 zone de données
dard ou personnalisée;
portion de longueur variable ou fixe d’un enregistre-
ment renfermant un élement de données particulier
- propriétaire/utilisateur: organisation internatio-
nale, institution nationale, société, particulier; ac-
NOTE 4 Adaptée de I’ISO 6156:1987.
cès libre ou restreint;
3.6 enregistrement
- applications: extraction en ligne ou hors ligne
ensemble d’éléments de données considéré comme
des termes pour la traduction assistée par ordina-
un tout [ISO 2382-4:19871
teur, imprimés (par exemple contenant toutes les
entrées d’un domaine comme matériel de base à
3.7 terminographie
l’intention d’un groupe de travail), production de
consignation, traitement et présentation des données
vocabulaires imprimés (composition par ordina-
terminologiques
teur); utilisation dans des systèmes experts ou
dans des systèmes de traduction machine.
NOTE 5 Adaptée de I’ISO 1087:1990.
D’autres types d’ensembles de données peuvent être
3.8 banque de termes
intégrés à des ensembles de données terminologi-
banque de données terminologiques
ques, par exemple:
banque de données renfermant des données termino-
- bases de données de textes intégraux (voir aussi
logiques
article 20);
3.9 base de données terminologiques
bases de données graphiques;
base de données renfermant des données terminolo-
- bases de données numériques;
giques
- bases de données bibliographiques.
3.10 ensemble de données terminologiques
ensemble de données contenant de l’information sur
des notions de domaines précis
5 Critères de création d’une base de
données terminologiques
3.11 entrée terminologique
partie d’un ensemble de données terminologiques qui
renferme des données terminologiques reliées à une
seule notion
NOTE 6 Voir aussi ISO 1087:1990, paragraphe 6.2.2.2.
a) II faut uniformiser la terminologie monolingue, bi-
lingue ou multilingue au niveau international ou
3.12 corpus de textes
national ou au niveau de l’entreprise.
corpus
ensemble systématique de données exploitables par
b) II existe un besoin perma nent de mise à jour ou
machine, de textes ou de parties de texte, préparés,
de révision de volumes im portants de don nées.
codés et stockés selon des règles prédéfinies
c) II existe un besoin de consultation de données
NOTE 7 Un corpus de textes peut être limité selon les
terminologiques au moyen de critères différents
aspects des domaines, volumes ou temps, par exemple
ou de combinaisons de critères (par exemple, par
des textes mathématiques, ou certains périodiques publiés
terme dans une langue, par sujet ou par source).
depuis 1986. II est utilisé en tant que source pour des tra-
vaux ultérieurs d’analyse linguistique ou de terminologie.
d) II existe un besoin de présentation des données
dans des formats différents selon les spécifica-
NOTE 8 Voir aussi ISO 1087:1990, paragraphe 6.1.2.2.
tions de l’utilisateur (par exemple, vocabulaires

---------------------- Page: 6 ----------------------
ISO/TR 12618:1994(F)
@ ISO
fois jusqu’à 10 fois l’espace requis pour le texte
spéciaux classés alphabétiquement ou systéma-
«brut)) des entrées terminologiques. Par exemple, si
tiquement comme sous-ensembles pour traduc-
d’une entrée
tion machine ou assistée par ordinateur). le volume moyen est de
1 000 caractères (octets), 1 000 entrées peuvent oc-
e) Le nombre d’utilisateurs éventuels nécessitant un
cuper jusqu’à 10 Mo d’espace mémoire, bien que
accès rapide aux données est suffisamment
beaucoup de systèmes aient des fonctions qui rédui-
élevé pour justifier l’investissement en matériel,
sent l’espace occupé par la base de données. II de-
logiciel et ressources humaines (formation, pro-
vrait y avoir des fonctions de sauvegarde, sur disque
grammation, maintenance, etc.).
dur ou sur disquette, ou sur une unité à bande ma-
gnétique.
Les ressources humaines nécessaires sont dis-
f 1
ponibles pour la formation du personnel et pour la
Une base de données terminologiques peut être ac-
création et la maintenance de la base de don-
cessible sur support optique, par exemple sur disque
nées, tout comme le sont les ressources financiè-
compact CD-ROM, qui peut contenir de grandes
res pour l’acquisition du matériel et du logiciel.
quantités de données. II faut du matériel spécial pour
consulter une base de données sur support optique.
6 Besoins de matériel et de logiciel
7 Catégories de données
Le volume de l’ensemble de données terminologiques
terminologiques
et le nombre d’utilisateurs éventuels déterminent s’il
faut un micro-ordinateur, un mini-ordinateur ou un or-
La structure et les types de données des entrées
dinateur central.
terminologiques doivent être clairement décrits. Ces
On peut se servir de divers types de logiciels pour en- descriptions sont nécessaires à la manipulation des
registrer et utiliser des ensembles de données termi- données.
nologiques, par exemple des systèmes de traitement
de texte, des systèmes d’édition de dictionnaire, des II convient que les types de données soient définis et
systèmes de gestion de base de données et des sys- délimités indépendamment. Ainsi, chaque élément de
tèmes de recherche documentaire. Les systèmes de données peut être attribué sans ambiguïté à un seul
gestion de base de données - et dans une certaine type. La ((classification des domaines)) est un exem-
mesure les systèmes de recherche documentaire - ple de type de données. «CDU 621)) ou ((CDU 347))
sont les systèmes les plus souples pour la manipula- pourraient donc être des éléments de données perti-
tion des données. Par conséquent, le présent Rapport nents.
technique met l’accent sur la création et l’utilisation
d’une base de données terminologiques à l’aide d’un Voici d’autres exemples de types de données:
systéme de gestion de base de données ou d’un sys-
- terme;
terne de recherche documentaire. Dans le texte qui
suit, l’expression «système de base de données)) vaut
- information grammaticale;
tant pour les systèmes de gestion de base de don-
- définition;
nées que pour les systèmes de recherche documen-
taire.
- contexte;
- collocation;
Beaucoup de systèmes de base de données sont dis-
ponibles pour différents systèmes d’exploitation, en
- relation entre notions;
versions monoutilisateur ou multiutilisateur. Certains
systèmes tournent sur micro-ordinateur, mini-ordina- - sources.
teur et ordinateur central. Idéalement, il devrait être
possible de faire passer le système a une puissance Des ensembles de données différents nécessitent
supérieure (de la version micro-ordinateur à la version
des combinaisons différentes de types de données.
miniordinateur ou de la version monoutilisateur a la
Une base de données qui sert à produire des diction-
version multiutilisateur, voir article 18).
naires imprimés contient des types de données diffé-
rents de ceux d’une base servant à la recherche de
Certains systèmes tournent sur des micro-ordinateurs
termes individuels. Des groupes d’utilisateurs diffé-
dotés d’une mémoire interne très limitée, mais il est
rents (par exemple, des étudiants, des traducteurs,
souvent recommandable d’investir dans. de l’espace
des experts) ont besoin d’informations différentes.
mémoire vive supplémentaire. Si le système dialogue
avec d’autres programmes et fait ainsi partie inté-
Bien souvent, une base de données terminologiques
grante d’un système plus puissant, il faut encore da-
est multifonctionnelle. Toutefois, il n’est pas toujours
vantage d’espace mémoire.
possible de prévoir tous les besoins à l’étape de la
planification. II est donc conseillé de définir une struc-
La plupart des systèmes de base de données ont be-
ture de base de données qui soit la plus souple possi-
soin d’espace mémoire supplémentaire pour la ges-
ble afin de pouvoir ajouter de nouveaux types de don-
tion des données (marques internes, index, etc.), par-
nées a n’importe quelle étape.
3

---------------------- Page: 7 ----------------------
@ ISO
ISO/TR 12618:1994(F)
sonnable d’utiliser les termes comme traduction l’un
8 Structure des données
de l’autre. Dans ce cas, les différences entre les deux
notions doivent être clairement indiquées dans une
8.1 Structure des données terminologiques
note sur l’équivalence.
Afin de pouvoir décrire la structure des entrées dans
Dans des domaines où il n’y a pas de différences im-
un ensemble de données terminologiques, il faut avoir
portantes d’équivalence - ce qui est souvent le cas
de l’information sur les relations entre les éléments de
dans les domaines techniques - une entrée peut
données
contenir de l’information dans plus de deux langues.
Dans les domaines comme le droit, les sciences
Chaque élément de données est relié a la notion dans
sociales, l’éducation, etc., les différences d’équiva-
son ensemble ou à tout autre élément de donnée, gé-
lence rendent souvent l’approche multilingue impos-
néralement un terme. Les éléments de données peu-
sible. Dans ce cas, il vaut mieux que l’information de
vent être facultatifs ou obligatoires et on doit pouvoir
chaque entrée se rapporte à une seule paire de lan-
les répéter ou non.
gues. Idéalement, il devrait être possible de stocker
une terminologie unilingue, bilingue et multilingue
Le format interne des données diffère normalement
dans la même base de données.
du format externe, c’est-à-dire le format présenté à
l’utilisateur.
Une base de données peut se composer de paires de
langues, une des langues étant toujours la même, par
Certains éléments de données comme la définition, le
terminologue responsable, etc., sont habituellement exemple l’anglais dans une banque de termes anglais.
reliés à la notion. La partie du discours, les colloca- Si l’on veut permettre des recherches dans deux au-
tions, etc., sont reliés aux termes. La source peut être tres langues, par exemple le français et l’allemand, il
reliée aux définitions, aux termes, aux collocations, est conseillé de prévoir des restrictions ou des avertis-
etc. Ces relations sont illustrées à la figure 1. sements automatiques signalant que la relation
d’équivalence n’est établie qu’entre une langue don-
née et l’anglais. Par exemple, si une notion anglaise
Terminologue
est reliée à une notion allemande et à une notion fran-
responsable
çaise, et s’il y a une équivalence partielle dans les
deux paires de langues (anglais-allemand et an-
glais-français), l’utilisateur doit être informé que la
\
Def inition - Notion relation d’équivalence entre l’allemand et le français
n’a pas été vérifiée.
l 1
Idéalement, la terminologie d’un domaine doit être
Terme Terme
Source Terme
établie parallèlement en deux langues ou plus. Les
systèmes de notions sont établis et les notions sont
définies indépendamment pour toutes les langues.
Collocation CoLLoca tion Partie du
Source Source
Les relations d’équivalence entre les langues sont en-
discours
suite établies en comparant les définitions et les sys-
tèmes de notions (voir ISO 860). Toutes les catégories
d’information, définitions, contextes, sources, etc.,
Source
peuvent être fournies pour chaque notion dans toutes
. les langues. Par conséquent, aucune langue n’est
ure 1 - Éléments de données dans une entrée
Fig
considérée comme langue-source ou une langue-cible
uni lingue avec trois termes synonymes
dans la base de données.
Les termes de la figure 1 sont des synonymes qui
Lorsque la base de données est utilisée pour I’interro-
peuvent être accompagnés d’information sur les res-
gation interactive de termes ou pour la production
trictions d’usage stylistique ou régional. II faut souvent
d’un vocabulaire imprimé, chaque langue peut être
ajouter certains éléments à chaque terme (par exem-
choisie comme langue-source ou langue-cible, et il est
ple sources, collocations, notes, etc.). Les termes il-
possible de choisir différents sous-ensembles d’in-
lustrés à la figure 1 pourraient aussi être organisés en
formation selon le groupe d’utilisateurs et l’objet du
un seul terme privilégié (dans la zone TERME) et en
dictionnaire (voir article 1 1).
deux termes admis (dans une zone SYNONYME).
Cette méthode s’applique à une base de données
terminologiques pour une terminologie uniformisée.
Lorsqu’une notion dans une langue n’a pas d’équiva-
lent dans une autre langue, une traduction peut être
Chaque entrée terminologique renferme de I’informa- suggérée, mais cette dernière ne doit jamais figurer
tion sur une notion dans une ou plusieurs langues. Il
comme terme de la langue-source dans un diction-
peut toutefois être valable d’inclure des notions par-
naire imprimé. Par conséquent, ces traductions pro-
tiellement équivalentes en deux langues dans la
posées doivent être signalées comme telles dans la
même entrée si, en dépit des différences, il est rai-
base de données.
4

---------------------- Page: 8 ----------------------
@ ISO ISO/TR 12618:1994(F)
- relations plusieurs-à-plusieurs (n:m), par exemple
8.2 Établissement d’une base de donnbes
entre terme et collocation.
Pour établir une base de données terminologiques, il
faut une description formelle de la structure des don- La structure d’une entrée terminologique est mise en
nées. À cette fin, on peut utiliser divers types de dia- place de façons différentes dans divers systèmes. La
grammes. L’un deux est le diagramme entité-relation figure 3 illustre une des façons possibles, dans un
qui sert à décrire la structure des données dans une
système de base de données relationnelle, de mettre
base de données hiérarchique ou relationnelle ou en-
en place la structure de données (illustrée à la fi-
core dans une base de données en réseau. La struc-
gure 2).
ture arborescente simplifiée d’une entrée terminologi-
Dans une base de données relationnelle, l’entrée
que de la figure 1 peut être représentée dans un dia-
terminologique est divisée en plusieurs enregistre-
gramme entité-relation comme l’illustre la figure 2
ments dans diverses tables interreliées. Par exemple,
dans laquelle on peut observer les types de relations
la relation entre une notion et un ou plusieurs syno-
suivants:
nymes est établie au moyen du numéro d’lDentifica-
- relations un-a-un (1 :l ), par exemple entre terme
tion et de la LANGue. Pendant l’extraction, les élé-
et partie du discours;
ments de données reliés a une même entrée
terminologique sont regroupés et présentés comme
- relations un-à-plusieurs (I:n), par exemple entre
une seule unité.
notion et terme;
I
v
1
c
Def inition
1 Partie du
discours
,
Explication des symboles
o Type d’entite 0 Type de relation
Figure 2 - Exemple de diagramme entité-relation d’une base de données terminologiques

---------------------- Page: 9 ----------------------
lSO/TR 12618:1994(F) @ ISO
defref
concept
ID LANG REF
60201 da Bac p 9
60201 fr BES p 2
60204 da
PL p 383
60204 fr Bes p 32
60204 da HPL
60204 es CC416
60204 fr HPL
MMJ
60204 es
term
ID LANG TN0 TERM
60201 da 1 forsi kring
60201 fr 1 assurance
60201 es 1
seguro
60204 da 1 livsforsi kring
def
60204 fr 1 assurance sur la vie
ID LANG DEF
60204 fr
2 assurance-vie
60204 es 1 seguro sobre la vida
60201 da Juridisk er forsikring en aftale, hvor den
ene part, forsikringsgiveren, forpligter sig 60204 es 2 seguro de vida
til at udbetale en erstatning til den anden
part, forsikringstageren, safremt en af
aftelen omfattet begivenhed indtraeder.
termref
Som modydelse betaler forsikringstageren
en praemie.
60201 fr Une opération par laquelle une partie,
l’assuré, se fait promettre, moyennant une
rémunération, la prime, pour lui ou pour un
tiers, en cas de réalisation d’un risque, une
prestation par une autre partie, l’assureur,
qui, prenant en charge un ensemble de
risques, les compenses conformément aux
60204 es 1 CCE p 416
lois de la statistique.
60204 es 2 MMJ
Ved livsforsikring forstas dels en forsikring,
60204 da
hvor forsikringssummen udbetales ved
eller en bestemt tid efter en persons dod,
col1
og dels en forsikring, hvor summen
ID LANG
TN0 CNO COLL
udbetales i levende live, fx. ved opnaelse af
60201 da
1 1 tegne forsi kring
en bestemt alder eller ved indgaelse af
aegteskab. 60201 da 1 2 forsikringen daekker tab
60201 fr 1 1 contracter une assurance
Les assurances sur la vie sont déstinées à
60204 fr
60201 fr 1 2 conclure une assurance
garantir, soit le risque de mort de la
personne assurée (assurance en cas de
décès), soit le risque de sa survie à une
époque déterminée (assurance en cas de vie).
collref
.
ID LANG TN0 CNO REF
60204 es El seguro sobre la vida comprendera todas
60201 da 1 1 PIpl26
cas combinacion que pueden hacerse,
pactando entregas de primas o entrega de 60201 da 1 2 Bac p 11
capital a cambio de disfrute de renta
60201 fr 1 1 Bes p 75
vitalicia o hasta cierta edad, o percibo de
60201 fr 1 2 Bes p 75
capitales as fallecimiento de persona cierta.
I I I I I
I
Figure 3 - Tables d’une base de données relationnelle avec exemple de données

---------------------- Page: 10 ----------------------
@ ISO ISO/TR 12618:1994(F)
Dans d’autres systèmes, par exemple un système de - aucune limite au nombre de zones (éléments de
recherche documentaire, tous les elements de don- données) par entrée;
nées d’une entrée terminologique sont stockes dans
aucune limite au nombre de caractéres par zone
un seul enregistrement. Quel que soit le type de sys-
-
(longueur de zone).
tème utilise, il est trés important pour la recherche in-
teractive, la production de vocabulaires et l’échange
de données que chaque élement de donnée et ses Un système de base de données dans lequel la lon-
relations avec les autres éléments puissent être dé- gueur des zones est fixe ne conviendrait pas parce
que les données terminologiques sont souvent de
terminés séparément. Si cette exigence n’est pas
longueur variable et peuvent renfermer des éléments
respectée, il n’est pas possible, par exemple, de
de données facultatifs.
spécifier des profils de recherche et de représentation
propres à des groupes d’utilisateurs (voir 11.9).
9 Entrée des données
Les données peuvent être introduites par entrée inter-
8.3 Modification de la structure des données
active de
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.