6. Extraction de termes
p. 166-200
Texte intégral
There is no fully operational definition of terms (Gaussier 2001: 168).
Automatiser le plus possible...
1Les données terminologiques recherchées par le terminographe et que nous avons eu l’occasion de décrire aux chapitres 4 et 5 peuvent être extraites automatiquement. Un ensemble de techniques, dont il sera question dans le présent chapitre et le suivant, recherchent et ramènent une partie de ces données sans l’intervention préalable de l’utilisateur.
2La plupart des programmes d’extraction de données terminologiques sont conçus pour retrouver les termes. Ces programmes appelés extracteurs de termes ratissent un corpus et sont censés proposer à un utilisateur les termes qui s’y trouvent. Ils doivent donc, comme le terminographe, prendre des décisions sur la nature des unités lexicales. Ils s’appuient, pour y parvenir, sur des indices qui diffèrent en partie de ceux sur lesquels se fonde le terminographe et que nous avons passés en revue au chapitre 2.
3Nous aurons l’occasion de montrer qu’il est extrêmement difficile d’automatiser entièrement l’extraction de termes. Les extracteurs, même si de nombreuses améliorations sont apportées constamment, proposent à l’utilisateur des listes que celui-ci devra épurer ou enrichir. Nous verrons les difficultés principales sur lesquelles achoppent les extracteurs et certaines de leurs limites.
Quels sont les indices sur lesquels peut s’appuyer un extracteur de termes ?
4L’objectif visé par un extracteur de termes est de trouver dans un texte ou un ensemble de textes les mots graphiques ou les suites de mots graphiques susceptibles d’être des termes. La figure 6.1 illustre ce que le terminographe attend de ce logiciel. Dans l’exemple choisi, il lui confie un texte d’informatique. Après l’avoir traité, l’extracteur doit produire une liste contenant les termes apparaissant dans le texte, comme barre d’adresse, page Web et programme.
5La tâche est colossale, puisque c’est un outil informatique qui doit reconnaître les termes dans une masse au préalable indifférenciée d’unités lexicales. Même le terminographe peut éprouver des difficultés à se prononcer sur le statut terminologique d’une imité dans un domaine qu’il connaît encore mal.
6Ainsi, on s’entend généralement pour dire que les extracteurs ramènent des candidats-termes, à savoir des mots ou des suites de mots qui sont susceptibles d’être des unités terminologiques. Les candidats-termes sont placés dans une liste que devra écrémer le terminographe. Par exemple, dans la liste de la figure 6.1, les suites menu approprié et outil de navigation facultatif ne sont pas des termes qu’on retiendrait dans un dictionnaire d’informatique. De plus, il est permis de s’interroger sur le statut terminologique des suites bouton standard et nom de programme.
7Nous avons vu au chapitre 2 que l’identification d’un terme repose sur le lien qu’on peut établir entre son sens et un domaine de spécialité, donc sur des connaissances extra-linguistiques. Nous avons également eu recours à certains tests lexico-sémantiques afin de valider des intuitions sur le sens des termes. Or, il s’agit de renseignements que ne peut pas exploiter directement un extracteur. La citation de Gaussier reproduite au début du présent chapitre illustre bien la difficulté de fournir des paramètres opérationnels à un outil informatique. Celui-ci doit s’appuyer sur d’autres indices dont nous donnons un aperçu ci-dessous.
La fréquence : La fréquence et la répartition d’une unité dans un ensemble de textes représentatifs constituent de bons indices de son statut terminologique. Un terme significatif sera normalement utilisé à plusieurs reprises dans un texte spécialisé. L’évaluation de la fréquence, lorsqu’il s’agit de repérer des termes, repose, comme nous le verrons, sur des paramètres différents.
La prédominance de termes de nature nominale : Nous avons vu, au chapitre 2, que la partie du discours privilégiée dans les travaux de terminologie est celle du nom. Un très grand nombre d’extracteurs de termes sont conçus pour rechercher des noms uniquement.
La complexité des termes : De nombreux termes sont complexes (ex. mémoire vive, ordinateur portable, varan de Comodo) et certains croient qu’il s’agit du mode de formation le plus courant. Beaucoup d’extracteurs ne recherchent que les termes complexes en tenant pour acquis qu’ils dégageront ainsi la plus grande partie de la terminologie d’un domaine.
Le nombre fini de séquences pouvant constituer un terme complexe : Des travaux ont montré que les termes complexes se construisent au moyen d’un nombre fini de séquences de parties du discours. En effet, la plupart des termes complexes français se composent d’un nom modifié par un adjectif (ex. mémoire vive, droit constitutionnel), par un autre nom (ex. carte mère) ou par un syntagme prépositionnel (ex. droit des affaires, machine à calculer). Des extracteurs sont conçus pour rechercher ces séquences.
8Chaque extracteur de termes fait appel à une partie de ces indices et le fait de manière différente. Les sections suivantes décrivent les stratégies les plus courantes.
Repérer des termes fréquents par comparaison à un autre corpus
9Le chapitre 5 a montré qu’une indexation et un tri par fréquence décroissante informaient le terminographe sur le contenu d’un texte ou d’un corpus. De plus, en écartant les mots grammaticaux et autres mots très fréquents au moyen d’une liste d’exclusion, il obtient un portrait des thèmes les plus importants (se reporter à la figure 5.9 pour un exemple appliqué à un corpus juridique). Dans les textes spécialisés, les thèmes centraux risquent fort de correspondre à des termes que retiendrait un terminographe dans un dictionnaire ou une banque de terminologie.
10Cette première technique est relativement simple à mettre en œuvre et rend des services en terminographie. Toutefois, la fréquence n’est calculée qu’en fonction du nombre d’occurrences d’un mot dans un texte ou un ensemble de textes. Or, un mot peut être fréquent dans un texte sans forcément avoir un réel statut terminologique. À l’inverse, un mot peu fréquent peut être un terme central.
11Une autre stratégie consiste à évaluer la fréquence des mots indexés dans un corpus spécialisé en la comparant à celle des mots apparaissant dans un corpus de référence. Le principe général de cette approche repose sur l’idée voulant que des termes spécifiques aient une fréquence « anormalement » élevée dans le texte spécialisé. Les formes plus fréquentes seront vraisemblablement centrales dans le texte comparé.
12Pour être significative, la comparaison doit mettre en jeu des corpus de natures différentes. Par ailleurs, le choix des textes du corpus de référence est déterminant pour livrer des résultats significatifs. Normalement, ce dernier est composé de textes de natures diverses reflétant la langue prise dans son ensemble et est souvent plus volumineux que le corpus comparé.
13La figure 6.2 illustre les principes généraux de la technique. Dans l’exemple choisi, on cherche à dégager les mots graphiques dont la fréquence est anormalement élevée dans un texte de mécanique.
14La liste produite après la comparaison présente des résultats utiles pour le terminographe, puisque les formes de fréquence élevée risquent fort de cor respondre à des termes. Le tableau 6.1 montre les 25 premières entrées produites à la suite de la comparaison d’un corpus de mécanique de 25 000 mots et d’un corpus de référence composé de textes de différentes natures (juridiques, informatiques, médicaux, etc.) contenant près de 1 800 000 mots7
15La liste présente les formes indexées accompagnées de l’information suivante :
Colonne 1 : Nombre d’occurrences du mot dans le corpus comparé ;
Colonne 2 : Pourcentage des occurrences du mot indexé par rapport aux autres mots contenus dans le corpus ;
Colonne 3 : Nombre d’occurrences du mot dans le corpus de référence ;
Colonne 4 : Pourcentage des occurrences du mot indexé par rapport aux autres mots contenus dans le corpus de référence (lorsque le pourcentage est trop faible ou nul, il n’est pas indiqué) ;
Colonne 5 : Évaluation de la fréquence par rapport au corpus de référence : cette valeur tient compte de la fréquence du mot indexé dans le corpus comparé proportionnellement à celle observée dans le corpus de référence ;
Colonne 6 : Les résultats sont ordonnés en fonction de l’évaluation de la fréquence par rapport au corpus de référence. La fréquence « anormale » la plus importante est placée en tête de liste.
16Un examen attentif de cette liste montre qu’elle renferme de nombreux termes de mécanique, comme moteur, couple, piston ou rotor. Certains de ces termes sont carrément absents du corpus de référence, ce qui constitue un indice encore plus convaincant en ce qui concerne leur statut terminologique. D’autres termes, qui n’apparaissent que rarement dans le corpus de référence, sont proportionnellement beaucoup plus fréquents en mécanique.
17Malgré l’intérêt que présente la liste de la figure 6.1, il ne faut pas taire ses limites. Les mots ainsi classés ne sont pas tous des termes de mécanique. Vitesse et mm ont des fréquences « anormalement élevées » dans le corpus comparé, mais il ne s’agit pas de termes qu’un terminographe retiendrait dans un dictionnaire de mécanique. Rappelons de plus qu’il s’agit de la première partie de la liste. Il est probable que moins le poids attribué aux mots est élevé, plus ceux-ci sont problématiques quant à leur statut terminologique.
18Plus grave encore, il est probable que certains termes n’aient pas une fréquence suffisamment significative pour les placer assez haut dans la liste produite à la suite de la comparaison au corpus de référence. Les formes polysémiques peuvent être occultées complètement si une de leurs acceptions est aussi fréquente dans le corpus de référence.
19On constate—et cette observation est valable pour toutes les listes de mots indexés que nous avons présentées jusqu’à maintenant qu’on procède ou non par comparaison—que les mots sont analysés un à un sans prise en compte de la variation flexionnelle. Par exemple, dans le tableau 6.1, les fréquences de machine et machines sont évaluées séparément. Le même calcul appliqué à des index de termes lemmatisés entraînerait des déplacements dans la liste. Il est vrai qu’il est tout à fait possible de faire cette comparaison entre des listes de mots lemmatisés, mais ce raffinement nécessite des traitements linguistiques supplémentaires.
20Enfin, ces listes ne permettent pas de savoir si les mots relevés sont des termes simples ou plutôt des parties de termes complexes. Par exemple, jetons un coup d’œil aux entrées air et comprimé. S’agit-il réellement de deux termes simples dans tous les cas ? Il est permis de croire qu’une partie des occurrences de chacun servent à former le terme complexe AIR COMPRIMÉ.
21Les extracteurs de termes abordés aux sections suivantes s’attaquent précisément à ce dernier problème. Toutefois, comme on le verra, les techniques mises en œuvre pour retrouver des termes complexes ne misent pas toutes sur les mêmes indices.
Extraire des chaînes de caractères apparaissant « souvent » ensemble
Groups of candidate terms of lower frequency have lower quality than groups of candidate terms of higher frequency; and the most frequent strings recoveredfrom technical text are almost always valid technical terms (Justeson et Katz 1995: 8).
22Pour corriger une des imperfections signalées à la section précédente, à savoir dénicher des termes complexes, certains programmes informatiques recherchent des mots graphiques qui apparaissent ensemble de façon récurrente dans un corpus spécialisé.
23Nous examinerons deux techniques dans les sections qui suivent. Dans les deux cas, les traitements sont appliqués à des textes bruts et s’appuient sur des indices de fréquence. Nous avons déjà eu recours à des indices de ce genre pour retrouver des termes simples. Toutefois, nous verrons que les paramètres mis en œuvre pour dénicher des termes complexes ne sont pas les mêmes. Ici, ce n’est pas la consultation d’un corpus de référence qui permet de mesurer l’importance quantitative des mots graphiques, mais plutôt le fait que des suites composées de deux mots graphiques ou plus apparaissent souvent ensemble dans les textes spécialisés.
Rechercher des segments répétés
24Une première technique étudiée dans cette section, appelée calcul des segments répétés, parcourt les textes spécialisés et recherche des suites de mots graphiques qui se succèdent un nombre déterminé de fois dans les textes spécialisés. Reproduisons, à la figure 6.3, un extrait de texte médical déjà cité au chapitre 4. Voyons quelles sont les séquences de mots graphiques apparaissant plus de deux fois.
25Le calcul des segments répétés appliqué tel quel sans aucune autre forme d’intervention permet effectivement de dégager des séquences correspondant à des termes complexes, par exemple extrasystole ventriculaire et bloc de branche, puisqu’ils apparaissent trois fois dans le court extrait. Toutefois, il ramène des suites de mots qui ne sont pas des termes, par exemple s’il s’agit. De même, bloc de branche apparaît deux fois précédé de la préposition de. Il sera donc proposé dans la suite plus longue de bloc de branche avec la fréquence 2.
26Pour rectifier le tir et retenir des suites de mots potentiellement intéressantes pour le terminographe, l’extracteur procède à un filtrage en faisant intervenir une liste d’exclusion. Si la recherche porte sur des termes complexes, cette liste écartera les suites dont le premier ou le dernier mot est un déterminant (le, la) ou une préposition (de) puisque ces mots graphiques placés avant ou après le segment relevé ne contribuent pas à former des termes. Pour les mêmes raisons, il mettra de côté les entrées qui renferment un verbe conjugué. Le filtrage réalisé pour le texte qui précède donne les résultats illustrés à la figure 6.4.
27Le calcul des segments répétés nécessite l’établissement d’un seuil de fréquence minimal en deçà duquel les suites ne sont pas extraites. Ce seuil varie en fonction de la taille du corpus, mais il reste toujours arbitraire.
FIGURE 6.3. Extrait d’un texte médical
L'extrasystole ventriculaire se définit comme une dépolarisation ventriculaire prématurée, non précédée par (ou sans relation chronologique fixe avec) une onde P, le ventriculogramme étant large (supérieur à 0,12 s.), et déformé avec aspect soit de bloc de branche droit s’il s'agit d'une extrasystole ventriculaire naissant du ventricule gauche, soit de bloc de branche gauche s'il s’agit plutôt d'une forme d’extrasvstole ventriculaire qui naît du ventricule droit. La repolarisation est Inversée avec une onde T négative. Le diagnostic d'extrasystole ventriculaire est le plus souvent simple sur l'électrocardiogramme de surface, le seul « piège » étant une extrasystolie supra-ventriculaire avec bloc de branche fonctionnel.
28D’une manière ou d’une autre, cette technique ne ramène jamais des termes complexes qui n’apparaissent qu’une seule fois dans un corpus spécialisé. Donc, pour livrer des résultats intéressants, elle est exploitée sur des corpus de taille raisonnable. Par exemple, on remarque que l’application de cette technique au court extrait de la figure 6.3 ne ramène pas les séquences extrasystolie supra-ventriculaire ou électrocardiogramme de surface qui correspondent pourtant à des termes.
Mesurer le degré d’association
29Un second ensemble de techniques cherche à mesurer, en mettant en œuvre différents calculs statistiques, le caractère non accidentel de la combinaison de deux mots graphiques. Ces techniques se fondent sur le principe que nous appellerons association forte, voulant que l’association récurrente de certains mots ne soit pas attribuable uniquement au hasard.
30Pour illustrer le principe de l’association forte entre deux mots graphiques, reprenons l’exemple d'air comprimé cité plus haut. La séquence nous échappe si on compare une liste de termes de mécanique à un corpus de référence puisque les résultats nous donnent uniquement des mots graphiques.
31Toutefois, un examen attentif de comprimé dans un corpus de mécanique de 50 000 mots révèle qu’il apparaît au total 85 fois. Dans 81 cas, il succède à air ; dans les 4 cas qui restent, il est utilisé dans une autre combinaison. De même, air apparaît 123 fois et, dans 85 cas, il précède comprimé', il fait aussi partie de 38 autres combinaisons. Il est donc permis de penser que la combinaison air + comprimé est significative et se caractérise par une association forte.
32Voyons maintenant comment mettre en œuvre un calcul statistique sur des paires de mots graphiques afin de valider l’intuition qu’on peut avoir sur le type d’association qui existe entre eux. L’idée générale est de voir si les mots d’une combinaison apparaissent plus fréquemment ensemble qu’ailleurs dans le texte dans d’autres combinaisons.
33Notre calcul se fera sur des couples qui ne constituent pas forcément des mots graphiques contigus, contrairement au calcul des segments répétés. Les couples sont formés à partir de ce qu’il est convenu d’appeler une fenêtre.
34Notre fenêtre contiendra un premier mot graphique que nous appellerons le nœud. De part et d’autre du nœud, apparaissent un nombre fixe de mots numérotés de 1 à n (et de-1 à-n). La taille de la fenêtre peut toutefois varier en fonction de ce qu’on tente d’extraire. Dans l’exemple de la figure 6.5, nous avons défini une fenêtre de 5 mots comprenant le nœud et d’autres mots.
35L’étape suivante consiste à former des couples qui contiendront le nœud et les autres mots apparaissant dans la même fenêtre. Ainsi, on obtient pour le mot air, quatre couples contenant deux éléments que nous présentons au tableau 6.2. Évidemment, un texte spécialisé générera une multitude de couples semblables. De plus, plusieurs couples seront répétés.
36Le calcul mis en œuvre porte sur les deux membres de chacun des couples. Il prend en compte les informations suivantes :
Le nombre de couples où les deux éléments apparaissent ensemble (x et y) ;
Le nombre total de couples où x est présent ;
Le nombre de couples où y est présent ;
Le nombre total de mots dans le corpus ; ce nombre servira de point de référence pour estimer une probabilité.
37Reproduisons les valeurs obtenues pour les couples air + comprimé et air + sont dans le tableau 6.3. Nous avons construit des couples à partir d’un corpus de mécanique de 50 000 mots.
38Différents calculs peuvent être appliqués aux valeurs du tableau 6.4. Nous aurons recours à un calcul qui permet de valider un principe théorique appelé information mutuelle. Le calcul, tel que nous le présentons, a été exploité par Church et Hanks (1990). Il est vrai que les chercheurs ne visaient pas des applications terminographiques (ils ciblaient plutôt la lexicographie), mais ces calculs ont inspiré de nombreux travaux de terminologie computationnelle. La formule utilisée par Church et Hanks (1990) est reproduite à la figure 6.6.
39La probabilité associée au couple (x,y), d’une part, et à chacun des éléments du couple x et y, d’autre part, est estimée en tenant compte du nombre total d’occurrences de (x,y), de x et de y sur le nombre total des mots du corpus.
TABLEAU 6.2. Couples identifiés dans une fenêtre
Couple | Mot x | Mot y |
air comprimé | Air | Comprimé |
air sont | air | sont |
d'air | d' | air |
les air | les | air |
TABLEAU 6.3 Valeurs associées à deux couples
air comprimé | air sont | |
Nombre d'occurrences du couple (x, y) | 81 | 2 |
Nombre total d'occurrences de (x) | 123 | 123 |
Nombre total d’occurrences de (y) | 85 | 512 |
Nombre total de mots dans le corpus | 50 000 | 50 000 |
Où :
IM renvoie à information mutuelle
x renvoie au premier mot du couple
y renvoie au second mot du couple
P renvoie à une probabilité
40Appliquons maintenant le calcul à partir des données reproduites dans le tableau 6.3. Les fréquences et les probabilités pour chacun des éléments et couples sont reproduites dans le tableau 6.4.
41Le calcul donne un poids à chacun des couples. Air + comprimé obtient un poids plus élevé que air + sont, à savoir 8,6344 contre 0,6671, ce qui montre que le degré d’association entre les éléments du premier couple est plus élevé que celui observé dans le second. Selon Church et Hanks (1990), les couples qui obtiennent un poids plus élevé que 3 se révèlent intéressants, alors que les couples qui se situent sous cette barre le sont moins. Les chiffres du tableau 6.4 confirment cette observation.
42Rappelons, cependant, qu’on ne cherchait pas précisément à extraire des termes complexes. Le calcul de l’information mutuelle—et cela reste valable pour d’autres calculs servant à mesurer le degré d’association entre des mots graphiques — ramène des termes complexes, mais également d’autres séquences. Parmi les couples cités par Church et Hanks (1990), se trouvent des couples comme honorary doctor et doctor bills qui sont effectivement des syntagmes nominaux. Toutefois, la mesure accorde un poids élevé à d’autres couples comme doctors treat, examined doctor, doctor visits, qui sont plutôt des collocations, ainsi que d’autres couples comme doctors nurses et doctors hospitals qui révèlent une relation sémantique. Même si les données ne sont pas distinguées les unes des autres, le calcul de l’information mutuelle présente l’avantage d’écarter les suites dont l’association est faible.
TABLEAU 6.
4 Fréquences et probabilités de couples et des éléments qui les composent
Occurrences | P | IM | |
Air | 123 | 0,00246 | |
comprimé | 85 | 0,0017 | |
sont | 512 | 0,01024 | |
aircomprimé | 81 | 0,00162 | 8,6344 |
airsont | 6 | 0,00004 | 0,6671 |
Nombre total de mots | 50 000 |
Les apports des stratégies d’extraction de mots apparaissant souvent ensemble
43Les deux techniques examinées dans les sections qui précèdent, à savoir le calcul des segments répétés et le calcul de l’information mutuelle, présentent un certain nombre d’avantages puisqu’elles sont directement exploitables sur des textes bruts.
44De plus, comme elles traitent des chaînes de caractères et non des informations linguistiques, elles ne sont pas rattachées à une langue en particulier. Les mêmes calculs peuvent être faits sur des textes rédigés dans des langues différentes.
45Toutefois, nous avons vu que les deux méthodes dans leur plus simple expression repêchent des suites de mots graphiques qui ne sont pas des termes complexes que rechercherait normalement le terminographe. Il importe alors de mettre au point des filtrages pour nettoyer une première liste et retirer les éléments jugés inutiles pour une application donnée. Ces filtrages s’aligneront forcément sur la langue traitée. Nous verrons plus loin que les calculs peuvent s’étendre à des séquences dont l’extraction s’appuie préalablement sur des indices linguistiques.
Extraire des séquences de parties du discours
In technical text [...] lexical NPs are almost exclusively terminological (Justeson et Katz 1995: 2).
46La recherche de mots utilisés souvent ensemble (par un calcul de segments répétés ou un calcul de l’information mutuelle) n’est pas l’unique méthode mise en œuvre pour retrouver des termes complexes. Un second ensemble de techniques ne met pas d’emblée l’accent sur la fréquence mais cherche à dégager des séquences régulières de parties du discours.
47Ces techniques sont fondées sur l’hypothèse voulant que la plupart des termes complexes soient des syntagmes nominaux. Il s’agit d’un des indices cités au début de ce chapitre. La citation de Justeson et Katz reproduite au début de cette section montre que les chercheurs tiennent pour acquis que, dans un texte spécialisé, presque tous les syntagmes nominaux lexicalisés sont terminologiques.
48En outre, et il s’agit d’un autre indice signalé plus haut, on tient pour acquis que les syntagmes nominaux susceptibles de constituer des termes font appel à un nombre fini de séquences de parties du discours.
49Pour mettre en œuvre ces nouvelles techniques d’extraction, il faut disposer de renseignements sur la nature linguistique des mots graphiques. Nous aurons recours à des corpus étiquetés dans lesquels les mots sont assortis d’une indication de la partie du discours à laquelle ils appartiennent. La figure 6.7 présente l’extrait médical déjà cité qui, cette fois, est étiqueté.
Chercher des patrons typiques
50Une technique d’extraction, appelée identification de patrons typiques, recherche certains types de syntagmes nominaux en tenant pour acquis que ceux-ci se composent de séquences de parties du discours régulières. Les patrons de base recherchés sont les suivants pour le français :
un nom et un adjectif ;
un nom et un autre nom ;
un nom, une préposition et un autre nom ;
un nom, une préposition, un déterminant et un autre nom ;
un nom, une préposition et un verbe à l’infinitif.
51Il s’agit donc de définir les patrons admissibles sous forme de règles et de demander à un extracteur de termes de localiser les séquences correspondantes, puis de les placer dans une liste. Le tableau 6.5 montre les patrons recherchés et les groupes correspondants dans le texte de la figure 6.7.
52Les patrons implantés dans ce type d’extracteur de termes s’alignent forcément sur les jeux d’étiquettes. Nous avons vu au chapitre 4 que les jeux diffèrent d’un étiqueteur à l’autre autant sur le plan du nombre que sur le plan de la forme et des distinctions faites à l’intérieur d’une partie du discours. Rappelons également que les textes étiquetés de façon automatique contiennent environ 5 % d’erreurs. La qualité de l’extraction en sera forcément affectée.
53Dans les faits, les extracteurs font appel à des patrons plus spécifiques en ce qui concerne les prépositions et les déterminants. Par exemple, plutôt que de rechercher la partie du discours « préposition », ils s’appuient sur une liste de prépositions admissibles (à, de, sur). Ils distinguent également les déterminants puisque certains d’entre eux sont peu susceptibles d’entrer dans un terme complexe. Ainsi, ils admettent les articles définis (la, le, les), mais pas les articles indéfinis (un, une) ou les démonstratifs (ce, cette).
TABLEAU 6.5 Candidats-termes extraits d’un texte médical
Nom commun (NC) + adjectif (ADJ) |
branche fonctionnel |
Nom commun (NC) + nom commun (NC) |
onde P |
Nom commun (NC) + préposition (PRÉP) + nom commun (NC) |
bloc de branche |
Nom commun (NC) + préposition (PRÉP) + déterminant (DÉT) + nom commun (NC) |
aucune séquence correspondante |
Nom commun (NC) + préposition (PRÉP) + verbe à l’infinitif (VERBE INF) |
aucune séquence correspondante |
54Par ailleurs, une partie des séquences relevées dans le tableau 6.5 font en réalité partie de syntagmes nominaux plus longs. Par exemple, bloc de branche et branche fonctionnel apparaissent dans la séquence bloc de branche fonctionnel. Cet exemple illustre le problème posé par le découpage du terme que nous avons décrit dans le chapitre 2.
55Le traitement réservé à ces séquences varie d’un extracteur à l’autre. L’outil pourra, comme le montre le tableau 6.5, s’en tenir aux patrons de base et présenter toutes les possibilités de découpage. Il peut également définir des patrons qui rendent compte de séquences plus longues et les présenter telles quelles dans une liste de candidats-termes. Ce cas de figure est illustré à la figure 6.8.
Des patrons différents pour des langues différentes
Les patrons de formation de termes complexes varient d’une langue à l’autre. Il faut donc définir des patrons différents en fonction de la langue qui fait l’objet de l’extraction.
Pour l’anglais, par exemple, la plupart des termes complexes sont composés d’un adjectif et d’un nom (ex. volatile memory) ou de deux noms (ex. expert System).
En anglais, des syntagmes nominaux renferment également des prépositions (ex. printing of document). Ces séquences constituent plus souvent des séquences non terminologiques. Pour cette raison, de nombreux extracteurs n’en tipnnpnt nas compte.
56D’une manière ou d’une autre, cette technique ramène plus de candidats-termes que le calcul des segments répétés appliqué au même extrait. Ici, l’extraction ne repose pas a priori sur un corpus volumineux.
Isoler des termes au moyen de frontières
57La seconde technique décrite dans cette section aborde la question des séquences de parties du discours à l’envers. Plutôt que de chercher des syntagmes nominaux correspondant à des patrons, elle pratique différentes coupes dans le texte en s’appuyant sur des parties du discours qui ne contribuent pas à former des termes. Elle arrive ainsi à isoler les séquences potentiellement terminologiques.
FIGURE 6.8 Extraction des séquences les plus longues
bloc de branche droit
bloc de branche gauche
dépolarisation ventriculaire prématurée
diagnostic d'extrasystole ventriculaire de surface
électrocardiogramme de surface
extrasystole ventriculaire
extrasystolie ventriculaire avec bloc de branche fonctionnel
onde T négative
relation chronologique fixe avec une onde P
ventricule droit
ventricule gauche
58Cette technique, proposée à l’origine par Bourigault (1994) et implantée dans un logiciel appelé Lexter consiste à identifier des frontières de termes au moyen d’une série de repères dont nous donnons un bref aperçu ci-dessous. Les premiers indices sont définis comme des repères non ambigus. Il s’agit de :
un signe de ponctuation ;
un verbe conjugué ;
une conjonction de subordination ;
un pronom.
59D’autres repères doivent faire l’objet d’une petite exploration contextuelle. Pour trancher, l’extracteur tient compte des mots placés devant ou après le repère ambigu. Par exemple, si un déterminant est précédé d’un verbe ou d’une ponctuation, il sera retenu comme frontière. En revanche, s’il est placé après une préposition, il sera interprété comme une partie de terme complexe. De même, si un participe passé est suivi d’une préposition, il constituera une frontière plausible.
60Ces premières règles de coupe, appliquées telles quelles à une partie du texte cité plus haut, produisent le découpage illustré à la figure 6.9 et mettent au jour une liste de termes. Les coupes sont représentées au moyen du symbole #.
61Le repérage de termes entre frontières fait appel à des techniques moins lourdes que l’identification de patrons typiques, puisque la liste de frontières est sans doute moins longue que celle des mots susceptibles de faire partie de termes. Par ailleurs, il est intéressant de noter que les coupes permettent de dégager des termes simples. Toutefois, il est permis de s’interroger sur l’intérêt que présentent les termes simples ainsi extraits. Nous verrons plus loin qu’une stratégie permet d’épurer une liste de termes simples retrouvés entre des frontières.
Les apports des stratégies d'extraction de séquences de parties du discours
62Les deux techniques décrites dans les sections précédentes, à savoir l’identification de patrons typiques et le repérage de frontières entre termes, ne présentent pas l’inconvénient signalé pour les techniques qui tablent sur la fréquence puisqu’elles peuvent retrouver un terme complexe qui n’apparaît qu’une seule fois dans un texte. Elles soulèvent toutefois un autre problème.
repolarisation onde
T négative
diagnostic d’extrasystole ventriculaire
électrocardiogramme de surface
extrasystolie supra-ventriculaire avec bloc de branche fonctionnel
63De nombreux syntagmes nominaux sont formés de la même manière que des termes complexes, mais ne sont pas des termes. Le tableau 6.6 présente une liste de syntagmes nominaux nom + adjectif extraits d’un texte de mécanique. On voit facilement qu’une partie de ces syntagmes ne constituent pas des termes à proprement parler. Par exemple, caractéristique générale, alésage successif ou procédé économique ne seraient pas retenus dans un dictionnaire de mécanique. Toutefois, ils sont extraits puisqu’ils correspondent en tous points à un patron défini au préalable.
64De plus, on reproche aux techniques qui recherchent des patrons d’être attachées à une langue en particulier et de reposer sur un appareil descriptif imposant. Cette dernière critique est moins justifiée en ce qui concerne le repérage de frontières. Toutefois, il reste que l’extension de ces techniques à de nouvelles langues nécessite invariablement une redéfinition de larges pans de l’extracteur.
Combiner les séquences de parties du discours à la fréquence
65Les techniques d’extraction de termes passées en revue dans les sections précédentes sont fort différentes. D’ailleurs, elles sont généralement cataloguées sous techniques statistiques (pour celles qui misent sur la fréquence) ou techniques linguistiques (pour celles qui s’appuient sur l’information grammaticale) pour bien marquer l’opposition.
66Bien qu’on distingue les deux méthodes, il ressort que, dans les faits, les extracteurs tentent de les combiner. Nous avons déjà vu que des techniques définies comme étant statistiques nécessitent l’épuration d’une liste préliminaire au moyen d’une information linguistique minimale, à savoir une liste de mots qui ne sont pas susceptibles d’apparaître dans un terme complexe.
TABLEAU 6.6. Séquences nom + adjectif extraites d’un texte de mécanique
Séquences Nom * adjectif extraites | Fréquence |
alésage successif | 1 |
bras coudé | 2 |
caractéristique générale | 1 |
conduite générale | 2 |
contrôle géométrique | 2 |
déplacement longitudinal | 3 |
déplacement vertical | 2 |
essai pratique | 2 |
forêt torsadé | 1 |
forêt hélicoïdal | 3 |
fraisurage tronconique | 1 |
machine pneumatique | 2 |
méthode générale | 1 |
montage indirect | 2 |
opérations particulières | 1 |
outil flexible | 1 |
perceuse portative | 3 |
procédé économique | 1 |
travail unitaire | 2 |
usinage multiple | 2 |
vérification géométrique | 4 |
67De même, les extracteurs faisant appel à des techniques linguistiques font souvent intervenir un critère de fréquence pour épurer une liste de candidats-termes. Souvent, la même séquence doit apparaître au moins deux ou trois fois pour être retenue dans une liste. Parfois, c’est l’utilisateur qui fixe un seuil avant de lancer l’extraction.
68D’autres extracteurs font une intégration beaucoup plus étroite des deux techniques. C’est ce qu’a proposé Daille (1994) au moyen d’une approche quelle a qualifiée de mixte, dont nous donnons les grandes lignes ci-dessous. Cette méthode a été implantée dans un logiciel appelé Acabit.
L’extraction repose sur un texte préalablement étiqueté.
L’extracteur ramène des séquences composées d’un nom suivi d’un adjectif, d’un nom suivi d’un autre nom (une préposition et un déterminant peuvent apparaître entre les deux noms).
L’extracteur dresse une liste de séquences susceptibles d’être des termes ; les séquences sont présentées sous forme de couples contenant les mots lexicaux (nom ou adjectif). Les mots grammaticaux sont gommés afin de faciliter le calcul des occurrences par la suite. Cette technique permet de considérer comme un couple unique les séquences qui comportent les mêmes mots lexicaux, mais des mots grammaticaux différents (par exemple, traitement de la parole et traitement de parole représentent deux occurrences de traitement + parole). Nous verrons, au chapitre 7, que cette technique est fort utile pour regrouper des variantes terminologiques.
69Jusqu’ici, l’approche mixte ne diffère en rien de celle qui s’appuie sur l’acquisition de patrons typiques, dont nous avons donné les grandes lignes plus haut. La production d’une première liste de candidats-termes repose effectivement sur la reconnaissance de parties du discours. Elle commence à s’éloigner de l’approche purement linguistique lorsqu’elle applique différents calculs statistiques sur la liste de candidats afin de déterminer leur statut terminologique. Voici comment on procède :
Le nombre d’occurrences des séquences extraites au cours de la première étape est comptabilisé. Le calcul s’effectue sur les couples construits au cours des premières étapes et non sur tous les couples qu’il est possible de construire dans des fenêtres.
Seules les séquences ayant une fréquence égale ou supérieure à 2 sont prises en compte ;
Différents calculs statistiques sont appliqués sur les couples ; parmi ceux-ci, une série de calculs compatibles avec l’évaluation du degré d’association abordée plus haut. D’autres calculs cherchent à mesurer d’autres caractéristiques (la fréquence, le cœfficient de vraisemblance, la diversité ou la variance).
70Afin de vérifier la valeur de l’approche, Daille (1994) a comparé les résultats de l’extraction automatique (en tenant compte des différents poids accordés par les calculs statistiques) à une liste de référence construite à partir de termes tirés de la banque de terminologie EURODICAUTOM et d’une validation par des experts du domaine. La liste de référence et le corpus traité par l’extracteur contenaient des termes appartenant au domaine des télécommunications.
71Les calculs statistiques livrent des résultats différents puisqu’ils privilégient certains couples par rapport à d’autres. Toutefois, les travaux de Daille démontrent clairement l’intérêt de combiner statistique et représentations linguistiques.
72L’approche mixte évite premièrement d’extraire des couples statistiquement pertinents ou fréquents, mais qui ne correspondent pas à des patrons terminologiques. Ainsi, les collocations et les groupes de mots sémantiquement apparentés que ramenait, par exemple, le calcul de l’information mutuelle, sont écartés. Les calculs sont ici appliqués à des couples bien précis et non à tous les couples dégagés d’un corpus.
73En outre, l’application de mesures statistiques valables permet d’épurer la liste de candidats-termes proposés à la suite d’une analyse des séquences de parties du discours. Ainsi, on comble les lacunes d’une méthode par les forces de l’autre.
Ordonnancement des termes extraits
74L’extraction, qui s’appuie sur une des stratégies décrites dans les sections précédentes, produit des candidats ordonnés dans une liste qui est soumise à l’approbation de l’utilisateur. Les deux modes d’organisation les plus couramment utilisés sont le tri alphabétique et le tri par fréquence décroissante. Si les termes sont extraits au moyen de méthodes statistiques, ils sont alors classés en fonction du poids qu’ils obtiennent à la suite du calcul. Le terme ayant le poids le plus élevé sera placé en tête de liste.
75La figure 6.10 présente la première partie d’une liste de termes complexes extraits d’un texte fiançais portant sur la radiologie. Les termes sont ordonnés alphabétiquement à partir du nom de gauche qui, en français, constitue la tête du syntagme nominal. Le chiffre placé à droite représente la fréquence du groupe dans le texte dépouillé.
76L’organisation des candidats extraits du même texte mais par fréquence décroissante produit une liste différente de la première (voir la figure 6.11). Nous n’avons pas retenu dans cette liste les candidats n’ayant qu’une seule occurrence.
FIGURE 6.10 Organisation des candiats-termes par ordre alphabétique
abcès du poumon | 2 |
abcès primitif | 1 |
abcès pulmonaire | 2 |
acte agressif | 1 |
adénopathie authentique | 1 |
adénopathie hilaire | 1 |
adénopathie médiastinole | 4 |
affection abdominale | 1 |
affection allergique | 1 |
affection bactérienne | 1 |
affection maligne | 2 |
affection virale | 1 |
agent cytotoxique | 1 |
agent en cause | 2 |
agent pathogène | 2 |
agent transmis | 1 |
aggravation de l'épanchement | 1 |
altération de l'état | 1 |
alvéole péri-bronchiolalre | 1 |
analyse méthodique | 1 |
analyse séméiologique | 1 |
anomalie congénitale | 1 |
antibiothérapie antibactérienne | 1 |
appendicite aiguë | 1 |
arc antérieur | 1 |
arc costal | 1 |
arc postérieur | 1 |
aspect bigarré | 2 |
aspect classique | 1 |
aspect de cliché | 1 |
aspect de pneumopathie | 2 |
aspect en rayon | 1 |
aspect milioire | 1 |
aspect radioloqique | 5 |
aspect évolutif | 1 |
aspect particulier | 1 |
aspect syndromique | 1 |
77Les listes servent à mettre en évidence des ensembles de séquences différentes. Le tri alphabétique réunit les termes dont la tête est la même. Le tri par fréquence décroissante regroupe les termes les plus importants dans le texte et permet au terminographe de les repérer rapidement.
FIGURE 6.11 Liste de candidats-termes organisée par fréquence décroissante et par ordre alphabétique pour les fréquences identiques
examen radiologique | 10 |
épanchement pleural | 7 |
atteinte pulmonaire | 6 |
aspect radiologique | 5 |
adénopathie médiastinale | 4 |
examen radhgraphique | 4 |
opacité alvéolaire | 4 |
cardiopathie congénitale | 3 |
corps étranger | 3 |
emphysème obstructif | 3 |
enfant immuno-déprimé | 3 |
facteur favorisant | 3 |
heure actuelle | 3 |
infection respiratoire | 3 |
infection virale | 3 |
symptôme respiratoire | 3 |
voie aérienne | 3 |
atteinte bronchique | 2 |
comblement alvéolaire | 2 |
complication mécanique | 2 |
condensation alvéolaire | 2 |
coupole diaphraqmatique | 2 |
critères habituels | 2 |
degré variable | 2 |
existence de l'emphysème | 2 |
lobe inférieur | 2 |
lobule secondaire | 2 |
pneumopathies bactériennes | 2 |
pneumopathie virale | 2 |
signe radiologique | 2 |
surface pleurale | 2 |
symptomatologie respiratoire | 2 |
traitement efficace | 2 |
virus respiratoire | 2 |
78Il existe des variantes à ces deux modes d’organisation de base. Par exemple, LogiTerm, qui est un environnement d’aide à la traduction et qui comprend un extracteur de termes anglais, effectue un tri sur le mot de droite qui constitue la tête des termes dans cette langue. La figure 6.12 montre comment les termes sont ordonnés dans la liste. La liste présente une partie des candidats-termes proposés à la suite de l’analyse d’un texte d’informatique.
79Certains extracteurs vont même jusqu’à tenir compte des termes déjà répertoriés par un utilisateur. En effet, il arrive fréquemment qu’un terminographe dispose d’une base de données dans laquelle il consigne les termes sur lesquels il a déjà travaillé. Il est utile alors de les connaître afin de ne pas s’en préoccuper dans la suite de la recherche terminographique.
FIGURE 6.12. Ordonnancement de candidats-termes complexes anglais par LogiTerm
support multiple e-mail account
AK Mail support multiple e-mail account
mailing account multiple account
Adobe Acrobat
digital business activity
normal business activity
W3CHTML activity
W3C's HTML activity
user interface activity
dassified ad ethemet adapter
3Com 905C ethemet adapter
PC's ethemet adapter
LAN adapter
network adapter
Token Ring adapter
welcome addition real welcome addition
32-bit address
odministered address
destination address 32-bit
destination address
email address
IP address
FIGURE 6.13. Identification de termes déjà décrits dans un répertoire terminologique
LAN adopter
network adapter
*Token Ring adapter
welcome addition
real welcome addition
*32-bit address
administered address
destination address
32-bit destination address
*email address
*IP address
80Les extracteurs proposant cette fonctionnalité effectuent un recoupement entre la liste de candidats-termes et les entrées du répertoire de l’utilisateur. Par la suite, ils identifient les termes trouvés au moyen d’une marque graphique. La figure 6.13 montre que les termes retrouvés sont signalés au moyen de l’astérisque.
81Enfin, quelques extracteurs sont couplés à un concordancier et ramènent les contextes dans lesquels les termes extraits ont été trouvés. Du point de vue de l’utilisateur, cette fonctionnalité est fort utile, voire indispensable. La lecture des contextes est souvent nécessaire pour valider le statut terminologique d’un candidat.
Problèmes courants des extracteurs de termes
82Comme nous l’avons déjà souligné à quelques reprises et de l’aveu même des concepteurs, les extracteurs de termes ne produisent pas des listes parfaites.
83Les listes générées à la suite d’une extraction automatique renferment toujours des suites de mots qui n’intéressent pas l’utilisateur. Les candidats indésirables sont regroupés sous le générique bruit Par ailleurs, l’extracteur peut omettre d’inscrire dans la liste des termes qui apparaissent dans le texte dépouillé. Les termes omis sont regroupés sous le générique silence. Les notions de bruit et de silence sont schématisées à la figure 6.14.
Des mesures du bruit et du silence
Deux mesures permettent d’évaluer le bruit et le silence. Il s’agit de la précision et du rappel.
La précision estime la proportion de bons candidats extraits dans la liste de candidats-termes. Lorsque la précision est élevée, il y a peu de bruit.
Le rappel évalue la proportion de bons termes extraits parmi les possibilités dans le texte. Le rappel est élevé lorsqu’il y a peu de silence.
84Il n’est pas toujours facile de connaître la performance réelle d’un extracteur de termes, notamment parce quelle est évaluée au moyen de méthodes différentes. Nous énumérons, ci-dessous, trois méthodes couramment utilisées.
La liste de candidats-termes est comparée au contenu d’une banque de terminologie ou d’un dictionnaire spécialisé. Cette technique permet de mesurer le bruit et le silence, mais tient pour acquis que le répertoire est exhaustif dans le domaine de spécialité concerné, ce qui est rarement le cas. Ainsi, un terme correct proposé par l’extracteur mais non répertorié dans une banque de terminologie sera considéré comme du bruit.
Un terminographe (ou un autre utilisateur visé par l’extracteur) valide la liste de candidats-termes. Cette technique mesure le bruit mais pas le silence.
Un terminographe (ou, encore une fois, un autre utilisateur) dépouille un texte et dresse une liste de référence. Cette liste est comparée à la liste de candidats-termes. Il est souvent difficile de savoir si la liste de référence contient tous les termes d’un texte spécialisé ou une partie d’entre eux (par exemple, les termes complexes qu’est censé ramener un extracteur).
85Une évaluation menée dans le cadre du projet ATTRAIT (Atelier de travail informatisé du terminologue) a eu recours à la dernière méthode. Un texte, préalablement dépouillé par un terminographe, a été soumis à quatre extracteurs de termes. La liste de référence contenait 208 termes. Les extracteurs ramènent tous un grand nombre de candidats (entre 760 et 1300). Dans tous les cas, le bruit est élevé et se situe entre 78 % et 94 %. Il faut également garder à l’esprit que, même s’ils font de nombreuses propositions, les extracteurs ne ramènent pas tous les termes présents dans la liste de référence. Le taux de silence le moins élevé était de 7 %.
86Ces résultats sont fournis à titre purement indicatif puisque l’évaluation des extracteurs est très difficile à mettre en œuvre, en raison, notamment, des grandes différences existant entre les logiciels. Il mettent tout de même en évidence l’écart entre les attentes d’un utilisateur et l’aptitude d’un extracteur à les combler.
87Il est clair que certaines limites des extracteurs de termes sont directement liées à leur conception. Par exemple, en choisissant de localiser exclusivement les termes complexes, on écarte a priori les termes simples. De même, en focalisant sur les noms ou les syntagmes nominaux, on omet de facto toutes les autres parties du discours.
88D’autres limites sont liées à l’indice dont l’extracteur tient compte. En misant sur la fréquence, il écarte les termes qui n’apparaissent qu’une seule fois dans les textes. En tablant sur les patrons, il retient des suites qui correspondent à ces patrons mais qui ne sont pas des termes.
89Les concepteurs d’extracteurs de termes doivent constamment tenter d’équilibrer les résultats en tenant compte du bruit et du silence, ce qui n’est pas une tâche facile. En diminuant le bruit (par exemple, en rectifiant un traitement particulier), ils augmentent la proportion de silence ; de même, en tentant de réduire le silence, ils augmentent sensiblement la proportion de bruit. Du point de vue de l’utilisateur, il est préférable de réduire le silence au maximum, quitte à augmenter le bruit de façon importante : il est plus facile d’épurer une liste contenant des candidats non souhaités que de retrouver un terme omis dans un corpus parfois volumineux.
90L’autre difficulté titanesque à laquelle se heurtent les concepteurs de logiciels d’extraction est le fait que les utilisateurs de ces logiciels n’ont pas les mêmes attentes par rapport à eux. Nous avons vu au chapitre 2, alors que nous nous interrogions sur la nature du terme, que les définitions varient d’un spécialiste à l’autre. Ainsi, l’évaluation que fera un terminographe, un traducteur ou un documentaliste de la qualité d’une extraction ne sera pas la même.
Rectifier le tir de différentes manières
91Outre les questions liées à la conception des extracteurs de termes et aux besoins des utilisateurs, l’imperfection des résultats tient également à la nature de la langue ou à la forme des termes complexes qui présentent, lorsqu’on essaie de les faire traiter automatiquement, toute une série d’embûches. Certains des problèmes particuliers posés par l’analyse des termes complexes sont abordés au chapitre 2.
92Toutefois, des extracteurs proposent des solutions à une partie de ces problèmes. Nous en examinons quelques-unes dans les sections qui suivent.
a) Découper un syntagme nominal
93Certains extracteurs s’attaquent au problème que présente le découpage du terme. Un terme fait parfois partie d’un syntagme nominal plus long et l’extracteur n’a pas toujours à sa disposition les paramètres lui permettant de le découper convenablement.
94Voyons d’abord quelles sont les possibilités de découpage du syntagme suivant : utilisateurs de systèmes de gestion de bases de données génériques. Les découpages possibles sont reproduits à la figure 6.15.
FIGURE 6.15. Possibilités de découpage d’un syntagme nominal
données génériques
bases de données
bases de données génériques
gestion de bases
gestion de basesde données
gestion de bases de données génériques
systèmes de gestion
systèmes de gestion de bases
systèmes de gestion de bases de données
systèmes de gestion de bases de données génériques
utilisateurs de systèmes
utilisateurs de systèmes de gestion
utilisateurs de systèmes de gestion de bases
utilisateurs de systèmes de gestion de bases de données
utilisateurs de systèmes de gestion de bases de données génériques
95Dans un premier cas de figure, l’extracteur propose tous les candidatstermes et laisse l’utilisateur faire le tri.
96Une seconde solution, qui est automatisée — contrairement à la précédente—, consiste à utiliser l’information obtenue sur les autres candidats termes pour guider ce découpage. Plutôt que de retenir toutes les possibilités, l’extracteur relève, dans une première étape, les syntagmes les plus longs apparaissant réellement dans le texte. Imaginons, par exemple, qu’un extracteur ramène les séquences suivantes après l’analyse d’un texte d’informatique et qu’il note leur fréquence :
5 | bases de données |
10 | système de gestion de bases de données |
1 | utilisateurs de systèmes de gestion de bases de données génériques |
97L’extracteur compare les fréquences respectives des trois syntagmes nominaux. Si le syntagme le plus court a une fréquence égale ou inférieure à celle du syntagme le plus long, il est rejeté au profit du plus long. Par exemple, si système de gestion de bases de données apparaît 10 fois dans le texte, mais que bases de données a été relevé 5 fois, l’extracteur ne retiendra que système de gestion de bases de données en tenant pour acquis que base de données fait nécessairement partie du syntagme nominal le plus long.
b) Définir le statut terminologique d’un candidat-terme
98Un second problème que nous n’avons pas manqué de signaler concerne la distinction entre un terme complexe et une autre séquence qui n’est pas terminologique. Une manière de rectifier le tir consiste à faire intervenir un seuil minimal de fréquence, seuil en deçà duquel les segments ne sont pas extraits.
99De nombreux chercheurs concentrent leurs efforts autour de mesures statistiques dans le but de trouver celle qui permettra d’évaluer le statut terminologique des candidats. Ces calculs sont censés accorder un poids plus élevé aux véritables termes.
100Une autre stratégie s’appuie sur les éléments entrant dans la composition d’un terme complexe. Cette technique est utilisée par un extracteur appelé Nomino, qui répartit les candidats-termes dans deux listes différentes. La première rassemble les candidats qui ont une structure jugée plus apte à donner lieu à des termes. Il s’agit des séquences composées d’un nom et d’un adjectif et celles qui sont composées d’un nom, des prépositions à et de, suivies d’un nom. La seconde liste réunit tous les candidats ; en plus des séquences déjà énumérées, elle présente des séquences dans lesquelles entre un déterminant ou d’autres prépositions comme par ou avec.
101Une troisième technique propose de focaliser a priori sur les séquences à statut terminologique plutôt que d’intervenir a posteriori. Cette technique, proposée par Drouin (2003), repose sur l’acquisition de ce que le chercheur appelle des pivots lexicaux et a été implantée dans un logiciel appelé TermoStat.
102En fait, il s’agit d’une combinaison ingénieuse de techniques dont nous avons déjà parlé dans les sections précédentes. L’extracteur dresse d’abord une liste de noms et d’adjectifs en comparant un corpus spécialisé contenant les termes qui nous intéressent à un corpus de référence. On tient pour acquis que les noms et adjectifs que fait émerger la comparaison sont susceptibles d’entrer dans la formation de termes complexes.
103L’extracteur utilise donc les noms et adjectifs alors définis comme pivots lexicaux pour partir à la recherche de termes dans le corpus. Les techniques utilisées par la suite pour l’extraction de termes complexes s’appuient sur le repérage de frontières. La séquence des tâches effectuées par l’extracteur est illustrée à la figure 6.16.
104Drouin (2003) estime que la méthode d’extraction fondée sur l’acquisition préalable de pivots lexicaux permet de réduire le bruit de façon significative. En outre, la technique présente l’avantage de retenir des termes simples de nature nominale et adjectivale et ne focalise pas uniquement sur les termes complexes comme nombre de techniques qui ont été décrites jusqu’ici.
c) Des difficultés insurmontables ?
105Les extracteurs se heurtent à bien d’autres difficultés pour lesquelles il ne semble pas exister de solution évidente.
106L’une d’entre elles concerne les termes dont la structure n’est pas « habituelle », c’est-à-dire qui n’est pas inscrite dans la liste de patrons à repérer. Par exemple, il arrive qu’un terme complexe comporte un adverbe (ex. langage de très haut niveau, organisme génétiquement modifié). Si le patron ne fait pas partie des séquences à identifier, l’extracteur ne dispose d’aucun moyen pour faire figurer les termes correspondants dans une liste.
107Il s’agit d’un problème plus important pour les extracteurs qui font appel à des techniques linguistiques. En effet, un extracteur misant sur la fréquence peut retenir les séquences de ce genre si elles apparaissent souvent dans le corpus analysé.
108En ce qui concerne les extracteurs de patrons typiques, les solutions ne sont pas faciles à trouver. L’ajout d’un nouveau patron (par exemple, nom + adverbe + adjectif) permettra d’admettre organisme génétiquement modifié, mais ce faisant, on risque de retenir beaucoup d’autres candidats qui ne sont pas des termes et ainsi contribuer à faire augmenter la proportion de bruit sensiblement.
109Une partie des variations que subissent les termes complexes, et que nous avons examinées au chapitre 2, sont particulièrement difficiles à faire traiter automatiquement. L’analyse systématique des termes coordonnés ou juxtaposés ou, encore, les termes dans lesquels on a inséré un autre mot ou dans lesquels une composante est élidée, fait appel à des analyses syntaxiques que peu de concepteurs ont implantées dans un extracteur jusqu’ici.
110D’autres variantes terminologiques toutefois font l’objet de traitements spécifiques. Ceux-ci sont abordés au chapitre 7.
Conclusion
111En résumé, rappelons qu’il existe différents manières d’extraire les termes automatiquement.
112Un premier ensemble de méthodes, dites statistiques, misent principalement sur la fréquence des mots graphiques. La comparaison d’un corpus spécialisé à un corpus de référence permet de dégager des termes simples dont la fréquence est anormalement élevée. L’étude du degré d’association entre deux mots graphiques distingue des combinaisons dont l’association est forte des combinaisons fortuites.
113Un second ensemble de stratégies, dites linguistiques, dégagent les termes complexes en repérant des parties du discours auxquelles appartiennent les unités. Certaines recherchent des séquences de parties du discours ; d’autres pratiquent des coupes pour isoler les candidats.
114Les méthodes statistiques et linguistiques présentent toutes deux des lacunes qu’il semble possible de corriger partiellement en les combinant. Des méthodes mixtes génèrent des listes de candidats plus satisfaisantes.
115Peu importe la technique implémentée, les extracteurs produisent tous une part importante de bruit et omettent de relever des termes intéressants, même si ceux-ci apparaissent dans les corpus. Ces imperfections s’expliquent par la complexité de la tâche, mais il faut également tenir compte du fait que les utilisateurs n’ont pas tous les mêmes attentes.
116On se concentre actuellement sur des méthodes destinées à perfectionner l’extraction de termes et explorant de nouvelles voies. Certaines d’entre elles sont abordées au chapitre 7, mais on peut s’attendre à ce que les améliorations se multiplient dans les années à venir.
Suggestions de lectures
117L’extraction de termes fait l’objet d’une littérature abondante. Nous retenons les travaux directement reliés aux questions abordées dans le chapitre.
118Jacquemin et Bourigault (2003) présentent un résumé des techniques actuelles de dépistage de termes. On trouvera de nombreux articles sur des techniques récentes dans Bourigault et al. (2001). Par ailleurs, le chapitre 2 de Jacquemin (2001) fait une synthèse très complète des extracteurs faisant appel à différentes techniques. Les autres chapitres se concentrent sur la variation terminologique dont il sera question au chapitre 7.
119L’article de Church et Hanks (1990) est souvent considéré comme une contribution phare en ce qui concerne l’utilisation de modèles statistiques pour mesurer le degré d’association entre les mots. Lebart et Salem (1988) et Muller (1977 ; 1992) abordent les questions de statistique lexicale dont certaines sont utilisées dans les techniques que nous avons décrites sommairement.
120Chung (2003) et Lemay et al. (2004) présentent des méthodes d’extraction de termes par comparaison de corpus.
121Une application de la technique des segments répétés à la terminologie est présentée dans Drouin et Ladouceur (1994).
122Le détail de certaines techniques linguistiques est donné dans Bourigault (1994), Daille (1994) et Justeson et Katz (1995). Par ailleurs, Daille (1994) constitue une étude des différents calculs statistiques pouvant être appliqués à l’extraction de termes. Drouin (2003) décrit la méthode d’identification des pivots lexicaux.
123On trouvera dans Lauriston (1994), L’Homme et al. (1996) et Otman (1991) des évaluations des traitements effectués par certains extracteurs de termes connus.
Notes de bas de page
7 La liste a été produite par une version de démonstration de WordSmith Tools.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
L'éducation aux médias à l'ère numérique
Entre fondations et renouvellement
Anne-Sophie Letellier et Normand Landry (dir.)
2016
L'intégration des services en santé
Une approche populationnelle
Lucie Bonin, Louise Belzile et Yves Couturier
2016
Les enjeux éthiques de la limite des ressources en santé
Jean-Christophe Bélisle Pipon, Béatrice Godard et Jocelyne Saint-Arnaud (dir.)
2016
La détention avant jugement au Canada
Une pratique controversée
Fernanda Prates et Marion Vacheret (dir.)
2015
La Réussite éducative des élèves issus de l'immigration
Dix ans de recherche et d'intervention au Québec
Marie McAndrew (dir.)
2015
Agriculture et paysage
Aménager autrement les territoires ruraux
Gérald Domon et Julie Ruiz (dir.)
2014