Modèles et sémantique lexicale
p. 99-124
Texte intégral
Introduction
1Comprendre une phrase, interpréter un texte, traduire, communiquer... sont autant d’activités cognitives qui supposent que les mots possèdent un sens véhiculé à travers leurs emplois. La question du sens a souvent pu paraître, par nature, moins objectivable que d’autres domaines linguistiques comme celui de la syntaxe. Certains auteurs pensent même qu’elle résiste à toute tentative de modélisation computationnelle. Cette réticence à la formalisation tient à un jugement d’inadéquation entre, d’une part, l’objet de la sémantique et, d’autre part, les cadres mathématiques couramment utilisés et les implémentations dont ils ont fait l’objet. Nous commencerons par introduire très rapidement une partie de la sémantique : celle qui a donné lieu à des travaux de modélisation. Nous préciserons ensuite ce que nous entendons par modélisation. Ceci nous permettra d’aborder la question d’une éventuelle adéquation. Pour cela, nous nous limiterons à l’étude des modèles en sémantique lexicale à travers l’examen de quelques-uns d’entre eux choisis pour représenter la diversité des cadres formels dans lesquels ils ont été développés. Les résultats de la modélisation seront ensuite envisagés de deux points de vue : celui du traitement automatique des langues et celui de leur pertinence cognitive.
Sémantique, modélisation et informatique
Sémantique
2La sémantique est un champ d’étude polymorphe. En linguistique, la sémantique recouvre de façon non exhaustive :
- l’étude du sens lexical. Les méthodes mises en œuvre pour cela utilisent le plus souvent :
- les proximités lexicales : synonymie (logement est un synonyme d’habitation), hypo-et hyperonymie (chat est un hyponyme d’animal et inversement animal est un hyperonyme de chat), métonymie (dans l’expression boire un verre, le contenant verre est métonyme de la boisson qu’il contient...) ;
- la décomposition des mots en traits sémantiques (/transport/ est un trait sémantique partagé par les mots métro, train, autobus, etc. /ferré/ est un trait qui différencie autobus de train (exemple tiré de Rastier (1987)) ;
- l’étude du sens des combinaisons de mots, des phrases ou des textes. Ce domaine comprend le plus souvent :
- le calcul de la signification d’une combinaison de mots en contexte (un bon livre est un livre qui se lit avec plaisir, un bon marcheur est une personne qui parcourt de longues distances avec facilité ; le sens d’un adjectif peut donc varier en fonction du nom sur lequel il porte) ;
- le calcul de la signification de la phrase ou du discours par l’étude de leur forme logique. Ce calcul comprend en particulier la détermination des conditions de vérité d’un énoncé, mais aussi le calcul de la portée sémantique des unités de la phrase à l’œuvre dans les anaphores, la négation, la quantification...
3En psycholinguistique, ce domaine recouvre généralement l’étude de la représentation des concepts en mémoire. Les concepts lexicaux étudiés appartiennent le plus souvent à des catégories larges comme la distinction vivant (animaux, plantes, parties du corps...)/non vivant (outils...).
4La diversité entre les différents types d’approche témoigne d’un état à la fois créatif et transitoire de la recherche. La plupart des auteurs (Gharbia et al. 1998, Moeschler et Auchlin 2000) s’accordent cependant sur le fait que la sémantique est l’étude des significations et que « la signification est quelque chose qui n’est pas du langage » (Moeschler 2004). On a donc une mise en relation de deux espaces de nature hétérogène : celui des signes linguistiques d’une part et celui d’un autre domaine prélinguistique d’autre part. Cet autre domaine est variable. Il peut être celui des notions, des concepts ou des référents (individus, choses, événements ou états du monde), des conditions de vérité... Pour certains auteurs, ce domaine substrat est cognitif, pour d’autres il renvoie directement aux objets du monde. Se pose alors la question de l’existence d’un modèle formel qui permettrait de synthétiser et de théoriser ce lien.
Modélisation
5Un exemple paradigmatique de la recherche de modèles est la naissance du calcul différentiel au xviie siècle. Ce cadre a permis de répondre aux attentes de la physique et plus précisément la théorisation du mouvement des corps. Cet exemple montre que pour aborder un champ disciplinaire, il peut être nécessaire de créer des idéalités mathématiques. Actuellement, en sciences du langage, il n’existe pas de consensus sur le choix du cadre formel à adopter. On peut citer le recours à des modèles logico-algébriques comme l’ont initialement proposé Chomsky en syntaxe (Chomsky 1969) ou Montague en sémantique (Montague 1974, Dowty et al. 1981) ou encore des modèles qui utilisent la théorie des graphes, les espaces vectoriels, la théorie des singularités, la géométrie, les systèmes dynamiques... Ce manque de convergence résulte peut-être de l’absence d’un modèle tout à fait adéquat et qui reste à construire, et par ailleurs du fait que peu d’auteurs se soient saisis de la question autrement que sous la forme d’une dispute entre les tenants des modèles discrets et ceux des modèles continus.
Informatique
6L’informatique est la troisième composante des travaux en sémantique. Elle a permis, quand cela a été possible, l’implémentation des modèles, donné lieu au développement d’outils, élargi le champ des expérimentations linguistiques. On pourra se reporter à Habert et al. (1997) pour un panorama très complet. Comme tout médiateur, l’informatique représente une contrainte. En particulier, nous essaierons de montrer que la relation entre le modèle et son implémentation informatique est une conversion qui impose des limites. Ces limites sont plus ou moins fortes suivant l’adéquation entre cadre formel et machine numérique. Cependant, si l’outil n’est jamais le prolongement fidèle d’une intention théorique, il ouvre l’accès à de nouvelles possibilités : la gestion d’immenses masses de données textuelles a permis l’émergence d’une linguistique expérimentale aussi appelée linguistique de corpus. Enfin, la recherche de modèles computationnels en sémantique est un champ d’étude très productif aujourd’hui, car de ces modèles dépendent les performances des systèmes d’acquisition et de représentation des connaissances, de recherche d’information, de traduction automatique...
Quelques grands courants de la modélisation en sémantique lexicale
7Les principaux cadres formels utilisés en sémantique lexicale sont (1) les graphes, (2) la logique mathématique (et en particulier le λ-calcul), (3) les espaces vectoriels, (4) les réseaux neuronaux, (5) les espaces topologiques, (6) les systèmes dynamiques. Certains de ces cadres sont plus spécifiquement adaptés à la représentation du sens (il s’agit des graphes, des espaces vectoriels et des espaces topologiques), d’autres s’attachent aussi à rendre compte du processus de calcul ou de constitution du sens (il s’agit de la logique mathématique, des réseaux de neurones, des systèmes dynamiques). Et c’est dans cet ordre que nous les présenterons.
Graphes et représentation des connaissances lexicales
8Plusieurs systèmes (WordNet (Fellbaum 1998b), FrameNet (Ruppenhofer et al. 2005)...) utilisent le graphe comme paradigme de représentation lexicale. L’exemple le plus connu reste certainement le thésaurus WordNet. Un des objectifs fondateurs de WordNet était de proposer un thésaurus exhaustif des connaissances lexicales dont toute personne dispose. Le paradigme revendiqué par les auteurs pour bâtir cette base lexicale prend appui sur une approche dite classique (ou aristotélicienne) caractérisée par la représentation d’un concept par une liste de propriétés nécessaires et suffisantes. Par exemple, le concept de rouge-gorge se caractérise par les propriétés : a la poitrine rouge, est un vertébré, à sang chaud, a un bec, des ailes, des plumes, peut chanter, voler, pondre des oeufs. Cette représentation par propriétés induit une hiérarchie fondée sur l’héritage : (rouge-gorge hérite des propriétés de tous ses concepts hyperonymes : oiseau, animal...). La figure 1 reprend la présentation que Miller (1998) fait de cette hiérarchie conceptuelle.
9Le formalisme des graphes a été utilisé pour représenter cette organisation. C’est un formalisme discret à valeurs finies fondé sur deux notions : l’unité conceptuelle et la relation entre unités, couplées respectivement aux notions de nœud et d’arête d’un graphe. La hiérarchie fondatrice du système basée sur l’hyperonymie a ensuite été augmentée d’autres relations comme la méronymie, qui lie une partie de l’objet au tout, ou encore l’antonymie, qui lie des opposés, la troponymie : un verbe V1 est un troponyme de V2 si V1 est une façon particulière de faire V2. Par exemple, cheminer est un troponyme de marcher (Fellbaum 1998a). Notons aussi que dans WordNet le concept lexical n’est pas représenté par un mot mais par une liste de synonymes (synset). Ceci permet de séparer plusieurs concepts désignés par un même nom. Ainsi le mot house est-il décomposé en douze concepts lexicaux dont firm, house, business firm ou encore family, household, house, home, menage.

Fig. 1 - Figuration d’une hiérarchie lexicale telle qu’elle est présentée par Miller (Fellbaum 1998b).
10Du point de vue de son implémentation informatique, WordNet est un projet d’envergure : il contient actuellement 117 597 synsets. Cependant, l’architecture hiérarchique reste plus adaptée à la représentation des noms qu’à celle des verbes, et a fortiori des adjectifs et des adverbes. Enfin, la constitution de la base lexicale WordNet est peu automatisée, elle a été largement effectuée « à la main ».
Proximité sémantique et modèles vectoriels
11Ces dernières années, plusieurs modèles vectoriels ont vu le jour comme LSA (Landauer et al. 1998) ou HAL (Burgess et Lund 1997). Le développement des modèles vectoriels fait écho à une mouvance alternative à l’approche classique des concepts. Cette alternative prend appui sur le constat d’une inadéquation entre hiérarchie conceptuelle et résultats obtenus lors d’expériences avec des sujets. Ainsi, Smith et al. (1974) ont mis en évidence des différences de temps de traitement entre les énoncés du type : A robin is a bird (un moineau est un oiseau) et des énoncés du type : A penguin is a bird (un pingouin est un oiseau). Le premier type est traité plus rapidement que le second. Ces résultats impliquent que l’appartenance à une même catégorie, ici bird, n’est pas calculée sur la base d’une unique liste de conditions nécessaires et suffisantes (ou, dans la représentation hiérarchique, par la distance entre le concept hyponyme et le concept hyperonyme). En effet, la liste des conditions étant identique, le temps de traitement devrait être le même. Et de même, le nombre d’arcs séparant robin et penguin de bird étant le même dans WordNet, le temps de traitement devrait rester inchangé. Afin d’expliquer ces phénomènes, il a été proposé que les concepts ne seraient pas organisés en mémoire à la manière d’une hiérarchie conceptuelle, mais plutôt autour de prototypes (Rosch 1983) et suivant leur similarité sémantique. Moineau ou rouge-gorge sont des prototypes d’oiseau, en revanche, sur un gradient de prototypie, pingouin est relativement éloigné de ces deux représentants centraux.
12En adéquation avec cette mouvance alternative en psycholinguistique, et contrairement à WordNet, les modèles vectoriels ne présupposent pas une organisation a priori des concepts ou de la sémantique des unités lexicales. Les auteurs mettent même en doute la possibilité de parvenir à définir le sens des mots (Kintsch 2001). Dans cette perspective, les liens sémantiques sont établis à partir des emplois relevés dans des corpus de textes. Ces corpus peuvent contenir plusieurs millions de mots.
13Les expériences de psycholinguistique utilisent comme paramètre d’investigation les temps de réaction ou des jugements de similarité fournis par des sujets. Il semble naturel que ces indices, qui prennent des valeurs numériques variables, trouvent dans la notion de distance dans un espace vectoriel un support adapté. Afin de calculer les distances sémantiques, LSA établit une matrice comportant en colonnes les paragraphes (ou les phrases) du corpus traité, et en ligne les mots. Chaque case mij de cette matrice contient initialement la valeur 0 ou 1 suivant que le moti appartient ou non au paragraphej. Une analyse factorielle1 est ensuite effectuée sur cette matrice initiale. Le résultat est une nouvelle matrice qui associe à chaque mot ses coordonnées dans un espace multidimensionnel. La proximité entre deux vecteurs associés à deux mots est définie mathématiquement par leur cosinus : cos (vecteurmot1, vecteurmot2). Cette méthode permet de faire la synthèse des liens de co-occurences, mais aussi d’utiliser le fait que deux mots qui ont des contextes similaires sont sémantiquement proches. Si dans le corpus le mot roman apparaît plusieurs fois dans le voisinage du mot livre, et qu’il en va de même du mot poésie, alors LSA permettra de repérer une proximité sémantique à la fois entre les mots livre et roman ou livre et poésie, mais aussi entre les mots roman et poésie.
14Différentes caractéristiques séparent cette approche de WordNet :
- les liens sémantiques entre unités lexicales dépendent du corpus utilisé et ne sont donc pas fixés a priori. Le mot connaissance n’aura pas les mêmes voisins sémantiques selon qu’on aura choisi un corpus général ou un corpus de spécialité en philosophie ;
- structures initiales du corpus prises en compte par cette méthode sont : le mot, la phrase, le paragraphe et le texte, tous repérés par des séparateurs : blanc, ponctuation, saut de ligne... Le choix de ces simples unités constitue cependant un facteur crucial puisque, dans cette perspective, pomme de terre, par exemple, n’est pas constitué d’une mais de trois unités lexicales, et que maison et maisons sont deux unités lexicales distinctes ;
- enfin, la représentation associée à un mot est atomique (comme l’est également un synset), mais aussi unique en ce sens que les différentes composantes du vecteur ne sont pas directement interprétables en caractéristiques sémantiques séparées : dans ce formalisme, le vecteur constitue une unité indécomposable. Il en découle que les valeurs sémantiques d’un mot ne sont pas représentées pour ellesmêmes, seule est donnée une liste de mots voisins qui, bien qu’associés chacun à une ou plusieurs de ces valeurs, ne permettent pas de les distinguer. Par exemple, les plus proches voisins de party construits à partir du corpus General_Reading_up_to_12th_Grade (http://lsa.colorado.edu/) sont, par ordre de proximités décroissantes (le chiffre correspond à la valeur du cosinus) : 0,83 parties, 0,73 prohibitionists, 0,73 prohibitionist, 0,73 spokesperson, 0,72 democrats, 0,71 antifederalists, 0,67 sorauf, 0,67 chairpersons, 0,66 tuba, 0,66 democratic, 0,66 partisanship, 0,65 nominating, 0,65 candidates, 0,65 invite, 0,65 birthday, 0,64 railwaymen, 0,64 eec, 0,63 whig, 0,63 factions. Les voisins relatifs à party au sens de parti politique sont mêlés à ceux relatifs à party dans le sens de fête.
15Enfin, les modèles vectoriels sont tout à fait adaptés à une implémentation informatique. Leur mise en œuvre ne nécessite qu’un corpus de taille suffisante et des algorithmes matriciels relativement classiques.
Voisinages et classification sémantique, l’alternative géométrique
16Il existe peu de modèles géométriques. On pourra trouver chez P. Gärdenfors (2000) un argumentaire philosophique en leur faveur. Gärdenfors, après avoir énoncé les limites à la fois des approches symboliques et des approches connexionnistes, propose le paradigme géométrique comme un pont entre ces deux niveaux de description. Dans cette perspective, l’espace associé à un concept est construit à partir d’un ensemble de dimensions perceptives. Par exemple, Fairbanks et Grubb (1961) donnent une représentation géométrique des voyelles construites comme des aires délimitées par un polygone sur un plan dont les axes sont définis par les valeurs des deux premiers formants2. Deux éléments caractérisent les modèles géométriques : la séparation de l’espace des formes de celui du contenu et la projection d’une forme sur un domaine de l’espace du contenu cognitif. Dans le domaine lexical, le choix d’un modèle géométrique permet à la fois de représenter une structure interne des concepts par interprétation des différentes zones qui constituent le domaine et de rendre compte de la similarité sémantique entre unités. Cette similarité est définie par la mesure du recouvrement entre des aires qui leur sont associées et par la distance qui les sépare. Ces deux caractéristiques font la synthèse de la capacité à classifier (WordNet propose une classification a priori des différents sens des mots) et à mesurer les proximités, comme dans les modèles vectoriels. De plus, le paradigme géométrique est un support pour la simulation de notre capacité à traduire le sens. En effet, les tentatives pour construire un modèle translinguistique se sont révélées difficiles dans le paradigme hiérarchique (WordNet) et ont été peu développées dans le paradigme vectoriel. En revanche, dans le paradigme géométrique, la définition d’un espace de contenu permet de modéliser les phénomènes de traduction lexicale. La figure 2 donne une idée de ce que peuvent être les différentes projections associées à deux langues. Cependant, un problème posé par les modèles géométriques réside dans le fait qu’il est difficile d’avoir accès directement au contenu sémantique. Dans le modèle des Atlas sémantiques (Ploux 1997, Ploux et Victorri 1998), cet inconvénient a été déjoué par un artefact utile : la notion de clique3. En effet, si la représentation associée à la sémantique d’un mot est, comme nous l’avons supposé, un domaine dans un espace multidimensionnel, il est nécessaire pour construire ce domaine de représenter les unités qui le composent. Les cliques ont initialement été calculées à partir de la relation de synonymie (on peut aussi proposer des cliques de contexte (Ji et al. 2003). Les cliques de synonymie sont des ensembles maximaux de mots tous synonymes les uns des autres. Dans ce modèle, une clique est représentée par l’intersection des différents domaines associés à la liste des synonymes (voir figure 3). Une implication de la propriété de maximalité est qu’il n’existe aucun autre mot dans la langue qui puisse diviser cette intersection. Pour cette raison, une clique représente une unité minimale de sens, un « grain » de sens. Voici énoncées quelques propriétés de ces unités :

Fig. 2 - Figuration du lien formes-contenu dans un modèle géométrique.
- les cliques, contrairement aux synsets, ne sont pas des unités de langage ni donc d’un métalangage. Il est difficile à la fois de les désigner et de nommer leurs différences. On pourra s’en persuader à travers l’exemple des trois cliques suivantes contenant le mot insensible :
- cruel, dur, féroce, impitoyable, implacable, inexorable, inhumain, insensible
- cruel, dur, impitoyable, implacable, inexorable, inflexible, inhumain, insensible
- cruel, dur, impitoyable, implacable, inexorable, inflexible, insensible, sévère ;
- il existe une topologie sous-jacente à l’ensemble des cliques associées à un mot qui permet de distinguer des valeurs et de passer par des chemins continus d’une valeur à une autre qui lui est proche. Ainsi, les cliques données ci-dessus sont des exemples de cliques relatives à la valeur « morale » du mot insensible ;
17les cliques • endormi, engourdi, inerte, insensible
18• engourdi, froid, inerte, insensible
19sont associées à la valeur « physique » ;
20les cliques • imperméable, impénétrable, inaccessible, insensible, réfractaire, sourd
21• imperméable, impénétrable, inaccessible, insensible, réfractaire, étranger
22à une valeur qu’on pourrait qualifier d’« émotionnelle » ;
23les cliques • imperceptible, inapparent, insensible, invisible
24• imperceptible, indiscernable, insaisissable, insensible, invisible
25à une valeur « perceptuelle » qui contrairement aux précédentes valeurs ne désigne pas une personne mais un phénomène externe.
26L’examen de l’ensemble des cliques met en évidence l’existence de chemins de cliques au sein desquels une clique partage au moins un mot avec la suivante, et qui circulent de façon progressive d’une valeur à une autre.
27La construction de la forme associée au mot initial, ici insensible, opère la synthèse de l’ensemble des liens de proximité. Pour cela, de façon similaire à ce que fait LSA sur une matrice de paragraphes et de mots, on utilise une analyse factorielle des correspondances (Benzécri 1980) sur la matrice qui comprend des cliques en ligne et des mots en colonne. Cette méthode permet de calculer les coordonnées des cliques représentées par des points dans un espace multidimensionnel. Les mots, eux, sont représentés par l’enveloppe des points-cliques qu’ils contiennent. Enfin, un algorithme de classification permet de distinguer à partir du nuage de points formé par les cliques les différentes valeurs du mot. La figure 4 donne le résultat pour le mot insensible.
28Ce résultat met en évidence la capacité du modèle (1) à déterminer une valeur générique (quand elle existe) ; cette valeur est positionnée près de l’origine des axes, (2) à déterminer des valeurs proches et des valeurs homonymiques ou quasi homonymiques qui sont nettement séparées des autres sur la carte. En somme, la modélisation géométrique est une modélisation continue qui associe à un mot non plus un atome ou plusieurs atomes de sens (vecteur ou nœud d’un graphe) mais un domaine représentant l’organisation de ses différentes valeurs sémantiques.

Fig. 3 - Figuration de l’intersection des aires associées à des mots d’une même clique.

Fig. 4 - Représentation géométrique associée au mot insensible (d’après Ploux et Ji 2003).
29Comme les modèles précédents, les modèles géométriques constituent des modèles de représentation qui, sans outils supplémentaires, ne rendent pas compte des processus de calcul du sens ou de la forme argumentale ou schématique d’une unité lexicale.
Grammaire du sens et modèles logico-algébriques
30Il existe une tradition de modélisation logico-algébrique en linguistique. Afin de théoriser l’aptitude humaine à produire des phrases grammaticales, Chomsky a décrit la syntaxe comme un système formé d’un vocabulaire, d’axiomes et de règles d’inférence. Montague a intégré ce formalisme syntaxique à la modélisation de la sémantique des phrases. Plus récemment, J. Pustejovsky (1998) a utilisé un cadre du même type pour l’étude de la sémantique lexicale.
31Le lexique génératif (LG) de J. Pustejovsky est une proposition-cadre motivée par l’inadéquation d’une conception énumérative du sens comme le propose WordNet. Les trois arguments majeurs de la critique des théories à valeurs finies sont leur incapacité à rendre compte :
- de la possible créativité du sens d’un mot dans un contexte inédit (Pustejovsky prend pour exemple l’adaptation du sens des adjectifs comme good (bon), voir exemple plus haut) ;
- du partage possible du sens des mots (par exemple des verbes bake (cuire), cook (cuisiner) ou fry (frire)) ;
- des multiples réalisations syntaxiques des mots (par exemple, le verbe forget (oublier) pour lequel les différents types de compléments déterminent l’interprétation sémantique : oublier d’où l’on vient, c’est oublier la réponse à la question sous-jacente, contrairement à oublier son parapluie qui ne met pas en jeu de question).
32L’idée est de remplacer la donnée d’un ensemble de valeurs sémantiques fixées a priori par une capacité calculatoire à déterminer le sens en contexte. Pour réaliser ce projet, J. Pustejovsky a choisi le λ-calcul. Ce choix prolonge l’entreprise de la grammaire générative par la détermination des phrases non plus seulement syntaxiquement mais aussi sémantiquement bien formées. Comme en syntaxe, la détermination du sens en contexte est réalisée par un ensemble d’axiomes et de règles de dérivation. Les axiomes ici sont l’ensemble des unités lexicales munies d’une structure de type attribut-valeur. Cette structure comprend (1) un composant argumentai (par exemple le verbe bake a une structure argumentale formée de deux éléments : le premier est de type animé, le second est de type « massif »), (2) des composants événementiels (trois éventualités : l’état, le procès et la transition), (3) des composants de type qualia et (4) des liens d’héritage au sein du réseau lexical. Les composants de type qualia comportent eux-mêmes quatre aspects :
- un aspect constitutif : la relation entre l’objet et ses composantes ;
- un aspect formel qui distingue l’objet d’un domaine plus large ;
- un aspect télique qui décrit la fonction de l’objet (eat (manger) pour le mot cake (gâteau)) ;
- un aspect agentif qui indique les facteurs impliqués dans la création de l’objet (l’acte de cuire (désigné par bake-act dans le LG) pour cake).
33Trois opérations permettent de calculer l’interprétation des mots en contexte et d’assurer le caractère bien formé des combinaisons. Ces opérations rendent compte, par exemple, des différences entre la phrase bake the potatoes, dont le résultat correspond à un changement d’état des pommes de terre, et la phrase bake a cake, qui signifie la création de l’objet gâteau.
34Cette proposition est séduisante pour gérer le traitement de la polysémie. Cependant, le choix d’un cadre logique imposerait pour être tout à fait adapté que soient assurées (1) la cohérence du système, qui requiert qu’on ne puisse pas aboutir à une contradiction par application des opérations, et (2) sa complétude, ce qui signifie que tous les énoncés puissent être dérivés des axiomes (ici l’ensemble des représentations des lexèmes) par application des opérations. De plus, d’un point de vue méthodologique, et donc aussi informatique, la mise en œuvre de ce paradigme nécessite aussi la spécification des valeurs des composants de la structure pour tous les éléments du lexique (seuls quelques exemples typiques sont traités dans Pustejovsky (1998)), et la détermination de l’ordre d’application des règles.
Processus de convergence du sens et réseaux de neurones
35Les modèles connexionnistes sont nés d’une analogie biologique. On ne cherche plus à modéliser, comme dans les modèles symboliques, les objets de la pensée mais son substrat (les neurones et leurs connexions en réseau), afin de simuler l’activité cognitive.
36Différents réseaux de neurones ont été proposés pour modéliser les traitements liés au lexique. Certains ont pour objet la modélisation du fonctionnement linguistique, comme le réseau de B. Victorri et C. Fuchs (1996) qui cherche à rendre compte de la polysémie adverbiale en contexte, d’autres tentent de simuler des processus mentaux comme le réseau de M. Masson (1995) qui modélise l’amorçage sémantique. Parmi les arguments en faveur du choix d’un modèle neuronal figure celui de la nécessité d’une représentation distribuée des objets (ici les mots ou les concepts). Dans l’approche distribuée, un concept est représenté par un ensemble d’unités correspondant à différents types de processus. Celle-ci s’oppose aux approches par réseaux sémantiques, qualifiées d’approches locales, où chaque concept est représenté par un nœud d’un graphe, objet insécable et sans parties, relié aux autres concepts par les arêtes du graphe. Dans la représentation proposée par M. Masson, une partie des composantes du vecteur associé à chaque mot encode les traits phonologiques, une autre les traits orthographiques, la troisième les traits sémantiques. À chaque pattern d’entrée est associé un vecteur souvent composé de 0 et de 1 (1 pour la présence du trait, 0 sinon). Une démarche assez courante, comme chez M. Masson, consiste à allouer une certaine portion du vecteur à la représentation d’un ensemble de traits et à la remplir de façon aléatoire pour un pattern donné, ce qui positionne ces travaux plus du côté d’une simulation virtuelle que d’une modélisation réelle.
37Les modèles distribués autorisent une certaine tolérance : la donnée seulement partielle en entrée des caractéristiques du concept (comme sa forme orthographique) donne accès, par convergence du réseau, au concept désigné. Un concept (ou le sens d’un mot) sera donc finalement représenté dans le réseau par le centre d’un bassin d’attraction sur l’espace constitué des différentes dimensions. Un bassin d’attraction est, comme le montre la figure 5, un puits de potentiel séparé par des lignes de crêtes. Les différents bassins d’attraction sont tous séparés et le réseau modélise donc un processus de choix ou de décision entre différentes valeurs possibles (nommer un objet dans Masson (1995), déterminer la valeur sémantique en contexte dans Victorri et Fuchs (1996)). Or, en sémantique, on observe des phénomènes de recouvrement entre unités lexicales (voir les arguments de J. Pustejovsky présentés au paragraphe précédent). La séparation en bassins, sans intersection mutuelle, ne permet pas de représenter ces recouvrements (la représentation interne du sens lexical restant en effet cachée). De plus, lors des implémentations, le fait que le nombre de patterns (trois paires de mots dans Masson (1995)) reste souvent dérisoire au regard de ceux couramment manipulés par un être humain, contrairement aux modèles de représentation (vectoriels, hiérarchiques ou géométriques), constitue une limite actuelle de ces modèles.

Fig. 5 - Figure représentant des bassins d’attraction. Des lignes de crêtes séparant trois des bassins ont été ajoutées au trait noir.
Morphogenèse du sens et théorie des singularités
38R. Thom (Thom 1977,1980) a défendu l’idée que le langage, à l’image de la morphogenèse du vivant, puisse se comprendre comme une relation entre un substrat doté de propriétés géométriques et dynamiques et des morphologies observables qui sont les catégories linguistiques. Cette approche diffère de l’approche précédemment qualifiée de géométrique en ce sens que la relation entre ces deux strates n’est pas une relation d’association mais le résultat d’un processus décrit en fonction de paramètres de contrôle et qui détermine le nombre et les caractéristiques des morphologies de surface.
39Dans le cadre de cette théorie, dénommée théorie des catastrophes, R. Thom a proposé une typologie de la sémantique des verbes par utilisation de la théorie des singularités pour la classification des différentes interactions possibles entre arguments (Thom 1980). La figure 6 reprend l’exemple des verbes couper, séparer et traverser. Cette approche, novatrice à plusieurs titres, modélise la nature dynamique du contenu sémantique des verbes indépendamment d’un métalangage dont R. Thom rejette l’usage car il aboutirait à des problèmes de circularité. Elle fait découler le sens de la régulation, de la stabilisation de conflits agissant sur des supports continus, supports ultimes du signifié.
40Cependant, il s’agit plus d’un modèle pour l’étude des concepts lexicaux que pour celle des mots. En effet, les actants en interaction sont assimilés à des points, interdisant ainsi de comprendre les différences sémantiques qui se produisent quand on opère une substitution. Par exemple, le verbe couper ne décrit pas la même interaction dans couper du pain ou dans couper la route (dans le premier cas, le pain est divisé, dans le second cas, la route reste inchangée et le schéma le plus adapté est donc celui associé au verbe traverser). La nature propre des arguments est donc un paramètre nécessaire à l’accès au contenu sémantique. Si la théorie des singularités peut restituer la déformation qui fait passer d’une configuration à une autre, comme par exemple ici de la configuration de couper à celle de traverser, il n’en reste pas moins que ce type de déformation en fonction de la nature des mots en composition n’est pas décrit.
41De plus, le nombre de verbes d’une langue étant bien supérieur au nombre d’interactions listées dans le cadre de la théorie des singularités, il semble nécessaire de complexifier - sans qu’il soit dit comment - ces schémas pour rendre compte de l’immense diversité lexicale. Ce paradigme a inspiré d’autres travaux comme ceux de J. Petitot (Petitot-Cocorda 1985), qui l’a étendu à la morphogenèse du sens pour dégager la double articulation du langage et des structures narratives. Cependant, peu de réalisations informatiques en sont issues. Le manque de propositions inspirées de la théorie des systèmes dynamiques tient probablement à la difficulté pour une machine actuelle de se comporter comme une machine à singularités. En effet, il faut pour appliquer les résultats mathématiques traduire des valeurs numériques en formules analytiques. Le passage du numérique à l’analytique ainsi que le calcul des singularités qui en découle constituent des obstacles majeurs à l’utilisation des ordinateurs pour la mise en œuvre de ce type de modèles.

Fig. 6 - Morphologies archétypiques des verbes séparer, traverser, couper (S désigne le sujet, O l’objet, I l’instrument, m la part de l’objet qui a été détachée). Extrait de Thom (1977).
Modélisation, sémantique et traitement automatique
Les enjeux
42Internet a permis une immense accessibilité aux données textuelles provenant du monde entier et disponibles dans un nombre croissant de langues. Pour pouvoir les utiliser, il faut des systèmes d’interrogation performants. L’espoir, dans les années qui viennent, est de rendre possible une recherche d’information qui, par-delà une simple interrogation par mots, traite directement le contenu sémantique de la requête. À ce projet s’ajoute celui d’une recherche d’information multilingue (Grefenstette 1998) permettant à un utilisateur d’exprimer sa requête dans sa langue maternelle et d’avoir accès aux documents disponibles dans d’autres langues. Tout comme la traduction automatique ou l’aide à la traduction automatique, la recherche d’information multilingue suppose une capacité à déterminer un contenu sémantique commun entre les différentes langues. Du point de vue lexical, les problèmes soulevés par ces différents domaines sont la levée des ambiguïtés lexicales, la gestion de la polysémie, du contexte, mais aussi le traitement morphologique des mots complexes.
Modèles sémantiques et informatique
43Les réalisations actuelles les plus pertinentes pour répondre à ces enjeux sont les réseaux lexicaux : thésaurus, ontologies (voir Vossen (2003) par exemple). Les modèles vectoriels ont également été utilisés. Les réseaux neuronaux ou les modèles génératifs, faute de bases lexicales suffisantes, sont moins présents. La tendance est donc plus à l’extraction de relations lexicales, à l’acquisition et à la constitution de grandes bases qu’à la proposition de modèles qui dériveraient beaucoup à partir de peu. Le nombre d’articles portant sur ces questions et utilisant des méthodes statistiques d’analyse des corpus en témoigne. L’informatique, grâce aux immenses capacités de mémoire, s’est révélée plus utile pour stocker, chercher et repérer des formes ou encore calculer des proximités que pour dériver, inférer, etc. Les modèles qui « collent » aux caractéristiques des machines ont donc été privilégiés. Dans ce contexte, les efforts de modélisation proprement linguistique n’ont pas été véritablement récompensés. Le gain que les systèmes informatiques apportent réside plus dans leur capacité utile à extraire des corpus d’exemples qui alimenteront la démarche théorique que dans leur capacité à la mettre en œuvre.
Modélisation, sémantique et cognition
44Différents protocoles expérimentaux permettent traditionnellement d’interroger la représentation de la sémantique des mots en mémoire. À ces démarches expérimentales s’ajoute aussi l’étude des déficits. Nous présentons ici certains de ces modes d’analyse en comparant leurs résultats à ceux des modèles computationnels.
Une organisation par catégories
45Plusieurs études font état, chez certains patients aphasiques, de déficits affectant sélectivement une catégorie - qu’elle soit large, comme l’ensemble des entités vivantes versus non vivantes, ou plus fines comme les parties du corps, ou encore les fruits et végétaux (voir Forde et Humphreys (2002)). Le patient est alors incapable d’accéder aux informations relatives aux concepts de la catégorie déficitaire. Le choix d’une organisation hiérarchique des concepts comme celle proposée par WordNet permettrait d’expliquer ces pathologies. En effet, la rupture d’un lien dans l’arborescence des concepts rend inaccessibles tous les sous-concepts comme cela semble se produire chez ces patients.
Une organisation par proximités
46L’étude de la représentation du sens des mots en mémoire a fait l’objet de théories suivies plus récemment d’expériences. Comme nous l’avons rappelé plus haut, aux catégories définies par des propriétés nécessaires et suffisantes se sont opposées des propositions prenant pour support le prototype ou encore le gradient d’appartenance. Plusieurs études ont comparé résultats expérimentaux et résultats computationnels. Lund et al. (1996) ont comparé avec succès l’amorçage sémantique et associatif au modèle vectoriel HAL. L’amorçage sémantique consiste à évaluer le lien entre un mot amorce présenté dans un laps de temps très court au sujet et un mot cible. L’hypothèse est que si le traitement du mot amorce a un effet différentiel sur le traitement du mot cible, on peut en déduire qu’en mémoire ces deux traitements sont liés. Pour cela, on étudie le temps de réaction à une tâche demandée au sujet, par exemple une tâche de décision lexicale (le sujet doit dire si le mot cible est un mot ou un non-mot). Laham (1997) a également montré que dans LSA les couples de mots de type nom-catégorie (comme pomme-fruit) ont des distances sémantiques significativement plus petites que des couples non appariés (pomme-animal). Vigliocco et al. (2004) ont montré que la mesure de similarité sémantique calculée par le modèle vectoriel FUSS permet de rendre compte des résultats obtenus lors d’une expérience au cours de laquelle le sujet devait nommer rapidement une image (dans ce cas, le mot erroné produit est aussi un voisin sémantique donné par le modèle), mais également lors d’expériences d’amorçage sémantique. Enfin, Ji et al. (2008) ont montré que le modèle ACOM, modèle géométrique construit à partir de relations de contexte, produit des voisins sémantiques comparables aux mots produits par des sujets dans une expérience d’association de mots.
Une organisation distribuée mettant en jeu un substrat sensori-moteur
47Enfin, un tournant s’est opéré dans la recherche sur les aires cérébrales impliquées dans le traitement du sens des mots : initialement localisé par la communauté scientifique dans des régions spécifiques situées autour de la scissure sylvienne de l’hémisphère gauche, ce traitement apparaît, au regard de nouveaux résultats, distribué suivant des réseaux corticaux dont la topographie reflète la sémantique du mot traité. Ainsi Hauk et al. (2004) ont montré que le traitement des mots d’action impliquant la face, le bras ou la jambe (comme les verbes to lick, to pick, to kick (lécher, cueillir, donner un coup de pied)) dans une tâche de lecture passive active des aires adjacentes ou se superposant aux aires impliquées respectivement dans le mouvement de la langue, de la main ou du pied. Ces résultats montrent l’implication d’aires associées à des traitements de plus bas niveau, indépendants d’un système linguistique, et appuient l’idée d’un substrat sémantique sensorimoteur. Ces expériences privilégieraient donc la plausibilité des modèles géométriques ou dynamiques pour ce qui est du lien avec un contenu infra-linguistique. Enfin, la distribution de ces réseaux fait écho à une modélisation neuronale.
Quelles perspectives ?
48En somme, les différents modèles s’adaptent chacun à un aspect du traitement ou de la représentation sémantique des mots mais rencontrent des difficultés à intégrer l’ensemble de ces aspects. L’atomisme associé à des modèles formels (graphes ou espace vectoriels) permet des réalisations à large couverture lexicale (WordNet ou LSA) sans pour autant rendre compte d’une organisation logique du sens. Cette logique du sens est au cœur des modèles génératifs, mais l’appariement entre le processus et le modèle choisi pose ici des problèmes de validation. Les réseaux de neurones, s’ils répondent à la distribution révélée par l’imagerie cérébrale, ne rendent pas compte des phénomènes de recouvrements sémantiques. Enfin, les modèles hiérarchiques, vectoriels et géométriques privilégient la représentation du système des mots au détriment d’une forme schématique et argumentale propre à chaque unité. Inversement, les modèles qui cherchent à décrire cette forme schématique privilégient le contenu des unités au détriment de la représentation du système des analogies et des différences lexicales.
49Un modèle synthétique devrait faire la somme de ces différentes caractéristiques. Au niveau global, il faudrait pouvoir distinguer les catégories mais aussi les valeurs sémantiques d’un mot, et représenter les proximités et les différences. Au niveau de l’unité, il faudrait pouvoir construire un schéma décrivant la structure argumentale d’une unité et son mode de composition avec les autres unités d’un énoncé. Ce modèle devrait aussi permettre le lien et la cohérence entre ces deux niveaux d’organisation.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références bibliographiques
Ben Gharbia A., Bernigot C., Chambreuil M., Otero P. G., Passinod C., Reinberger M.-L. 1998. Sémantiques. Paris, Hermès-Lavoisier.
Benzécri J.-P. 1980. L’analyse des données : l’analyse des correspondances. Paris, Bordas.
10.3917/puf.bouro.2006.01 :Bouroche J.-M., Saporta G. 2002. L’Analyse des données. Paris, Presses universitaires de France, coll. « Que sais-je ? »
Burgess C., Lund K. 1997. « Modelling parsing constraints with high-dimensional context space ». Language and Cognitive Processes, 12 : 177-210.
Chomsky, N. 1969. Structures syntaxiques. Paris, Seuil.
Dowty D., Wall R., Peters S. 1981. Introduction to Montagne Semantics. Dordrecht, D. Reidel Publishing Company.
10.1044/jshr.0403.203 :Fairbanks G., Grubb P. 1961. « A psychophysical investigation on vowel formants ». Journal of Speech and Hearing Research, 1 : 203-219.
10.7551/mitpress/7287.001.0001 :Fellbaum C. 1998a. A semantic Network of English Verbs. MIT Press : 23-46.
Fellbaum C. (dir.). 1998b. Wordnet, An Electronic Lexical Database. Cambridge (Mass.), MIT Press.
10.4324/9780203990292 :Forde E. M., Humphreys G. W. (dir.). 2002. Category-Specificity in Brain and Mind. East Sussex (UK), Psychology Press.
10.1007/s001970050015 :Gärdenfors P. 2000. Conceptual Spaces, the Geometry of Thought. Cambridge (Mass.), MIT Press.
Grefenstette G. 1998. Cross-Language Information Retrieval. Kluwer Academic Publishers (volume 2 de The Kluwer international series on information retrieval).
Habert B., Nazarenko A., Salem A. 1997. Les linguistiques de corpus. Paris, Armand Colin.
10.1016/S0896-6273(03)00838-9 :Hauk O., Johnsrude I., Pulvermüller F. P. 2004. « Somatotopic representation of action words in human motor and premotor cortex ». Neuron, 39 (41) : 301-307.
Ji H. 2004. A Computational Model for Word Sense Representation Using Contextual Relations. Mémoire de thèse en sciences cognitives.
10.3758/BRM.40.4.926 :Ji H., Lemaire B., Choo H., Ploux S. 2008. « Testing the cognitive relevance of a geometric model on a word-association task : A comparison of humans ». ACOM, and LSA. Behavior ResearchMethods, 40(4) : 926-934.
Ji H., Ploux S., Wehrli E. 2003. « Lexical knowledge representation with contexonyms ». Proceedings of the 9th Machine Translation Summit, 194-201.
10.1207/s15516709cog2502_1 :Kintsch W. 2001. « Predication ». Cognitive Science, 25 : 173-202.
Laham D. 1997. Proceedings of the 19th annual meeting of the Cognitive Science Society, « Latent semantic analysis approaches to categorization ». Mawhwah (NJ), Erlbaum : 979.
10.1080/01638539809545028 :Landauer T. K., Foltz P., Laham D. 1998. « Introduction to Latent Semantic Analysis ». Discourse Processes, 25 : 259-284.
Lund K., Burgess C., Audet C. 1996. « Dissociating semantic and associative word relashionships using high-dimensional semantic space ». Cognitive Science Proceedings LEA : 603-608.
10.1037/0278-7393.21.1.3 :Masson M. 1995. « A distributed memory model of semantic priming ». Journal of Experimental Psychology : Leaming, Memory, and Cognition, 21(1) : 3-23.
Miller G. A. 1998. « Nouns in WordNet ». Cambridge (Mass.), MIT Press : 23-46.
Moeschler J. 2003-2004. Introduction à la sémantique et à la pragmatique. http://www.unige.ch/lettres/linguistique/moeschler/enseignements/pragmatique/index.php, Université de Genève.
Moeschler J., Auchlin A. 2000. Introduction à la linguistique contemporaine. Paris, Armand Colin.
Montague R. 1974. Formal Philosophy. Selected Papers of Richard Montagne. New Haven, Yale University Press.
Petitot-Cocorda J. 1985. Morphogenèse du sens. Paris, Presses universitaires de France.
10.1075/li.21.1.02plo :Ploux S. 1997. « Modélisation et traitement informatique de la synonymie ». Linguisticae Investigationes, 21(1) : 1-28.
10.1162/089120103322145298 :Ploux S., Ji H. 2003. « A model for matching semantic maps between languages (French/English, English/French) ». Computational Linguistics, 29(2) : 155-178.
Ploux S., Victorri B. 1998. « Construction d’espaces sémantiques à l’aide de dictionnaires informatisés des synonymes ». Traitement automatique des langues, 39(1) : 161-182.
10.7551/mitpress/3225.001.0001 :Pustejovsky J. 1998. The Generative Lexicon. Cambridge (Mass.), MIT Press.
10.3917/puf.rast.2009.01 :Rastier F. 1987. Sémantique interprétative. Paris, PUF.
Rosch E. 1983. New Trends in Cognitive Representation : Challenges to Piaget’s Theory, « Prototype classification and logical classification : The two systems». NJ Lawrence Erlbaum Associates : 73-86.
10.4324/9781315104942 :Ruppenhofer J., Ellsworth M., Petruck M., Johnson C. 2005. FrameNet : Theory and Practice. http://framenet.icsi.berkeley.edu/book/book.html.
10.1037/h0036351 :Smith E. E., Shoben E.J., Rips L. J. 1974. « Structure and process in semantic memory : A featural model for semantic decisions ». Psychological Review, 81(3) : 214-241.
10.1016/0304-422X(74)90010-2 :Thom R. 1977. Stabilité structurelle et morphogenèse. Paris, InterEditions.
Thom R. 1980. Modèles mathématiques de la morphogenèse. Paris, Christian Bourgois Éditeur.
Victorri B., Fuchs C. 1996. Polysémie et construction dynamique du sens. Paris, Hermès.
Vigliocco G., Vinson D., Lewis W., Garrett M. 2004. « Representing the meanings of object and action words : The featural and unitary semantic System (fuss) hypothesis ». Cognitive Psychology, 48 : 422-488.
Vossen P. 2003. The Oxford Handbook of Computational Linguistics, chapter Ontologies. Oxford University Press : 464-482.
Notes de bas de page
1 Une analyse factorielle est une méthode statistique d’analyse des données, (Bouroche et Saporta 2002).
2 Un formant est une valeur du spectre sonore, maximale en énergie.
3 Une clique est un objet mathématique qui désigne un sous-graphe maximal, complet, connexe (il s’agit des plus grands sous-graphes possibles dont tous les sommets sont liés les uns les autres). Ici le graphe considéré est un ensemble de mots (les sommets) et de relations (ou arcs) qui lient ces mots.
Auteur
Laboratoire Langage Cerveau Cognition
Institut des Sciences Cognitives, Bron.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Informatique et sciences cognitives
Influences ou confluence ?
Catherine Garbay et Daniel Kayser (dir.)
2011