Intelligence artificielle et bases de données
p. 99-113
Texte intégral
1.1. Perspectives de recherche en bases de données (Michel Scholl)
1Le Web, en tant que ressource de masse d’information distribuée, et les changements technologiques récents (grilles de calcul, mobilité des ordinateurs et des capteurs de données, échanges de données sans fil etc.) ont donné naissance à de nouvelles applications qui ont souvent pour point commun une grande demande d’information quelle que soit la localisation du demandeur. Ces applications nécessiteront de nouvelles infrastructures de gestion de l’information et entraîneront une profonde mutation de la technologie des bases de données (BD), ce qui justifie la recherche dans ce domaine ainsi qu’une plus grande synergie avec des disciplines comme la gestion des connaissances, l’analyse de données et l’apprentissage statistique, le traitement d’images, la recherche d’information (RI) etc. Nous déclinons ici les perspectives de recherche en BD selon quatre grands axes : Web sémantique, Mobilité, Bases de données Multimédia et Fouille de données. Nous passons ensuite en revue d’autres défis tout en mentionnant des thèmes porteurs complémentaires. Soulignons, à cet égard, qu’il ne faut pas sous-estimer l’effort nécessaire au plan fondamental en matière notamment de modélisation de données, de puissance d’expression des langages et d’algorithmique.
1.1.1. Le Web sémantique
2Des couches de plus haut niveau émergent pour le développement d’applications nécessitant la découverte, la recherche, l’échange, la fusion et l’intégration d’informations et de services fortement distribués, de structure très hétérogène, en croissance constante et très évolutifs. Ces couches s’appuient sur des standards comme XML, Xquery, Xpath, XSLT, RDF. L’invocation de services indépendamment de leur localisation et de leur implémentation est un défi actuel qui s’appuie sur l’approche déclarative des bases de données. Ces nouvelles couches plus abstraites utilisent des ontologies et des vocabulaires structurés comme moyen primitif de raisonnement et des descriptions de la sémantique des informations partagées. De telles couches de plus haut niveau permettent notamment : 1) la spécification déclarative du déclenchement et de la composition de services (XML actif) ; 2) une médiation intelligente entre les sources d’information et l’utilisateur qui voit le Web comme une gigantesque base de données centralisée dont il n’a pas à connaître la structure et l’origine de l’information. Ces outils sont nécessaires notamment 1) pour la mise en place et la gestion intelligente de portails et le commerce électronique, 2) pour l’établissement d’entrepôts de données interentreprises. Grâce aux techniques déclaratives des Bases de Données on pourra ainsi gérer l’acquisition et le rafraîchissement de l’information, la répartition et la composition des traitements associés aux données et aux événements de l’application. Les problèmes relatifs aux bases de données identifiés plus haut ne sont que partiellement résolus. La traduction d’une requête utilisateur en requêtes formelles à envoyer à un sous-ensemble volumineux de sources pertinentes, l’intégration et le partage de données au moyen d’ontologies font surgir d’autres problèmes mal résolus, surtout au cours du passage à l’échelle : les techniques utilisées pour la constitution d’entrepôts Web s’écartent d’ores et déjà des techniques classiques dites ETL (Extract, Transform and Load) des entrepôts de données intra-entreprises. De même la médiation (c’est-à-dire l’exécution de requêtes distribuée) nécessite à l’échelle du Web de s’écarter des solutions exactes : il faut des solutions approchées qui n’apportent qu’un certain nombre de réponses en un temps raisonnable. Le passage à l’échelle nécessite également un effort architectural pour des raisons de performances. Une synergie plus grande doit exister avec les communautés gestion de connaissances, recherche d’information et interfaces pour une recherche plus intelligente. Celle-ci passe par la description, la gestion et l’interrogation de connaissances, ce qui nécessite la gestion, l’interrogation et l’intégration d’ontologies hétérogènes. Cela requiert un comportement plus interactif au cours duquel la machine s’adapte au profil de l’utilisateur, prenne en compte ses facultés d’adaptation, vérifie la pertinence des réponses, associe éventuellement des fonctionnalités de recherche d’information, etc.
1.1.2. Mobilité
3Le développement des techniques de saisie d’information (capteurs mobiles) et des techniques de saisie de position géographique (GPS), la mobilité croissante des moyens de traitement (PDA, téléphone, PC, dispositifs embarqués), l’émergence des réseaux sans fil pour l’échange de données et des réseaux de capteurs, donnent naissance à une acquisition et à un échange de quantités gigantesques d’information, ce qui suscite, en retour, de très fortes demandes des utilisateurs qui souhaitent accéder à l’information en tout temps et en tout lieu. Ces évolutions technologiques et sociales sont à l’origine des grands défis lancés à la recherche en bases de données. Une série de problèmes nouveaux se posent désormais, dont la plupart est encore mal identifiée. Parmi les problèmes actuellement bien compris, mais non encore résolus, citons : la modélisation et l’accès efficace à une grande quantité d’objets mobiles, l’exécution de requêtes dépendant de la localisation de l’utilisateur, l’extension temporaire des ressources d’un ordinateur mobile par les ressources d’un ordinateur statique voisin, l’optimisation des opérations d’accès. De manière plus générale l’exécution de calculs dépendant de la localisation géographique aura un impact sur l’acquisition, la qualité, l’interrogation et l’accès aux données. Des liens sont à faire avec les recherches actuelles en bases de données spatio-temporelles avec pour application les systèmes d’information géographique (modélisation d’objets mobiles à trajectoire contrainte ou non, fouille de données spatio-temporelle, raisonnement spatio-temporel, qualité des données géographiques, etc.).
1.1.3. Bases de données multimédia
4La gestion de grandes quantités de données multimédia répond à la demande d’un marché de plus en plus vaste (TV, presse, audiovisuel, médecine, sécurité, sciences, art et culture) ; s’attaquent à ces questions des chercheurs de différents horizons : traitement d’images, apprentissage statistique et analyse de données, recherche d’informations, analyse de textes et informatique linguistique, analyse du son, etc. L’intégration de plusieurs médias est un défi majeur mais l’identification des problèmes spécifiques aux bases de données en est à un stade pionnier et bénéficiera de l’avancement des recherches ne prenant en compte qu’une seule modalité (son, image, vidéo etc.). Il existe cependant de nombreuses problématiques portant précisément sur le multimédia, c’est-à-dire sur la coordination de plusieurs médias, et qui sont assez bien identifiées. La recherche hybride texte/image en est un exemple. La recherche en bases de données image est une priorité ; elle répond à des exigences fortes et précises provoquées par des applications. La nature du contenu des images (couleur, texture, forme des sous-objets) et leur modélisation par des points dans un espace de grande dimension en vue d’une recherche par le contenu rendent caducs les modèles et langages de requêtes spatiaux 2D et surtout les structures d’index arborescentes permettant un accès en temps logarithmique. Le passage à l’échelle reste un problème ouvert pour lequel des pistes prometteuses doivent être creusées : réduction de dimension, techniques de regroupement et classification, approches approximatives, techniques de résumé pour la navigation, apprentissage pour une recherche interactive, contrôle de pertinence des réponses et adaptation à la perception de l’utilisateur. On a désormais simultanément recours à des critères de similarité sur le contenu, à des critères spatiaux 2D et à une recherche par le contenu pour des images de description spécialisées (visages, empreintes). Parmi les autres défis majeurs il faut souligner la description, l’indexation et la recherche de vidéos qui reste largement un problème ouvert.
1.1.4. Fouille de données
5Grâce à la synergie des communautés d’analyse de données et d’apprentissage, la fouille de données se développe et répond à la demande croissante de découverte de modèles dans des jeux de données existants de plus en plus volumineux. Cependant, il est à craindre que chaque application vienne avec un problème particulier nécessitant des solutions spécifiques (par exemple fouille de trajectoires, classification de textes, classification d’images etc.). On distingue quatre grandes classes de problèmes posés en fouille de données : 1) le regroupement naturel dans les données (en termes techniques, cela correspond à ce que l’on appelle la classification en analyse de données et le « clustering » en apprentissage), 2) la construction de modèles permettant une prédiction sur de nouvelles données, 3) la recherche de règles d’association permettant de trouver des corrélations entre données et enfin 4) la génération automatique de résumés de données. Parmi les autres défis, citons l’intégration de la fouille dans un système de gestion de bases de données, avec l’interrogation, l’optimisation de requêtes et l’intégration d’autres fonctions comme les « triggers ».
1.1.5. Autres défis
6L’évolution technologique a un impact sur des sujets de recherche plus traditionnels : impact des grilles de calcul sur la gestion de très grandes quantités d’information ou impact des technologies liées à la mobilité. Avec l’embarquement d’un noyau de système de gestion de bases de données sur unité mobile, de nouveaux problèmes d’accès, d’optimisation et de transactions se font jour. Et la technologie transforme les problèmes traditionnels : les capacités des mémoires augmentent beaucoup plus vite que les puissances de calcul et leur coût diminue à raison inverse de cette augmentation ; le développement de caches a un impact sur les algorithmes de traitement de requêtes pour les langages de manipulation de données comme SQL ; il faut envisager la modification des noyaux relationnels pour constituer des serveurs de bases de documents XML qui sont de nature arborescente, etc.
7Parmi la multitude d’autres défis et thèmes porteurs, citons la conception d’un gestionnaire d’information personnelle universel, l’interrogation et la fouille de flots de données (séries temporelles, logs de données, trajectoires, etc.), les techniques de tatouage (watermarking) pour la traçabilité, le raisonnement sur les données incertaines, la confidentialité, la personnalisation des données, la mise en place de systèmes de gestion de bases de données avec administration simplifiée (no knob Data Base Management System), la recherche sur les supports de mémoire centenaires, etc. L’intégration dans un même système de gestion de bases de données de données structurées, de textes, de code, de flots de données est un vieux problème à revisiter. Enfin, de nouvelles questions se font jour ; en voici quelques-unes : les flots ordonnés de données nécessitent-ils un moteur ad hoc ? Pour une telle solution « multitype » faut-il un modèle ad hoc, ou une extension de SQL (Xquery) est-elle suffisante ? Comment mieux intégrer la gestion de code ? Les bases de données actives sont un premier pas permettant à un système de bases de données de faire un raisonnement simple avec du code. Comme toujours, l’investigation de nouvelles applications et de nouveaux besoins peut conduire à l’identification de problèmes nouveaux : bases de données scientifiques, bases biologiques et génomiques, besoins en matière d’archives, informatique financière, etc.
1.2. Fouille de données (Patrick Gallinari)
8Les développements technologiques de l’Internet et des grandes bases de données réparties, liés à l’essor de nouveaux domaines comme le multimédia ou la biologie, génèrent une quantité gigantesque de données. Il faut développer les outils permettant de traiter ces données à grande échelle, de les analyser, de les interroger et de les représenter de façon synthétique. Ces données sont de natures extrèmement diverses, elles peuvent se présenter en vrac, sous une forme structurée ou être déjà organisées dans des bases de données. Il faut pour les traiter développer des outils génériques, facilement adaptables aux types de données et aux besoins, capables d’extraire automatiquement des connaissances à partir de ces données. Les méthodes d’apprentissage, exploitant des formalismes numériques ou symboliques, des techniques comme l’inférence grammaticale ou des méthodes spécifiques développées pour les bases de données, donnent les bases formelles et algorithmiques permettant de répondre à ces besoins.
1.2.1. Les années 1990
9Les années 1990 ont vu un développement extrèmement important du domaine de l’apprentissage et de la fouille de données. Les bases formelles du domaine ont été développées et consolidées jusqu’à produire un ensemble de théories qui donnent aujourd’hui un socle solide à l’apprentissage. Une seconde grande avancée concerne la conception et le développement d’algorithmes puissants permettant de traiter un ensemble de problèmes génériques de l’apprentissage : ces algorithmes sont actuellement disponibles dans des boîtes à outils libres ou commercialisées. Ces outils ont été largement popularisés auprès d’autres communautés, ils sont aujourd’hui couramment utilisés dans de nombreux domaines aussi bien par les acteurs des autres communautés académiques que pour des applications industrielles et commerciales. Dans le même temps, les différentes composantes de l’apprentissage se sont rapprochées et ont tissé des liens solides avec des communautés proches (statistiques, bases de donnés). L’apprentissage réunit aujourd’hui une grande communauté, il occupe une place de choix en intelligence artificielle et son importance ne cesse de croître (dans les grandes conférences d’intelligence artificielle l’apprentissage peut représenter un tiers des sessions).
1.2.2. Les années 2000
10Le développement des entrepôts de données dans les entreprises, lors de la précédente décennie, avait déjà créé une forte demande pour des outils permettant l’exploitation automatique de grandes masses de données. Le développement de l’Internet a renforcé cette demande en l’amplifiant considérablement. Aujourd’hui l’apprentissage est devenu une pièce essentielle dans la plupart des problèmes de traitement de grandes masses de données comme par exemple celles issues du Web. Pendant les années 1990, l’apprentissage a bénéficié d’une dynamique interne au domaine, et a porté à maturité ses propres idées, dont les concepts issus de différents courants avaient émergé dans les années 1970, 1980. Pour les années 2000, la dynamique d’évolution vient clairement des grands domaines applicatifs qui expriment des besoins nouveaux avec une forte demande pour l’apprentissage automatique.
11Parmi ces domaines, on peut citer la recherche d’information en texte et multimédia, les bases de données avec en particulier l’exploitation de données XML, le Web avec une série de problèmes comme l’extraction d’information pour le remplissage de bases de données, la surveillance de flots d’information ou encore la veille technologique et économique, la biologie – l’apprentissage a été un outil de base pour le décodage, il est aujourd’hui indissociable de l’ère postgénomique (par exemple puces à ADN) –, la robotique qui utilise une grande partie de la panoplie de l’apprentissage (techniques évolutionnaires, renforcement, classification, etc.), la vision – ce domaine qui exploitait des approches du type géométrique commence à utiliser avec succès l’apprentissage –, l’interaction avec l’utilisateur avec en particulier la visualisation de données.
12Cette explosion de besoins qui a lieu simultanément dans de très nombreux domaines d’application est en train de générer une quantité de problèmes d’apprentissage totalement nouveaux car liés aux nouvelles technologies et aux nouveaux types et formats de données. L’enjeu des années 2000 est de dépasser le cadre de l’apprentissage des années 1990 pour s’attaquer à cette nouvelle gamme de problèmes et pour répondre à ces nouveaux besoins.
13Parmi ces défis scientifiques et technologiques, on citera en particulier le passage à l’échelle (par exemple données du Web, données génomiques), le traitement de données structurées complexes qui constituent les nouveaux formats de données (texte, multimédia, biologie, etc.), les problèmes liés à la constitution des grandes bases de données et au coût de ces bases, les problèmes d’étiquetage (apprentissage à partir d’exemples positifs ou à partir d’un faible nombre d’exemples étiquetés), les problèmes de grande dimension (avec les données textuelles multilingues sur le Web on travaille facilement dans des espaces à 105, 106 dimensions), les méthodes adaptatives (suivi de l’évolution des données), le développement de méthodes robustes (données très bruitées), la constitution de ressources sémantiques. Derrière ces problèmes scientifiques, se situent de forts enjeux applicatifs et commerciaux.
1.2.3. Forces et faiblesses de la communauté
14Il existe historiquement une communauté apprentissage forte en France qui a été créée dans les années 1980 et qui s’est consolidée depuis. Cette communauté a une bonne représentation en Europe. L’animation est assurée en particulier par une conférence nationale et plusieurs conférences européennes. La communauté a été impliquée dans la plupart des évolutions majeures de l’apprentissage durant cette dernière décennie.
15Elle souffre par ailleurs de faiblesses qui sont probablement communes à d’autres communautés françaises.
16Structurellement, elle est trop morcelée et il existe peu d’équipes qui aient un poids suffisant pour peser internationalement. À l’heure où il faut pour exister développer des applications souvent de très grande taille, cette faiblesse est un lourd handicap.
17L’enjeu actuel lié aux grands domaines d’application nécessite de sortir des frontières thématiques pour développer des liens forts avec les différentes communautés citées plus haut. Ce besoin a été perçu par les tutelles et des ressources ont commencé à être déployées. Toutefois cette évolution est bien trop lente pour faire face à l’importance de la demande et à la rapidité d’évolution du domaine. Il s’agit d’un enjeu majeur car il conditionne à la fois la capacité de réaction de la communauté face aux nouveaux défis, le développement en France de l’ensemble des domaines d’application déjà cités et notre capacité à réaliser des applications industrielles dans les domaines sensibles comme la biologie et le multimédia.
18Pour faire face, il faut concentrer les ressources et créer des groupes possédant une masse critique, soutenir des équipes mixtes comportant des spécialistes des différents domaines concernés, créer des équipes technologiques communes avec des laboratoires de Recherche et Développement industriels car ces derniers ne sont pas en mesure actuellement d’assurer ces développements. Il faut une véritable politique nationale d’incitation à la coopération recherche-industrie qui serve de tremplin vers l’Europe. Il s’agit là d’une véritable mutation du paysage scientifique sans laquelle la recherche en France passera à côté de ces défis majeurs tant scientifiques qu’industriels.
1.3. Représenter les connaissances par l’analyse des corpus (François Rastier)
19S’il existe bien des distinctions académiques entre les communautés de recherche, les trois domaines de la linguistique de corpus, de la représentation des connaissances et de la construction d’ontologies pourraient toutefois être unifiés scientifiquement. Du moins, une réflexion prospective doit-elle prendre soin de les articuler : en effet, les réseaux sémantiques (ontologies) qui servent à la représentation des connaissances doivent s’appuyer sur les corpus qui manifestent ces connaissances, ce qui exige leur description et leur traitement avec les méthodes de la linguistique textuelle, voire de la sémiotique multimédia.
1.3.1. Postulats de la représentation des connaissances
20La problématique de la représentation des connaissances repose sur trois postulats qui la relient au cognitivisme orthodoxe.
Les connaissances seraient des représentations du monde empirique : l’image du monde comme « mobilier » ontologique s’est en général imposée dans les milieux pour lesquels le positivisme logique reste la référence implicite majeure. Cependant, rien ne permet d’affirmer, malgré le réalisme naïf revendiqué par des sémanticiens influents, comme John Lyons, que les objets du monde soient discrets et dénombrables.
Les connaissances seraient (relativement) indépendantes de leurs substrats sémiotiques, de telle manière que leur extraction ou leur représentation ne modifierait pas leur contenu. Ce postulat fut celui de la théorie générale de la terminologie, élaborée par Wüster et reprise par le Cercle de Vienne : les termes sont considérés comme indépendants des langues. Cela suppose un dualisme aujourd’hui de plus en plus critiqué, car les concepts ne sont pas indépendants des textes où ils sont définis, configurés et remaniés. En effet, les connaissances ne résident pas dans des termes, mais dans des textes ; en outre, les discours scientifiques et techniques ne sont évidemment pas transparents ni indépendants des langues dans lesquelles ils sont élaborés, même si les normes internationales d’une discipline peuvent favoriser les traductions. La représentation des connaissances passe donc par le recueil et l’étude de corpus scientifiques et techniques.
Les connaissances seraient discrètes et formalisables au sens où elles seraient représentables par un formalisme logique, en général la logique des prédicats. On retrouve ici la dualité de l’empirisme et du logicisme dans l’empirisme logique : la théorie de la dénotation assure l’ancrage empirique de la théorie, tandis que l’usage de l’organon logique est censé lui apporter une productivité conceptuelle.
21Cette préconception logique du monde ne mobilise qu’une petite part de la logique bivalente et se tient à l’écart tant de la logique multivalente que de la logique modale. A fortiori, elle reste bizarrement à l’écart des mathématiques, car elle ne tient pas compte de leurs trois problèmes constituants que sont l’infini, le continu et les grands nombres.
1.3.2. Débats actuels
22Dans le domaine de la représentation des connaissances, on a élaboré des formalismes de représentation qui sont maintenant considérés comme au point, dans la mesure où ils conviennent à des applications peu ambitieuses. Les débats portent en amont sur le problème de la réification des connaissances hors des contextes d’utilisation, ou complémentairement sur l’adéquation de leurs modes de représentation à leur utilisation effective.
23Les tenants de la position réifiante s’appuient sur l’essor des ontologies, qui radicalisent la préconception objectiviste des connaissances. Les ontologies restent des thésaurus – celui de Roget a d’ailleurs explicitement servi de modèle à George Miller et à ses collaborateurs pour construire l’ontologie WordNet, qui sert aujourd’hui de référence privilégiée. Elles en gardent les inconvénients notoires : une généralité qui ne leur permet pas de s’adapter aux points de vue sélectifs exigés par les tâches et un manque d’évolutivité qui exige une maintenance manuelle. Elles réduisent la langue à une nomenclature, qui ne rend compte ni des structures textuelles, ni des variations pourtant considérables de genres et de discours (voir Malrieu et Rastier, 2001).
24Même dans le domaine du Web sémantique, pourtant très lié aux ontologies, la perspective centrée sur les utilisateurs conduit à des constats résignés comme celui-ci : « Les chercheurs du Web sémantique conviennent que les paradoxes et les questions sans réponses sont le prix à payer pour permettre l’adaptabilité » (« Semantic Web researchers accept that paradoxes and unanswerable questions are a price that must be paid to achieve versatilité ») (Berners-Lee et al., 2001). La variété des points de vues des utilisateurs et des régimes de pertinence propres à leurs tâches font qu’ils ne peuvent se satisfaire d’une norme unique au demeurant arbitraire : toutefois l’absence de contradiction demeure un postulat absolu des ontologies, conformément aux lois d’identité, de non-contradiction et de tiers exclu qui fondent leur conception logiciste du monde.
25Plus radicalement, les tenants de la cognition située et les ergonomes spécialisés en recherche d’information insistent sur la diversité imprévisible des applications et sur le fait que les formalismes ne sont que des supports à des parcours d’interprétations. Dès lors, les facettes définitoires d’un objet, quel qu’il soit, ne peuvent être fixées a priori. En d’autres termes, ce sont les pratiques qui définissent les propriétés pertinentes des objets.
26Cette divergence peut aujourd’hui être tranchée empiriquement. En effet, l’étude de grands corpus, y compris techniques, a montré que les relations sémantiques qui organisent les ontologies diffèrent selon les discours et les domaines, au point que certaines relations sémantiques de base sont tout bonnement absentes de certains corpus pourtant étendus (voir par exemple le projet Safir).
27Par ailleurs, l’expérience des projets Wordnet et EuroWordnet reste instructive. Outre qu’ils sont fondés sur les postulats psychologiques datés de Miller et Johnson-Laird (1976) et non sur des savoirs linguistiques, ils se sont révélés inutilement complexes : la notion cruciale de morphème reste par exemple ignorée, ce qui conduit à créer des sous-réseaux distincts pour les noms, les verbes et les adjectifs. Par ailleurs, malgré des coûts sans précédent dans le domaine, ces ontologies se révèlent peu utiles et ne sont ordinairement utilisées que comme des dictionnaires ou des aides à la traduction.
1.3.3. Propositions
28Ces insuffisances renforcent le projet de fonder toute représentation des connaissances sur l’analyse sémantique et sémiotique des corpus effectifs qui les manifestent. Cette proposition de méthode a un fondement épistémologique. À la suite de Ferdinand Gonseth qui distinguait deux aspects de l’activité scientifique, l’investigation et la textualisation, on doit convenir que ces deux aspects ne constituent pas deux moments distincts : l’investigation consiste dans diverses pratiques sémiotiques, dont l’appropriation cognitive et la transformation créatrice des documents antérieurs qui définissent l’espace du problème et l’état de l’art.
29Aussi, il semble que les connaissances et les ontologies qui les « normalisent » doivent et peuvent être élaborées dynamiquement, en fonction des applications et de leurs corpus.
30Chaque application définit dans les corpus-sources son régime de pertinence propre. Aucun concept n’est pertinent en toute application. Par ailleurs, un des grands problèmes des ontologies est la définition de leur « nomenclature » : comment distinguer les concepts qui doivent y figurer, alors que tous les mots du lexique sont des candidats potentiels, sans parler des syntagmes phraséologiques. Les pratiques de Miller montrent qu’il n’a pas d’autre critère que le bon sens, c’est-à-dire le préjugé du créateur d’ontologies (par exemple, dès la mise en circulation de l’euro, il a fait sortir de l’ontologie le franc, la lire et le mark).
31Si l’on admet que le lexique n’est pas organisé en une arborescence unique, puisque chaque discours et chaque genre a son lexique, on doit substituer, à l’image totalisante du réseau unique, des réseaux partiels organisés par des rapports de profilage plutôt que des rapports de subsomption : chaque concept est une forme sémantique qui se profile sur un fond. Certains termes lexicalisent des formes ou des parties de formes, d’autres des fonds (par exemple le mot texte en critique littéraire est un élément de fond, et non un concept : il sert de base compositionnelle à des expressions comme texte balzacien, mais il ne se trouve jamais dans le contexte de termes comme notion ou concept).
32Par ailleurs, les formes sémantiques sont valuées, alors que les concepts d’une ontologie ne le sont pas : par exemple, dans Wordnet, carré pané est le plus proche voisin de caviar. Or il est évident, et l’exploration des corpus le confirme, qu’on ne les rencontre aucunement dans les mêmes contextes (voir Rastier et Valette, à paraître).
33Les concepts peuvent être décrits comme des formes sémantiques propres aux textes théoriques : leurs lexicalisations diffuses ou synthétiques, leurs évolutions, de leur constitution à leur disparition (par extinction ou banalisation désémantisée), leurs corrélats sémantiques, leurs concurrents expressifs, tout cela dessine un champ de recherche qui commence à peine à être exploré.
34Enfin, les textes ne sont pas de simples chaînes de caractères. Leur découpage, leur structure « logique », leur typographie, voire leurs balises, font partie de leur sémiotique. Par exemple, en philosophie classique, l’usage des majuscules désignait les concepts principaux. Au-delà, les textes scientifiques et techniques intègrent ce qu’on appelle improprement des hors-textes : figures, tableaux, diagrammes, photographies participent à la textualisation des connaissances et appellent pour leur traitement une sémiotique multimédia.
35Cela conduit à proposer la constitution d’un corpus national de discours scientifiques et techniques. Il sera exploité par les méthodes de la linguistique de corpus pour créer dynamiquement des terminologies, voire en fonction des besoins pour les structurer en réseaux sémantiques ou toute autre forme de représentation.
36On dispose certes pour le français de la banque Frantext, mais outre qu’elle ne constitue pas un corpus et qu’elle n’est pas (ou pas encore) aux normes internationales, ses textes scientifiques et techniques, en petit nombre, remontent pour la plupart au XIXe siècle, ce qui se justifiait pour une banque destinée à l’élaboration d’un dictionnaire historique de la langue.
37Les revues subventionnées, les livres publiés avec des aides publiques, les corpus recueillis sur financements publics pourraient aisément alimenter, sous forme d’un dépôt, un tel corpus. Diverses équipes pourraient être associées à l’élaboration d’une norme descriptive conforme aux recommandations internationales. Pour des raisons de récence et de disponibilité sous forme numérique, les documents postérieurs à 1990 seront privilégiés. Les données intégrales seraient en libre accès, au moins pour les chercheurs.
38Un tel corpus national, composé de textes intégraux et documentés par genres et discours, conservant naturellement les hors-textes, aurait évidemment une valeur patrimoniale et permettrait des accès divers. Rappelons le retard de la France dans ce domaine : les collègues étrangers ne se l’expliquent pas. La constitution d’un tel corpus sera un moyen de faire converger les trois domaines académiques des ontologies, du web sémantique et de la linguistique-sémiotique de corpus.
39N.B. : Ces propositions, formulées en juin 2004 dans le rapport Information, Communication et Connaissance, coordonné par Jean-Gabriel Ganascia, ont reçu un écho ou du moins le renfort d’autres initiatives convergentes. La création début 2005 du Centre d’édition numérique scientifique du CNRS, chargé de la numérisation des revues papier et de l’édition des revues numériques en sciences humaines, s’est accompagnée d’un projet encore plus ambitieux, celui du TGE (Très Grand Équipement) Adonis (Accès unique aux données et aux documents numériques des sciences de l’homme et de la société), qui va devenir une plate-forme internationale de diffusion.
1.3.4. Références
Références spécialisées
40Berners-Lee T., Hendler J. et Lassila O., 1999, « The Semantic web. A new form of Web content that is meaningful to computers will unleash a révolution of new possibilities », Scientific American, mai 2001 (disponible sur http: www.sciam.com/article.cfm7articleID=00048144-10D2-1C70-84A9809EC588EF21).
41Bourigault D., Slodzian M., 1999, « Pour une terminologie textuelle », Terminologies nouvelles, 19, p. 29-32.
42Malrieu D., Rastier F., 2001, « Genres et variations morphosyntaxiques », Traitements automatiques du langage, 42, 2, p. 547-577.
43Rastier F., 2004, « Ontologie(s) », Revue de l’intelligence Artificielle, 18, p. 16-39.
44Rastier F., 1991, Sémantique et recherches cognitives, PUF, Paris, [seconde édition augmentée, 2001].
45Rastier F, Cavazza M., Abeillé A., 1994, Sémantique pour l’analyse, Paris, Masson. Rastier F, Valette M. (à paraître), « De la polysémie à la néosémie », Langages.
1.4. Construction et représentation d’ontologies (Nathalie Aussenac, Didier Bourigault et Jean Charlet)
1.4.1. Définition
46Avec le développement d’Internet, et celui, annoncé, du « Web sémantique », le terme « ontologie » est utilisé de façon très diversifiée dans la communauté des informaticiens. Les recherches sur les ontologies sont menées en France, depuis le début des années 1990, dans un contexte pluridisciplinaire, associant la linguistique de corpus, l’intelligence artificielle (ingénierie et représentation des connaissances) et le traitement automatique des langues. Ces recherches ont contribué à proposer une caractérisation précise du concept d’ontologie, ainsi que des concepts liés de connaissance, de texte, d’usage et de représentation. Face à la démesure de certaines ambitions des promoteurs du Web sémantique, les chercheurs impliqués dans ce travail militent pour un usage non galvaudé du terme « ontologie ».
47Les ontologies dont on parle ici ne sont pas des ontologies universelles, et elles ne sont liées que de très loin aux ontologies des philosophes. Ce sont des produits informatiques. Pour définir le concept d’ontologie, par genre proche et différences spécifiques, il est utile d’introduire le terme de ressources termino-ontologiques, qui rassemble un certain nombre de termes connus, comme : les thésaurus pour l’indexation manuelle ou pour les systèmes d’indexation automatique, les index hypertextuels pour les documentations techniques, les référentiels terminologiques pour les systèmes de gestion de données techniques, les ontologies formelles pour les systèmes d’aide à la décision et pour le Web sémantique. Plusieurs points essentiels sont à noter :
chaque ressource consiste en une description du vocabulaire et des concepts du domaine ;
chaque ressource est liée à un usage ;
c’est l’usage qui spécifie le contenu et la forme de la ressource, en particulier son degré de formalisation.
48Dans le contexte des systèmes à base de connaissances ou du Web sémantique, les ontologies formelles sont régionales : elles sont construites, et donc pertinentes, pour une application particulière et un domaine particulier, une région du monde. Une ontologie est une conceptualisation des objets du domaine selon un certain point de vue, imposé par l’application, et en référence à des principes structurants, dont l’application garantit une meilleure structuration conceptuelle. Elle est conçue comme un ensemble de concepts, organisés à l’aide de relations structurantes, dont la principale est la relation is-a, qui est la relation avec laquelle est construite l’ossature de l’ontologie. Les principes de structuration peuvent être des principes de différenciation explicite et raisonnée des concepts en fonction de leur utilisation prévue. Ces différences peuvent s’exprimer à travers leurs relations ou par de simples commentaires. Au sein d’une ontologie, on peut viser une certaine généricité ou un consensus sur le domaine, ou encore la vérification de certaines propriétés des concepts. Cette conceptualisation peut être écrite dans un langage de représentation des connaissances (voir infra), qui propose des « services inférentiels » (classification de concepts, capacité de construire des concepts définis à partir de concepts primitifs, etc.). À l’opposé, les thésaurus utilisés par les indexeurs humains n’ont pas à être formalisés. Ils sont organisés avec les classiques relations d’hyperonymie et de synonymie, auxquelles s’ajoute la relation voir aussi. Pour choisir les meilleurs descripteurs, les indexeurs humains procèdent à des interprétations et des inférences qui s’appuient sur leur connaissance du domaine et des utilisateurs, connaissances implicites qui ne sont pas consignées dans le thésaurus. Les systèmes à base de connaissances ne peuvent approcher de tels comportements intelligents qu’à condition que les connaissances de ce type soient autant que possible explicitées et représentées dans les ontologies formalisées qu’ils exploitent.
49Deux contraintes s’imposent successivement au concepteur d’ontologies : une ontologie est d’abord une conceptualisation, avec toutes les difficultés que cela implique, et doit être par la suite utilisée dans un artefact informatique, dont on veut spécifier le comportement. Ainsi, elle possède à la fois un caractère subjectif, lié à un point de vue et donc sujet à interprétation, et un caractère formel. Objet de consensus pour les humains qui l’interprètent dans le contexte de leur activité et objet formel permettant son exploitation par un ordinateur, cet artefact doit permettre de relier le contenu exploitable par la machine à sa signification pour les humains. Les deux domaines n’étant pas soumis aux mêmes logiques, leur articulation est nécessairement en tension permanente.
1.4.2. Méthodes de construction
50Les recherches menées conjointement ces dernières années dans les domaines de l’ingénierie des connaissances et du Traitement Automatique des Langues ont convergé vers la définition d’un ensemble d’outils et de méthodes pour la construction d’ontologies. Il ne s’agit pas de construction automatique, mais de processus intellectuel de construction d’une ressource particulière dédiée à une application identifiée. Il est acquis maintenant que ce processus est fondamentalement basé sur l’analyse de textes, dans lesquels se trouvent exprimées une partie des connaissances du domaine à formaliser. Ces textes peuvent être des documents techniques, des retranscriptions d’entretiens, des articles scientifiques, etc. La tâche initiale de l’analyste en charge de la construction de l’ontologie est la constitution d’un corpus de référence. Cette tâche est primordiale, puisque le corpus est la source d’information essentielle pour le processus de construction de l’ontologie et qu’il restera, une fois le processus achevé, l’élément de documentation de la ressource construite. La collecte des textes doit se faire avec l’aide des spécialistes et en fonction de l’application cible visée.
51Devant la masse des données textuelles à analyser, l’usage d’outils de Traitement Automatique des Langues (TAL) s’impose. Dans le domaine du TAL, sous la pression de la demande émanant de diverses disciplines confrontées au problème de la construction de ressources termino-ontologiques à partir de textes, un courant de recherche très actif s’est développé autour de la mise au point d’outils d’analyse de corpus. On peut classer ces outils en deux grandes catégories : les outils d’acquisition de termes et les outils de structuration de termes.
52Acquisition de termes. Une première classe regroupe les outils dont la visée est l’extraction à partir du corpus analysé de candidats termes, c’est-à-dire de mots ou groupes de mots susceptibles d’être retenus comme termes par l’analyste, et de fournir des étiquettes de concepts. Les méthodes les plus précises sont basées sur une analyse morphosyntaxique des textes : reconnaissance des catégories grammaticales des mots (nom, verbe, adjectif...), et identification de groupes syntaxiques (groupes nominaux, verbaux, adjectivaux...). Par exemple, dans le domaine médical, réanimation chirurgicale ou scanner thoracique sont des groupes nominaux, constitués d’un nom et d’un adjectif, et pratiquer un scanner ou réaliser une échographie sont des groupes verbaux, constitués d’un verbe et d’un complément d’objet. À chaque terme extrait peuvent être associées des informations numériques, comme sa fréquence, le nombre de termes différents dont il est constituant, etc. L’organisation des termes complexes extraits sous la forme de listes de termes partageant un même élément pivot constitue une aide particulièrement utile pour la structuration conceptuelle d’un domaine (par exemple : échographie abdominale, échographie hépatique, échographie thoracique, ou effectuer une échographie, pratiquer une échographie, réaliser une échographie).
53Structuration de termes. La gamme des outils d’aide à la structuration de terminologie est large. L’objectif est de rapprocher des termes qui peuvent avoir une proximité conceptuelle forte. Les méthodes statistiques de cooccurrence, développées dans le domaine de la recherche d’information, sont les plus connues et les plus anciennes : elles rapprochent des termes qui apparaissent fréquemment dans les mêmes documents, paragraphes ou phrases. Les méthodes d’analyse distributionnelle construisent des classes de mots qui se retrouvent régulièrement dans les mêmes contextes syntaxiques (par exemple, les mots échographie, radiographie et scanner sont rapprochés car chacun fonctionne dans le corpus de référence comme sujet des verbes montrer et confirmer et complément d’objet des verbes effectuer et réaliser). Le repérage de la position syntaxique se fait grâce à l’exploitation d’analyseurs syntaxiques à large couverture. À côté de ces outils qui travaillent sur les types comme regroupement des occurrences, on trouve les outils de repérage de relations, qui travaillent au niveau des occurrences elles-mêmes. Ces outils détectent en corpus des mots ou contextes syntaxiques répertoriés comme susceptibles de marquer telle ou telle relation entre deux éléments (par exemple, le verbe révéler est le marqueur d’une relation entre un « examen » et un « type de lésion »).
54Nous insistons sur la nécessité que la construction de l’ontologie soit prise en charge par une personne spécifiquement dédiée à ce travail, qu’on appellera ingénieur cogniticien. En effet, cette construction s’avère un travail assez long (plusieurs mois) et les experts, sollicités pour valider un certain nombre de choix, ne sont en général pas suffisamment libres pour cette tâche. Par ailleurs, avec les méthodes de construction d’ontologies décrites ici, le fait de se fonder sur un corpus pour expliciter la terminologie du domaine permet d’avoir un matériau qui prend en compte l’activité d’un collectif. Les décisions d’un expert isolé risquent de grever cette représentation collective. Il vaut alors mieux que les choix de modélisation résultent d’une interaction entre l’expert et un ingénieur cogniticien plus neutre.
55La tâche de construction d’une ontologie est incrémentale et comporte de nombreux enchaînements d’essais/erreurs. L’enjeu de la recherche se situe désormais sur la réalisation d’interfaces ergonomiques permettant une utilisation coordonnée et optimale des différents outils de traitement automatique et de consultation du corpus de référence, et donnant accès à des environnements de représentation des connaissances. L’utilisation de ces différents outils doit être encadrée par une méthodologie précisant à quel stade du processus et selon quelles modalités il convient de les utiliser. En effet, la solution au problème de la construction d’ontologie à partir de corpus ne réside pas uniquement en la fourniture d’un ou de plusieurs outils de traitement automatique des langues. La mise à disposition de tels outils doit s’accompagner d’une réflexion méthodologique poussée, conduisant à la réalisation de guides méthodologiques et de plates-formes logicielles intégratrices permettant la mise en œuvre efficace des outils proposés.
56Un autre défi à relever par ces technologies dans les années à venir est d’offrir des services analogues pour utiliser les ontologies dans le but de faciliter l’accès au contenu informationnel des textes. Caractériser le contenu d’un texte ou de ses composants à l’aide de mots clés (désormais des méta-données qu’un logiciel pourra exploiter), l’indexer automatiquement ou l’annoter manuellement sont des moyens envisagés pour assurer une représentation explicite de leur contenu. Les ressources ontologiques ou terminologiques peuvent fournir ces méta-données à partir des concepts. La difficulté est d’associer les descripteurs pertinents à chaque document, et ce de la manière la plus rapide et la moins coûteuse possible pour l’utilisateur ou l’auteur. Différents scénarios sont envisagés, et à ce jour, aucun n’a vraiment donné lieu à un développement massif. Au cœur du succès de ce projet, l’association rapide entre textes et connaissances est une condition première. Ainsi, les outils de TAL définis pour la construction d’ontologies sont une perspective prometteuse, moyennant plus d’automatisation pour répondre à ce besoin.
1.4.3. Représentation informatique
57La représentation des ontologies tire parti d’une longue tradition de représentation des connaissances en Intelligence artificielle, en particulier autour des réseaux sémantiques. Un langage pour représenter des ontologies au niveau informatique doit permettre d’exprimer des classes et des propriétés sur ces classes. Plusieurs langages de ce type ont été définis par les universitaires européens (OIL) et américains (DAML). Parce que les ontologies servent de plus en plus à annoter ou indexer et décrire des ressources documentaires, sur le Web ou au sein de bases documentaires classiques, c’est l’organisme de normalisation du Web, le W3C <http://www.w3c.org> qui a récemment proposé un langage pour normaliser l’expression des ontologies et les inférences que l’on fait avec, l’Ontology Web Language (OWL). OWL est fondé sur un langage logique simple qui permet d’exprimer les propriétés de classes définies et de faire des inférences. Selon le nombre de constructeurs disponibles pour décrire les classes et les propriétés, OWL est découplé en trois langages distincts, OWL-Light, OWL-DL et OWL-full. La justification de ces trois langages est que la décidabilité – la capacité qu’aura l’algorithme qui traite ces langages de conclure sur les inférences décrites – baisse avec la richesse d’expression. On choisit ainsi son langage en fonction des besoins d’expressivité et de décidabilité. Toujours pour mieux assurer l’utilisation des concepts comme des descripteurs des connaissances exprimées dans des documents, ce langage OWL est compatible avec le langage de structuration documentaire XML. Ainsi, on espère qu’une même syntaxe permette de manipuler la caractérisation du contenu (la sémantique), de la structure (plan) et de la forme (présentation à l’édition) du document. Il s’agit d’un des axes de recherche au sujet de ces représentations.
58De fait, les recherches en matière de représentation informatique des ontologies sont motivées par des besoins relatifs non pas à la capacité de calcul mais à la facilité de manipulation et d’utilisation des représentations construites. Il semble nécessaire de mieux gérer les liens entre concepts et textes, via les éléments charnière que sont les termes. Un autre objectif serait de faciliter l’application simple et transparente de ces représentations dans des contextes d’utilisation massifs qui apparaîtront dans de larges communautés même si le Web sémantique n’atteint pas les objectifs universalistes poursuivis.
1.4.4. Références
Références spécialisées
59Aussenac-Gilles N., Condamnes A. (dir.), 2003, Terminologies et corpus. Rapport final de l’action spécifique ASSTICCOT. Rapport interne IRIT/2003-23-R70. http://www.irit.fr/ASSTICCOT/. Oct. 2003.
60Bourigault D., Aussenac-Gilles N., Charlet J., 2004, « Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas », Revue d’Intelligence Artificielle. Numéro spécial sur les « Techniques informatiques et structuration de terminologies », Pierrel J.-M., Slodzian M. (dir.), Paris, Hermès, p. 87-110.
61Charlet J., Laublet P., Reynaud C. (dir.), Web sémantique : rapport final de l’action spécifique 32 du CNRS/STIC. Hors série de la revue Information – Interaction – Intelligence, 4 (1), Toulouse, Cépaduès-Éditions, 2005
62Pédauque R.T., 2005, « Le texte en jeu, permanence et transformations du document », STIC-SHS-CNRS – article de travail, http://archivesic.ccsd.cnrs.fr/documents/archives 0/00/00/14/01/index_fr.html.
63Staab S., Maedche A., 2001, « Ontology Learning for the Semantic Web », IEEE Intelligent Systems, Spécial Issue on the Semantic Web, 16 (2).
Auteurs
Professeur, CNAM – Conservatoire National des Arts et Métiers, Laboratoire Cédric, 292, rue Saint Martin, 75141 Paris cedex 03
Professeur, Université Pierre et Marie Curie (Paris VI) LIP6 – Laboratoire d’informatique de Paris 6, 8, rue du Capitaine Scott, 75015 Paris
Directeur de recherche CNRS, CRIM/INALCO – Centre de Recherche en Ingénierie Multilingue/Institut National des Langues et Civilisations Orientales, 2, rue de Lille, 75007 Paris
Chargée de recherche, CNRS IRIT – Institut de recherche en Informatique de Toulouse, 118, route de Narbonne, 31062 Toulouse cedex 9
Chargé de recherche CNRS, ERSS – Équipe de Recherche en Syntaxe et Sémantique, Université de Toulouse Le Mirail, Maison de la Recherche, 5 allées Antonio Machado, 31058 Toulouse cedex 9
Chercheur ingénieur Assistance publique – Hôpitaux de Paris, Direction des systèmes d’information de l’AP-HP, STIM – Mission de recherche en sciences et technologies de l’information en médecine, INSERM U729, Hôpital Broussais, 96, rue Didot, 75014 Paris
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Communication et connaissance
Supports et médiations à l’âge de l’information
Jean-Gabriel Ganascia (dir.)
2006