Apprentissage artificiel
p. 125-152
Texte intégral
1Une grande partie de la cognition peut se résumer au seul terme inférence. L’inférence désigne le plus souvent soit la déduction, c’est-à-dire le raisonnement logique, soit l’induction, c’est-à-dire l’apprentissage1. La déduction consiste à tirer des conclusions spécifiques à partir d’un ensemble de faits et de règles. Les conclusions ainsi trouvées sont donc toujours vraies si les faits et règles sont vrais. L’induction, au contraire, consiste à créer des règles générales à partir de faits. Il n’est généralement pas possible de garantir le bienfondé de ces nouvelles règles, que l’on nomme alors hypothèses. En tant que science de la cognition, l’apprentissage peut être vu comme la modification de la connaissance ou du comportement due à l’expérience, dans le but d’être mieux adapté à son environnement.
2On aimerait penser a priori que l’apprentissage artificiel est voué à la modélisation de l’apprentissage humain, permettant d’une part de tester les théories de psychologie cognitive et d’autre part de fournir un retour utilisable pour améliorer ces théories. Cela a été le cas aux débuts de l’intelligence artificielle, avec des systèmes tels que SOAR (Newell 1990) ou ACT-R (Anderson 1996), mais le domaine de l’apprentissage artificiel a de plus en plus tendance à s’écarter de la cognition humaine pour s’ancrer dans les mathématiques et l’informatique théorique.
3De fait, bien que cela permette une formalisation de l’apprentissage en général, appliquer ces mêmes théories à l’apprentissage humain n’est pas évident. On peut imaginer que cela soit seulement dû à la jeunesse de cette discipline, et que des retours plus importants seront possibles dans le futur. Au lieu de proposer des modèles cognitifs plausibles (qui seront probablement plus le fait de psychologues informaticiens), ces théories pourront (espérons-le !) répondre à certaines autres questions qui touchent aussi la cognition :
- Peut-on formaliser l’apprentissage humain ?
- Peut-on alors prouver des théorèmes sur sa nature ?
- À quel point l’apprentissage est-il nécessaire à l’intelligence ?
- Quelle est la part d’inné nécessaire à l’intelligence ?
- Peut-on décrire l’apprentissage par un mécanisme simple et unifié au lieu des différents types d’apprentissage humains ?
- etc.
4En apprentissage artificiel, les individus sont des entités virtuelles, ou parfois des robots, appelés agents, et au lieu d’uniquement observer la manière dont ils apprennent, on cherche à les doter des meilleures capacités d’apprentissage. Pour cela, il faut recueillir des données d’apprentissage, obtenues par l’expérience. Les données sont ce que l’on peut observer de l’environnement, ce sont les entrées du système d’apprentissage. Par exemple, j’observe que cet animal a quatre pattes, des poils longs, qu’il aboie, que cet autre animal a des ailes, qu’il fait moins de 30 cm, etc. Les caractéristiques de ces données sont supposées clairement délimitées et définies, appartenant à des caractéristiques plus générales spécifiées avant l’acquisition de ces données, comme le nombre de pattes de l’animal, s’il vole ou non, quel est son cri.
5D’un point de vue cognitif, il est habituel de distinguer l’apprentissage de concepts (qu’est-ce qu’un volatile, un véhicule...), de procédures (recettes de cuisine), de fonctions (régression), etc. Mais aujourd’hui, l’apprentissage artificiel utilise des définitions beaucoup moins cognitives et bien plus mathématiques. Tout symbole peut être considéré comme un nombre et l’on peut alors calculer l’erreur commise sur l’attribution d’un nombre donné. Par exemple, la classification est simplement l’apprentissage de fonctions où les valeurs sont booléennes (0 ou 1). Et l’apprentissage de procédures est aussi de l’apprentissage de fonctions incluant la dimension temporelle, que l’on peut considérer comme similaire à toute autre dimension (par exemple la longueur des plumes), mais cela n’est pas toujours vrai.
6Il y a deux grandes sortes d’apprentissage actuellement étudiées : l’apprentissage supervisé et l’apprentissage non supervisé. À celles-ci peut s’ajouter l’apprentissage par renforcement, que nous détaillerons dans la section suivante.
7L’apprentissage supervisé nécessite des données étiquetées (les faits). Les étiquettes sont la classe à laquelle appartient la donnée, et c’est ce que doit produire le système d’apprentissage (sa sortie). Par exemple, le premier animal a l’étiquette « chien », alors que le second a l’étiquette « hirondelle ». Puis le système détermine une ou plusieurs règles générales synthétisant les données fournies, de manière quelles étiquettent correctement les données d’apprentissage. Si les règles sont suffisamment générales, elles peuvent alors être utilisées dans des cas similaires mais non identiques aux données d’apprentissage. Par exemple, si l’on observe que pour x = 1 on a l’étiquette y = 1, pour x = 2, y = 4, et pour x = 3, y = 9, un système d’apprentissage peut déterminer qu’une hypothèse qui s’applique correctement à ces données est la fonction y = x2. Il peut alors utiliser cette forme générale pour d’autres valeurs de x qui n’ont pas été vues : x = 4, x = 125, etc. Les hypothèses peuvent être plus ou moins adaptées aux données et les généralisent de différentes manières. On peut ensuite estimer la validité de l’hypothèse générée en calculant un taux d’erreur en généralisation sur un ensemble de données de test, recueillies de la même manière que les données d’apprentissage. Ce taux d’erreur peut être par exemple l’erreur quadratique moyenne. L’apprentissage artificiel d’aujourd’hui est donc plutôt tourné vers la performance de l’agent que vers la construction de connaissances.
8Généralement, l’ensemble des fonctions qui peuvent être choisies par le système d’apprentissage est très grand, ce qui rend compliquée la découverte de la meilleure solution. En effet, plus le nombre de fonctions (ou plutôt classes de fonctions) possibles est grand - ce qu’on appelle l’espace de recherche - plus il faut de données d’apprentissage, plus le taux d’erreur en généralisation peut s’éloigner de la performance mesurée sur l’échantillon d’apprentissage et plus il faut de temps et de données pour trouver une fonction correcte. En théorie cependant, on peut utiliser l’ensemble des programmes informatiques comme espace de recherche, ce qui permet de tout envisager, mais cela devient extrêmement compliqué à contrôler.
9En apprentissage non supervisé, l’agent doit découvrir des ressemblances entre les différentes données sans qu’on lui fournisse d’étiquette. Nous allons voir un petit panorama de l’apprentissage artificiel en naviguant à travers quelques-uns de ses sous-domaines, principalement en apprentissage supervisé. Les premiers - l’apprentissage par renforcement, l’induction de grammaires et les réseaux de neurones - prennent aujourd’hui une place notable dans cet univers tandis que les suivants - l’apprentissage par imitation, le raisonnement par analogie et l’apprentissage incrémental - sont moins connus et mériteraient certainement plus d’attention. Ces derniers sont aussi notablement plus proches des sciences cognitives, car ils y prennent leurs racines. Il ne s’agit en aucun cas d’une description générale de l’apprentissage artificiel, mais d’un survol de quelques-unes de ses perspectives les plus voisines des sciences cognitives.
Apprentissage par renforcement
10Les célèbres travaux de Pavlov (1849-1936) sur l’apprentissage des animaux ont montré qu’en leur donnant des récompenses et des punitions on pouvait renforcer ou inhiber des comportements déjà existants. Pavlov remarqua qu’en faisant tinter une cloche à chaque fois que l’on nourrit un chien, avec l’habitude celui-ci aura tendance à saliver plus que d’ordinaire rien qu’en entendant le son de la cloche. Il s’agit donc bien d’apprentissage, dans le sens que le comportement du chien a été modifié par l’expérience : le chien a appris à prédire la réception prochaine d’une récompense. Ce type d’apprentissage s’appelle le conditionnement. À partir de ces observations, Watson (1878-1958) publia sa théorie du béhaviorisme en 1913 où l’objet d’étude est le comportement du sujet, et Skinner (1904-1990) poussa ce raisonnement à l’extrême avec le conditionnement opérant. En utilisant uniquement des récompenses et des punitions, on peut ainsi amener un animal à apprendre des tâches complexes, comme faire retrouver son chemin à un rat dans un labyrinthe.
11L’utilisation de récompenses et de punitions pour renforcer des comportements a donné naissance en I.A. à l’apprentissage par renforcement, bien que l’on puisse douter que les chercheurs de ce domaine soient des béhavioristes convaincus. C’est une technique que l’on peut considérer comme supervisée, mais faiblement, car les récompenses et punitions, qui sont les étiquettes, ne sont données que par moments et peuvent être dépendantes de tout le passé de l’agent. L’agent doit naviguer dans un espace de grande dimension et tester divers enchaînements d’actions pour apprendre à obtenir des récompenses. Le mode d’apprentissage est donc principalement par essais et erreurs, et le conditionnement, par l’association des comportements avec les renforcements, intervient uniquement lorsqu’un comportement intéressant est trouvé.
12Prenons un exemple évocateur : le jeu du Sokoban. Dans ce jeu, il faut amener les diamants sur les cercles, sachant qu’on ne peut pousser qu’un seul diamant à la fois, et que l’on ne peut pas les tirer (voir figure 1). L’agent (le joueur) reçoit une récompense dès qu’il a correctement placé tous les diamants. Il doit donc déterminer toute la séquence d’actions à effectuer pour atteindre la solution.

Fig. 1 - Le jeu du Sokoban. L’agent doit pousser les diamants sur les cercles (Widell 1999).
13On ne dit donc pas à l’agent ce qu’il faut faire pour résoudre la tâche, mais on lui dit seulement si ce qu’il fait est bien ou non ; voire, on lui dit uniquement qu’il a fait quelque chose de bien le cas échéant. C’est au système d’apprentissage de découvrir le bon comportement. En apprentissage par renforcement, l’agent génère alors des comportements plus ou moins aléatoires qui s’affinent au fur et à mesure des récompenses et des punitions, lesquelles sont simplement des nombres positifs ou négatifs. À chaque instant, l’agent choisit l’action qui maximise l’espérance des renforcements, c’est-à-dire la somme des récompenses et punitions qu’il estime obtenir dans le futur selon cette action, pondérées par la probabilité de les obtenir. Toutes les actions sont alors comparables, car projetées sur une seule dimension, celle des récompenses et punitions.
14Sous certaines conditions, l’utilisation de l’apprentissage par renforcement permet d’assurer que le système trouvera toujours la meilleure solution. Par exemple, pour le jeu du Sokoban, le système sera toujours capable d’effectuer le minimum de mouvements nécessaires pour placer correctement tous les diamants sur les cercles.
15Les techniques d’apprentissage par renforcement, au moins dans leur version de base, sont simples. Le peu de connaissances fournies au système a priori est contrebalancé par la nécessité d’un grand nombre d’expériences de l’agent dans son environnement. La mise en œuvre de ces techniques a conduit à des succès notables dans de nombreux domaines, l’un des plus retentissants étant sans doute la victoire obtenue en 1994 sur le champion du monde de backgammon par le logiciel TD-Gammon (Tesauro 1994).
16D’un point de vue théorique plus avancé, les résultats sont moins enthousiasmants. La convergence de ces méthodes vers une solution optimale requiert que l’espace des états (c’est-à-dire l’ensemble des caractéristiques possibles que l’agent peut percevoir du monde) soit fini et que ces états soient visités par l’agent un nombre infini de fois. Par exemple, dans le jeu du Sokoban, le « monde en grille » est fermé, fini. Mais lorsque l’espace des états n’est plus fini et/ou que plusieurs états peuvent être perçus par l’agent comme similaires (perceptions ambiguës), toute garantie de convergence vers l’optimum est perdue. La partie la plus délicate de ce type d’apprentissage n’est pas le conditionnement, mais la phase d’exploration pour trouver une première fois des comportements intéressants que les récompenses vont renforcer. Cependant, malgré un cadre correctement formalisé permettant de prouver des propriétés fortes, les hypothèses de départ ne sont pas nécessairement cognitivement plausibles. Comme il est clair que les organismes naturels sont placés dans des mondes infinis - dont il n’est pas possible pour l’agent de percevoir l’état complet à chaque instant-, cette approche théorique doit donc être améliorée ou bien envisagée différemment.
Langage et induction de grammaires
17Le langage est un aspect très important de la cognition, aussi n’est-il pas surprenant que l’apprentissage artificiel ait cherché à créer des techniques permettant de comprendre des idées exprimées sous forme verbale.
18L’aspect le plus facilement formalisable du langage - et par conséquent intéressant pour l’apprentissage artificiel - est sans conteste la grammaire, c’est-à-dire la place que les différents mots peuvent prendre dans la phrase et dans quel ordre. C’est pourquoi les recherches sur des mécanismes d’apprentissage adaptés se sont principalement portées sur la grammaire. Une fois celle-ci formalisée (et grandement simplifiée au passage), on peut alors essayer de créer des mécanismes plus ou moins simples susceptibles de construire la grammaire générale sous-jacente à un ensemble de phrases.
19Bien que simple a priori, ce problème est en fait assez compliqué, comme nous allons le voir, et pose aujourd’hui encore de grandes difficultés. Il semble que le problème général de l’acquisition d’un langage soit d’une complexité encore trop grande pour les connaissances actuelles, raison pour laquelle seul l’apprentissage de la grammaire est présenté ici. Il existe bien sûr de nombreux travaux, par exemple sur l’apprentissage de la sémantique (Liou et al. 2008), mais insuffisants pour expliquer qu’un enfant puisse réussir à apprendre aussi « rapidement » à parler.
Hiérarchie de Chomsky
20En octobre 1975, à l’abbaye de Royaumont (Val-d’Oise), un débat particulièrement intéressant sur le langage du point de vue de l’apprentissage et de l’informatique a vu le jour entre le nativisme de Chomsky (1928-) et le constructivisme de Piaget (1896-1980) (Piattelli-Palmarini 1980). Tout le débat est centré sur le dilemme inné/acquis : existe-t-il dans le code génétique une « grammaire universelle » humaine, mère de toutes les grammaires existantes ? Connaître avec certitude la part d’inné dans le langage est d’une extrême difficulté, et le débat reste aujourd’hui encore très ouvert. Pour Piaget, l’enfant se développe par différents stades à l’intérieur desquels des schèmes moteurs spécifiques assurent la connaissance et l’adaptation au milieu environnant.
21Chomsky a de son côté proposé une hiérarchie des langages (Chomsky 1956) qui, bien que discutable d’un point de vue cognitif, a eu une grande influence sur l’informatique et sur l’apprentissage artificiel, au point de devenir classique en fournissant un cadre formel simple dans lequel tester des hypothèses.
22Cette hiérarchie définit quatre classes de langages (formels) de plus en plus complexes. L’aspect essentiel de la complexité de ces classes est l’imbrication des morceaux de phrase, ce qui correspond au type de mémoire de travail qu’il faut utiliser pour pouvoir « comprendre » grammaticalement la phrase. Les grammaires peuvent se représenter informatiquement de manière simple et formelle, d’où leur nom de grammaires formelles.
23Par exemple, une imbrication de faible complexité serait : « Je pars pour Londres, que vous avez visitée l’année dernière avec Carole, que vous avez rencontrée à Nantes chez Paul, que vous m’avez présenté hier. » Chaque proposition de la phrase fait référence à des informations placées juste à gauche de celle-ci, et non loin dans le passé, ce qui rend la compréhension relativement facile.
24Voici des exemples d’imbrication plus complexe, par le milieu : « Pierre, dont vous m’avez parlé, la dernière fois que nous, je veux dire vous et moi, nous sommes vus, avec tant d’éloges, est venu me voir », ou « Le rat, que le chat, que le chien, que l’homme fuit, pourchasse, regarde, court ». Ici la compréhension est moins aisée, car chaque morceau de phrase peut faire référence à un contexte qui peut être très loin dans le passé. Il est donc nécessaire de mémoriser l’information pendant un temps potentiellement infini. Le type de traitement informatique qu’il faut utiliser ici est alors plus complexe.
25En théorie, les niveaux d’imbrication sont illimités. On imagine rapidement un des problèmes majeurs de cette hiérarchie : quelle est donc cette nécessité d’une récursivité infinie, alors qu’après un maximum de cinq niveaux d’imbrication, toute phrase devient incompréhensible à moins de la voir écrite ? De plus, le bon sens préconise de couper les phrases en plusieurs morceaux lorsque celles-ci deviennent trop longues, et à plus forte raison trop imbriquées. Néanmoins, cette théorie s’apparente à la réalité des grammaires naturelles et l’on peut créer un cadre théorique rigoureux d’apprentissage artificiel. De plus, elle soulève des questions dont la généralité dépasse largement le cadre du langage naturel et s’attaque aux fondements mêmes de l’apprentissage.
Induction de grammaires
26Un point de vue courant sur le langage est qu’il sert à la communication en tant que transmission de connaissances. La complexité du langage pourrait avoir évolué afin que l’homme puisse transmettre des connaissances de plus en plus complexes (Reboul et Moeschler 1998), sans pour autant que le destinataire de ces connaissances ait besoin d’être confronté aux situations réelles, potentiellement dangereuses ou compliquées. Il est alors naturel de se demander comment les enfants sont capables d’apprendre à parler avec tant d’aisance avant même d’entrer à l’école et avec peu d’exemples donnés par leurs parents. Cette question a été la question initiale du domaine de l’étude de l’induction de grammaires.
27L’induction de grammaires (De la Higuera 2010) s’intéresse à l’apprentissage, d’un point de vue formel, des structures syntaxiques d’un langage à partir d’exemples étiquetés comme grammaticaux ou non. C’est-à-dire que l’on cherche à savoir dans quelles conditions une grammaire plus ou moins complexe peut être apprise à partir d’exemples. Nous n’allons pas entrer pleinement dans les détails, mais il suffit de citer quelques résultats intéressants pour comprendre la difficulté de la question.
28Un des résultats les plus importants est dû à Gold (1967), lequel montre en substance qu’il est impossible de connaître avec certitude la grammaire utilisée, dès lors que celle-ci peut entraîner des imbrications potentiellement infinies. Ce résultat se base sur l’hypothèse que l’on accède généralement aux seuls exemples positifs, c’est-à-dire aux phrases grammaticalement correctes. Intuitivement, on suppose que l’apprentissage d’une langue naturelle (dont les niveaux d’imbrication sont effectivement généralement potentiellement infinis) nécessite des exemples négatifs ; or, on estime que les enfants ne sont quasiment jamais exposés à des phrases non grammaticales tout en étant conscients qu’elles ne le sont pas. Le résultat de Gold est valable pour tout type d’imbrication. Lorsque l’imbrication se complique, par le milieu par exemple, alors l’apprentissage devient encore plus difficile et les exemples négatifs peuvent ne pas être suffisants pour acquérir un « bon » modèle de la grammaire en un temps suffisamment court.
29Le domaine de l’induction de grammaires ne traite pas uniquement de l’acquisition du langage naturel : c’est tout type de comportement, moteur, de raisonnement, etc. qui est touché par ces résultats. En effet, les imbrications sont une manière de parler de récursivité, de récurrence, de boucle... soit tous les constituants d’un langage de programmation. Or, si l’on possédait un système capable d’apprendre à programmer simplement à partir d’un petit nombre d’exemples positifs, on pourrait pratiquement considérer avoir résolu le problème général de l’intelligence artificielle.
30Au lieu de cela, les modèles d’apprentissage et les classes de langages considérées sont très variés et les résultats fortement contrastés. Par ailleurs, le cadre théorique du théorème de Gold - et d’autres avec lui - repose sur des hypothèses (ou des absences d’hypothèses) parfois difficilement applicables à l’acquisition des langages naturels par les enfants. Il est donc malaisé de déterminer le modèle le plus exact.
31Einstein disait : « En pratique, rien ne vaut une belle théorie ». Il est sans doute ici extrêmement compliqué de dresser une belle théorie pratique. L’approche purement formelle, bien que fournissant des connaissances importantes en termes d’apprentissage artificiel, n’est peut-être pas la plus adaptée pour l’élaboration de systèmes effectifs d’apprentissage du langage naturel. À cet égard, les systèmes de traitement automatique du langage naturel (TALN) sont aujourd’hui généralement basés sur des traitements grammaticaux très simples : les n-grammes. On ne considère que les n derniers mots pour étudier ou prédire le suivant, ce qui suffit généralement pour déterminer une bonne partie du sens de la phrase. De la sémantique est ajoutée par l’utilisation d’ontologies, comme on peut le voir maintenant dans des compétitions comme TREC (Text REtrieval Conference). Au final, l’induction de grammaires a dérivé en s’éloignant de la question initiale de l’apprentissage d’un langage naturel. Il est en effet inconcevable de considérer uniquement l’aspect grammatical.
Réseaux de neurones
32La formalisation précédente pose des problèmes forts intéressants sur les types de traitement que doit effectuer une mémoire de travail. On peut alors envisager une autre approche, plus heuristique, plus pragmatique, telle que celle des réseaux de neurones formels (RN). Leur invention remonte aux origines des sciences cognitives, en 1943, lorsque McCulloch et Pitts (1943) décidèrent de créer un modèle formel, simplifié, des neurones biologiques. À ce moment, il n’existait aucun mécanisme d’apprentissage adapté, il s’agissait uniquement de montrer quels types de calculs pouvaient être effectués avec de tels outils. On découvrit rapidement que ceux-ci permettaient de simuler des portes logiques (ET, OU, NON, NON-ET, etc.), permettant ainsi de renforcer l’idée que le cerveau était un (gigantesque pour l’époque, grand aujourd’hui) calculateur.
33La figure 2 montre un Perceptron Multi-Couches (PMC). Bien qu’il existe une grande variété de RN, le PMC est de loin (plus de 90 %) le modèle le plus utilisé.
34Leur fonctionnement est en passe-avant : le flux d’information va des entrées vers les sorties. Il possède généralement trois couches : la couche d’entrée, la couche cachée, la couche de sortie. La couche cachée peut posséder plusieurs sous-couches, bien que cela ne soit théoriquement pas nécessaire.
35Pour un neurone i, ses entrées reçoivent des valeurs xj provenant des neurones de la couche précédente, pour en faire une somme pondérée, puis cette somme est ensuite modifiée par une fonction d’activation (généralement une sigmoïde, voir figure 3) : yi = f(∑j wji xi) où xj est la valeur d’entrée de la connexion provenant du neurone j et portant le poids wji, et f est la fonction d’activation. yi est la sortie du neurone i et peut ensuite être utilisée en entrée d’un autre neurone.
36La sortie est une étiquette estimée, potentiellement un nombre réel. Chaque connexion d’un neurone à l’autre, chaque « synapse », possède un poids wji signifiant la force avec laquelle la valeur d’entrée est transférée au neurone suivant.

Fig. 2 - Un réseau de neurones, un Perceptron Multi-Couches (tiré de Wikipedia-Neural network (2008), modifié).

Fig. 3 - La sigmoïde f(x) = 1/(1 + e-x)
Apprentissage
37Hebb (1904-1985), en observant la manière dont les synapses modifiaient leur activité au fur et à mesure que les stimuli les traversaient, proposa une règle d’auto-adaptation simple, mais efficace, et qui est à la base des méthodes actuelles : la règle de Hebb (1949). Elle préconise de renforcer le poids d’une synapse (une connexion) si l’activation du neurone source prend part de manière répétée à l’activation du neurone cible2. Hebb changea ainsi la vision statique du neurone, alors seulement considéré comme une unité de calcul, sans plasticité. En proposant cette capacité de potentiation à long terme, il donnait alors au neurone des capacités d’apprentissage, d’adaptation au stimulus. Il fallut attendre 1973 pour que ce principe soit mis en évidence chez le lapin, mais les informaticiens n’attendirent pas si longtemps pour proposer des mécanismes d’adaptation sur des neurones formels.
38On cherche donc à déterminer quels poids doivent avoir les différentes connexions pour fournir des sorties correctes selon les entrées fournies. La rétropropagation du gradient de l’erreur (Rumelhart et al. 1986), méthode d’apprentissage usuellement associée au PMC, s’inspire de la règle de Hebb. L’apprentissage est robuste, c’est-à-dire que la qualité de l’apprentissage diminue graduellement avec le nombre d’erreurs dans les données d’apprentissage.
39Les PMC connaissent aujourd’hui un succès certain car on peut les utiliser pour la résolution de très nombreux problèmes, notamment en reconnaissance des formes. Ils ont la propriété de pouvoir approximer n’importe quelle fonction bornée avec le degré de précision voulu. Les techniques d’apprentissage permettent de trouver une fonction proche de la fonction souhaitée. Ils peuvent par ailleurs supporter la classification symbolique - par exemple déterminer la race d’un chien à partir de ses caractéristiques - ou modéliser des comportements - comme contrôler un robot naviguant dans une pièce.
Représentation des connaissances
40L’apprentissage revient à créer de la connaissance à partir d’exemples initialement indépendants. Comme les réseaux de neurones sont capables d’apprendre, on peut alors se demander quelle forme prend la connaissance dans le réseau.
41Un des intérêts principaux des RN est d’avoir remis en cause la représentation symbolique des connaissances, pourtant bien établie avant leur arrivée. La connaissance n’est plus ici écrite sous forme de règles logiques lisibles comme dans un langage de programmation habituel. Elle est distribuée, subsymbolique, répartie dans plusieurs unités de calcul, de sorte qu’on ne peut pas assimiler un neurone particulier à la description d’un chat, un autre à celle d’une table, etc. Ce changement de paradigme sur la représentation des connaissances, baptisé connexionnisme, est corroboré par les conclusions que l’on peut tirer de l’apprentissage dans des modèles artificiels. Néanmoins une controverse existe, car certaines études en neurophysiologie tendent à démontrer le contraire, à savoir qu’un neurone à lui seul pourrait représenter un concept entier : il serait actif par exemple lorsque et uniquement lorsque le concept correspondant à une personne particulière est évoqué, notamment à la perception auditive ou visuelle de son nom, ou à la vue de sa photographie (Quiroga et al. 2005).
42La représentation distribuée de la connaissance pose certes des problèmes d’interprétation, car il est difficile de comprendre, d’un point de vue extérieur, quelles « règles » utilise réellement un réseau de neurones. Certains systèmes essayent cependant d’extraire cette connaissance pour la rendre humainement plus lisible (par exemple Jacobsson 2005).
43Aujourd’hui, il est difficile de trancher définitivement en faveur de l’une ou l’autre des positions. Une manière de concilier les deux points de vue est de dire que le RN serait le système de base, flexible, robuste, permettant l’élaboration d’un sur-système dans lequel on peut effectivement parler de données symboliques, de la même manière que les atomes sont un système de base à partir duquel on peut décrire un sur-système permettant de manipuler des objets « concrets ». La connaissance ne serait pas distribuée globalement, mais par « îlots », qu’il est possible de déterminer à un niveau intermédiaire.
Réseaux de neurones récurrents
44Cependant, tels quels, les RN sont incapables de tout modéliser car il leur manque une composante importante, notamment pour l’apprentissage de grammaires : le temps. L’intérêt des grammaires n’est pas tant de proposer un modèle formel des langages naturels que de proposer une hiérarchie de complexité d’utilisation de mémoires. En effet, l’aspect temporel requiert de mémoriser des éléments au fil du temps pour s’en resservir plus tard, après un temps non borné a priori.
45La solution généralement utilisée dans les RN est à la fois simple et pratique : au lieu de forcer les connexions à n’aller que des entrées vers les sorties, d’une couche à l’autre, on autorise les connexions à boucler : une connexion peut alors avoir comme neurone cible le même que le neurone source, ou le neurone source d’un des neurones sources (voir figure 4). Ce genre de boucles est fréquemment observé aussi dans le cerveau, donnant un poids cognitif non négligeable à ce genre de solution. On obtient ainsi un réseau de neurones récurrent (RNR).

Fig. 4 - Un exemple de réseau de neurones récurrent. Certaines connexions rebouclent vers les neurones des couches précédentes.
46Une mémoire de travail peut alors être créée par un neurone récurrent. La sortie d’un tel neurone récurrent est fournie en entrée de ce même neurone au « pas de temps » suivant. Ainsi, de proche en proche, le neurone peut conserver sa valeur pendant un temps indéterminé, simulant alors une mémoire.
47Faire progresser de tels modèles s’avère cependant beaucoup plus difficile que dans le cas de modèles sans boucle, et malgré certains résultats intéressants ils ne sont pas encore à la hauteur de ce que l’on pourrait en espérer. Cependant, étant donné que l’on peut « facilement » créer à la main de telles mémoires, on peut imaginer l’apparition d’algorithmes adaptés dans le futur.
48Par ailleurs, les neurobiologistes s’intéressent aujourd’hui à des modélisations plus complexes des neurones, en prenant en compte par exemple les données récentes sur les propriétés membranaires comme dans le programme NEURON (Carnevale et Hines 2006).
Capacités des RNR
49De quoi sont capables les RNR ? Selon la forme de la fonction d’activation, deux cas se présentent. Avec une fonction à seuil « dur » (f = 1 si la somme pondérée dépasse un seuil donné, 0 sinon), les RNR peuvent simuler n’importe quel langage à imbrication simple, mais pas ceux à imbrication par le milieu (ou plus complexes encore). Par contre, avec une fonction continue (telle une sigmoïde), ils peuvent simuler n’importe quel programme informatique, donc n’importe quel type d’imbrication. Ce dernier point mérite une petite explication. Pour effectuer un tel saut de complexité dans la hiérarchie de Chomsky, il faut utiliser les nombres réels comme source infinie de mémoire. En effet, avec une fonction d’activation continue, la sortie d’un neurone peut être un nombre réel. Or un nombre réel peut posséder en théorie un nombre infini de chiffres après la virgule. Comme chaque chiffre peut prendre différentes valeurs, il peut donc être utilisé comme une (petite) mémoire. Il suffit ensuite d’y adjoindre un mécanisme d’encodage et de décodage pour manipuler la valeur d’un chiffre particulier. Ainsi, tout programme informatique pourrait être simulé par un très petit nombre de neurones correctement interconnectés.
50Néanmoins, aucun mécanisme d’apprentissage adapté n’existe aujourd’hui, les tests effectués jusqu’à présent n’étant pas réellement concluants. Par ailleurs, même une fois les poids ayant acquis la bonne valeur, le réseau reste très fragile : la moindre perturbation des poids peut faire perdre toute la connaissance précédemment acquise. Utiliser les RNR de la sorte n’est donc pas biologiquement ni cognitivement plausible, les neurones réels étant également sujets à des perturbations sans entraîner pour autant la perte rapide de pans entiers de notre mémoire.
51Il faut par ailleurs noter que si on limite la précision des nombres utilisés au niveau des neurones, on en revient à peu près au cas de la fonction à seuil dur.
Capacités d’abstraction
52Si l’on ne considère pas l’utilisation des nombres réels pour l’encodage de mémoires infinies dans les RNR, ceux-ci ne sont alors pas suffisamment expressifs pour rendre compte des capacités plus générales des humains. Un débat a d’ailleurs fait couler beaucoup d’encre sur leurs capacités d’abstraction. Le problème est que les RNR ne sont pas capables de transférer la connaissance acquise d’une entrée sur l’autre. Par exemple, imaginons un RN ayant deux entrées x1 et x2 et deux sorties y1 et y2. S’il apprend la fonction y1 = x1 + 5, et qu’on veuille maintenant lui apprendre y2 = x2 + 5, il sera nécessaire de tout réapprendre.
53Ces capacités d’abstraction ont pourtant été mises en évidence chez les enfants en bas âge (Marcus 2000) de même que chez certains singes (Hauser et al. 2002). Une possibilité pour atteindre ces capacités est d’ajouter des mémoires simples capables de repérer la répétition de n’importe quel événement (Dominey et Ramus 2000, Orseau 2005). Ceci peut entre autres se faire sous la forme de connexions synaptiques dynamiques, capables de se connecter sur un neurone ou un autre selon le contexte (Orseau 2007).
54Il est évident que les RN ou RNR, tels quels, ne sont pas des modèles suffisamment polyvalents pour simuler l’intelligence. Il sera nécessaire de les augmenter, probablement avec des capacités plus « symboliques » que celles dont ils disposent actuellement. La question est de savoir à quel point les paradigmes connexionniste et symbolique devront interagir.
Imitation
55L’étude des réseaux de neurones naturels dans le cadre des neurosciences a eu d’autres implications en apprentissage artificiel. Elle a notamment apporté un socle biologique à un processus d’apprentissage quelque peu laissé de côté en intelligence artificielle : l’apprentissage par imitation. Piaget considérait l’imitation comme un processus acquis et non inné, et donc non nécessaire a priori, ce qui la rendit moins « intéressante ». Mais depuis la découverte des neurones miroirs (Rizzolatti et al. 1996), depuis que l’on sait que même les enfants à peine nés sont capables d’imiter la protrusion de langue (Meltzoff et Moore 1977) par exemple, ce mécanisme reçoit de plus en plus d’attention. Les neurones miroirs sont des neurones actifs aussi bien (et seulement) lorsqu’un individu effectue un mouvement ou lorsqu’il voit ce même mouvement (ou même seulement l’intention du mouvement !) réalisée par un congénère.
56L’apprentissage par imitation s’intéresse à la transmission de la connaissance dans une communauté. Or cet aspect est très rarement pris en compte dans l’apprentissage artificiel, lequel cherche surtout à créer des systèmes autonomes, indépendants. Et l’apprentissage par imitation demande la présence d’un professeur, bien que celui-ci fasse de l’enseignement passif : il ne cherche pas à agir directement sur l’agent apprenant, ce dernier ne fait que l’observer en train de résoudre un problème donné. L’intérêt de l’imitation est qu’elle ne nécessite que des exemples positifs, mais qu’elle permet néanmoins d’apprendre des comportements complexes, comportant des imbrications non triviales (Orseau 2007).
57L’imitation, à travers la théorie de la simulation (Gallese et Goldman 1998) et par le biais des neurones miroirs, ouvre une nouvelle voie vers l’intelligence : la compréhension de la théorie de l’esprit. Comment attribue-t-on des états internes à autrui ? La théorie de la simulation dit que l’on considère l’autre comme soi-même. C’est pour cela que les enfants en bas âge attribuent aux autres les mêmes états mentaux que les leurs propres (Wimmer et Perner 1983). En grandissant, ils tiennent de plus en plus compte de facteurs contextuels sur les connaissances d’autrui.
58En apprentissage, la réconciliation entre le constructivisme de Piaget et l’imitation commence doucement à émerger, notamment à travers des colloques tels qu’EpiRob (Epigenetic Robotics) qui privilégient la construction de robots ou d’agents dont l’intelligence se développe au fur et à mesure. Un peu paradoxalement au regard de l’apprentissage artificiel et du constructivisme, la méthode qui semble aujourd’hui la plus pratique et la plus attirante est l’imitation. En effet, la programmation robotique est difficile et l’apprentissage totalement autonome irréalisable du fait des temps d’interaction longs avec l’environnement. L’imitation permet donc de faire acquérir rapidement des comportements généraux au robot, sans pour autant devoir taper une seule nouvelle ligne de code, théoriquement.
59En rapport avec EpiRob, le test du miroir robotique commence à attirer l’attention, et certains travaux montrent des progrès réels (Gold et Scassellati 2006), même s’il manque encore un véritable sens de « l’autre » aux robots.
60Est-il donc bien raisonnable de vouloir construire un système artificiel intelligent, autonome et intégré à notre monde, sans lui donner les capacités d’imitation ? Les chercheurs orientaux, qui pratiquent une approche beaucoup plus robotique, orientée vers l’interaction avec l’utilisateur, auront certainement un grand intérêt à utiliser l’imitation ; comprendre les désirs de son interlocuteur tout en étant capable d’apprendre rapidement de nouveaux comportements est un atout indispensable. Mais à travers des colloques tels qu’EpiRob, la communauté occidentale commence à prendre place dans ce débat.
Raisonnement par analogie
61Un domaine très proche de l’apprentissage par imitation est le raisonnement par analogie (Gentner et al. 2001), au cours duquel l’agent cherche à transformer une situation connue pour l’adapter à la situation courante. C’est en quelque sorte l’art de raisonner par métaphores : « A est à B ce que C est à D ».
62Il ne s’agit pas à proprement parler d’apprentissage car une fois la solution trouvée, il n’existe pas de mémorisation à long terme des solutions : tout le calcul s’effectue en mémoire de travail. Cependant, de la mémoire de travail à la mémoire à long terme, il n’y a qu’un pas. On peut considérer le raisonnement par analogie comme un mélange d’induction et de déduction : il faut passer à une abstraction des faits concrets que l’on perçoit pour ensuite fournir une nouvelle instanciation de cette abstraction, correspondant au cas courant. Plus précisément, à partir de A, B et C, il faut être capable de retrouver D, ou tout du moins un D qui paraisse correct (dont on puisse fournir une explication). Comme il s’agit de prédiction, et que l’apprentissage artificiel s’intéresse principalement à la prédiction, on peut amalgamer le raisonnement par analogie avec l’apprentissage artificiel.
63Copycat (Hofstadter 1984) est un système bien connu ayant eu un certain succès en raison des raisonnements qu’il est capable de tenir. Hofstadter, l’un de ses auteurs, pense même que « l’analogie est le cœur de la cognition ».
64Copycat se restreint au micromonde des lettres de l’alphabet et n’en détient qu’une connaissance limitée : il possède par exemple des notions de succession dans l’alphabet, sait grouper des lettres, reconnaître des similitudes... Par exemple, il peut répondre à des questions comme : « abc » est à « abd » ce que « ijk » est à... ? Copycat ne fournit pas une unique réponse, mais un ensemble de réponses potentielles, chacune avec une qualité associée. Par exemple, la réponse la plus « logique » à la question précédente est « ijl », et Copycat lui donne la plus grande qualité, mais il trouve aussi « abd » (la règle d’analogie est alors : la réponse est toujours « abd »), « ijd » (remplacer la dernière lettre par « d »), « ijk » (remplacer tout « c » par « d », donc ici laisser tel quel), etc. Il est intéressant de noter que ces dernières solutions nous semblent moins naturelles, plus « psychorigides » que celles où des transformations sont effectuées.
65Copycat est même parfois capable de trouver certaines explications que l’humain a du mal à percevoir, mais qui semblent néanmoins meilleures a posteriori. L’exemple le plus intéressant traité est probablement : « abc » est à « abd » ce que « mrrjjj » est à... ? La meilleure réponse que le système trouve est « mrrjjjj » car il a fait le lien entre le fait que « d » est le successeur de « c » et que « jjjj » est le nombre successeur de « jjj ». Cette analogie est souvent difficile à dégager pour des sujets humains, mais une fois la solution donnée, ils l’approuvent généralement comme étant une bonne solution.
66Un autre exemple intéressant est « abc » est à « abd » ce que « xyz » est à... ? La solution que trouve Copycat est « wyz » : puisque « z » n’a pas de successeur dans l’alphabet (dans sa connaissance il n’y a pas de circularité), il considère la séquence en sens inverse, et au lieu d’appliquer le concept de successeur à « x », il applique une fois encore le concept inverse (prédécesseur), pour en quelque sorte rétablir la symétrie.
67Ce micromonde de lettres est en fait très généralisable, et permet de clairement mettre en avant les avantages d’un tel système, mais le raisonnement par analogie a été très peu étudié en apprentissage artificiel et reste encore essentiellement du domaine de la psychologie. Pourtant, un rapprochement serait certainement très bénéfique aux deux parties.
Apprentissage incrémental
68De toutes les méthodes d’apprentissage précédentes, aucune ne tient compte d’un aspect fondamental de l’apprentissage : la capacité à accumuler de la connaissance au fur et à mesure de l’interaction avec l’environnement, et à s’en resservir pour mieux apprendre.
69À la suite de cela, le constructivisme de Piaget connaît un regain d’intérêt à travers l’apprentissage incrémental. Contre la vision actuelle et généralement admise de l’apprentissage artificiel qui considère un unique problème à résoudre, une unique tâche à apprendre, un modèle constructiviste aura au contraire tendance à créer de nouvelles hypothèses au fur et à mesure, et à les utiliser pour poursuivre l’apprentissage. L’apprentissage incrémental s’intéresse aux mécanismes d’apprentissage prenant en compte non pas une seule et unique tâche mais une séquence de tâches.
70Les implications sont importantes. En effet, les mécanismes pour apprendre une certaine tâche ne peuvent être utilisés tels quels pour en apprendre plusieurs à la suite en espérant un transfert de connaissance d’une tâche à l’autre. La nature polyvalente des réseaux de neurones leur permet de prétendre à la capacité d’accumuler la connaissance, et donc de faire de l’apprentissage incrémental, mais ils ne sont en fait pas du tout adaptés (sous leur forme actuelle en tous cas) à ce genre d’activité, car ils souffrent « d’oubli catastrophique » : si on leur fait apprendre une tâche B après une tâche A, il est fort probable qu’ils oublient toute la connaissance acquise sur la première tâche. Il faut donc créer des systèmes capables d’accumuler de la connaissance et de la réutiliser sur de nouvelles tâches (voir notamment dans ce volume le chapitre de J. Pitrat sur le méta-apprentissage).
71Cornuéjols (2007) propose une tâche cognitive simple évoquant bien la subtilité que doivent prendre en compte de tels systèmes d’apprentissage.

Fig. 5 - 6 - Effet d’ordre : le découpage de la figure 6 est plus difficile après qu’on a résolu le découpage de la figure 5.
72Découpez la figure 5 en deux, trois, puis quatre parties toutes identiques. Ne passez pas à la suite sans avoir trouvé les réponses.
73Découpez maintenant la figure 6 en cinq parties toutes identiques. L’effet de l’ordre fait qu’il est très fréquent que le deuxième exercice demande beaucoup plus de temps de réflexion que si on avait donné ce problème seul dès le départ. En effet, bien que la solution soit évidente, le premier exercice nous amène dans un schéma de réflexion totalement différent de ce que nécessite le second problème. Or, étant donné que les deux problèmes nous paraissent très corrélés, nous avons tendance à essayer d’appliquer les mêmes méthodes de résolution à des problèmes similaires. Par comparaison, les algorithmes d’apprentissage existants traitent les deux problèmes de manière totalement indépendante. Loin d’être un défaut, être sujet à l’effet de l’ordre montre que l’on tient compte d’informations temporellement contextuelles.
74Au-delà de cet effet, il est souvent aussi nécessaire d’acquérir des connaissances sur un domaine particulier avant de pouvoir y résoudre des problèmes. Il faut alors apprendre à réutiliser la connaissance acquise de manière automatique, comme si celle-ci était une nouvelle « fonction » qu’il faut intégrer aux capacités de l’agent. L’apprentissage par imitation peut là encore fournir des éléments de réponse, notamment pour que l’apprentissage soit rapide (Orseau 2007).
75L’apprentissage incrémental est une « nouvelle » discipline qui en réalité remonte aux origines de l’apprentissage artificiel mais a mis du temps à émerger. S’inspirant des sciences cognitives, il pourrait très certainement beaucoup se développer avec son aide. De plus, la modélisation de tels processus d’apprentissage et ses implications pourraient réellement entraîner des retombées importantes en sciences cognitives, dans le cadre de la compréhension du fonctionnement de l’apprentissage humain : à quoi sert l’effet de l’ordre ? À quel point facilite-t-il l’apprentissage de nouvelles tâches ? Comment précisément l’humain construit-il sa connaissance du monde ?
Conclusion
76Le domaine de l’apprentissage artificiel est très diversifié et les quelques approches présentées ici ne sont qu’une petite partie de l’ensemble des techniques disponibles. Néanmoins, celles-ci donnent une idée des différentes caractéristiques à prendre en compte : la capacité à apprendre à partir uniquement de récompenses et de punitions dans l’apprentissage par renforcement ; les restrictions des capacités d’apprentissage pour des tâches complexes dans l’induction de grammaires ; les méthodes polyvalentes d’apprentissage et les questions concernant la représentation des connaissances dans les réseaux de neurones ; la nécessité pour un enseignant de favoriser l’acquisition des comportements complexes ainsi que la capacité à comprendre autrui et à communiquer avec lui dans l’apprentissage par imitation ; l’importance du raisonnement par analogie dans la cognition ; et la capacité à acquérir de plus en plus de connaissances et à les réutiliser pour apprendre de mieux en mieux dans l’apprentissage incrémental.
77La tendance actuelle dans le domaine de l’apprentissage artificiel à trop se tourner vers les mathématiques risque de réduire la riche diversité des techniques qu’elle promeut et d’empêcher l’apparition de nouvelles idées a priori totalement empiriques. Dans l’optique de l’amélioration de notre compréhension de l’intelligence, une restimulation des échanges entre sciences cognitives et apprentissage artificiel pourrait être fortement bénéfique pour les deux parties, notamment à travers de nouvelles voies de recherche telles que l’apprentissage incrémental - par imitation - ou le raisonnement par analogie. Ces mécanismes, centraux chez l’homme, ne devraient pas tarder à le devenir aussi chez l’agent artificiel.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références bibliographiques
10.4324/9781315799438 :Anderson J. R. 1996. The Architecture of Cognition. Lawrence Erlbaum Associates.
10.1017/CBO9780511541612 :Carnevale N. T., Hines M. L. 2006. The NEURON Book. Cambridge (UK), Cambridge University Press.
10.1109/TIT.1956.1056813 :Chomsky N. 1956. « Three models for the description of language ». IRE Transactions on Information Theory : 113-124.
Cornuéjols A., Miclet L. 2002. Apprentissage artificiel : Concepts et algorithmes (2e édition). Eyrolles.
Cornuéjols A. 2005. Apprentissage et circulation d’information. Habilitation à diriger les recherches, LRI, Paris, France.
Cornuéjols A. 2007. In Order to Learn : How ordering processes and sequencing effects in machines illuminate human learning and vice-versa. Cambridge University press : 41-55.
Crevier D. 1993. AI : The Tumultuous Searchfor Artificial Intelligence. New York (NY), BasicBooks.
De la Higuera C. 2010. Grammatical Inference : Learning Automata and Grammars. Cambridge, Cambridge University Press.
10.1080/016909600386129 :Dominey P.F., Ramus F. 2000. « Neural network processing of natural language : I. sensitivity to serial, temporal and abstract structure of language in the infant ». Language and Cognitive Processes, 15 : 87-127.
10.1016/S1364-6613(99)01294-2 :French R. M. 1999. « Catastrophic forgetting in connectionist networks ». Trends in Cognitive Sciences, 3 : 128-135.
10.1016/S1364-6613(98)01262-5 :Gallese V., Goldman A. 1998. « Mirror neurons and the simulation theory of mind-reading ». Trends in Cognitive Sciences, 2 : 493-501.
Garcia P. 2004. Exploration guidée et induction de comportements génériques en apprentissage par renforcement. PhD thesis, Institut National des Sciences Appliquées.
Garson J. 1997. « Connectionism ». Stanford Encyclopedia of Philosophy.
10.7551/mitpress/1251.001.0001 :Gentner D., Holyoak K. J., Kokinov B. N. 2001. The Analogical Mind : Perspectives from Cognitive Science. MIT Press.
10.1016/S0019-9958(67)91165-5 :Gold E. M. 1967. « Language identification in the limit ». Information and Control, 10 : 447-474.
Gold K., Scassellati B. 2006. « Deictic pronoun leaming and mirror self-identification ». 6th International Conference on Epigenetic Robotics, Paris, France : 49-54.
Hauser M. D., Weiss D., Marcus G. 2002. « Rule learning by cotton-top tamarins ». Cognition, 86 : 15-22.
10.4324/9781410612403 :Hebb D.O. 1949. The Organization of Behavior. New York, Wiley.
Hofstadter D. 1984. The Copycat Project : An experiment in nondeterminism and creative analogies.
10.1162/0899766053630350 :Jacobsson H. 2005. « Rule extraction from recurrent neural networks : A taxonomy and review ». Neural Computation, 17 : 1223-1263.
10.1086/423752 :Johnson K. 2004. « Gold’s theorem and cognitive science ». Philosophy of Science, 71 : 571-592.
10.1016/j.neucom.2008.04.030 :Liou C.-Y., Huang J.-C., Yang W.-C. 2008. « Modeling word perception using the elman network ». Neurocomputing, 71 : 3150-3157.
10.1111/1467-8721.00080 :Marcus G. F. 2000. « Pabiku and ga ti ga : Two mechanisms infants use to learn about the world ». Current Directions in Psychological Science, 9 : 145-147.
10.1016/S0092-8240(05)80006-0 :McCulloch W. S., Pitts W. 1943. « A logical calculus of the ideas immanent in nervous activity ». Bulletin of Mathematical Biology, 5 : 115-133.
10.1126/science.897687 :Meltzoff A. N., Moore Μ. K. 1977. « Imitation of facial and manual gestures by human neonates ». Science, 198 : 75.
10.1146/annurev.cs.04.060190.002221 :Mitchell T. M. 1997. Machine Learning. New York, McGraw-Hill.
10.3917/puf.nadel.1986.01 :Nadel J. 1986. Imitation et Communication entre jeunes enfants. Paris, Presses universitaires de France.
Nadel J. 2004. « Imitation et autisme ». Cerveau & Psycho : 68-71.
Newell A. 1990. Unified Theories of Cognition. Harvard University Press.
10.1007/11550907 :Orseau L. 2005. « Short-term memories and forcing the re-use of knowledge for generalization », in W. Duch, J. Kacprzyk, E. Oja, S. Zadrozny (dir.), Artificial Neural Networks : Formal Models and Their Applications - ICANN 2005, LNCS 3697, Springer-Verlag : 39-44.
Orseau L. 2007. « Learning to count by think aloud imitation ». Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad, India : 1005-1010.
Piattelli-Palmarini M. 1980. Language and Learning : The Debate Between Jean Piaget andNoam Chomsky. Harvard University Press.
Pinker S. 1995. The Language Instinct. HarperPerennial.
10.4000/books.editionsmsh.13863 :Pitrat J. 2010. « Raisonnement de l’homme et raisonnement de la machine ». in C. Garbay et D. Kayser (dir.), Informatique et sciences cognitives : influence ou confluence ? Paris, Editions de la Maison des sciences de l’homme : 11-46.
10.1038/nature03687 :Quiroga R. Q., Reddy L., Kreiman G., Koch C., Fried I. 2005. « Invariant visual representation by single neurons in the human brain ». Nature, 435 : 1102-1107.
Reboul A., Moeschler J. 1998. La pragmatique aujourd’hui. Une nouvelle science de la communication. Paris, Le Seuil.
10.1016/0926-6410(95)00038-0 :Rizzolatti G., Fadiga L., Gallese V., Fogassi L. 1996. « Premotor cortex and the recognition of motor actions ». Cognitive Brain Research, 3 : 131-141.
10.1038/323533a0 :Rumelhart D. E., Hinton G. E., Williams R. J. 1986. « Learning Representations by Back-Propagating Errors ». Nature, 323 : 533-536.
Russell S., Norvig P. 2003. Artificial Intelligence : A Modem Approach (2e édition). Englewood Cliffs (NJ), Prentice-Hall.
10.1109/TNN.1998.712192 :Sutton R., Barto A. G. 1998. Reinforcement Learning : An Introduction. Cambridge (Mass.), MIT Press.
10.1162/neco.1994.6.2.215 :Tesauro G. 1994. « TD-Gammon, a self-teaching backgammon program, achieves master-level play ». Neural Computation, 6 : 215-219.
Thrun S., Pratt L. 1998. Learning to Leam. Kluwer Academic Publishers.
10.1093/mind/LIX.236.433 :Turing A. M. 1950. « Computing machinery and intelligence ». Mind, 59 : 433-460.
Widell A. 1999. Sokoban. http://hem.passagen.se/awl/ksokoban/.
Wikipedia. 2008. Neural network — Wikipedia, the free encyclopedia. http://en.wikipedia.org/wiki/Neural_network,2008. [Online ; accessed 16-June-2008].
10.1016/0010-0277(83)90004-5 :Wimmer H., Perner J. 1983. « Beliefs about beliefs : representation and constraining function of wrong beliefs in young children’s understanding of deception ». Cognition, 13 : 103-28.
Notes de bas de page
1 L’abduction, qui est également une forme d’inférence, n’a pas, jusqu’ici, beaucoup retenu l’attention des chercheurs en apprentissage automatique.
2 En anglais : « When an axon of cell A is near enough to excite a cell B and repeatedly and persistently takes part in firing it, some growth process, or metabolic change takes place in one or both cells such that A’s efficiency as one of the cells firing B is increased. »
Auteur
Mathématiques et Informatique Appliquées
Agro Paristech, Paris.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Informatique et sciences cognitives
Influences ou confluence ?
Catherine Garbay et Daniel Kayser (dir.)
2011