Chapitre I. La perception visuelle
p. 39-69
Texte intégral
1Un élément essentiel bien établi aujourd’hui est qu’il n’existe pas de problème général de la perception, comme il n’existe pas de problème général de la cognition. Cette assertion fait écho à l’abandon, par l’intelligence artificielle, de la recherche d’un système général de résolution de problèmes. Réduire les processus cognitifs à un unique algorithme est vain. Les systèmes biologiques ont résolu, durant l’évolution, de multiples problèmes dans lesquels cognition et perception jouaient des rôles plus ou moins importants, mais à chaque fois à l’aide de dispositions spécifiques. L’anatomie comparée de l’œil camérulaire, apparu plusieurs fois au cours de l’évolution, l’organisation de la fovéa adaptée aux modes de vie et aux comportements des diverses espèces, ou les fluctuations évolutives de la vision des couleurs en sont des exemples évidents. De même, chez les batraciens, dépourvus de néocortex, les fonctions perceptives essentielles, telles que la capacité à distinguer une proie et un partenaire sexuel, sont implémentées de façon efficace dans les circuits de la rétine et du tectum (Ewert et Arbib 1989). Il n’en demeure pas moins que ces animaux sont parfaitement adaptés à leur milieu.
2Les mécanismes perceptifs se comprennent donc en lien avec l’évolution de l’environnement dans lequel l’organisme se situe. Cependant, dans un environnement donné, deux approches peuvent être considérées. Selon une conception mentaliste, la perception est un processus dans lequel le système sensoriel reçoit passivement des stimulations, puis traite ces informations afin d’identifier objets et événements sous la forme de représentations internes. Le cognitivisme classique demeure globalement dans la lignée de cette conception. La cognition est alors identifiée à un système de traitement linéaire de l’information où les données des sens sont considérées comme une entrée ; à cette entrée succèdent la perception et le raisonnement, qui débouchent sur l’action, envisagée comme une sortie. Née avec la théorie fonctionnaliste du raisonnement comme manipulation de représentations symboliques, cette conception s’appuie sur une cognition envisagée comme un calcul sur des représentations mentales. La tradition mentaliste met ainsi en avant le raisonnement logique comme élément essentiel permettant d’accéder au sens. Elle est cependant en échec lorsqu’il s’agit d’expliquer et a fortiori d’implémenter la façon dont les symboles quelle manipule sont ancrés dans le réel (Harnad 1990).
3Selon une conception active ou écologique, la perception est construite sur la base de l’extraction de régularités entre les actions effectuées et les stimulations sensorielles résultantes. Parce qu’elle inclut les mécanismes qui permettent d’appréhender le monde extérieur et de construire les modèles d’interaction avec lui (Agre 1988), la perception participe de façon centrale au processus cognitif. Elle réunit un ensemble de processus qui, dans les diverses modalités sensorielles puis dans leurs combinaisons, conduisent à notre connaissance du monde et à nos aptitudes à nous y comporter de façon cohérente. Cette approche, qui fait porter à la perception l’essentiel de la mise en cohérence de notre fonctionnement interne avec les caractéristiques du monde extérieur, met l’accent sur le rôle de cette interaction avec le monde comme élément essentiel de nos aptitudes cognitives.
4Notre conception des mécanismes perceptifs est donc influencée par notre position vis-à-vis de la nature essentielle des processus cognitifs. Selon que l’on privilégie une vision mentaliste ou une vision écologique du fonctionnement cognitif, on sera conduit à donner aux processus perceptifs une importance plus ou moins grande dans le processus de construction et d’appropriation du sens. L’objectif de ce chapitre est de présenter une partie des mécanismes qui sous-tendent les processus perceptifs et les modèles qui ont été envisagés suivant l’une ou l’autre des conceptions décrites ci-dessus. Nous abordons ainsi successivement les mécanismes de bas niveau, les modèles de reconnaissance d’objets et de scènes, l’attention visuelle, les liens entre la perception et l’action, et les liens entre la vision et les autres modalités sensorielles. Nous verrons que la distinction entre les différentes conceptions de la perception s’illustre par la prééminence de la tradition mentaliste, s’agissant de la description des processus de bas niveaux, et par une plus grande présence de théories alternatives lorsqu’il s’agit de rendre compte des relations entre perception et action comme de tout mécanisme faisant intervenir des processus incarnés et contextualisés.
Le filtrage de bas niveau
Modèles empiriques
5Le système visuel est classiquement conçu comme projetant le flux informationnel sur une voie de traitement ventrale aboutissant au cortex inféro-temporal et une voie dorsale conduisant au cortex pariétal (Ungerleider et Mishkin 1982). Très schématiquement, on associe la voie temporale plutôt à la forme et la voie pariétale à tout ce qui concerne la position. Notons également, parmi les aires visuelles, les champs oculaires frontaux en relation avec la commande des mouvements oculaires. Au-delà des aires visuelles proprement dites, de nombreuses aires associent les informations visuelles à d’autres types de traitements. La conception classique selon laquelle le flux informatif chemine de la rétine vers le cortex est cependant remise en cause par l’abondance des connexions récurrentes qui ont fait progressivement abandonner un schéma de connexions orientées de manière unidirectionnelle au profit d’une organisation bidirectionnelle (Van Essen, Anderson et Felleman 1992).
6À la suite des travaux d’Hubel et Wiesel (1962), on a conçu le système visuel comme un ensemble de filtres destinés à extraire du flux d’information des structures de plus en plus complexes construites par assemblage de structures de plus bas niveau. Cette conception occulte une grande partie du processus perceptif, en particulier dans sa relation à l’espace et dans sa relation à l’action. Toutefois, cette théorie du filtrage de l’information visuelle joue un rôle important dans les premières étapes de traitement et a fait l’objet ces dernières années d’importantes avancées. C’est le premier point auquel nous allons nous intéresser. Nous nous contenterons cependant de résumer schématiquement ces résultats en observant que les codages mis en œuvre dans la rétine et dans le cortex V1 conduisent à séparer luminance et chrominance, à coder les oppositions de couleur et à éclater l’information visuelle selon les modalités de luminance, d’orientation et de couleur dans une gamme assez large de fréquences spatiales.
7Les observations expérimentales montrent que la rétine réalise plusieurs fonctions essentielles : un échantillonnage du signal, une séparation du codage de la couleur et de la luminance et un filtrage de type rehaussement de contours. Pour le traitement de la couleur, on notera que la présence de deux ou trois types de photorécepteurs rétiniens sensibles à des longueurs d’ondes différentes ne permet pas à elle seule de discriminer les couleurs, un photorécepteur répondant de la même façon à un stimulus faiblement lumineux mais optimal pour sa longueur d’onde et à un stimulus sous-optimal mais fortement lumineux. Pour coder les couleurs, une comparaison entre les réponses d’au moins deux types de ces cellules est nécessaire, ce que réalisent les cellules sensibles à des oppositions de couleur.
8Dans le cortex visuel primaire, le schéma instauré par Hubel et Wiesel (1962) a abouti à distinguer les cellules dites « simples », sensibles à un stimulus orienté et à sa phase par rapport au champ récepteur de la cellule, des cellules « complexes », peu sensibles à la phase, et des cellules « hypercomplexes », sensibles aux terminaisons et aux courbures. Adelson et Bergen (1985) ont proposé que les cellules complexes calculent la norme moyenne des sorties des cellules simples dans une région donnée (modèle d’énergie), ce qui explique leur indépendance en phase et la taille plus élevée de leurs champs récepteurs par rapport aux cellules simples. En dépit de cette caractérisation fonctionnelle, ces distinctions n’ont cependant pas de corrélats anatomiques évidents.
9Au-delà de ces aires, les informations de couleur, de disparité binoculaire, d’orientation et de luminance sont recombinées dans V2 et V4, puis dans le cortex inféro-temporal conduisant à des détecteurs de formes complexes. Dans la voie pariétale, le cortex V3 participe au codage du mouvement dont de nombreux modèles ont été proposés (Adelson et Bergen 1985 ; Heeger, Simoncelli et Movshon 1996). Le cortex pariétal fait également l’objet de nombreux travaux montrant, par exemple, que certaines aires pariétales combinent des informations visuelles, attentionnelles et motrices (Avillac, Denève, Olivier, Pouget et Duhamel 2005). Une première approche de la vision consiste donc à retenir, dans une conception ascendante, seulement les aspects de traitement du signal visuel qui conduiraient du signal au sens. Ainsi interprétée, la vision apparaît bien comme un processus de filtrage destiné à extraire du flux visuel une représentation complète de la scène observée, codée de la façon la plus optimale possible.
10Parmi les modèles formels proposés pour mieux cerner les éléments essentiels de ce processus de codage ascendant, on retiendra ceux qui visent à rendre compte de la sélectivité à l’orientation des cellules du corps genouillé latéral et du cortex visuel primaire. Plusieurs modèles ont montré que cette propriété repose sur des principes auto-organisationnels induits par les stimuli (cf. par exemple, Linsker 1986). Cependant, ces modèles demeurent souvent descriptifs et ne permettent pas d’aborder les raisons de fond qui président à l’organisation du système visuel. En d’autres termes, ils ne constituent pas une théorie explicative de cette organisation.
Modèles théoriques et optimisation du codage
11Les considérations récentes qui ont conduit à mettre en évidence des éléments d’une théorie explicative de la vision sont essentiellement de nature écologique. Une première approche explicative des fonctionnalités visuelles se réfère à une série d’hypothèses sur la finalité évolutive des premières étapes de codage. À partir de principes informationnels, on peut s’intéresser à l’efficacité du codage mis en œuvre dans le système visuel. On est alors conduit à considérer ce principe d’efficacité comme un principe d’optimisation permettant de prédire l’agencement du système (Atick et Redlich 1990).
12Cette recherche d’optimalité porte également sur le caractère contraint, par l’organisation physique du monde, des images naturelles et sur leurs propriétés de symétrie et d’invariance (Turiel et Parga 2003). On doit à Attneave (1954) et à Barlow (1983) la formulation de l’idée que l’une des finalités essentielles du codage visuel est de réduire la redondance des images. En présence d’une image naturelle, les réponses des récepteurs rétiniens, de même que les pixels d’une image numérique, sont en effet corrélés et présentent une forte redondance. La distribution statistique des pixels des images naturelles suit une loi d’échelle en I/fa (Field 1989), où/est la fréquence spatiale de l’image, caractéristique des structures auto-similaires. Un codage optimal des scènes capitalisant sur la nature de la distribution statistique des pixels est ainsi possible. Un tel codage maximisant l’indépendance statistique entre ses composantes a été recherché.
13Olshausen et Field (1996), puis Bell et Sejnowski (1997), montrent que les filtres obtenus ont des profils similaires à des filtres d’orientation de Gabor, eux-mêmes assez similaires aux profils de réponse des champs récepteurs des cellules simples. Ainsi, les contours à toutes les échelles sont les éléments essentiels supportant la structure des images naturelles. La statistique de ces images est alors dominée par ces événements rares. Les détecteurs obtenus sont locaux, fournissant une explication à l’existence de champs récepteurs et plus généralement à la rétinotopie de V1. Ils sont équivalents à des transformations en ondelettes, et les coefficients d’ondelettes obtenus constituent un codage clairsemé. Un tel codage a de nombreux avantages, tels que la facilitation du codage dans les mémoires associatives, la lisibilité accrue du code par les autres régions cérébrales et l’économie d’énergie. Olshausen et Field (1997) soulignent cependant le fait que la base d’ondelettes réellement utilisée par V1 est surcomplète, ce qui signifie que V1 réintroduit une certaine redondance permettant l’adaptation fine du codage à des situations variées.
La reconnaissance d’objets et de scènes
14En vision computationnelle, de nombreuses méthodes ont été testées pour la reconnaissance de scènes et d’objets. La recherche s’oriente actuellement vers le codage des éléments à reconnaître dans une scène à l’aide de détecteurs invariants de bas niveau.
Détecteurs invariants et vision computationnelle
15L’approche variationnelle du traitement d’images (Koenderink 1984 ; Perona et Malik 1990) met l’accent sur l’importance des gradients et d’une description multi-échelle dans l’analyse des images. Les implémentations qui en découlent diffèrent des implémentations biologiques mais recouvrent des processus de même ordre. Au-delà de la recherche des éléments les plus pertinents du codage que sont les contours, la description d’une scène nécessite en effet l’existence de représentations invariantes qui vont permettre de coder un objet à différentes échelles, à différentes positions dans le champ visuel et selon différentes vues.
16Afin de pallier la sensibilité à l’occlusion, au changement d’échelle et à la variabilité intrinsèque des vues des modèles fondés sur l’apparence, des travaux ont cherché à mettre au point des détecteurs invariants, en particulier en échelle et en rotation (Schiele et Crowley 2000). L’indépendance entre descripteurs évite le recours à des relations spatiales sensibles à la pose et à l’apparence. Ainsi, un ensemble de descripteurs purement locaux permet d’obtenir une description des images suffisante pour établir une correspondance entre objets appris et parties de scènes visuelles (Lowe 2004).
17La plupart des approches considèrent les gradients comme des descripteurs essentiels (détecteurs SIFT par exemple ; Lowe 2004), en accord avec les modèles précédents qui concluaient que les contours sont les composantes indépendantes des images naturelles (Bell et Sejnowski 1997). Un aboutissement actuel de ces approches est la technique dite de bag of words (Lazebnik, Schmid et Ponce 2006), dans laquelle images et objets sont caractérisés par une collection de traits, par exemple ceux qui peuvent être capturés par des histogrammes multidimensionnels. Ces approches ne font cependant intervenir qu’un seul niveau de codage, ce qui n’est pas en accord avec l’organisation hiérarchique de la voie temporale. Elles ne tiennent pas compte non plus des relations spatiales entre les caractéristiques, ni plus généralement des relations syntaxiques entre les éléments. On peut ainsi s’attendre à ce qu’elles ne capturent que très partiellement les caractéristiques complexes des objets et des scènes visuelles. L’argument selon lequel des informations purement locales ne sont pas toujours suffisantes pour reconnaître un objet a été avancé pour mettre en cause ces approches, parfois par leurs auteurs eux-mêmes (Lazebnik et alii 2006).
Modèles empiriques
18De nombreux modèles empiriques ont tenté de rendre compte de l’aptitude de la perception à opérer de façon indépendante de l’orientation tridimensionnelle de l’objet, mais aussi de la capacité à apprendre rapidement la forme d’un objet à partir d’un petit nombre de vues. Serre, Wolf, Bileschi, Riesenhuber et Poggio (2007) ont proposé un modèle capable d’apprendre à reconnaître aussi bien des objets et des catégories d’objets que des scènes visuelles. Ce modèle met en avant l’existence plausible d’un code universel redondant. Cette approche a été améliorée en prenant en compte le caractère clairsemé du codage (Mutch et Lowe 2008).
19Deux conceptions différentes de la hiérarchie des caractéristiques s’affrontent donc. Pour l’une, les caractéristiques intermédiaires sont constituées de détecteurs de parties d’objets portant une valeur sémantique (Dorkó et Schmid 2003), alors que, pour l’autre, ils consistent en la combinaison non linéaire de détecteurs du niveau précédent sans signification sémantique particulière (Ranzato, Huang, Boureau et LeCun 2007 ; Cadieu et alii 2007). La première approche vise à coder les relations qu’un objet contracte avec ses parties. Toutefois, elle renouvelle l’hypothèse du neurone grand-mère, qui n’est pas acceptable lorsque le nombre d’objets croît de façon importante et ne rend pas compte de notre capacité d’interaction avec des objets nouveaux. Dans la seconde hypothèse, l’existence d’un code redondant de haut niveau invariant en translation et en échelle permet l’apprentissage d’un nombre quelconque d’objets et de scènes. Il n’en demeure pas moins que la façon dont ces détecteurs se combinent pour rendre compte des informations relationnelles entre les éléments d’un objet ou d’une scène reste largement ouverte.
Modèles théoriques
20Une approche intéressante s’est appuyée sur des perceptrons multicouches possédant un nombre élevé de couches intermédiaires (Hinton 2002). Ces réseaux « profonds » considèrent ainsi un système de codage formé d’un réseau de neurones formels organisé en une série de couches selon une architecture feedforward, avec la propriété de reproduire à chaque couche les informations de la couche précédente.
21Le principe inductif présidant à l’apprentissage dans ces réseaux conduit à minimiser la différence entre l’entrée native et l’entrée reconstruite. Hinton (2002) a développé un algorithme d’apprentissage rapide pour ce type de réseau, ouvrant ainsi la voie à l’apprentissage de réseaux profonds multicouches dans des situations réalistes. Ce type d’approche peut être utilisé pour apprendre, à partir d’images, une hiérarchie de caractéristiques clairsemées utilisables pour la reconnaissance d’objets (Ranzato et alii 2007). Une approche similaire (Lee, Ekanadham et Ng 2008) conduit à des détecteurs modélisant de façon assez fidèle les détecteurs d’orientation et de courbure de V1 et de V2. On retrouve dans ces modèles les ingrédients essentiels de la théorie du codage développée précédemment : indépendance et localité des descripteurs, caractère clairsemé du code, mais également codage hiérarchique des caractéristiques de la scène. Le rapprochement entre ces modèles et les modèles empiriques décrits précédemment pourrait ouvrir la voie à une théorie générale du codage perceptif et de la reconnaissance d’objets.
22Une autre classe de modèles cherche à capturer les fonctionnalités essentielles du système visuel par une approche bayésienne générique sans référence à son organisation. Ces modèles sont aptes à capturer l’essence des phénomènes sans toutefois avoir la capacité explicative des modèles précédents. Déjà, selon Helmholtz (1867), la perception résulterait d’un équilibre entre expérience statistique a priori des structures présentes dans le monde et informations sensorielles. De tels modèles permettent la prise en compte d’informations contextuelles, depuis le contexte spatial – l’environnement visuel qui entoure immédiatement la vue d’un objet (Torralba 2003) – jusqu’à des connaissances a priori concernant la nature de la tâche à réaliser, l’histoire personnelle de l’observateur ou les caractéristiques du monde dans lequel il évolue. La projection rétinienne bidimensionnelle d’objets par nature tridimensionnels engendre, par exemple, des ambiguïtés qui ne peuvent être levées qu’à l’aide de connaissances ne provenant pas de la scène elle-même. Le processus d’inférence bayésienne modélise bien ce genre de situations en considérant la perception visuelle comme un problème mal posé qui nécessite le recours à des connaissances préalables afin de contraindre l’unicité de la solution (Kersten, Mamassian et Yuille 2004). Ces modèles n’expliquent cependant pas l’implémentation des mécanismes qu’ils modélisent. Certains travaux proposent des implémentations neuronales des processus bayésiens qui seraient à l’œuvre dans le système nerveux, visant ainsi à faire un lien entre modèles phénoménologiques et modèles explicatifs (cf. Knill et Pouget 2004).
23Les modèles de reconnaissance d’objets précédemment décrits n’envisagent pas le recours à une phase attentionnelle. Comme nous l’avons mentionné, de ce point de vue, ils sont purement locaux et ne font intervenir aucune ségrégation entre les éléments de la forme et les éléments du fond. Un mécanisme supplémentaire est nécessaire pour réaliser cette ségrégation et le liage des éléments spécifiques afin de faciliter la reconnaissance d’objets. L’objectif de la section suivante est de présenter ces différents mécanismes attentionnels et leur rôle dans la perception visuelle.
L’attention
Modèles pré-attentionnels
24Bien que le système visuel ait la capacité de traiter en parallèle l’information qui lui parvient, la recherche d’un objet particulier dans une scène résulte d’un processus décisionnel à l’issue d’une phase d’exploration. Ce processus est influencé par la tâche à réaliser et par le contexte (Yarbus 1967). L’un des points essentiels est de savoir pourquoi et comment le système visuel réduit cette phase d’exploration de la scène. Deux points sont à prendre en considération : la capacité, éventuellement limitée, du système visuel à traiter l’information et la complexité intrinsèque de la tâche de recherche à réaliser pour identifier dans la scène les composantes en relation avec les attentes de l’observateur et les buts qu’il poursuit.
25Au sein même du processus visuel, on distingue la pré-attention, processus ascendant guidé par les données et fondé sur la saillance intrinsèque des stimuli, et l’attention proprement dite, processus descendant modulé par le contexte, les attentes et les buts de l’observateur. Le terme d’attention sélective distingue l’ensemble des processus attentionnels des mécanismes liés de façon non spécifique à la notion d’éveil. On distingue par ailleurs un type d’attention dans laquelle l’élément saillant est une localisation (attention spatiale) d’un type d’attention dans laquelle l’élément saillant est associé aux caractéristiques de l’objet. D’un point de vue fonctionnel, on observe des modulations attentionnelles de l’activité des neurones dans l’aire V4 (Moran et Desimone 1985), mais également dans V2 et V1 (Motter 1993). La voie dorsale est également affectée par ces modulations en relation avec l’attention spatiale (Rushworth, Nixon, Renowden, Wade et Passingham 1997 ; cf. aussi Itti, Rees et Tsotsos 2005, pour une revue des mécanismes attentionnels).
26On doit à Treisman (1988) une théorie complète de l’attention sélective fondée sur l’idée que le système visuel code les stimuli selon des caractéristiques élémentaires similaires aux codages précoces observés dans le cortex visuel (couleur, orientation, disparité binoculaire et mouvement). Le modèle dérivé postule l’existence d’une carte de saillance intégrant ces caractéristiques. L’observation, pour des cibles définies par une conjonction de caractéristiques simples, d’une dépendance linéaire du temps d’identification par rapport au nombre de distracteurs a conduit à la métaphore du projecteur de l’attention, un processus qui examinerait de façon séquentielle les positions de la carte de saillance à la recherche de la cible. Cette théorie est à l’heure actuelle la théorie dominante en ce qui concerne l’attention spatiale.
27Parallèlement aux travaux des psychologues et des neurobiologistes, au début des années 1990, plusieurs chercheurs en vision artificielle mettent en avant le concept de vision active (Aloimonos 1993 ; Bajcsy 1988) et construisent des dispositifs constitués de caméras mobiles pouvant rechercher activement une information dans une scène visuelle. Dès lors se pose la question d’une définition formelle de la saillance, ces dispositifs étant essentiellement guidés par la saillance de la scène. Les définitions envisagées sont très nombreuses, mais bon nombre d’entre elles demeurent encore vagues (cf. Itti et alii 2005, pour une revue).
28Le modèle pré-attentionnel actuellement le plus populaire est celui d’Itti et Koch (2000). Il implémente l’essentiel des éléments de la théorie de l’intégration des caractéristiques. Cependant, dans ce modèle, les cibles sont identifiées de façon passive, leurs caractéristiques ne prenant pas de part active au calcul de la saillance. La stratégie d’exploration d’une scène diffère ainsi très rapidement de la stratégie observée chez des humains, qui explorent la scène selon ses caractéristiques sémantiques, ce qui souligne la nécessité de prendre en compte les informations descendantes. Le modèle de Wolfe, Cave et Franzel (1989) est l’une des premières tentatives pour modéliser l’attention visuelle descendante. Il prend en compte les caractéristiques de la cible cherchée pour biaiser un modèle ascendant de calcul de saillance fondé sur la théorie de Treisman.
Le rôle de l’attention dans la reconnaissance d’objets
29Dans une tentative pour lier pré-attention et sélection sémantique, Machrouh, Liénard et Tarroux (2001) montrent que les points de focalisation obtenus à l’aide d’un modèle ascendant permettent de sélectionner des régions d’une scène selon leurs caractéristiques sémantiques lorsque les instances de ces régions présentent des caractéristiques visuelles voisines. De leur côté, Walther et Koch (2006) cherchent à montrer comment un modèle ascendant permet de sélectionner des régions d’intérêt ciblées sur des objets potentiels (proto-objets). Afin de proposer un mécanisme d’implémentation plausible des processus attentionnels, Niebur et Koch (1994) ont développé un modèle neuronal fondé sur la synchronisation des activités dans le cortex V4 qui reproduit quantitativement les expériences de Moran et Desimone (198 5). La sélection de la localisation s’appuie sur une carte de saillance construite à partir des oppositions de couleur (V1, V2), de l’orientation (V1) et du mouvement (V3). Les auteurs proposent que cette carte se projette sur le cortex V4, permettant ainsi à l’attention spatiale qu’elle implémente de favoriser le traitement des formes présentes à la position correspondant à la saillance maximale.
30Les modèles précédents se focalisent essentiellement sur l’attention spatiale et la capacité qu’elle a de favoriser les objets présents à une localisation particulière. Une autre forme d’attention, en relation avec les caractéristiques des objets, semble moduler les neurones du cortex visuel (Maunsell et Treue 2006). Dans ce mode, l’activité des neurones sensibles à des caractéristiques voisines de celles d’un stimulus situé à une position spatiale attendue est augmentée. Divers modèles tentent de combiner les caractéristiques des objets à rechercher avec la sélection de localisations préférentielles où chercher ces objets (cf. Hamker 2004). Pour une revue, on pourra consulter Koch (2004) et également Mozer et Vecera (2005), qui proposent un modèle unifié de l’attention spatiale et de l’attention aux objets et montrent que des résultats expérimentaux sont en faveur d’un modèle attentionnel de liage au bas niveau des caractéristiques élémentaires.
31Partant de la constatation que le contexte peut être une source riche d’informations perceptives, Torralba (2003) a proposé un modèle probabiliste qui montre comment la connaissance du contexte visuel immédiat peut être utilisée pour faciliter la recherche et la reconnaissance d’un objet. De telles connaissances contextuelles sont alors mises à profit pour diriger l’attention vers les régions de la scène où la présence de l’objet est la plus probable. Le modèle est en accord avec les fixations observées chez des observateurs humains recherchant le même type d’objet.
Rôle et justification de l’existence de processus attentionnels
32La première justification de l’existence de mécanismes attentionnels est la supposée limitation de capacité du système visuel, qui imposerait un choix parmi les stimuli pour éviter une saturation (Broadbent 1971). Parmi les premiers à avoir remis en cause cette vision, Allport (1989) envisage que les mécanismes attentionnels aient évolué pour satisfaire un ensemble de finalités biologiques ou computationnelles plutôt que sous la contrainte d’une trop grande quantité d’information à traiter. Allport oppose ainsi à la théorie de Broadbent une conception qui place l’attention et le besoin d’un système de sélection au niveau du contrôleur (entre perception et action par exemple).
33Cette organisation, si elle reposait seulement sur la sélection, à un niveau post-sémantique, d’une partie de l’information, pourrait encore s’expliquer par une contrainte informationnelle. Allport conçoit en fait ce mécanisme comme le résultat d’une sélection positive par l’évolution, et non comme le résultat d’une limitation. Pour Allport, la cohérence comportementale est la finalité principale du processus attentionnel. Un comportement cohérent implique l’assignation de priorités et une coordination à différents niveaux (motivationnel, cognitif, moteur, sensoriel). Dans ces conditions, le processus attentionnel, élément essentiel de la cohérence comportementale, peut être la cible de la sélection naturelle. Il ne s’agit plus d’un processus imposé par une quelconque limitation interne du système sans référence à l’environnement sensoriel et comportemental, mais d’une aptitude incarnée en relation étroite avec la spécification des buts et des motivations de l’individu.
34En accord avec cette théorie, Rimey et Brown (1992) proposent un modèle de tâche orientée vision construit à l’aide de réseaux bayésiens. Ce modèle permet de sélectionner, d’une façon orientée par la tâche, les éléments pertinents pour l’action en cours. Il est à rapprocher des résultats de Hayhoe, Droll et Mennie (2007), qui observent une modulation des fixations attentionnelles en fonction de la tâche en cours dans une tâche similaire à celle de Rimey et Brown (localisation d’éléments du couvert sur une table). Selon une autre approche (Tsotsos 1992), c’est la complexité intrinsèque des tâches visuelles qui conduit à justifier l’existence de processus attentionnels comme étant le seul moyen de résoudre un problème perceptif par ailleurs intraitable au sens computationnel. Tsotsos montre que la résolution du problème passe par la limitation de l’exploration de la scène à un petit nombre de positions, justifiant ainsi les mécanismes attentionnels sans pour autant faire appel à une hypothèse de limitation de capacité. Il en est de même si ce sont les caractéristiques de l’objet qui servent à le rechercher.
35Dans la ligne de cette analyse en termes de complexité, Tsotsos et alii (1995) ont proposé un modèle fondé sur la notion de selective tuning. Le modèle reprend l’analyse théorique précédente pour conclure à la nécessité d’une sélection des caractéristiques à rechercher et à la définition de régions d’intérêt. Il introduit également l’idée d’une hiérarchie de traitements nécessaire pour simplifier le traitement du flux informationnel, ainsi que l’idée qu’un processus attentionnel arbitre en permanence entre un processus dirigé par les données et un processus orienté par la tâche. Cet arbitrage est réalisé par la mise en œuvre de deux flux d’information, une pyramide de traitements ascendants et une hiérarchie de winner-take-all descendante. La recherche d’un objet guidée par l’attention implémenterait ainsi un processus inférentiel d’hypothèse et de test qui, comme dans la proposition d’Allport, peut être la cible de l’évolution. Considérer que l’attention est au centre d’un mécanisme d’inférence dont la finalité essentielle est la constitution, puis la validation d’hypothèses d’interprétation de la scène observée, rejoint encore une fois l’intuition de Helmholtz (1867) lorsque celui-ci proposait de considérer la perception comme un processus inférentiel.
36La plupart des modèles précédents sont mis en œuvre dans des tâches de reconnaissance statique où la relation entre perception et action ne joue pas de rôle. Des approches montrent que le rôle de l’attention devient crucial dans des tâches qui supposent une organisation temporelle de l’acquisition des informations visuelles. C’est en particulier le cas des modèles qui visent une implémentation robotique (Lee, Buxton et Feng 2005), ou plus généralement qui visent à rendre compte de l’usage de l’attention dans un contexte comportemental et écologique en relation avec une tâche particulière (Hayhoe et alii 2007). Ces observations et ces modèles privilégient ainsi la relation entre l’ordre temporel des fixations oculaires et la planification motrice. En permettant un couplage harmonieux entre information sensorielle et planification motrice, le rôle de l’attention dépasse bien la question de la limitation de capacité. Le processus attentionnel s’inscrit ainsi dans le processus dynamique induit par le comportement et participe à la cohérence de ce comportement.
Perception et action
Perception pour l’action
37Dans une conception située, perception et action sont intimement liées. La perception fournit des éléments pour l’action et, en retour, la perception est influencée par l’action. Dans ce contexte, nous examinons dans un premier temps les modèles qui permettent de sélectionner l’action à réaliser en fonction des perceptions que le système reçoit, puis ceux qui permettent de construire une représentation de l’environnement au cours de l’action. Compte tenu des incertitudes de perception et de position, les modèles appropriés sont encore une fois des modèles probabilistes. Cette classe de modèles s’étend des simples modèles de décision à ceux qui construisent un système de sélection de l’action sur la base d’un apprentissage par renforcement dans des conditions d’observabilité limitée (Kaelbling, Littman et Cassandra 1998).
38O’Reilly (1996) propose de modéliser l’interaction perceptive avec le monde extérieur comme l’apprentissage d’un modèle interne du monde et en particulier d’un modèle d’anticipation à partir d’observations imparfaites sur l’état du monde. La perception est alors conçue comme un processus d’estimation et de prédiction de l’état de l’environnement à partir d’observations incomplètes. Les modèles qui visent, toujours sur la base d’observations incomplètes, à localiser un robot tout en construisant la carte de son environnement au cours d’une exploration (SLAM ; Durrant-Whyte et Bailey 2006) sont les héritiers directs de ces propositions. Au-delà de la simple localisation spatiale à partir d’amers visuels qui conduit à établir une cartographie de l’environnement, se pose la question de l’identification des lieux visités. Là encore, les méthodes bayésiennes, éventuellement combinées à des mécanismes attentionnels, permettent de développer des modèles pertinents (Guillaume 2009). Au-delà de ces réalisations, on peut désormais envisager la programmation complète d’un contrôleur robotique, depuis les mécanismes de filtrage et de codage de l’information jusqu’aux processus de sélection de l’action, le tout incluant des possibilités d’apprentissage sous Tunique paradigme de l’approche bayésienne (Thrun 2000).
Perception dans l’action
39Avec l’objectif de défendre l’idée d’une perception active, Gibson (1966) détermine deux manières possibles de concevoir les sens. Soit les sens sont des canaux de sensations, essentiellement passifs, qui sont à l’origine des qualités de l’expérience. Soit ils sont des systèmes perceptifs, essentiellement actifs, qui extraient des informations sources de connaissances sur le monde. Pour Gibson, la perception visuelle n’est pas fondée sur la sensation visuelle, mais sur l’information contenue dans les propriétés structurelles invariantes des stimuli : percevoir, c’est extraire, grâce aux mouvements, cette information en en détectant les invariants. L’hypothèse que les objets de notre perception ne sont pas à proprement parler les invariants de la sensation, mais plutôt les invariants de cercles sensorimoteurs inséparables de l’activité de l’observateur, a été développée en psychologie (O’Regan et Noë 2001 ; Varela, Thompson et Rosch 1991), en philosophie (Merleau-Ponty 1945), et s’est étendue à de nombreux champs de recherches théoriques, scientifiques et technologiques tels que la cognition située, la robotique autonome (Brooks 1991 ; Gaussier, Moga, Banquet et Quoy 1998) et l’ergonomie. Ainsi, la reconnaissance d’un objet serait fondée sur le rôle de cet objet comme attracteur d’une dynamique comportementale, et non sur ses propriétés intrinsèques (Schöner, Dose et Engels 1995). Des modèles théoriques ont démontré que l’interaction avec le monde permet d’acquérir des connaissances sur celui-ci (Philipona, O’Regan et Nadal 2003). Ces positions rejoignent celles de Prochiantz (1997), selon qui le cerveau antérieur s’est développé en réponse au besoin de complexification de boucles sensorimotrices, et celles de Berthoz (1997), qui met en avant la construction par l’action et dans l’action des capacités cognitives.
40Cette conception de la perception comme constituée de boucles sensorimotrices fait écho à celle d’Uexküll (1965 [1934]) en éthologie. Pour cet auteur, il est possible de caractériser le « monde propre » (Umwelt) de chaque être sur la base des boucles sensorimotrices qui constituent sa relation au monde. Il donne l’exemple du monde propre de la tique en se fondant sur trois boucles sensorimotrices et souligne que ce monde propre se réduit à ces trois cercles fonctionnels. La caractérisation des mondes propres des individus sur la base des couplages sensorimoteurs qui caractérisent leur relation au monde a également été employée pour évoquer le monde propre des nourrissons (Stern 1989).
Illustrations en psychologie expérimentale
41Le lien indissociable entre la perception et l’action s’illustre notamment par la plasticité du système nerveux, sa capacité à modifier durablement sa propre structure en acquérant des possibilités nouvelles de fonctionnement. Les changements ont lieu sous l’effet de conditions imposées par l’environnement et ils peuvent s’observer soit lors de la maturation du système au cours de son développement, soit ultérieurement, lorsque la structure est stabilisée en fin de croissance.
42Le rôle de la motricité de l’organisme sur la mise en place des structures de fonctionnement perceptif lors du développement est illustré par les travaux de Held et Hein (1963). Les auteurs ont élevé des chatons dans l’obscurité pendant plusieurs semaines après la naissance. À partir de la quatrième semaine, les chatons sont placés par paire, trois heures par jour, dans un manège éclairé constitué visuellement de lignes verticales. Un des chatons est attelé à l’une des branches du manège et il entraîne par son mouvement locomoteur l’autre chaton suspendu dans une nacelle à l’autre branche du manège. Les deux chatons ont donc la même expérience visuelle, sauf qu’elle est associée à une exploration active pour l’un et à un transport passif pour l’autre. Après une période d’habituation, le chaton actif présente un comportement visuo-moteur normal. En revanche, le chaton passif présente des déficits visuo-moteurs : il bute contre les obstacles, tombe à l’extrémité des tables et est incapable de diriger correctement le mouvement de ses pattes pour les poser sur un support solide. Ce chaton n’est pas à proprement parler aveugle : il est capable d’identifier des formes, mais il est incapable de localiser ces formes dans un espace constitué. Le chaton passif n’a pas constitué son espace des lieux. Il ne dispose pas des repères spatiaux nécessaires à l’orientation correcte de ses activités motrices. Le rôle de l’activité sur l’organisation de l’espace sensorimoteur a été confirmé par de nombreux travaux ultérieurs. Pour en donner un exemple, Hein et Held (1967) ont montré qu’un chaton empêché par une collerette opaque de voir ses membres antérieurs construit correctement son espace locomoteur. Cependant, il se révèle incapable de guider visuellement le mouvement de ses pattes. En particulier, il ne présente pas d’extension réflexe des pattes avant lorsqu’on l’approche d’une surface d’appui.
43Le rôle de la vision du corps en mouvement dans l’établissement de relations visuo-motrices coordonnées a également été étudié chez l’homme, notamment lors d’expériences d’adaptation prismatique. Lorsqu’on demande à un observateur adulte de pointer vers une cible visuelle alors que l’espace visuel est déplacé par le port de lunettes prismatiques, la personne manque la cible, puisque le prisme dévie les rayons lumineux. On permet ensuite pendant quelques minutes à la personne de déplacer activement sa main devant les prismes en contrôlant la position finale de sa main. Puis, lors de la phase de test, on lui demande de pointer de nouveau vers la cible sans le contrôle de la position finale de sa main, c’est-à-dire sans pouvoir apprécier son erreur éventuelle. La personne pointe alors correctement vers la cible. Elle a donc réajusté son programme moteur. En revanche, si, au cours de la phase d’adaptation, au lieu d’un déplacement actif, c’est l’expérimentateur qui déplace passivement la main de l’observateur, il n’y a pas de réorganisation des programmes moteurs. Lors de la phase de test, l’observateur continue de pointer incorrectement vers la cible visuelle lorsqu’il ne peut voir la position finale de sa main (Paillard et Brouchon 1968).
44Une autre expérience intéressante d’adaptation a été mise au point par Kohler (1951), qui a porté un appareil optique qui inverse l’image rétinienne de telle sorte que le monde apparaît inversé haut/bas et droite/gauche. Kohler et les personnes qui ont répliqué cette expérience se sont adaptés au bout de quelques jours. Après deux semaines, ils sentent que leur monde visuel est normal de nouveau. Ce qui est intéressant, c’est que durant le cours de l’adaptation, la perception du monde est sujette à une sorte de fragmentation et à une dépendance au contexte et à la tâche. Certains objets sont redressés, mais il demeure des ambiguïtés et des inconsistances. Par exemple, certains éléments tels que les plaques de voiture restent inversés. Cette expérience suggère que l’orientation et la localisation d’objets dans le champ visuel peuvent être définies par rapport à de multiples référents et de multiples tâches, et chaque tâche s’adapte indépendamment, en fonction des actions sur les objets perçus.
Perception visuelle et multisensorialité
Exemples en psychologie expérimentale
45Jusqu’à présent, nous avons abordé les mécanismes de bas niveau et de haut niveau caractérisant la perception visuelle. Cependant, la vision ne doit pas être considérée comme isolée des autres modalités sensorielles. En ce qui concerne la mémoire à court terme, il a été suggéré que les informations provenant d’une scène visuelle ne sont pas stockées pour une utilisation ultérieure (rappel ou comparaison) selon un format spécifique à la modalité de présentation des stimuli, mais que certaines propriétés sont extraites et représentées selon un format abstrait ou amodal (Irwin et Andrews 1996). En ce qui concerne les mécanismes attentionnels, de nombreuses études ont montré que l’attention spatiale est déterminée de manière multisensorielle. Ainsi, la présentation d’un stimulus dans une modalité sensorielle (par exemple, le toucher) capture l’attention de manière exogène de telle sorte que cela facilite le traitement de stimuli provenant d’autres modalités sensorielles (comme la vision ou l’audition) présentés au même emplacement (cf. Spence, McDonald et Driver 2004, pour une revue).
46Les tâches de détection de changements, et en particulier le paradigme de la cécité aux changements intermodale, permettent de comprendre quelles sont les similitudes et les différences des mécanismes d’encodage de l’information présentée à travers différentes modalités sensorielles, ainsi que le caractère multisensoriel de notre attention spatiale. Le phénomène de cécité aux changements se produit lorsqu’une perturbation introduite au sein de la scène perçue au moment du changement empêche les observateurs de détecter ce changement, bien que cette modification puisse être d’importance et parfaitement détectable dans des conditions normales de perception. Ce phénomène a été mis en évidence pour les modalités visuelles, tactiles et auditives (cf. par exemple, Auvray et O’Regan 2003 ; Gallace, Tan et Spence 2006 ; Vitevitch 2003). Le phénomène de cécité aux changements se produit aussi lorsque les perturbations sont présentées dans une autre modalité sensorielle que la scène au sein de laquelle a lieu le changement. En effet, les participants échouent à détecter la présence d’un changement de position entre deux scènes vibrotactiles présentées sur la surface du corps, non seulement lorsque des perturbations vibrotactiles sont utilisées pour masquer le changement, mais aussi lorsque des perturbations visuelles sont utilisées (Gallace, Auvray, Tan et Spence 2006). En revanche, dans les mêmes conditions de présentation, des distracteurs vibrotactiles n’entraînent pas de cécité aux changements visuels (Auvray, Gallace, Tan et Spence 2007) et des distracteurs auditifs n’entraînent pas de cécité aux changements tactiles (Auvray, Gallace, Hartcher-O’Brien, Tan et Spence 2008).
47Des travaux ont aussi exploré la possibilité d’une cécité aux changements intermodale, c’est-à-dire lorsque les deux ensembles de stimulations à comparer sont présentés dans deux modalités sensorielles différentes, l’une visuelle et l’autre tactile. Les résultats montrent qu’en l’absence de masque, les participants peuvent détecter avec précision les changements de position, bien que les deux ensembles de stimulations à comparer soient présentés dans deux modalités sensorielles différentes. En revanche, lorsqu’un masque est introduit entre ces deux ensembles de stimulations, une cécité aux changements survient de manière similaire, que le masque soit visuel ou tactile (Auvray et alii 2007). En résumé, la possibilité de comparer des positions à travers différentes modalités sensorielles suggère que certaines des informations requises pour comparer des emplacements spatiaux sont stockées selon un format amodal. En revanche, les asymétries dégagées dans les mécanismes de détection de changements laissent à penser que certaines des informations sont encodées selon un cadre de référence spécifique à chaque modalité sensorielle (par exemple, rétinotopique pour la vision).
Modèles
48Les modèles formels de perception multimodale sont à mettre en relation avec la question centrale de la combinaison de capteurs en robotique. De nombreuses propositions ont été faites pour agréger les informations provenant de diverses sources de données. La prise en compte de l’incertitude liée au caractère bruité des capteurs a conduit aux approches bayésiennes de fusion multimodale (Singhal et Brown 1997). Les principes de maximisation de l’information mutuelle permettent, par exemple, de lier les images d’un couple stéréoscopique. On peut également de cette façon fusionner des données visuelles et proprioceptives dans une tâche de manipulation d’objets guidée par la vision. Prodanov, Drygajlo, Richiardi et Alexander (2008) proposent un système d’interaction multimodale avec fusion d’informations provenant à la fois de détecteurs de présence, de la vision et d’une analyse de la parole pour un robot en interaction avec des humains réalisant des tâches de dialogue.
49Avillac et alii (2005) soulignent le fait que notre perception du monde est essentiellement multimodale, combinant par exemple des informations visuelles, auditives et proprioceptives. Ces modalités sensorielles se fondent sur différents cadres de référence. L’approche bayésienne ne prend pas en compte la diversité des cadres de référence dans lesquels ces modalités s’expriment. En créant des liens intermodaux dans les fonctions de base qu’ils utilisent pour rendre compte des cadres de référence, ces auteurs montrent comment combiner multisensorialité et cadres de référence multiples. Leur modèle suggère que l’intégration multisensorielle est fondée sur un dialogue entre modalités plutôt que sur la convergence de l’ensemble des informations sensorielles dans un modèle unique.
Conclusions
Les trois approches de la modélisation
50On voit ainsi se dessiner trois approches de la modélisation : théorique, visant à révéler les principes fondamentaux sous-jacents au processus perceptif ; empirique, visant à comprendre l’implémentation de ces principes ; et phénoménologique, visant à rendre compte de la complexité des processus. Les premiers modèles développés convergent vers l’existence d’un alphabet de formes mis en place durant le développement et dont les combinaisons permettent le codage des formes qui nous entourent. Ils apportent des preuves de l’influence du contexte sous ses divers aspects dans le processus visuel. Les modèles théoriques ont ensuite permis de faire le lien avec les domaines de la modélisation et du traitement des données parfois a priori très éloignés (la séparation de sources pour le codage ou la mécanique des fluides pour la théorie de l’espace échelle).
51On assiste à un usage croissant de modèles bayésiens permettant de gérer les situations d’incertitude et l’incomplétude, de réaliser une modélisation phénoménologique des processus malgré tout fondée sur des principes éprouvés et de produire des modèles robustes et simples d’utilisation. On est ainsi passé progressivement de modèles ponctuels de tel ou tel processus à une théorie générale de l’inférence, de l’apprentissage et de la programmation bayésienne. Ces modèles apportent un cadre de description et des possibilités de combinaison de l’information unifiés. Dans un contexte robotique, ils font écho aux approches bayésiennes de la localisation, de la sélection de l’action, de la planification et de la programmation robotique.
52Une question reste cependant ouverte : le cerveau est-il bayésien ? En d’autres termes, ces modèles sont-ils une bonne représentation des processus mis en œuvre dans le système nerveux et, si tel est le cas, comment sont-ils implémentés ? Comme nous l’avons vu, des travaux visent à répondre à cette question (cf. par exemple Doya, Ishii, Pouget et Rao 2007). Cependant, quel que soit le paradigme dans lequel on se place, le caractère situé de la perception, ainsi que la construction de capacités cognitives dans une interaction constante avec le monde, imposent que le système qui met en œuvre le modèle soit en interaction avec le monde. Par conséquent, seuls les modèles implémentés dans des systèmes robotiques permettent de mettre en œuvre de véritables capacités perceptives, de vérifier la pertinence des modèles et leur adaptation dans un environnement donné. Toute autre voie aboutit à fournir a priori les structures du monde et à les vider ainsi de leur sens.
La perception comme processus global et situé
53On ne peut pas réduire la reconnaissance d’objets ou de scènes à un simple problème de catégorisation. La catégorie conceptuelle ne peut être donnée a priori car une véritable reconnaissance passe par le fait d’identifier cette catégorie dans ses fonctionnalités et ses usages et pas seulement au travers des attributs visuels qui la caractérisent. Le cadre de l’apprentissage supervisé doit ainsi être dépassé pour placer le système en situation où le concept émerge selon des critères d’utilité et de fonctionnalité en relation avec une rétribution.
54La perception est un état global qui ne peut être appréhendé que de façon holistique. Les éléments sur lesquels elle est fondée sont susceptibles d’être formalisés séparément, mais la perception est le résultat de leur mise en commun adéquate au sein d’un système comportemental et non par l’intervention du raisonnement. Il y a donc bien une nécessaire unité de la perception, qui ne se conçoit à la fois que dans son rapport à l’expérience sensible et en lien avec les différentes modalités sensorielles qui se rattachent à un perçu donné (Dokic 2004). Merleau-Ponty souligne le caractère nécessairement situé de la perception. Selon lui, elle résulte d’un rapport au monde pas uniquement construit par l’entendement, mais construit par « un être qui y est jeté et qui y est attaché comme par un lien naturel » (Merleau-Ponty 1996 [1948] : 68).
55La conception interactionniste et constructiviste de la perception conduit à considérer que les fonctionnalités des systèmes perceptifs ont émergé du processus évolutif à l’issue de mécanismes d’optimisation. C’est en particulier visible lorsqu’on analyse la façon dont le cortex visuel primaire code l’information qui lui parvient. Toutefois ce processus d’optimisation a la particularité d’être sous-tendu par un processus évolutif qui ne génère pas des solutions à des problèmes posés a priori, mais adapte des solutions découvertes par hasard à des situations particulières. La multiplicité des solutions ainsi produites démontre qu’il ne faut pas chercher dans la perception ou dans les capacités cognitives la solution à un problème général. De ce point de vue, la tique d’Uexküll est une solution tout aussi satisfaisante que nos cerveaux capables de performances cognitives élaborées. L’Umwelt est spécifique de l’espèce. Ainsi, c’est en s’interrogeant sur la nature des problèmes qu’un système donné est capable de résoudre plutôt que sur la façon de construire un système en vue de résoudre un problème donné a priori qu’on parviendra à comprendre quelles dispositions sont nécessaires en face de telle ou telle contrainte écologique.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références bibliographiques
10.1364/JOSAA.2.000284 :Adelson, E. H. et Bergen, J. R., 1985. « Spatiotemporal energy models for the perception of motion », Journal of the Optical Society of America A, 2 (2) : 284-299.
Agre, P. E., 1988. « The dynamic structure of everyday life », thèse de doctorat non publiée, Boston (Mass.), MIT.
Allport, A., 1989. « Visual attention », in Μ. I. Posner (éd.), Foundations of Cognitive Science, Cambridge (Mass.), The MIT Press (Bradford Books) : 631-682.
10.4324/9780203773178 :Aloimonos, Y. (éd.), 1993. Active Perception, Hillsdale (N.J.), Erlbaum.
10.1162/neco.1990.2.3.308 :Atick, J. J. et Redlich, A. N., 1990. « Towards a theory of early visual Processing », Neural Computation, 2 (3) : 308-320.
10.1037/h0054663 :Attneave, F., 1954. «Some informational aspects of visual perception», Psychological Review, 61 (3): 183-193.
10.1016/j.brainres.2008.03.015 :Auvray, M., Gallace, A., Hartcher-O’Brien, J., Tan, H. Z. et Spence, C., 2008. « Tactile and visual distractors induce change blindness for tactile stimuli presented on the fingertips », Brain Research, 1213 : 111-119.
10.1016/j.actpsy.2006.10.005 :Auvray, M., Gallace, A., Tan, H. Z. et Spence, C., 2007. « Crossmodal change blindness between vision and touch », Acta Psychologica, 126 (2) : 79-97.
10.3406/psy.2003.29621 :Auvray, M. et O’Regan, J. K., 2003. « L’influence des facteurs sémantiques sur la cécité aux changements progressifs dans les scènes visuelles », L’Année psychologique, 103 (1) : 9-32.
10.1038/nn1480 :Avillac, M., Denève, S., Olivier, E., Pouget, A. et Duhamel, J.-R., 2005. « Reference frames for representing visual and tactile locations in parietal cortex », Nature Neuroscience, 8 (7) : 941-949.
10.1109/5.5968 :Bajcsy, R., 1988. «Active perception», Proceedings of the IEEE, 76 (8): 996-1005.
10.1007/978-3-642-68888-1 :Barlow, H. B., 1983. « Understanding natural vision », in O. J. Braddick et A. C. Sleigh (éd.), Physical and Biological Processing of Images, Berlin, Springer : 2-14.
10.1016/S0042-6989(97)00121-1 :Bell, A. J. et Sejnowski, T. J., 1997. « The “independent components” of natural scenes are edge filters », Vision Research, 37 (23) : 3327-3338.
Berthoz, A., 1997. Le sens du mouvement, Paris, Odile Jacob (Sciences).
Broadbent, D. E., 1971. Decision and Stress, Londres, Academic Press.
10.1016/0004-3702(91)90053-M :Brooks, R. A., 1991. «Intelligence without representation», Artificial Intelligence, 47 (1-3): 139-159.
Cadieu, C., Kouh, M., Pasupathy, A., Connor, C. E., Riesenhuber, M. et Poggio, T, 2007. « A model ofV4 shape selectivity and invariance », Journal of Neurophysiology, 98 (3) : 1733-1750.
Dokic, J., 2004. Qu’est-ce que la perception ? Paris, Vrin (Chemins philosophiques).
10.1109/ICCV.2003.1238407 :Dorkó, G. et Schmid, C., 2003. « Selection of scale-invariant parts for object class recognition », in Proceedings of the 9th IEEE International Conference on Computer Vision (ICCV2003), Los Alamitos (Calif.), IEEE Computer Society, vol. 1 : 634-640.
10.7551/mitpress/9780262042383.001.0001 :Doya, K., Ishii, S., Pouget, A. et Rao, R. P. N. (éd.), 2007. Bayesian Brain : Probabilistic Approaches to Neural Coding, Cambridge (Mass.), The MIT Press.
Durrant-Whyte, H. et Bailey, T, 2006. « Simultaneous localization and mapping (SLAM) : Part I. The essential algorithms », Robotics and Automation Magazine, 13 (2) : 99-110.
10.1007/978-1-4899-0897-1 :Ewert, J.-P. et Arbib, Μ. A., 1989. Visuomotor Coordination : Amphibians, Comparisons, Models, and Robots, New York, Plenum Press.
10.1117/12.952724 :Field, D. J., 1989. «What the statistics of natural images tell us about visual coding», Proceedings of SPIE, the International Society for Optical Engineering, 1077: 269-276.
10.1016/j.neulet.2006.01.009 :Gallace, A., Auvray, M., Tan, H. Z. et Spence, C., 2006. « When visual transients impair tactile change detection : A novel case of cross-modal change blindness ? » Neuroscience Letters, 398 (3) : 280-285.
10.3758/BF03193847 :Gallace, A., Tan, H. Z. et Spence, C., 2006. « The failure to detect tactile change : A tactile analog of visual change blindness », Psychonomic Bulletin and Review, 13 (2) : 300-303.
Gaussier, P, Moga, S., Banquet, J.-P et Quoy, M., 1998. « Front perception-action loops to imitation processes : A bottom-up approach of learning by imitation », Applied Artificial Intelligence, 12 (7-8) : 701-727.
Gibson, J. J., 1966. The Senses Considered as Perceptual Systems, Boston (Mass.), Houghton Mifflin.
Guillaume, H., 2009. « Explorer pour reconnaître : approche probabiliste pour la reconnaissance visuelle de lieux par un robot mobile », thèse de doctorat non publiée, Orsay, Université Paris-Sud-11.
10.1016/j.visres.2003.09.033 :Hamker, F. H, 2004. «A dynamic model of how feature cues guide spatial attention», Vision Research, 44 (5): 501-521.
10.1016/0167-2789(90)90087-6 :Harnad, S., 1990. «The symbol grounding problem», Physica D, 42 (1-3): 335-346.
10.1016/B978-008044980-7/50032-X :Hayhoe, M., Droll, J. et Mennie, N., 2007. « Learning where to look », in R. P. G. van Gompel, M. H. Fischer, W. S. Murray et R. L. Hill (éd.), Eye Movements : A Window on Mind and Brain, Oxford, Elsevier : 641-660.
10.1073/pnas.93.2.623 :Heeger, D. J., Simoncelli, E. R et Movshon, J. A., 1996. « Computational models of cortical visual processing », Proceedings of the National Academy of Sciences of the United States of America, 93 (2) : 623-627.
10.1126/science.158.3799.390 :Hein, A. et Held, R., 1967. « Dissociation of the visual placing response into elicited and guided components », Science, 158 (3799) : 390-392.
10.1037/h0040546 :Held, R. et Hein, A., 1963. « Movement-produced stimulation in the development of visually guided behavior », Journal of Comparative and Physiological Psychology, 56 (5) : 872-876.
Helmholtz, H. L. von, 1867. Handbuch der physiologischen Optik, Leipzig, Leopold Voss (Allgemeine Encyklopädie der Physik; IX).
10.1162/089976602760128018 :Hinton, G. E., 2002. «Training products of experts by minimizing contrastive divergence», Neural Computation, 14 (8): 1771-1800.
10.1113/jphysiol.1962.sp006837 :Hubel, D. H. et Wiesel, T. N., 1962. « Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex », Journal of Physiology, 160 (1) : 106-154.
Irwin, D. E. et Andrews, R. V., 1996. « Integration and accumulation of information across saccadic eye movements », in T. Inui et J. L. McClelland (éd.), Attention and Performance XVI : Information Integration in Perception and Communication, Cambridge (Mass.), The MIT Press : 125-155.
10.1016/S0042-6989(99)00163-7 :Itti, L. et Koch, C., 2000. « A saliency-based search mechanism for overt and covert shifts of visual attention », Vision Research, 40 (10-12) : 1489-1506.
Itti, L., Rees, G. et Tsotsos, J. K. (éd.), 2005. Neurobiology of Attention, Burlington (Mass.), Elsevier Academic Press.
10.1016/S0004-3702(98)00023-X :Kaelbling, L. P., Littman, M. L. et Cassandra, A. R., 1998. « Planning and acting in partially observable stochastic domains », Artificial Intelligence, 101 (1-2) : 99-134.
10.1146/annurev.psych.55.090902.142005 :Kersten, D., Mamassian, P. et Yuille, A., 2004. « Object perception as Bayesian inference », Annual Review of Psychology, 55 : 271-304.
10.1016/j.tins.2004.10.007 :Knill, D. C. et Pouget, A., 2004. « The Bayesian brain : The role of uncertainty in neural coding and computation », Trends in Neurosciences, 27 (12) : 712-719.
Koch, C., 2004. «Selective visual attention and computational models», CNS/Bi, 186: 1-14.
10.1007/BF00336961 :Koenderink, J. J., 1984. «The structure of images», Biological Cybernetics, 50 (5): 363-370·
Kohler, I., 1951. Über Aufbau und Wandlungen der Wahrnehmungswelt, insbesondere über “bedingte Empfindungen”, Vienne, Rohrer (Sitzungsberichte, Österreichische Akademie der Wissenschaften, Philosophisch-historische Klasse ; 227, 1).
10.1109/CVPR.2006.68 :Lazebnik, S., Schmid, C. et Ponce, J., 2006. « Beyond bags of features : Spatial pyramid matching for recognizing natural scene categories », in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2006), Los Alamitos (Calif.), IEEE Computer Society, vol. 2 : 2169-2178.
Lee, H., Ekanadham, C. et Ng, A. Y., 2008. « Sparse deep belief net model for visual area V2 », Advances in Neural Information Processing Systems, 20 : 873-880.
10.1109/TNN.2005.851787 :Lee, K., Buxton, H. et Feng, J., 2005. « Cue-guided search : A computational model of selective attention », IEEE Transactions on Neural Networks, 16 (4) : 910-924.
10.1073/pnas.83.21.8390 :Linsker, R„ 1986. «From basic network principles to neural architecture: Emergence of orientation-selective cells», Proceedings of the National Academy of Sciences of the United States of America, 83 (21): 8390-8394.
10.1023/B:VISI.0000029664.99615.94 :Lowe, D. G., 2004. «Distinctive image features from scale-invariant key-points», International Journal of Computer Vision, 60 (2): 91-110.
10.1007/3-540-45129-3 :Machrouh, Y., Liénard, J.-S. et Tarroux, P., 2001. « Multiscale feature extraction from the visual environment in an active vision system», in C. Arcelli, L. Cordella et G. Di Baja (éd.), Visual Form 2001, Berlin, Springer (Lecture Notes in Computer Science) : 388-397.
10.1016/j.tins.2006.04.001 :Maunsell, J. H. R. et Treue, S., 2006. « Feature-based attention in visual cortex », Trends in Neurosciences, 29 (6) : 317-322.
10.14375/NP.9782070293377 :Merleau-Ponty, M., 1945. La phénoménologie de la perception, Paris, Gallimard (Bibliothèque des idées).
10.14375/NP.9782070743551 :Merleau-Ponty, M., 1996 [1948]. Sens et non-sens, Paris, Gallimard (Bibliothèque de philosophie).
10.1126/science.4023713 :Moran, J. et Desimone, R., 1985. « Selective attention gates visual processing in the extrastriate cortex », Science, 229 (4715) : 782-784.
10.1152/jn.1993.70.3.909 :Motter, B. C., 1993. «Focal attention produces spatially selective processing in visual cortical areas V1, V2, and V4 in the presence of competing stimuli», Journal of Neurophysiology, 70 (3): 909-919.
10.1016/B978-012375731-9/50027-6 :Mozer, M. C. et Vecera, S. R, 2005. « Space-and object-based attention », in L. Itti, G. Rees et J. K. Tsotsos (éd.), Neurobiology of Attention, Burlington (Mass.), Elsevier Academic Press : 130-134.
10.1007/s11263-007-0118-0 :Mutch, J. et Lowe, D. G., 2008. « Object class recognition and localization using sparse features with limited receptive fields », International Journal of Computer Vision, 80 (1) : 45-57.
10.1007/BF00962722 :Niebur, E. et Koch, C., 1994. « A model for the neuronal implementation of selective visual attention based on temporal correlation among neurons », Journal of Computational Neuroscience, 1 (1-2) : 141-158.
10.1038/381607a0 :Olshausen, B. A. et Field, D. J., 1996. « Emergence of simple-cell receptive field properties by learning a sparse code for natural images », Nature, 381 (6583) : 607-609.
Olshausen, B. A. et Field, D. J., 1997. « Sparse coding with an over-complete basis set : A strategy employed by V1 ? » Vision Research, 37 (23) : 3311-3325.
10.1017/S0140525X01000115 :O’Regan, J. K. et Noë, A., 2001. « A sensorimotor account of vision and visual consciousness », Behavioral and Brain Sciences, 24 (5) : 939-1021.
O’Reilly, R. C., 1996. « The leabra model of neural interactions and learning in the neocortex », thèse de doctorat non publiée, Pittsburgh (Penn.), Carnegie Mellon University.
Paillard, J. et Brouchon, M., 1968. « Active and passive movements in the calibration of position sense », in S. J. Freedman (éd.), The Neuropsychology of Spatially Oriented Behavior, Homewood (Ill.), Dorsey Press : 37-55.
10.1109/34.56205 :Perona, P. et Malik, J., 1990. « Scale-space and edge detection using anisotropic diffusion », IEEE Transactions on Pattern Analysis and Machine Intelligence, 12 (7) : 629-639.
Philipona, D., O’Regan, J. K. et Nadal, J.-P, 2003. « Is there something out there ? Inferring space from sensorimotor dependencies », Neural Computation, 15 (9) : 2029-2049.
Prochiantz, A., 1997. Les anatomies de la pensée : à quoi pensent les calamars ? Paris, Odile Jacob (Sciences).
10.1007/s11370-006-0001-9 :Prodanov, P., Drygajlo, A., Richiardi, J. et Alexander, A., 2008. « Low-level grounding in a multimodal mobile service robot conversational System using graphical models », International Service Robotics, 1 : 3-26.
10.1109/CVPR.2007.383157 :Ranzato, Μ. A., Huang, F.-J., Boureau, Y. et LeCun, Y., 2007. « Unsupervised learning of invariant feature hierarchies with applications to object recognition », in Conference on Computer Vision and Pattern Recognition (CVPR 2007).
Rimey, R. et Brown, C., 1992. « Task-oriented vision with multiple Bayes nets », in A. Blake et A. Yuille (éd.), Active Vision, Cambridge (Mass.), The MIT Press : 217-238.
10.1016/S0028-3932(97)00050-X :Rushworth, M. F. S., Nixon, P. D., Renowden, S., Wade, D. T. et Passingham, R. E., 1997. « The left parietal cortex and motor attention », Neuropsychologia, 35 (9) : 1261-1273.
Schiele, B. et Crowley, J. L., 2000. « Recognition without correspondence using multidimensional receptive field histograms », International Journal of Computer Vision, 36 (1) : 31-50.
10.1016/0921-8890(95)00049-6 :Schöner, G., Dose, M. et Engels, C., 1995. « Dynamics of behavior : Theory and applications for autonomous robot architectures », Robotics and Autonomous Systems, 16 (2-4) : 213-245.
10.1109/TPAMI.2007.56 :Serre, T, Wolf, L., Bileschi, S., Riesenhuber, M. et Poggio, T, 2007. « Robust object recognition with cortex-like mechanisms », IEEE Transactions on Pattern Analysis and Machine Intelligence, 29 (3) : 411-426.
Singhal, A. et Brown, C., 1997. « Dynamic Bayes net approach to multimodal sensor fusion », Proceedings of SPIE, the International Society for Optical Engineering, 3209 : 2-10.
Spence, C., McDonald, J. et Driver, J., 2004. « Exogenous spatialcuing studies of human cross-modal attention and multisensory integration », in C. Spence et J. Driver (éd.), Crossmodal Space and Crossmodal Attention, Oxford, Oxford University Press : 277-320.
10.3917/puf.stern.2003.01 :Stern, D., 1989. Le monde interpersonnel du nourrisson, Paris, PUF (Le Fil rouge).
10.1109/ROBOT.2000.844075 :Thrun, S., 2000. « Towards programming tools for robots that integrate probabilistic computation and learning », in Proceedings : IEEE International Conference on Robotics and Automation (ICRA 2000), vol. 1 : 306-312.
Torralba, A., 2003. «Contextual priming for object detection», International Journal of Computer Vision, 53 (2): 169-191.
10.1080/02724988843000104 :Treisman, A., 1988. «Features and objects: The Fourteenth Bartlett Memorial Lecture», Quarterly Journal of Experimental Psychology, 40A (2): 201-237.
10.1007/BF00128132 :Tsotsos, J. K., 1992. «On the relative complexity of active vs. passive visual search», International Journal of Computer Vision, 7 (2): 127-141.
10.1016/0004-3702(95)00025-9 :Tsotsos, J. K., Culhane, S. M., Wai, W. Y. K., Lai, Y., Davis, N. et Nuflo, F., 1995. «Modeling visual attention via selective tuning», Artificial Intelligence, 78 (1-2): 507-545.
10.1016/j.jphysparis.2004.01.007 :Turiel, A. et Parga, N., 2003. « Role of statistical symmetries in sensory coding : An optimal scale invariant code for vision », Journal of Physiology, 97 (4-6) : 491-502.
Uexküll, J. von, 1965 [1934]. Mondes animaux et monde humain, Paris, Denoël.
Ungerleider, L. G. et Mishkin, M., 1982. « Two cortical visual systems », in D. J. Ingle, Μ. A. Goodale et R. J. W. Mansfield (éd.), Analysis of Visual Behavior, Cambridge (Mass.), The MIT Press : 549-586.
10.1126/science.1734518 :Van Essen, D. C., Anderson, C. H. et Felleman, D. J., 1992. «Information processing in the primate visual system : An integrated systems perspective », Science, 255 (5043) : 419-423.
10.7551/mitpress/9780262529365.001.0001 :Varela, F. J., Thompson, E. et Rosch, E., 1991. The Embodied Mind : Cognitive Science and Human Experience, Cambridge (Mass.), The MIT Press.
10.1037/0096-1523.29.2.333 :Vitevitch, M. S., 2003. «Change deafness: The inability to detect changes between two voices», Journal of Experimental Psychology: Human Perception and Performance, 29 (2): 333-342.
10.1016/j.neunet.2006.10.001 :Walther, D. et Koch, C., 2006. « Modeling attention to salient proto-objects », Neural Networks, 19 (9) : 1395-1407.
10.1037/0096-1523.15.3.419 :Wolfe, J. M., Cave, K. R. et Franzel, S. L., 1989. « Guided search : An alternative to the feature integration model for visual search », Journal of Experimental Psychology : Human Perception and Performance, 15 (3) : 419-433·
10.1007/978-1-4899-5379-7 :Yarbus, A. L., 1967. Eye Movements and Vision, New York, Plenum Press.
Auteurs
Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (LIMSI-CNRS), Groupe Cognition, perception, usages, BP 133, 91403 Orsay Cedex ; École normale supérieure, 45, rue d’Ulm, 75 230 Paris Cedex 5
Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (LIMSI-CNRS), Groupe Cognition, perception, usages, BP 133, 91 403 Orsay Cedex
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Informatique et sciences cognitives
Influences ou confluence ?
Catherine Garbay et Daniel Kayser (dir.)
2011