Les émotions dans l’interaction homme-machine
p. 47-71
Texte intégral
Introduction
1Le terme « Affective Computing », informatique affective, a été introduit par Rosalind Picard dans son livre de même titre en 1997 (Picard 1997). Elle y décrit des travaux préliminaires sur l’usage des émotions en Interaction Homme-Machine (IHM) et propose des critères de conception pour l’élaboration de systèmes émotionnels. Ces dernières années ont aussi vu l’expansion de la recherche sur le rôle et la fonction des émotions dans les interactions homme-machine (cf. le réseau d’excellence NoE Humaine1, le projet intégré FP7-IP CALLAS2, le FP7-STREP SEMAINE3, le projet ANR Affective Avatar4 pour nommer quelques projets actuels). L’aspect émotionnel de ces nouvelles formes interactionnelles homme-machine requiert d’être considéré du point de vue de l’utilisateur (détection et reconnaissance des signes émotionnels - acoustiques, visuels, textuels - émis par l’utilisateur) et de celui du système (qui peut agir aussi sur les expériences émotionnelles de l’utilisateur).
2Interagir avec une machine, un PC, un téléphone portable..., ne se limite pas nécessairement à obtenir une réponse factuelle ; il peut y avoir un échange agréable, plaisant, peut-être aussi ludique ou même amical. Pour certaines applications, les systèmes d’interaction homme-machine qui correspondaient à de simples demandes d’informations sont devenus des interactions émotionnellement plus riches. Plusieurs études ont montré l’importance de prendre en compte les émotions des utilisateurs. En effet, les émotions jouent un rôle important dans des applications telles que les environnements d’apprentissage ou de divertissement (Höök et al. 2008, Johnson et al. 2005, Gratch et Marsella 2003). De telles applications s’adaptent aux émotions de l’utilisateur ; elles les détectent (Pantic et Bartlett 2007), les induisent, voire même les modulent de manière à rendre l’interaction avec le système plus plaisante et fructueuse (de Rosis et al. 2003). En particulier, si le système montre des émotions d’empathie, i. e. si le système montre des émotions semblables à celles potentiellement ressenties par l’utilisateur, ce dernier conservera une meilleure impression de son interaction (Ochs et al. 2008).
3Développer un système capable de prendre en compte les émotions des utilisateurs demande que celui-ci possède des capacités dans les domaines de la perception, de l’interaction et de la génération. Dans le domaine de la perception, le système doit pouvoir prêter attention aux utilisateurs, à leur état mental et émotionnel, aux objets et aux personnes dans le contexte environnant. Dans le domaine de l’interaction, il doit être pourvu d’une intelligence émotionnelle et sociale et pouvoir s’adapter continuellement aux événements du monde, aux réactions et actions de ses interlocuteurs. Enfin, dans le domaine de la génération, il est nécessaire que le système communique de manière expressive des informations coordonnées et synchronisées sur plusieurs modalités (acoustique et visuelle).
4Il est important d’aller vers une prise en compte plus complète de l’utilisateur lors de son interaction avec la machine. Une idée poursuivie par plusieurs chercheurs est d’utiliser les qualités et propriétés de la communication humaine comme mode de communication entre humain et machine (Cassell 2007). Cela demande de modéliser des phénomènes complexes tels que les processus émotionnels (Marsella et Gratch 2009, Ochs et al. 2008) et les relations sociales (Prendinger et Ishizuka 2008), mais aussi de lever des verrous technologiques importants tels que : détecter les signaux acoustiques et visuels émis par l’utilisateur et les interpréter (Kollias et Karpouzis 2005), générer des informations (quoi dire et comment le dire) (Mancini et Pelachaud 2008, Ochs et al 2008, Becker-Asano et al. 2008) tout en maintenant le système en temps réel. Il faut donc développer des approches faisant converger les théories des sciences cognitives et de la psycholinguistique et les études scientifiques concourant à la modélisation et la synchronisation des signaux visuels et acoustiques en temps réel.
5Dans la suite de ce chapitre, nous présentons les trois grandes théories des émotions sur lesquelles reposent les modèles computationnels. Nous mettons en évidence la complexité du phénomène lié aux émotions et son implication dans le développement de systèmes émotionnels. Les modèles aussi bien théoriques que computationnels doivent aussi reposer sur des données. Nous exposons les difficultés liées au recueil de telles données ainsi qu’à leur annotation. Des modèles dans le domaine de la perception, de l’interaction et de la génération sont ensuite décrits. Finalement, nous nous intéressons à un élément particulier de l’interaction émotionnelle, l’agent conversationnel animé. Après en avoir donné une définition, nous présentons les modèles computationnels susceptibles d’obtenir un comportement expressif d’un agent réflexif mais non impulsif, c’est-à-dire où l’agent est capable de considérer son environnement social.
Théories des émotions
6Les émotions sont des phénomènes complexes. Elles apparaissent après l’évaluation subjective d’un événement, d’un objet, d’une personne. Une émotion peut être « définie comme un épisode de changements corrélés et synchronisés dans plusieurs composants en réponse à un événement d’importance majeure » (« Emotion is defined as an episode of interrelated, synchronized changes in several components in response to an event of major significance... ») (Scherer 2000). Des changements physiologiques, corporels, vocaux et faciaux se produisent. Par exemple le cœur bat plus vite, le rythme de la respiration s’intensifie, les gestes sont plus rapides et violents, la voix devient forte... En réalité le processus émotionnel est plus complexe que la seule expression physique des émotions. Il inclut (Scherer 2000) :
- des changements neurophysiologiques : certaines parties du cerveau sont activées (Ledoux 2005) ;
- un sentiment subjectif, souvent conscient : verbaliser, donner un nom à l’état déclenché par l’émotion ;
- des expressions comportementales dans la voix, le visage, les gestes, le regard ;
- une tendance à certaines actions résultant de l’évaluation de l’événement qui a déclenché l’émotion : telles que la fuite face à un danger ou l’attaque si on s’en sent la force ;
- une activité cognitive qui permet d’avoir une évaluation cognitive des éléments déclencheurs de l’émotion.
7Les émotions sont associées à des fonctions cognitives importantes. Elles permettent de prendre des décisions (Damasio 1995) ; sans les émotions nous resterions indécis, incapables de faire des choix. Les émotions agissent aussi sur notre état mental, nos croyances et intentions. Elles influencent nos actions et réactions (Fridja 1986, cité dans Scherer 2000). Les expressions des émotions constituent des signaux sociaux forts. Elles permettent de signaler à notre entourage nos intentions et nos futures actions (typiquement est-ce que ce sont des signaux d’agression ou de séduction ?) (Feldman et Rimé 1991, cité dans Scherer 2000).
8Il existe trois approches principales pour caractériser les émotions. Ces approches divergent entre autres dans leur façon de concevoir le lien entre l’événement déclencheur de l’émotion, son évaluation et les expressions de l’émotion. La théorie discrète (Ekman 2003) suggère qu’il existe un programme neuromoteur inné qui déclenche des réponses motrices aux événements indépendamment de l’évaluation cognitive qui en est faite. La théorie parle de six émotions de base ; la joie, le dégoût, la colère, la peur, la tristesse, et la surprise (voir figure 1). À chacune de ces émotions sont associés des patterns d’expressions faciales spécifiques (Ekman 2003). Des études ont montré que ces expressions sont universellement reconnues et utilisées pour traduire ces émotions. Paul Ekman et ses collègues (2003) ont ainsi présenté des photos de ces expressions faciales au sein d’un grand nombre de cultures diversifiées. Ils ont aussi demandé aux sujets de ces cultures de désigner les expressions correspondant à ces six émotions. Des études ont révélé par la suite que ces six expressions sont universellement décodées et utilisées. Paul Ekman (2003) a introduit le concept de règles d’affichage (display rules) qui indique quelle émotion peut être exprimée, quand et à qui. Ces règles diffèrent fortement suivant les cultures et agissent directement sur les expressions des émotions.

Fig. 1 - Expressions d’émotions universellement reconnues (d’après Ekman 2003) : (a) la colère : (b) le dégoût : (c) la peur : (d) la joie : (e) la tristesse : (f) la surprise.
9La théorie dimensionnelle des émotions décrit les émotions non pas comme des entités discrètes mais comme des entités continues suivant un espace dimensionnel. Le modèle dimensionnel le plus courant est le modèle circomplexe de Russell (1980) qui considère deux dimensions : l’activation (faible vs fort) et la valence (négative vs positive) (voir figure 2). Une émotion correspond à un point dans l’espace représenté par ces dimensions. Un autre modèle PAD, aussi très répandu, caractérise l’espace des émotions sur trois dimensions (Mehrabian 1996). En plus des deux dimensions du modèle circomplexe de Russell, l’axe soumission/dominance est ajouté. Un des problèmes avec la représentation du modèle de Russell est la non-distinction des émotions de colère et de peur. En effet, les émotions de colère et de peur se caractérisent toutes deux par une forte activation et une valence négative. Cependant la colère est liée à un sentiment de contrôle de la situation, ce qui n’est pas le cas de la peur. Le modèle PAD capture cette distinction. Dernièrement, une étude a montré qu’il faut quatre dimensions pour pouvoir représenter sans ambiguïté les émotions (Fontaine et al. 2007). Ce modèle permet de les différencier précisément les unes des autres. Les quatre dimensions sont la valence, l’activation, le degré de contrôle et le degré d’imprévu.

Fig. 2 - Représentation dimensionnelle des émotions (d’après Russell 1980).
10La théorie de l’évaluation cognitive (appraisal theory) s’intéresse aux processus de déclenchement des émotions, contrairement aux théories des émotions discrètes et des émotions dimensionnelles qui se concentrent sur l’externalisation des émotions (Scherer 2000). Une émotion surgit de l’évaluation subjective continuelle des événements, objets et personnes. Elle est donc fortement liée à la situation contextuelle ainsi qu’aux expériences de la personne ressentant une émotion. Le contexte est estimé par cinq grands types d’évaluation (Stimulus Evaluation Checks-SECs) (Scherer 2000) :
- nouveauté : changement dans le pattern de la stimulation externe/interne : est-ce que le nouvel événement était attendu ou non ?
- plaisirs intrinsèque : est-ce que la situation est plaisante ou non ; y a-t-il une tendance à approcher ou bien à éviter l’événement ?
- signification de l’intention/du besoin : est-ce que la situation est pertinente pour les intentions et les besoins ?
- potentiels de réaction : évaluation des causes de l’événement et des capacités d’y faire face ;
- compatibilité avec ses propres normes : évaluation si l’événement, surtout une action, est conforme aux normes sociales, aux conventions culturelles, et s’il est consistant avec ses propres normes et standards.
Obtenir des données
11Travailler sur les émotions pour les étudier, les analyser, les modéliser, demande de posséder des données adéquates. Depuis plusieurs années, des chercheurs rassemblent des données audio, visuelles et audiovisuelles (Douglas-Cowie et al. 2003).
12Très souvent, en particulier au sein des premières bases de données élaborées, les données proviennent de laboratoire. Des sujets, en général des acteurs ou des étudiants, produisent des expressions faciales et/ou vocales d’émotions. Le plus souvent, les six expressions prototypiques des émotions dites universelles (Ekman 2003) sont utilisées : la colère, la joie, le dégoût, la tristesse, la peur et la surprise (Douglas-Cowie et al. 2003) pour une présentation plus complète de ces bases de données. Les bases de données construites (par exemple FERET, JAFFE) ont souvent été utilisées pour valider des algorithmes de reconnaissance des expressions vocales ou faciales des émotions. Cependant, les expressions enregistrées ne correspondent pas aux expressions des émotions prises sur le vif (Douglas-Cowie et al. 2003). Elles sont souvent stylisées, voire stéréotypées. Les expressions des émotions peuvent varier selon quelles sont exprimées sincèrement, masquées ou simulées intentionnellement. Les différences viennent du dynamisme des expressions (apparition trop rapide) (Ekman 2003), de la succession des éléments multimodaux constituant une expression (Scherer 2000), de la variation dans les contractions musculaires impliquées (Ekman 2003) ou encore des paramètres acoustiques (Scherer 1988). L’œil humain est sensible à cette variation et peut distinguer parmi différentes expressions celles associées à une émotion ressentie de celles issues d’une émotion simulée (Ekman 2003).
13D’autres techniques ont été proposées pour mettre en valeur des états émotionnels. La technique par induction (SAL (Douglas-Cowie et al. 2003), e-Wiz (Auberge et al. 2006)) consiste à stimuler des sujets par des éléments contrôlés (musique, photo, tâches à accomplir). Les données obtenues sont plus authentiques.
14Cependant, la plupart des bases de données sont obtenues hors d’un contexte d’interaction. Le plus souvent, les sujets sont face à la caméra/microphone et doivent produire une expression, ou bien ils regardent un film ou des photos et leurs expressions (en réaction à la vision du film ou des photos) sont enregistrées. Ces situations ne mettent pas le sujet en condition d’interagir avec un autre, et donc de communiquer son état émotionnel. Se pose par conséquent le problème de construire des modèles théoriques ou computationnels des émotions se basant sur des bases de données différentes (par exemple, les émotions ressenties).
15Pour obtenir une base de données écologiquement valide, des chercheurs (Douglas-Cowie et al. 2003, Campbell 2003) ont déterminé que :
- les sujets doivent montrer des expressions d’émotions ressenties ;
- les sujets doivent être en situation d’interaction ;
- les expressions des émotions doivent être représentatives de la subtilité des expressions humaines ;
- l’expression des émotions doit être multimodale.
16Obtenir une telle base de données n’est pas si simple. Le corpus « Lost luggage » (Scherer et Cheschi 2000) remplit cependant ces critères. Ce corpus a été obtenu en faisant croire à des passagers d’un vol aérien que leur bagage avait été per du. Ils devaient donc remplir une fiche de perte. Leur conversation avec l’hôtesse a été enregistrée visuellement et acoustiquement. Les expressions des émotions sont ressenties, prises sur le vif, en interaction. Elles ne sont pas des prototypes mais peuvent être extrêmement subtiles. Dans la même idée, Campbell (2003) a pu collecter la voix d’une femme pendant plusieurs années dans ses tâches quotidiennes.
17Obtenir la permission d’enregistrer dans un lieu public n’est pas toujours évident. Pour contourner ce problème, d’autres chercheurs ont proposé de collecter des corpus vidéo en provenance d’émissions télévisées. Belfast Naturalistic Database (Douglas-Cowie et al. 2003), EmoTV (Martin et al. 2006) en sont des exemples.
Mesurer un état émotionnel
18Un des aspects de l’interaction émotionnelle est la prise en compte des émotions des utilisateurs dans une interaction homme-machine. Plusieurs travaux ont été entrepris pour mesurer celles-ci. Cette mesure peut se faire avec des capteurs physiologiques ou par l’analyse des signaux acoustiques et visuels. Les méthodes nécessitant de placer des capteurs sur l’utilisateur, plus intrusives, demandent le plus souvent que les expériences soient menées en laboratoire avec un certain temps de préparation. Ces méthodes peuvent se révéler inadaptées suivant les applications visées. D’autres mesures s’attachent à laisser les utilisateurs dans leur environnement naturel sans la contrainte d’artefacts externes.
19L’analyse des signaux acoustiques et visuels permet de déterminer le changement de certaines de leurs valeurs au cours du temps. Les signaux détectés peuvent être très variés : les paramètres vocaux paralinguistiques, prosodie pour l’audio, déplacement de la conformation faciale et corporelle, qualité expressive des mouvements pour le visuel. La valeur de ces signaux doit être ensuite interprétée pour déterminer l’état émotionnel auquel ils correspondent. Cette interprétation s’appuie sur les divers modèles des émotions présentés ci-dessus.
20Prenons le cas de l’interprétation des expressions faciales pour illustrer différentes méthodes d’interprétation des signaux. La théorie discrète des émotions stipule l’existence de patterns d’expressions des émotions. Ces patterns seraient innés. Ils sont universellement produits et reconnus. Les expressions faciales prototypiques correspondant aux six émotions de base ont été très précisément décrites par Paul Ekman et ses collègues. Plusieurs modèles d’analyse et d’interprétation des signaux visuels se basent sur ces résultats. Une émotion est reconnue si les signaux détectés correspondent à la définition de ces expressions prototypiques. Ainsi, seule l’expression complète de ces émotions importe. De telles méthodes permettent de décoder avec souvent un bon taux de reconnaissance les six expressions prototypiques. Cependant, ces seules expressions ne couvrent pas toute la palette de celles susceptibles de se manifester lors d’une interaction. Ces méthodes ne permettent donc pas de déterminer la grande majorité des expressions.
21Une autre méthode consiste à détecter les contractions musculaires et à déterminer les divers éléments constituant une expression : la forme des sourcils, de la bouche, la direction du regard, etc. Plusieurs algorithmes analysent en temps quasi réel les unités d’action active dans l’expression (Bartlett et Pantic 2006). Ils se basent sur le système d’annotation FACS (Facial Action Coding System (Ekman et al. 2002)). Celui-ci permet de mesurer les expressions faciales en les décomposant en mouvements d’action musculaire (ou unités d’action). Ces algorithmes d’analyse calculent l’ensemble des unités d’action d’une expression. Des modèles de classification statique ou dynamique sont ensuite utilisés (Sebe et al. 2003) pour interpréter les signaux et déterminer l’état émotionnel correspondant. La différence majeure entre ces deux types de modèle concerne la prise en compte pour le second de l’évolution temporelle de l’expression faciale. La classification dynamique permet de reconnaître une expression non seulement par l’ensemble des unités d’action qui la composent, mais aussi par leur évolution sur un intervalle de temps. Les états émotionnels reconnus peuvent être signifiés, à travers des catégories d’émotions ou bien par un positionnement dans l’espace dimensionnel des émotions (Cowie et al. 2008). Ces modèles permettent l’interprétation des expressions « non-ekmaniennes ». Ils permettent donc de reconnaître un spectre plus large d’expressions.
Modèle computationnel des émotions dans l’interaction
22Plusieurs approches ont été proposées pour simuler les émotions déclenchées suite à un événement. Ces approches reposent le plus souvent sur la théorie d’évaluation des émotions. En particulier, ils se basent sur le modèle appelé OCC, abréviation pour Ortony, Clore et Collins, ses trois auteurs (Ortony et al. 1988). Celui-ci considère trois entités intervenant dans le processus émotionnel : les buts, les standards et les attitudes. Un événement est évalué suivant qu’il nous aide ou au contraire nous empêche d’atteindre le but que nous nous étions fixé. Suivant nos propres standards, nous blâmons ou félicitons un acte. Aimer ou non un objet peut être vu comme différentes attitudes envers cet objet. Ainsi, une émotion de joie sera déclenchée si une intention a été achevée ; au contraire, une émotion de désespoir suivra l’échec par rapport au but fixé.
23Se basant sur un tel formalisme, plusieurs modèles computationnels ont été développés (de Rosis et al. 2003, Elliott 1992). Tous considèrent les émotions décrites dans le modèle OCC. Dans une interaction homme-machine, les actes de dialogues et le comportement multimodal de l’utilisateur étant souvent considérés comme des événements potentiellement déclencheurs d’émotions, ces informations sont analysées et interprétées ; elles servent de paramètres d’entrée aux modèles computationnels. Une émotion est déclenchée suite à l’évaluation qui est faite de ces informations. Cette évaluation tient compte de l’état mental de l’agent ou du système.
24Dans le modèle de de Rosis et al., une émotion apparaît en conséquence des variations des croyances, des désirs et des intentions du système/agent. Si un événement est évalué comme augmentant les chances de parvenir à un certain but, une émotion de joie est déclenchée. D’autres modèles considèrent un plus grand nombre de variables d’évaluation. En particulier, le modèle EMA (Marsella et Gratch 2009) prend en compte le potentiel de réaction. Un événement est analysé suivant la variable de désirabilité d’atteindre un but, mais aussi suivant la capacité de contrôler ou non la situation. Ainsi celle-ci est évaluée d’après les capacités de réaction de l’agent. Cette approche permet entre autres de modéliser l’attribution du blâme qui peut suivre après l’évaluation des causes de déclenchement de l’événement, ou même du déni en agissant sur les croyances.
25Un même événement peut être évalué sous plusieurs aspects donnant naissance à plusieurs émotions simultanées. Certains modèles calculent l’intensité de l’émotion déclenchée et définissent un seuil en dessous duquel une émotion n’apparaît pas (de Rosis 2003, Elliott 1992).
Agent conversationnel animé expressif
26L’agent conversationnel animé, ACA, est un nouveau type d’interface homme-machine. L’ACA a comme caractéristique d’être autonome et anthropomorphique. C’est une figure animée avec des capacités communicatives : elle peut parler, écouter, attirer l’attention, regarder l’autre, montrer des émotions, etc. (Cassell et al. 2000, Kopp et al. 2005, Marsella et Gratch 2009, Gratch et al. 2007) (voir figure 3). Pour communiquer, elle dispose de plusieurs modalités comme le langage naturel, les expressions faciales, le regard et les gestes. Ces signaux verbaux et non-verbaux identifient la structure du discours et coordonnent le flot de la conversation entre les interlocuteurs. Ils peuvent être liés à diverses fonctions communicatives et émotionnelles. Ces propriétés permettent à l’utilisateur humain d’interagir avec des agents en utilisant la communication orale et visuelle.

Fig. 3- Exemples d’ACAs : (a) Sam et Alex (source J. Cassell) :
(b) Social cognition (source J. Gratch et S. Marsella) :
(c) Max (source S. Kopp (Kopp et al. 2005)).
27Les ACAs peuvent jouer plusieurs types de rôles dans une interface. Ils peuvent prendre la forme d’un entraîneur virtuel, d’un personnage de jeux, d’un agent pédagogique, d’un agent pour le web, ou même d’un compagnon pour personnes âgées ou jeunes enfants (Bickmore et al. 2008). Des études ont montré l’importance du fait que leur apparence et leurs comportements soient adaptés ou non aux rôles qu’ils doivent tenir ainsi qu’au contexte social de l’application au sein de laquelle ils évoluent (Reeves et Nass 1996). D’autres études ont indiqué que les interlocuteurs humains suivent des règles culturelles et sociales quand ils interagissent avec un ACA. En particulier, ils respectent les stratégies de politesse (Reeves et Nass 1996, Rehm et André 2005).
28Une des spécificités de l’ACA tient à son usage possible en tant qu’outil d’étude de la communication homme-homme. L’ACA est un outil informatique complètement paramétrable. Pouvoir contrôler chaque paramètre, un par un ou par combinaison, permet d’évaluer la portée de chacun d’eux. C’est ainsi que plusieurs études ont regardé la relation de synchronie qui existe entre l’intonation de la voix et les mouvements des sourcils (Krahmer et Swerts 2004), le changement de posture et la structure intonationnelle (Cassell et al. 1999), les événements et les émotions déclenchées (Marsella et Gratch 2009) ou encore les mouvements oculaires (Raidt et al. 2007).
29Ce nouvel outil peut aussi servir à étudier la relation multimodale des comportements émotionnels (Martin et al 2006). La méthode de copie-synthèse a été appliquée. Celle-ci consiste à recréer des animations de l’ACA à partir d’annotations de corpus. Ces annotations peuvent venir d’annotations de bas niveaux (spécification du comportement non-verbal) comme de haut niveau (sémantique, émotionnel, fonction communicative...). Une évaluation comparative entre les vidéos originales et celles obtenues par l’ACA a permis de mesurer si les signaux annotés sont pertinents ou non dans le cadre de la perception d’états émotionnels (Martin et al 2006).
Génération d’expressions des émotions
30L’ACA peut communiquer verbalement et non verbalement. Il faut donc lui donner la possibilité d’exprimer une palette d’émotions par les expressions du visage et le comportement corporel.
Expressions faciales
31Beaucoup de modèles d’expression faciale des agents virtuels (Ruttkay et al. 2003, Becker-Asano et al. 2008) s’appuient sur la représentation discrète des émotions, en particulier sur la description des expressions des prototypes d’émotions issues des travaux de Paul Ekman et al. (Ekman 2003). Certains modèles d’expression faciale permettent d’enrichir la palette d’expression d’un ACA. Les solutions existantes calculent de nouvelles expressions en combinant algébriquement les paramètres d’expression des émotions dites de base. Le modèle EmotionDisc (Ruttkay et al. 2003) distribue uniformément les émotions de base (Ekman 2003) sur un cercle (voir figure 4).

Fig. 4 - EmotionDisc (source Z. Ruttkay (Ruttkay et al. 2003)).
32Le centre du cercle correspond à l’expression neutre. Les coordonnées spatiales d’un point quelconque du cercle permettent de calculer l’expression faciale correspondante. La distance du point au centre du cercle représente l’intensité de l’expression. Cette approche de combinaison bilinéaire d’expressions a été étendue à des modèles plus complexes (García-Rojas et al. 2006, Albrecht et al. 2005). Ces derniers modèles utilisent une représentation dimensionnelle des émotions (cf. section précédente). Elle peut être en 2D représentant les axes (activation/valence) (Garcia-Rojas et al. 2006) ou en 3D (activation/valence/puissance) (Albrecht et al. 2005). Une nouvelle expression est obtenue par combinaison des coordonnées des émotions basiques les plus proches des coordonnées de l’émotion dont on souhaite calculer l’expression faciale associée.
33Une autre approche computationnelle utilise la logique floue. Le modèle de Duy Bui (Duy Bui 2004) se base entièrement sur les travaux d’Ekman (2003). Son modèle emploie un ensemble de règles floues pour calculer le mélange d’expressions des six émotions de base. Les inférences floues déterminent l’intensité musculaire en fonction de l’intensité de chaque émotion. Niewiadomski et Pelachaud (2007) ont développé un modèle d’expressions complexes basé aussi sur la logique floue. Différents types d’expressions complexes, tels que masquer une expression par une autre, superposer deux expressions (voir figure 5), inhiber une expression sont modélisés. Le visage est décomposé en plusieurs régions. Un ensemble de règles floues permet d’obtenir l’expression finale d’une émotion complexe comme la combinaison des éléments des régions faciales de plusieurs émotions.

Fig. 5 - (a) expression de la joie ; (b) expression de la tristesse ; (c) superposition de la joie et de la tristesse
(Niewiadomski et Pelachaud 2007).
Expressivité comportementale
34L’exécution qualitative d’un geste et d’une expression est très représentative de l’état émotionnel de l’émetteur. L’expressivité comportementale a été étudiée de manière perceptuelle (Wallbott 1998), par des méthodes d’analyse (Caridakis et al. 2008) (voir figure 6) mais aussi pour la danse (Laban 1974).

Fig. 6 - Analyse de l’expressivité comportementale (source A. Raouzaiou (Caridakis et al. 2008)).
35Du côté des agents conversationnels, Ruttkay et Noot proposent un langage de représentation qui caractérise l’agent suivant des dimensions telles que sa profession, sa culture, son âge, sa personnalité, son état émotionnel et physique. Celles-ci influencent le style utilisé par l’agent pour communiquer et gesticuler (e. g. l’amplitude de ses gestes, leur nombre). EMOTE (Chi et al. 2000) implémente le schéma d’annotation de danse développé par Laban (1974). Un geste est modifié par plusieurs paramètres qui spécifient sa qualité tels que la force du geste, sa fluidité, son tempo. EMOTE agit comme un filtre sur l’animation une fois calculée. Le modèle ajoute de l’expressivité à l’animation finale.
36Hartmann (Hartmann et al. 2005) a défini un modèle d’expressivité du comportement non verbal en se basant sur des études perceptuelles conduites par Wallbott (1998). Ces travaux définissent l’expressivité comportementale à travers plusieurs dimensions. Le modèle d’expressivité gestuelle d’Hartmann et al. en implémente six (voir figure 7). Trois d’entre elles - extension spatiale, extension temporelle et puissance - agissent sur les paramètres définissant le geste et les expressions du visage, respectivement l’amplitude du signal (correspondant au déplacement physique d’un élément du visage ou de la position de la main), la durée du mouvement (liée à la vitesse d’exécution du mouvement) et les propriétés dynamiques du mouvement (accélération du mouvement). Une autre dimension, la fluidité, agit sur plusieurs comportements d’une même modalité et spécifie le degré de continuité qu’un geste possède lorsqu’il s’articule avec le geste suivant. Les deux dernières dimensions, activité globale et répétition, agissent sur la quantité de signaux et leur répétition. Ce modèle a été utilisé pour définir des agents distinctifs, i. e. capables de se différencier l’un l’autre dans leur manière de communiquer (Mancini et Pelachaud 2008) (voir figure 8).

Fig. 7 - Variation du paramètre de spatialité (Hartmann et al. 2005).

Fig. 8 - Exemples d’agents distinctifs (Mancini et Pelachaud 2008).
Expressions des émotions dans un contexte social
37Lorsque nous interagissons, nous tenons compte (plus ou moins consciemment) de plusieurs facteurs tels que les relations sociales et affectives que nous entretenons avec notre interlocuteur et nos rôles respectifs. Tout en grandissant, nous avons appris à ne pas être impulsifs et à contrôler notre comportement. Nous savons quelle expression peut être montrée dans quelle circonstance et à l’égard de qui. Ekman (2003) parle de « display rules » pour évoquer les règles dictées par notre environnement social, culturel, professionnel et affectif. Comme décrit dans l’introduction, interagir avec une machine, et plus particulièrement quand la machine prend une forme humaine comme le font les ACAs, implique d’appliquer ces « displays rules ». L’agent ayant valeur d’entité sociale, il est important de modéliser adéquatement son comportement.
38Le contexte social a donc été modélisé chez certains agents (Rehm et André 2005,Johnson et al. 2004). Prendinger et Ishizuka (2001) modèlent la prise de conscience du rôle social - « social role awareawareness » chez les ACAs. Ils définissent un modèle de gestion d’expression faciale par un ensemble de règles appelées des programmes de filtres sociaux. Ces filtres se fondent sur les conventions sociales (par exemple la politesse) et la personnalité des interlocuteurs. Ils déterminent l’intensité d’une expression comme étant fonction d’une menace sociale (puissance et distance), de la personnalité des utilisateurs (amabilité, extraversion) et de l’intensité de l’émotion. Le résultat de ces filtres permet d’augmenter, de diminuer l’intensité d’une expression faciale, voire de l’inhiber complètement.
39De Carolis et al. (2001) ont construit un agent réfléchi capable d’adapter ses expressions émotionnelles selon le contexte situationnel. Celles-ci dépendent de facteurs émotionnels (comme la valence de l’émotion, l’acceptation sociale, l’émotion du destinataire) et de facteurs scénaristiques (personnalité, buts, type de rapport, type d’interaction). L’agent réfléchi emploie des règles de gestion des expressions qui définissent pour quelles valeurs de ces paramètres l’émotion ressentie peut être ou non exprimée (De Carolis et al. 2001). Lorsqu’elle ne doit pas l’être, ce modèle l’inhibe.
40Dans leur modèle, Niewiadomski et Pelachaud (2007) calculent une diversification des expressions faciales par rapport à leur signification, leur rôle et leur aspect. L’agent tient compte de ces facteurs ; il est capable d’exprimer différents types d’expression faciale comme l’inhibition, l’expression masquée par une autre, voire même une fausse expression.
Conclusion
41Dans ce chapitre, nous avons examiné ce qu’engendre la prise en compte des émotions dans une interaction homme-machine. Celles-ci peuvent être définies comme un processus complexe incluant des changements neurophysiologiques, un sentiment subjectif (souvent conscient), des expressions comportementales (dans le visage, les gestes, le regard), une tendance à certaines actions (résultant de l’évaluation de l’événement qui a déclenché l’émotion) et une activité cognitive (évaluation cognitive des éléments déclencheurs de l’émotion) (Scherer 2000). Inclure les émotions en IHM est positif dans de nombreux cas d’application - les environnements d’apprentissage ou de divertissement, par exemple (Höök et al. 2003, Johnson et al. 2005). Pour cela, il faut que le système d’interaction soit capable de percevoir, d’interpréter, d’adapter et de générer des signaux expressifs.
42La notion d’Affective Loop, c’est-à-dire de boucle émotionnelle, se réfère à la prise en compte bidirectionnelle des émotions entre utilisateur et système (Höök et al. 2008). Il s’agit d’établir des relations émotionnelles pérennes entre les usagers et le système d’interaction, afin que les états affectifs des usagers une fois détectés (par les expressions du visage, la voix, le mouvement corporel...), le système y réponde de manière visible (visuellement : par de la couleur (eMoto) (Höök et al. 2008), un ACA expressif (Mancini et Pelachaud 2008), du texte animé (Strapparava et al. 2007), acoustiquement : par de la musique (Serra et al. 2007), de la voix expressive (Schröder 2004)) ; ce retour pourrait influencer à son tour l’état émotionnel de l’usager.
43Cette conception permet une prise en compte plus complète de l’utilisateur, mais elle soulève de nombreuses questions. Concevoir un système qui tienne compte des émotions de l’utilisateur demande de déterminer quelles émotions on doit considérer. Quelles sont les émotions pertinentes pour une application donnée ? Est-ce la frustration, la satisfaction ou bien l’ennui ? De plus se pose le problème de répondre aux émotions de l’utilisateur ? Le système doit-il montrer de l’empathie ? Doit-il toujours répondre positivement ? Définir la stratégie pour répondre aux émotions de l’utilisateur implique de connaître celles-ci. Mais comment les mesurer ? Avec quels moyens ? Le système une fois conçu, il faut pouvoir déterminer s’il répond aux besoins des utilisateurs. Il faut donc développer des outils d’évaluation.
44Dans ce chapitre, nous avons présenté des modèles visant à répondre à ces nombreuses questions. Beaucoup sont encore du domaine de la recherche et à l’état d’ébauche. Nous nous sommes attardés plus particulièrement sur les agents conversationnels animés en raison de leur pouvoir expressif mais également de leurs capacités d’engager les utilisateurs dans des relations sociales et émotionnelles. Nous avons aussi souligné de quelle manière les modèles informatiques reposent sur des modèles théoriques des émotions et d’analyse de corpus, et comment les nouveaux outils créés, en particulier l’ACA, peuvent servir de support à l’étude de la communication non verbale et émotionnelle humaine.
Remerciements
45Ce travail a été partiellement fondé par le projet ANR MyBlog-3D et par le projet européen IP-CALLAS. Je remercie tout particulièrement Elisabetta Bevacqua, Maurizio Mancini et Radoslaw Niewiadomski pour leur contribution importante dans le développement de l’agent Greta.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références bibliographiques
10.1007/s10055-005-0153-5 :Albrecht I., Haber J., Schroeder M., Seidel H.-P. 2005. « Mixed feelings of expression of non-basic emotions in a muscle-based talking head ». Virtual Reality (Special Issue of Language, Speech and Geslure for VR).
10.3166/ria.20.499-527 :Auberge V., Audibert N., Rillard A. 2006. « De E-Wiz à C-clone : recueil, modélisation et synthèse d’expressions authentiques ». Revue d’intelligence artificielle, 20, 4-5 : 499-527.
Becker-Asano C., Kopp S., Pfeiffer-Lessmann Wachsmuth I. 2008. « Virtual humans growing up : From primary towards secondary emotions ». Kuenstliche Intelligent, janvier, 23-27.
Bickmore T., Cassell J. 2005. « Social dialogue with embodied conversational agents », in N. Bernsen, J. van Kuppevelt, L. Dybkjaer (dir.), Advances in Natural, Multimodal Dialogue Systems. New York, Kluwer Academic.
10.1142/S1793351X08000348 :Bickmore T., Pfeifer L., Yin L., 2008. « The Role of Gesture in Document Explanation by Embodied Conversational Agents ». International Journal of Semiotic Computing, 2, 1.
Campbell N. 2003. « Databases of expressive speech ». Oriental COCOSDA Workshop 2003, Singapour.
Caridakis G., Raouzaiou A., Bevacqua E., Mancini M., Karpouzis K., Malatesta L., Pelachaud C. 2008. « Virtual agent multimodal mimicry of humans, Language Resources and Evaluation », in J.-C. Martin, P. Paggio, P. Kühnlein, R. Stiefelhagen, F. Pianesi (dir.), Multimodal Corpora For Modelling Human Multimodal Behavior.
10.7551/mitpress/2697.001.0001 :Cassell J. 2000. « Nudge nudge wink wink : Elements of face-to-face conversation for embodied conversational agents », in J. Cassell et al. (dir.), Embodied Conversational Agents. Cambridge (MA), MIT Press : 1-27.
Cassell J. 2007. « Body language : Lessons from the near-human », in J. Riskin (dir.), Genesis Redux : Essays in the History and Philosophy of Artificial Intelligence. Chicago, University of Chicago Press : 346-374.
Cassell J., Torres O., Prevost S. 1999. « Turn taking vs discourse structure : How best to model multimodal conversation », in Y. Wilks (dir.), Machine Conversations. The Hague, Kluwer : 143-154.
10.1145/344779 :Chi D. M., Costa M., Zhao L., Badler N. I. 2000. « The EMOTE model for effort and shape », in K. Akeley (dir.), Computer Graphics Proceedings. Siggraph : 173-182.
Cowie R., Douglas-Cowie E., Karpouzis K., Caridakis G., Wallace M., Kollias S. 2008. « Recognition of emotional States in natural human-computer interinteraction», in D. Tzovaras (dir.), Multimodal User Interfaces. Springer : 119-153.
Damasio A. 1995. L’erreur de Descartes. La raison des émotions. Paris, Editions Odile Jacob.
De Carolis B., Pelachaud C., Poggi I., de Rosis F. 2001. « Behavior planning for a reflexive agent ». Proceedings of IJCAI’01. Seattle, USA, août 2001.
10.1016/S0167-6393(02)00070-5 :Douglas-Cowie E., Campbell N., Cowie R., Roach P. 2003. « Emotional speech : Towards a new generation of databases ». Speech Communication, 40 : 33-60.
Duy Bui T. 2004. Creating Emotions and Facial Expressions for Embodied Agents. PhD thesis, University of Twente.
10.1136/sbmj.0405184 :Ekman P. 2003. Emotions Revealed. New York, Times Books London, Weidenfeld & Nicolson (world).
Ekman P., Friesen W., Hager J. 2002. Facial Action Coding System. Salt Lake City, A Human Face.
Elliott C. 1992. The Affective Reasoner : A Process Model of Emotions in a Multi-agent System. PhD Dissertation, Northwestern University. The Institute for the Learning Sciences, Technical Report, 32.
Fontaine J. R., Scherer K. R., Roesch E. B., Ellsworth P. 2007. « The world of emotion is not two-dimentional », Psychological Science, 13 : 1050-1057.
10.1002/cav.130 :García-Rojas A., Vexo F., Thalmann D., Raouzaiou A., Karpouzis K., et al. 2006. « Emotional face expression profiles supported by virtual human ontology », Journal of Visualisation and Computer Animation, 17 (3-4) : 259-269.
Gratch J., Marsella S. 2003. « Fight the Way You Train : The Role and Limits of Emotions in Training for Combat », The Brown Journal of World Affairs. Vol. X (1), Summer/Fall 2003.
10.1007/978-3-540-74997-4 :Gratch J., Wang N., Gerten J., Fast E., Duffy R. 2007. Creating Rapport with Virtual Agents. 7th International Conference on Intelligent Virtual Agents, Paris.
10.1007/11678816 :Hartmann B., Mancini M., Pelachaud C. 2005. Implementing Expressive Gesture Synthesis for Embodied Conversational Agents. Gesture Workshop, LNAI, Springer.
10.1145/642611 :Höök K., Sengers P., Andersson G. 2003. « Sense and Sensibility : Evaluation and Interactive Art », in Proceeding of Computer-Human Interaction (CHI2003), ACM Press.
10.1145/1357054 :Höök K., Ståhl A., Sundström P., Laaksolahti J. 2008. « Interactional empowerment ». Proceedings of ACM SIGCHI conference Computer-Human Interaction (CHI2008), Florence, Italy, ACM Press.
10.1007/b98229 :Johnson W.L., Rizzo P., Bosma W., Kole S., Ghijsen M., van Welbergen H. 2004. « Generating socially appropriate tutorial dialog ». Workshop on Affective Dialogue Systems.
Johnson W.L., Vilhjalmsson H., Marsella S. 2005. « Serious games for language learning : How much game, how much AI ? ». 12th International Conference on Artificial Intelligence in Education, Amsterdam, The Netherlands.
10.1109/ICME.2005.1521539 :Kollias S. D., Karpouzis K. 2005. « Multimodal Emotion Recognition and Expressivity Analysis », Proceedings of the 2005 IEEE International Conference on Multimedia and Expo, ICME 2005, July 6-9, Amsterdam, The Netherlands : 779-783.
10.1007/11550617 :Kopp S., Gesellensetter L., Krämer N.C., Wachsmuth I. 2005. « A conversational agent as museum guide-design and evaluation of a real-world application », in Panayiotopoulos et al.. (dir.), Intelligent Virtual Agents, LNAI 3661, Berlin, Springer-Verlag : 329-343.
10.1007/1-4020-2730-3 :Krahmer E., Swerts M. 2004. « More about brows », in Z. Ruttkay et C. Pelachaud (dir.), From brows till trust : Evaluating embodied conversational agents. Kluwer.
Laban R., Lawrence F.C. 1974. Effort : Economy in Body Movement. Boston, Plays Inc.
Ledoux J. 2005. « The Emotional Brain : The Mysterious Underpinnings of Emotional Life ». First Touchstone Edition.
Mancini M., Pelachaud C. 2008. « Distinctiveness in multimodal behaviors ». Seventh International Joint Conference on Autonomous Agents and Multi-Agent Systems, AAMAS’08, Estoril, Portugal.
Marsella S. et Gratch J. 2009. « EMA : A model of emotional dynamics ». Journal of Cognitive Systems Research, 10, 1 : 70-90.
10.1142/S0219843606000825 :Martin J.-C., Niewiadomski R., Devillers L., Buisine S., Pelachaud C. 2006. « Multimodal complex emotions : Gesture expressivity and blended facial expressions ». International Journal of Humanoid Robotics. Special issue on Achieving Human-Like Qualities in Interactive Virtual and Physical Humanoids, 20, 4-5 : 477-498.
10.1007/BF02686918 :Mehrabian A. 1996. « Pleasure-arousal-dominance : A general framework for describing and measuring individual differences in Temperament ». Current Psychology, 14, 4 : 261-292.
Niewiadomski R., Pelachaud C. 2007. « Model of facial expressions management for an embodied conversational agent ». 2nd International Conference on Affective Computing and Intelligent Interaction ACII, Lisbonne, September 2007.
Ochs M., Pelachaud C., Sadek D. 2008. « An empathic virtual dialog agent to improve human-machine interaction ». Seventh International Joint Conference on Autonomous Agents and Multi-Agent Systems, AAMAS’08, Portugal, May 2008.
10.1017/CBO9780511571299 :Ortony A., Clore G. L., Collins A. 1988. The Cognitive Structure of Emotions. Cambridge University Press.
10.5772/38 :Pantic M., Bartlett M.S. 2007. « Machine Analysis of Facial Expressions », in K. Delac, M. Grgic (dir.), Face Recognition. Vienne, Autriche, I-Tech Education and Publishing : 377-416.
10.7551/mitpress/1140.001.0001 :Picard R. W. 1997. Affective Computing. Cambridge, MIT Press.
Prendinger H., Ishizuka M. 2001. « Social role awareness in animated agents ». Proceedings of International joint Conference on Autonomous Agents and Multi-Agent Systems (AAMAS), Montréal, Canada, ACM press : 270-277.
Raidt S., Bailly G., Elisei F. 2007. « Analyzing and modeling gaze during face-to-face interaction ». Proceedings of 7th International Conference on Intelligent Virtual Agents, IVA’07, Paris.
Reeves B., Nass C. 1996. The Media Equation : How People Treat Computers, Television and New Media Like Real People and Places. Stanford (CA), CSLI Publications.
Rehm M., André E. 2005. « Informing the design of embodied conversational agents by analysing multimodal politeness behaviors in human-human communication ». Workshop on Conversational Informatics for Supporting Social Intelligence and Interaction.
10.1016/S1071-5819(03)00020-X :Rosis F. de, Pelachaud C., Poggi I., Carofiglio V., De Carolis B. 2003. « From Greta’s mind to her face : Modelling the dynamics of affective States in a conversational embodied agent ». International Journal of Human-Computer Studies, 59 (1-2) : 81-118.
10.1037/h0077714 :Russell J. A. 1980. « A circumplex model of affect ». Journal of Personality and SocialPsychology, 39 : 1161-1178.
Ruttkay Z., Noot H., ten Hagen P. 2003. « Emotion disc and emotion squasquares : Tools to explore the facial expression face ». Computer Graphie Forum, 22, 1 :49-53.
Ruttkay Z., Noot H. 2005. « Variations in gesturing and speech by GESTYLE ». International Journal of Human-Computer Studies, Special issue on « Subtle expressivity for characters and robots », 62, 2 : 211-229.
Scherer K. 1988. Psychobiologie. Fischer.
10.1007/978-3-662-08008-5 :Scherer K. 2000. « Emotion », in M. Hewstone, W. Stroebe (dir.), Introduction to Social Psychology : A European Perspective. Oxford : 151-191.
10.1177/0146167200265006 :Scherer K. R., Ceschi G. 2000. « Criteria for emotion recognition from verbal and nonverbal expression : Studying baggage loss in the airport ». Personality and Social Psychology Bulletin, 26, 3 : 327-339.
10.1007/b98229 :Schröder M. 2004. « Dimensional emotion representation as a basis for speech synthesis with non-extreme emotions ». ADS : 209-220.
10.1007/3-540-45113-7 :Sebe N., Lew M. S., Sean Zhou X., Huang T. S., Bakker E. M. 2003. « The State of the Art in Image and Video Retrieval ». CIVR : 1-8.
10.1080/09298210701859248 :Serra X., Bresin R., Camurri A. 2007. « Sound and music computing : challenges and strategies ». Journal of New Music Research, 36, 3 : 185-190.
10.1007/978-3-540-74889-2 :Strapparava C., Valitutti A., Stock O. 2007. « Affective text variation and animation for dynamic advertisement ». ACII : 242-253.
Tsapatsoulis N., Raouzaiou A., Kollias S., Cowie R., Douglas-Cowie E. 2002. « Emotion recognition and synthesis based on MPEG-4 FAPs in MPEG-4 facial animation », in I. S. Pandzic, R. Forcheimer (dir.), MPEG4 Facial Animation-The standard, implementations and applications. John Wiley & Sons.
10.1002/(SICI)1099-0992(1998110)28:6<879::AID-EJSP901>3.0.CO;2-W :Wallbott H.G. 1998. « Bodily expression of emotion ». European Journal of Social Psychology, 28 : 879-896.
Notes de bas de page
Auteur
Laboratoire Traitement et Communication de l’Information Télécom ParisTech, Paris.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Informatique et sciences cognitives
Influences ou confluence ?
Catherine Garbay et Daniel Kayser (dir.)
2011