II. Jeux d’espace
p. 67-116
Texte intégral
1Traditionnellement, pour étudier le son au cinéma, on privilégie, entre les occurrences acoustiques et leur contexte, une relation spatiale. Toutes les typologies proposées (son in – son off, son diégétique – son extradiégétique, occurrence liée, captée ou déliée d’un son) reposent sur la possibilité de situer les phénomènes acoustiques, et l’élucidation des procédures d’ancrage constitue l’un des problèmes théoriques les plus fréquemment examinés1. C’est également en étudiant les relations du son à l’espace que l’on décèlera les signes du dérangement qu’il occasionne dans le film. L’analyse de la structure de l’écho a mis en évidence la dislocalité propre au sonore. Il s’offre à l’écoute comme une masse amorphe et erratique qui contredit l’idée même de contour et de délinéation. L’effort pour classer les occurrences acoustiques et en formaliser l’usage tend à limiter leur faculté de dispersion et de transgression des frontières catégorielles ou spatiales, comme à en nier la foncière évanescence. Aucune opération d’ancrage, captation momentanée d’un phénomène acoustique par la diégèse, ne saurait occulter l’étrangeté essentielle de celui-ci par rapport à l’espace optique. À pratiquer une écoute vive, on s’aperçoit que même les occurrences qui paraissent le plus aisées à localiser conservent une puissance de déliaison virtuelle qui peut à tout moment distraire l’attention et inquiéter les constructions spatiales établies. Le son conçu comme un écho est ce qui, par avance, excède toute rencontre ponctuelle avec un objet en image : il s’éploie dans le temps et contrarie l’organisation optique de l’espace pour tracer, dans une tout autre dimension, un champ virtuel dont « l’extension » et les « contours » sont ceux que sa modulation tient impliqués. Loin d’affermir nos repères spatiaux, le son filmique travaille par menues désorientations et dénonce les limites d’une construction géométrique de l’espace. Figure de l’entre-deux et de la marge, au moment même où il sert de charnière entre le champ et son dehors, il révèle leur disjonction première et nie leur continuité. L’ailleurs dont il est l’empreinte n’est pas le traditionnel hors-champ, mais un lieu définitivement hors vue qui n’existe que dans l’intervalle de l’écho, dans l’échange incessant des profils qu’il déplie, effaçant la distinction entre temps et espace.
2Écouter les films consiste donc à réfléchir autrement sur le singulier vécu de l’espace que le sonore engage. La recherche d’ancrage n’est plus de mise lorsqu’il s’agit d’approcher le « lieu » tracé par le son et non plus celui où il s’origine. Il ne convient pas davantage de continuer à articuler les relations entre sons et images autour des points de synchrèse, ces « soudures irrésistibles et spontanées qui se produisent entre un phénomène sonore et un phénomène visuel ponctuel lorsque ceux-ci tombent en même temps, cela indépendamment de toute logique rationnelle2 ». La synchrèse marque l’assujettissement du son à l’image, et l’on s’autorise de cet artifice pour considérer comme acquise la fusion d’une trace incorporelle et évanescente avec un objet aux contours strictement définis. Or, si l’image fige les choses dans la ponctualité d’une forme arrêtée, le son au contraire les prolonge et les perpétue. Approcher l’écho dans sa dimension propre déporte l’attention des choses visibles vers le champ virtuel qui en constitue l’envers. Entre les phénomènes qui ressortissent à deux domaines sensoriels distincts un irréductible écart se fait jour. L’illusion d’une synchrèse s’efface devant un effet de syncope où image et son ne se soudent plus l’un à l’autre mais se nouent dans un entretien réciproque.
3Cette révision conceptuelle – ancrage/entretien, synchrèse/syncope – traduit une manière spécifique d’appréhender la représentation filmique. Le glissement alterné d’un regard qui reconnaît et qui situe à une écoute qui retrace et qui dérange entraîne déplacement d’accents et ruptures de continuité. L’interrogation ne porte plus sur la manière dont le son fait signe en trouvant sa place dans une représentation qui lui préexiste, mais sur celle dont il travaille l’attention du spectateur et contribue à la construction même de la représentation. Le souci de nommer et de classer des signes acoustiques fait place à un effort de retracement du procès sonore qui suspend le processus signifiant et transforme les contours en parcours. À l’identification des sources est substitué l’examen de la façon dont le sonore anime le champ représentatif. Approfondir les moments où la cohérence narrative et la cohésion spatiale chancellent permet d’observer comment, dans l’entretien syncopé du son et de l’image, se joue une appréhension hypothétique et plurielle de la représentation filmique.
4L’espace représenté par le film est un espace imaginaire qu’il appartient au spectateur de construire au fur et à mesure du déroulement de la représentation. Il est généralement admis que cette construction s’opère essentiellement à partir de données visuelles, les données sonores n’étant prises en considération qu’à titre d’informations complémentaires. Flou, sans contours, le son à lui seul ne délimite aucune scène et l’on en conclut qu’il n’acquiert de vertu spatialisante qu’une fois aimanté par l’image3. Celle-ci, en revanche, est d’emblée perçue comme constitutive d’espace. Le dispositif filmique orchestre les déplacements du regard et les circonscrit dans un champ façonné par un cadrage que chaque mouvement de caméra, chaque changement d’échelle ou d’angle de prise de vue vient modifier. Articulée d’abord autour du champ découpé par la projection perspective, la figuration de l’espace procède ensuite par adjonction ou enchâssement de cellules successives qui sont autant de portions d’un même monde. Un travail d’inférence permet de raccorder les différents fragments pour élaborer une représentation spatiale cohérente. Aussi la diégèse, en théorie infinie parce qu’infiniment divisible, est-elle en pratique construite comme une forme close, un ensemble fini de cadres locatifs. Cette construction spatiale, dans un film narratif classique, est fondée sur le repérage et la stricte délinéation d’objets qui se disposent l’un par rapport à l’autre en fonction d’un point de vue déterminé. Sa continuité est assurée, plan après plan, par la réapparition de ces mêmes objets ainsi que par le jeu réglé de leur placement et de leurs mouvements respectifs. Sa cohérence est soumise aux mêmes lois que celles qui régissent le monde physique : les corps n’y ont pas le don d’ubiquité et l’ampleur de leurs déplacements est réduite, à moins qu’une consigne spécifique ne précise le contraire (dans un film de science-fiction par exemple).
5Pourtant, l’espace qu’il nous est donné de voir au cinéma est aberrant. Jean Epstein, toujours prompt à exalter l’aberration de mouvement caractéristique du film, a souvent décrit l’espace mouvant, décentré et discontinu qui s’offre réellement à la vue d’un spectateur de cinéma.
Que l’on considère cet espace cinématographique varié et variable dans la multiplicité discontinue de ses cadres fixes ou dans la continuité d’un de ses champs mouvants, on voit que la plupart des formes n’y restent pas égales à elles-mêmes […]. Ces figures inconstantes, non superposables […], indiquent un espace non homogène, non symétrique où l’égocentrisme habituel, avec sa proportionnalité humaine, se trouve désorganisé4.
6Epstein voit dans ce déplacement constant de formes devenues instables le moyen de modifier notre appréhension du monde, de promouvoir une « réalité seconde ». Toutefois, lui-même doit admettre que, passé un premier moment de confusion, le spectateur « se trouve guéri de son vertige », et « retrouve sa logique habituelle en séparant soigneusement la signification érudite du contenu de chaque image, de la valeur purement ordinale de ces images dans leur suite illogique déroulée par le film5 ». Dans le film de fiction classique, l’espace à construire est toujours diégétique, informé par le narratif. Ce qui donne sa cohérence interne au cadre locatif d’une scène, même s’il est fragmenté en cellules que rien n’ajointe, c’est moins l’unité d’un lieu (toujours incertaine), que celle d’une action (le déplacement d’un homme d’un point à un autre). Chaque lieu est organisé comme une scène, et articulé autour de l’accomplissement d’un acte significatif6.
7L’espace s’affirme alors comme étant à la mesure des gestes et à la portée des regards qui en garantissent une représentation cohérente. Dans la configuration du champ-contrechamp, gestes et regards ne contribuent à la représentation de l’espace qu’en fonction du point de vue qui leur assigne un sens (orientation et signification) et en restreint la portée. Ils tendent vers un point précis, situé par avance dans le voisinage immédiat du champ de vision. Enchaînés, mis dans la dépendance d’une représentation ordonnée à la production de ce sens, ils s’inscrivent dans un espace aux coordonnées prédéterminées et épousent une trajectoire fixée par l’acte à accomplir (se regarder). Ils perdent ainsi la faculté qu’a un mouvement d’ouvrir l’espace, de le constituer selon des dimensions purement rythmiques. Pour que le geste retrouve une liberté chorégraphique, celle, littéralement, d’écrire l’espace, il faut justement lui ôter la pesanteur et les finalités d’un acte. Lorsque le geste n’est plus montré en acte, pris dans une situation qu’il fait évoluer et enclos dans un champ qu’il traverse, mais lorsqu’il est saisi dans son développement, l’espace représenté lui-même s’en trouve déconnecté et ses repères préexistants effacés. Il n’est plus possible d’évaluer l’amplitude d’un déplacement, ni de localiser les objets l’un par rapport à l’autre. La caméra, en vision très rapprochée, ne suit plus que le mouvement et « explique » avec lui l’espace qu’il tenait impliqué. Si le geste se libère et échappe à son contexte, la cohérence spatiale, fondée sur la continuité de portions prédécoupées, est menacée.
8Il y a, au cinéma, une parenté entre le traitement du geste et celui du son. Pour que ce dernier vienne effectivement compléter notre connaissance de l’espace observé, il faut le réduire à un acte, un « se faire entendre », lui assigner une place et un sens. Il s’agit là d’une opération spécifique de cadrage, qui consiste à déterminer l’espace dans lequel le son est émis, celui dans lequel il est perçu, et par conséquent celui dans lequel il se propage. Or le sonore est sans lieu comme sans contours ; objet d’étoffe temporelle, il est soumis à modulation. Cette plasticité constitutive ne cadre pas avec une conception optique de l’espace, où toute chose, strictement détourée, se range à sa place. D’ailleurs, dans une perspective qui vise à réduire et instrumentaliser le son filmique, les termes employés pour décrire son rôle spatialisant insistent sur l’importance de son caractère labile : le son enveloppe chaque cadre locatif d’une ambiance qui en assouplit les frontières. L’une des fonctions essentielles qu’on lui reconnaît est de lier des cellules disjointes et, en gommant les sautes visuelles, d’homogénéiser l’espace. Le champ momentanément invisible qu’il désigne est toujours présenté comme englobant le visible et susceptible, l’instant suivant, de s’offrir à la vue. En théorie, l’extension spatiale qu’il autorise peut être dilatée à l’infini, mais elle a toujours un centre, celui du champ de vision autour duquel elle s’articule. Pourtant, loin de se ranger à l’ordre optique et de venir occuper un espace qui lui préexiste, le son déploie un site virtuel, aux dimensions de l’horizon que ces traces tiennent impliqué.
9Les sons filmiques ont à la fois l’évanescence inhérente au sonore et la paradoxale situation spatiale constitutive de l’écho. Phénomènes ne pouvant être suivis que dans leur mode d’écoulement, signes ne pouvant être construits que dans le mouvement de leur représentance, ils ne « cadrent » jamais exactement avec les objets visibles auxquels ils sont associés. Parce qu’ils sont en syncope avec l’image, ils ont la faculté d’en suspendre et d’en dévier la lecture. Au moment même où les sons contribuent à l’élaboration d’une diégèse et d’un récit, ils interrogent leur cohérence.
Un mouvement qui déplace les lignes
10Le sonore est moins propre à compléter une construction optique de l’espace qu’à en révéler les limites et à en marquer l’incomplétude. Même lorsqu’il semble le plus asservi, il fuit les déterminations qu’on lui impose et tend à défaire les catégories au sein desquelles on veut le ranger. Dans les images muettes (tableaux, photographies, films sans paroles), où il n’existe qu’à l’état virtuel, il inquiète déjà les formes visibles.
11Il existe toutes sortes de signes susceptibles d’évoquer visuellement un effet sonore, comme par exemple :
l’image d’un objet ou d’un événement que nos habitudes perceptives nous autorisent à reconnaître comme une source sonore ;
l’image de la réaction qu’il suscite de la part de l’un des personnages diégétiques ;
un effet de « bruit » dans l’image. Du chaos de lignes engendré par la succession rapide de plans pris sous des angles très variés peut ainsi naître une impression de cacophonie ;
une transcription graphique. Dans certains phylactères ou intertitres, la calligraphie et la mise en forme typographique ajoutent le son au sens. Intensité ou grain d’une voix peuvent être restitués par l’épaisseur du trait, la forme ou la disposition des lettres.
12Évoquée à partir de l’image de sa source, une occurrence acoustique devient une image enchaînée à d’autres images et trouve un point d’ancrage avant même de prendre forme sonore. C’est du seul aspect de sa source que l’on infère la nature voire les propriétés acoustiques du phénomène virtuel. La portée du sonore, sa force de questionnement comme sa faculté d’errance en ressortent singulièrement appauvries. Présentée d’emblée comme son de quelque chose, l’occurrence acoustique n’a plus aucune opacité référentielle. Épousant les formes de l’objet dont elle émane, elle semble en outre n’exister qu’en un point restreint de l’espace et perdre son évanescence constitutive. Mais si l’image assigne au son qu’elle évoque lieu et identité, celui-ci vient modifier l’image dans son aspect et ses fonctions.
13Dans l’image muette, c’est par un mouvement que se manifeste en creux une émission acoustique. Montrer un objet susceptible de produire du bruit ne suffit pas à indiquer qu’un bruit se fait effectivement entendre. Seul le mouvement qui anime visiblement cet objet trahit l’émanation sonore. C’est le geste d’articulation, le déplacement des pieds sur le sol, l’éclatement d’un verre en tombant qui font du bruit. Et lorsque la source sonore mise en évidence est un corps statique, l’absence de mouvement dans l’image est compensée par un mouvement de l’image. Le pavillon d’un gramophone, le récepteur d’un téléphone ne bougent pas lorsqu’ils émettent des sons. Pour faire comprendre que des bruits s’en échappent, il faut soit associer leur image à celle d’une réaction d’écoute, soit les faire apparaître en un mouvement d’irruption brutale. Un brusque changement d’échelle traduira cette soudaine intrusion dans le champ offert à l’attention d’un auditeur (personnage et/ou spectateur). Un rapide travelling vers l’objet ou un gros plan sur lui diront clairement qu’il n’est plus un simple élément du décor mais le vecteur d’un effet sonore. Le mouvement de ou vers la source est donc le trait distinctif grâce auquel on infère la présence d’un son inaudible.
14Or le mouvement déplace les lignes. La gesticulation locutoire transforme les traits du visage, et l’émission d’un cri les altère plus vivement encore. Les dessins de L. de Vinci représentant la douleur des vaincus, ceux de Michel-Ange peignant la damnation ou la furie, les tableaux de F. Bacon montrant des faces hurlantes, les gros plans de rires ou de cris que l’on voit dans les films d’Eisenstein ou Jeanne d’Arc de Dreyer sont autant d’exemples du travail de dissolution des formes opéré par le sonore, comme si cet élément définitivement rebelle à toute figuration ne pouvait s’indiquer que par le biais d’une défiguration. Plis, rides, contorsions, écartèlement : tels sont les signes auxquels se reconnaît le point de cri.
Tu feras les vaincus et les battus pâles, avec les sourcils levés à leur conjonction ; et que la peau au-dessus soit pleine de plis douloureux ; et qu’il y ait sur les deux côtés du nez quelques rides qui montent en arc depuis les narines jusqu’aux coins des yeux. Les narines montent – c’est ce qui cause les plis – et les lèvres arquées découvrent les dents supérieures, les mâchoires s’écartent pour un cri douloureux7.
15Une bouche écartelée pour crier désarticule le visage au point de le rendre méconnaissable et de porter atteinte à la figure humaine. Dans un film muet, tout geste d’articulation devient obscène et inquiétant. Nous reconnaissons ce qui ressemble à un acte de parole, mais nous n’entendons rien. Le geste s’épuise en une gesticulation insensée qui ne signifie plus rien. La bouche n’est plus le lieu du dire ; les nouveaux vecteurs de la communication sont d’un côté les cartons porteurs d’intertitres, et de l’autre les mimiques et les mouvements d’un corps devenu tout entier expressif à l’exception précisément de la bouche, mue désormais par une vaine agitation. Le visage du personnage est ruiné par un désaccord intime qui fait de lui une figure inhumaine, une contradiction vivante : un bavard muet. C’est cette monstruosité qui retient notre attention et nous fait remarquer les mouvements d’articulation que la présence du son rendrait à leur insignifiance. Un cinéaste des premiers temps s’est plu à jouer de cette particularité du film muet. Le personnage filmé dansThe Big Swallow (James Williamson, 1901) s’approche de la caméra jusqu’à paraître en très gros plan. Tout en avançant vers l’objectif, il remue les lèvres. Enfin il ouvre grand la bouche et engloutit dispositif de prise de vue, opérateur et spectateur. Une bouche qui ne profère plus, n’émet plus rien vers l’extérieur, s’invertit en orifice dévorateur, laissant deviner l’envers organique du visage. L’élocution se fait manducation.
16Montrer le cri ou l’acte de parole, c’est rendre manifeste l’action sur le corps d’un souffle invisible et soumettre ce corps à des déformations qui en traduisent l’animation intérieure. C’est aussi porter la représentation visuelle à la limite où elle s’épuise pour insinuer en elle ce qui, par essence, lui échappe. « Donner à voir la voix, ce serait l’étrange entreprise, et peut-être le comble de l’entreprise nommée représentation de peinture », écrit Louis Marin8. Il rejoint ici les analyses de Gilles Deleuze, qui estime que la fonction d’un art n’est ni de reproduire ni même d’inventer des formes, mais de capter des forces9. La présence virtuelle du sonore est une force qui anime et déporte l’image, la met en devenir, en tension entre des possibles qu’elle n’exhibe pas mais sécrète. Les moyens convoqués pour restituer cette dimension invisible sont tous fondés sur la mise en œuvre de menues dissemblances qui ébranlent les figures et rompent la cohérence représentative.
17Les moments où le son sourd de l’image correspondent toujours à des points de suspens dans la représentation ou dans la perception. Ainsi, dans trois célèbres toiles du Caravage (La Méduse, Judith et Holopherne et Le Sacrifice d’Isaac), le hurlement s’inscrit dans l’orifice de bouches démesurément ouvertes sur le vide, le noir, le rien à voir. Ce trou dans le tissu iconique participe d’une représentation arrêtée, d’une image saisie à l’instant même de la mort (décapitations de Méduse et d’Holopherne) ou dans son imminence sidérante (l’instant qui précède le sacrifice d’Isaac). La bouche béante aveugle le regard et l’enferme dans la contemplation fascinée d’un instant qui jamais ne passe. Le tableau s’articule et s’abîme autour de ce lieu vocal où chute le regard, parce qu’en lui toute figure s’abolit10.
18Dans certains films muets, l’intensité de la présence du fond sonore est rendue par une altération de la lisibilité des formes et de la construction de l’espace. Dans Fait divers (court-métrage de Claude Autant-Lara, 1925), dans L’Homme à la caméra (Dziga Vertov, 1928), des images renversées à 45 ° ou à 90 ° sur lesquelles se surimpriment d’autres images, prises sous d’autres angles, suggèrent le tumulte d’une grande ville. De la confusion visuelle des lignes qui se coupent naît simultanément une sensation de vacarme. On sait la valeur exemplaire qu’ont pris les jeux d’une caméra déchaînée dans Variété (E. A. Dupont, 1925). Lors de la scène fameuse de la fête foraine, le télescopage brutal de plans correspondant aux points de vue les plus divers traduit, outre l’ivresse d’une vision panoptique, le brouhaha caractéristique d’un Lunapark. À plusieurs reprises, la foule attentive aux évolutions du trapéziste est filmée en plongée, comme une masse indistincte zébrée de lumière : du chaos des corps anonymes s’échappent des éclats dont le flou et l’évanescence évoquent le bruit d’une rumeur vague. Pareillement, la scène de laboratoire de L’Inhumaine (Marcel L’Herbier, 1923) est traversée de fulgurances et d’ombres qui invitent à imaginer un crépitement électrique.
19L’évocation d’un son inaudible coïncide toujours avec une perception altérée des formes visibles, et une transformation de la fonction des objets représentés. Lorsque le sonore ne s’insinue pas directement dans la représentation pour en défaire les lignes, il vient troubler le regard et transformer le mode d’appréhension du tableau. Louis Marin remarque, dans une toile de Paul Klee intitulée Ad marginem (En marge), la présence autour de l’image, sur son cadre même, de trois consonnes et d’une voyelle : R, L, V, U. Ces signes graphiques font entendre une voix qui ne prononcerait que des phonèmes insensés ; de quelque manière qu’on les assemble, on ne parvient pas à construire de forme signifiante à partir des quatre lettres dispersées à la marge du tableau. La voix immontrable est ici suggérée par une suspension du regard. Celui-ci ne bute plus sur un manque à voir qui en interromprait le mouvement d’investigation, mais il passe brutalement du voir au lire et du lire au voir. C’est ce changement de régime perceptif, lié à l’irruption du graphique dans l’iconique, qui déplace la représentation parce qu’il en infléchit la saisie. Le procédé de restitution des voix dans le cinéma muet induit la même alternance de deux régimes de conscience. Les mentions portées sur les cartons ne restituent la sonorité vocale qu’à condition de dessiner, par leur calligraphie et leur typographie, les intonations et les intensités. Elles se donnent alors autant à lire qu’à voir. L’interprétation de la forme des lettres et de leur disposition sur l’écran interrompt le déchiffrement du sens des mots. La mise en concurrence de deux modes d’appréhension distincts entraîne un constant déplacement de l’attention, de l’icône au symbole et du symbole à l’icône.
20Pour servir de vecteurs à des sons inouïs, les images quant à elles perdent leur fonction d’icône et accèdent au statut d’index. En tant que source sonore, un téléphone exagérément grossi sur l’écran n’est plus la représentation iconique d’un objet du monde mais la manifestation indiciaire d’un phénomène acoustique. Symbole, icône, index : ce glissement d’un régime sémiotique à l’autre illustre les promenades inférentielles auxquelles invite la présence, même virtuelle, du sonore. Le combiné téléphonique qu’un gros plan isole de son contexte cesse d’être une chose inerte pour devenir un instrument de communication, le lieu d’un transport et d’un échange. Son image ainsi mise en exergue déporte au loin notre attention, l’attire hors des limites du cadre. Le son qu’elle suppose met cette image en tension vers un ailleurs encore inconnu et démultiplié en une infinité de possibles. Parallèlement, en ce lieu nettement circonscrit qu’occupe le récepteur, s’installent des présences aussi nombreuses que vagues. Et la petite boîte bourdonne de tous les appels éventuels qui déjà l’habitent. Altération des formes et permutation des fonctions : telles sont les transformations qu’induit la captation du sonore par le visible. Même asservi à l’image d’une source, le son fuit les limites et les déterminations qu’on lui impose.
21Mais c’est lorsqu’il est suggéré par la seule réaction d’écoute d’un personnage que le sonore retrouve toute sa force de subversion : le geste qui trahit l’écoute n’autorise en soi que des suppositions. Sanctionne-t-il l’occurrence actuelle d’un phénomène acoustique ou illustre-t-il une hallucination auditive ? Il peut nous renvoyer aussi bien au monde diégétique qu’à l’univers mental d’un personnage. De quel objet ou de quel être indique-t-il la présence ? Il fait divaguer l’imagination entre plusieurs sources possibles. Si la réaction d’écoute ne garantit ni le statut ni le lieu d’émission d’une trace acoustique, elle souligne en revanche sa puissance de déliaison. Manifesté par un mouvement en direction du hors-champ, le sonore échappe au cadrage et initie un processus d’investigation qui outrepasse les bornes de l’image. Il dévoie l’attention vers un lieu encore insituable et la construction de l’espace en est pour un temps suspendue, en butte à des questions non résolues.
22Quand on évoque une manifestation acoustique en dessinant les limites de son trajet dans l’espace, on lui assigne une aire de diffusion dont l’amplitude est mesurée et l’orientation imposée. Coincée entre l’image de son point d’émission et celle de son point de réception, la trace acoustique traverse l’espace, strictement cadrée par un mouvement de caméra qui en canalise les errances. Filmer le sonore comme une chose visible que sertit un cadrage mobile semble le plus sûr moyen de l’assigner à résidence, de le ramener aux mesures de l’espace optique. Toutefois, ainsi emprisonné dans une image muette, le sonore en transforme profondément l’appréhension. Cerné, il reste cependant infigurable. Sa présence est indiquée par défaut, par ce vide que l’ostensible travail du cadrage souligne. L’image en est retournée, comme un gant dont on montrerait l’envers. L’attention du spectateur ne s’attarde plus sur les figures qui la constituent, mais sur l’intervalle qui les sépare. Le fond sans particularités qu’on oubliait de voir passe au premier plan, au point de faire saillie dans la représentation. Mieux encore, lorsque le son s’inscrit dans l’enchaînement de deux plans qui isolent l’un sa source et l’autre son point d’impact, il égare l’attention dans la faille qui s’ouvre entre un regard ou un geste tourné horschamp et l’objet qu’il vise.
23Quelle que soit la manière dont il s’insinue dans l’image muette, le sonore en dérange l’organisation et l’interprétation. Force invisible de déformation, il est suggéré en peinture par la torsion des corps ou le brouillage des contours. Au cinéma, il naît toujours d’un mouvement : mouvement d’un objet, mouvement d’un personnage à l’écoute, mouvement d’appareil orientant notre regard vers une source sonore ou traçant dans l’espace le parcours d’un phénomène acoustique, mouvement de l’attention oscillant entre voir et lire… Son intervention virtuelle interrompt la lecture de l’image et en modifie la composition.
Syncopes et décadrages
24Avec l’avènement du cinéma parlant, le sonore retrouve son indépendance. Il n’est plus une émanation virtuelle de l’image, mais, dépourvu a priori de tout lien avec elle, il erre dans l’espace entier de la salle de projection. L’ancrage qui consiste à lui assigner une source dans l’espace représenté, et le cadrage qui consiste à cerner sa propagation dans cet espace, sont deux moyens d’en réduire l’évanescence. Cependant, même ancré et cadré, le sonore continue à déranger les constructions spatiales qu’il est supposé entériner. Le point d’articulation du son et de l’image est aussi celui de leur désarticulation. Les deux conditions de l’ancrage indubitable d’un phénomène acoustique dans la diégèse sont l’existence d’une relation de synchronisme entre le phénomène acoustique et les mouvements d’un objet dans l’image, et une congruence sémantique entre ce phénomène acoustique et la source qu’on lui assigne. Ainsi amarrée à l’image, l’occurrence acoustique n’en conserve pas moins son altérité et son pouvoir de diffusion. Elle demeure l’élément invisible qui anime et déporte l’objet censé l’avoir émise.
25La synchrèse, ce point d’accord rythmique décelé par le spectateur quand un phénomène iconique et un phénomène acoustique paraissent « tomber » ensemble, est la condition première de leur ancrage. Il ne s’agit pas d’une exacte simultanéité entre signaux mais d’un effet produit par un dispositif qui tient compte de la différence de vitesse de propagation entre son et lumière. Dans le cinéma de fiction classique, la perception synchrone d’un son et d’une image induit presque automatiquement l’établissement entre eux d’un lien causal : l’objet dont les mouvements collent de manière plus ou moins fine aux inflexions de la séquence sonore est considéré comme sa source dans le monde diégétique. Le mot-valise forgé par Michel Chion, combinaison de synchronisme et de synthèse, se veut la traduction d’une « soudure irrésistible ». L’effet de synchrèse, c’est l’assujettissement spatial qu’entraîne un point de synchronisme, lorsqu’il invite à reconduire un phénomène acoustique à sa source supposée dans l’image. Cet effet est si prégnant qu’il autorise l’association peu vraisemblable d’éléments visuels et sonores dont la congruence sémantique est faible voire inexistante. Dans les films de Jacques Tati, les portes battent en émettant des glissandos de violons, les pas frappent le sol en produisant le bruit de billes en verre qui s’entrechoquent. De telles unions, monstrueuses, mettent en évidence l’ambivalence inhérente à toute synchrèse. Point d’accord mais non de fusion, elle trahit l’hétérogénéité des deux bandes au moment même où elle les noue. Cependant, le sens né de l’accord instauré entre éléments étrangers n’est pas réduction au même, absorption de l’un par l’autre, mais contamination, altération réciproque. Son et image s’entretiennent sans se confondre, sans que soit résorbé l’écart sémantique, temporel et spatial qui résulte de leur énonciation en écho. Ce nœud rythmique serait donc moins une synchrèse qui les soude l’un à l’autre qu’une syncope qui les fait jouer l’un par rapport à l’autre.
26La notion de syncope est intéressante parce qu’elle est plurivoque, relevant à la fois de trois champs sémantiques distincts, celui des états d’un organisme humain, celui de la phonétique historique et celui de la théorie musicale. Dans chacun de ces trois champs, comme l’indiquent les définitions correspondantes, elle articule les deux notions antinomiques de rupture et de suture, marquant toujours à la fois un lien et un écart entre deux états physiques, deux syllabes ou deux temps.
« Arrêt ou ralentissement marqué des battements du cœur, accompagné de la suspension de la respiration et de la perte momentanée de conscience11 », soit un état où la vie continue de manière implicite, alors que toutes ses manifestations explicites ont cessé.
« Suppression d’une lettre ou d’une syllabe à l’intérieur d’un mot (dénoûment pour dénouement)12 », soit une ablation graphique effacée par un trait d’union vocal, au lieu où l’accent circonflexe inscrit une cicatrice silencieuse.
« Effet de rupture qui se produit dans le discours musical lorsque la régularité de l’accentuation se trouve brisée par le déplacement de l’accord rythmique attendu. On l’obtient par la liaison de la dernière note d’une mesure à la première de la mesure suivante pour en faire une seule note, ou encore par la succession de deux notes dont la seconde a valeur double de la première13. » Il s’agit donc ici encore d’une interruption autant que d’une liaison, qui subvertit la régularité d’une cadence en imposant la singularité d’un rythme.
27La syncope pourrait donc s’entendre comme une union suspensive, un accord décalé, un point critique d’articulation ménageant un espacement entre les éléments qu’il relie. Elle est précisément le lien qui correspond à l’entretien échoïque du son et de l’image filmiques. L’écho filmique est caractérisé par une fêlure intime, un écart constitutif entre deux énonciations distinctes et enchâssées, qui se traduit spatialement par une dislocation entre le lieu où il naît et celui où il trouve un ancrage fictif. En se réfléchissant sur l’image comme sur une surface de rebond, il la réfléchit et la diffracte.
28Par ailleurs la synchrèse n’autorise entre deux phénomènes qu’une coïncidence éphémère qui n’existe que le temps très bref de leur cooccurence. La syncope, en revanche, articule dans le temps leur mutuelle élaboration. Le plan général d’un orchestre interprétant une musique symphonique, composition sonore à laquelle contribue l’ensemble des instruments, invite à une lecture globalisante de la scène. L’occurrence ponctuelle d’un solo de flûte entraîne une tout autre découpe du donné visuel. Le point de synchrèse qui noue le phénomène acoustique à l’instrument précis censé l’avoir émis induit un travail de sélection et l’organisation interne du continuum sonore retentit sur celle de l’image. L’objet-source est désigné à l’attention, tandis que les autres éléments sont relégués en arrière-plan et deviennent un fond, un décor sur lequel la seule flûte se détache. Si, à l’inverse, la musique conserve son caractère symphonique tandis que le cadrage visuel de la scène se resserre, passant d’un plan général à un plan rapproché qui isole le flûtiste à l’image, nous aurons l’impression d’entendre le son de la flûte plus nettement que celui des autres instruments. C’est cette fois la composition interne du donné visuel qui se répercute sur l’articulation de la masse sonore. L’accord rythmique qui noue son et image, interprété comme une synchrèse, apparaît comme un élément intégrateur, traduisant un lien causal qui permet à un phénomène acoustique de trouver son lieu dans un espace prédéterminé. Envisagé comme une syncope, il apparaît plutôt comme un point d’inflexion où se révèle une rupture, une faille du champ représentatif. Il marque le point où image et son entrent en incidence réciproque et désigne l’écart, nappe silencieuse au creux du sonore, lieu d’opacité au cœur du visible, par lequel chacun appelle l’autre non comme sa cause ou son émanation, mais comme ce dont fondamentalement il manque.
29Le spectateur d’un film de fiction ne perçoit qu’exceptionnellement l’hétérogénéité des deux bandes et il a le plus souvent l’illusion d’un dispositif unitaire. Cependant, même au lieu de la plus parfaite synchrèse, lorsque, par exemple, les mouvements d’articulation sont en accord rythmique exact avec les mots dits, vient s’insinuer le sentiment d’une fracture. Voix entendue et voix proférée restent deux phénomènes distincts, dont l’hiatus n’est pas effacé par l’unité du corps dans lequel simultanément ils s’enracinent. Pour illustrer le « bougé » qui subsiste entre la voix et le corps qu’elle tend à rejoindre, Merleau-Ponty le compare précisément à l’entretien du son et de l’image filmique. « Il est assez connu que le cinéma parlant n’ajoute pas seulement au spectacle un accompagnement sonore, il modifie la teneur du spectacle lui-même. Quand j’assiste à la projection d’un film en français, je ne constate pas seulement le désaccord de la parole et de l’image, mais il me semble soudain qu’il se dit là-bas autre chose14. » À côté de la traditionnelle écoute causale induite par l’accord rythmique des deux bandes, s’impose l’écoute des sons dans leur chair. Elle met en jeu un mode particulier d’attention spectatorielle, que l’on pourrait décrire, de manière paradoxale, comme une attitude d’intense abandon, d’engagement passif, comme une forme d’intentionnalité sans objet15. On peut s’interroger sur les conditions propices à l’émergence d’une telle écoute, attentive à laisser surgir plutôt qu’appliquée à la recherche d’un sens ou à l’identification d’une source. Elle nécessiterait, selon Michel Chion ou Laurent Jullier, des consignes de lecture fortes de la part de l’instance d’énonciation filmique, tant la tendance à reconduire les sons à leur source reste prégnante16. Elle exigerait aussi, de la part du récepteur, un retour sur soi, un effort pour analyser et comprendre le processus perceptif lui-même, pour en cerner les possibilités et les limites. Ce serait donc un comportement perceptif peu naturel, toujours second, que l’on pourrait comparer à celui d’un peintre, observateur singulier enclin à porter un regard différent sur le monde. Soucieux d’appréhender le visuel sous le visible, celui-ci exercerait son regard jusqu’à ce que le monde n’apparaisse plus comme un ensemble d’objets reconnaissables, mais comme un faisceau de qualités sensibles, plages colorées ou entrelacs de lignes.
30Ce rapport à une réalité pré-objective, phénoménale, ne serait-il pas au contraire premier ? C’est du moins ce qu’affirme Cézanne, lorsqu’il prétend ressaisir « la virginité du monde » ou « les sensations confuses qu’on apporte en naissant »17. C’est aussi ce que laisse entendre Barthes en détaillant la manière dont la musique de Schumann s’impose à lui comme une « texture de coups » malgré la régularité formelle de compositions soumises au code de la tonalité18. La sensibilité aux couleurs, aux sons est, pour le phénoménologue, la dimension originaire de notre communication avec un monde qui n’aurait pas encore cristallisé en objets. Cette logique sensorielle s’impose comme le retour à une appréhension débarrassée des habitudes acquises. En témoigne le récit qu’Alberto Giacometti fait de l’expérience fondatrice qui a modifié radicalement sa vision du monde, l’empêchant désormais de voir les traits d’un modèle former visage, et l’obligeant à suivre des lignes discontinues jusqu’au vertige.
31Au terme d’un long travail de purification du regard, l’artiste, débarrassé des habitudes mentales qui en contraignaient l’exercice, parvient à ne plus jamais voir la même chose. Ce qu’il cherche à peindre lui apparaît toujours autre, chaque fois nouveau, toujours encore à voir. On connaît l’insistance de Giacometti à faire poser inlassablement les mêmes personnes : son frère Diego, son épouse Annette, quelques amis, surtout après 1947. Chaque fois qu’il s’installe devant le modèle, il a l’impression de le découvrir. C’est, explique-t-il, qu’il a cessé de voir à travers un écran ; et « le connu est devenu l’inconnu, l’inconnu absolu19 », dont aucune représentation n’épuisera la profondeur. Cette conversion du regard peut être précisément datée (1945) ; elle est associée à une séance de cinéma au cours de laquelle Giacometti, subitement frappé par « les images fausses » projetées sur l’écran, a pu s’abstraire de « la vision photographique du monde ».
Je me rappelle très bien, c’était aux Actualités à Montparnasse ; d’abord je ne savais plus très bien ce que je voyais sur l’écran ; au lieu d’être des figures, ça devenait des taches blanches et noires, c’est-à-dire qu’elles perdaient toute signification. […] Alors il y a eu transformation de la vision du tout… comme si le mouvement n’était plus qu’une suite de points d’immobilité. Une personne qui parlait, ce n’était plus un mouvement, c’était des immobilités qui se suivaient, complètement détachées l’une de l’autre et ce qui se disait n’avait plus de sens20.
32Ce récit est très exactement celui d’une syncope. Le cinéma, né du montage de phénomènes épars, est en effet le lieu par excellence où peut se manifester leur désaccord. L’homme en train de parler, que notre œil a appris à reconnaître dans la surimpression approximative d’une ombre et d’un écho, n’est plus, aux yeux de Giacometti, qu’un assemblage automatique de moments discontinus entre lesquels n’existent que des « faux raccords ». Cette représentation syncopée ôte à la figure humaine sa consistance. « L’homme devenait un inconnu total, mécanique », écrit Giacometti. Le personnage à l’écran est défait, ses mouvements suspendus, ses paroles soufflées, dans la dissociation de sons et d’images qui ne prennent plus. « Une personne qui parlait, ce n’était plus un mouvement » : parler n’apparaît plus comme un acte, mais comme un pur événement gesticulatoire. Le geste, les sons entendus simultanément, semblent insensés parce qu’ils ne sont plus sous-tendus par la nécessité d’un faire, par la logique d’une situation à laquelle ils viendraient répondre. Ainsi isolé, hors contexte, privé de but et de justification, l’acte de parole se décompose en éclats sans lien entre eux. Mais, outre la compréhension des gestes, c’est leur perception même qui est affectée. Comme si, toute persistance rétinienne abolie, tout effet de synchrèse annulé, le dispositif cinématographique n’était plus qu’une machine à décomposer le mouvement, à défaire la réalité. Soudain sensible à la facticité des simulacres présentés, Giacometti est aveuglé par les syncopes qui scandent la représentation filmique. Il dira par la suite que cette perception altérée des apparences lui a donné accès à la « profondeur » des êtres qu’il s’efforcera désormais de retranscrire ; une profondeur décrite comme la superposition d’innombrables moments, d’innombrables couches d’une réalité plurielle. Pour approcher cette profondeur du monde, Giacometti dessine à traits brisés. Les interruptions et repentirs qui interdisent de cerner les visages qu’il trace multiplient leurs possibilités de paraître. Le regard de celui qui interroge des dessins aussi flous reconstruit à travers leurs lignes indécises mille portraits divers sans s’arrêter à la certitude d’un seul profil. Pour le peintre comme pour ses spectateurs, l’attention prêtée aux syncopes de la représentation est l’expérience d’une virginité retrouvée ; chaque tableau redevient une esquisse, l’ébauche d’une image sans cesse recommencée.
33Le bouleversement perceptif vécu par Giacometti dans une salle de Montparnasse peut frapper n’importe quel spectateur de cinéma, au moment d’entrer dans la fiction, lorsque le récit s’amorce, juste avant que ne s’enclenche le système de conventions et d’attentes propres à la réception filmique. Les sons et les images s’offrent alors comme autant de propriétés singulières à partir desquelles va s’édifier le monde représenté. Ce moment est propice à l’appréhension de qualités sensibles (le brillant, l’intensité, la stridence, etc.) qui, avant même d’être rapportées à une personne ou à un objet, constituent la part d’affect d’un état de choses.
34Les images initiales du film de Kieslowski, Bleu (1992), sont à cet égard exemplaires. Les neuf premiers plans sont peu explicites mais dotés d’un fort impact émotionnel. Aucun lieu, aucun corps, aucun objet n’est montré dans sa globalité. La seule vue d’ensemble (quatrième plan) découpe un pan de nuit troué par des flashes de lumière intermittents. Une série de gros plans fragmente l’image des choses et des personnes : gros plans d’un pneu glissant sur l’asphalte, d’un liquide fuyant goutte à goutte, d’une main agitant un papier dans le vent. Les mouvements ainsi mis sous la loupe sont accompagnés de sons exactement synchrones. L’effet de synchrèse est d’autant plus net que la scansion du donné visuel et sonore est accusée. Occurrences visuelles et sonores s’articulent selon une rythmique marquée répondant tantôt aux cahots de la route, tantôt à la régularité des gouttes, tantôt aux ondulations du papier. Le travail de la matière sonore propose une véritable composition musicale élaborée à partir d’une gamme nuancée de masses, de hauteurs et de timbres. Le son ainsi modelé sculpte à son tour l’image, lui octroyant un relief singulier. En ce tout début de film, on ne sait pas encore quel sens ni quelle fonction attribuer aux notations visuelles et sonores éparses, et ce n’est qu’au quinzième plan (une voiture écrasée contre un arbre) qu’elles trouveront une justification narrative et se noueront pour devenir les prémisses d’un accident de la circulation. De plus, étant donné l’imprécision et l’inachèvement des objets qu’ensemble ils figurent, sons et images se présentent a priori comme de purs événements sensoriels entre lesquels se tissent des relations non descriptives. À l’alternance d’ombre et de lumière qu’entraînent par exemple les soubresauts de la roue fait écho la modulation sur deux tons du continuum sonore, qui insuffle une pulsation organique à la représentation. L’image informe de la nuit traversée par l’éclat des phares se conjugue au bruit sourd du trafic automobile pour exprimer les qualités sensibles de densité et d’opacité. L’effet sonore, au lieu de s’aligner sur la platitude de l’image, lui ajoute ici une voluminosité indéniable. Les points de synchrèse sont certes l’occasion d’ancrer les phénomènes acoustiques à leur source, mais aussi de faire jouer l’un sur l’autre contrastes sonores et lumineux. Plus le son colle à l’image et plus leur accord excède la simple définition d’objet. Au lieu même de la synchrèse se noue un faisceau de conjonctions plurielles : lien causal, coïncidence rythmique, correspondance formelle, transposition synesthésique. Du donné phénoménal qu’offre ce début de film émergent peu à peu des formes audiovisuelles dont la portée n’est pas nécessairement figurative. La notion de synchrèse, accord contraignant avec un objet préalablement défini, ne rend pas compte ici de la puissance d’effraction et d’ouverture que suppose l’articulation syncopée, jamais résolue, toujours en devenir, d’éléments hétérogènes.
35Si l’ancrage ne scelle qu’un accord furtif entre son et image, le cadrage, en revanche, semble créer entre eux un lien plus étroit : au lieu d’assigner au sonore une origine ponctuelle, il en circonscrit la propagation dans l’espace diégétique, en fixe le point d’émission et le point de réception, et en dessine parfois jusqu’au trajet.
36L’exemple topique d’une telle mise en cadre est celui qu’offre la scène de l’ambassade, dans L’Homme qui en savait trop (Hitchcock, 1956). Dans cette scène, la caméra suit ostensiblement le trajet de la voix de Mrs Mc Kenna (Doris Day). Après un bref panoramique, une succession de plans fixes nous conduit jusqu’à la chambre où est retenu Hank Mc Kenna. La continuité et la cohérence spatiale sont assurées par le retour anaphorique de certains éléments du décor : portes, escalier… En outre, l’orientation des lignes que dessinent rampes, marches, axe du couloir, ainsi que l’effet récurrent de contre-plongée, traduisent visuellement le parcours ascendant le long du grand escalier. La mise en perspective du son même de la voix, de plus en plus faible au fil des différents plans, confirme un éloignement progressif par rapport au point d’émission. Tout concourt à enfermer et à vectoriser le déploiement du chant, dont le point d’impact est mis en évidence par la réaction d’écoute de l’enfant filmé en gros plan. Cette série de plans figure le cheminement invisible du son. Le mouvement de la caméra façonne et restreint la diffusion du sonore. Réciproquement, ménager en creux la place du son oblige à faire du vide dans l’image, à cerner la part d’absence qu’elle recèle.
37Le cadrage d’un objet sonore a toutes les caractéristiques du décadrage21. Décadrer c’est créer un vide au centre de l’image, « focaliser sur des zones mortes ou mornes », accentuer l’aspect tranchant des bords de l’image, perçus comme une entrave au regard, et susciter une tension irrésistible vers le dehors ainsi refusé. Le cadre, à la fois fenêtre et limite, ouvre sur une portion d’espace tout en lui assignant des bornes ; il autorise l’exercice du regard et en restreint la portée. Lorsqu’un personnage, une action significative sont relégués en marge ou en amorce du champ de vision, l’accent est mis sur les fonctions limitatives du cadre. Il n’est alors rien donné à voir que d’insignifiant. Le champ, pénétré de vacuité, représente une zone neutre du monde diégétique et le temps passé à le traverser est vécu comme un entretemps, un temps d’attente qui ouvre une parenthèse dans la trame narrative. Le décadrage joue un rôle suspensif autant que réflexif : il induit le spectateur à se détourner d’une image insatisfaisante pour anticiper celles qui viendront répondre à ses questions. Il rend sensible l’insistance d’un regard empêché et rappelle la présence toute puissante d’une instance organisatrice qui dispense ou retient les informations.
38Le son s’inscrit entre une émission et une réception, il épouse les déplacements du regard qui scrute l’espace entre les corps. Le décadrage, ostension du vide, est précisément l’opération propre à donner lieu au sonore. Dans la scène qui nous occupe, le temps passé à filmer le son dans son écoulement est un temps mort, un moment dont la logique narrative pourrait faire l’économie. Pour comprendre l’interaction qui se joue entre la mère et son fils, et entendre le son comme un acte, il suffit de voir l’une chanter et l’autre capter ce chant. Cet interlude n’a donc qu’une fonction : aiguiser le suspense en retardant l’octroi des informations qui apaiseront les inquiétudes du spectateur. S’attarder à cadrer le cheminement du son, c’est défaire l’image, en souligner l’indigence et en faire un lieu de transition que le regard traverse sans s’y arrêter. C’est distraire l’attention des choses vues pour la faire porter sur le mouvement oculaire qui les parcourt et les dépasse. La fragmentation de la scène en une suite de plans décadrés rend ce mouvement plus sensible que ne le ferait un travelling continu le long des escaliers et des couloirs. Le regard en effet bute constamment sur les bords de l’image au lieu de glisser dans des rails tracés par la caméra. Ces obstacles répétés attisent encore la curiosité pour le dehors dont les images nous privent. La fixité des plans oblige en outre le regard à affronter le vide qu’ils exhibent. L’œil habitué à reconnaître des formes, à identifier des objets, est invité à chercher ce qui ne saurait être vu. Les seules choses visibles sont ici des accessoires décoratifs (tapis, lustres, tentures, rampes ouvragées), dont le luxe convenu accentue l’insignifiance. Dépourvus de toute fonction dramatique comme de tout intérêt esthétique, ces éléments composent l’écrin de l’unique objet dont la saisie importe : la voix de la mère. Celle-ci retient toute notre attention et transforme les choses inertes destinées à meubler l’espace en des réceptacles et des corps conducteurs. Elle n’est pas une forme en creux qui viendrait se couler entre les objets et se plier aux dimensions exactes de l’espace qui les sépare. Elle est plutôt une force d’évidement qui nie l’opacité des corps et inquiète les constructions optiques. La rectitude d’une composition structurée par des horizontales (les marches d’escalier), des verticales (les encadrements de portes) et des obliques (les rampes) est perturbée par le conflit latent qui se joue entre le son et l’image. Les éléments du décor sont massifs et leurs lignes géométriques : ils menacent d’étouffer le chant de Doris Day et ils enferment le regard. Pourtant, les traces acoustiques traversent ce décor et le regard va au-delà des apparences pour tenter de capter l’invisible. Contrairement à un objet sonore virtuel qu’une image muette permettrait seulement d’imaginer, le chant, avec ses inflexions précises et sa résonance singulière, donne forme sensible à cette présence qui vide l’image. Le visible et l’espace qu’il permet de construire s’en trouvent profondément altérés. Ce qui s’expose ne retient plus le regard, intéressé seulement par cette absence qui emplit l’image. Le visible se fait donc transparent, s’efface devant une voix qui vide les lieux et dessine une profondeur sans mesures et sans figure. Les fonctions mêmes du cadre en sont affectées. En tant que limite, celui-ci sépare d’ordinaire le visible de l’invisible ; en tant que fenêtre, il découpe un champ visuel autour duquel se laisse deviner un hors-champ, soustrait à la vue. Mais lorsque l’objet à circonscrire est une trace acoustique, l’invisible pénètre le champ : le cadre offre alors au regard ce qu’il ne peut saisir, il délimite une portion d’espace inaccessible, rebelle à toute construction optique, définitivement infigurable. L’image cerne le son, lui impose un trajet, mais le son ouvre dans l’image un centre aveugle qui la met hors d’elle-même.
39Il s’ensuit pour le spectateur une double expérience perceptive : dessaisissement de l’œil qui cesse de suivre des contours et de discerner des figures pour se perdre dans l’entre-deux qui troue l’image, et saisissement de l’oreille suspendue aux moindres variations d’intensité d’une voix dont le risque d’épuisement précoce constitue l’enjeu même de cette scène. Sera-t-elle assez puissante pour atteindre l’enfant séquestré dans une pièce reculée ? Le spectateur qui scrute les quelques plans où le chant de Mrs Mc Kenna s’empreint, tel un corps subtil, est happé par la profondeur creusée dans l’image ; il se trouve dépossédé de la faculté de fixer et de situer ce qu’il voit. Interdit par cette voix qui s’impose sans s’exposer, l’œil interroge les apparences qui se refusent à figurer le corps vocal. L’ostension du vide fait que l’image nous regarde, s’offrant telle une question qu’il nous appartient d’approfondir. Sensible à cet appel, le regard qui sonde le visible se refuse à enfermer les traces acoustiques dans les limites que dessine un cadrage mobile. Ce cadrage n’est plus perçu comme ce qui donne à voir, mais comme ce qui met l’image en défaut. Cadrer le son, c’est donc montrer l’absence à l’oeuvre. Une absence qui transforme notre attitude perceptive, défait les certitudes optiques et, sous les formes nettes mais creuses, insinue un appel à voir autrement, sur le mode du désir et de la perte plutôt que sur celui de la captation et de la possession. Affronté au vide, c’est-à-dire sans objet précis qui l’attire et l’oriente, le regard construit une spatialité sans repères, où les notions de proche et de lointain s’abolissent. L’espace, devenu le lieu d’une voix, s’offre alors comme une profondeur enveloppante.
40Comme le montre l’examen de cette forme contraignante de cadrage sonore, assigner au son un lieu dans l’image n’est pas la condition de son épiphanie. Il demeure l’élément étranger qui excède le visible et le rend allusif. Loin de combler les espaces vides entre les objets, les traces acoustiques font de chaque image dans son ensemble un lieu de latence qui échappe à toute mesure et désoriente le regard. Ces traces ne prennent pas figure mais donnent voix à l’image et la transforment en une structure d’appel. L’espace de la scène, apparemment homogénéisé par le parcours cadré d’un chant qui en relie les différents fragments, est en fait abîmé par un foyer d’invisibilité insituable et incirconscriptible. Dans cet espace jusque-là soumis aux règles de construction optique s’ouvre une déhiscence qu’aucun artifice de cadrage ne saurait ultérieurement résorber. Dans la scène prise en exemple, le son trouve indéniablement un ancrage diégétique. Un point d’émission et un point de réception lui sont ostensiblement assignés. Mais il reste incommensurable à l’espace que l’œil construit. Les modulations vocales de Dorothy Mc Kenna ne coïncident pas avec le chemin qui leur est tracé dans l’image. Il y a, entre l’espace que définissent les objets visibles et celui que constituent les objets sonores, un chiasme, un lien singulier qui dit à la fois la distinction et la réversibilité des éléments qu’il articule. Les phénomènes acoustiques désignent à l’attention l’atmosphère diaphane qui baigne les objets. Bien qu’elle soit incluse dans le champ de vision, celle-ci en constitue la face aveugle, offerte à la vue mais soustraite au regard. Elle n’accède pas à la visibilité parce qu’elle ne représente rien, si ce n’est le fond aniconique sur lequel s’enlèvent les figures. Un mouvement d’appareil qui prétend circonscrire le parcours d’une trace acoustique ne donne à voir que lui-même, pur déplacement sans objet. L’œil est dévoyé, déporté des corps vers l’étendue amorphe qui les sépare et qui, dans cette opération, passe au premier plan. Le sonore impose la présence de ce lieu originaire qui est à la fois le fond impalpable d’où naissent les figures et le plan de représentation que le regard traverse pour les faire exister. Il met en exergue ce qui, d’ordinaire, demeure inaperçu, mais constitue la condition même de l’émergence du visible22. Ce faisant, il induit un retour de la représentation sur elle-même et oblige le regard à s’interroger sur son exercice, sur ce double mouvement de captation et de dessaisissement qui l’anime. Un cadre vidé et livré au seul bruit du vent, un travelling voué à l’accompagnement d’une émission incorporelle sont des lieux d’opacité réflexive où, sous le spectacle, perce le geste qui donne à voir et celui qui reconstruit. Lorsqu’elles entraînent cette inversion peu naturelle des figures et du fond, les traces acoustiques signalent le point où l’image hésite, où le donné visuel encore informe s’articule. Elles annoncent le site virtuel de la structure énonciative, cet autre invisible qui sous-tend la représentation.
41Le sonore que l’image appelle ne vient pas combler les failles du visible. Résolument hors vue, il lui ajoute une dimension autre, inaccessible, dont aucune figure ne peut répondre23. La modulation réciproque qui caractérise les relations entre les phénomènes acoustiques et l’image où ils sont censés trouver place est l’illustration même de cet entrelacs du visible et de l’invisible. Le son filmique, écrit Gilles Deleuze, a « essentiellement rapport au horschamp ; […] c’est lui qui le meuble et qui remplit le nonvu d’une présence spécifique24 ». La première dimension du hors-champ désigne la portion d’espace qui existe à côté ou autour de celle qu’enclôt le champ. Les occurrences acoustiques confèrent une présence concrète à cet espace plus large au sein duquel se découpe le champ. La seconde dimension du hors-champ, absolue, insiste, comme un ailleurs radical, définitivement exclu de l’espace et du temps homogènes du monde diégétique. Ce lieu inactuel ne saurait être qu’imaginé à partir de souvenirs ou d’expectatives, et reste la dimension du possible. En tant qu’horizon changeant des profils inactuels qui doublent l’image comme autant de projections et de réminiscences, le hors-champ s’immisce au cœur même du champ. Et le son est l’un des éléments qui vient en déceler la présence, insinuant en lui cette dimension virtuelle, cette étoffe temporelle qui le sous-tend et l’anime. Les traces acoustiques font exister l’envers du visible comme une constellation d’aspects multiples que leur représentance véhicule. Le son si particulier qui passe sous le capuchon d’Elephant Man (David Lynch, 1980) est l’élément qui traduit le caractère monstrueux, littéralement immontrable du personnage. Durant la première partie du film, celui-ci n’apparaît qu’à travers le regard exorbité que les autres portent sur lui, ou bien de dos, dans l’ombre, couvert d’un manteau et d’une cagoule qui dissimulent ses formes. Une trace acoustique indistincte, qui est à la fois plainte, râle, déglutition, balbutiement, signale sa présence. Ce bruit est précisément l’incarnation du monstrueux, de ce qui n’a pas de nom ni d’apparence et excède toutes les figures imaginables. C’est un son hybride, qui nie la distinction des genres et mêle l’humain à l’animal. Il désigne avec éclat l’altérité du personnage. Lorsqu’enfin nous voyons l’homme-éléphant, nous ne pouvons qu’être déçus. En accédant à l’image, il perd l’essence même de la monstruosité, c’est-à-dire le fait, justement, de n’être pas figurable. L’immontrable a pris forme et bientôt, habillé, coiffé, policé, il devient un corps décent, apprivoisé, reconnaissable. Il revient alors aux seules inflexions de sa voix mal timbrée et monocorde de rappeler les investissements fantasmatiques que l’image tend à bannir.
42C’est ainsi qu’il faut concevoir cette face inapparente que chaque trace acoustique manifeste, sous la face exposée de l’objet ou de l’être auquel elle s’ancre. Le son renvoie au secret d’une chose parce qu’il la rend étrange, la révèle autre que ce qu’elle paraît être. Il ne dévoile rien de précis mais fait naître à son sujet questions et hypothèses, lui octroie cette aura qui lui interdit de coïncider jamais avec aucune description définie. Au cinéma, l’assujettissement causal du son à l’image fait oublier qu’il indique toujours un au-delà du visible. Même le bruit le plus anodin, le moins symptomatique, le mieux synchronisé, désigne ce qui, de l’objet-source auquel il est ancré, n’apparaît pas. Ce que retiennent les traces acoustiques ne correspond pas à ce qui a été ou sera vu à un moment ou à un autre de la représentation filmique. Elles ouvrent l’image sur cette autre dimension que constitue le paysage dont elles l’adombrent25.
Circulation et désorientation
43Le sonore dérange l’ordre représentatif instauré en décentrant l’attention au moment où, ancré et cadré, il semble le mieux circonvenu ; c’est pourquoi il assume une fonction stratégique dans l’économie de la représentation filmique en y jouant simultanément comme facteur d’intégration et de désintégration. L’écho filmique, formation instable et insituable, permet de séparer, de confondre, de juxtaposer et de distendre ; il fuit les déterminations qu’on lui impose et tend à défaire les catégories dans lesquelles on veut le ranger. Instaurant une circulation et une communication que le cloisonnement optique interdit, le sonore est utilisé pour gommer les aberrations que relevait Jean Epstein, et fait partie des procédés conventionnels destinés à rétablir une feinte cohérence dans la représentation de l’espace. Pour combler les béances de l’espace diégétique, pour situer l’un par rapport à l’autre deux lieux que, visuellement, tout différencie, on recourt en effet à des artifices tels que montage alterné, partition de l’écran en deux zones distinctes, fondu enchaîné, surimpression, incrustation de miroirs ou d’écrans, etc. Les phénomènes acoustiques contribuent à pallier les insuffisances d’une représentation nécessairement compartimentée et lacunaire de l’espace avec plus d’aisance encore que ces figures visuelles. Inscrits sur un autre registre perceptif, ils n’entravent pas la lisibilité de l’image comme pourrait le faire un recours trop massif aux effets de surimpression ou d’incrustation. Son d’ambiance, musique d’accompagnement ou fondu sonore sont autant d’outils employés pour estomper le cloisonnement inhérent au montage et ménager une illusoire homogénéité entre des lieux disjoints.
44Élément exclu du système de représentation optique de l’espace et irréductible à son ordre, le sonore participe cependant de ce système dans la mesure où il l’ouvre imperceptiblement à des rapprochements incongrus. Sa labilité est mise à profit pour associer des lieux qu’aucun indice visible ne relie en les intégrant au même espace d’audibilité. Pourtant cet espace, défini par la seule portée d’un son, ne prolonge ni n’englobe l’espace optique, mais en redistribue l’architecture interne. Au moment même où un phénomène acoustique noue les fragments d’une diégèse qui y gagne en consistance, il remet en question les coordonnées qui la régissent et défait le système qui permet de s’y orienter. Car si une trace ou une nappe acoustique articule deux portions du monde diégétique, elle n’a pas pour vocation d’expliciter la nature du lien spatial qui les rapproche : s’agit-il d’inclusion, de contiguïté ou de prolongation ? Les fragments noués ne trouvent leur place l’un par rapport à l’autre que si des indices visibles, comme la réaction d’écoute orientée d’un personnage, viennent renforcer l’articulation sonore. À lui seul, l’outil de liaison sonore ne peut proposer qu’un espace quelconque, « un espace qui a perdu son homogénéité, c’est-à-dire le principe de ses rapports métriques ou la connexion de ses propres parties, si bien que les raccordements peuvent se faire d’une infinité de façons26 ». Le sonore n’est donc pas un facteur d’homogénéisation, comme on l’avait cru trop vite ; il ne rompt le cloisonnement réducteur d’une construction optique de l’espace qu’en organisant une circulation incessante et multiforme entre ses différentes unités constitutives, et en lui octroyant une plasticité remarquable. Pour extraire un espace quelconque d’un espace déterminé, Deleuze propose trois moyens : l’ombre, élément de prédilection du cinéma expressionniste, la lumière, telle qu’elle est mise en œuvre dans un cinéma de l’abstraction lyrique, et la couleur, lorsqu’elle n’est plus coloriage mais colorisme et, loin de se couler dans des formes préexistantes capte, emporte et met en résonance les objets qu’elle traverse. Le sonore, en raison de son évanescence constitutive, est également un élément qui « noie ou brise les contours et potentialise l’espace en en faisant quelque chose d’illimité ». Dans son emploi le plus ordinaire, lorsqu’il enveloppe la scène d’une ambiance homogène, le son déjà met l’espace en question.
45Dans des films à la narration éclatée comme Nashville (1975) ou Short Cuts (1992), Robert Altman recourt massivement à la faculté d’enveloppement du sonore. La séquence au studio d’enregistrement qui ouvre Nashville insiste d’emblée sur l’intérêt porté au travail du son et en particulier à la composition des fonds. Le chanteur de folk songs que l’on est en train d’enregistrer fait recommencer la prise parce qu’il trouve que l’accompagnement des choristes couvre sa propre voix. Cet incident constitue un commentaire ironique sur la pratique même d’Altman qui refuse d’instrumentaliser les éléments de la bande-son en diminuant l’intensité des sons d’ambiance lorsqu’un dialogue commence. Le plan qui suit immédiatement ce prologue métadiscursif se situe dans une rue où nous voyons démarrer une camionnette équipée de haut-parleurs qui diffusent un flot ininterrompu de propagande électorale. Dans cette occurrence, le discours logorrhéique est entendu comme un son d’ambiance ; le retour d’intonations identiques et un rythme étale le transforment en une rengaine dont le sens importe peu. On enchaîne sans solution de continuité avec un plan dans une cafétéria. La perception assourdie de la même litanie indique cependant la vraisemblable proximité des deux lieux. Dès les premiers plans, nous sommes amenés à construire l’espace de manière kaléidoscopique, en une combinatoire mouvante de fragments qui ne s’emboîtent pas mais qui ensemble sont Nashville. Altman renonce à la cohérence optique pour créer un espace polymorphe dont seuls les sons font l’unité. Nous découvrons successivement des endroits qu’aucun chemin ne relie mais dont des traces acoustiques récurrentes constituent l’horizon. Ainsi la rengaine électorale fait partie de l’ambiance sonore de plusieurs séquences importantes du film : celle de l’aéroport où l’on accueille la vedette Barbara Jean, celle de l’autoroute embouteillée et celle, finale, du spectacle en plein air. Elle signe l’appartenance de cadres locatifs ostensiblement hétérogènes à un univers commun sans pourtant faire de celui-ci un monde clos. Au contraire, en substituant aux liens visibles de concaténation un mode audible de circulation multidirectionnelle, elle réalise cette potentialisation de l’espace dont parle Deleuze. Par ailleurs, on sait que le son de Nashville a été mixé à partir de vingt-quatre pistes différentes : dialogues et bruits provenant de sources multiples se mêlent en permanence sans se confondre. La spécificité de ces fonds sonores est de présenter chaque occurrence acoustique avec une égale audibilité, sans les hiérarchiser en fonction de leur importance narrative. Contrairement à ce qui se passe dans la plupart des films de fiction, le mixage ne conduit pas à entendre certaines occurrences (le plus souvent des éléments de dialogue) mieux que les autres. Dans un tissu dont il est impossible de percevoir simultanément toutes les composantes, le spectateur doit choisir lui-même les éléments sur lesquels il va faire porter son attention. C’est pourquoi le film s’offre à une écoute et plus largement à une lecture plurielles. Dès lors, chacun, en fonction des traces acoustiques dont il aura repéré la récurrence, construira un espace diégétique singulier, fondé sur le système d’associations qu’il aura lui-même élaboré.
46Les modulations acoustiques déploient un espace mouvant, illimité, qui ne comporte aucun système de références : ni coordonnées, ni direction, ni point-origine. Dans un tel espace, on se trouve aussi désorienté que dans la nuit noire. C’est d’ailleurs dans les moments où toute possibilité de voir a disparu que l’expérience d’un déploiement spatial omnidirectionnel est la plus vive. Appelés par une voix dans la nuit, nous sentons littéralement l’espace hésiter, dans l’incapacité où nous sommes de situer précisément le degré d’éloignement et la place où se trouve celui qui appelle. Dans notre effort pour localiser l’origine du cri, nous vivons l’espace en train de se faire, pris dans le mouvement d’une spatialisation qui ne s’achèvera qu’avec l’élection de nouveaux repères. La désorientation liée à l’enveloppement sonore fait donc surgir, à même le sentir, cette forme primordiale de spatialité qui précède toute structuration déterminée. Les sons d’ambiance excluent d’emblée toute interrogation quant à leur source et ne sont donc pas altérés par cette fonction de renvoi qui les empêche de sonner pour eux-mêmes. De tels sons commencent par déstructurer l’espace visible de la scène qu’ils accompagnent. Le spectateur accepte les changements brutaux d’angles ou d’échelles sans en être désorienté parce que tout sens de l’orientation a disparu, le son abolissant toute différenciation locale. Alors l’attention danse d’un point à un autre, dans l’anarchie d’un mouvement libéré de toute contrainte directionnelle. Dans la vie courante, le fait de se retourner exige une inversion complète des coordonnées spatiales : ce qui était devant est désormais derrière, ce qui était à droite passe à gauche, etc. Au cinéma, des déplacements de caméra intempestifs obligent à de tels rétablissements. Leur multiplication inconsidérée conduit au vertige. À l’inverse, le danseur n’a pas à rectifier ses repères : ceux-ci tournent avec lui car l’espace même est en mouvement. Les sons d’ambiance ou la musique qui transforment le vécu de l’espace font accepter au cinéma des déplacements ou des raccords perçus comme aberrants dans l’espace optique.
47Ils induisent un rapport chorégraphique à la représentation filmique27.
48Quand par exemple une rumeur confuse de bruits ou une musique accompagne le gros plan d’un visage, on éprouve, de manière particulièrement vive, ce rapport chorégraphique au film. Le gros plan abstrait l’objet qu’il isole des coordonnées spatio-temporelles dans lesquelles l’inscrit l’action pour en faire le lieu d’expressions plurielles, et le faire accéder à une dimension d’un autre ordre, purement affective. Vus de tout près, les traits du visage échappent à leur contour, ne s’articulent plus autour de la représentation d’un être singulier mais, dans la suspension de toute individualisation, se disséminent sous la pression d’affects qui les transforment en une géographie mouvante28. La musique accroît cet éparpillement de la face en « traits de visagéité », comme en témoignent des moments forts des films de Krzystof Kieslowski. Le réalisateur polonais use et abuse de gros plans et très gros plans d’objets ou de visages. Il excelle à faire jouer sur leurs méplats luisances variées, contrastes accusés, couleurs et sons déréalisants : autant d’artifices qui fouillent et défont les physionomies. Le Hasard (1984) comme La Double Vie de Véronique (1991) s’ouvrent chacun sur un gros plan exemplaire à ce titre. Dans les deux cas, l’apparition d’un visage précède toute identification d’un personnage. Image inaugurale du film, elle nous présente le protagoniste moins comme un individu que comme le nœud d’affects portés à leur paroxysme. Antek, le héros du Hasard, n’est, au début du film, qu’un ensemble de traits incarnant la peur : yeux exorbités, muscles faciaux agités de tremblements, pâleur. Puis, la caméra, en se rapprochant encore, sombre peu à peu dans l’orifice de sa bouche hurlante, engloutissant l’image dans un fondu au noir. Le cri strident contribue ici à mettre le visage hors de lui pour en faire l’expression pure de l’effroi. Véronique est d’abord un visage qui chante ; la musique qui accompagne cette image initiale est résolument insituable. Chant choral, elle émane en partie du visage que nous voyons mais ne peut s’y résoudre tout à fait. En outre, elle se faisait déjà entendre pendant le générique, tel un effet sonore extradiégétique. Cet hymne profondément lyrique aux accents cristallins déforme le visage pour le porter au comble d’une spiritualité quasiment extatique. Pris en contre-plongée, déterritorialisés par le gros plan, délavés d’une couleur jaune qui en gomme les reliefs et livrés à une surexposition croissante, les traits sont progressivement brouillés par la pluie qui se met à tomber de plus en plus dru et dont le bruit se mêle à la musique pour accentuer encore l’effacement des formes. Par intermittence, on retrouve cette musique, associée tantôt au visage de la Véronique polonaise, tantôt à celui de la Véronique française. Elle abolit leur identité respective pour les associer autour d’une qualité commune, cette aspiration spirituelle qui indifféremment les caractérise. D’un même mouvement, elle altère et retrace leur image, exaltant à la fois la dispersion des contours et la recomposition des traits sous la manifestation d’un unique affect.
49L’effet est analogue lorsqu’un son d’ambiance identique baigne plusieurs plans successifs. On peut en voir un exemple dans une œuvre aussi formellement classique que Le Corbeau (Clouzot, 1943). À peu près aux deux-tiers du film, les soupçons se portent sur une infirmière, Marie Corbin, que tout désigne comme le corbeau qui sévit dans la petite sous-préfecture. La foule s’assemble, prête à la lyncher. Elle fuit à travers la ville, poursuivie par la rumeur de voix menaçantes qui scandent son nom. Cet effet sonore conserve un niveau égal tandis que le personnage s’éloigne du lieu où nous savons la meute réunie, donnant l’impression d’un déplacement immobile, alors que nous voyons la femme s’acheminer de l’hôpital à son domicile : où qu’elle aille, elle emporte avec elle le même horizon hurlant. Les plans de rues rectilignes s’enchaînent sagement, mais le son nie leur rectitude et les transforme en autant de voies sans issue d’un vaste labyrinthe. La rumeur ouvre l’espace à l’infini tout en multipliant les possibles articulations des espaces partiels qu’il nous est donné d’observer. Elle fait de la cité le lieu de circulation anarchique des ragots, la chambre d’écho d’un flot calomniateur qui traverse les individus et les lieux comme autant de points de passage anonymes et indifférenciés.
50Orchestrant une véritable chorégraphie du regard, les sons d’ambiance et la musique transforment un espace mesuré et orienté en un site qui peut être parcouru en tous sens.
51Il est possible au cinéma d’instrumentaliser le sonore au point d’en codifier l’emploi pour en faire un élément conjonctif. Le fondu sonore, type de raccord extrêmement codé, intervient lorsqu’existe entre deux plans une relation logique plus complexe qu’un simple voisinage. Il n’est toutefois qu’un signe ambigu et peu explicite, susceptible de revêtir, selon le contexte dans lequel il s’inscrit, des valeurs différentes. Il contribue, associé à d’autres éléments filmiques (linguistiques ou iconiques), à tisser entre deux moments distincts d’un récit un lien de coordination ou de subordination. Il coordonne deux scènes situées en des lieux distincts et distants de la diégèse, lorsqu’il souligne entre elles une relation de simultanéité ou comble une ellipse temporelle signifiée par des indices diégétiques (fragments de dialogue, apparence et comportement des personnages, etc.). Il subordonne deux scènes lorsqu’il accompagne le glissement du présent au passé ou de la réalité au rêve, confirmant une relation d’enchâssement entre deux séquences narratives et entre les deux « mondes » auxquels elles font référence.
52Qu’il participe d’une opération de coordination ou de subordination, l’effet sonore n’a pas pour fonction d’exprimer la nature du lien logique établi entre les plans, mais d’estomper la faille qui pourrait nuire à une élaboration cohérente de l’espace représenté. Le fondu tend un pont artificiel entre les fragments disjoints par une coupe brutale. Il simule un vacillement des frontières et transforme la césure en chevauchement. En cela, il ne diffère pas d’un procédé optique comme le fondu enchaîné. La spécificité de son fonctionnement est ailleurs. L’effet sonore qui relie deux plans relevant chacun de deux scènes situées en deux lieux éloignés l’un de l’autre peut prendre deux formes différentes :
Prolongation en P2 d’une occurrence acoustique perçue comme diégétique en P1. Tout en restant la même, cette occurrence change de statut lors du passage de P1 à P2 : elle devient non diégétique.
Anticipation en P1 d’une occurrence acoustique qui sera perçue comme diégétique en P2, alors qu’elle est interprétée comme non diégétique en P1.
53Dans les deux cas, l’élément sonore excède la durée du plan dans lequel il trouve un ancrage et produit un empiétement temporel supposé gommer une fracture spatiale. La coupe entre les plans est occultée par la nappe de temps inscrite dans la trace acoustique ; l’instant de leur jonction s’en trouve artificiellement étiré, et dans ce suspens se joue un tout autre rapport à l’espace dont le temps pénètre directement la construction. Celle-ci ne s’effectue plus de manière linéaire, au fil de la découverte successive de différents cadres locatifs, mais en profondeur, dans l’écart même ouvert par le fondu sonore. La superposition d’une image et d’un son décalés l’un par rapport à l’autre rend manifeste la séparation des deux bandes, d’ordinaire peu perceptible. En même temps qu’il raccorde deux moments narratifs, cet outil conjonctif signale une disjonction inhérente à l’appareil cinématographique et souligne la division d’une représentation syncopée. Le décalage entre ce que nous observons et ce que nous entendons modifie notre perception, engagée dans le mouvement de la trace. La surimpression d’un son et d’une image déphasés n’est donc pas analogue à celle qui caractérise un fondu enchaîné. Le procédé optique confond deux fragments d’espace en un mutuel effacement. Le fondu sonore met en résonance le lieu que nous voyons et le lieu virtuel qu’il retient ou annonce.
54Le fondu sonore qui marque le début du premier flash-back de La Comtesse aux pieds nus, fait immédiatement suite à une déclaration du narrateur :
Je suis là à les regarder enterrer la Comtesse Torlato-Favrini, dans un petit cimetière près de Rapallo, un lieu qu’elle ne connaissait même pas il y a six mois, devant une statue de pierre qui marque l’endroit. […] Lorsque j’ai ouvert en fondu, la Comtesse n’était pas comtesse. Elle n’était même pas la vedette nommée Maria d’Amata. Elle s’appelait Maria Vargas et elle dansait dans un cabaret de Madrid.
55Sur ces mots retentit une phrase musicale à la trompette, tandis que s’estompe le cimetière, juste avant que n’apparaisse le cabaret madrilène. Préparé par les quelques mots d’introduction qui comportent deux noms de consonance hispanique (Madrid, Maria Vargas), ce phénomène acoustique évoque à lui seul la taverne espagnole typique. Il remplit en cela son office d’outil de liaison, servant à atténuer les béances dans la représentation de l’espace diégétique en nous faisant glisser d’un lieu à l’autre. Mais, derrière l’iconicité générique, se profilent des attributs singuliers, véhiculés par l’intensité, le rythme, le grain, bref la chair de l’occurrence acoustique. Particulièrement éclatante, la phrase musicale se compose de six notes reprises trois fois, chaque fois un ton plus bas et plus rapidement. Le timbre de la trompette, chaud, puissant, lumineux, ajoute encore à la force de l’ensemble. Il confère sa chaleur et sa lumière au cimetière gris et pluvieux dont il accompagne un instant l’image, et fait se lever en lui une face insoupçonnée, apparemment discordante. Or ce cimetière est un lieu stratégique dans le film de Mankiewicz. Y sont réunis trois témoins privilégiés de la vie de l’héroïne. Il apparaît comme une sorte de plaque tournante où le récit nous ramène régulièrement pour nous engager chaque fois dans une nouvelle séquence en flash-back présentée comme la version que l’un de ces témoins donne d’une partie de l’existence de Maria. Le cimetière est également l’endroit où s’arrête la vie de Maria, où son image, emblématisée par la statue érigée sur sa tombe, se fige. Il déborde donc les limites spatiales qui lui sont attribuées pour devenir le point où se nouent les différents aspects d’un personnage, où se rejoignent les différents épisodes d’une vie, le passage obligé où convergent les voix narratives. Cet endroit où nous serons reconduits quatre fois, donne son unité au récit et constitue la clé de voûte de l’architecture du film. Sous l’effet d’un fondu qui rappelle Maria Vargas derrière la Comtesse Torlato-Favrini, le cimetière se double d’un horizon de profils inactuels. Les phrases introductives du retour en arrière sont à l’imparfait et accentuent l’écart temporel et spatial entre les deux séquences. Le fondu sonore permet au contraire de rompre avec la chronologie et d’insinuer grâce à la désynchronisation des deux bandes une autre face de la vie de Maria dans le présent même de la scène de ses obsèques. Il souligne le caractère indissociable des différents profils du personnage tout en contrastes dont le film est la biographie.
56En gommant les écarts que la cohérence visuelle devrait bannir, le son en écho réintroduit en douceur l’ubiquité proscrite et ménage, dans un même plan, la coexistence de plusieurs espaces hétérogènes. Il délie les transports de toute mesure et nous fait franchir des distances invraisemblables, même si c’est de manière moins ostensiblement transgressive qu’un panoramique utopique qui unirait, dans le même mouvement d’appareil, deux lieux que nous savons distincts et distants. Il permet alors de traduire des relations logiques littéralement infigurables telles que le rapport entre le rêve et la réalité, entre le passé et le présent, entre deux moments simultanés mais distincts d’une histoire. Mais cette perspective instrumentaliste n’épuise pas les jeux du son avec l’espace. Celui-ci menace en effet de désintégration le système qu’il contribue à asseoir en désignant les failles de l’espace optique, en insinuant, par exemple, la présence de lieux virtuels au sein même d’un champ représentatif dont ils ne peuvent passer pour les entours.
Notes de bas de page
1 Récemment encore, Laurent Jullier s’est attaché à montrer comment le spectateur distribue spatialement les sons filmiques. Toutefois, en préambule et en conclusion de son étude, il note que « la question de la délimitation de ces espaces constitue un domaine où les certitudes et les cas tranchés sont rares » et que de nombreux « dysfonctionnements » viennent interférer avec les consignes de lecture mises en œuvre, pour empêcher le spectateur d’ancrer correctement un son. L. Jullier, Les Sons au cinéma et à la télévision, Armand Colin, Paris, 1995, p. 95-113. (C’est moi qui souligne.)
2 M. Chion, L’Audio-vision, op. cit., p. 55.
3 Cette assertion de Michel Chion est à cet égard révélatrice : « Le son au cinéma est le contenu ou l’incontenu d’une image. Il n’y a pas de lieu des sons, de scène sonore préexistant déjà dans la bande-son. » Ibid., p. 60.
4 J. Epstein, « Le monde fluide de l’écran », dans Écrits sur le cinéma, t. 2, op. cit., p. 147.
5 Ibid., p. 153.
6 Pour une analyse plus précise de la nature essentiellement dramatique de l’espace filmique, voir J. Aumont, L’Œil interminable, Librairie Seguier, Paris, 1989, p. 134-167.
7 L. de Vinci, Traité de la peinture, p. 64-65 (c’est moi qui souligne).
8 L. Marin, « Aux marges de la peinture », dans De la représentation, Hautes Études, Gallimard-Le Seuil, Paris, 1994, p. 330.
9 « La musique doit rendre sonores des forces insonores et la peinture visibles des forces invisibles. » G. Deleuze, F. Bacon, logique de la sensation, t. I, Éditions de la Différence, 1984, p. 39. Voir aussi à ce sujet G. Deleuze et F. Guattari, Mille plateaux, Éditions de Minuit, Paris, 1980, chapitres 10 et 11.
10 Voir les nombreuses études de bouches hurlantes dans l’œuvre de Louis Marin : Détruire la peinture, Galilée, Paris, 1977, p. 161-170 ; Opacité de la peinture, p. 174-177 ; De la représentation, p. 287-290.
11 Dictionnaire Robert, édition 1990.
12 Ibid.
13 M. Honegger, Dictionnaire de la musique, t. 2, Bordas, Paris, 1976, p. 374.
14 M. Merleau-Ponty, Phénoménologie de la perception, Gallimard, coll. « Tel », Paris, 1945, p. 271.
15 Cette forme paradoxale d’intentionnalité correspond exactement à la description du rapport sensible que nous avons au monde. Husserl lui-même écrit incidemment que les données hylétiques, qui constituent la dimension esthétique-sensible du donné phénoménal, s’offrent à une « intentionnalité sans objet ». E. Husserl, Idées directrices pour une phénoménologie, trad. P. Ricœur, Gallimard, Paris, 1985, § 86, p. 298.
16 La description de telles consignes est proposée par Laurent Jullier, op. cit., chap. 3.
17 Correspondance de Paul Cézanne avec Émile Gasquet, cité par Henri Maldiney dans Regard, parole, espace, L’Âge d’homme, Lausanne, 1994, p. 11-20.
18 R. Barthes, « Aimer Schumann » et « Rasch », dans L’Obvie et l’Obtus, op. cit., p. 259-279.
19 A. Giacometti, op. cit., p. 267. Dans un entretien avec Pierre Dumayet (1963), Giacometti précise : « Diego a posé dix mille fois pour moi ; quand il pose, je ne le reconnais plus. J’ai envie de le faire poser pour voir ce que je vois. Quand ma femme pose pour moi, au bout de trois jours, elle ne se ressemble plus. Je ne la reconnais absolument plus. » Ibid., p. 285.
20 Ibid., p. 263.
21 Voir P. Bonitzer, Peinture et cinéma, décadrages, Cahiers du cinéma/Édition de l’Étoile, Paris, 1985, p. 7987.
22 Ce lieu matriciel où s’originent toute forme et toute couleur correspond précisément au diaphane, selon la définition bien connue qu’en donne Aristote. « Ce qui, bien que visible, n’est pas visible par soi à proprement parler, mais à l’aide d’une couleur étrangère. Tels sont l’air et l’eau. » Aristote, De l’âme, II, 7.418a, trad. J. Tricot, Vrin, Paris, 1972, p. 105-106.
23 « L’invisible n’est pas la contrepartie du visible : le visible a lui-même une membrure d’invisible et l’in-visible est la contrepartie secrète du visible, il ne paraît qu’en lui […], on ne peut l’y voir et tout effort pour l’y voir le fait disparaître, mais il est dans la ligne du visible, il en est le foyer virtuel, il s’inscrit en lui (en filigrane). » Merleau-Ponty, Le Visible et l’Invisible, op. cit., p. 269.
24 G. Deleuze, L’Image-temps, Éditions de Minuit, Paris, 1985, p. 305.
25 Adombration (du latin adombratio, esquisse) est un mot emprunté aux traducteurs de Husserl. Il désigne le mode de perception d’une chose « en esquisses », par opposition au mode de perception d’une image qui se donne tout entière à l’instant où on la regarde. Chaque profil actuellement perçu est adombré par l’horizon des profils inactuels sur lequel il s’enlève.
26 G. Deleuze, L’Image-mouvement, Éditions de Minuit, Paris, 1983, p. 155-169.
27 Par analogie avec le « moment chorégraphique de la peinture » dont parle Henri Maldiney lorsque la couleur n’est plus descriptive d’objets mais constitutive d’espace. Regard, parole, espace, op. cit., p. 142.
28 Voir G. Deleuze, L’Image-mouvement, op. cit., p. 125-144.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Le Temps d'une pensée
Du montage à l'esthétique plurielle
Marie-Claire Ropars-Wuilleumier Sophie Charlin (éd.)
2009
Effets de cadre
De la limite en art
Pierre Sorlin, Marie-Claire Ropars-Wuilleumier et Michelle Lagny (dir.)
2003
Art, regard, écoute : La perception à l'œuvre
Pierre Sorlin, Marie-Claire Ropars-Wuilleumier, Michele Lagny et al. (dir.)
2000