Chapitre 5. La parole, entre objets vocaux et objets du monde1
p. 165-199
Texte intégral
La parole transdisciplinaire
1La parole est l’ensemble des mécanismes (de perception, d’action) qui permettent aux humains de communiquer par le langage oral. Elle est la prise en charge directe du langage par le corps2. Corps perceptivo-moteur (percevoir, produire), corps audio-vocal (une bouche pour parler, une oreille pour entendre), ou plutôt audio-visuo-orofacial (l’œil perçoit les gestes du conduit vocal et de la face, autant que l’oreille les entend) et même audio-visuo-oro-facio-brachio-manuel : la main accompagne la voix du geste, d’une manière qui apparaît de plus en plus comme intrinsèque et générale. Ce corps multiple, dont nous aurons l’occasion de passer en revue les différents segments, est aussi un corps cognitif, évidemment, c’est-à-dire un corps sous le contrôle du cerveau pour ses capacités de coordination motrice et de traitement de l’information perceptive – et réciproquement, si l’on considère que le cerveau est le siège d’une cognition incarnée (embodied) dans laquelle les actes cognitifs moteurs et perceptifs couplent corps et cerveau de manière presque indissociable.
2Un corps multiple et cognitif, donc, qu’il s’agit, pour la parole, de brancher sur le langage, c’est-à-dire de mettre en situation de faire sortir le langage du cerveau d’un interlocuteur A pour le faire entrer dans celui d’un interlocuteur B – ou comment A cherche à changer l’état du cerveau de B, à distance, au moyen de signaux de communication véhiculant une structure linguistique. La parole est donc l’ensemble des mécanismes cognitifs capables de véhiculer ces signaux pour faire passer des unités linguistiques de A à B3.
3Ainsi, notre corps perceptivo-moteur aux segments multiples et sous contrôle cognitif doit-il être branché sur un système de communication sophistiqué, le langage, qui lui impose ses principes de fonctionnement et ses structures propres. La parole est façonnée pour s’interfacer avec ce que Chomsky (1981) nomme « l’organe du langage »... et peut-être le façonner quelque peu en retour, nous le verrons. La parole est donc, finalement, un système d’articulations par nature, articulation entre gestes (multi-effecteurs, de la voix, de la face et de la main) et percepts (multisensoriels, de l’audition, de la vue, voire du toucher) d’une part, et entre signaux et sens d’autre part, c’est-à-dire, dans un premier temps, entre objets sonores (perceptivo-moteurs) et objets du monde (en un sens très général). Ceci fait de la parole un système cognitif par excellence, dont l’étude associe de manière ancienne et profonde des disciplines aussi diverses que :
- la physique, pour étudier les mécanismes de génération acoustique des sons ;
- la (neuro)psychophysiologie cognitive, pour décrypter les mécanismes de perception et d’action, leur développement, leurs pathologies ;
- les sciences du langage, pour décrire les structures linguistiques, du phonème (phonologie) au mot (lexique), à la grammaire (morphologie, syntaxe) et au sens (sémantique, pragmatique) ;
- le traitement de l’information, pour analyser les contenus informationnels des signaux et les structures formelles des langues, modéliser les processus de perception et d’action, en déduire des algorithmes et des systèmes d’interface et de dialogue ;
- la primatologie et l’anthropologie, pour placer ce corps cognitif dans son environnement phylogénétique.
4Pour coordonner ces différentes disciplines, on a vu naître dans le monde un certain nombre de laboratoires centrés sur la « communication parlée ». Ces laboratoires regroupent typiquement quelques équipes de chercheurs provenant des disciplines requises et s’attaquant de manière collaborative à l’étude de la parole. La communication parlée s’est ainsi forgée, dans les cinquante dernières années, une histoire intégratrice, avec ses congrès, ses revues (comme Speech Communication, Journal of Phonetics, Computer Speech and Language, Language and Speech, Journal of Speech Language and Hearing Research ; et bien sûr des revues plus disciplinaires telles que IEEE Transactions on Speech and Audio Processing, Acta Acustica, Journal of the Acoustical Society of America, Hearing Research, Perception and Psychophysics, Brain and Language, Journal of Neurolinguistics, etc.), ses échanges, et même son association internationale, née à Grenoble en 1988 sous le nom d’ESCA (European Speech Communication Association), devenue maintenant ISCA (International Speech Communication Association), et organisant chaque année un congrès, Interspeech, qui réunit pendant une semaine un millier de chercheurs échangeant sur tous les domaines de la communication parlée. Cette histoire a même été épistémologiquement théorisée par la communauté française, avec les travaux de Boë et Liénard (1988, 1988-1989) et de Teston (2004) sur l’émergence des « sciences de la parole», qui se sont constituées en véritable domaine scientifique par une réorganisation de savoirs, partagés au départ par plusieurs disciplines partenaires, à travers un certain nombre de ruptures épistémologiques dont on peut faire l’analyse précise.
5Nous allons, dans ce qui suit, organiser la présentation autour de deux questions centrales. Dans un premier temps, nous étudierons de quoi sont constitués les « objets sonores », structurés par le lien perceptivo-moteur, construits dans le développement et probablement façonnés par la phylogenèse. Puis nous plongerons ces formes sonores et gestuelles dans leur relation avec le monde, en analysant comment elles permettent d’attirer l’attention de l’interlocuteur vers les objets du monde auquel réfèrent les objets vocaux, pour construire la relation forme/substance qui définit le langage humain (Saussure 1972 [1916])4.
Des objets vocaux nés de la matrice perceptivo-motrice
6Pour rester dans notre optique résolument pluridisciplinaire, nous allons chercher à décrire les objets vocaux qui servent à produire le langage oral, en combinant librement des logiques différentes, celle de la primatologie comparée pour estimer les capacités de communication (alternatives et préexistantes), celle du développement pour apprécier comment s’acquiert la maîtrise de ces objets, celle de la psychologie cognitive pour en décrire le fonctionnement mature, et celle de la phonologie pour savoir comment sont structurés les signaux en systèmes de communication langagière.
Les briques de base d’un système de communication
7Pour communiquer, il faut mettre en contact deux agents cognitifs dotés de capacités de production de signaux informatifs, et de perception de ces signaux. Le premier agent doit être capable de contrôler des actionneurs (des membres, de la face, de la voix) pour coordonner la production de signaux de communication, informatifs et donc variés. Le second agent doit être capable de percevoir ces signaux, par l’un ou l’autre de ses canaux sensoriels (audition, vision, toucher), et d’extraire des catégories pertinentes, à travers la variabilité des réalisations observées. Les deux agents doivent enfin pouvoir échanger leur rôle, et connaître ainsi les correspondances entre actions productrices de signaux et catégories perceptives extraites de ces signaux, et ceci en respectant un principe de parité qui est que les signaux produits par un agent et perçus par l’autre réfèrent bien au même message.
Les systèmes de communication animaux
8Communiquer, c’est disposer de moyens de changer le comportement d’un partenaire, qu’il soit de son espèce ou d’une autre. Cette capacité très générale est présente chez les animaux sous des aspects très génériques : communication sexuée qui englobe l’ensemble des parades amoureuses ; communication de trace ou de territoire ; communication agoniste qui implique les comportements de menace ou de marquage du territoire ; communication reliée à la nourriture, notamment dans la relation entre parents et progéniture. La communication passe par des signaux, qui peuvent comporter des aspects de variation contrôlée et d’apprenabilité, comme dans la communication vocale par excellence qu’est le chant des oiseaux.
9Chez les primates non humains, deux systèmes de communication ont été particulièrement étudiés jusqu’à être proposés comme de possibles précurseurs du langage humain. D’abord, les gestes communicatifs sont attestés chez de nombreuses espèces de singes : gestes de menace (Meguerditchian et Vauclair 2006), gestes de désignation ou de « pointage », sur lesquels nous reviendrons dans la section suivante (Hopkins et Leavens 1998 ; Leavens 2004). Mais certaines espèces de singes semblent également disposer de systèmes de communication vocale, notamment les singes vervets, dont les cris d’alerte distinguent trois types de prédateurs : l’aigle qui vient du ciel, le léopard qui accourt et le serpent caché dans le sol (Cheney et Seyfarth 1990).
10Un débat s’est instauré entre primatologues pour estimer lequel de ces deux systèmes de communication, gestuelle ou orale, constituerait le précurseur le plus plausible du langage humain. La communication gestuelle dispose de spécificités qui en font un bon candidat, ce qui était remarqué dès le xviiie siècle par le philosophe Condillac. D’une part, elle semble dotée de bonnes propriétés de contrôle intentionnel et de spécialisation fonctionnelle (flexibilité), qui en font par excellence un système de communication sociale puissant (Corballis 2003 ; Meguerditchian et Vauclair 2009 ; Vauclair 2004). D’autre part, ce système est naturellement prédisposé à contenir des capacités référentielles, puisqu’un geste peut renvoyer par ses propriétés intrinsèques à des éléments du monde extérieur (« iconicité »). Le pointage en fournit un point de départ évident, permettant au singe d’orienter l’attention vers l’objet désigné (Leavens 2004). Arbib (2005) propose qu’à partir des capacités d’imitation attestées chez les primates, des gestes plus complexes puissent, par leurs propriétés d’affordance aux objets et aux actions qu’ils impliquent, référer à ces objets et à ces actions (Rizzolatti et Arbib 1998). De là se mettrait en place un système de « pantomime », précurseur de « protosignes » qui conduiraient au langage humain.
11Mais la communication vocale n’est pas sans argument. Contrairement aux visions initiales, elle n’est pas totalement captive d’un système de contrôle émotionnel déclenchant des comportements réflexes. Elle apparaît au contraire de plus en plus comme complexe, flexible et tactique, c’est-à-dire contrôlée jusqu’à un certain point en fonction de l’objectif de communication (cf. les travaux de Slocombe et Zuberbühler [2005], sur les cris associés à la nourriture chez les chimpanzés) jusqu’à englober des capacités de combinatoire syntaxique complexe (avec séquencement contrôlé et informatif de vocalisations « élémentaires » ; Arnold et Zuberbühler 2006). Et elle fournit une continuité de moyens avec la parole, qui semble simplifier le chemin phylogénétique vers le langage oral (MacNeilage 1998).
12De plus en plus, on peut considérer que les liens fonctionnels entre geste et voix, du singe à l’enfant et à l’homme, en font un système de communication multimodal qui fournit sans doute dans sa globalité un chemin vers le langage. C’est ce qu’Arbib (2005) propose dans sa vision d’une phylogenèse « en hélice », gestes et vocalisations fournissant des passages emboîtés allant progressivement vers la complexité du langage humain. Nous aurons l’occasion de préciser notre vision propre d’un bootstrap multimodal vers le langage à travers la deixis, dans la section « Des objets vocaux aux objets du monde », p. 177.
Les premiers sons de la parole : mettre la voix en mouvement
13Pour porter une information par la voix, il faut pouvoir en moduler la couleur acoustique. Pour le chant des oiseaux, cette modulation porte sur la hauteur de la voix, que les humains contrôlent, eux, par leurs cordes vocales. Toutefois, pour la parole humaine, la modulation essentielle ne porte pas sur la hauteur, mais sur le timbre, à travers la modulation des résonances du conduit vocal – que l’on nomme les formants. Pour varier les résonances, il faut changer la forme de la bouche – la forme du conduit vocal – en bougeant la mâchoire, la langue, les lèvres, et d’autres « articulateurs ». On peut changer aussi la hauteur du son pour produire la « prosodie », le chant de la parole. Nous y reviendrons.
14Prenons alors un moment le point de vue ontogénétique fourni par l’étude du développement de la production du langage chez l’enfant. Le bébé est capable dès la naissance de vocaliser : il crie, il pleure. Mais ses vocalisations sont peu modulées. Il sait pourtant produire du mouvement de ses articulateurs, en bougeant sa mâchoire et sa langue pour se nourrir – téter d’abord, puis commencer à ingérer des aliments. Le miracle survient lorsque vers 7 mois, il couple ces deux capacités, en expérimentant ce que cela fait de vocaliser et bouger la mâchoire : il commence à effectuer des cycles de mâchoire comme il expérimente le mouvement de ses bras et de ses jambes par des cycles de flexion/extension, également vers 7 mois (Thelen 1981). On observe alors le « babillage canonique » au cours duquel le bébé expérimente les modulations de sa voix en effectuant ces cycles de mâchoire vocalisés, qui produisent des sortes de syllabes – des « protosyllabes » – telles que « ababa » ou « adiadia », selon que, en fermant sa bouche, le bébé ferme plutôt ses lèvres pour « ba » ou plutôt sa langue ramenée par la mâchoire vers l’avant du palais proche de dents, pour « da » ou « dia » (Davis, Kern, Vilain et Lalevée 2008).
15MacNeilage et Davis (2001) ont théorisé cette découverte des sons de la parole à travers la théorie Frame-Content (« cadre et contenu »), selon laquelle la parole, née de ces cycles de mâchoire modulant la voix, débouche ainsi spontanément sur des alternances de « protovoyelles » (lorsque la bouche est ouverte) et de « protoconsonnes » (lorsqu’elle est fermée), qui dessinent le précurseur de la syllabe, présente universellement dans les langues (cf. Rousset 2004). Ils extrapolent ce chemin d’exploration/construction vers la phylogenèse, en faisant de la mastication une étape clé vers la découverte de modulations orofaciales qui fourniraient un précurseur du langage humain (MacNeilage et Davis 2005).
Des gestes vocaux sélectionnés pour leur efficacité perceptive
16La modulation vocale ayant été « inventée » par ce possible bootstrap ontogénétique, voire phylogénétique, fourni par les gestes de la mâchoire disponibles dans la mastication, il faut élargir et développer ces capacités de production de signaux vocaux. Ces signaux doivent être informationnels, rappelons-le, donc contrastifs, susceptibles d’être discriminés et catégorisés efficacement par le partenaire.
17Sur ce principe se sont développées des théories de ce que l’on peut baptiser une « morphogenèse des sons du langage », cherchant à déterminer ce qui fonde un « bon geste vocal » et surtout un « bon ensemble de gestes » – ou de sons – pour servir de support à un système linguistique.
18Le plus bel exemple est la théorie de la dispersion du phonéticien suédois Lindblom, développée depuis le début des années 1970. Pour en expliquer le principe, partons des gestes articulatoires permettant de produire des voyelles. Les humains disposent typiquement de trois degrés de liberté pour moduler la forme de leur conduit vocal dans la production des voyelles. En abaissant la mâchoire et la langue, on va vers des voyelles « ouvertes » comme le [a] (de « pas »). En remontant langue et mâchoire, sans fermer complètement le conduit vocal (sous peine de produire des consonnes plutôt que des voyelles), on va vers des voyelles « fermées » que l’on peut produire soit en avançant la langue (comme dans [i], de « pis »), soit en la reculant (comme dans [u] de « pou »). On peut également jouer sur les lèvres, arrondies et presque fermées pour [u] et [y] (de « pus ») ou étirées pour [i]. Ainsi, l’espace des gestes vocaliques est essentiellement tridimensionnel5. Au sein de cet espace, si vous aviez à sélectionner trois voyelles les plus différentes possible, lesquelles choisir ? [i a u] semble un excellent choix : [i] est fermée (langue haute), antérieure (langue en avant) et non arrondie (lèvres étirées), [u] est fermée, postérieure (langue en arrière) et arrondie (lèvres arrondies) et [a] est ouvert (avec en conséquence une langue en position centrale, et des lèvres forcément ouvertes également). Bon choix ! Presque toutes les langues utilisent [i a u], selon la base de données UPSID, qui fournit un échantillon représentatif de presque 10 % des 6 000 ou 7 000 langues du monde (Maddieson 1984 ; Maddieson et Precoda 1989).
19Mais un autre choix semble tout aussi bon : il consiste à échanger la configuration de la langue et des lèvres entre [i] et [u], remplaçant [i] par [y], langue antérieure, lèvres arrondies, et [u] par [LU], langue postérieure, lèvres étirées – voyelle présente notamment dans certaines langues asiatiques, et qui ne correspond donc à aucun son prononçable en français (pour la produire, il faut partir d’un « ou » et étirer les lèvres comme pour un « i », sans changer la position de la langue : pas facile...). Mauvais choix ! Aucune langue au monde ne se contente de ces trois voyelles, et le son [y], peu présent dans les langues (8 % seulement des langues de la base UPSID contiennent cette voyelle, le français comptant parmi ces 8 %, au contraire d’autres langues latines comme l’italien ou l’espagnol), n’apparaît jamais sans [i], La raison en est auditive. On caractérise en général une voyelle par ses résonances acoustiques, les formants, et plus précisément par les formants les plus bas, qui sont aussi les plus saillants perceptivement. Dans le plan des deux premiers formants F1 et F2, les voyelles se projettent toutes dans un triangle dont [i a u] sont les sommets, [y] et [LU] étant beaucoup plus proches l’une de l’autre que [i] et [u] (cf. figure 1). Ainsi, les langues choisissent les gestes en fonction de leur valeur perceptive : leur « dispersion », dans la terminologie de Lindblom (Liljencrants et Lindblom 1972 ; Lindblom 1986, 1990). Si l’on ajoute un second critère perceptif de « bonnes formes acoustiques », stables en mémoire, formes dites « focales » (Boë et Abry 1986 ; Schwartz, Abry, Boë, Ménard et Vallée 2005), on obtient la théorie de la dispersion-focalisation (TDF ; Schwartz, Boë, Vallée et Abry 1997), qui produit d’excellentes prédictions des systèmes vocaliques des langues du monde.
20On peut sur le même principe essayer de comprendre pourquoi parmi les fricatives (sons produits avec une obstruction dans le conduit vocal, générant du bruit), les langues sélectionnent plus fréquemment les fricatives « non voisées » comme [s] de « sou » ou [S] de « chou », produites sans action des cordes vocales, plutôt que des fricatives « voisées » comme [z] de « zut » ou [Ʒ] de « geai » (Boë, Vallée, Badin, Schwartz et Abry 2000) ; et aussi pourquoi parmi les plosives (sons produits par une fermeture complète du conduit vocal, réalisée par les lèvres ou la langue), [p] (de « pou »), [t] (de « tout ») et [k] (de « cou ») fournissent les meilleurs lieux de fermeture, utilisés prioritairement par les langues (Abry 2003).

Figure 1. – Les trois dimensions articulatoires de l’espace des voyelles orales (a) et leur projection auditive dans l’espace des deux premiers formants (b).
21En résumé, les signaux de communication des langues orales sont des gestes modulateurs à forte valeur perceptive, permettant de produire des sons contrastifs perçus efficacement. Sur ce principe, on peut comprendre l’émergence des syllabes (selon la théorie Frame-Content), puis les consonnes et les voyelles sélectionnées pour leurs qualités acoustiques propres et systémiques (selon la théorie de la dispersion-focalisation).
Des objets sonores et visuels
22Ces gestes vocaux sont perçus par l’oreille, mais aussi par l’œil : la perception de la parole est audiovisuelle. Cette propriété a longtemps été conçue comme annexe et essentiellement utile aux sourds via la lecture labiale. On sait maintenant qu’elle est en réalité utile à chacun, particulièrement en situation de perception délicate : dans le bruit (Erber 1975 ; Benoît, Mohamadi et Kandel 1994) ou en langue étrangère (Davis et Kim 1998). On commence même à découvrir que voir nous sert à mieux entendre (Schwartz, Berthommier et Savariaux 2004), c’est à-dire à améliorer nos capacités à extraire le signal dans le bruit, ce qui est générateur de nouvelles techniques de « débruitage du son par l’image » (Girin, Feng et Schwartz 2001 ; Sodoyer, Girin, Jutten et Schwartz 2004).
23On peut même supposer que les langues ont sélectionné certains phonèmes pour leur visibilité plus que pour leur audibilité : ainsi, le contraste [m]/[n] est bien visible (particulièrement le [m], bilabial et dont la visibilité est fort appréciée des enfants dans le babillage), mais peu audible (Mills 1987), et pourtant fortement prisé par les langues du monde (Schwartz, Boë et Abry 2007).
Des objets à contrôler et à catégoriser : éléments d’une théorie perceptivo-motrice
24Nous disposons ainsi d’objets vocaux, supports des phonèmes des langues : voyelles et consonnes alternant dans des syllabes universelles, gestes orofaciaux produits par la coordination de la source vocale et des articulateurs-modulateurs (mâchoire, langue, lèvres et autres) pour créer des stimuli perceptifs efficaces. Face à ces objets, les systèmes de perception et de production de la parole s’organisent dans le développement, jusqu’à maturité.
25Le système de production de la parole doit gérer les enchaînements, les séquences, au sein de « partitions gestuelles » complexes. Pour ce faire, il utilise des stratégies d’économie articulatoire sophistiquées. Pour enchaîner le « p », le « s » et le « eu » de « pseudo », par exemple, le locuteur peut, en même temps qu’il ferme ses lèvres pour préparer le « p », monter sa langue vers son palais derrière ses dents pour préparer le « s » et projeter les lèvres vers l’avant pour le « eu » qui suivra : il ne lui reste alors qu’à lancer presque en même temps les gestes lui permettant de faire sonner le « p » en dévoilant quasi instantanément le « s » et le « eu ». C’est ce que l’on nomme la coarticulation, qui suppose de mettre en œuvre des stratégies de contrôle complexe d’un système biomécanique et aéroacoustique sophistiqué (Fuchs et Perrier 2008).
26En retour, la coarticulation se traduit par une superposition articulatoire qui se projette en une coarticulation acoustique complexe, qui fait du son d’un « p » un produit englobant les caractéristiques du « p », mais aussi celles de ses voisins, le contaminant en quelque sorte de la coloration, dans notre exemple, du « s » et du « eu ». Les débats entre chercheurs sont vifs pour déterminer comment peut se traiter la résolution perceptive de cette complexité du passage de l’articulatoire à l’acoustique. Le débat oppose tenants d’une solution « auditive » (à base d’apprentissage de processus de catégorisation exploitant des connaissances statistiques sur des séquences sonores) et tenants de solutions « motrices » (selon lesquels l’auditeur dispose de moyens de retrouver les gestes articulatoires à l’origine des sons et, partant, d’en démêler plus aisément l’écheveau).
27Nous défendons, quant à nous, une voie moyenne dans laquelle les gestes sont bien catégorisés sur leur valeur auditive et multisensorielle, mais en intégrant dans le décodage des composantes motrices qui définissent les catégories et co-construisent perception et action (Perception for Action Control Theory, PACT ; Schwartz et alii 2007 ; Schwartz, Sato et Fadiga 2008). Les unités de la communication, fondant la « parité » entre locuteur et auditeur, sont dans la PACT intrinsèquement perceptivo-motrices.
28Ces débats renvoient à une littérature en pleine expansion sur les relations entre représentations perceptives et motrices dans le cortex grâce à un arc dorsal reliant les aires sensorielles et temporales et les aires motrices frontales à travers une connexion pariétale. De la sorte, l’audition, la vision et la proprioception se trouvent articulées au sein de représentations multisensorielles phonologiques (cf. Schwartz et alii 2008, pour une revue).
Des objets vocaux aux objets du monde
29Les objets vocaux sont les formes sonores signifiantes qui nous permettent de communiquer sur les objets du monde. Comme nous l’avons mentionné plus haut, il a été proposé récemment que le lien entre objets vocaux et objets du monde s’établisse par le geste de pointage. Nous allons essayer de montrer dans la présente section que le pointage est beaucoup plus qu’un geste co-verbal, qu’il peut être considéré comme une des racines de la communication parlée car son émergence chez le bébé est liée aux étapes du développement langagier, mais aussi parce que « montrer du doigt » (et de l’œil) pourrait bien être proche neuro-physiologiquement de « montrer de la voix ».
Le pointage, un système puissant de mise en relation multimodale avec les objets du monde
30Le pointage est la capacité d’attirer l’attention d’autrui vers un objet du monde pour que cet objet devienne le centre de l’attention partagée. Le pointage présente de nombreuses caractéristiques qui en font un sujet d’étude passionnant pour les sociologues, les anthropologues, les historiens de l’art, les éthologues, les linguistes et les spécialistes du développement de l’enfant.
31Une première caractéristique du pointage est qu’il est ubiquitaire. Le geste de pointage canonique, avec l’index et le bras tendus dans la direction de l’objet d’intérêt et les autres doigts repliés sous la paume (appelons-le « pointage avec l’index » ou « pointage digital »), est omniprésent au quotidien dans la plupart des cultures du monde. On l’observe dans les communications orales aussi bien que signées. Dans certaines langues des signes, le geste de pointage digital est même utilisé linguistiquement, pour l’indexicalité référentielle (les pronoms). Il transparaît également dans notre vocabulaire, dans des mots comme « indiquer », ou « mise à l’index », ainsi que dans nos icônes ou symboles (comme celui-ci : tellement apprécié de nos collègues phonologues...).
32Le pointage présente aussi la caractéristique d’être universel. Il a été affirmé que le pointage digital est une capacité universelle partagée par tous les êtres humains (cf. Povinelli et Davis 1994). Dans certaines cultures, cependant, le pointage avec l’index peut être remplacé par un pointage labial (cf. Wilkins 2003). Mais les gestes de pointage, qu’ils soient produits avec l’index, la main tout entière, les lèvres ou le menton, restent un outil de communication crucial chez l’ensemble des humains.
33Une autre spécificité du pointage est qu’il a un long passé historique. Même si l’on ne s’y intéresse scientifiquement que depuis peu, le pointage digital n’est pas une invention du xxe siècle. L’art européen nous en donne de précieux témoignages. Les peintures de pointages les plus célèbres sont probablement celles de Léonard de Vinci, qui remontent au xve siècle (La Vierge aux rochers, 1483-1486 ; Saint Jean-Baptiste, 1513-1516). Mais on peut trouver des traces de pointage bien plus précoces, notamment dans la Tapisserie de Bayeux, brodée autour de la fin du xie siècle et qui raconte, à travers un foisonnement de pointages, la conquête de l’Angleterre par les Normands en 1066. De plus, les témoignages de pointage ne se rencontrent pas seulement dans l’art européen. On en trouve aussi en Asie, dans l’art birman du xviiie siècle, par exemple.
34Le pointage a pour caractéristique d’être une capacité relativement évoluée. Il a longtemps été affirmé que le pointage est une spécificité humaine et que les grands singes, par exemple, ne pointent pas (cf. Povinelli, Bering et Giambrone 2003). Mais des travaux plus récents de Leavens, Hopkins et Bard (2005), notamment, ont montré que les chimpanzés en captivité sont capables de pointer vers de la nourriture inaccessible. Et, comme les bébés humains, ils le font spontanément, sans apprentissage explicite. Ainsi, bien que le pointage ne semble pas être spécifique aux primates humains, puisque les grands singes (et peut-être d’autres animaux) en sont capables, il semble que ce soit un comportement social sophistiqué, utilisé par des animaux évolués, capables d’imitation et de communication interindividuelle (Pollick et de Waal 2007).
35Le pointage a aussi la particularité d’être multimodal : il peut être manuel (ou digital), labial, facial, oculaire et... vocal. Comme nous l’avons décrit plus haut, le pointage est le plus souvent digital, c’est-à-dire réalisé avec un index étendu. Il peut aussi être manuel, c’est à-dire que toute la main est étendue (avec la paume vers le haut ou la main verticale ; Kendon 1996). Il existe aussi un pointage avec les lèvres protruses, observé sur tous les continents (Panama, Australie, Papouasie Nouvelle-Guinée, Ghana, Amérique du Nord ; cf. Wilkins 2003). En fait, de nombreuses parties du corps sont utilisées pour pointer : la tête, les lèvres, le menton, le coude, le pied, le bras, la main (Kendon 1996). Le pointage oculaire ou regard déictique est également fréquent. C’est la capacité de regarder alternativement un objet et l’interlocuteur. C’est pour l’interlocuteur une invitation à regarder l’objet qui devient le centre de l’attention partagée. Le pointage vocal correspond à ce que l’on appelle parfois la deixis ou la focalisation. En français, comme dans beaucoup de langues, la deixis vocale peut être exprimée par l’extraction syntaxique, en utilisant une forme présentative déictique, comme dans l’exemple suivant : « C’est Jean-Luc qui a réparé mon vélo ». Elle peut également être exprimée en utilisant la focalisation prosodique contrastive, c’est-à-dire en appliquant un contour intonatif (une mélodie) spécifique sur le constituant vers lequel on souhaite pointer : « JEAN-LUCF a réparé mon vélo ». L’effet de ce contour intonatif, qui sera décrit plus loin, est de mettre en relief le constituant pointé, de le contraster, le reste de l’énoncé portant un contour post-focal plat.
36Enfin, le pointage est caractérisé par son rôle dans de nombreuses étapes du développement du langage. Le pointage oculaire et, plus tard, le pointage digital sont deux étapes clés du développement cognitif du bébé, liées à des étapes du développement de la parole. Ainsi, on observe d’abord le pointage oculaire, vers 8 ou 9 mois, lors de la mise en place de l’attention conjointe entre l’adulte et le bébé. À cet âge, le bébé devient capable d’inviter l’adulte à regarder un objet en regardant alternativement l’objet et les yeux de l’adulte. Il peut donc alors utiliser le regard pour manipuler l’attention de l’adulte.
37Plus tard, vers 9-11 mois, le bébé produit des gestes de pointage, le plus souvent digital. L’émergence de ce geste de pointage est un bon prédicteur de l’apparition des premiers mots (environ 2 mois après) et la production de ce geste est liée au développement du langage entre 9 et 13 mois (Bates, Benigni, Bretherton, Camaioni et Vol terra 1979 ; Butcher et Goldin-Meadow 2000). Le pointage sert non seulement à mettre en valeur un objet, mais aussi à établir une connexion entre l’objet du monde et l’objet vocal. Le bébé pour qui l’on pointe vers un chat en disant « un CHAT », ou à qui l’on répond « c’est le CHAT » lorsqu’il désigne un chat, fait le lien entre la forme sonore entendue et l’objet désigné. Le pointage digital est ainsi clairement associé à la construction du lexique.
L’émergence du mot
38Ce geste de pointage lié à une production sonore pourrait bien permettre d’amorcer, d’initialiser le découpage en mots du flux sonore continu, un problème central du développement des mécanismes de compréhension de la parole (Millotte 2008 ; Nazzi 2008). Même dans la parole adressée aux enfants, les énoncés contiennent généralement plusieurs mots (selon les études d’Aslin [1993] ou de Brent et Siskind [2001], les mots isolés représentent moins de 10 % de l’ensemble des mots prononcés). On sait qu’il existe des indices prosodiques (intonatifs et rythmiques) relativement robustes des débuts et fins de mots dans toutes les langues. En français, par exemple, un groupe accentuel (souvent simplement composé, dans le mamanais – la « langue » utilisée par la maman pour parler à son bébé –, d’un mot et son déterminant) en début de phrase est marqué par une montée intonative optionnelle précédée systématiquement d’un creux aligné avec le début du mot (cf. Welby 2007). La fin d’un groupe accentuel est marquée (en début de phrase) par une montée, portant approximativement sur la syllabe finale, et un allongement de la syllabe finale (cf Di Cristo 1999 ; Jun et Fougeron 2000 ; Welby et Lœvenbruck 2006). Pour l’adulte, il a été montré que ce type d’indices peut être utilisé pour découper le flux sonore en mots (Christophe, Peperkamp, Pallier, Block et Mehler 2004 ; Welby 2007). Mais comment le bébé pourrait-il associer ces indices prosodiques à des frontières de mots, sans connaître les règles d’association, sans savoir au départ où sont les mots ? D’autres indices sont de bons candidats pour permettre le découpage en mots (cf. Nazzi 2008, pour une revue) : les indices allophoniques, c’est-à-dire le fait que la réalisation acoustique de certains phonèmes soit influencée par la position du phonème dans le mot (en français, par exemple, /r/ se prononce parfois différemment en attaque de syllabe comme dans « râteau » [ʁ] qu’en coda comme dans « babord » [χ]) ; les indices phonotactiques, c’est-à-dire la connaissance des séquences phonétiques possibles à l’intérieur d’un mot (en français, par exemple, /kf/ n’existe pas à l’intérieur d’un mot et signale une frontière entre deux mots comme « lac familier ») ; les indices distributionnels ou les statistiques sur les fréquences d’apparition des mêmes séquences de syllabes, fréquences élevées à l’intérieur d’un mot. Mais tous ces indices nécessitent que l’enfant, d’une part ait une connaissance de l’existence de mots, et d’autre part maîtrise déjà quelques mots.
39Selon nous, la toute première amorce pourrait bien être le pointage. Le fait que les constructions présentatives (« c’est le CHAT ») soient parmi les plus fréquentes dans le langage adressé à l’enfant (Cameron-Faulkner, Lieven et Tomasello 2003) est particulièrement intéressant. Dans ce type de construction, le mot désigné est mis en relief par sa position finale dans la phrase et par l’intonation de pointage qui lui est fréquemment associée. L’utilisation d’un geste de pointage digital concomitant pourrait compléter cette mise en relief. Le bébé pour qui l’on pointe avec l’index en utilisant une intonation de pointage pourrait apprendre à faire le lien entre l’objet désigné par la main et l’objet désigné par la voix. Petit à petit, il pourrait ne plus avoir besoin du geste pour comprendre quand la voix montre dans un énoncé, et son repérage des mots pourrait ainsi être facilité.
40En sens inverse, dans la constitution du mot comme unité de production de la parole, une hypothèse intéressante a été proposée par Ducey et Abry (2004) : le geste de pointage pourrait permettre au bébé de découper son propre flux de babillage en unités lexicales. En effet, l’oscillation mandibulaire a pour fréquence environ 3 Hz, ce qui impose que la durée d’une syllabe isolée soit d’environ 330 ms. C’est bien le cas chez l’adulte. Or la durée d’une détente de geste de pointage (c’est-à-dire de l’initiation du geste jusqu’à l’instant où le bras est complètement tendu) est le double, soit environ 660 ms. Le geste de pointage produit de façon concomitante avec des syllabes habillées (« mamamamama » ou « babababa ») pourrait ainsi donner le gabarit du mot : deux syllabes, ou un pied, ont le temps d’être prononcées dans un geste de pointage. Cette hypothèse a été vérifiée par Abry et Ducey (2008) qui montrent chez six bébés suivis longitudinalement de 6 à 18 mois que le rapport entre la durée de la détente du geste de pointage et celle d’une syllabe est de 2,18 en moyenne : le gabarit de découpe du mot est donc construit par le geste de pointage. Ce rapport optimal de deux syllabes consonne-voyelle pour un geste de pointage a également été retrouvé chez l’adulte par Rochet-Capellan, Schwartz, Laboissière et Galvàn (2007).
Du mot à la séquence de mots : l’émergence de la syntaxe
41Plus tard, entre 16 et 20 mois, lors de la transition du stade « un mot » au stade « deux mots », on peut observer des combinaisons de mots et de gestes déictiques (comme pointer vers un endroit en prononçant « chat » pour indiquer qu’il y a un chat à cet endroit). Ces combinaisons sont des protophrases simples. Le nombre de gestes et de combinaisons gestes-mots produits à 16 mois est corrélé avec la production vocale à 20 mois (Capirci, Iverson, Pizzuto et Volterra 1996 ; Goldin-Meadow et Butcher 2003 ; Morford et Goldin-Meadow 1992 ; Volterra, Caselli, Capirci et Pizzuto 2005). Le pointage digital semble ainsi clairement associé également à l’émergence de la syntaxe.
42Le pointage des enfants peut aussi être vocal, mais peu d’études se sont penchées sur le développement des pointages prosodiques et syntaxiques. On sait que les enfants anglophones maîtrisent la focalisation contrastive prosodique avant l’âge de 4 ans, en l’absence de tout enseignement formel (Hornby et Hass 1970 ; pour le français, cf. Ménard, Lœvenbruck et Savariaux 2006). On sait aussi que la capacité de produire des contours intonatifs similaires à ceux des adultes émerge très tôt en français et que l’allongement syllabique est correctement produit dès 2 ans (Konopczynski 1986). À 18 mois, l’enfant maîtrise les intonations d’interrogation et d’exclamation. Il a aussi été observé qu’avant la fin de la première année, le bébé maîtrise les montées et descentes intonatives, imitant les questions et assertions des adultes (Karmiloff et Karmiloff-Smith 2001 ; Snow et Balog 2002).
43Le développement de la syntaxe chez les jeunes enfants a été étudié en détail notamment par Tomasello et ses collègues (cf. aussi Brown 1971 ; Kidd et Bavin 2002 ; MacWhinney et Pléh 1988 ; McKee, McDaniel et Snedeker 1998 ; Sheldon 1974 ; Tavakolian 1981). Diessel et Tomasello (2000) ont montré en particulier que, chez les enfants anglophones de 2 ans et moins, les clauses syntaxiques les plus précoces et les plus fréquentes apparaissent dans des constructions présentatives, avec deux clauses, une principale et une relative, comme « Here’s a tiger that’s gonna scare him » ou « That’s the sugar that goes in there ». Selon ces auteurs, la raison pour laquelle les clauses relatives émergent dans ces constructions présentatives est le caractère préfabriqué de la clause principale. Et, ce qui nous intéresse au plus haut point, la clause principale contient un déictique (« this », « that », « here », « there », « it »). Ces constructions présentatives ont également été observées en français (Jisa et Kern 1998 ; Vion et Colas 1987).
44Ainsi, le pointage est impliqué lors de nombreuses étapes du développement de la communication humaine. Il semble être le premier outil de communication utilisé par les bébés. Il joue un rôle clé (via le regard) dans le mécanisme d’attention partagée dans l’interaction enfant-adulte. Il semble émerger spontanément, par étapes, et en association avec les productions orales.
Neuroanatomie des mécanismes de pointage
45Le rôle crucial du pointage avec l’index dans le développement du langage et l’implication de formes multiples du pointage à différents stades du développement de la communication, d’abord avec l’œil, puis le doigt, puis avec la voix (intonation et syntaxe), suggèrent que toutes les modalités du pointage pourraient partager un substrat cérébral commun.
46Examinons d’abord les corrélats cérébraux des pointages digital et oculaire. Des études de neuroimagerie ont permis d’observer des activations dans le lobule pariétal inférieur gauche ou droit lors de tâches de pointage digital (cf. Kertzman, Schwarz, Zeffiro et Hallett 1997 ; Lacquaniti et alii 1997). D’autre part, il a été montré que des patients atteints de lésions pariétales droites et présentant une héminégligence gauche présentent également des déficits dans des tâches de pointage digital (Edwards et Humphreys 1999).
47Les pointages oculaire et digital ont été examinés en IRM fonctionnelle par Astafiev et alii (2003). Les résultats de l’étude montrent que la préparation d’une saccade oculaire (que l’on peut assimiler au pointage oculaire) active le cortex occipital bilatéral, le cortex frontal bilatéral à la jonction des sillons précentral et frontal supérieur, c’est-à-dire dans le champ oculaire frontal (frontal eye field ou FEF, impliqué dans la préparation oculomotrice), et le cortex pariétal postérieur bilatéral, le long du segment horizontal du sillon intrapariétal (IPS). Lors de la préparation d’un pointage digital, on retrouve une activation du FEF bilatéral et de l’IPS bilatéral. On observe en plus, à gauche, des activations du gyrus angulaire, du gyrus supramarginal, du lobule pariétal supérieur, du gyrus précentral dorsal et du sillon temporal supérieur. Il semble donc, d’après ces études, que le cortex pariétal postérieur et le cortex frontal supérieur soient des régions communes qui encodent des signaux préparatoires pour les pointages oculaire et digital.
48Que sait-on du pointage vocal, sur les plans physiologique et neurofonctionnel ? Sur les plans acoustique et articulatoire, on sait que le pointage vocal, et en particulier le pointage prosodique, requiert un contrôle très fin de la part du locuteur. Sur le plan acoustique, le pointage prosodique est sophistiqué et demande un contrôle laryngé très précis. En français, il a été montré qu’il correspond à une augmentation de la fréquence fondamentale et de la durée du constituant focalisé (pointé), une diminution de la fréquence fondamentale du constituant pré-focal et une désaccentuation du constituant post-focal (Astésano 2001 ; Di Cristo 1998 ; Dohen et Lœvenbruck 2004 ; Jun et Fougeron 2000 ; Rossi 1999), comme dans l’exemple ci-dessous pour l’énoncé « MADELEINE m’amena » (sous-entendu « pas Valérie ») (figure 2).

Figure 2. – Superposition d’un spectrogramme et du tracé de la fréquence fondamentale (Fo) pour l’énoncé « MADELEINE m’amena », avec focalisation prosodique contrastive sur « Madeleine ».
49Sur le plan articulatoire, il a été montré par des études des mouvements de la langue (par électromagnétométrie) et des lèvres (par suivi vidéo) que le pointage prosodique requiert un contrôle moteur très précis : il correspond à une articulation plus ample et une durée plus longue du constituant focalisé et il est éventuellement accompagné d’une hypo-articulation du constituant post-focal (Lœvenbruck 1999 ; Dohen, Lœvenbruck et Hill 2006).
50Sur le plan cérébral, nous avons montré que le pointage prosodique en parole intérieure (prononcer mentalement « MADELEINE m’amena ») active un réseau temporo-pariéto-frontal gauche : aire de Wernicke, gyrus supramarginal gauche, région de Broca et insula gauche (Lœvenbruck, Baciu, Segebarth et Abry 2005 ; Lœvenbruck, Dohen et Vilain 2009), alors que le pointage syntaxique (prononcer mentalement « C’est Madeleine qui m’amena ») n’active que la région de Broca. Remarquons d’abord que lorsque la prosodie joue un rôle linguistique (elle peut être la prosodie affective, qui exprime joie ou tristesse), elle active bien les régions classiques du langage, dans l’hémisphère gauche, tout comme la syntaxe. Cela conforte, au passage, son rôle crucial de structure phonologique à part entière, et non pas simplement subordonnée à la syntaxe (cf. par exemple, Beckman 1996, versus Dronkers, Pinker et Damasio 2000). Ensuite, il est intéressant de noter qu’en plus de recruter le gyrus frontal inférieur gauche, la focalisation prosodique active des régions temporales supérieures et pariétales inférieures. Notre interprétation est que le pointage prosodique nécessite que des représentations intégrées (auditives et articulatoires) soient formées via les régions temporales supérieures et pariétales, pour organiser l’articulation et la phonation de façon appropriée. L’absence d’activation temporale et pariétale pour le pointage syntaxique est cohérente avec le fait que le pointage syntaxique ne correspond pas à des attentes somato-sensorielles ou auditives particulières par rapport à un énoncé « neutre ». En effet, le pointage syntaxique est grammaticalisé, automatisé, il ne nécessite pas un contrôle en ligne, adaptatif, des articulateurs et du larynx. Pour résumer, il semble que le lobe pariétal gauche, déjà impliqué dans les pointages digital et oculaire, soit également impliqué dans le pointage prosodique (en voix intérieure), mais pas dans le pointage syntaxique.
51Si les pointages digital, oculaire et prosodique impliquent tous le lobe pariétal gauche, existe-t-il une somatotopie du pointage dans le cerveau, notamment dans le lobe pariétal ? Pour répondre à cette question, nous avons examiné les activations cérébrales pour plusieurs modalités de pointage (oculaire, digital, prosodique et syntaxique) chez les mêmes sujets (Lœvenbruck et alii 2009). Les résultats indiquent que pour le pointage digital, le lobule pariétal supérieur est activé bilatéralement avec une prédominance gauche, ainsi que le lobule pariétal inférieur bilatéralement avec prédominance gauche et le cortex frontal gauche. Pour le pointage oculaire, on observe des activations dans les aires occipitales bilatérales (aires visuelles), ainsi qu’une activation pariétale gauche et frontale bilatérale. Pour le pointage prosodique, on observe une activation du lobule pariétal supérieur bilatéral, avec prédominance gauche, du gyrus postcentral gauche et des aires périsylviennes bilatérales. Pour le pointage syntaxique, on retrouve l’absence d’activation pariétale gauche, mais une activation des régions périsylviennes droites et du cortex prémoteur bilatéral. En résumé, le lobule pariétal supérieur gauche est activé dans trois modalités de pointage (oculaire, digital et prosodique), mais pas dans le pointage syntaxique. Ainsi, ces trois modalités pourraient bien toutes recruter le lobule pariétal supérieur gauche, le pointage oculaire étant situé dans une zone plus antérieure que le pointage prosodique, lui-même plus antérieur que le pointage digital. Comme nous l’avons expliqué plus haut, les études comportementales (acoustiques et articulatoires) montrent que le pointage prosodique requiert un contrôle très précis du larynx et des articulateurs de la parole, ce qui suggère que les locuteurs utilisent des représentations multisensorielles (auditives et somato-sensorielles) pour produire le pointage prosodique de façon adéquate, tout comme ils le font pour produire un geste digital ou oculaire. Ces représentations seraient formées via l’activation d’aires associatives situées dans le lobule pariétal supérieur. L’absence d’activation pariétale lors du pointage syntaxique pourrait être due à l’absence de construction multisensorielle « en ligne » dans ce type de pointage vocal, par rapport au pointage vocal prosodique. Le pointage syntaxique utilise en effet une construction grammaticalisée, « gelée », et ne nécessiterait pas que des représentations intégrées (auditivo-articulatoires) soient formées.
52L’ensemble de ces travaux corrobore notre conjecture que le pointage linguistique en ligne (focalisation prosodique) est inscrit dans le même réseau cérébral que les pointages gestuels (digital et oculaire). Pointages oculaire, digital et vocal seraient ainsi bien liés, autant sur le plan développemental que sur le plan cérébral. Cela conforte la notion que le pointage, cet outil qui nous fait passer des objets vocaux aux objets du monde, est bien une des racines de la communication parlée.
Conclusion : quelques questions de recherche sur la « parole cognitive »
53Nous avons tenté dans ce chapitre d’inscrire la parole et le langage dans leur environnement cognitif. Cet éclairage ne permet évidemment pas d’aborder toutes les grandes questions du domaine. Nous allons tenter dans cette dernière partie d’en mentionner quelques-unes, en guise de prospective.
54D’abord, il s’agit de comprendre comment fonctionnent les mécanismes de production et de perception des unités de la communication parlée et quelles en sont les représentations. Une question centrale des recherches actuelles, on l’a compris, est celle des couplages perceptivo-moteurs, à la fois pour la production (ou comment la caractérisation perceptive des unités du langage, et les feedbacks sensoriels en ligne, permettent de spécifier les mécanismes de contrôle, les ingrédients des programmes moteurs) et pour la perception (ou comment s’articulent traitements perceptifs et connaissances motrices). Une autre question importante est celle de la multisensorialité, dans la mesure où vision et audition, pour le versant sensoriel, face et main, pour le versant moteur, se combinent dans tous les aspects de la communication parlée. En regard de ces questions portant sur les processus et les représentations, la détermination des circuits corticaux par les techniques récentes de neuroanatomie et de neurophysiologie est évidemment d’un grand intérêt.
55Ces questions doivent alors être mises dans une perspective développementale. Si les étapes du développement de la communication parlée chez l’enfant commencent à être mieux décrites (vocalisations, puis babillage, premiers mots, premiers énoncés, premières phrases) et si quelques amorces (comme le pointage) permettant la découverte des mots chez l’enfant sont maintenant connues, de nombreuses questions restent encore ouvertes. Sur le versant de la production, le rôle de la prosodie et ses liens avec l’émergence du lexique et de la morpho-syntaxe ne sont pas encore bien décrits : il est suggéré que les enfants ne savent pas produire les contours intonatifs de leur langue avant d’articuler leurs premiers mots, et qu’ils commenceraient à maîtriser un certain nombre de clichés intonatifs lors de leurs premiers énoncés à deux mots. On sait aussi que l’enfant a besoin de connaître quelques mots avant de découvrir la syntaxe. Mais quels sont précisément les liens entre l’émergence du lexique, de la syntaxe et de la prosodie chez l’enfant ? Sur le versant de la perception, là encore, les liens entre le niveau « segmentai » (le traitement des unités phonémiques) et le niveau « suprasegmental » (le traitement des séquences et de leur organisation prosodique) ne sont pas complètement expliqués. Sur le versant des interactions, enfin, contrairement à la pauvreté du stimulus revendiquée par Chomsky (1981), il semble bien que les enfants reçoivent une quantité abondante d’informations langagières qui les aident à développer le langage. Mais il est difficile d’évaluer précisément l’input que reçoit l’enfant. Il s’agit de déterminer quelles formes lexicales, syntaxiques, prosodiques sont utilisées, et dans quelles quantités et proportions, dans la parole adressée à l’enfant, et quels types d’interactions adulte/enfant favorisent le développement du langage.
56À un autre niveau, celui de la phylogenèse, nous avons présenté largement les débats sur les chemins vers le langage et sur les précurseurs à découvrir au sein des mécanismes de la communication animale. Le « puzzle de l’évolution du langage » recèle de toute évidence de nombreuses pièces encore à découvrir. Parmi celles-ci, mentionnons la question des liens avec la théorie de l’esprit ; le rôle des processus d’imitation ; la possible dichotomie entre « faculté de langage au sens large », partagée avec les primates non humains, et « faculté de langage au sens étroit », incluant des mécanismes de récursivité supposés spécifiquement humains (Hauser, Chomsky et Fitch 2002) ; la compréhension des mécanismes référentiels qui permettent d’espérer « naturaliser » la relation entre le monde et la langue.
57Mentionnons pour finir les enjeux applicatifs et sociétaux de ces recherches, et d’abord ceux qui concernent le développement des technologies cognitives de la parole. Mettre la « parole en machines » suppose de définir des systèmes capables à la fois de produire et de reconnaître la parole. Dans le sens de la production, les systèmes de synthèse sont de plus en plus élaborés pour introduire des dimensions expressives et émotionnelles, se compléter d’apparences visibles, inclure des capacités de production de gestes non co-verbaux : on se dirige ainsi vers la réalisation d’agents virtuels multimodaux interactifs, ces « agents conversationnels » qui sont au cœur de nombreux workshops en France et à l’étranger (Bailly, Elisei et Raidt 2008). Dans le sens de la reconnaissance de la parole, les développements sont nombreux et les résultats parfois spectaculaires, même s’ils s’appuient davantage sur les progrès des technologies de calcul et la dimension des corpus d’apprentissage que sur des percées réelles des théories de traitement statistique de l’information. Enfin, entre synthèse et reconnaissance, les enjeux du dialogue et de l’interaction face à face prennent une importance grandissante (cf. Dohen, Schwartz et Bailly 2010). Dans ces travaux, la dimension cognitive est importante, bien sûr, mais pas toujours déterminante, tant la métaphore de « l’avion qui ne bat pas des ailes » reste signifiante dans ce domaine. Les technologies du traitement de l’information se passent souvent (hélas ?) fort bien des avancées sur les fonctionnements cognitifs. Cependant, les modèles cognitifs, à la fois théories quantitatives et noyaux d’artefacts et de systèmes de traitement originaux, restent un fort enjeu dans le domaine des technologies de la parole.
58D’autres enjeux essentiels résident dans les thématiques de la santé et du handicap. En ce qui concerne les pathologies de l’audition, mentionnons les percées sur les implants cochléaires et plus récemment sur les implants du tronc cérébral ; les recherches sur les technologies pour la langue des signes et le langage parlé complété. En ce qui concerne les troubles de la production de la parole, les recherches théoriques sur la modélisation articulatoire fournissent des assistances pour des systèmes d’apprentissage et de rééducation, et des prédictions pour des actes chirurgicaux de divers types. À un niveau plus central, les recherches en neuropsycholinguistique permettent de mieux décrire les réseaux cérébraux qui sous-tendent la perception et la production de la parole, du langage et du geste. Il devient ainsi envisageable d’étudier des pistes de rééducation dans certaines pathologies neurologiques, telles que les lésions cérébrales. En connaissant mieux les régions et les réseaux impliqués dans certaines tâches linguistiques, on peut espérer mieux diagnostiquer ou prévoir les déficits associés à la lésion d’une ou plusieurs régions, et travailler de façon plus ciblée et précoce à la rééducation neuropsychologique.
59Enfin, les recherches sur le développement des mécanismes de production et de perception de la parole, sur leur chronologie propre, sur leurs possibles difficultés, retards ou accidents de parcours, ont des implications évidentes dans le domaine de l’apprentissage et de la rééducation, notamment dans le secteur de l’orthophonie, des retards de langage, ou en relation avec la lecture et ses pathologies propres, notamment la dyslexie dont on connaît l’importance sociétale croissante.
60Ainsi, la parole transdisciplinaire, au carrefour de disciplines multiples et à l’articulation entre langage et cognition, peut aborder questions fondamentales et enjeux applicatifs sur un spectre dont on espère avoir montré au lecteur l’ampleur et l’intérêt.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références bibliographiques
Abry, C., 2003. « [b] - [d] - [g] as a universal triangle as acoustically optimal as [i] - [a] - [u] », in M. J. Solé, D. Recasens et J. Romero (éd.), Proceedings of the 15th International Congress of Phonetic Sciences ICPhS 03, Barcelona, 3-9 August 2003, Barcelone, Futur-graphic (pour la version imprimée), Rundle Mall (Australie), Casual Productions (pour la version CD Rom), vol. 1 : 727-730.
10.1142/6648 :Abry, C. et Ducey, V., 2008. « Is pointing the root of the foot ? Grounding the “prosodic word” as a pointing word », in A. D. Smith, K. Smith et R. Ferrer i Cancho (éd.), The Evolution of Language, Proceedings of the 7th International Conference (EVOLANG7), Hackensack (N.J.), World Scientific Publishing Co. : 3-9.
10.1017/S0140525X05000038 :Arbib, M., 2005. «From monkey-like action recognition to human language: An evolutionary framework for neurolinguistics», Behavioral and Brain Sciences, 28 (2): 105-167.
Arnold, K. et Zuberbühler, K., 2006. « Language evolution : Semantic combinations in primate calls », Nature, 441 (7091) : 303.
10.1007/978-94-015-8234-6 :Aslin, R. N., 1993. « Segmentation of fluent speech into words : Learning models and the role of maternal input », in B. de Boysson-Bardies, S. de Schonen, P. Jusczyk, P. MacNeilage et J. Morton (éd.), Developmental Neurocognition : Speech and Face Processing in the First Year of Life, Dordrecht, Kluwer Academic (NATO ASI Series, Series D, Behavioural and Social Sciences ; 69) : 305-315.
10.1523/JNEUROSCI.23-11-04689.2003 :Astafiev, S. V., Shulman, G. L., Stanley, C. M., Snyder, A. Z., Van Essen, D. C. et Corbetta, M., 2003. « Functional organization of human intraparietal and frontal cortex for attending, looking, and pointing », Journal of Neuroscience, 23 (11) : 4689-4699.
Astésano, C., 2001. Rythme et accentuation en français : invariance et variabilité stylistique, Paris, L’Harmattan (Langue et parole).
10.3917/rfla.132.0121 :Bailly, G., Elisei, F. et Raidt, S., 2008. « Boucles de perception-action et interaction face-à-face », in L.-J. Boë, H. Lœvenbruck et A. Vilain (éd.), Communiquer par la parole : des processus complexes, Revue française de linguistique appliquée, 13 (2) : 121-131.
Bates, E., Benigni, L., Bretherton, I., Camaioni, L. et Volterra, V, 1979. The Emergence of Symbols : Cognition and Communication in Infancy, New York, Academic Press (Language, Thought, and Culture).
10.1080/016909696387213 :Beckman, Μ. E., 1996. «The parsing of prosody», Language and Cognitive Processes, 11 (1-2): 17-67.
10.1044/jshr.3705.1195 :Benoît, C., Mohamadi, T. et Kandel, S., 1994. « Effects of phonetic context on audio-visual intelligibility of French », Journal of Speech and Hearing Research, 37 (5) : 1195-1203.
Boë, L.-J. et Abry, C., 1986. « Nomogrammes et systèmes vocaliques », in Actes des 15es Journées d’étude sur la parole (JEP), Aix-en-Provence, Société française d’acoustique : 303-306.
Boë, L.-J. et Liénard, J.-S., 1988. « La communication parlée est-elle une science ? En doutiez-vous ? Eléments de discussion et de réflexion suivis de repères chronologiques », in Actes des 17es Journées d’étude sur la parole (JEP), Société française d’acoustique : 79-92.
Boë, L.-J., & Liénard, J.-S., 1988-1989. « Les sciences de la parole : constitution et développement. Éléments de discussion et de réflexion suivis de repères chronologiques », Bulletin de l’Institut de phonétique de Grenoble, no 17-18 : 1-52.
Boë, L.-J., Lœvenbruck, H. et Vilain, A. (éd.), 2008. Communiquer par la parole : des processus complexes, numéro spécial de la Revue française de linguistique appliquée, 13 (2).
Boë, L.-J., Vallée, N., Badin, R, Schwartz, J.-L. et Abry, C., 2000. « Tendencies in phonological structures : The influence of substance on form », Les Cahiers de l’ICP, Bulletin de la communication parlée, no 5 : 3 5-5 5.
10.1016/S0010-0277(01)00122-6 :Brent, M. R. & Siskind, J. M., 2001. «The role of exposure to isolated words in early vocabulary development», Cognition, 81 (2): B33-B44.
10.2307/1127595 :Brown, H. D., 1971. «Children’s comprehension of relativized English sentences», Child Development, 42 (6): 1923-1936.
10.1017/CBO9780511620850 :Butcher, C. et Goldin-Meadow, S., 2000. « Gesture and the transition from one- to two-word speech : When hand and mouth come together», in D. McNeill (éd.), Language and Gesture, Cambridge, Cambridge University Press (Language, Culture, and Cognition ; 2) : 235-257.
10.1207/s15516709cog2706_2 :Cameron-Faulkner, T, Lieven, E. et Tomasello, M., 2003. « A construction based analysis of child directed speech », Cognitive Science, 27 (6) : 843-873.
10.1017/S0305000900008989 :Capirci, O., Iverson, J. M., Pizzuto, E. et Volterra, V, 1996. « Gestures and words during the transition to two-word speech », Journal of Child Language, 23 (3) : 645-673.
10.7208/chicago/9780226218526.001.0001 :Cheney, D. L. et Seyfarth, R. M., 1990. How Monkeys See the World : Inside the Mind of Another Species, Chicago, Chicago University Press.
Chomsky, N., 1981. Réflexions sur le langage, Paris, Flammarion (Champs).
10.1016/j.jml.2004.07.001 :Christophe, A., Peperkamp, S., Pallier, C., Block, E. et Mehler, J., 2004. « Phonological phrase boundaries constrain lexical access : I. Adult data », Journal of Memory and Language, 51 (4) : 523-547.
10.1017/S0140525X03000062 :Corballis, M. C., 2003. «From mouth to hand: Gesture, speech, and the evolution of right-handedness», Behavioral and Brain Sciences, 26 (2): 199-260.
10.3917/rfla.132.0081 :Davis, B., Kern, S., Vilain, A. et Lalevée, C., 2008. « Des babils à Babel : les premiers pas de la parole », in L.-J. Boë, Fi. Lœvenbruck et A. Vilain (éd.), Communiquer par la parole : des processus complexes, Revue française de linguistique appliquée, 13 (2) : 81-91.
Davis, C. et Kim, J., 1998. « Repeating and remembering foreign language words : Does seeing help ? », in D. Burnham, J. Robert-Ribes et E. Vatikiotis-Bateson (éd.), Proceedings of the Auditory-Visual Speech Processing Conference AVSP 1998, s.l., s.n. : 121-126.
Di Cristo, A., 1998. « Intonation in French », in D. J. Hirst et A. Di Cristo (éd.), Intonation Systems : A Survey of Twenty Languages, Cambridge, Cambridge University Press : 195-218.
10.1017/S0959269500004671 :Di Cristo A., 1999. « Vers une modélisation de l’accentuation du français (première partie) », Journal of French Language Studies, 9 (2) : 143-179.
10.1515/cogl.2001.006 :Diessel, H. et Tomasello, M., 2000. « The development of relative clauses in spontaneous child speech », Cognitive Linguistics, 11 (1-2) : 131-151.
Dohen, M. et Lœvenbruck, H., 2004. « Pre-focal rephrasing, focal enhancement and post-focal deaccentuation in French », in Inter-speech 2004 : Proceedings of the 8th International Conference on Spoken Language Processing (ICSLP), Jeju Island, Korea, October 4-8, s.l., Sunjin Printing Co., vol. 1 : 785-788.
Dohen, M., Lœvenbruck, H. et Hill, H., 2006. « Visual correlates of prosodic contrastive focus in French : Description and inter-speaker variability », in R. Hoffmann et H. Mixdorff (éd.), Proceedings of Speech Prosody 2006, Dresden, May 2-5, 2006, Dresde, TUDpress, vol. 1 : 221-224.
Dohen, M., Schwartz, J.-L. et Bailly, G. (éd.), 2010. Speech and Face-to-Face Communication, numéro spécial de Speech Communication, 52 (6).
10.1016/B978-008045046-9.01876-3 :Dronkers, N. F., Pinker, S. et Damasio, A., 2000. « Language and the aphasias », in E. R. Kandel, J. H. Schwartz et T. M. Jessell (éd.), Principles of Neural Science, 4e édition, New York, McGraw-Hill : 1169-1187.
Ducey, V. et Abry, C., 2004. « Le cadre de la parole et le cadre du signe : un rendez-vous développemental », in B. Bel et I. Marlien (éd.), Actes des 25es Journées d’étude sur la parole, Fès, Maroc, 19-22 avril 2004, Avignon, Association francophone de la communication parlée (AFCP) : 197-200.
10.1016/S0028-3932(98)00132-8 :Edwards, M. G. et Humphreys, G. W., 1999. « Pointing and grasping in unilateral visual neglect : Effect of on-line visual feedback in grasping », Neuropsychologia, 37 (8) : 959-973.
10.1044/jshd.4004.481 :Erber, N. P., 1975. « Auditory-visual perception of speech », Journal of Speech and Hearing Disorders, 40 (4) : 481-492.
10.3917/rfla.132.0035 :Fuchs, S. et Perrier, P., 2008. « Understanding speech production : The PILIOS approach », in L.-J. Boë, H. Lœvenbruck et A. Vilain (éd.), Communiquer par la parole : des processus complexes, Revue française de linguistique appliquée, 13 (2) : 35-44.
10.1121/1.1358887 :Girin, L., Feng, G. et Schwartz, J.-L., 2001. « Audio-visual enhancement of speech in noise », Journal of the Acoustical Society of America, 109 (6) : 3007-3020.
Goldin-Meadow, S. et Butcher, C., 2003. « Pointing toward two-word speech in young children », in S. Kita (éd.), Pointing : Where Language, Culture, and Cognition Meet, Mahwah (N.J.), Erlbaum : 85-107.
10.1126/science.298.5598.1569 :Hauser, M., Chomsky, N. et Fitch, W. T., 2002. « The faculty of language : What is it, who has it, and how did it evolve ? » Science, 298 (5598) :1569-1579.
10.1037/0735-7036.112.1.95 :Hopkins, W. D. et Leavens, D. A., 1998. « Hand use and gestural communication in chimpanzees (Pan troglodytes) », Journal of Comparative Psychology, 112 (1) : 95-99.
10.1044/jshr.1302.395 :Hornby, P. A., & Hass, W. A., 1970. «Use of contrastive stress by preschool children», Journal of Speech and Hearing Research, 13 (2): 395-399.
10.1017/S0305000998003523 :Jisa, H. et Kern, S., 1998. « Relative clauses in French children’s narrative texts », Journal of Child Language, 25 (3) : 623-652.
10.1007/978-94-011-4317-2 :Jun, S.-A. et Fougeron, C., 2000. « A phonological model of French intonation », in A. Botinis (éd.), Intonation : Analysis, Modellingand Technology, Dordrecht, Kluwer Academic (Text, Speech and Language Technology ; 15) : 209-242.
10.4159/9780674039322 :Karmiloff, K. et Karmiloff-Smith, A., 2001. Pathways to Language : From Fetus to Adolescent, Cambridge (Mass.), Harvard University Press (The Developing Child).
Kendon, A., 1996. «An agenda for gesture studies», Semiotic Review of Books, 7 (3): 8-12.
10.1007/PL00005617 :Kertzman, C., Schwarz, U., Zeffiro, T. A. et Hallett, M., 1997. « The role of posterior parietal cortex in visually guided reaching movements in humans », Experimental Brain Research, 114 (1) : 170-183.
Kidd, E. et Bavin, E. L., 2002. « English-speaking children’s comprehension of relative clauses : Evidence for general-cognitive and language-specific constraints on development », Journal of Psycholinguistic Research, 31 (6) : 599-617.
Konopczynski, G., 1986. « Du prélangage au langage : acquisition de la structuration prosodique », thèse de doctorat non publiée, Strasbourg, Université des sciences humaines de Strasbourg.
10.1006/nimg.1996.0254 :Lacquaniti, F., Perani, D., Guigon, E., Bettinardi, V., Carrozzo, M., Grassi, E, Rossetti, Y. et Fazio, E, 1997. « Visuomotor transformations for reaching to memorized targets : A PET study », NeuroImage, 5 (2) : 129-146.
10.1075/bct :Leavens, D. A., 2004. «Manual deixis in apes and humans», Interaction Studies: Social Behaviour and Communication in Biological and Artificial Systems, 5 (3): 387-408.
10.1111/j.0963-7214.2005.00361.x :Leavens, D. A., Hopkins, W. D. et Bard, K. A., 2005. « Understanding the point of chimpanzee pointing : Epigenesis and ecological validity », Current Directions in Psychological Science, 14 (4) : 185-189.
10.2307/411991 :Liljencrants, J. et Lindblom, B., 1972. « Numerical simulation of vowel quality Systems : The role of perceptual contrast », Language, 48 (4) : 839-862.
Lindblom, B., 1986. « Phonetic universals in vowel Systems », in J. J. Ohala et J. J. Jaeger (éd.), Experimental Phonology, New York, Academic Press : 13-44.
10.1016/S0095-4470(19)30398-5 :Lindblom, B., 1990. «On the notion of possible speech sound», Journal of Phonetics, 18 (2): 135-152.
Lœvenbruck, H., 1999. « An investigation of articulatory correlates of the accentual phrase in French », in J. Ohala (éd.), Proceedings of the 14th International Congress of Phonetic Sciences (ICPhS), San Francisco, Berkeley (Calif.), University of California, vol. 1 : 667-670.
10.1016/j.jneuroling.2004.12.002 :Lœvenbruck, H., Baciu, M., Segebarth, C. et Abry, C., 2005. « The left inferior frontal gyrus under focus : An fMRI study of the production of deixis via syntactic extraction and prosodic focus », Journal of Neurolinguistics, 18 (3) : 237-258.
Lœvenbruck, H., Dohen, M. et Vilain, C., 2009. « Pointing is “special”», in S. Fuchs, H. Lœvenbruck, D. Pape et P. Perrier (éd.), Some Aspects of Speech and the Brain, Francfort, Peter Lang : 211-258.
10.1017/S0140525X98001265 :MacNeilage, P. E, 1998. «The frame/content theory of evolution of speech production», Behavioral and Brain Sciences, 21 (4): 499-511.
10.1016/S0959-4388(01)00271-9 :MacNeilage, P. F. et Davis, B. L. 2001. « Motor mechanisms in speech ontogeny : Phylogenetic, neurobiological and linguistic implications », Current Opinion in Neurobiology, 11 (6) : 696-700.
MacNeilage, P. F. et Davis, B. L., 2005. « The frame/content theory of evolution of speech : A comparison with a gestural-origins alternative », Interaction Studies : Social Behaviour and Communication in Biological and Artificial Systems, 6 (2) : 173-199.
10.1016/0010-0277(88)90034-0 :MacWhinney, B. et Pléh, C., 1988. « The processing of restrictive relative clauses in Hungarian », Cognition, 29 (2) : 95-141.
10.1016/S0095-4470(19)30663-1 :Maddieson, I., 1984. Patterns of Sounds, Cambridge, Cambridge University Press (Cambridge Studies in Speech Science and Communication).
10.1121/1.2027403 :Maddieson, I. et Precoda, K., 1989. « Updating UPSID », UCLA Working Papers in Phonetics, 74 : 104-111.
McKee, C., McDaniel, D. et Snedeker, J., 1998. « Relatives children say », Journal of Psycholinguistic Research, 27 (5) : 573-596.
10.1016/j.bbr.2006.03.018 :Meguerditchian, A. et Vauclair, J., 2006. « Baboons communicate with their right hand », Behavioural Brain Research, 171 (1) : 170-174.
Meguerditchian, A. et Vauclair, J., 2009. « Vocal and gestural communication in nonhuman primates and the question of the origin of language », in L. S. Röska-Hardy et E. M. Neumann-Held (éd.), Learning from Animals ? Examining the Nature of Human Uniqueness, New York, Psychology Press : 61-85.
Ménard, L., Lœvenbruck, H. et Savariaux, C., 2006. « Articulatory and acoustic correlates of contrastive focus in French : A developmental study », in J. Harrington et M. Tabain (éd.), Speech Production : Models, Phonetic Processes, and Techniques, New York, Psychology Press (Macquarie Monographs in Cognitive Science) : 227-251.
10.3917/rfla.132.0093 :Millotte, S., 2008. « Le jeune enfant à la découverte des mots », in L.-J. Boë, H. Lœvenbruck et A. Vilain (éd.), Communiquer par la parole : des processus complexes, Revue française de linguistique appliquée, 13 (2) : 93-102.
Mills, A. E., 1987. « The development of phonology in the blind child », in B. Dodd et R. Campbell (éd.), Hearing by Eye : The Psychology of Lipreading, Hillsdale (N.J.), Erlbaum : 145-161.
10.1017/S0305000900011569 :Morford, M. et Goldin-Meadow, S., 1992. « Comprehension and production of gesture in combination with speech in one-word speakers », Journal of Child Language, 19 (3) : 559-580.
10.4074/S0003503308002054 :Nazzi, T., 2008. « Segmentation précoce de la parole continue en mots : évaluation inter-linguistique de l’hypothèse d’initialisation rythmique», L’Année psychologique, 108 (2) : 309-342.
10.1073/pnas.0702624104 :Pollick, A. S. et de Waal, F. B. M., 2007. « Ape gestures and language evolution », Proceedings of the National Academy of Sciences of the United States of America, 104 (19) : 8184-8189.
Povinelli, D. J., Bering, J. M. et Giambrone, S., 2003. « Chimpanzees’ “pointing” : Another error of the argument by analogy ? » in S. Kita (éd.), Pointing : Where Language, Culture, and Cognition Meet, Mahwah (N.J.), Erlbaum : 35-68.
10.1037/0735-7036.108.2.134 :Povinelli, D. J. et Davis, D. R., 1994. « Differences between chimpanzees (Pan troglodytes) and humans (Homo sapiens) in the resting State of the index finger : Implications for pointing », Journal of Comparative Psychology, 108 (2) : 134-139.
10.1016/S0166-2236(98)01260-0 :Rizzolatti, G. et Arbib, M. A., 1998. « Language within our grasp », Trends in Neurosciences, 21 (5) : 188-194.
Rochet-Capellan, A., Schwartz, J.-L., Laboissière, R. et Galvàn, A., 2007. « Two CV syllables for one pointing gesture as an optimal ratio for jaw-arm coordination in a deictic task : A preliminary study », in S. Vosniadou, D. Kayser et A. Protopapas (éd.), Proceedings of the European Cognitive Science Conference (EuroCogSci07), Delphes, May 23-27, 2007, Mahwah (N.J.), Erlbaum : 608-613.
Rossi, M., 1999. L’intonation, le système du français : description et modélisation, Gap/Paris, Ophrys (L’Essentiel français).
Rousset, I., 2004. « Structures syllabiques et lexicales des langues du monde : données, typologies, tendances universelles et contraintes substantielles », thèse de doctorat non publiée, Grenoble, Université Stendhal.
Saussure, F. de, 1972 [1916]. Cours de linguistique générale, édition critique préparée par T. De Mauro, Paris, Payot.
10.1016/j.specom.2004.12.001 :Schwartz, J.-L., Abry, C., Boë, L.-J., Ménard, L. et Vallée, N., 2005. « Asymmetries in vowel perception, in the context of the dispersion-focalisation theory », Speech Communication, 45 (4) : 425-434.
10.1016/j.cognition.2004.01.006 :Schwartz, J.-L., Berthommier, F. et Savariaux, C., 2004. « Seeing to hear better : Evidence for early audio-visual interactions in speech identification », Cognition, 93 (2) : B69-B78.
Schwartz, J.-L., Boë, L.-J. et Abry, C., 2007. « Linking Dispersion-Focalization Theory and the maximum utilization of the available distinctive features principle in a perception-for-action-control theory », in M.-J. Solé, P. S. Beddor et M. Ohala (éd.) Experimental Approaches to Phonology, Oxford, Oxford University Press (Oxford Linguistics) : 104-124.
10.1006/jpho.1997.0043 :Schwartz, J.-L., Boë, L.-J., Vallée, N. et Abry, C., 1997. « The Dispersion-Focalization Theory of vowel Systems », Journal of Phonetics, 25 (3) : 255-286.
10.3917/rfla.132.0009 :Schwartz, J.-L., Sato, M. et Fadiga, L., 2008. « The common language of speech perception and action : A neurocognitive perspective », in L.-J. Boë, H. Lœvenbruck et A. Vilain (éd.), Communiquer par la parole : des processus complexes, Revue française de linguistique appliquée., 13 (2) : 9-22.
10.1016/S0022-5371(74)80064-2 :Sheldon, A., 1974. «The role of parallel function in the acquisition of relative clauses in English», Journal of Verbal Learning and Verbal Behavior, 13 (3): 272-281.
10.1016/j.cub.2005.08.068 :Slocombe, K. E. et Zuberbühler, K., 2005. « Functionally referential communication in a chimpanzee », Current Biology, 15 (19) : 1779-1784.
10.1016/S0024-3841(02)00060-8 :Snow, D. et Balog, H. L., 2002. « Do children produce the melody before the words ? A review of developmental intonation research », Lingua, 112 (12) : 1025-1058.
10.1016/j.specom.2004.10.002 :Sodoyer, D., Girin, L., Jutten, C. et Schwartz, J.-L., 2004. « Developing an audio-visual speech source separation algorithm », Speech Communication, 44 (1-4) : 113-125.
Tavakolian, S., 1981. « The conjoined clause analysis of relative clauses», in S. Tavakolian (éd.), Language Acquisition and Linguistic Theory, Cambridge (Mass.), The MIT Press : 167-187.
Teston, B., 2004. « L’œuvre d’Étienne-Jules Marey et sa contribution à l’émergence de la phonétique dans les sciences du langage », Travaux interdisciplinaires du laboratoire Parole et langage d’Aix-en-Provence, 23 : 237-266.
10.1037/0012-1649.17.3.237 :Thelen, E., 1981. «Rhythmical behavior in infancy: An ethological perspective », Developmental Psychology, 17 (3): 237-257.
10.1075/bct :Vauclair, J., 2004. « Lateralization of communicative signals in nonhuman primates and the hypothesis of the gestural origin of language », C. Abry, A. Vilain et J.-L. Schwartz (éd.), Vocalize to Localize, Interaction Studies : Social Behaviour and Communication in Biological and Artificial Systems, 5 (3) : 365-386.
Vion, M. et Colas, A., 1987. « Contrôle de la production d’informations nouvelles et anciennes par les enfants de 4 à 11 ans : les constructions présentatives », Bulletin d’audiophonologie, 3 (6) : 671-686.
Volterra, V., Caselli, M. C., Capirci, O. et Pizzuto, E., 2005. « Gesture and the emergence and development of language », in M. Tomasello et D. I. Slobin (éd.), Beyond Nature-Nurture : Essays in Honor of Elizabeth Bates, Mahwah (N. J.), Erlbaum : 3-40.
10.1016/j.specom.2006.10.005 :Welby, P., 2007. «The role of early fundamental frequency rises and elbows in French word segmentation», Speech Communication, 49 (1): 28-48.
Welby, P. et Lœvenbruck, H., 2006. « Anchored down in anchorage : Syllable structure, rate, and segmentai anchoring in French », Rivista di Linguistica/Italian Journal of Linguistics, 18 (1) : 73-124.
Wilkins, D., 2003. « Why pointing with the index finger is not a universal (in sociocultural and semiotic terms) », in S. Kita (éd.), Pointing : Where Language, Culture, and Cognition Meet, Mahwah (N.J.), Erlbaum : 171-216.
Notes de bas de page
1 Ce chapitre est le fruit de nos travaux, réflexions et discussions avec les personnes suivantes, listées par ordre alphabétique. Nous les remercions toutes sincèrement : Monica Baciu, Mary Beckman, Louis-Jean Boë, Francesca Carota, Marie-Agnès Cathiard, Marion Dohen, Laurent Lamalle, Pascal Perrier, Cédric Pichat, Marc Sato, Christophe Savariaux, Christoph Segebarth, Jacques Vauclair, Anne Vilain, Coriandre Vilain, Pauline Welby.
2 Cette prise en charge est « directe », par contraste avec le couplage écriture/lecture. Ce dernier fournit une prise en charge indirecte, passant par des mécanismes tardifs (dans l’ontogenèse et la phylogenèse) de recodage qui ne sont pas constitutifs du langage propre.
3 Là encore, en excluant la boucle écriture/lecture qui n’est qu’un recodage indirect ; et en mettant provisoirement de côté les langues signées, systèmes de communication visuo-manuelle permettant de produire et percevoir le langage à travers les gestes de la main en l’absence d’audition. Ces systèmes sont bien, eux, authentiquement du langage, dotés des mêmes capacités fonctionnelles, mais un langage alternatif, non oral et donc non parlé.
4 On trouvera abordées plus en détail les différentes questions traitées dans ce chapitre dans un numéro spécial de la Revue française de linguistique appliquée, coordonné par L.-J. Boë, H. Lœvenbruck et A. Vilain (2008), auquel nous nous référerons chaque fois que possible pour fournir au lecteur une présentation approfondie sur tel ou tel aspect.
5 Si l’on ne tient pas compte de l’ouverture/fermeture du voile du palais, ou velum, permettant de passer des voyelles orales – à velum fermé, sans passage d’air par le nez – aux voyelles nasales à velum ouvert, comme dans le son de « pain » ou « rond ».
Auteurs
Gipsa-Lab, Département parole et cognition, Université Stendhal, BP 25, 38 040 Grenoble Cedex 9
Gipsa-Lab, Département parole et cognition, Université Stendhal, BP 25, 38 040 Grenoble Cedex 9
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Informatique et sciences cognitives
Influences ou confluence ?
Catherine Garbay et Daniel Kayser (dir.)
2011