Analyse factorielle confirmatoire : approche bayésienne
p. 265-284
Texte intégral
Introduction
1Deux types d’analyses factorielles sont classiquement utilisés pour évaluer la structure d’instruments psychométriques : l’analyse factorielle exploratoire (AFE) et l’analyse factorielle confirmatoire (AFC). L’AFE est utilisée lorsque les relations entre les items et les construits latents sont inconnues ou incertaines. Lorsque le chercheur dispose de connaissances préalables quant aux relations entre items et facteurs, le recours à l’AFC est souvent privilégié.
2Lorsque l’on utilise l’AFC, un certain nombre de restrictions sont nécessaires pour permettre l’identification du modèle. Un grand nombre de saturations sont donc fixées à zéro afin de permettre l’estimation des paramètres. Toutefois ces restrictions peuvent apparaître comme une opérationnalisation excessivement stricte des hypothèses du chercheur : des saturations réduites mais pas nécessairement égales à zéro pourraient être davantage compatibles avec la théorie (Muthén & Asparouhov, 2012). En outre, ces saturations dites « secondaires », fixées à zéro, peuvent contribuer à rejeter abusivement certains modèles et biaiser l’estimation des saturations et des corrélations (Marsh, Lüdtke, Muthén et al., 2010).
3L’analyse factorielle Bayésienne (AFB) permet de dépasser la principale contrainte et limitation de l’AFC : il n’est plus nécessaire de fixer la quasi-totalité des saturations secondaires à zéro pour permettre l’estimation du modèle. L’AFB rend donc possible l’estimation de toutes les relations entre les mesures et les variables latentes. Pour ce faire, l’AFB remplace les saturations fixées à zéro par des « zéros approximatifs » qui peuvent retranscrire des saturations réduites mais pas nécessairement nulles. Cette situation se rencontre par exemple lorsque l’on analyse la structure d’une batterie de tests psychologiques : certains sous-tests théoriquement associés à un construit peuvent également être associés à d’autres facteurs. L’AFB permet alors de rendre compte de manière plus fidèle de certaines hypothèses en estimant toutes ces relations. On minimise également le nombre de modèles à tester et donc le risque de capitaliser sur la chance.
4L’objectif de ce chapitre est double. Il s’agit tout d’abord de présenter les principales caractéristiques de l’approche bayésienne. Deuxièmement, afin d’illustrer la démarche et les principaux avantages de l’AFB, on présente deux études basées sur l’approche bayésienne. Enfin, une syntaxe annotée facilitant la réalisation de telles analyses est proposée.
Analyse factorielle exploratoire et confirmatoire
5L’AFE est utilisée lorsque les relations entre les variables mesurées et les variables latentes sont incertaines. Ces modèles sont très peu restrictifs dans le sens où la relation entre chaque item et chaque facteur est estimée. Le nombre de restrictions nécessaires à l’identification du modèle est atteint en fixant la variance des facteurs et par rotation de la matrice de saturations.
6L’une des deux décisions nécessaires pour sélectionner une solution consiste à déterminer le nombre de facteurs à retenir. Ce choix est basé sur des considérations à la fois théoriques et statistiques. L’interprétation de la solution, notamment la signification de chacun des facteurs, ainsi que différents critères numériques (par ex., critère de Kaiser, scree-test de Cattell, etc.) sont donc examinés, pour finalement retenir la solution jugée comme la plus adéquate.
7La deuxième décision revient à sélectionner une méthode de rotation des facteurs. Des rotations orthogonales (par ex., Varimax) sont utilisées lorsque l’on fait l’hypothèse d’indépendance des facteurs. Les rotations obliques (par ex., Promax ou Geomin) sont préférées lorsque l’on fait l’hypothèse, souvent plus vraisemblable, que les facteurs pourraient être corrélés les uns avec les autres. On note que la sélection du type de rotation ne peut être réalisée que sur la base du modèle théorique sous-jacent : d’un point de vue statistique, chaque solution est équivalente car elle possède la même vraisemblance et le même nombre de paramètres. Au-delà de la question de l’orthogonalité ou du caractère oblique de la structure factorielle, les chercheurs doivent également se pencher sur une question trop rarement adressée : la complexité factorielle attendue. En effet, la plupart des méthodes de rotations sont conçues pour rendre compte d’une structure simple où chaque item ne saturerait que sur un seul facteur. Toutefois dans de nombreuses situations, on peut s’attendre à une structure plus complexe où certains voire tous les items peuvent saturer sur plusieurs facteurs. Dans de telles situations, les méthodes de rotation classiques se révèlent inefficaces et il n’est pas possible de récupérer correctement la structure factorielle.
8Lorsque le chercheur a déjà des connaissances préalables quant aux relations entre items et facteurs, le recours à l’AFC est souvent privilégié. Contrairement à l’AFE, l’AFC permet d’estimer seulement certains paramètres du modèle sur la base de considérations théoriques. L’AFC permet donc de spécifier le modèle de mesure et le modèle structural avec davantage de flexibilité. L’AFC nécessite en revanche d’imposer un certain nombre de restrictions pour identifier puis estimer le modèle. Avec les procédures d’estimation classiques (par ex., maximum de vraisemblance), de nombreuses saturations entre les mesures et les construits latents doivent être fixées à zéro. Ces restrictions ne traduisent pas toujours de manière fidèle les hypothèses théoriques des chercheurs. Des saturations réduites mais pas nécessairement égales à zéro pourraient être davantage compatibles avec la théorie (Muthén & Asparouhov, 2012). Ces restrictions indispensables à l’estimation du modèle peuvent donc être vues comme une opérationnalisation inutilement stricte des hypothèses.
9Avec l’AFC, on cherche à déterminer dans quelle mesure le modèle testé correspond aux données empiriques à l’aide d’indices d’ajustement. Différentes alternatives théoriques peuvent être mises en compétition de cette manière. Toutefois, les restrictions qui consistent à fixer à exactement zéro un grand nombre de saturations peuvent introduire un certain degré de misspecification. Les paramètres ainsi déterminés ne permettent pas toujours de modéliser de manière adéquate les données et peuvent entraîner le rejet du modèle.
10La mauvaise spécification de certains paramètres peut aussi biaiser l’estimation des saturations et des corrélations entre facteurs (Marsh et al., 2010). Un bon exemple de ce phénomène est l’analyse des questionnaires de personnalité basés sur le modèle du Big-Five. Il est en effet très difficile d’obtenir un ajustement aux données satisfaisant à l’aide d’AFC. La structure en cinq facteurs est pourtant correctement récupérée lorsque les données des items sont analysées à l’aide d’AFE moins restrictives. McCrae et collaborateurs (2008) suggèrent que les modèles testés avec l’AFC sont non seulement trop restrictifs mais qu’ils surestiment également les corrélations entre facteurs, supposés indépendants. En effet, dans le cadre de l’analyse d’un questionnaire où l’on imposerait à chaque item de ne contribuer qu’à une seule variable latente principale, une relation modeste existant entre un item spécifique et un autre construit secondaire ne serait pas directement reflétée. Cette relation entre un item et une variable latente secondaire sera toutefois représentée à travers la corrélation entre les facteurs. Ainsi, les corrélations entre variables latentes peuvent être surestimées.
11Suite au rejet d’un modèle, le chercheur peut être tenté de tester de nombreuses modifications pour obtenir un ajustement aux données satisfaisant. Toutefois même s’il reste guidé par des considérations théoriques, ce processus devient exploratoire et peut se révéler problématique. La trop grande adaptation du modèle au caractère idiosyncratique des données est appelé mécanisme de capitalisation sur la chance. Une recherche exhaustive de la meilleure spécification peut donc conduire à un sur-ajustement du modèle et, simultanément, à une perte de signification des indices statistiques (Carroll, 1995). Cet usage exploratoire de l’AFC pose alors la question de la généralisation du modèle retenu à la population ou à d’autres échantillons (MacCallum, Roznowski, & Necowitz, 1992). Différentes alternatives peuvent également présenter des ajustements très similaires et la sélection du meilleur modèle sur des bases statistiques solides pourrait se révéler parfois illusoire. Comme on va le voir par la suite, les analyses factorielles bayésiennes (AFB) permettent de dépasser certaines de ces limites inhérentes aux AFC.
Analyse factorielle bayésienne (AFB)
12L’estimation bayésienne des AFC procède en remplaçant les saturations fixées à zéro par des zéros approximatifs. L’AFB permet ainsi de spécifier un seul modèle où toutes les relations entre items et variables latentes seront estimées. Cette approche présente donc l’avantage d’éviter d’avoir recours à de nombreuses comparaisons. De surcroît, ces zéros approximatifs reflètent souvent de manière plus fidèle les hypothèses théoriques des chercheurs et facilitent une estimation non biaisée des autres paramètres. On présente ici l’approche suggérée par Muthén et Asparouhov (2012). Les aspects techniques de l’estimation bayésienne ne seront toutefois pas abordés dans le détail. On se concentrera sur la comparaison de l’approche bayésienne par rapport à l’AFC classique.
13Tout d’abord, il y a lieu de préciser que l’AFB et l’AFC ne sont pas deux modèles statistiques différents mais plutôt deux méthodes différentes pour estimer des modèles dans le cadre plus général de l’analyse factorielle confirmatoire. L’AFB et l’AFC sont toutes deux basées sur la distinction entre modèle de mesure et modèle structural. Rappelons que le modèle de mesure spécifie les relations entre les mesures et les variables latentes alors que le modèle structural permet de modéliser les relations entre construits latents. Le modèle de mesure et le modèle structural sont définis tous deux sur la base des connaissances théoriques et des résultats des précédentes études. L’AFB permet toutefois d’estimer des modèles plus complexes, qui ne seraient pas identifiés avec l’estimateur du maximum de vraisemblance.
14L’AFC et l’AFB comportent encore quatre différences essentielles. La première différence concerne les paramètres du modèle qui sont définis comme des constantes dans la statistique fréquentiste classique mais sont considérés comme des variables aléatoires dans la perspective bayésienne.
15La deuxième différence entre l’AFC et l’AFB découle de cette première distinction et concerne la manière de spécifier les paramètres : avec l’AFC, les saturations attendues sont librement estimées alors que les saturations non attendues sont fixées à exactement 0. Dans bien des cas, il ne serait pas incompatible avec la théorie que certaines de ces saturations soient légèrement supérieures à zéro. Avec l’AFB, ces « zéros-exacts » sont remplacés par des zéros approximatifs qui prennent la forme d’une distribution a priori. Cette distribution a priori reflète les croyances actuelles sur les valeurs qu’est susceptible de prendre le paramètre. Plus précisément, dans le cas d’une saturation non attendue, la distribution est définie avec une moyenne de zéro et une petite valeur de la variance. On s’attend donc à une valeur proche de zéro mais on conserve un certain degré d’incertitude sur les valeurs du paramètre. L’approche classique (fixer la valeur du paramètre à zéro) est beaucoup plus restrictive car elle n’autorise aucun degré d’incertitude quant aux valeurs attendues du paramètre. Elle se traduirait dans le cadre bayésien par une distribution a priori de moyenne nulle et de variance zéro. On fait le postulat qu’un tel degré de restriction n’est pas nécessaire pour modéliser de manière fidèle la plupart des hypothèses ; il apparaît alors comme raisonnable de laisser un certain degré d’incertitude dans l’estimation de la valeur du paramètre. En revanche, dans le cas d’une saturation attendue, on estime librement le paramètre en spécifiant une distribution a priori avec une moyenne de 0 et une variance infinie. Dans cette situation, la distribution a priori est appelée « non informative » ou « diffuse » dans le sens où elle reflète une très large incertitude quant à la valeur du paramètre. Comme dans l’approche plus classique, on ne donne aucune information préalable au modèle sur les valeurs que pourrait prendre le paramètre. Sa valeur sera donc très proche de l’estimation obtenue sous maximum de vraisemblance (Muthén & Asparouhov, 2012). Après la spécification du modèle, l’estimation bayésienne combine les distributions a priori avec les données collectées pour aboutir à une distribution a posteriori via le théorème de Bayes (Yuan & MacKinnon, 2009). Cette distribution a posteriori est donc la représentation mise à jour de nos croyances sur les valeurs des paramètres, après avoir pris en compte les données de l’expérience.
16La troisième différence entre l’AFC et l’AFB concerne la modification du modèle initial et l’utilisation des indices de modification (dérivés lors de l’estimation sous maximum de vraisemblance). Ces indices de modification permettent d’améliorer l’ajustement du modèle en estimant librement différents paramètres additionnels. L’utilisation des indices de modification avec l’AFC peut se révéler problématique lorsque l’ajustement du modèle n’est pas adéquat et que de nombreuses modifications sont nécessaires. Même lorsque l’ajustement du modèle aux données est adéquat, de nombreuses saturations peuvent être suspectées d’être légèrement différentes de zéro et de nombreuses alternatives peuvent être testées, les unes après les autres. Dans le cadre d’une AFB, aucune saturation n’est fixée et toutes les relations entre items et facteurs sont donc estimées simultanément. La comparaison de différentes variantes n’est donc plus nécessaire dès lors qu’il est possible de vérifier, pour chaque saturation, si elle diffère substantiellement de zéro.
17La dernière différence entre l’AFC classique et l’AFB concerne l’estimation des paramètres. La procédure sous maximum de vraisemblance est basée sur l’hypothèse de normalité asymptotique des paramètres estimés. Or il n’est pas adéquat de se référer à des formules basées sur une théorie asymptotique lorsque la taille de l’échantillon est réduite : la distribution des paramètres est alors inconnue et ne sera pas correctement approximée en supposant une distribution normale (Scheines, Hoijtink, & Boomsma, 1999). L’estimation bayésienne quant à elle, ne repose pas sur de telles assomptions. L’estimation des paramètres et de l’intervalle de crédibilité est au contraire basée sur les percentiles de la distribution a posteriori. On considère que les paramètres ont une importance substantielle, ou sont « significatifs », lorsque l’intervalle de crédibilité à 95 % exclut la valeur zéro. L’AFB permet donc de s’accommoder de distributions des paramètres très asymétriques et se montre plus performante avec des tailles d’échantillon réduites (Lee & Song, 2004).
Premier exemple : analyse factorielle conjointe de batteries d’aptitudes cognitives
18Le modèle des aptitudes cognitives de Cattell-Horn-Carroll (CHC) prend une place de plus en plus importante dans la littérature et dans le développement d’outils et de batteries d’évaluation cognitives. Le modèle CHC est composé de trois strates avec un facteur d’intelligence générale au sommet, environ 16 aptitudes globales (Gf, Gc, etc.) et plus de 90 aptitudes primaires (induction, connaissances lexicales, etc. ; Schneider & McGrew, 2012).
19On souhaite ici réaliser une analyse factorielle conjointe de sous-tests d’une batterie d’évaluation cognitive (WISC-IV) ainsi que de plusieurs sous-tests issus d’autres batteries cognitives. Ce type d’analyse conjointe permet d’étudier la structure d’un instrument en intégrant, à titre de référence, différents points d’ancrage externes. Cette analyse vise plus précisément deux objectifs : premièrement on cherche à vérifier la pertinence du modèle des aptitudes cognitives CHC par rapport au modèle de Spearman. Le modèle de Spearman suggère qu’un facteur d’intelligence générale permet de rendre compte des performances à différentes épreuves cognitives. Ce modèle très parcimonieux servira de point de référence pour une comparaison avec le modèle CHC, plus complexe.
20Le deuxième objectif de cette étude est de déterminer quels construits sont évalués par chaque sous-test. Si les construits principalement mesurés par les scores de chaque épreuve sont généralement bien connus, il n’en est pas nécessairement de même pour les aptitudes qui interviendraient à un niveau secondaire dans la réussite de chacun des sous-tests. S’agissant d’une analyse conjointe de plusieurs tests issus de batteries différentes, il n’est pas possible de s’appuyer sur les analyses présentées dans les manuels pour vérifier si certains sous-tests théoriquement associés à un construit seraient associés à d’autres variables latentes. Par exemple, le score à l’épreuve Arithmétique du WISC-IV est théoriquement destiné à mesurer les capacités en mémoire de travail. Toutefois de nombreux auteurs se sont interrogés sur la contribution des capacités de raisonnement fluide (Gf) ou de raisonnement quantitatif (Gq) dans les performances à cette épreuve. De manière analogue on peut s’interroger sur la contribution de la vitesse de traitement (Gs) dans la réussite de certaines épreuves mesurant les aptitudes visuelles (Gv) ou encore sur la contribution du facteur Compréhension-Connaissance (Gc) dans certaines épreuves de raisonnement fluide (Keith, Fine, Taub, Reynolds, & Kranzler, 2006). L’intérêt de l’AFB est ici de pouvoir tester toutes ces relations pour déterminer avec précision la nature des construits évalués par les scores des différents sous-tests des batteries cognitives. L’estimation de ce modèle permet de s’affranchir de la comparaison d’un grand nombre d’alternatives où les améliorations obtenues seraient susceptibles de découler de certaines caractéristiques aléatoires de l’échantillon.
Matériel et méthode
21Un total de 249 écoliers suisses du canton de Genève a été évalué (125 filles et 124 garçons) dans le cadre d’un projet financé par le Fonds national suisse de la recherche scientifique2. L’âge moyen des filles était de 9,78 ans (E.T. = 1,20) et celui des garçons 9,69 ans (E.T. = 1,18). L’échantillon a été stratifié en fonction du sexe et du niveau d’éducation des parents et tous les enfants se trouvaient dans le niveau scolaire correspondant à leur âge chronologique. Un total de 20 épreuves provenant du WISC-IV, de la Nepsy, du KABC-I ainsi que du Woodcock-Johnson-R a été administré lors de trois sessions de 45 minutes. Plus précisément, les épreuves comprenaient l’ensemble des quinze sous-tests du WISC-IV, les sous-tests Compréhension de consignes et Répétition de phrases de la batterie NEPSY, l’épreuve Triangles du KABC-I ainsi que les sous-tests Formation de concepts et Cross-Out du Woodcock-Johnson-R. Les scores des sous-tests ont été standardisés de manière à ce que l’échelle des distributions a priori corresponde à celle des saturations standardisées. Toutes les analyses ont été réalisées à l’aide du logiciel Mplus version 7.0 (Muthén & Muthén, 2012).
Modèles et analyses
22Le premier modèle estimé (Modèle 1 - Spearman) comporte un seul facteur d’intelligence générale défini sur la base des 20 sous-tests. Ce modèle très simple sert de base pour la comparaison avec les autres modèles plus complexes.
23Les modèles 2 et 3 sont quant à eux définis sur la base du modèle CHC. Dans le modèle 2, les épreuves Similitudes, Vocabulaire, Compréhension, Information, Raisonnement verbal et Compréhension de consignes contribuent au facteur Gc – Compréhension-connaissance. Les sous-tests Cubes, Complètement d’images et Triangles contribuent quant à eux au facteur Gv – Traitement visuel. Le facteur Gf – Intelligence fluide est défini sur la base des sous-tests Matrices, Identification de concepts et Formation de concepts. Les épreuves Mémoire des chiffres, Séquence Lettres-Chiffres, Arithmétique et Répétition de phrases saturent sur le facteur Gsm – mémoire à court-terme. Les sous-tests Code, Symboles, Barrages et Cross-Out contribuent au facteur Gs – vitesse de traitement. Enfin, un facteur d’intelligence générale de second-ordre est défini sur la base des facteurs Gc, Gv, Gf, Gsm et Gs.
24Le troisième modèle est identique au modèle 2 (structure CHC) avec une modification importante : toutes les saturations entre les sous-tests et les facteurs qui étaient fixées à zéro dans le modèle 2 sont remplacées par des zéros approximatifs (distributions a priori de moyenne zéro et faible variance), de manière à indiquer que les valeurs attendues pour ces saturations sont réduites mais pas nécessairement nulles. De cette façon, dans le modèle 3, chacun des 20 scores des sous-tests sature sur les cinq facteurs, ce qui présente l’avantage de permettre d’évaluer la contribution de chaque construit latent sur l’ensemble des sous-tests.
Variance a priori
25Le choix de la variance a priori reflète les croyances et les connaissances initiales. Une variance trop réduite ne laisserait aucune saturation s’écarter significativement de zéro, ce qui reviendrait à effectuer une analyse avec la paramétrisation restrictive classique (modèle 2). Une variance trop importante quant à elle ne donnerait pas suffisamment d’information au modèle, qui serait alors sous-identifié. Dans ce cas, l’algorithme d’estimation Markov Chain Monte Carlo (MCMC) ne parvient pas à converger. En raison du choix des différentes épreuves, censées mesurer un seul construit, et sur la base de précédentes études (Golay, Reverte, Rossier, Favez, & Lecerf, 2013), on s’attend à des saturations secondaires de magnitude plutôt réduite. On choisit donc une variance a priori de 0,01 qui correspond à un intervalle de crédibilité à 95 % de ± 0,20.
Analyse de sensibilité
26Pour s’assurer que les résultats de l’analyse ne sont pas exagérément sensibles aux valeurs a priori choisies, on a procédé à une analyse de sensibilité : le modèle 3 a été estimé avec des variances plus importantes afin de vérifier l’impact des valeurs initiales sur les résultats. Avec une variance de 0,02 (intervalle de crédibilité à 95 % de ± 0,28), on obtient un ajustement légèrement meilleur (valeur plus élevée de la posterior predictive p-valeur ; PPP) mais exactement le même pattern de résultats (mêmes saturations considérées comme substantielles). Avec des variances encore plus élevées (0,03), on ne détecte pas de nouvelles saturations, ce qui suggère que le degré exact d’information préalable (variances a priori) ne semble pas déterminant pour les résultats de l’analyse. Toutefois avec une variance a priori de 0,03, une saturation attendue n’est plus détectée : l’intervalle de crédibilité de la saturation de l’épreuve Matrices sur le facteur Gf n’exclut plus la valeur 0. La valeur médiane de la distribution a posteriori reste toutefois quasi identique. Ce phénomène d’une plus grande variabilité de la distribution a posteriori indique que la variance a priori est trop importante et ne donne plus suffisamment d’information au modèle. Avec une variance de 0,04 on observe à nouveau le même phénomène : aucune saturation nouvelle n’est mise en évidence mais certaines saturations attendues ne sont plus détectées. Enfin, lorsque la variance est fixée à 0,05, le modèle n’est plus suffisamment identifié et l’algorithme d’estimation ne parvient pas à converger. En résumé, le degré d’information préalable exact tel qu’il est exprimé à travers le choix des variances a priori ne semble pas jouer un rôle déterminant dans l’interprétation du pattern de résultats.
Estimation et convergence
27L’estimation des distributions a posteriori a été réalisée à l’aide d’une procédure MCMC avec l’échantillonneur de Gibbs. L’utilisation adéquate de cette procédure présuppose de pouvoir vérifier la convergence des estimations. À cet égard, trois chaines avec différentes valeurs de départ et comportant chacune 50 000 itérations ont été estimées. La convergence des chaines a ensuite été vérifiée à l’aide du diagnostic Gelman-Rubin (Gelman & Rubin, 1992). Lorsque la valeur du Potential Scale Reduction factor (PSR) est comprise entre 1 et 1,1, la variation entre les chaines est faible par rapport à la variation à l’intérieur des chaines. On peut donc considérer que le modèle a convergé. Dans certaines situations toutefois, la valeur du PSR peut passer brièvement sous la valeur 1,1 mais ensuite ré-augmenter. La convergence des chaines n’est donc pas réellement atteinte. Il est alors nécessaire de calculer davantage d’itérations pour voir la valeur du PSR se stabiliser dans l’intervalle cible. Afin d’éviter un diagnostic prématuré de la convergence, on s’est assuré que le PSR avait atteint l’intervalle 1 à 1,1 avant la moitié (25 000) des itérations. On a également vérifié que la valeur du PSR demeurait dans cet intervalle jusqu’à la fin des 50 000 itérations.
28Une autre façon de s’assurer de la convergence des estimations consiste à vérifier la similarité des résultats entre chacune des trois chaines. Les distributions des paramètres de chaque chaine sont comparées les unes aux autres à l’aide d’un test de Kolmogorov-Smirnov, en effectuant 100 tirages par paramètre et par chaine. Finalement la première moitié des chaines est écartée (phase de burn-in) et les distributions a posteriori sont estimées sur la deuxième moitié.
Comparaison de modèles
29L’ajustement des modèles est évalué à l’aide de trois critères. La première méthode est le posterior predictive checking (Gelman, Meng, & Stern, 1996) : la posterior predictive p-valeur (PPP) permet de mettre en évidence une mauvaise spécification du modèle. Une faible valeur positive (par ex., 0,005) indique que l’on doit rejeter le modèle alors qu’une valeur proche de 0,5 indique un excellent ajustement. Il n’existe actuellement pas de valeur clairement définie pour le PPP pour déterminer si un modèle est suffisamment ajusté. Si des valeurs de PPP de 0,1, 0,05 ou 0,01 apparaissent comme des valeurs seuils conduisant à des taux de rejets acceptables, Muthén et Asparouhov (2012) suggèrent également d’interpréter les plus grandes valeurs de PPP comme indiquant les meilleurs modèles.
30Deuxièmement, il est aussi possible de comparer des modèles sur la base du coefficient DIC (Deviance information criterion ; Gelman, Carlin, Stern, & Rubin, 2004). Le DIC est une généralisation bayésienne du coefficient AIC (Akaike Information Criterion) et permet d’évaluer la vraisemblance du modèle en prenant en compte la complexité de ce dernier (nombre de paramètres). Le nombre de paramètres utilisé pour le calcul du DIC est le nombre de paramètres effectifs (pD). Les modèles possédants les plus petites valeurs de DIC doivent être préférés.
31Enfin il est encore possible de comparer de manière naturelle les modèles à l’aide du facteur de Bayes (Kass & Raftery, 1995). Lorsque l’on compare la vraisemblance de différents modèles, le facteur de Bayes représente l’amplitude et la direction du changement d’avis, suite à l’examen des données. Un facteur de Bayes supérieur à 1 indique que le crédit accordé à un premier modèle M1 doit être révisé à la hausse par rapport à celui accordé à un deuxième modèle M2 (Noël, 2013). Les valeurs supérieures à 3 sont généralement interprétées comme suffisamment importantes pour privilégier un modèle M1 par rapport à un modèle M2. On peut approximer le facteur de Bayes de manière très simple à partir de la différence entre les coefficients BIC :
32Facteur de bayes = exp[-1/2*(BICm2 – BICm1)].
Résultats
33Le premier modèle comporte un facteur général unique. Les saturations entre les sous-tests et le facteur g sont toutes considérées comme significatives. Toutefois comme indiqué dans le tableau 1, le modèle 1 est clairement rejeté en raison d’une valeur de PPP trop faible (PPP = 0,000 ; DIC = 13114,749).
34Le modèle 2, basé sur le modèle CHC, comporte quant à lui cinq facteurs de premier ordre et un facteur général de 2e ordre. L’ajustement de ce modèle est supérieur au premier modèle (DIC = 12790,064). Le facteur de Bayes opposant les modèles 1 et 2 est extrêmement élevé (2,704E66) et indique que le modèle 2 est considérablement plus probable que la première structure factorielle. Toutefois la valeur du coefficient PPP (0,000) suggère à nouveau un degré d’ajustement inadéquat.
35Le 3e modèle se base également sur le modèle CHC. Cependant, toutes les saturations secondaires ont été estimées plutôt que d’être fixées à zéro. L’ajustement du modèle 3 est adéquat et supérieur au modèle 2 (PPP = 0,182 ; DIC = 12702,668). Il est toutefois intéressant de noter que lorsque l’on compare le modèle 2 au modèle 3 sur la base du coefficient BIC ou du facteur de Bayes, le nombre beaucoup plus élevé de paramètres librement estimés dans le modèle 3 se montre très pénalisant. L’indice DIC quant à lui, introduit une pénalité pour la complexité du modèle sur la base du nombre de paramètres effectifs plutôt que sur la base du nombre de paramètres libres. Congruent avec l’évaluation réalisée à l’aide du PPP, le DIC indique ici clairement la préférence pour le modèle 3. Par rapport au premier objectif de cette étude, les résultats suggèrent donc une meilleure adéquation du modèle CHC.
36Le deuxième objectif de cette étude consiste à vérifier le ou les construits évalués par chacun des sous-tests. On voit sur le tableau 2 que la totalité des saturations attendues dans le modèle 3 peuvent être considérées comme substantielles à l’exception du sous-test Formation de concepts qui ne sature pas de façon significative sur le facteur Gf. En effet, la valeur médiane de chacune des distributions a posteriori est comprise dans un intervalle de crédibilité qui exclut la valeur 0 pour toutes les saturations attendues (indiquées en gras dans le tableau). L’examen des saturations montre donc que le sous-test Formation de concepts de la batterie Woodcock-Johnson-R ne semble pas être un bon indicateur du raisonnement fluide dans cette étude. On note également que le sous-test Arithmétique ne mesure pas d’autres construits que la mémoire à court-terme (Gsm), et cela contrairement aux résultats des AFC classiques (Lecerf, Rossier, Favez, Reverte, & Coleaux, 2010 ; Keith, Fine, Taub, Reynolds, & Kranzler, 2006).
37On note également que le sous-test Complètement d’images mesure le traitement visuel mais également le facteur Gc, résultat qui est cohérent avec les conclusions des AFC classiques (Lecerf et al., 2010). Le niveau de compréhension-connaissance contribue donc également aux performances observées dans ce sous-test. De manière analogue, le sous-test Répétition de phrases mesure en premier lieu Gsm mais est également influencé par le facteur Gc. On note encore deux saturations secondaires substantielles : le sous-test Cross-Out mesure bien Gs mais semble influencé par les capacités de traitement visuel (Gv). Enfin, le sous-test Compréhension de consignes destiné à mesurer le facteur compréhension-connaissance est influencé par les capacités de mémoire à court-terme (Gsm). Ce résultat est peu surprenant compte tenu du fait que cette épreuve verbale consiste à comprendre des phrases de plus en plus longues, sans possibilité de répéter les énoncés aux enfants.
38On a mentionné en introduction que les AFC pouvaient surestimer les corrélations entre facteurs. Dans un modèle hiérarchique, la corrélation entre facteurs est représentée par les saturations des facteurs de premier ordre sur le facteur général de deuxième ordre (tableau 3). On constate que les saturations du modèle 3 sont systématiquement plus basses que celles du modèle 2. Notons que le contraste est encore plus accentué si le modèle est estimé avec des variances a priori plus importantes : par exemple la saturation de Gf sur le facteur g est de 0,860 (IC 95 % de 0,432 à 0,994) lorsque les variances a priori sont fixées à 0,02. Fixer un grand nombre de saturations à zéro conduit donc bien à une surestimation des corrélations entre facteurs, qui se manifeste dans le modèle 2 par l’augmentation des saturations sur le facteur g. Dans un grand nombre d’études, on observe une saturation unitaire (1,0) entre Gf et g. Gustafsson (1984) interprète ce résultat comme démontrant l’équivalence entre intelligence fluide et intelligence générale. On considère ici au contraire que cette identité entre les facteurs g et Gf est plus probablement explicable par un artefact statistique, lié à la surestimation des corrélations entre facteurs de premier ordre.
Deuxième exemple : analyse factorielle d’épreuves mesurant les fonctions exécutives
39Les fonctions exécutives peuvent être vues comme des mécanismes de contrôle généraux, ayant pour but de moduler, coordonner et contrôler les différents sous-processus cognitifs impliqués dans les tâches cognitives plus complexes. Miyake et collaborateurs (2000) suggèrent l’existence de trois fonctions exécutives distinctes : la capacité à déplacer son attention d’une tâche à l’autre (shifting), la capacité de mise à jour du contenu de la mémoire de travail (updating) et les capacités d’inhibition. Afin de prendre en compte l’aspect composite caractéristique des tâches exécutives, Miyake et collaborateurs ont administré plusieurs tâches pour évaluer chacun des trois processus (updating, shifting et inhibition). À l’aide de modélisations en équations structurales, la part de variance commune à plusieurs épreuves, supposée pertinente, a été isolée alors que les parts de variance spécifiques à chaque paradigme ont pu être écartées. Toutefois l’examen des AFE présentées par Miyake révèle que toutes les tâches ne contribuent pas à un seul facteur. Certaines tâches présentent même des saturations secondaires plus élevées que la saturation principale, seule retenue pour les AFC. Par exemple, les résultats des AFE suggèrent que la tâche Tone Monitoring destinée à évaluer les capacités de mise à jour mesurait avant tout l’inhibition. La saturation de cette tâche sur le facteur updating présentait alors un caractère secondaire.
40Dans le cadre de ce deuxième exemple, la proposition théorique de Miyake et collaborateurs a été adaptée : ainsi les capacités d’updating, de shifting et d’inhibition ont été distinguées. L’intérêt et l’objectif de l’AFB consiste ici à s’assurer qu’il n’existe pas de saturations secondaires substantielles sans avoir à recourir à une AFE. En effet, la complexité factorielle attendue n’est pas facile à déterminer à l’avance, ce qui rend la sélection d’une méthode de rotation adéquate difficile. Si le nombre de saturations substantielles par épreuve est incertain, la magnitude des saturations attendues peut en revanche être approximée. L’AFB permet, dans cette situation, d’évaluer les relations entre chacune des épreuves et les trois fonctions exécutives.
Matériel et méthode
41Neuf épreuves censées mesurer les fonctions exécutives ont été sélectionnées de manière à être aussi proches que possible des épreuves de l’expérience de Miyake et collaborateurs. Elles sont administrées à des étudiants de première et deuxième année de psychologie de l’université de Genève. La tâche Cube Updating (Delaloye, Moy, Baudois, De Bilbao et al., 2009) remplace le test Tone Monitoring qui ne contribuait pas au bon facteur dans l’étude originale. La tâche Antisaccade a été remplacée par la tâche des Flèches (Delaloye, 2004). Seules les données des participant(e)s âgés de moins de 35 ans, de langue maternelle française ou francophones depuis plus de cinq ans, sont retenues. L’échantillon final comporte 158 participants âgés en moyenne de 21,34 ans (E.T. = 2,17). Les scores des tâches ont été standardisés de manière à ce que l’échelle des distributions a priori corresponde à celle des saturations standardisées.
Modèles et analyses
42Le premier modèle comporte un facteur exécutif unique et représente la structure hypothétique la plus parcimonieuse pour représenter les fonctions exécutives. Ce premier modèle sert de ligne de base dans les comparaisons avec les modèles plus complexes.
43Le deuxième modèle est basé sur les travaux de Miyake et comporte trois facteurs corrélés. Les tâches Stroop, Flèches et Stop Signal contribuent au facteur Inhibition. Les tâches Keep-Track, Letter-Updating et Cube-Updating saturent sur le facteur Updating. Enfin les tâches Plus-Minus, Local-Global et Number-Letter contribuent au facteur Shifting. Le troisième modèle est défini sur la base du modèle 2. Toutes les saturations des tâches sur les facteurs, fixées à zéro dans le modèle 2, sont remplacées par des zéros approximatifs (distribution a priori de moyenne zéro et faible variance) car les valeurs attendues de ces saturations sont réduites mais pas nécessairement nulles. Sur la base de l’examen de la matrice de saturation des AFE de l’étude de Miyake et collaborateurs (2000), on choisit une variance a priori de 0,03 qui correspond à des saturations secondaires faibles à modérées (intervalle de crédibilité à 95 % de ± 0,34). Comme les patterns de saturations et la magnitude des corrélations entre les facteurs des modèles 2 et 3 sont quasiment identiques, on considère que le degré exact d’information préalable ne semble pas déterminant pour les résultats de l’analyse.
Résultats
44Le premier modèle présente un ajustement aux données très faible en raison de la très petite valeur du PPP (PPP = 0,007 ; DIC = 3979,084 ; tableau 4). Le deuxième modèle, basé sur une structure à trois facteurs, présente quant à lui un ajustement plus adéquat (PPP = 0,136 ; DIC = 3956,051). Le Facteur de Bayes (17,85) basé sur la comparaison entre les modèles 1 et 2 indique que la variante basée sur les travaux de Miyake et collaborateurs (modèle 2) a beaucoup plus de chance d’être correcte que le modèle 1. Le modèle 3 est basé sur la même structure que le modèle 2. Toutefois toutes les saturations secondaires sont estimées plutôt que d’être fixées à zéro. L’ajustement présenté par le modèle 3 se montre supérieur (PPP = 0,222 ; DIC = 3943,010). À nouveau, ce modèle est fortement pénalisé lorsque l’on examine le coefficient BIC, mais doit être privilégié selon les critères basés sur le DIC ou le PPP.
45L’estimation du modèle 3 permet de vérifier la présence de saturations secondaires entre les différentes épreuves et les facteurs inhibition, updating et shifting. Les saturations du modèle 3 sont présentées dans le tableau 5. On note tout d’abord que l’épreuve des Flèches ne contribue pas substantiellement au facteur inhibition puisque l’intervalle de crédibilité à 95 % n’exclut pas la valeur 0. En revanche toutes les autres tâches sont associées à leur variable latente principale comme l’indiquent les intervalles de crédibilité qui excluent la valeur 0. On n’observe en revanche aucune saturation secondaire substantielle. En d’autres termes, les modèles 2 et 3 aboutissent ici à une interprétation très similaire. L’estimation de toutes les saturations ne conduit donc pas nécessairement à adopter un modèle plus complexe. Finalement, ces résultats indiquent que l’interprétation des scores des différentes tâches exécutives de cette expérience peut être considérée comme univoque dans le sens où, chaque test, ne contribue qu’à un seul facteur. Enfin, au niveau des corrélations entre facteurs, à l’exception de la corrélation entre l’inhibition et le shifting, on note un degré de liaison peu important. En effet, on constate à partir du tableau 5 que les valeurs des corrélations sont respectivement de 0,246 entre les facteurs Inhibition et Updating et de 0,228 entre les facteurs Updating et Shifting. Les intervalles de crédibilité de ces deux corrélations n’excluent pas la valeur zéro. En conséquence, il n’est pas possible d’exclure la possibilité que ces facteurs ne corrèlent pas. Les fonctions exécutives posséderaient davantage un caractère spécifique qu’unitaire. Afin de faciliter la réalisation de telles analyses via le logiciel Mplus, une syntaxe commentée (modèle 3) est présentée en annexe.
Conclusion
46L’objectif de l’AFB est avant tout de tester des modèles dont les spécifications sont plus fidèles aux hypothèses théoriques. L’approche bayésienne permet également d’estimer des modèles plus complexes, qu’il ne serait pas possible d’estimer sous maximum de vraisemblance.
47L’étude 1 montre que l’estimation de toutes les saturations secondaires permet d’évaluer la nature des construits mesurés par les scores de chaque épreuve sans recourir à de nombreuses comparaisons et sans biaiser l’estimation de certains des paramètres. La spécification de zéro approximatifs semble être une alternative efficace pour examiner différentes hypothèses sans pour autant sur-ajuster un modèle aux données de l’échantillon. L’étude 2 montre que l’AFB permet comme l’AFE l’estimation de nombreux paramètres sans dépendre de la sélection d’une méthode de rotation. Les modèles ainsi paramétrés n’aboutissent pas nécessairement à des patterns de saturations plus complexes.
48En conclusion, l’AFB pourrait être considérée comme une approche intermédiaire entre l’AFE et l’AFC : elle permet, comme l’approche confirmatoire, de spécifier les saturations attendues. Elle autorise néanmoins, comme l’AFE, de conserver un certain niveau d’incertitude et d’estimer toutes les saturations secondaires. L’estimation bayésienne comporte d’autres avantages statistiques puisqu’elle ne repose pas sur des hypothèses de normalité des estimations et paraît donc intéressante pour réaliser des analyses avec des effectifs réduits. Même si des travaux supplémentaires restent nécessaires pour déterminer les tailles des échantillons requis par rapport à l’approche plus classique, on peut se réjouir de la disponibilité toujours plus grande des outils permettant de réaliser de telles analyses.
49La présentation des méthodes bayésiennes suscite parfois et en dépit de ses avantages, certaines réticences. Lorsqu’il s’agit de spécifier une distribution a priori sur un paramètre, on peut s’attendre à ce que cette dernière influence la distribution a posteriori. On prendrait alors le risque d’aboutir à des résultats qui seraient moins objectifs, car ne dépendant plus uniquement des données expérimentales. Nous estimons que ces craintes sont en grande partie infondées. Premièrement, dans l’approche confirmatoire classique, on fixe également les valeurs attendues de nombreux paramètres, et cela de manière plus restrictive encore. Rappelons ensuite que le degré exact d’information a priori n’est pas toujours déterminant quant à l’interprétation des résultats obtenus. Les valeurs exactes des variances a priori n’ont pas nécessairement d’impact sur les conclusions d’une étude. Ces doutes peuvent par ailleurs être levés en menant une analyse de sensibilité. Enfin, on peut mettre en avant le fait que les psychologues font déjà largement appel, et fort heureusement d’ailleurs, à leurs connaissances préalables dans la conception de leurs expériences comme dans l’interprétation de leurs résultats. Nous pensons que l’approche bayésienne est une solution prometteuse pour intégrer les connaissances et les incertitudes au cœur même de l’analyse des données.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références
10.1207/s15327906mbr3003_6 :Carroll, J. B. (1995). On methodology in the study of cognitive abilities. Multivariate Behavioral Research, 30(3), 429-452.
Delaloye, C. (2004). Mémoire de travail, inhibition et processus automatiques et contrôlés : Une analyse de leurs relations lors du vieillissement normal. Thèse de Doctorat, université de Genève.
10.1016/j.archger.2008.08.011 :Delaloye, C., Moy, G., Baudois, S., De Bilbao, F., Dubois Remund, C., Hofer, F., et al. (2009). The contribution of aging to the understanding of the dimensionality of executive functions. Archives of Gerontology and Geriatrics, 49(1), 51-59.
Gelman, A., Meng, X., & Stern, H. (1996). Posterior predictive assessment of model fitness via realized discrepancies. Statistica Sinica, 6, 733-759.
10.1201/9780429258480 :Gelman, A., Carlin, J., Stern, H., & Rubin, D. (2004). Bayesian data analysis. Boca Rato, FL : Chapman & Hall/CRC.
10.1214/ss/1177011136 :Gelman, A., & Rubin, D. (1992). Inference from iterative simulation using multiple sequences. Statistical science, 7 (4), 457-472.
10.1037/a0030676 :Golay, P., Reverte, I., Rossier, J., Favez, N., & Lecerf, T. (2013). Further insights on the French WISC–IV factor structure through Bayesian structural equation modeling. Psychological Assessment, 25 (2), 496-508.
10.1016/0160-2896(84)90008-4 :Gustafsson, J. E. (1984). A unifying model for the structure of intellectual abilities. Intelligence, 8 (3), 179-203.
10.1080/01621459.1995.10476572 :Kass, R.E., & Raftery, A.E. (1995). Bayes factors. Journal of the American Statistical Association, 90, 773-795.
Keith, T. Z., Fine, J. G., Taub, G. E., Reynolds, M. R., & Kranzler, J. H. (2006). Higher-order, multi-sample, confirmatory factor analysis of the Wechsler Intelligence Scale for Children– Fourth Edition : What does it measure. School Psychology Review, 35(1), 108-127.
Lecerf, T., Rossier, J., Favez, N., Reverte, I., & Coleaux, L. (2010). The four-vs. alternative sixfactor structure of the French WISC-IV : Comparison using confirmatory factor analyses. Swiss Journal of Psychology, 69(4), 221-232.
10.1207/s15327906mbr3904_4 :Lee, S. Y., & Song, X. Y. (2004). Evaluation of the Bayesian and Maximum Likelihood Approaches in Analyzing Structural Equation Models with Small Sample Sizes. Multivariate Behavioral Research, 39(4), 653-686.
10.1037/0033-2909.111.3.490 :MacCallum, R. C., Roznowski, M., & Necowitz, L. B. (1992). Model modifications in covariance structure analysis : The problem of capitalization on chance. Psychological Bulletin, 111(3), 490-504.
10.1037/0022-3514.95.2.442 :McCrae, R., Yamagata, S., Jang, K., Riemann, R., Ando, J., Ono, Y., et al. (2008). Substance and artifact in the higher-order factors of the Big Five. Journal of personality and social psychology, 95(2), 442-455.
Marsh, H., Lüdtke, O., Muthén, B., Asparouhov, T., Morin, A., Trautwein, U., et al. (2010). A New Look at the Big Five Factor Structure Through Exploratory Structural Equation Modeling. Psychological Assessment, 22(3), 471-491.
Miyake, A., Friedman, N., Emerson, M., Witzki, A., Howerter, A., & Wager, T. (2000). The unity and diversity of executive functions and their contributions to complex “frontal lobe” tasks : A latent variable analysis. Cognitive Psychology, 41(1), 49-100.
Muthén, B., & Asparouhov, T. (2012). Bayesian SEM : A more flexible representation of substantive theory. Psychological Methods, 17(3), 313-335.
Muthén, L., & Muthén, B. (2012). Mplus user’s guide. Seventh Edition. Los Angeles, CA : Muthén & Muthén.
10.1007/978-2-8178-0425-5 :Noël, Y. (2013). Psychologie statistique avec R. Paris : Springer.
10.1007/BF02294318 :Scheines, R., Hoijtink, H., & Boomsma, A. (1999). Bayesian estimation and testing of structural equation models. Psychometrika, 64(1), 37-52.
Schneider, W. J., & McGrew, K. (2012) The Cattell-Horn-Carroll model of intelligence. In D. Flanagan & P. Harrison (Eds.), Contemporary Intellectual Assessment : Theories, Tests, and Issues (3rd ed. ; pp. 99-144). New York : Guilford.
10.1037/a0016972 :Yuan, Y., & MacKinnon, D. (2009). Bayesian mediation analysis. Psychological methods, 14(4), 301-322.
Annexe
Annexes
Annexe 1 - Syntaxe commentée de l’analyse factorielle bayésienne d’épreuves mesurant les fonctions exécutives (modèle 3).
Syntaxe | Commentaire |
Title : Analyse fonctions exécutives en trois facteurs | Titre de l’analyse |
Data : file is données. txt ; | Définition du fichier de données |
Variable : names are PlusMinus LocalGlobal KeepTrack Stroop Fleches NumberLetter LetterUpdating CubeUpdating StopSignal | Description des variables dans l’ordre d’apparition dans le fichier |
!Missing are all (-999) ; | Optionnel : Description du format des éventuelles données manquantes |
Usevariables PlusMinus-StopSignal ; | Sélection des variables utilisées dans le modèle |
Define : standardize PlusMinus-StopSignal ; | Standardisation des variables (mise à l’échelle pour distribution a priori) |
Analysis : | Paramètres de l’analyse |
Estimator = bayes ; | Sélection de l’estimateur bayésien |
Proc = 2 ; | Définition du nombre de processeurs |
Fbiter = 50000 ; | Définition de la longueur des chaines |
Chain = 3 ; | Définition du nombre de chaines |
!stvalues = ml ; | Optionnel : permet d’estimer des valeurs de départ sous maximum de vraisemblance si problèmes de convergence |
Kolmogorov = 100 ; | Test d’égalité des distributions a-posteriori avec 100 tirages pour vérifier la convergence des chaines |
Model : | Définition du modèle |
Inhibition by Stroop Fleches StopSignal ; | Variable latente Inhibition définie par 3 sous-tests |
Updating by KeepTrack LetterUpdating CubeUpdating ; | Variable latente Updating définie par 3 sous-tests |
Shifting by PlusMinus LocalGlobal NumberLetter ; | Variable latente Shifting définie par 3 sous-tests |
!cross-loadings : | Spécification des saturations secondaires |
Inhibition by KeepTrack*0 LetterUpdating*0 CubeUpdating*0 (I1-I3) ; | |
Inhibition by PlusMinus*0 LocalGlobal*0 NumberLetter*0 (I4-I6) ; | |
Updating by Stroop*0 Fleches*0 StopSignal*0 (U1-U3) ; | |
Updating by PlusMinus*0 LocalGlobal*0 NumberLetter*0 (U4-U6) ; | |
Shifting by Stroop*0 Fleches*0 StopSignal*0 (S1-S3) ; | |
Shifting by KeepTrack*0 LetterUpdating*0 CubeUpdating*0 (S4-S6) ; | |
Model priors : | Spécification des distributions a priori |
I1-I6 ~ N(0,.03) ; | Distributions normales de moyenne 0 et de variance 0.03 affectées aux saturations secondaires |
Output : tech8 stdy ; | Affichage de l’historique d’optimisation (valeur PSR) |
Plot : type = plot2 ; | Affichage graphique de certains résultats |
Notes de bas de page
2 FNS no. 118248 ; requérant principal T. Lecerf.
Auteurs
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
À quoi sert aujourd'hui la psychologie sociale ?
Demandes actuelles et nouvelles réponses
Gérard Guingouain et François Le Poultier (dir.)
1994
Psychologie sociale et formation professionnelle
Propositions et regards critiques
Jacques Py, Alain Somat et Jacques Baillé (dir.)
1998
La maîtrise du langage
Textes issus du XXVIIe symposium de l’Association de psychologie scientifique de langue française (APSLF)
Agnès Florin et José Morais (dir.)
2002
L'apprentissage de la lecture
Perspectives comparatives
Mohamed Nouri Romdhane, Jean Emile Gombert et Michèle Belajouza (dir.)
2003
Réussir à l'école
Les effets des dimensions conatives en éducation. Personnalité, motivation, estime de soi, compétences sociales
Agnès Florin et Pierre Vrignaud (dir.)
2007
Lire-écrire de l'enfance à l'âge adulte
Genèse des compétences, pratiques éducatives, impacts sur l'insertion professionnelle
Jean-Pierre Gaté et Christine Gaux (dir.)
2007
L’apprentissage de la langue écrite
Approche cognitive
Nathalie Marec-Breton, Anne-Sophie Besse, Fanny De La Haye et al. (dir.)
2009
Musique, langage, émotion
Approche neuro-cognitive
Régine Kolinsky, José Morais et Isabelle Peretz (dir.)
2010