Mauvaise spécification dans les modèles de croissance latente
p. 109-113
Texte intégral
Introduction
1Les modèles d’équations structurales, rendus accessibles à large échelle grâce aux premiers logiciels spécialisés il y a 30 ans, sont souvent perçus comme un moyen de tester empiriquement des hypothèses psychologiques compliquées. C’est ainsi que la littérature dans divers champs de recherche psychologique a vu l’utilisation des modèles d’équations structurales augmenter fortement dans les dix dernières années. De plus, les liens, voire les analogies, entre des modèles classiques dans la recherche psychologique (tels que la régression linéaire simple et multiple, l’analyse de variance simple, factorielle et à mesures répétées et l’analyse de covariance) sont désormais vérifiés et établis.
2Une application très populaire des modèles à équations structurales concerne les modèles de croissance latente (MCL), une extension de l’analyse de variance à mesures répétées applicable à une large gamme de données (corrélationnelles mais aussi expérimentales). Le MCL permet au chercheur de spécifier et de tester un ample éventail de fonctions de changements pour comparer les prédictions aux données. Ainsi, plusieurs fonctions décrivant le changement de la variable analysée peuvent être comparées et par le biais de comparaisons statistiques, le chercheur peut établir quelle fonction s’ajuste au mieux à ces données. Comme dans toute application de modèles statistiques, la motivation théorique doit également jouer un rôle primordial dans le choix de la fonction du changement, ceci afin de mieux comprendre le phénomène étudié et espérer que les résultats d’une étude donnée soient répliqués dans d’autres études indépendantes.
3Malgré la flexibilité des MCL, la grande majorité des applications se limite à implémenter une seule fonction de changement, à savoir celle de linéarité entre le temps et les mesures répétées de la variable d’intérêt. Les raisons résident probablement dans la simplicité de compréhension de la fonction linéaire, dans la facilité statistique de spécifier une telle fonction, mais également dans la difficulté d’implémentation d’autres fonctions alternatives. Dans le champ du développement cognitif (surtout lifespan) de nombreuses études se focalisent sur un paramètre du MCL en particulier, la variance de la pente, qui définit le degré de différence interindividuelle dans le changement intra-individuel. C’est ainsi que plusieurs études ont conclu, par exemple, à l’existence de taux d’apprentissage différenciés (en fonction de l’âge ou des capacités cognitives) et différents degrés de déclin cognitif (plus marqués pour des strates socioéconomiques inférieurs ou pour des participants à haute performance).
4Cette étude se focalise sur les conséquences d’une mauvaise spécification de la fonction de changement dans le cadre des MCL. Ce sujet a été étudié surtout dans le cadre d’un seul type de modèle à équations structurales, à savoir l’analyse factorielle confirmatoire. Certaines des conséquences de la mauvaise spécification sont : le χ2 obtenu par la méthode du maximum de vraisemblance n’est plus central, les paramètres sont estimés de façon biaisée et des cas « Heywood » peuvent apparaître (MacCallum, 1986). La grande majorité des études sur la mauvaise spécification étant limitée à des modèles factoriels simples, les conséquences de la mauvaise spécification dans le cadre du MCL ne sont pas connues.
5Prolongeant des travaux antérieures (Hertzog et al., 2006 ; 2008) nous simulons des données selon un MCL avec une décroissance exponentielle et étudions la capacité du MCL à détecter la spécification incorrecte de la fonction de changement. Les fonctions alternatives sont linéaire, linéaire + quadratique, bases libres et double spline. Nous nous appuyons sur plusieurs indices statistiques d’ajustement pour juger la capacité de détecter la mauvaise spécification. Nous considérons également la proportion des résultats qui conclut à la significativité statistique de la variance de la pente.
Méthode
Le modèle de croissance latente
6Dans le MCL classique, Yit = Ii + btPi + Eit (tous les effets aléatoires sont distribués normalement (- N), i = individu, t = temps ; Meredith & Tisak, 1990) bt définit la forme du changement (dans l’exemple de la Figure 1 le changement est linéaire). Plusieurs pentes P peuvent être rajoutées pour obtenir des fonctions de changement plus complexes (e. g. linéaire + quadratique) – Figure 1.
Figure 1. Une représentation graphique d’un modèle de croissance latente.

Note. Les carrés représentent les mesures répétées à l’âge spécifié. Les ronds représentent l’intercepte (I) et la pente (P). Le triangle représente la modélisation des moyennes et des intercepts. Les flèches à une pointe représentent des poids structuraux (coefficients de saturation si provenant des ronds et moyennes si provenant du triangle). Les flèches à deux pointes représentent des variances (si elles concernent une seule variable) ou des covariances (si deux variables sont concernées).
Procédure de simulation
7Nous avons simulées 1000 bases de données suivant la fonction non linéaire suivante : Yit = Ii – exp[a (t-bi)] + Eit. Les facteurs fixes dans la simulation sont μI = 30, σ2I = 20, a = 0,05, μb = 20, σ2b = 20, σIb = 0. À noter que cette fonction implique un taux de déclin exponentiel a invariant au travers les observations mais un âge de début bi du déclin différentiel (à cause de la variance σ2b). Les facteurs manipulés dans la simulation (5 x 3 x 5) sont N (60, 200, 500, 1000, 5000), σYY, la fidélité de Y au temps 0 (0,80, 0,91, 0,99 - correspondant à σ2b = 5, 1,978, 0,202) et T (nombre de mesures répétées : 6, 11, 16, 21, 51). La Figure 2 représente des exemples de trajectoires individuelles simulées.
Fig. 2. Exemples de trajectoires individuelles simulées avec la fonction exponentielle. Note. Chaque ligne unit les données simulées pour une même unité d’analyse. L’abscisse représente le nombre d’occasions de mesure (1, 2,…, 51), l’ordonnée la valeur de Yit. La fidélité de Y (σYY) est de 0,91.

8Les MCL alternatifs sont linéaire (Yit = Ii + btPi + Eit, avec bt = 0, 1, 2,…, 50) ; linéaire + quadratique (Yit = Ii + btPi + (bt)2PQi + Eit avec (bt = 0, 1, 2,…, 50 ; (bt)2 = 0, 1, 4,…, 2500) ; double spline (Yit = Ii + b1t<CP1i + b2t≥CP2i + Eit, avec b1t = 0, 1, 2,…, C-1, 0,0,…, 0 ; b2t = 0,0,…, 0, C, C+1,…, 50), base libre (Yit = Ii + btPi + Eit, avec bt = 0, b1,…, b49, 50, où b1,…, b49 sont estimés).
9Les indices d’ajustement considérés sont le X2 (avec df), RMSEA, GH, TLI et leCFI (e. g. Hu & Bentler, 1999).
Résultats
10Notons tout d’abord que des cas Heywood sont souvent apparus. Dans ces cas, des valeurs négatives pour des variances sont obtenues, notamment pour la variance de la pente. Le nombre de ces cas variait entre 177 et 1000 par condition (pour rappel, le nombre de réplications par condition était 1000) et corrélait avec les facteurs manipulés (σYY, N et T). Pour les résultats suivants nous avons considéré uniquement les solutions acceptables (σ2P > 0).
11Les indices d’ajustement classiques considérés (CFI, TLI, GH, RMSEA) sont trompeurs, car dans la grande majorité des cas ils ne détectent pas la mauvaise spécification. Autrement dit, selon ces indices, les fonctions testées (qui ne correspondent pas à la fonction utilisée pour simuler les données) s’ajustent d’une manière satisfaisante aux données simulées. On observe une seule exception dans le cas T = 51, c’est-à-dire quand la totalité de la période de données simulées (51 mesures répétées) est considérée. Dans ce cas exceptionnel tous les indices classiques signalent un mauvais ajustement du MCL pour toute les fonctions alternatives testées.
12Un seul indice, peu utilisé en pratique, se révèle particulièrement utile dans cette application : la probabilité associée au X2, correspondante à la probabilité d’avoir obtenu la valeur X2 en question si l’hypothèse nulle que l’espérance du modèle testé s’ajuste bien aux données est vérifiée dans la population (en mots simples, si le modèle testé s’ajuste bien aux données). Étant donné que pour les modèles en équations structurales les attentes du chercheur vont dans le même sens que l’hypothèse nulle, il a été suggéré que, pour conclure à un bon ajustement d’un modèle, la probabilité de son X2 doit dépasser largement les seuils classiques de 1 % ou 5 %. On pourrait même proposer que cette probabilité doive être égale à 100 % moins les seuils classiques (i. e. 99 % ou 95 %). Dans cette deuxième interprétation, on obtient les résultats inverses de ceux des indices classiques ci-dessus, à savoir que la grande majorité des MCL avec fonctions alternatives est jugée mauvaise, sauf pour le cas avec T = 51.
13Finalement, rappelons que la variance de la pente (σ2P) n’est pas définie dans la fonction utilisée pour simuler les données. Néanmoins, ce paramètre est estimé pour toutes les fonctions alternatives. Nous nous intéressons au nombre de valeurs significatives pour ce paramètre. Nous observons que le nombre d’estimations significatives augmente avec l’augmentation de T, N et σYY. Cet effet est affaibli dans le cas du MCL avec fonction à base libre.
Discussion
14La fonction implémentée pour générer les données stipule que la forme du déclin est exponentielle (voir Figure 2). Ce déclin est spécifié comme étant constant pour chaque individu (le multiplicateur exponentielle a de la fonction de génération des données est fixe) mais survenant à un moment différent selon les individus (dans la fonction de génération a est multiplié par le temps t décalé de b occasions, où b est aléatoire). En termes appliqués, ceci signifie que nous stipulons le déclin cognitif comme étant un phénomène qui s’exprime par des trajectoires décroissantes exponentielles avec une pente non linéaire égale pour tout individu. Les différences individuelles surviennent uniquement de deux endroits : le point de départ différentiel (dû à σ2I) et l’âge auquel le déclin exponentiel débute (σ2b). Une fois cet âge atteint, le taux de déclin est égal pour tout individu (a n’a pas d’indice i). Dans ce sens, la variance de la peinte a valeur zéro. Nous avons montré que dans des conditions réalistes (σYY = 0,80, N = 200-500, T = 6) et idéales (σYY = 0,99, N = 5000, T = 21) de recherche les MCL typiquement utilisés dans la littérature sont largement trompeurs sous mauvaise spécification. Ces résultats doivent nous rappeler que la validité de tout modèle statistique réside sur des postulats précis à prendre en compte lors de l’interprétation théorique.
Bibliographie
Références
Hertzog, C., Lindenberger, U., Ghisletta, P., & von Oertzen, T. (2006). On the power of multivariate latent growth curve models to detect correlated change. Psychological Methods, 11, 244-252.
Hertzog, C., Oertzen, T.V., Ghisletta, P., & Lindenberger, U. (2008). Evaluating the power of latent growth curve models to detect individual differences in change. Structural Equation Modeling, 15, 541-563.
Hu, L.-T., & Bentler, P.M. (1999). Cutoff criteria for fit indexes in covariance structure analysis : Conventional criteria versus new alternatives. Structural Equation Modeling, 6, 1-55.
Meredith, W., & Tisak, J. (1990). Latent curve analysis. Psychometrika, 55, 107-122.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Vive(nt) les différences
Ce livre est diffusé en accès ouvert freemium. L’accès à la lecture en ligne est disponible. L’accès aux versions PDF et ePub est réservé aux bibliothèques l’ayant acquis. Vous pouvez vous connecter à votre bibliothèque à l’adresse suivante : https://0-freemium-openedition-org.catalogue.libraries.london.ac.uk/oebooks
Si vous avez des questions, vous pouvez nous écrire à access[at]openedition.org
Référence numérique du chapitre
Format
Référence numérique du livre
Format
1 / 3