Chapitre 5
Interprétation des non-résultats et analyses complémentaires
p. 75-88
Texte intégral
1Il peut arriver que des modèles ne tournent pas, avec certaines procédures ou fonctions de certains logiciels ou avec toutes. Pour aborder ce point, il est important de comprendre les différences entre les algorithmes utilisés par les procédures courantes de nos trois logiciels. Nous pourrons ensuite présenter un aperçu des difficultés courantes. Enfin, nous verrons comment moduler et réutiliser les résultats ainsi que quelques pistes d’analyse complémentaires.
1. Les procédures de calcul
2Les logiciels utilisent différents algorithmes pour l’implémentation de ces méthodes. Si le maximum de vraisemblance reste la méthode la plus utilisée dans les régressions logistiques multiniveaux, deux variantes sont généralement proposées par les logiciels : maximum de vraisemblance complet (FML) et maximum de vraisemblance restreint (REML). Dans ce dernier cas, les composantes de la variance sont calculées après avoir retiré les effets fixes du modèle. Pour le détail des différences dans les algorithmes de calcul, on se reportera à l’ouvrage de Hox (2010, p. 41). Les méthodes fondées sur le maximum de vraisemblance restreint, plus précises, sont plus adaptées dans le cadre de petits échantillons (Raudenbush et Bryk, 1992). Selon Hox (2010), les méthodes FML sont plus adaptées pour deux raisons : calculs plus simples et possibilité de mettre en œuvre un test du Chi2 pour comparer deux modèles qui ne diffèrent que par la partie fixe du modèle. MlWin, logiciel précurseur en termes d’analyses multiniveaux, utilise une méthode IGLS (GLS itérative) équivalente à la méthode ML utilisée sous SAS par exemple (Goldstein, 2011).
3La résolution de modèles multiniveaux logistiques se fait en utilisant une approximation de Taylor. Cette procédure permet d’approximer la fonction de lien utilisée dans le modèle logistique par un modèle linéaire. Cette approximation de Taylor peut être utilisée uniquement à partir des estimations itérées pour la partie fixe du modèle (Marginal Quasi Likelihood, notée MQL) ou à partir des estimateurs de la partie fixe et des résidus (Penalized Quasi Likelihod, notée PQL) (Hox, 2010). On se réfèrera à l’ouvrage de Hox pour une synthèse de ces deux approches.
4SAS® possède principalement deux procédures pouvant traiter des analyses de régression logistique multiniveau : proc glimmix que nous avons utilisée dans l’application sur la scolarisation au Kenya et proc nlmixed. La proc glimmix est fondée sur des méthodes de linéarisation. Wang, Xie et Fisher (2012) mentionnent que les procédures fondées sur ce type de méthodes ont des avantages (effets aléatoires plus nombreux, ML et REML disponibles).
5La proc nlmixed est fondée sur des méthodes numériques. Elle est d’utilisation nettement plus complexe, puisqu’il faut expliciter la fonction de lien d’une part, indiquer un jeu de conditions initiales d’autre part. Ainsi en reprenant ci-dessous l’exemple de Wang, Xie et Fisher (op. cit, p. 128), l’instruction parms précise les valeurs initiales des paramètres à estimer dans le cadre d’un modèle vide, logodds, odds et P définissent des variables utilisées dans le modèle, l’instruction model permet de déterminer le modèle, random définit la partie aléatoire (loi suivie, identifiant de contexte) et l’instruction estimate indique une grandeur à calculer, ici la part de variance contextuelle dans la variance totale, la variance individuelle étant considérée égale à 3,29 (π2/3).

6Sous Stata®, les fonctions xtmelogit et gllamm se distinguent par les algorithmes de calcul utilisés, de même pour glmer et glmmPQL sous R.
2. Des problèmes de mise en œuvre
7Des problèmes sont fréquemment rencontrés lors de la mise en œuvre de modèles multiniveaux.
2.1. Beaucoup de modèles ne tournent pas ou ne convergent pas
8La complexification des modèles, et notamment le nombre de termes aléatoires entrés, entraîne des calculs lourds et qui n’arrivent pas forcément à un stade de convergence. Il est alors nécessaire de revenir à un modèle simplifié, peut-être moins satisfaisant du point de vue de l’interprétation, mais qui aboutit à un processus de convergence.
9Quel que soit le logiciel, des options existent afin d’encadrer le processus de convergence. Ces seuils sont paramétrables. Ainsi dans l'utilisation de la proc glimmix sous SAS®, les options abspconv, inititer et maxopt permettent notamment de repositionner les paramètres de ce processus. Néanmoins, nous déconseillons au lecteur de modifier ces paramétrages, et lui conseillons plutôt de simplifier son modèle.
10Concernant Stata®, l’instruction xtmelogit nécessite des temps de calcul importants. Pour maximiser la vraisemblance, un jeu de valeurs initiales des paramètres doit être intégré pour aboutir au processus de convergence. Normalement, la procédure choisit automatiquement un jeu de résultats adapté, mais il arrive que ceci n’aboutisse pas à une convergence. Il est possible de fournir un jeu de données initial que l’on pourrait penser a priori plus proche des paramètres à estimer. Une bonne solution est de faire exécuter un premier modèle (par exemple une régression logistique), puis de récupérer les résultats pour les réinjecter dans l’instruction xtmelogit (une option from permet d’imposer un jeu de valeurs initiales).
11Concernant R, la procédure glmer n’a pas été en mesure de converger dans notre exemple sur la scolarisation, pour le modèle multiniveau avec les caractéristiques des districts. Les algorithmes qui y sont utilisés sont plus précis que pour la procédure glmmPQL, mais impliquent en contrepartie des calculs plus complexes et plus longs.
12Comme il a été indiqué précédemment, il existe un grand nombre d’algorithmes et le choix d’une procédure (et donc d’une technique de calcul) va être la première cause de complexité des calculs. Sous SAS®, le choix de nlmixed va se traduire par des charges de calcul importantes, particulièrement sur des fichiers de grande taille. Kiernan, Tao et Gibbs (2012) indiquent un nombre important de notes, de messages d’alerte et de messages d’erreur signalant des problèmes de mise en œuvre lors de l’utilisation de modèles mixtes ou multiniveaux sous SAS®.
2.2. Forme de la matrice de variance-covariance
13Un modèle à constante et pente aléatoire pose le problème de la covariance entre effets aléatoires de niveau 2. Par défaut, les logiciels imposent en général une covariance entre effets aléatoires qui est nulle, mais la forme de la matrice de variance-covariance peut être indiquée explicitement. Ainsi pour SAS®, au niveau de l’instruction random, une option type permettra de spécifier le choix d’une structure de covariance des effets aléatoires. Ceci a un effet notable sur la complexité des calculs qui en découlent. Par exemple, la structure de covariance la plus générale possible, codée en type=un (un pour unstructured) entraîne des temps de calculs importants.
2.3. Quelques autres problèmes potentiels
- Dans certains cas, on peut noter une augmentation de la variance contextuelle au cours du processus de construction du modèle, lors de l’entrée dans le modèle d’une variable explicative individuelle. Des effets de structure peuvent expliquer cela, notamment en partant d’un modèle vide. Ce phénomène est lié au fait que la répartition de la variable individuelle entre ses modalités connaît de grandes différences selon l’unité de niveau 2. Ainsi, la scolarisation est parfois fortement liée au milieu de résidence (urbain ou rural). Dans le cadre d’une modélisation de la scolarisation sur l’ensemble de la population d’un pays, la prise en compte d’une variable individuelle milieu urbain/rural pourrait ainsi faire baisser la variance contextuelle, traduisant une pratique différenciée entre des unités administratives très urbanisées et d’autres qui sont, à l’inverse, très rurales.
- Une question fréquemment posée dans ce type d’analyse concerne le nombre et la taille des différents contextes. Si certains auteurs préconisent au moins 30 contextes de taille minimale 30 (Kreft, 1996), ces seuils sont dictés avant tout par le type de modèle mis en œuvre. Ainsi, un modèle à constante aléatoire nécessitera un nombre de contextes moins important qu’un modèle à pente aléatoire. Maas et Hox (2005) montrent ainsi que le nombre minimal de groupes est lié à la problématique de recherche.
Une analyse des différents logiciels en présence d’un faible nombre de contextes est disponible dans l’article d’Austin (2010).
- Les analyses multiniveaux sont d’autant plus compliquées qu’elles sont effectuées sur des données issues d’un plan de sondage complexe. Si les logiciels donnent aujourd’hui la possibilité de mener des analyses multiniveaux avec des données pondérées, nous conseillons au lecteur la lecture de quelques articles préalables, dans lesquels cette problématique a été traitée. Ainsi, « Multilevel modelling of complex survey data » (Rabe-Hesketh et Skrondal, 2006) traite le cas des modèles linéaire et logistique, avec des pondérations au niveau 1. Zhu (2014) présente les options disponibles dans les toutes dernières versions de SAS® permettant de prendre en compte les jeux de pondérations issues de sondages complexes. On peut aussi citer dans ce cadre les travaux de Pfeffermann et al. (1998), Grilli et Pratesi (2004) et Asparouhov (2006).
14Le logiciel Stata®, dans sa dernière version (14), permet d’effectuer une analyse multiniveau dans le cadre de plans de sondage prédéfinis. Comme pour toutes les commandes d’estimation de paramètres, calcul de variances ou modélisation, l’analyse multiniveau doit être précédée de la description du plan de sondage utilisé : plan de sondage à 2 degrés, en grappes, etc. Cette définition est donnée par une commande svyset. Puis une analyse multiniveau tenant compte de ce plan de sondage complexe peut être effectuée en préfixant l’instruction utilisée par svy, svy: melogit par exemple.
15Cependant, dans ces cas, la définition des niveaux dans l’analyse multiniveau doit suivre la structure du plan de sondage utilisé, le plan de sondage définit donc de facto les contextes utilisés.
- Les procédures de sélection automatique de variables, telles qu’on peut en rencontrer dans des mécanismes de type forward (mécanisme ascendant), backward (mécanisme descendant) ou stepwise en régression linéaire ou logistique, sont mal adaptées à ce type de modèles. La construction de modèles se fait selon un plan parcimonieux, décrit dans cet ouvrage, en vérifiant dans un premier temps le partage de la variance, puis en entrant, de manière progressive, effets fixes sur variables individuelles, puis variables contextuelles et enfin, effets aléatoires sur variables individuelles. L’usage de modèles multiniveaux à des fins exploratoires peut devenir très complexe et inefficace.
3. Pourquoi l’utilisation d’une régression multiniveau est-elle nécessaire ?
16Devant les difficultés potentielles que présente l’analyse multiniveau, on peut être tenté d’y renoncer. Mais la modélisation multiniveau apporte une plus-value importante. Les techniques d’analyse multiniveau permettent d’estimer l’importance réelle des variables contextuelles, en calculant une variance fondée sur le nombre de contextes et non sur le nombre d’individus. Il ressort assez fréquemment de ce type d’analyse des coefficients différents de ceux obtenus par des modèles classiques. En particulier, il est fréquent qu’une variable contextuelle présente une significativité exagérément optimiste dans une régression classique, alors que l’analyse multiniveau ne permet pas, à juste titre, de déceler un impact significatif pour la même variable.
17Ainsi, en reprenant l’exemple de la scolarisation au Kenya, nous allons successivement effectuer une régression logistique classique puis une régression logistique multiniveau, avec simplement les variables individuelles sex et relation, et la variable contextuelle pclass_cr. Il ne s’agit pas de tirer des résultats de cette analyse, mais uniquement d’étudier ici l’impact d’une modélisation multiniveau sur les résultats obtenus.
18La programmation sous SAS® de cet exemple est illustrée ci-dessous :

19Les résultats figurent ci-après :
- Régression logistique, issue d'une Proc genmod effectuée sous SAS®

20Dans ce modèle à un niveau avec une variable contextuelle, la variable contextuelle pclass_cr est significative. Ces résultats montrent (comme nous l’avions déjà vu dans le chapitre 3) que les filles qui vivent dans des ménages qui ne sont pas dirigés par un de leurs parents ont une plus forte probabilité que les autres enfants d’être scolarisées. L’effet de la position dans le ménage est beaucoup plus fort que celui du sexe, qui est particulièrement faible. Ils montrent également que la taille moyenne des classes dans le district de résidence de l’enfant a un effet significatif et négatif sur la scolarisation : plus les classes sont grandes, moins les enfants sont scolarisés.
- Régression multiniveau

21Lorsque les mêmes variables sont prises en compte dans un modèle multiniveau, pclass_cr (variable contextuelle) est non significative, tout comme le sexe de l’enfant. Cela montre qu’en réalité, la taille de la classe n’a pas d’effet significatif sur la décision ou non de scolariser un enfant, contrairement à ce qui avait été trouvé dans le modèle précédent. La reproduction sur l’ensemble des individus de chaque zone de la valeur moyenne pour la zone de cet indicateur avait conduit à surestimer son effet. En réalité, il y a une forte hétérogénéité entre districts (indiquée par la variance contextuelle, que nous ne donnons pas ici). La prendre en compte par un modèle multiniveau permet d’affiner la recherche, au niveau des districts, des variables qui vont expliquer au mieux cette hétérogénéité. Cela permet également de mieux apprécier leur significativité.
22Ce petit extrait de notre exemple sur la scolarisation dans le monde rural kenyan illustre de manière simple les différences obtenues entre un modèle multiniveau et un modèle au niveau individuel. C’est ce genre de différences, dans les coefficients obtenus comme dans leur interprétation, qui incite à utiliser des modèles multiniveaux dès que cela est possible.
4. Commander et réutiliser des résultats spécifiques
23Dans une régression multiniveau, l’interprétation des résultats est identique au cas d’une régression classique. Les paramètres relatifs aux différentes modalités des variables explicatives s’interprètent dans les analyses que nous avons menées par rapport à une modalité choisie comme référence (et dont implicitement la valeur du paramètre a été positionnée à 0).
24Au niveau des variables contextuelles, la mise en œuvre de l’analyse multiniveau permet de déterminer des intervalles de confiance prenant en compte le nombre de degrés de libertés relatif aux contextes et non aux individus (ce qui est fait ordinairement avec une régression classique) et produit de ce fait des intervalles de confiance élargis. Ceci implique dans un certain nombre de cas une moindre significativité des variables contextuelles.
25Il faut néanmoins faire attention sous SAS® à l'utilisation de l’instruction class, qui ne donne pas un nombre de degrés de liberté approprié pour les variables explicatives catégorielles de type contextuel ne figurant pas dans l’instruction random. Il est nécessaire, comme nous l’avons vu, de créer dans ces conditions des indicatrices, soit (N – 1) variables dichotomiques pour une dimension explicative à N modalités et d’entrer ces variables dichotomiques dans le modèle1.
26 Sous SAS®, la grille de lecture des résultats dépend fortement des options indiquées dans la programmation de la procédure de traitement multiniveau. L'option s au niveau de l'instruction model permet d'afficher les estimateurs des effets fixes, avec un t-test, afin de juger de leur significativité par rapport à 0. L’option s au niveau de l’instruction random permet d’afficher l’ensemble des estimateurs des effets aléatoires pour chaque contexte, avec un test de significativité indiquant si chaque contexte est significativement différent du contexte moyen. L’instruction covtest fournit un test de significativité pour les effets aléatoires.
27De nombreux éléments peuvent être sauvegardés pour une réutilisation ultérieure en recourant à une instruction ods output. Ainsi ods output solutionR=result permettra de sauvegarder dans la table nommée result les résidus contextuels.
28 Sous Stata®, les résultats des effets fixes et des effets aléatoires sont affichés lors de l’appel de la procédure. Des commandes post-estimation permettent d’obtenir des résultats complémentaires :
- La commande estat group permet d’obtenir quelques statistiques de base sur les groupes (nombre de groupes, nombres d’observations minimal, moyen, maximal par groupe).
- La commande estat recovariance permet d’afficher la matrice de variance-covariance des effets aléatoires.
- La commande estat icc affiche le coefficient de corrélation intraclasse.
29Plusieurs résultats peuvent être stockés au niveau individuel :
- L’instruction predict nom_de_variable permet de stocker dans la base de données l’estimateur individuel.
- L’instruction predict prefixe*, reffects permet de stocker au niveau individuel les valeurs des différents résidus (les résidus contextuels seront répétés pour toutes les observations du même contexte). Toutes les variables créées seront nommées dans la base de données suivant le préfixe indiqué.
- L’instruction predict prefixe*, reses level permet de la même manière de stocker au niveau individuel les valeurs des écarts-types des différents résidus (les résidus contextuels seront répétés pour toutes les observations du même contexte).
30 Sous R, nous avons vu que la fonction summary permet d’afficher l’ensemble des résultats stockés lors de l’exécution d’une analyse multiniveau. Il faut donc stocker dans un premier temps les résultats avec une syntaxe du type nom_analyse=glmmPQL(….) puis utiliser summary(nom_analyse) pour présenter les résultats.
5. Pour aller plus loin avec ces données
31Quel que soit le logiciel, il est possible de récupérer non seulement les résultats stockés à la suite d’une analyse multiniveau concernant les estimateurs individuels et contextuels, mais aussi les résidus à ces deux niveaux. Connaître les résidus contextuels permet alors de distinguer les contextes se différenciant le plus du contexte moyen.
5.1. L’analyse des résidus
32Une représentation graphique des résidus au fil des modèles emboîtés permet d’analyser comment se placent les districts les uns par rapport aux autres. Ainsi, dans la figure 6 les résidus du modèle 2 (modèle multiniveau avec caractéristiques ménage), sur l’axe vertical de gauche, sont reliés à ceux du modèle 3 (modèle multiniveau avec caractéristiques contextuelles) présentés sur l’axe de droite. L’addition de caractéristiques contextuelles modifie ici fortement les résidus de l’analyse multiniveau de la scolarisation au Kenya. On peut voir en particulier que les résidus de certains districts du nord du pays, indiqués en traits plus épais, diminuent. Pour d’autres districts en revanche, l’adjonction de ces caractéristiques contextuelles (dont en particulier la densité d’écoles, qui avait un effet important) les éloigne de la moyenne.
Figure 6. Résidus de la régression multiniveau (modèle 2, avec caractéristiques des individus et des ménages et modèle 3, avec caractéristiques contextuelles)

Source : KPHC 2009 et Republic of Kenya, 2007 (estimation des auteurs, résultats de deux proc glimmix de SAS®, représentation effectuée avec Microsoft Excel®)
33Mais il est difficile d’appréhender visuellement l’ensemble des disctricts sur ce type de représentation. Pour cela, le plus utile est d’utiliser une représentation cartographique.
5.2. Représentation cartographique des résidus
34Ces résidus peuvent alors être cartographiés. Ainsi Delaunay (1999), dans une analyse de l’émigration au Mexique, cartographie les résidus au niveau régional. Dans notre exemple sur la scolarisation au Kenya, lors de la dernière modélisation (intégration des variables individuelles et contextuelles), nous avons entrepris la cartographie de ces résidus.
35Le programme de cartographie des résidus se trouve en annexe 6. La taille des cercles représentés est proportionnelle à la valeur absolue des résidus concernés. Les cartes obtenues sont reproduites ici (figures 7 et 8).
36L’analyse porte sur les facteurs de la scolarisation pour les enfants de 6 à 13 ans vivant en milieu rural. La première carte (figure 7) correspond aux résidus positifs (moyenne de scolarisation du district supérieure à la moyenne générale), toutes autres choses égales par ailleurs.
37Les résidus négatifs (figure 8) correspondent à une moyenne de scolarisation du district inférieure à la moyenne générale, toutes autres choses égales par ailleurs.
Figure 7. Résidus positifs

Source : KPHC 2009 et Republic of Kenya, 2007 (Estimation des auteurs, représentation effectuée à partir du package Rcarto).
Figure 8. Résidus négatifs

Source : KPHC 2009 et Republic of Kenya, 2007 (Estimation des auteurs, représentation effectuée à partir du package Rcarto).
38La proximité spatiale de districts aux résidus proches peut donner des idées sur les caractéristiques qui restent à introduire dans le modèle (caractéristiques culturelles, géophysiques ou géopolitiques partagées selon ces lignes de fracture par exemple). Ici encore, comme dans le graphique précédent, il est possible de comparer visuellement l’effet de la modélisation sur les résidus, en mettant côte à côte les cartes correspondant à des modèles emboités par exemple. On peut alors voir si l’introduction de nouvelles variables a permis de réduire les résidus de certains districts ou groupes de districts.
6. Envisager une analyse biographique multiniveau
39L’analyse multiniveau permet aussi de prendre en compte les changements au fil du temps. Courgeau (2002), partant de l’analyse de biographies individuelles, pointait la nécessité d’intégrer dans l’analyse biographique des éléments contextuels, voire différents niveaux d’analyse. Il a illustré cette démarche en mettant en œuvre des modèles de Cox à plusieurs niveaux (Courgeau, 2004), un type de modélisation déjà intégré dans d’autres disciplines (Goldstein, 2003 ; Rabe-Hesketh et al., 2001).
40L’exemple choisi dans le reste de l’ouvrage ne se prête pas à une modélisation multiniveau prenant en compte le temps, car les caractéristiques utilisées sont transversales. Il n’y a pas, dans la plupart des recensements, de variable relative à la scolarisation qui permette d’approcher cette question dans une perspective biographique. Il aurait fallu, pour cela, et pour rester dans une problématique similaire, connaître par exemple l’âge à l’entrée à l’école primaire et celui à la sortie, pour les personnes qui n’y sont plus. Nous ne pourrons donc pas donner ici de syntaxe adaptée à ce jeu de données. Nous nous limiterons par conséquent à la syntaxe générale.
41Les modèles de régression biographique multiniveau posent des problèmes supplémentaires. En effet, intégrer des informations contextuelles relatives à une date précise nécessite de disposer de bases de données contextuelles longitudinales, ce qui est malheureusement rarement le cas. Expliquer des évènements démographiques ou migratoires qui se déroulent sur une période longue avec les caractéristiques contextuelles actuelles serait incorrect. Un phénomène ne peut pas être expliqué par des caractéristiques postérieures. D’un point de vue statistique, cela risque de donner des résultats significatifs mais sans interprétation logique possible.
42Une démarche cohérente consisterait donc à reconstruire des bases de données contextuelles longitudinales, composées d’éléments du passé. Mais comme l’indiquent Schoumaker et al. (2006) dans l’analyse d’une enquête au Burkina Faso, même lorsque des données contextuelles rétrospectives sont recueillies dans ces enquêtes, elles ne portent en général que sur les localités échantillonnées pour l’enquête auprès des individus. Un travail comparable serait à effectuer pour toutes les localités présentes à un moment ou à un autre dans la biographie des individus, ce qui complexifie encore la collecte et n’est généralement pas possible.
6.1. Retour sur l’analyse des biographies
43L’analyse biographique a été développée depuis de nombreuses années en sciences sociales. En démographie, elle a fait l’objet de travaux méthodologiques initiés par Courgeau et Lelièvre (1989). Les enquêtes rétrospectives, intégrant des calendriers thématiques (activités résidentielle, familiale, migratoire) se prêtent particulièrement à ce type d’analyse. Le lecteur intéressé par ce type de collecte pourra se référer au manuel publié dans la collection « Méthodes et savoirs » chez Ined Éditions (GRAB, 2009). En analysant la survenue potentielle d’un évènement, ce type d’analyse permet de prendre en compte l’ensemble des observations sur une durée d’exposition au risque définie à partir d’une même origine.
44Ces analyses peuvent se scinder en deux grandes familles. D’une part, on trouve les analyses non paramétriques (méthode de Kaplan-Meier, méthode actuarielle), plutôt exploratoires et décrivant la fonction de séjour de l’évènement étudié. D’autre part, on trouve un ensemble de méthodes permettant une modélisation, notamment dans le cadre de méthodes paramétrique ou semi-paramétrique (Cox, 1972). Ce type d’analyse permet notamment de mesurer l’impact de variables dynamiques, par exemple la survenue d’un évènement perturbateur sur le risque instantané de connaître l’évènement.
6.2. Les modèles logistiques à temps discret
45Les modèles logistiques à temps discret se sont développés depuis une trentaine d’années (Allison, 1982), et permettent, particulièrement dans certains cas (nombreux évènements à une même date, mesures effectuées de manière discrète), d’offrir une alternative efficace aux modèles de Cox. Ils permettent notamment de traiter les risques concurrents (Steele et al., 2004) et les évènements répétés. Ces modèles s’appliquent sur des fichiers individus-périodes et le temps est entré comme variable explicative, soit sous forme linéaire ou polynômiale, soit sous forme d’indicatrices permettant de considérer un risque constant sur chacun des intervalles de temps considérés. Par exemple, dans le cas où l’influence du temps est entrée sous la forme d’une fonction polynômiale, ce type de modèle se présentera donc sous la forme :

46avec g la fonction de lien. Le vecteur (α1, α2, … , αn) représente l’ensemble des paramètres à estimer relatifs à l’introduction de la dimension temporelle (ce qui correspond au risque de l’individu de référence).
47Dans le cas où la fonction de lien est la fonction logit, l’expression devient :

48Dans ce cadre, l’introduction de termes aléatoires permet de traiter les évènements récurrents (modèles de croissance) en introduisant une variabilité intra-individuelle au cours de la période d’observation, et permettra aussi de traiter des modèles à 3 niveaux, en introduisant des éléments de contexte, géographique ou institutionnel par exemple, pour lesquels une corrélation inter-individuelle est supposée.
6.3. Un exemple illustratif
49Pour illustrer l’utilisation de ce type de modèle, nous nous fondons sur l’article de Biggeri, Bini et Grilli (2001), qui analyse l’accès au premier emploi des jeunes à la sortie du système universitaire, en fonction non seulement de leurs caractéristiques individuelles, mais aussi de la filière universitaire dont ils sont issus. Dans cet article, les auteurs introduisent le temps sous la forme d’une fonction polynomiale de degré 3, ainsi qu’à travers une interaction entre le temps et deux variables explicatives fixes (Gender et Military service). Ils posent leur modèle comme suit, avec un effet aléatoire vk positionné au niveau de l’université et un effet aléatoire ujk correspondant à la filière au sein de chaque université :
Tableau 4. Estimation des effets fixes et aléatoires


50Les résultats présentés par les auteurs montrent des variances significatives, à la fois au niveau université (niveau 3) et au niveau filière (niveau 2), même si cette dernière variance semble plus importante. Ceci traduit une variabilité plus grande entre les différentes filières d’une université qu’entre universités.
6.4. Syntaxe
51Les modèles de régression logistique à temps discret doivent être travaillés sur des fichiers individus-périodes. Le plus souvent, les périodes considérées sont des années (même si dans l’exemple ci-dessus il s’agit de périodes de trois mois). Cela nécessite donc, quel que soit le logiciel, de modifier la structure du fichier en entrée : plusieurs lignes correspondent à un individu et chaque ligne comprend alors, outre la valeur de t, les caractéristiques individuelles de l’individu au temps t. La mise en œuvre de ce type de méthode est décrite dans Allison (2010) pour SAS®. Ensuite, l’ajout d’une composante multiniveau nous ramène au cas vu au chapitre précédent, dans lequel les procédures nécessaires ont été décrites en détail.
52D’autres modèles plus complexes ont été détaillés dans différents articles, notamment en analysant des risques compétitifs dans le cadre de données biographiques (Steele et al., 2004).
Notes de bas de page
1 Depuis peu, l'option ddfm=sattherw qui offre dans ce cadre de programmation une approximation du nombre de degrés de libertés permettrait cependant l’utilisation de cette instruction.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
États flous et trajectoires complexes
Observation, modélisation, interprétation
Philippe Antoine et Éva Lelièvre (dir.)
2006
Biographies d’enquêtes
Bilan de 14 collectes biographiques
GRAB (Groupe de réflexion sur l'approche biographique) (dir.)
2009
Méthodes de mesure de la mobilité spatiale
Migrations internes, mobilité temporaire, navettes
Daniel Courgeau
2021
L’analyse statistique des trajectoires
Typologies de séquences et autres approches
Nicolas Robette
2021
Fuzzy States and Complex Trajectories
Observation, modelisation and interpretation of life histories
GRAB Harriet Coleman (trad.)
2009
Minorités de genre et de sexualité
Objectivation, catégorisations et pratiques d’enquête
Wilfried Rault et Mathieu Trachman (dir.)
2023