Chapitre 3
Modèles logistiques, modèles contextuels
p. 41-54
Texte intégral
1Avant toute modélisation multiniveau, quel que soit le type de modélisation, il est important dans un premier temps de faire tourner le modèle au niveau individuel. C’est ce que nous proposons ici, avec une régression logistique simple, ainsi que quelques autres modélisations des données au niveau individu, mais prenant en compte des variables contextuelles.
1. Effectuer une régression logistique au niveau individuel
2Compte tenu des valeurs permises pour la variable à expliquer (school, ne prenant que les deux valeurs 0/1), une régression linéaire est sans objet (hypothèses d’utilisation des moindres carrés ordinaires non respectées). Une régression sur données catégorielles s'impose. Il est judicieux de mettre par exemple en œuvre un modèle logit avant de procéder à une régression logistique multiniveau.
3Au préalable de la régression logistique, il est important de vérifier que les hypothèses du modèle logistique sont respectées. Des analyses exploratoires classiques permettent de vérifier la non-corrélation des variables explicatives choisies. Cet aspect n’est pas développé ici. Pour une régression logistique avec n variables explicatives individuelles ou contextuelles X1, X2, ... Xn, la modélisation est de la forme :

4Au cours de la modélisation, il est important d’incorporer les variables progressivement, afin de vérifier la stabilité des résultats obtenus. Ainsi, dans un premier temps, le modèle ne prendra en compte que les caractéristiques individuelles, puis y seront ajoutées les variables définies au niveau du ménage et enfin celles correspondant à un niveau supérieur (district ou région).
5Avec notre exemple, nous introduisons donc dans le modèle :
- dans un premier temps, le sexe de l’enfant et sa relation au chef de ménage,
- ensuite, la taille du ménage et les caractéristiques du chef de ménage (âge, sexe, niveau d’instruction, activité),
- enfin, les trois variables contextuelles définies au niveau district (la proportion de chefs de ménage de 20 à 59 ans en activité, la taille moyenne des classes de primaire et la densité d’écoles).
6Par souci de simplicité, nous ne présentons ici que la syntaxe de la première de ces régressions, le principe étant le même pour les suivantes, dont la syntaxe a été mise avec l’ensemble des résultats en annexe 5.
1.1. Mise en œuvre d’une régression logistique
7 Plusieurs procédures permettent de traiter des régressions logistiques sous SAS®. Nous avons choisi dans ce manuel d’utiliser genmod, qui permet de prendre en compte des modèles beaucoup plus complexes que logistic par exemple. Le modèle sous-jacent est le modèle linéaire généralisé et la loi utilisée est spécifiée par les paramètres dist (type de distribution) et link (fonction de lien). Ainsi, pour une régression logistique, il faut spécifier : dist=binomial et link=logit. D’autres paramétrages permettent notamment de mettre en œuvre des modèles ordinaux ou multinomiaux, probit ou cloglog.
8La contrainte sur les estimateurs prise par défaut diffère selon la procédure utilisée. Avec proc logistic, si aucune option n’est spécifiée, la somme de tous les estimateurs d’une dimension explicative va être égale à zéro (donc l’estimateur associé à la modalité de référence va être égal à l’opposé de la somme des estimateurs associés à l’ensemble des autres modalités de la même dimension explicative). Sous proc genmod, si aucune valeur de référence n’est spécifiée, l’estimateur associé par défaut à la modalité de référence d’une dimension explicative va être imposé à la valeur 0. La spécification d’un jeu de paramétrage équivalent peut être obtenu avec proc logistic en indiquant param=ref comme option de l’instruction class.

9La variable à expliquer, binaire, est la variable school, élément indiqué à gauche du signe = dans l’instruction model. À droite du signe = figure la liste exhaustive des variables explicatives, continues ou catégorielles. Les variables catégorielles doivent avoir été définies préalablement comme telles par une instruction class. Par défaut, la modalité de référence définie pour chaque variable catégorielle est la plus basse des modalités. Le paramètre ref de l’instruction class permet de choisir la modalité de référence.
10Remarque : par défaut, c’est de même la modalité la plus basse de la variable dépendante qui est modélisée (valeur 0 de la variable school ici). Pour modéliser la valeur la plus haute (valeur 1), il faut soit spécifier la modalité de référence (0) dans l’instruction class pour la variable considérée (school), soit utiliser l’option descending qui permet de modéliser la modalité la plus haute.
11 Les commandes permettant d’effectuer une régression logistique sous Stata sont logit et logistic, qui ne diffèrent que par les résultats affichés (en termes d’estimateurs pour logit, en termes de rapports de cotes pour logistic). Il suffit d’indiquer, à la suite de la commande, la variable à modéliser (school), suivie des variables explicatives. Chaque variable catégorielle est préfixée par « i. ».
12Par défaut, la modalité de référence est indiquée comme étant la plus basse. Il est possible de maîtriser cette valeur de référence de deux manières :
- Indiquer dans la syntaxe de l’instruction logit la valeur de la modalité de référence. Le préfixe est alors non pas « i. » mais du type « ib#. » (où # représente la modalité de référence).
- char nom_variable[omit]#, où # est la valeur attribuée à la référence pour la variable nom_variable. Cette syntaxe est surtout utile dans les anciennes versions de Stata®, pour lesquelles la convention exposée ci-dessus n’est pas encore disponible.
13La valeur estimée de la probabilité individuelle peut être ajoutée en mémoire à la table existante par l’instruction predict nom_variable. Selon les caractéristiques de chaque individu, la probabilité estimée est alors calculée et stockée dans la variable nom_variable.

14ou

15Les résultats, analogues à ceux fournis dans la mise en application sous SAS®, figurent en annexe 5.
16 Un programme type sous R permettant un traitement équivalent, figure ci-dessous :

17La fonction glm équivalente à genmod, permet d’effectuer de nombreuses modélisations. La régression logistique s’obtient en indiquant family=binomial lorsque la variable à modéliser est dichotomique. La régression logistique est effectuée par défaut. Une fonction de lien différente peut être spécifiée, en indiquant par exemple family=binomial("probit") pour une régression probit.
18La syntaxe A ~ B + C. permet de spécifier l’équation objet de la modélisation : à gauche du signe ~ figure la variable à modéliser, et à droite la liste des variables explicatives, séparées par des signes + pour préciser les effets additifs. La fonction relevel permet de spécifier la modalité de référence des différentes dimensions explicatives.
19Il est possible de stocker l’ensemble des éléments calculés dans un objet R de type liste (structure complexe non détaillée ici), afin qu’ils puissent être réutilisés par d’autres fonctions pour afficher les résultats (summary), calculer des intervalles de confiance (confint ou confint.default), calculer des probabilités estimées (predict). Les résultats se trouvent en annexe 5.
20Nous n’avons présenté ici que la syntaxe de la régression la plus simple. Les régressions logistiques faisant intervenir des caractéristiques des ménages et des districts sont construites de manière identique, il s’agit simplement d’ajouter dans la spécification des modèles de nouvelles variables, qui seront ensuite traitées par les logiciels de la même manière que des caractéristiques individuelles.
1.2. Interprétation des résultats de la régression
21Les trois logiciels donnent pour les trois régressions successives des résultats similaires, dont on trouvera le détail en annexe 5, et qui sont rassemblés dans le tableau 2.
22Les résultats produits sous SAS® pour la procédure genmod sont les suivants :
1.2.1. Informations générales sur le modèle
23Tableau de données traitées, forme de la distribution, variable à modéliser :

1.2.2. Observations et évènements
24Nombre d’observations lues, utilisées, nombre d’évènements (valeur 1 pour la variable modélisée) :

1.2.3. Spécification de la variable dépendante et des variables explicatives catégorielles
25Toutes les variables déclarées comme catégorielles apparaissent dans le tableau suivant qui présente le nombre de modalités de chaque variable et la valeur de ces modalités.

26La variable modélisée school est indiquée dans le tableau suivant et la modalité choisie est indiquée dans le commentaire associé à ce tableau. Une indication est donnée pour modifier cette modalité. Ce qui est modélisé est donc le fait d’être scolarisé (school=1), ce qui représente 535 760 cas dans la base de données.

1.2.4. Critères de validité du modèle
27Le critère Log Likelihood permet de comparer des modèles emboîtés, les critères AIC et BIC permettent de comparer deux modèles quelconques.

1.2.5. Estimations
28Pour chaque dimension explicative, la valeur estimée associée à chaque modalité est affichée, ainsi que son écart-type, l’intervalle de confiance associé à cet estimateur et la probabilité de rejet de nullité de l’estimateur. Pour les modalités de référence des dimensions explicatives, la valeur estimée est égale à 0, prenant en compte le jeu de paramétrage des estimateurs qui a été choisi.
29Pour rappel, cette procédure permet de traiter de nombreux modèles. Dans le cas de la régression logistique, le paramètre d’échelle (scale parameter) est fixé à 1.
30La valeur de référence est la dernière, le tableau ci-dessous indique donc que l’on s’intéresse aux filles (par rapport aux garçons) et aux enfants qui ne sont pas enfants du chef de ménage (par rapport aux enfants du chef de ménage). Ainsi, toutes autres choses égales par ailleurs, le fait d’être une fille et d’avoir un lien avec le chef de ménage autre qu’un lien de filiation directe sont des facteurs positifs et significatifs d’une plus forte scolarisation.

1.3. Résultats des trois régressions logistiques successives
Tableau 2. Résultats des différentes régressions logistiques

31L’introduction de nouvelles variables explicatives dans le modèle modifie sensiblement les résultats ou les confirme. Il est important d’étudier avec attention les transformations des coefficients obtenus pour chacune au fil des modèles mis en œuvre.
32Dans le modèle le plus simple (avec sexe et relation au chef de ménage seulement), ces deux caractéristiques individuelles sont significatives. Les filles ont une probabilité d'être scolarisées légèrement plus forte que les garçons ; les enfants du chef de ménage sont moins scolarisés que les autres enfants.
33L'introduction de variables explicatives au niveau ménage (taille du ménage. caractéristiques du chef de ménage) atténue l'effet des caractéristiques individuelles, qui demeurent néanmoins significatives. La scolarisation est toujours la moins forte pour les garçons et les enfants du chef de ménage, elle est également moins probable dans les grands ménages, dans ceux dont le chef est un homme, qui est jeune, qui est peu allé à l'école et qui n’est pas actif.
34L'introduction de variables contextuelles, définies au niveau district, atténue encore l'effet de l'ensemble des variables explicatives liées à l'individu et au ménage : l’ensemble des coefficients se rapproche de 0, tout en conservant le même signe et leur significativité à l’exception du statut dans l’emploi du chef de ménage qui certes change de signe, mais ne devient que très faiblement significatif (p = 0.06). Parmi les caractéristiques des districts, toutes ont un effet marqué, mais c'est la densité d'écoles qui a l'effet le plus fort sur la scolarisation : plus il y a d’écoles, plus les enfants sont scolarisés. La taille des classes a un effet moindre mais également positif.
2. Vers une première prise en compte de l’influence du district
35L’influence contextuelle, matérialisée par le district, peut être prise en compte au moins de deux manières :
- en entrant directement dans le modèle une série d’indicatrices correspondant aux différents districts, l’un d’entre eux étant choisi comme district de référence,
- en effectuant des régressions logistiques séparées par districts, ce qui implique que les effets des covariables peuvent être différents selon les districts. Cette démarche peut conduire en particulier à une représentation graphique qui permet une première évaluation visuelle des regroupements entre districts selon les modalités d’une variable explicative choisie.
36Dans cette partie, par souci de simplicité, nous nous focaliserons sur l’influence du district (distKe2007) et d’une seule autre caractéristique : l’activité du chef de ménage (empHH).
2.1. Régression logistique avec le contexte en variable explicative
37Une régression logistique peut être effectuée en intégrant directement le district en tant que variable explicative. Dans ce cadre, l’effet des autres variables explicatives, estimé pour l’ensemble de la population, s’ajoute à l’effet lié au district lui-même.
2.1.1. Programmation
38 Sous SAS®, la variable distKe2007 identifiant le district est référencée comme variable explicative catégorielle (donc placée dans les instructions class et model). Par défaut, c’est la dernière modalité de l’identifiant (par ordre alphabétique) qui est considérée comme modalité de référence (ici, il s’agit du district 704, West Pokot). Sinon, comme précédemment, on peut utiliser le paramètre ref= dans l’instruction class pour définir la modalité de référence.

39 Sous Stata®, la pré-commande xi : permet de créer automatiquement des indicatrices à partir d’une variable nominale. Cette variable est préfixée dans la suite de la commande par i. Autant de variables indicatrices sont alors créées, et l’indicatrice correspondant à la modalité la plus basse est retirée du modèle. La commande char omit permet de choisir un autre district de référence.

40 La variable district est explicitement typée en tant que facteur (variable catégorielle explicative), et la modalité « 704 » explicitement indiquée comme district de référence. La régression logistique est exécutée en incluant également les autres variables empHH et distKe2007 comme variables explicatives.

2.1.2. Résultats

41Selon la modalité de référence choisie, les résultats sont plus ou moins significatifs. Ici, le choix de West Pokot, l’un des districts qui se distinguait des autres par ses faibles taux de scolarisation (figure 1), entraîne une significativité des coefficients de tous les autres districts. La très grande majorité des coefficients relatifs aux autres districts sont positifs, ce qui traduit la plus grande scolarisation observée dans beaucoup de districts en comparaison avec le district de West Pokot, toutes autres choses égales par ailleurs.
42Par rapport au modèle logistique prenant en compte les caractéristiques des ménages (tableau 2), certaines caractéristiques ont perdu leur significativité (le sexe de l'enfant, l'activité du chef de ménage) et les coefficients des autres ont diminué. Ces effets sont mesurés là encore toutes autres choses égales par ailleurs, et donc à district fixé. Ceci peut résulter de différences fortes de composition de la population entre les districts ou d'effets différenciés des variables explicatives entre districts.
43L'intégration d'interactions entre caractéristiques individuelles ou du ménage pourrait être une solution pour mettre en évidence ces effets différenciés, mais le modèle risquerait d'être rapidement compliqué à mettre en œuvre. Seule la perspective d'un modèle multiniveau, à constante et/ou pente aléatoire permettrait de mettre en évidence de tels effets. Ici encore, comme dans le modèle logistique contextuel, nous pouvons constater que les caractéristiques des individus et des ménages ne suffisent pas pour appréhender ces différences entre districts, qui sont fortement significatives.
2.2. Analyse logistique par district
44Il est également possible d’effectuer l’analyse logistique indépendamment sur chacun des districts, et de comparer ensuite les résultats obtenus. Les paramètres seront alors propres à chaque analyse et il sera possible de comparer les probabilités estimées par district, selon les variables explicatives.
45Nous nous proposons d’étudier à titre d’illustration, la probabilité par district que l’enfant soit scolarisé, en fonction de la situation d’emploi du chef de ménage (actif versus non actif). Nous représentons les résultats sous forme d’un graphique, reliant pour chaque district la probabilité de scolarisation des enfants dans les ménages où le chef est actif économiquement avec celle des enfants dans les ménages où le chef ne l’est pas.
2.2.1. Programmation
46 Au niveau de la mise en œuvre, le fichier doit préalablement être trié par district. Une régression logistique est programmée (proc genmod ci-dessous), les probabilités individuelles sont calculées en fonction de la situation d’emploi du chef de ménage pour chaque enfant (instruction output). L’utilisation assez complexe d’une procédure graphique (sgplot) permet de tracer pour chaque district une droite reliant la valeur de la probabilité estimée pour les enfants dans un ménage où le chef est actif et la valeur de la probabilité estimée pour les enfants dans un ménage où le chef est inactif. À cet effet, on renseigne deux axes verticaux (instructions yaxis, d’une part et y2axis, d’autre part) au sein de la procédure sgplot.

47 La commande logistic effectue une régression logistique usuelle sans aucun effet aléatoire. La pré-commande by permet de reproduire une régression logistique séparément pour chaque district.
48La commande predict permet le calcul des probabilités estimées, en fonction des caractéristiques utilisées (ici empHH). Une variable contenant cette probabilité estimée par le modèle, nommée ici n2 est ajoutée à la table en mémoire.
49La commande linkplot, proposée par Cox (2003), permet d’afficher une courbe y = f(x) en fonction de différentes valeurs d’une variable z. Ici, le tracé des variables n2 et empHH est effectué pour chaque district. Les points sont reliés entre eux pour chaque district. On pourra se reporter à l’exemple du même type indiquant la probabilité de migrer chez les agriculteurs et non-agriculteurs en Norvège (Courgeau, 2004).

50 Le traitement by permet de répéter une séquence d’instructions, ici la procédure logistique (glm) pour tous les districts étudiés. Les jeux d’estimateurs correspondants aux différentes régressions sont récupérés dans un data frame x (69 observations districts et 2 variables). Les probabilités sont ensuite calculées pour chaque district (variables p1 et p2), puis le fichier est transformé en fichier observations-variables (autant d’observations que de probabilités par district, soit 2 observations par district). Ceci est effectué en utilisant la fonction melt (incluse dans le package reshape2 mentionné en en-tête de programme).
51À noter que le graphique est produit par utilisation de la fonction ggplot (package ggplot2 mentionné en en-tête de programme), plus adaptée dans ce cas que la fonction générique plot.

2.2.2. Résultats
52Aux résultats attendus des 69 régressions logistiques successives s’ajoute le graphique représentant la probabilité de scolarisation par district entre ménages dont le chef est actif – sur l’axe de gauche – et ménages dont le chef est inactif – sur l’axe de droite (figure 5). On perçoit ainsi que, dans une grande partie des districts, la probabilité de scolarisation des enfants dépend peu de l’activité du chef de ménage (les lignes sont horizontales). C’est parmi les 14 districts où les enfants sont le moins scolarisés (p < 0,8) que les différences les plus importantes sont visibles, à la fois dans les probabilités de scolarisation qui varient de 1 à 4 mais aussi dans le lien entre activité du chef de ménage et scolarisation, qui est parfois positif et nettement négatif dans 4 cas. On retrouve bien sûr dans ces districts ceux qui se démarquaient déjà des autres par une faible proportion d’enfants scolarisés dans la figure 1, avec ici comme information supplémentaire la pente des droites qui représente l’effet de l’activité du chef de ménage sur la scolarisation des enfants et varie selon le district.
Figure 5. Probabilité de scolarisation des enfants de 6 à 13 ans selon que le chef de ménage est actif ou non, par district

Source : KPHC 2009 (estimation des auteurs, résultats de proc genmod représentés par une proc sgplot de SAS®).
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
États flous et trajectoires complexes
Observation, modélisation, interprétation
Philippe Antoine et Éva Lelièvre (dir.)
2006
Biographies d’enquêtes
Bilan de 14 collectes biographiques
GRAB (Groupe de réflexion sur l'approche biographique) (dir.)
2009
Méthodes de mesure de la mobilité spatiale
Migrations internes, mobilité temporaire, navettes
Daniel Courgeau
2021
L’analyse statistique des trajectoires
Typologies de séquences et autres approches
Nicolas Robette
2021
Fuzzy States and Complex Trajectories
Observation, modelisation and interpretation of life histories
GRAB Harriet Coleman (trad.)
2009
Minorités de genre et de sexualité
Objectivation, catégorisations et pratiques d’enquête
Wilfried Rault et Mathieu Trachman (dir.)
2023