Chapitre 2
Préparer la base de données
p. 23-39
Texte intégral
1La préparation de la base de données est une étape importante de la modélisation multiniveau. C’est une partie fondamentale de l’analyse et incontestablement celle qui prend le plus de temps, notamment pour la recherche de variables explicatives exogènes qui constitue souvent une démarche délicate. En dehors des enquêtes qui ont intégré une collecte de données contextuelles, il n’est pas évident de trouver des données contextuelles qui couvrent l’ensemble des unités d’agrégation utilisables dans l’analyse et correspondent à la même période. Cette double correspondance nécessaire, dans le temps et l’espace, est parfois un casse-tête, en particulier dans les pays où les données statistiques sont rares ou difficiles d’accès, mais également dans le cadre d’analyses historiques (voir par exemple Bruno, 2010).
2Dans un premier temps sont présentées les données utilisées dans notre exemple. Puis nous verrons comment adjoindre des données contextuelles à cette base de données. Enfin, il est nécessaire d’effectuer préalablement quelques traitements exploratoires afin de s’assurer de la cohérence des données et de la pertinence d’une analyse multiniveau.
1. Présentation des données utilisées
3Le Kenya est l’un des pays africains où les données démographiques sont relativement abondantes et de qualité. Dans de nombreux pays, les instituts de statistique ont depuis plusieurs décennies inclus dans leurs recensements de population des questions précises concernant le niveau d’instruction et la scolarisation des enfants et le Kenya ne fait pas exception. L’exemple présenté dans cet ouvrage est exclusivement fondé sur des données accessibles à un public académique, le sous-échantillon des micro-données du recensement de 2009 mis à disposition par IPUMS-International1, sur les tableaux de synthèse de ce recensement publiés par le Kenya National Bureau of Statistics, avec la population et les superficies de chaque district (Republic of Kenya, 2010a) et sur les données du ministère de l’Éducation concernant les écoles primaires dans l’ensemble du pays en 20072.
1.1. Les enfants non scolarisés au Kenya, source et produit de fortes inégalités
4La scolarisation est une préoccupation importante pour les pays en développement. Depuis la conférence de Jomtien (Thaïlande) de 1990, les pays africains ont progressivement adopté des politiques visant à élargir l’offre scolaire et attirer dans le système des élèves issus des familles les plus pauvres (Pilon, Martin et Carry, 2010). La scolarisation primaire universelle est l’une des priorités fixées par les OMD des Nations-Unies en 2000. Alors que le Kenya a longtemps été l’un des pays africains où les taux de scolarisation étaient parmi les plus élevés du continent, avec un taux de scolarisation de 95 % en 1988, le désinvestissement de l’État de ce secteur a entraîné une baisse conséquente de l’offre et de la qualité de l’éducation dans les quinze années suivantes (Charton, 2003). Ce n’est qu’en 2003 que le Kenya met en œuvre sa politique de scolarisation primaire universelle. Celle-ci induit une augmentation brutale du nombre d’élèves scolarisés en primaire de 14 % la première année (Avenstrup, Liang et Nellemannp, 2004, p. 14). Ainsi, le taux net de scolarisation primaire est remonté de 62 % en 1999 à 83 % en 2010 (Unesco, 2012). Le même rapport de l’Unesco constate néanmoins qu’environ un million d’enfants ne sont toujours pas scolarisés, en particulier dans la partie nord-est du pays, une région semi-aride où l’on trouve également les plus forts taux de pauvreté. Ce problème serait particulièrement marqué pour les filles et en milieu rural (Unesco, 2012).
5Le système éducatif kenyan, dit « 8-4-4 », comporte 8 années de primaire (de 6 à 13 ans) puis 4 années de secondaire (de 14 à 17 ans) et éventuellement 4 années d’université pour l’obtention d’un diplôme de Bachelor of Arts. Ce sont les 8 premières années qui nous intéressent ici. Le cycle primaire, prévu pour les enfants de 6 à 13 ans inclus, s’égrène en pratique dans le temps, avec des adolescents et des jeunes adultes encore scolarisés au-delà de leurs 13 ans. En pratique, seulement 3,5 % des enfants de 14 ans ont dépassé le cap du primaire. Les taux de scolarisation relativement forts cachent donc des inégalités d’accès à l’école marquées, qui s’expriment en termes d’accès à l’école mais également en termes de différences dans les écoles fréquentées et de retard scolaire.
6Le recensement de 2009 apporte des informations précises sur la scolarisation et les caractéristiques socioéconomiques des familles. Il évalue la population du Kenya à 38,6 millions d’habitants, dont 70 % vivent en milieu rural (Republic of Kenya, 2010b). Les enfants de 6 à 13 ans sont 8,5 millions et constituent donc 22,2 % de la population. Le rapport d’analyse thématique sur l’éducation (Republic of Kenya, 2012, p. 35) nous apprend que 78,7 % d’entre eux sont scolarisés en primaire, avec des différences marquées entre lieux de résidence : 75,7 % en milieu rural pour 87,8 % en milieu urbain mais beaucoup moins entre garçons et filles : 77,8 % des garçons sont scolarisés pour 79,7 % des filles. La proportion d’enfants de 6 à 13 ans scolarisés en primaire varie entre 73,6 et 93,2 % selon la province, à l’exception de la North-Eastern Province, qui compte 6 % de la population du pays et est principalement urbaine, où cette proportion est inférieure à 40 % et où les filles sont légèrement moins nombreuses que les garçons et légèrement moins scolarisées qu’eux.
7Les différences importantes observées entre milieu rural et urbain se retrouvent dans toutes les provinces du pays. En outre, les éléments qui influent sur le fait de scolariser ou non un enfant peuvent être de nature très différente en milieu rural et en milieu urbain. Pour ces raisons, par souci de clarté pour les modèles présentés, nous nous focaliserons dans l’exemple traité ici exclusivement sur le monde rural, où la non-scolarisation est la plus importante.
1.2. Les caractéristiques utilisées dans l’analyse
8Les caractéristiques utilisées dans une analyse multiniveau permettent de tenir compte, en plus de celles de l’individu et de son ménage, de variables mesurées à un niveau supérieur, une entité spatiale par exemple. De manière générale, quel que soit le type de régression envisagé, la mise en forme des données pour une analyse multiniveau nécessite un fichier contenant les éléments suivants :
- Une variable contenant l’élément à modéliser. Dans le cas d’une régression linéaire, cette variable à expliquer sera continue, et pourra selon les analyses être centrée et/ou réduite. Dans le second cas, cette variable sera discrète et pourra par exemple être modélisée par un modèle logistique ou un modèle de Poisson.
- Une ou plusieurs variables relatives aux dimensions explicatives. Ces variables peuvent être définies au niveau individuel et/ou au niveau d’agrégation choisi. Dans le cas de variables qualitatives, selon les logiciels, l’utilisateur peut soit les dichotomiser en amont de l’analyse, soit utiliser directement un codage à plus de deux modalités (comme le codage initial de la plupart des variables). Dans ce dernier cas, il faut selon les procédures, au cours de l’analyse, spécifier par une instruction spécifique (par exemple l’instruction class sous SAS®) la dimension catégorielle de la variable et préciser la modalité de référence. Ces variables explicatives pourront être individuelles ou contextuelles. Dans le cas de variables continues, il est souhaitable, pour faciliter l’interprétation, de les centrer et de les réduire. Selon le modèle sélectionné, il est important de vérifier que les variables explicatives choisies répondent aux hypothèses du modèle. Comme pour toute modélisation, il faut par exemple vérifier la non-corrélation des variables explicatives individuelles.
- Une variable permettant d’identifier les unités d’agrégation. Cet identifiant va aider à repérer le groupe d’appartenance de chaque observation.
9Ainsi, dans l’exemple développé ici, les variables utilisées sont les suivantes :
10Niveau individu

11Niveau ménage

12Niveau district

13Niveau province

14La variable que l’on cherche à modéliser porte sur la scolarisation des individus, variable nommée school, prenant la valeur 1 lorsque l’enfant est scolarisé, 0 sinon.
15Au niveau individuel, on dispose également dans cet exemple de trois autres variables :
- l’âge de l’enfant,
- le sexe de l’enfant,
- le lien entre l’enfant et le chef de ménage.
16D’autres caractéristiques sont disponibles au niveau des ménages. Elles sont également traitées dans l’analyse comme des caractéristiques individuelles. Il s’agit de :
- l’âge du chef de ménage,
- son sexe,
- son niveau d’instruction,
- son statut dans l’emploi (actif ou non).
17Concernant le statut dans l’emploi, trois modalités principales sont retenues dans le recensement : inactif, sans emploi et avec emploi. Cela permet de calculer des taux d’activité ou de chômage selon les différentes définitions en vigueur. Nous retenons ici comme « actives » les personnes ayant effectivement travaillé (avec emploi), ce qui inclut le travail sur les exploitations agricoles familiales, extrêmement important en milieu rural.
18Afin de simplifier l'interprétation des résultats, toutes ces caractéristiques sont dichotomiques à l’exception de l’âge du chef de ménage, qui a été regroupé en trois modalités (jusqu’à 29 ans, de 30 à 59 ans, plus de 60 ans). Ces choix ont été faits à des fins pédagogiques, nous n’entrerons pas ici dans le détail de leur justification. Dans le contexte d’une analyse approfondie, il serait bien sûr nécessaire d’affiner et de justifier les modalités prises en compte.
19Les modalités indiquées ici correspondent aux regroupements de modalités utilisés dans les analyses. Les variables contextuelles ont été centrées réduites.
20En ce qui concerne les éléments contextuels, la variable distKe est utilisée pour identifier le district de résidence en 2009 (tel que recueilli dans le recensement), distKe2007 fait référence au district en 2007 pour lequel nous disposons d’informations sur les écoles et les classes. Le découpage administratif ayant changé entre 2007 et 2009, nous verrons plus loin comment nous avons procédé pour passer de l’un à l’autre.
21Trois caractéristiques contextuelles sont utilisées. La première, la taille moyenne de la classe dans le district, est construite à partir d’une source de données externe, administrative, mise à disposition par le ministère de l’Éducation. La seconde, la densité d’écoles primaires dans le district, fait appel à cette même source ainsi qu’à une publication officielle (Republic of Kenya, 2007) pour la superficie des districts. La dernière, le taux d’activité des chefs de ménage de 20 à 59 ans dans le district, est directement issue de la base de données de recensement.
22Nous avons choisi de centrer et de réduire ces trois variables pour les interpréter plus facilement et éviter que de trop gros écarts ne perturbent la modélisation.
23La variable provKe (province) n’est utilisée que pour structurer la description des contextes. Il y a trop peu de provinces (8 seulement) pour envisager une analyse multiniveau impliquant ce niveau-là.
24Dans les modèles, nous serons amenés à créer des variables dichotomiques, distinctes pour Stata® (même nom que la variable mentionnée ci-dessus et suffixée par _D). Les variables sous R seront dichotomisées et transformées en facteurs. Les programmes figurent en annexe 4.
1.3. Première mise en forme de la base de données
25Nous n’exposerons pas ici le détail des premières étapes de la préparation du fichier, supposées acquises, mais en donnons le déroulement, afin que le lecteur ait les informations nécessaires sur la base de données utilisée dans l’analyse.
26La base de données fournie par IPUMS-International comprend une ligne par individu. Nous travaillons ici sur les personnes recensées dans des ménages « conventionnels » ou privés. Le recensement kenyan est un recensement de fait, les ménages sont donc ceux du moment du recensement et non les ménages « habituels » des individus. Le ménage est défini par le fait de vivre ensemble et de reconnaître l’autorité d’une même personne, le chef de ménage, parmi ses membres (voir annexe 1, définitions).
27Une première manipulation a consisté à repérer les caractéristiques du chef de ménage dans cette base, et à en constituer une nouvelle version, dans laquelle on a, pour chaque individu, ses caractéristiques individuelles et celles relatives au chef du ménage dans lequel il vit. Notons ici que 1,8 % des ménages n’ont pas de chef de ménage déclaré, mais il s’agit dans 93 % des cas de personnes vivant seules (qui sont alors, sans ambiguïté, chef de ménage). Les ménages ne comportant que des enfants ne sont concernés que dans moins de 0,2 % des cas. Ces ménages ont été supprimés de notre étude.
28Ensuite, nous supprimons les observations qui correspondent à des individus qui vivent en milieu urbain ou qui ont moins de 6 ans ou plus de 13 ans, pour ne conserver que les observations relatives aux enfants de 6 à 13 ans vivant en milieu rural, sur lesquels portera notre analyse de la scolarisation.
2. L’Intégration de données contextuelles
29Les données contextuelles peuvent être intégrées dans une analyse multiniveau, de manière soit exogène, soit endogène. Les données exogènes proviennent d’une source de données externe à l’enquête (le plus souvent ce sont alors des données administratives qui sont utilisées). Les données endogènes résultent d’un calcul effectué sur le fichier de données pour chaque groupe et sont ensuite associées à tous les individus de ce groupe. Dans la base de données utilisée, chaque observation est alors enrichie de valeurs se référant à des caractéristiques du contexte d’appartenance.
30Ainsi, pour revenir à notre cas d’étude, nous pouvons utiliser comme variable explicative la proportion d’actifs dans le district de résidence des individus, puisque l’impact du contexte économique semble pertinent pour le phénomène étudié. Si la base de données comprend des informations concernant l’activité au niveau individuel, alors la proportion d’actifs par district pourra être directement déduite des données. C’est ce que nous faisons dans l’exemple traité où la proportion d’actifs parmi les chefs de ménage de 20 à 59 ans est notre variable contextuelle endogène.
31Mais la répartition des écoles à travers le pays est un élément qui est lui aussi pertinent, certains districts ayant une densité bien moindre d’écoles primaires, ce qui amène les enfants concernés à marcher de plus longues distances par exemple. Au-delà du nombre d’écoles ou de leur proximité, le nombre d’élèves par classe apporte une indication de la qualité de l’offre locale. La base de données que nous utilisons ne comprend pas ces informations, mais le ministère de l’Éducation fournit un grand nombre de données sur les écoles du pays. Il est possible de calculer la densité d’écoles par district à partir de ces données administratives, ainsi que le nombre moyen d’élèves par classe de primaire, et d’ajouter ces variables contextuelles à notre fichier initial. Ces données sont présentées en annexe 2. Ce sont des variables contextuelles exogènes.
2.1. Choisir un niveau d’agrégation pertinent
32Il est parfois difficile d’obtenir des données contextuelles correspondant exactement à la date souhaitée, mais si elles correspondent à une période proche, on peut raisonnablement faire l’hypothèse que la situation n’a que peu évolué et les utiliser quand même. C’est ce que nous allons faire, dans le cas du Kenya, pour lequel nous disposons d’un recensement daté de 2009, et de données sur les écoles datées de 2007. Mais un problème supplémentaire se pose : les découpages administratifs, souvent utilisés comme niveaux d’agrégation dans les analyses multiniveau, évoluent parfois dans le temps. C’est le cas dans notre exemple, un cas extrême d’ailleurs, car en deux années, le nombre de districts au Kenya a plus que doublé, passant de 71 à 158. Afin d’utiliser ces deux bases de données, il est nécessaire qu’un choix cohérent soit fait, et donc que soit les unités de 2007 soit celles de 2009 soient privilégiées pour l’analyse. Un souci de précision pousserait à choisir les unités de 2009, plus nombreuses. Mais il est cependant beaucoup moins facile de passer de celles de 2007 à celles de 2009 (ce qui nécessiterait de connaître la correspondance entre districts de 2009 et divisions administratives inférieures au district en 2007 afin d’établir des correspondances précises entre les écoles en 2007 et les districts en 2009) que de faire le contraire (en agrégeant les données par regroupement des districts de 2009 qui composent chaque district de 2007). C’est donc ce dernier choix qui est fait ici. Une table de correspondance doit ainsi être établie entre les différents découpages en districts (annexe 2), et le nouvel identifiant distKe2007 est alors ajouté au fichier Kenya.
33Avant même de songer à intégrer à notre base des données contextuelles endogènes ou exogènes, il faut donc réfléchir à ce problème et transformer les données vers le découpage choisi, y compris pour la définition de la caractéristique contextuelle endogène.
2.2. Intégration de données contextuelles endogènes
34Cette intégration de données peut être le résultat d’un calcul effectué sur le fichier. Ainsi, dans son étude des migrations norvégiennes, Courgeau (2004) prend en compte la proportion d’agriculteurs dans la région afin de savoir si ce sont les agriculteurs ou les non-agriculteurs qui migrent, en tenant compte du poids du secteur agricole dans chaque région.
35Dans notre étude, nous avons choisi à titre d’exemple d’utiliser la proportion de chefs de ménage actifs parmi les personnes de 20 à 59 ans, avec l’idée que les enfants sont probablement plus souvent scolarisés dans des zones où il y a plus d’actifs. D’autres choix auraient été possibles et pertinents, comme la proportion d’adultes instruits par exemple. Mais rappelons qu’il n’est pas question ici de fournir une étude complète ; il s’agit simplement de présenter la démarche permettant de mener à bien une analyse multiniveau.
36 Il faut donc, dans un premier temps, calculer la proportion des chefs de ménage actifs au sein de chaque district, puis intégrer cette variable dans le fichier individuel initial. Nous allons détailler ci-après le calcul de cette variable présentée au paragraphe 1.2, mais qui ne figurait pas dans la base de données initiale.
37Nous travaillons à partir d’un fichier ne comprenant que les chefs de ménage, dénommé ci-dessous Kenya_Chef, où la variable empHH représente le fait que la personne pratique une activité professionnelle ou non. On calcule par district distKe2007 la proportion de chefs de ménage actifs, définie comme le rapport entre le nombre de ménages dont le chef est actif (variable empHH égale à 1) et le nombre total de ménages par district, et ce parmi les ménages dont le chef a entre 20 et 59 ans. Cela revient à calculer la moyenne de la variable empHH par district pour les individus de 20 à 59 ans.
38Les instructions suivantes montrent la programmation utilisée sous le logiciel SAS®. La proportion de chefs de ménage actifs est calculée sur les chefs de ménage âgés de 20 à 59 ans (procédure means, option nway pour ne garder la statistique qu'au niveau le plus fin, c’est-à-dire au niveau de chaque contexte). La variable créée est ensuite centrée et réduite (procédure standard, table de sortie zz). Puis cette information contextuelle est intégrée dans le fichier individuel nommé Kenya (étape data, avec instruction merge).

39Remarque : par défaut, toutes les observations des deux fichiers sont intégrées dans le résultat d’une commande merge, y compris lorsqu’elles n’ont pas de données correspondantes dans l’autre fichier. Ici le fichier de données contextuelles construit à partir du fichier des chefs de ménage contient aussi des entités n’ayant pas été retenues pour l’analyse envisagée (les deux districts urbains). Afin de ne conserver que les contextes concernés, il faut « marquer » l’origine de chaque observation du fichier résultant (option in= fichier_de_données placée directement après le nom du fichier d’origine concerné), et ne sélectionner que les contextes recensés dans le fichier individuel (commande if fichier_de_données).
40 Sous Stata®, la fonction egen permet de calculer une statistique agrégée (ici la moyenne) selon une variable de stratification (l’identifiant district distKe2007). Une variable emprate sera créée comme la proportion de chefs de ménage actifs par district (ou autrement dit comme la part du nombre de chefs de ménage actifs sur le nombre de chefs de ménage total). Cette variable emprate sera ensuite centrée et réduite (fonction std).
41La procédure est identique, mais les deux opérations sont effectuées simultanément via la commande egen. Pour rappel, cette commande permet de créer une variable, résultat d’un calcul portant sur tout ou partie des observations. La syntaxe générale est la suivante :

42Dans notre cas, il faut sélectionner dans le fichier Kenya_Chef les chefs de ménage âgés de 20 à 59 ans, puis appliquer la fonction mean à la variable empHH par district. Cette variable est ensuite intégrée au fichier individuel (instruction merge détaillée dans la section 2.3).

43 Sous R, la fonction aggregate permet de stocker dans le data frame nommé x, au niveau district, la moyenne de la variable individuelle empHH sur les chefs de ménage âgés de 20 à 59 ans préalablement sélectionnés (extraction dans un data frame nommé extr par la fonction subset). Le data frame x est fusionné avec les données individuelles stockées dans Kenya. Kenya est ainsi enrichi par la variable emprate_cr, centrée réduite par utilisation de la fonction scale. Le paramètre all.x=T assure de conserver toutes les observations présentes dans le fichier individuel. Par défaut, si des chefs de ménage ne correspondent pas à la définition choisie, ils ne seront pas retenus dans le fichier résultant (c’est-à-dire s’ils appartiennent à des contextes exclusivement urbains, comme c’est le cas pour les districts de Nairobi et Mombasa).
44La fonction as.numeric permet d’attribuer à cette nouvelle colonne créée dans le fichier de données un format équivalent et homogène à celui du reste du fichier.

2.3. Intégration de données contextuelles exogènes
45Dans ce cadre, les données à intégrer se trouvent par exemple dans un fichier de données séparé, qu’il va falloir fusionner au fichier individuel. Cette opération nécessite que l’on puisse établir une correspondance entre le fichier de données individuelles et le fichier de données contextuelles.
2.3.1. Cohérence des identifiants
46Afin d’adjoindre des données exogènes relatives aux contextes au fichier de données individuelles, il est nécessaire de s’assurer de la cohérence entre les deux fichiers de la définition des unités choisies (ici, nous l’avons vu, les districts ont évolué dans le temps) et de la cohérence des identifiants entre les deux fichiers. Il faut pour cela, d’une part, que le niveau d’agrégation choisi soit présent et identique dans les deux sources et, d’autre part, que la variable identifiant soit nominale et similaire dans les deux sources.
2.3.2. Fusion de données
47Une opération de fusion de données doit être entreprise, ce qui nécessite de déterminer une clé, variable identifiant chaque unité contextuelle et permettant de répercuter les informations d’une unité contextuelle sur toutes les observations individuelles concernées par cette unité.
48L’exemple fourni illustre l’intégration de données contextuelles additionnelles à partir du fichier District dans le fichier individuel nommé Kenya.
49 La fusion de fichiers s’effectue avec l’instruction merge, au sein d’une étape data. Par défaut, toutes les observations des deux fichiers sont intégrées. Comme pour la variable endogène, nous ne souhaitons conserver ici que les contextes présents dans les deux fichiers. Il faut donc utiliser l’option in et ne sélectionner que les contextes recensés dans le fichier individuel. Si l’on considère que l’on dispose d’un fichier individuel, nommé Kenya comprenant les caractéristiques individuelles des enfants, et un fichier District comprenant les variables denssc_cr et pclass_cr, au niveau district, la syntaxe des instructions est de la forme :

50Une autre possibilité consiste à utiliser la procédure sql à la place d’une étape data :

51 Sous Stata®, l’instruction merge permet de fusionner deux tables, la clé de jointure étant l’identifiant de district distKe2007. Seules les observations ayant un identifiant de district présent dans les deux tables ou uniquement dans la table individuelle sont sauvegardées (option keep). L’option nogen permet de ne pas créer de variable interne _gen (créée par défaut) qui pour chaque observation indique sa provenance.

52 Les instructions correspondantes produisent un résultat similaire sous R. L’instruction merge permet une fusion entre les informations individuelles et contextuelles. Si la variable identifiant est nommée de manière différente dans les deux tables, elle doit être indiquée respectivement par des options by.x et by.y. L’option all.x permet quant à elle de sélectionner l’ensemble des observations présentes dans la table de gauche (équivalent à keep(match master) sous Stata®).

3. Explorer les données pour une analyse multiniveau
53Avant toute analyse multiniveau, un certain nombre de prétraitements doivent nous permettre de comprendre la variable à modéliser et sa dispersion dans les différentes unités contextuelles. Sans entrer dans l’analyse systématique de l’ensemble des données, nous nous focaliserons sur quelques traitements particulièrement intéressants au regard de l’analyse multiniveau que nous détaillerons par la suite. L’objet de cette partie n’est pas de présenter la syntaxe relative à ces analyses dans les différents logiciels utilisés, mais d’exposer les démarches importantes et de les illustrer. Des éléments de programmation se trouvent néanmoins en annexe 3.
54Il est important, dans un premier temps, d’effectuer une analyse du nombre et de la taille des contextes. Cela permet notamment de déceler une éventuelle hétérogénéité dans la taille des unités utilisées. L’existence de contextes de taille relativement faible, qui présenteraient des caractéristiques très différentes des autres, risquerait de conduire à des résultats fragiles. Ensuite seulement, nous nous intéresserons à la proportion d’enfants scolarisés par contexte. Ces premières analyses peuvent prendre la forme de tableaux, de graphiques ou de cartes.
3.1. Nombre et taille des groupes utilisés
55Il est toujours utile de mener une première analyse sur les unités d’agrégation utilisées. Un simple tri à plat permet de sortir une liste de ces groupes et le nombre d’individus dans chacun.
56 Afin de connaître la liste et la taille des différents districts en termes de nombre d’enfants de 6 à 13 ans, il suffit sous SAS® d’exécuter une procédure freq comme indiqué ci-dessous.

57 Sous Stata, la syntaxe fait appel à la fonction tab :

58 Sous R, la syntaxe équivalente est la suivante. L’option de fonctions alternatives (xtabs par exemple) permet d’améliorer les sorties obtenues. Nous laissons au lecteur la description de ces fonctions.
Tableau 1. Nombre d’individus par groupe (enfants de 6 à 13 ans en milieu rural en 2009, districts de 2007)


59Ce premier tableau permet de vérifier que nous disposons de suffisamment d’unités au niveau 2 (ici, 69, qui correspondent aux 71 districts kenyans moins les deux districts exclusivement urbains) mais surtout que la distribution de la population au sein de ces unités est relativement équilibrée. Il permet également de se familiariser avec les noms des districts et leur taille relative.
3.2. Quelques résultats graphiques
60Les représentations graphiques (graphes et cartes) permettent des visualisations rapides de la structure des données. Chaque logiciel a ses points forts en la matière. À titre illustratif, nous avons choisi ici de représenter la proportion d’enfants de 6 à 13 ans scolarisés de deux manières : par un graphique, obtenu à partir d’une procedure Gplot sous SAS® et par une carte, obtenue avec le package RCarto3 développé par Timothée Giraud (voir la liste des sites Internet des logiciels à la fin de cet ouvrage).
61La proportion d’enfants scolarisés est plus ou moins importante selon les districts (figure 2). La grande majorité des districts comportent plus de 85 % d’enfants scolarisés, mais quelques districts se distinguent fortement des autres par des taux de scolarisation très inférieurs, alors même que certains d’entre eux comportent beaucoup d’enfants. Nous pouvons voir par exemple que les districts de la North-Eastern Province (Garissa, Ijara, Mandera, Wajir) se situent tous dans la partie gauche du graphique, et que deux d’entre eux sont parmi les plus peuplés du pays.
Figure 2. Proportion d’enfants scolarisés par district

Source : Kenya Population and Housing Census (KPHC) 2009 (calculs des auteurs, représentation effectuée à partir d’une procédure Gplot sous SAS®).
62La figure 3 propose une visualisation cartographique équivalente : y sont représentés le nombre d’enfants de 6 à 13 ans présents dans chaque district (proportionnel à la taille de chaque disque) et la proportion d’enfants scolarisés (par la coloration de chaque disque).
Figure 3. Nombre d’enfants de 6 à 13 ans par district et proportion d’enfants scolarisés

Source : KPHC 2009 (calculs des auteurs, représentation effectuée à partir du package Rcarto).
63Aucun lien clair entre le nombre d’enfants présents et le taux de scolarisation n’apparaît sur la carte : parmi les plus petits disques comme parmi les plus grands se trouvent à la fois des taux de scolarisation faibles et des taux de scolarisation élevés. En revanche, la carte permet de voir que les différences de taux de scolarisation observées au niveau district (figure 3) semblent inversement corrélées à la taille du district. La concentration spatiale des meilleurs taux de scolarisation en milieu rural apparaît ici. La scolarisation semble poser un problème particulier dans l’ensemble de la partie nord du pays, où le découpage administratif est moins serré. Ainsi, cette représentation des différences enregistrées au niveau du district montre déjà le fait que le district est très certainement un niveau d’interprétation pertinent des facteurs de la scolarisation. On observe également la grande diversité des proportions d’enfants scolarisés et leur forte concentration au-dessus de 90 %.
64Une deuxième carte (figure 4), établie sur le même mode, nous permet de représenter l’une des caractéristiques contextuelles choisies : le statut (actif ou non) du chef de ménage. L’activité du chef de ménage peut avoir un lien important avec la scolarisation des enfants. Comme nous le montre la figure 4, ce taux d’activité est, lui aussi, très variable selon les districts. La répartition de la population et les proportions d’actifs ne sont pas sans rappeler la carte précédente, confirmant un lien possible entre les deux variables, qui reste à vérifier.
65Outre ces similitudes, on peut également noter des différences entre les deux cartes. Ainsi, si les taches les plus sombres se retrouvent dans les mêmes régions, les zones de plus faible scolarisation (le Nord) et celles de plus faible activité (l’Est) ne coïncident pas. La situation en termes d’activité semble beaucoup moins tranchée spatialement. On voit donc déjà ici que même si la proportion de chefs de ménage en activité est un facteur significatif de scolarisation, il ne permettra probablement d’expliquer qu’une petite partie de l’hétérogénéité entre districts.
Figure 4. Chefs de ménage de 20 à 59 ans et proportion en activité selon les districts

Source : KPHC 2009 (calculs des auteurs, représentation effectuée à partir du package Rcarto).
66D’autres analyses descriptives, d’autres visualisations seraient utiles, mais il n’y a pas lieu ici de donner une analyse exhaustive. Nous nous arrêterons à ces quelques exemples. Mais de même qu’un travail d’analyse fouillé doit être mené au préalable à une régression multivariée, par une description systématique des variables et de leurs interactions, de même pour l’analyse multiniveau est-il nécessaire d’explorer la structuration des données par groupe. Dans le cas de groupes définis par un découpage administratif ou plus largement, des critères spatiaux, les représentations cartographiques sont particulièrement pertinentes.
Notes de bas de page
1 Minnesota Population Center. Integrated Public Use Microdata Series, International: Version 6.4 [Machine-readable database]. Minneapolis, University of Minnesota, 2015.
2 Ces données du ministère de l’Éducation kenyan étaient disponibles sur le portail http://www.opendata.go.ke/ jusqu’à sa refonte en janvier 2016. Il s’agissait d’un tableau de 7 352 lignes indiquant pour chaque école primaire du pays le type d’école, sa localisation, et quelques caractéristiques concernant l’accueil des élèves, comme le rapport entre le nombre d’élèves et de salles de classes.
3 Ce package a été récemment amélioré par de nouvelles fonctionnalités. Le package Cartography reprend l’ensemble de ces possibilités.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
États flous et trajectoires complexes
Observation, modélisation, interprétation
Philippe Antoine et Éva Lelièvre (dir.)
2006
Biographies d’enquêtes
Bilan de 14 collectes biographiques
GRAB (Groupe de réflexion sur l'approche biographique) (dir.)
2009
Méthodes de mesure de la mobilité spatiale
Migrations internes, mobilité temporaire, navettes
Daniel Courgeau
2021
L’analyse statistique des trajectoires
Typologies de séquences et autres approches
Nicolas Robette
2021
Fuzzy States and Complex Trajectories
Observation, modelisation and interpretation of life histories
GRAB Harriet Coleman (trad.)
2009
Minorités de genre et de sexualité
Objectivation, catégorisations et pratiques d’enquête
Wilfried Rault et Mathieu Trachman (dir.)
2023