Chapitre 6
Sans typologie, quel salut ?
p. 65-76
Texte intégral
1Même si ce manuel est principalement consacré aux typologies de trajectoires, une analyse descriptive n’implique pas nécessairement la construction d’une typologie : d’autres voies sont possibles, pour la compléter ou s’y substituer.
I. Représentations graphiques
2L’ensemble des représentations graphiques présentées dans le chapitre 3 sont également appropriées à la comparaison des trajectoires de sous-populations (femmes versus hommes, etc.).
II. Distances à une séquence de référence
3Certains travaux s’intéressent à la distance entre les séquences individuelles et une séquence de référence (Scherer, 2001 ; Munoz-Bullon et Malo, 2003 ; Kogan, 2004). Celle-ci peut correspondre à la trajectoire la plus fréquente ou à une trajectoire « normale » construite théoriquement. Il s’agira alors de tenter d’expliquer l’écart à la normale : par exemple, quels sont les facteurs qui influent sur l’écart à une carrière professionnelle continue et à temps plein.
4Reprenons l’application du chapitre 4. On décide de définir la trajectoire de référence comme étant composée de quatre années d’études (de 14 à 17 ans), puis de trente-trois années d’emploi à temps plein (de 18 à 50 ans), ce qui correspond au type de trajectoire majoritaire dans l’échantillon. On calcule, pour chaque individu, la dissimilarité entre sa trajectoire et la trajectoire de référence1, puis on étudie la distribution de l’écart à la trajectoire de référence en fonction du sexe et du nombre d’enfants (figure 6). On constate que les trajectoires des femmes s’écartent plus de la trajectoire d’emploi continu à temps plein que celles des hommes. Plus précisément, cette différenciation sexuée n’est présente que chez les individus ayant des enfants et s’accroît avec le nombre d’enfants. L’écart à la trajectoire majoritaire est particulièrement fort chez les femmes ayant trois enfants ou plus.
Figure 6. Distributions de l’écart à la trajectoire de référence en fonction du sexe et du nombre d’enfants

Champ : échantillon de 500 individus.
Source : enquête Biographies et entourage, Ined, 2001.
5L’une des limites de cette approche tient dans le fait que deux séquences peuvent avoir un écart de même ampleur à la séquence de référence, et être pourtant très différentes. La simple mesure de distance ne dit rien de la nature de ce qui diffère dans les trajectoires. Dans cet exemple, on ne peut savoir si les trajectoires des femmes ayant 3 enfants ou plus s’éloignent en moyenne d’une trajectoire à temps plein par l’intermédiaire du temps partiel, des petits boulots ou de l’inactivité.
III. Distances inter/intra-groupes
6Les dissimilarités entre trajectoires, calculées au moyen de l’une des mesures décrites dans le chapitre 2, peuvent être analysées pour elles-mêmes, sans avoir recours à une classification. On peut comparer la distribution de la dissimilarité entre les trajectoires dans (ou entre) différentes sous-populations (selon le sexe, la cohorte de naissance, etc.) : les trajectoires des femmes sont-elles plus diverses que celles des hommes ? Observe-t-on une « dé-standardisation » des parcours au fil des générations (Elzinga et Liefbroer, 2007 ; Robette, 2010) ? Les parcours des ouvriers qualifiés ressemblent-ils plus à ceux des professions intermédiaires ou des ouvriers non qualifiés ?
7On pourrait par exemple calculer la distance moyenne entre trajectoires féminines et masculines, pour voir si le sexe est associé à des différences marquées dans les trajectoires. Cependant, la valeur de cette distance est en soit difficile à interpréter, car on ne dispose pas de points de comparaison pour évaluer si elle est élevée ou non. Liao et Fasang (2021) ont proposé une adaptation du BIC (bayesian information criterion) et du LRT (likelihood-ratio test) pour ce cas de figure. Ici, la différence de BIC est très forte pour le sexe (32,6), indiquant donc une différenciation sexuée notable des trajectoires d’emploi.
8L’information contenue dans la matrice de distance peut être résumée à l’aide de la technique de multidimensional scaling (MDS), qui est une forme d’analyse factorielle adaptée au traitement des matrices de distance. Comme avec une ACP, une AFC ou une ACM, par exemple, les données sont représentées sous la forme d’un nuage de points dans un plan défini par les axes factoriels. On peut alors projeter des « variables supplémentaires » (comme les caractéristiques des individus, ou même les classes d’une typologie de trajectoires) et observer les proximités ou distances entre les modalités.
9Ici, le premier axe oppose la classe 1 aux autres classes, autrement dit les trajectoires d’emploi à temps plein continu aux autres (figure 7). Cette opposition est liée aux rapports sociaux de sexe, dans la mesure où les femmes sont nettement à gauche et les hommes à droite (du côté du temps plein).
10Sur le second axe, l’opposition est moins claire, mais les types de trajectoires contenant de l’inactivité semblent se situer en bas du graphique et les autres en haut.
Figure 7. Projection factorielle des trajectoires d’emploi (multidimensional scaling)

Champ : échantillon de 500 individus.
Source : enquête Biographies et entourage, Ined, 2001.
IV. Indicateurs synthétiques
11Des indicateurs décrivant les trajectoires tels que ceux listés dans le chapitre 2 (durées dans les états, complexité, etc.) peuvent être directement utilisés pour toutes sortes d’analyses statistiques bivariées ou multivariées, par exemple en les croisant avec les caractéristiques des individus. On constatera, par exemple, que la durée moyenne de l’inactivité dans les trajectoires féminines est de 7,7 années, contre 0,9 pour les hommes, ou que la « turbulence » des trajectoires d’emploi ne semble guère varier au fil des cohortes.
12Par ailleurs, ces indicateurs, et a fortiori les codages de trajectoires des approches liées aux analyses factorielles (voir le chapitre 2, section II), peuvent être soumis à une Analyse en composantes principales (ACP) ou une Analyse des correspondances (AFC). L’examen des résultats sera sans aucun doute porteur d’enseignements (Degenne et al., 1995), en particulier sur les caractéristiques des trajectoires qui sont les plus structurantes dans la population étudiée. Dans un second temps, la projection en variables supplémentaires de caractéristiques des individus (sexe, niveau de diplôme, etc.) viendra compléter l’analyse.
13Les indicateurs synthétiques peuvent enfin être utilisés comme variables explicatives dans des modèles de régression, ce qui peut impliquer une étape de sélection de variables (Bolano et Studer, 2020).
V. Analyse de la variance
14Si on souhaite étudier dans quelle mesure les trajectoires varient selon des sous-populations données, il existe des techniques d’analyse de la variance étendue au cas où la variable à expliquer n’est pas une variable mais une matrice de distance (Studer et al., 2011).
15Avec une variable explicative unique, on mesure la part de la variance des dissimilarités expliquée par la variable (à l’aide d’un pseudo-R2), ainsi qu’une mesure de la variabilité des trajectoires pour chacune des modalités de la variable, i.e. dans chaque sous-population. Dans notre exemple, le sexe explique 7,4 % de la variance des distances entre trajectoires d’emploi, et la variabilité des trajectoires est nettement plus élevée chez les femmes par rapport aux hommes (19,1 contre 9,4).
16Il est possible de détailler ces indicateurs pour chaque position dans le temps des trajectoires. Ainsi, la part de variance expliquée par le sexe est presque nulle en début de trajectoire, elle croît ensuite fortement entre 18 ans et environ 30 ans (elle est alors de 14 %), puis diminue pour n’être plus que de 5 % à 50 ans (figure 8).
Figure 8. Évolution de la part de variance expliquée par le sexe au fil de la trajectoire

Champ : échantillon de 500 individus.
Source : enquête Biographies et entourage, Ined, 2001.
17La variabilité des trajectoires des femmes et des hommes est faible en début de trajectoire et augmente jusqu’à l’âge de 21 ans (figure 9). Les résultats divergent ensuite selon le sexe : la variabilité des trajectoires féminines se maintient jusqu’à 50 ans, alors que celle des hommes diminue fortement après 21 ans et atteint un niveau très faible entre 30 et 50 ans.
Figure 9. Variabilité des trajectoires d’emploi selon le sexe au fil du temps

Champ : échantillon de 500 individus.
Source : enquête Biographies et entourage, Ined, 2001.
18Avec plusieurs variables explicatives, on obtient la part de variance expliquée par l’ensemble des variables et la décomposition de cette part entre les variables. Ici, l’année de naissance, le sexe, le niveau de diplôme et le nombre d’enfants expliquent ensemble 16,2 % de la variance des dissimilarités entre les trajectoires d’emploi : 7,7 % pour le sexe, 6,0 % pour le diplôme, 2,1 % pour le nombre d’enfants et 0,3 % pour l’année de naissance.
19Enfin, l’analyse de variance peut servir à construire un arbre de décision, dit aussi arbre d’induction (Studer et al., 2009), dont le principe est le suivant. Au point de départ de l’arbre, on sélectionne la variable explicative qui explique la plus grande part de la variance de la matrice de dissimilarités entre trajectoires. Puis on « découpe » la population en deux sous-populations à partir de la variable sélectionnée. La suite de la construction de l’arbre est itérative, puisqu’on reproduit séparément, pour chaque sous-population, la sélection de la variable explicative la plus discriminante, puis le découpage en deux sous-populations. On peut « faire pousser » l’arbre jusqu’à ce qu’aucune découpe supplémentaire ne soit possible. Mais le plus souvent, on « élague » l’arbre pour lui conserver une taille interprétable, en fixant un seuil de nombre maximal de découpes, de nombre minimal d’observations dans les différentes sous-populations, ou de degré minimal d’association entre la matrice de distance et la variable explicative sélectionnée.
20La figure 10 présente l’arbre de décision construit à partir des dissimilarités entre trajectoires d’emploi et des variables explicatives suivantes : année de naissance, sexe, niveau de diplôme et nombre d’enfants. Comme précédemment, on constate que la variable qui explique la plus grande part de variance des dissimilarités est le sexe. Ensuite, pour les femmes, la variable la plus discriminante est le nombre d’enfants et, plus précisément, le fait d’avoir ou non 3 enfants ou plus. L’inactivité et, secondairement, le temps partiel sont plus présents dans les trajectoires des femmes ayant au moins 3 enfants que dans celles des autres. Chez les hommes, en revanche, c’est le niveau de diplôme qui est le plus discriminant (les hommes entrent plus tard sur le marché du travail lorsqu’ils ont un diplôme supérieur ou égal au baccalauréat).
Figure 10. Arbre de décision des trajectoires d’emploi

Champ : échantillon de 500 individus.
Source : enquête Biographies et entourage, Ined, 2001.
21Les avantages de cette approche sont la facilité d’interprétation de la représentation graphique de l’arbre, ainsi que la prise en compte de combinaisons de caractéristiques ou, autrement dit, des interactions entre variables explicatives.
VI. Statistiques implicatives
22Pour étudier la manière dont les trajectoires diffèrent entre plusieurs sous-populations, Studer propose d’utiliser les statistiques implicatives. Il s’agit de reconstituer, pour chaque population, la séquence des états typiques (Studer, 2012 ; Struffolino et al., 2016).
23Ici, le service militaire est typique des trajectoires des hommes autour de 20 ans, puis c’est l’emploi à temps plein à partir de 25 ans (figure 11). L’inactivité est caractéristique des trajectoires des femmes, et cela dès l’âge de 18 ans. L’emploi à temps partiel l’est également, mais de manière moins marquée et à partir de 30 ans.
Figure 11. Séquences des états typiques des hommes et des femmes

Champ : échantillon de 500 individus.
Source : enquête Biographies et entourage, Ined, 2001.
24Un état A est considéré comme typique des femmes si la règle « être une femme plutôt qu’un homme implique A » est significative dans le cadre des statistiques implicatives. Cette significativité est déterminée à partir du dénombrement des contre-exemples observés dans les données.
VII. Analyse de séquences et event history analysis
25On l’a vu, analyse de séquences et modèles de durée (event history analysis) sont deux approches très différentes dans l’étude des trajectoires : la première est descriptive et considère les trajectoires comme un tout, alors que la seconde, le plus souvent utilisée pour tester de manière inférentielle des hypothèses causales, est centrée sur les événements.
26Le potentiel de complémentarité des deux approches n’a pas échappé aux spécialistes de l’analyse de séquence, qui explorent cette piste pour trouver des articulations méthodologiques. Trois propositions ont déjà vu le jour. Dans la mesure où, à notre connaissance, elles n’ont encore été appliquées que dans les articles, nous les présenterons brièvement à partir des exemples développés par leurs auteurs.
27Le Sequence History Analysis (SHA, voir Rossignon et al., 2018) est appliqué pour étudier les déterminants de la décohabitation. Les auteurs cherchent plus particulièrement à estimer l’effet de la trajectoire de corésidence (avec les deux parents ; avec un seul parent ; avec les parents et des frères ou sœurs, etc.) sur le départ de chez les parents. La première étape consiste à reconstituer, pour tous les individus, la trajectoire de corésidence entre la naissance et l’instant t de la trajectoire, en faisant varier t de t0 (la naissance) jusqu’à la décohabitation (ou la fin de l’observation pour les individus n’ayant pas décohabité). On a donc plusieurs trajectoires par individus et, en définitive, un ensemble de trajectoires de longueurs très hétérogènes. Les auteurs réalisent alors une typologie de ces trajectoires, recodées sous forme de séquences d’épisodes (i.e. sans tenir compte des durées dans les états, du fait des différences de longueurs entre trajectoires) et à l’aide de l’optimal matching. La dernière étape consiste à estimer un modèle de durée avec la décohabitation comme variable à expliquer et plusieurs variables explicatives, dont la typologie de trajectoires de co-résidence, qui varie dans le temps (time-varying covariate).
28Le but de la procédure de sequence-analysis multistate model (SAMM, voir Studer et al., 2018) est d’estimer la relation entre des variables qui évoluent dans le temps et des trajectoires. Les auteurs l’appliquent pour étudier comment la situation familiale (en couple ou non ; avec ou sans enfant), qui varie dans le temps, est associée avec les trajectoires d’emploi des femmes en Allemagne de l’Est et en Allemagne de l’Ouest. À partir des trajectoires d’emploi, les auteurs extraient d'abord, pour chaque individu, une série de sous-séquences d’une durée identique de cinq ans, en plaçant le début de la fenêtre d’observation sur chaque changement d’état. On obtient donc plusieurs sous-séquences par individu (en moyenne 3,5) et, contrairement à SHA, un corpus de séquences de longueur identique. Une typologie de 9 classes de sous-séquences d’emploi est ensuite construite. Enfin, cette typologie est la variable à expliquer dans un modèle de durée multi-états (multistate model), estimé à l’aide d’un modèle de Cox avec effets aléatoires. Le pays, la période, l’âge, le statut conjugal et le statut parental sont les variables explicatives.
29La procédure de competing trajectory analysis (CTA, voir Studer et al., 2018) est utilisée pour étudier les déterminants du passage à l’âge adulte. La trajectoire de passage à l’âge adulte est codée en prenant en compte le fait d’être parti ou non de chez les parents, d’être ou non en couple et d’avoir ou non un enfant. Pour chaque individu, on extrait d'abord la sous-séquence d’une longueur de cinq années qui suit immédiatement le premier des événements du passage à l’âge adulte (départ de chez les parents ou première mise en couple ou premier enfant). Chaque individu est donc caractérisé par une unique sous-séquence. Une typologie de ces sous-séquences est ensuite réalisée ; 7 classes sont identifiées et interprétées comme les formes typiques du début du processus de formation de la famille. Les auteurs étudient alors les facteurs influençant le début du passage à l’âge adulte en estimant un modèle de durée avec l’âge au début de la sous-séquence comme variable à expliquer. Enfin, ils étudient les facteurs influençant la trajectoire elle-même en estimant un modèle à risques compétitifs (competitive risk model) avec la typologie de sous-séquences comme variable à expliquer. Le calendrier du premier événement, la séquence et l’espacement des événements sont donc analytiquement séparés.
30Les approches ont des points communs, notamment le fait qu’elles construisent des typologies de « sous-trajectoires », qui sont ensuite utilisées dans des modèles de durée. Avec SHA, la typologie est une variable explicative, alors qu’avec SAMM et CTA, elle est la variable à expliquer.
Notes de bas de page
1 Avec l’optimal matching comme mesure de dissimilarité, un coût de substitution unique égal à 2 et un coût indel de 1,5, comme dans le chapitre 4.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
États flous et trajectoires complexes
Observation, modélisation, interprétation
Philippe Antoine et Éva Lelièvre (dir.)
2006
Biographies d’enquêtes
Bilan de 14 collectes biographiques
GRAB (Groupe de réflexion sur l'approche biographique) (dir.)
2009
Méthodes de mesure de la mobilité spatiale
Migrations internes, mobilité temporaire, navettes
Daniel Courgeau
2021
L’analyse statistique des trajectoires
Typologies de séquences et autres approches
Nicolas Robette
2021
Fuzzy States and Complex Trajectories
Observation, modelisation and interpretation of life histories
GRAB Harriet Coleman (trad.)
2009
Minorités de genre et de sexualité
Objectivation, catégorisations et pratiques d’enquête
Wilfried Rault et Mathieu Trachman (dir.)
2023