Chapitre 5
Séquences multidimensionnelles
p. 57-64
Texte intégral
1Dans les premiers temps de l’analyse de séquences en sciences sociales, les éléments successifs composant les séquences étaient difficiles à simplifier en un ensemble unique et limité d’états : des ajustements méthodologiques étaient parfois nécessaires pour tenir compte de la diversité et de la complexité des statuts sociaux des individus. En d’autres termes, pour faire une étude détaillée des carrières en tant que séquences, différentes dimensions doivent être considérées. Par exemple, dans leur article fondateur sur la carrière des musiciens en Allemagne à l’époque baroque et classique, Abbott et Hrycak (1990) combinent position (par exemple, chanteur ou instrumentiste) et sphère (par exemple, cour ou église). De même, la variable de la situation professionnelle de Stovel, Savage et Bearman (1996) est une combinaison du poste et de la taille de l’entreprise, Blair-Loy (1999) combine la catégorie socioprofessionnelle et la taille de l’entreprise, et Han et Moen (1999), le statut professionnel, l’entreprise et la profession.
2Par la suite, les applications de l’analyse de séquences se sont concentrées sur les parcours de vie et la nécessité de traiter simultanément leurs différentes dimensions est devenue une préoccupation majeure. Les histoires conjugales, parentales, professionnelles et résidentielles se déroulant de façon interdépendante (Courgeau et Lelièvre, 1989), les chercheurs ont exploré les répercussions méthodologiques de ce constat. Pollock (2007) a introduit l’analyse de séquences multiples (multiple sequence analysis, ou MSA), qui a ensuite été systématisée par Gauthier et al. (2010) et renommée analyse de séquences multicanaux (multichannel sequence analysis, ou MCSA).
I. Association entre dimensions
3Réaliser une typologie de séquences multidimensionnelles n’a de sens que si les dimensions sont statistiquement liées entre elles. Dans le cas contraire, la classification risque d’aboutir à des classes avec des trajectoires très homogènes pour une dimension, et très hétérogènes pour les autres. Autrement dit, on aura tendance à interpréter la typologie sous le prisme de l’interdépendance entre dimensions alors que celle-ci n’est qu’une apparence liée aux méthodes employées.
4Pour s’assurer que les dimensions sont statiquement associées, il existe plusieurs pistes. La première est graphique. Considérons un ensemble de séquences ayant trois dimensions : A, B et C (qui pourraient être les trajectoires familiales, professionnelles et résidentielles, par exemple). On représente chaque dimension par un index plot, trié à partir des résultats d’un multidimensional scaling réalisé sur la dimension A (Piccarreta et Lior, 2010). L’ordre des séquences dans l’index plot de la dimension A devrait paraître obéir à une certaine logique, interprétable. Si c’est aussi le cas pour les autres dimensions, on peut penser qu’elles sont notablement associées à la dimension A.
5Les autres pistes sont statistiques (Piccarreta et Elzinga, 2013 ; Piccarreta, 2017). Tout d’abord, on peut simplement calculer la corrélation entre les matrices de distance des différentes dimensions : A et B, B et C, A et C. Le coefficient de Mantel mesure des relations linéaires, les coefficients de corrélation de rang (Spearman ou Kendall) évaluent des relations monotones.
6On peut pousser plus loin en soumettant la matrice composée des corrélations entre dimensions (ici une matrice 3 x 3) à une analyse en composantes principales (ACP). Si le premier axe explique une large partie de la variance, alors les dimensions sont linéairement associées. Si, au contraire, les axes suivants expliquent une part notable de la variance, les résultats de l’ACP pourront aider à mieux comprendre la structure des relations entre les dimensions.
7Une autre mesure d’association est la joint sequence analysis association. Elle s’appuie sur les corrélations entre les matrices de distance des différentes dimensions (dA, dB et dC) et la matrice de distance des séquences multidimensionnelles (dABC). Élevée au carré, chaque corrélation (par exemple entre dA et dABC) mesure la proportion des dissimilarités de la dimension (dA) expliquée par les dissimilarités entre séquences multidimensionnelles (dABC). À partir de ces corrélations, on calcule la proportion totale des dissimilarités des différentes dimensions expliquée par dABC. Cette mesure est bornée entre 0 et 1, le 1 correspondant à une association linéaire parfaite. Elle est élevée si les dimensions sont associées et si cette association peut être efficacement résumée dans le calcul des dissimilarités entre les séquences multidimensionnelles.
8Piccarreta suggère également l’utilisation des « alpha de Cronbach » pour mesurer l’association des différentes combinaisons de dimensions possibles : ici entre A et B ; A et C ; B et C ; A, B et C. Des valeurs élevées indiquent de fortes associations.
9On peut encore mesurer, pour une dimension donnée, la corrélation entre sa matrice de distance et la matrice de distance entre séquences combinant les différentes dimensions à l’exception de celle étudiée. Dans notre exemple, il s’agit de calculer les corrélations entre dA et dBC, dB et dAC, dC et dAB. Si dA et dBC sont corrélées, cela signifie que l’information contenue dans la dimension A se retrouve dans la combinaison des autres dimensions, et donc que cette dernière est associée aux autres.
II. Méthodes typologiques
10Les diverses stratégies d’élaboration de typologies de séquences multidimensionnelles que l’on trouve dans la littérature peuvent être résumées en cinq groupes1.
11La première stratégie consiste à créer une nouvelle variable d’état qui combine les états simples composant chaque dimension (Aassve et al., 2007 ; Chaloupkova, 2010 ; Dijkstra et Taris, 1995 ; Elzinga, 2003 ; Elzinga et Liefbroer, 2007 ; Lesnard, 2008). Par exemple, dans le cas des histoires conjugales et parentales, les états combinés possibles incluraient : célibataire sans enfant ; célibataire avec enfant ; en couple sans enfant ; en couple avec un enfant. Cela peut rapidement conduire à un grand alphabet, c’est-à-dire à un ensemble d’états très nombreux. Ainsi, dans le cas de quatre dimensions comportant chacune trois états simples, la variable combinée aurait potentiellement 3 x 3 x 3 x 3 = 81 états. Une telle extension de l’alphabet peut s’avérer peu pratique avec l’optimal matching lorsqu’il s’agit de fixer des coûts de substitution spécifiquement adaptés à chaque paire d’états. Cependant, cet inconvénient peut être facilement contourné en fixant un coût de substitution constant ou en utilisant la probabilité de transition entre les états (Lesnard, 2008).
12La deuxième stratégie est une approche plus raffinée qui évite d’avoir besoin d’un alphabet étendu. Elle est la plus répandue et est souvent nommée multiple sequence analysis (MSA) ou multichannel sequence analysis (MCSA). Elle n’autorise qu’une seule mesure de dissimilarité, l’optimal matching. Elle repose sur la combinaison des coûts de substitution des différentes dimensions. Par exemple, le coût de substitution « célibataire sans enfant »/« en couple avec enfant » équivaudra à une combinaison du coût de substitution entre « célibataire » et « en couple » et du coût de substitution entre « sans enfant » et « avec enfant ». Une combinaison possible est la somme (ou moyenne) des coûts définis pour chaque dimension (Blair-Loy, 1999 ; Gauthier et al., 2010 ; Pollock, 2007 ; Salmela-Aro et al., 2011 ; Stovel et al., 1996). Par exemple, la somme (ou moyenne) du coût de substitution « célibataire »/« en couple » et du coût de substitution « sans »/« avec enfant ». On peut aussi imaginer une combinaison linéaire plus fine des différentes dimensions (Abbott et Hrycak 1990), par exemple, en appliquant des poids à ces dimensions (Gauthier et al., 2010, p. 34). S’il y a un coût de substitution unique pour chaque dimension et qu’il est identique entre les dimensions, substituer un état combiné à un autre équivaut à compter le nombre de dimensions qui diffèrent (Robette, 2010). Par exemple, remplacer « célibataire sans enfant » par « en couple avec enfant » coûtera 2, tandis que remplacer « célibataire sans enfant » par « en couple sans enfant » coûtera 1. En outre, cette deuxième stratégie peut être considérée comme un cas particulier de la première, avec des coûts de substitution fixés simplement et efficacement. Elle est la plus répandue et est souvent nommée multiple sequence analysis (MSA) ou multichannel sequence analysis (MCSA). Elle n’autorise qu’une seule mesure de dissimilarité, l’optimal matching.
13La troisième stratégie consiste à calculer une matrice de distance pour chaque dimension séparément, puis à les résumer en une seule matrice de distance par combinaison linéaire (Blanchard, 2005 ; Han et Moen, 1999).
14La quatrième stratégie utilise des typologies de séquences réalisées séparément pour chaque dimension et les combine ensuite (Blanchard, 2005), par exemple avec des tableaux croisés. On pourra ainsi croiser le type de trajectoire matrimoniale avec le type de trajectoire parentale.
15La dernière stratégie, appelée globally interdependent multiple sequence analysis (GIMSA), a été développée récemment (Robette et al., 2015). Comme la troisième stratégie, on commence par calculer une matrice de distance par dimension. On résume ensuite chacune des dimensions à l’aide d’un échelonnement multidimensionnel (MDS), puis on analyse conjointement les dimensions avec une technique d’analyse de tableaux multiples (PLS symétrique), qui prend en compte les corrélations entre celles-ci, pour finir avec une matrice de distance unique.
16Ces cinq stratégies peuvent être systématiquement comparées et classées selon trois critères : (1) multidimensionnalité, (2) parcimonie et (3) interdépendance (voir tableau 13)2.
17Par multidimensionnalité, on entend le fait que la contribution de chaque dimension aux résultats globaux peut ou non être explicite (sans équivoque) et souple (paramétrable par l’utilisateur). La première stratégie tient compte des dimensions multiples, tout comme les autres. Cependant, en masquant les dimensions dans une seule variable d’état combinée, c’est la seule qui n’insiste pas sur la multidimensionnalité. Par exemple, il n’est pas possible d’avoir des paramètres spécifiques pour chaque dimension, de donner plus d’importance à une dimension particulière en la pondérant ou d’évaluer l’impact de chaque dimension sur les résultats.
18Par parcimonie, on entend le fait qu’une approche peut conduire ou non à un nombre limité et gérable de types de trajectoires3. La combinaison des typologies produites séparément pour chaque dimension (comme c’est le cas avec la stratégie 4) peut conduire à un nombre inconfortablement élevé de types.
19Par interdépendance, on entend le fait que la relation entre les dimensions peut être masquée (stratégie 3), prise en compte localement (comme dans les stratégies 1 et 2) – c’est-à-dire que l’accent est mis sur la dépendance entre les dimensions transversalement, à chaque moment de la séquence – ou globalement (comme dans les stratégies 4 et 5) – l’accent est mis sur la dépendance entre les dimensions par l’intermédiaire des séquences dans leur globalité, prises comme des « tout ».
Tableau 13. Taxinomie des stratégies d’analyse de séquences multidimensionnelles

20L’interdépendance globale libère de la contrainte de contemporanéité ; c’est la forme globale d’une dimension qui est liée aux autres. Dans les stratégies 4 et 5, des mesures de dissimilarité sont effectuées séparément pour chaque dimension dans une première étape, puis les relations entre les régularités de chaque dimension sont examinées. Comme les matrices de distance sont calculées indépendamment pour chaque dimension, des mesures de dissimilarité différentes peuvent être utilisées, par exemple, une métrique axée sur le calendrier (comme la distance de Hamming) pour une dimension et une métrique fondée sur l’ordre (comme la plus longue sous-séquence commune) pour une autre dimension. Différentes fenêtres temporelles et horloges peuvent également être utilisées.
21La stratégie 3 permet également différentes mesures de dissimilarité, fenêtres temporelles et horloges. Cependant, en ajoutant simplement des matrices de distances, les relations entre les dimensions ne sont pas gérées adéquatement. Par exemple, avec des séquences bidimensionnelles, si deux individus ont une dissimilarité de 1 pour une dimension et sont identiques pour la seconde, ils auront la même distance globale que deux individus qui sont identiques pour la première dimension et ont une dissimilarité de 1 pour la seconde.
22Il est important de garder à l’esprit que ces critères – multidimensionnalité, parcimonie et interdépendance locale et globale – peuvent être souhaitables ou non, selon les questions de recherche ou les données. Il n’y a pas de meilleure stratégie en soi, et le choix de l’une ou l’autre devrait être fondé sur des critères sociologiques et empiriques.
23Quelques travaux d’analyse de séquences ont tenu compte de l’un des éléments clés du paradigme des parcours de vie (Giele et Elder, 1998) : les parcours de vie individuels sont intégrés dans les relations sociales autrement dit, qu’ils sont liés (linked lives). La plupart des recherches ont porté sur la transmission des parcours entre parents et enfants (Falcon, 2012 ; Fasang et Raab, 2014 ; Liefbroer et Elzinga, 2012 ; Robette et al., 2015), bien que quelques articles aient porté sur les trajectoires de conjoints (Lelievre et Robette, 2010 ; Lesnard, 2008 ; Pailhé et al., 2013).
24Pour évaluer la force de la transmission entre parents et enfants, Liefbroer et Elzinga (2012) ont laissé de côté les typologies et analysé les dissimilarités en elles-mêmes (entre les séquences des parents et de leurs enfants). Toutefois, on pourrait soutenir que, dans certains cas, la similitude parfaite entre les séquences des parents et des enfants n’est pas une preuve appropriée des processus de transmission. En effet, l’âge médian de la parentalité, par exemple, peut être d’environ 20 ans pour la génération des parents et d’environ 25 ans pour celle de leurs enfants. Ainsi, les parents et leurs enfants peuvent être considérés comme ayant des séquences différentes, à proprement parler, bien qu’ils aient en fait des histoires parfaitement équivalentes, étant donné les changements structurels du contexte historique dans lequel leur vie s’est déroulée. En outre, un degré donné de dissimilarité peut avoir des raisons distinctes (par exemple, une différence d’âge de deux ans au moment du mariage peut être jugée équivalente, que ce soit deux ans plus tôt ou deux ans plus tard, bien qu’elle n’ait pas la même signification), ce qui reste invisible dans cette approche.
25Certains ont adopté la deuxième des stratégies présentées précédemment, soit la combinaison des coûts de substitution (Fasang et Raab, 2014 ; Pailhé et al., 2013). Cette stratégie a l’avantage de permettre l’identification de types contrastés de transmission intergénérationnelle, c’est-à-dire des groupes de dyades dans lesquels les séquences des parents et des enfants sont distinctes mais souvent associées (Fasang et Raab, 2014). Cette stratégie est particulièrement appropriée lorsqu’il est pertinent de synchroniser les séquences de chaque dimension au sein d’une dyade (par exemple pour comparer le moment et le rythme des transitions des parents et des enfants) ou pour caractériser la situation de la dyade à un moment donné (interdépendance locale). Ce n’est cependant pas toujours le cas. Par exemple, les diverses dimensions peuvent parfois différer considérablement de par leur nature. Considérons l’étude de la relation entre la carrière globale des parents et l’insertion professionnelle de leurs enfants. Dans cet exemple, les séquences des parents pourraient s’étendre sur 45 ans, de 14 à 60 ans (avec les années comme unités de temps), et l’alphabet (i.e. l’ensemble des états possibles) serait fondé sur une nomenclature socioprofessionnelle. Alors que les séquences d’insertion professionnelle des enfants pourraient s’étendre sur seulement trois ans après avoir quitté l’école (avec les mois comme unités de temps), et l’alphabet serait alors composé de statuts d’emploi (par exemple, études, chômage, emploi à temps partiel et travail à temps plein). Techniquement, la différence de longueur entre les séquences des parents et des enfants pourrait être gérée avec des valeurs manquantes. Néanmoins, dans cet exemple hypothétique avec des fenêtres temporelles et des horloges si différentes, cela deviendrait à tout le moins inélégant – même impraticable – et obscurcirait considérablement les résultats. Plus important encore, d’un point de vue substantiel, il n’est pas pertinent ici de « coller » une séquence sur l’autre et de les aligner localement. Ce que l’on cherche à étudier, ce sont plutôt la forme globale des différentes dimensions, les régularités qu’elles présentent et la relation entre ces régularités (interdépendance globale)4. Dans ce cas, c’est la stratégie 5 qui est recommandée (Robette et al., 2015). Elle permet en outre de choisir une mesure de dissimilarité axée sur l’ordre ou la durée pour les séquences des parents, et une mesure axée sur le calendrier pour les séquences des enfants, par exemple.
Notes de bas de page
1 On notera que certains auteurs ont comparé plusieurs stratégies à partir du même jeu de données (Blanchard, 2010).
2 Ces critères sont inspirés de Gauthier et al., 2010.
3 Plus précisément, une typologie peut être considérée comme plus parcimonieuse qu’une autre si elle conserve la même quantité d’informations avec moins de classes, ou si elle conserve plus d’informations avec le même nombre de classes. En pratique, la parcimonie est un équilibre entre la quantité d’informations et le nombre de classes, et les décisions qu’elle implique ne sont pas toujours simples.
4 Un autre exemple pourrait être la dyade de séquences formées par les journées (ou semaines) de travail, telles qu’elles sont collectées dans les enquêtes Emploi du temps (Lesnard et Kan, 2011), et la carrière professionnelle passée.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
États flous et trajectoires complexes
Observation, modélisation, interprétation
Philippe Antoine et Éva Lelièvre (dir.)
2006
Biographies d’enquêtes
Bilan de 14 collectes biographiques
GRAB (Groupe de réflexion sur l'approche biographique) (dir.)
2009
Méthodes de mesure de la mobilité spatiale
Migrations internes, mobilité temporaire, navettes
Daniel Courgeau
2021
L’analyse statistique des trajectoires
Typologies de séquences et autres approches
Nicolas Robette
2021
Fuzzy States and Complex Trajectories
Observation, modelisation and interpretation of life histories
GRAB Harriet Coleman (trad.)
2009
Minorités de genre et de sexualité
Objectivation, catégorisations et pratiques d’enquête
Wilfried Rault et Mathieu Trachman (dir.)
2023