2. Concepts de base en génétique des populations
p. 31-68
Texte intégral
Calcul des fréquences alléliques à partir d’un échantillon
1À partir de maintenant, nous considérerons, sauf si précisé, que nous travaillons sur un locus codominant (on distingue les hétérozygotes des homozygotes) avec deux allèles chez un organisme diploïde. Admettons que nous ayons génotypé N individus de cet organisme dans un site que nous supposons contenir une population. Parmi ces N individus, N11 se sont révélés être de génotype 1/1, N12 1/2 et N22 2/2. Notez que N est nécessairement égal à N11 + N12 + N22. Soit p1 et p2, les fréquences des allèles 1 et 2 respectivement dans l’échantillon de N ndividus. Il y a 2N allèles en tout puisque nous sommes chez des diploïdes. Il y a 2N11 et N12 allèles 1 chez les 1/1 et 1/2 respectivement et 2N22 et N12 allèles 2 chez les 2/2 et 1/2 respectivement. La fréquence des allèles 1 et 2 dans l’échantillon est donc :
2et
3Notez que ces valeurs sont aussi des estimations des fréquences alléliques de la population échantillonnée et que, grâce à la codominance du marqueur, nous n’avons pas eu à faire d’hypothèse pour estimer ces fréquences alléliques (en fait si, laquelle ? Lire la réponse 1 en fin de volume).
Conformité avec les proportions d’Hardy-Weinberg
Les hypothèses d’Hardy-Weinberg
4Hardy, mathématicien britannique, et Weinberg, médecin allemand, ont émis le même modèle de façon indépendante (Hardy, 1908 ; Weinberg, 1908). Ce modèle, communément appelé « Équilibre d’Hardy-Weinberg », sert de base à une immense partie des études de génétique des populations.
5Les hypothèses de ce modèle sont les suivantes :
- taille de population infinie ;
- pas de mutation ;
- pas de migration ;
- pas de sélection (neutralité) ;
- reproduction sexuée avec rencontre au hasard des gamètes (panmixie) ;
- pas de chevauchement de générations.
L’équilibre d’Hardy-Weinberg
6Soit un locus à deux allèles 1 et 2 de fréquences p1 et p2 dans une telle population. Alors, puisque les gamètes se rencontrent au hasard, nous pouvons construire le tableau 1 qui décrit la rencontre des gamètes de la façon suivante :
Tableau I – Tableau de rencontre au hasard des gamètes. Les génotypes formés sont entre parenthèses.
Gamètes de type | ||||
1 | 2 | |||
Fréquences | p1 | p2 | ||
Gamètes de type | 1 | p1 | p1² (1/1) | p1 p2 (1/2) |
2 | p2 | p1 p2 (2/1) | p2² (22) |
7Nous attendons donc, dans les zygotes ainsi formés, les proportions de génotypes :
8p1², 2 p1 p2 et p2² pour 1/1, 1/2 et 2/2 respectivement. Et puisqu’il n’y a ni sélection, ni mutation, ni migration et que la population est infinie (pas de dérive aléatoire des fréquences alléliques), ces proportions resteront les mêmes chez les adultes de la génération suivante. En se rappelant que la somme p1 + p2 est nécessairement égale à 1, nous démontrons facilement que les nouvelles fréquences alléliques seront donc, en appliquant l’équation (1) :
9et donc
10p'2 = p2
11C’est ce que l’on appelle l’équilibre (car rien ne bouge) de Hardy-Weinberg.
12Que se passe-t-il si nous relâchons chacune des hypothèses du modèle de Hardy-Weinberg l’une après l’autre ?
Relaxation des hypothèses de Hardy-Weinberg
La population est de taille finie
13Prenons un exemple extrême d’une population de taille 2. Admettons qu’à la génération 0, les deux individus sont hétérozygotes 1/2. La fréquence des deux allèles est donc ½. Ils fabriquent des gamètes qui se rencontrent au hasard pour former ¼, ½ et ¼ de zygotes 1/1, 1/2 et 2/2 respectivement (nous considérons ici un cas où le nombre de zygotes produit est très grand). Il faut reconstituer à partir de ces zygotes une population d’adultes de taille 2 (phénomène démographique appelé régulation). J’ai (¼)² de choisir au hasard deux 1/1, 2(¼)(½) d’avoir un 1/1 et un 1/2, (½)² d’avoir deux 1/2, 2(¼)² de choisir un 1/1 et un 2/2, 2(½)(¼) d’avoir un 1/2 et un 2/2 et (¼)² d’avoir deux 2/2. Ce qui veut dire qu’à la génération suivante, j’ai 5/8 chances d’obtenir une configuration avec des fréquences alléliques différentes de celles de la génération 0, et dans ⅛ cas de fixer définitivement la population en 11 ou en 22. C’est ce que l’on appelle la dérive génétique. Dans une population de taille finie, le hasard modifie les fréquences alléliques d’une génération à l’autre. Ceci veut dire que s’il n’y avait rien d’autre (mutation, migration, sélection), aucun polymorphisme, à aucun locus, ne pourrait se maintenir dans les populations naturelles. Notons que le phénomène est d’autant plus rapide que les populations sont de petites tailles.
Il y a mutation
14Cela correspond aux erreurs de copies lors de la duplication de l’ADN durant la construction des gamètes. Il existe plusieurs types de mutation.
Mutation récurrente
15Une mutation récurrente correspond à la transformation d’un allèle donné en un autre allèle donné (par exemple, 1- > 2). C’est le cas de la plupart des mutations délétères comme l’albinisme par exemple, qui intervient avec la fréquence (taux de mutation) de 2.5 × 10-5 environ (Hedrick, 2003), et ces mutations correspondent en général à une perte de fonction. Le taux de mutation en est en général assez bas (10-5, 10-6) et la mutation reverse est en général très faible et négligeable (car il faut réparer exactement ce qui a été perdu), de l’ordre de 10-8.
Modèle de mutation en nombre fini d’allèles ou KAM (K Alleles Model)
16La mutation transforme l’allèle d’origine vers n’importe quel type d’allèle parmi les K – 1 restants possibles. Si par exemple, on regarde le polymorphisme au niveau d’une seule paire de base, on aura K = 4 (A, T, G ou C) (à vous de trouver pourquoi cet exemple n’est pas très bon, sinon reportez-vous à la réponse 2 en fin de volume). Pour les allozymes, on a en général entre 1 et 10 allèles visibles. Pour d’autres marqueurs, K peut être très grand. À cause de ce nombre limité d’allèles possibles, il peut arriver que deux allèles soient identiques sans pour autant partager une origine ancestrale commune proche dans le temps (coancestry en anglais). On dit de ces allèles qu’ils sont identiques par état et non par descendance et on appelle ce phénomène homoplasie.
IAM ou Infinite Allele Model
17La mutation transforme l’allèle d’origine vers un allèle nouveau (jusqu’alors inexistant) et indépendant de l’état du précédent. Ce modèle est très utilisé en génétique des populations théoriques, car il est plus simple à manipuler sans modifier considérablement les résultats par rapport au KAM (si K suffisamment grand). Dans ce modèle, il n’y a pas d’homoplasie et deux allèles identiques par état le sont également par descendance.
SMM ou Stepwise Mutation Model
18Le SMM (Kimura et Ohta, 1978) est un mode de mutation invoqué pour les marqueurs microsatellites. La mutation correspond ici à l’ajout ou au retrait d’une répétition par rapport à l’allèle d’origine. Il est évident que ce type de mutation va générer beaucoup d’homoplasie. Il en résulte également qu’une ressemblance de taille traduira également une proximité ancestrale probable. Il existe aussi des modèles panachés entre KAM et SMM, comme le TPM (Two Phases Model) avec une certaine proportion de SMM et le complément en KAM avec une variance de taille d’allèles donnée.
Conclusion sur la mutation
19Quoi qu’il en soit, la mutation va bien évidemment modifier les fréquences alléliques des loci qu’elle affecte. Il faut noter cependant que les taux de mutation sont en général assez bas (sauf pour quelques microsatellites) et que la mutation seule ne peut donc pas représenter une force très puissante de l’évolution des populations. Il n’y aurait néanmoins pas d’évolution sans mutation, car c’est la seule source de nouveauté héréditaire, et, associée à la dérive et à la sélection, la mutation représente en effet la clé de l’évolution et de la structure génétique des populations.
Migration
20Les populations naturelles ne sont pas isolées totalement les unes des autres. Elles reçoivent donc des propagules venant d’autres populations plus ou moins éloignées et présentant, à l’ensemble du génome, des fréquences d’allèles plus ou moins différentes. Ces propagules peuvent être des individus adultes, larvaires, des gamètes (pollen) ou des spores. Ils peuvent donc être haploïdes ou diploïdes. La migration peut être forte. Elle a tendance à homogénéiser les populations entre elles (génétiquement). C’est donc une force potentiellement majeure de l’évolution des populations. Notons ici que, comme nous le verrons plus loin, associée à la dérive et à la mutation, la migration peut conduire, en population structurée, à l’établissement d’un polymorphisme stable (équilibre) d’une génération à l’autre et sans l’intervention d’une quelconque forme de sélection. On peut même observer, dans certains types de populations structurées, l’établissement d’un cline géographique des fréquences alléliques.
Sélection
21La sélection est évidemment une force majeure de l’évolution. Elle peut prendre de multiples formes et peut affecter un, quelques-uns ou plusieurs loci en même temps et agir à différents niveaux (génomique, individuel, populationnel…) avec différents effets et interactions. Il s’agit donc d’un domaine d’investigation très large. Nous ne passerons en revue que quelques exemples parmi les plus simples et les plus utiles à la suite de notre propos.
Sélection directionnelle
22Comme son nom l’indique, la sélection directionnelle tend à augmenter ou diminuer la fréquence d’un allèle dans la population, en affectant la survie ou la reproduction des porteurs de cet allèle pour le locus concerné. La vitesse du processus dépend de la force de la sélection, de la dominance (ou récessivité) de l’allèle vis-à-vis de la sélection, du système de reproduction et de la taille de la population. Sans mutation, l’aboutissement de cette sélection est la fixation de l’allèle le plus favorable à la survie et/ou reproduction des individus qui le portent. Cette sélection n’est détectable qu’expérimentalement ou par des études corrélatives car, seule, elle n’affecte pas ou très peu le schéma génotypique p1², 2 p1 p2 et p2² d’Hardy-Weinberg. Seules les fréquences alléliques changent. Cette sélection peut cependant modifier le degré de différenciation entre populations différentes aux loci concernés. En fonction des cas, elle peut diminuer la différenciation (sélection convergente) quand la direction de la sélection est la même d’un site à l’autre. Elle peut au contraire augmenter cette différenciation lorsque la direction de sélection est variable d’un site à l’autre (sélection divergente ou disruptive) (voir par exemple De Meeûs et al., 1993 ; De Meeûs et Goudet, 2000 ; De Meeûs, 2000). Normalement, cette forme de sélection n’est perceptible qu’aux loci (gènes) concernés et à ceux qui leur sont liés (auto-stop) et pas aux autres marqueurs. C’est donc un phénomène locus spécifique.
Sous-dominance
23C’est le nom qu’on lui donne même si ce n’est guère explicite pour ne pas dire très mal choisi. Il s’agit d’une sélection qui défavorise les hétérozygotes. Cette forme de sélection conduit théoriquement à l’élimination de l’allèle le moins fréquent. En effet, s’il y a panmixie, l’allèle le plus rare sera le plus souvent hétérozygote (vous n’avez qu’à vérifier cela dans les proportions attendues chez les zygotes) et donc le plus souvent défavorisé. Il existe peu ou pas d’exemples de sous-dominance. L’exemple le plus connu qui s’en rapproche le plus est le cas du système Rhésus (Hartl et Clark, 1989). Dans ce système, les Rh+Rh- sont en moyenne défavorisés par rapport aux Rh+Rh+ ou Rh-Rh-, car les femmes Rh-Rh- ont plus de chance de perdre un enfant (quand ce dernier est Rh+Rh-). Le maintien d’un tel polymorphisme dans les populations humaines est assez surprenant. Tant que le polymorphisme persiste, la signature d’un tel processus est un déficit en hétérozygotes, par rapport aux attendus de Hardy-Weinberg, chez les adultes, et donc un excès d’homozygotes, pour le locus concerné (et seulement lui). Avec deux allèles (1 et 2) de fréquences respectives p1 et p2, cela donne les fréquences génotypiques : p1² + p1p2FIS, 2p1p2(1 – FIS) et p2² + p1p2FIS, pour 1/1, 1/2 et 2/2 respectivement, avec FIS le déficit en hétérozygotes (voir plus loin).
Super-dominance
24Là non plus, le terme n’est pas très heureux, mais c’est ainsi. Ici, ce sont les homozygotes qui sont moins favorisés (ou avantage de l’hétérozygote). Dans ce cas, la population tend à converger vers un équilibre stable des fréquences alléliques au locus concerné (et seulement lui). Il existe encore une fois peu d’exemples naturels de ce phénomène. Le plus connu est la résistance à la malaria des patients hétérozygotes pour la drépanocytose (ou anémie falciforme) (Ridley, 1996). Il y a deux allèles au locus responsable. Le premier allèle (+) dit sauvage, et le second (-) dit mutant. Les individus -/- sont atteints d’une maladie génétique grave (survie et reproduction très compromises), les individus +/+ sont normaux, mais les individus +/- sont en moins bonne santé que les +/+ sauf dans les populations soumises à une forte pression par Plasmodium falciparum (l’agent le plus virulent de la malaria). Dans ce dernier cas, les +/+ ont des taux de survie inférieurs à celui des +/-, qui eux-mêmes survivent mieux que les -/- (qui sont très malades, quelles que soient les conditions), il y a super-dominance. Notons que ces modes de résistance sont coûteux en termes de zygotes produits, puisqu’une grande partie des individus produits à chaque génération sont homozygotes et donc moins bien adaptés. Une échappatoire à ce travers peut provenir du système de reproduction s’il fait en sorte qu’une majorité d’hétérozygotes soient issus de la reproduction. Ceci se traduirait par un coût au niveau reproductif (choix du conjoint) et les individus hétérozygotes produits sont tous condamnés à une descendance imparfaite. La signature de ce phénomène sur des marqueurs génétiques est bien évidemment la présence d’excès d’hétérozygotes par rapport aux attendus de Hardy-Weinberg, pour le seul locus concerné par cette sélection, bien évidemment, et éventuellement pour les loci les plus liés au gène sous sélection (auto-stop).
La sélection fréquence-dépendante
25On l’appelle aussi sélection apostatique (avantage du rare ou apostat) : plus un allèle est rare et plus l’individu qui le porte a de chances de survivre et/ou de se reproduire. Les exemples sont multiples. Les plus connus concernent ce qui a trait aux systèmes immunitaires et à la sélection sexuelle (Schierup et al., 2001). Chez le trèfle, par exemple, on connaît un locus d’auto-incompatibilité possédant une multitude d’allèles différents (Lawrence, 2000). Une fleur de trèfle ne peut être fécondée que par un pollen ne possédant aucun des deux allèles présents chez la fleur à ce locus. Il en résulte que les plantes sont nécessairement toutes hétérozygotes à ce locus et que tout mutant ou migrant possédant un allèle nouveau sera fortement favorisé (il peut féconder, et être fécondé par, tout le monde). Le système MHC (Complexe majeur d’histocompatibilité) des mammifères ou HLA (Antigène lymphocytaire humain) chez l’homme, fonctionne selon un principe équivalent puisqu’un couple dont le HLA est trop similaire est stérile, et qu’il y a manifestement des attirances dépendantes de la différence entre le MHC des deux partenaires (Wedekind et Penn, 2000). Ici, la signature du phénomène est facile à repérer, puisque les loci impliqués doivent avoir une hétérozygotie fixée ou au moins très élevée. D’autres exemples peuvent concerner des systèmes de résistance hôte/virulence parasite. C’est le cas des modèles de gène-pour-gène (avec coûts sélectifs) où seuls les parasites « virulents » peuvent infecter les hôtes « résistants », alors que les hôtes susceptibles peuvent aussi être envahis par les parasites « avirulents » ; c’est le cas aussi des modèles appelés « matching alleles » où chaque allèle de résistance de l’hôte ne permet l’invasion que d’un type de parasite porteur d’un allèle de virulence précis (se référer à Agrawal et Lively, 2002 pour une description plus détaillée de ces deux modèles). On conçoit que si on a par exemple deux types de parasites P1 et P2 et deux types d’hôtes H1 et H2, si seul H1 est compatible pour P1 et H2 pour P2, mais que ce parasite est létal pour l’hôte dans lequel il parvient à s’installer, on comprend bien que ce système fonctionnera de façon fréquence-dépendante. Ici, la signature de ce système au niveau du locus en tant que marqueur génétique ne sera pas évidente à mettre en évidence autrement que par des expériences ou des suivis dans le temps de tous les acteurs du système. La fréquence-dépendance aura souvent tendance à homogénéiser les fréquences alléliques des loci concernés sur une grande part de l’aire de répartition de l’espèce. Cependant, l’interaction avec les schémas de migration peut potentiellement complexifier ce schéma (Gandon et al., 1996 ; Gandon, 2002 ; Morgan et al., 2005).
Hétérosis
26L’hétérosis (ou vigueur hybride) est un phénomène global qui affecte la totalité du génome. Il peut provenir d’une superdominance globale répartie sur de très nombreux loci du génome ou bien il résulte de la présence de nombreux allèles délétères récessifs dans la population qui fait que plus un individu est hétérozygote au plus grand nombre de loci et plus sa valeur sélective croît (voir Prugnolle et al., 2004a). Ici, la signature génétique de ce phénomène correspond à un excès d’hétérozygotes sur l’ensemble des loci testés. Il convient cependant de pouvoir écarter les hypothèses alternatives, que nous aborderons plus loin, pouvant expliquer un excès d’hétérozygotie multilocus tels que la clonalité (Balloux et al., 2003), l’existence de petites populations dioïques ou auto-incompatibles (Balloux, 2004) avec ou sans biais de dispersion sexe-spécifique (Prout, 1981 ; Prugnolle et De Meeûs, 2002) ou les membres d’une même fratrie (individus issus de la même ponte) (Chevillon et al., 2007a). Ce phénomène aura tendance à homogénéiser les fréquences alléliques entre différents sites (sous-populations) à tous les loci impliqués et donc potentiellement sur l’ensemble des loci du génome (auto-stop).
La sélection gamétique
27La sélection gamétique donne un avantage à certains gamètes (spermatozoïdes plus performants). C’est une forme de sélection souvent négligée mais très puissante, comme en atteste le maintien de mutations délétères (même sub-létales) à des fréquences anormalement élevées (Nunney et Baker, 1993).
Le régime de reproduction n’est pas panmictique
28Ici, aussi plusieurs cas sont possibles.
Autofécondation
29Ceci n’est bien sûr possible que chez des organismes hermaphrodites (Taenia, Echinococcus, Fasciola, Plasmodium) (nous ne parlerons pas ici de certains cas de parthénogénèse automictique). Imaginons que chez de tels organismes, une proportion s de gamètes est investie dans l’autofécondation et donc 1 – s dans des croisements panmictiques. En reprenant notre locus à deux allèles de tout à l’heure, nous pouvons poser que Dn, Hn et Rn sont les fréquences des génotypes 1/1, 1/2 et 2/2 à la génération n respectivement, avec Dn = N11/N, Hn = N12/N et Rn = N22/N. Nous supposerons ici que N (taille de la population) est très grand. Ces individus se reproduisent. Quelles seront les fréquences génotypiques à la génération suivante ?
30– Pour Dn+1 : par autofécondation (proportion s des zygotes produits), seuls les 1/1, en proportion Dn, et les 1/2, en proportion Hn, de la génération n peuvent produire des 1/1. Dans ce cas, les 1/1 qui s’autofécondent ne produisent que des 1/1 (on suppose qu’il n’y a pas de mutation) et les 1/2 ne produisent par autofécondation que ¼ de 1/1 (le reste étant ½ de 1/2 et ¼ de 2/2). Par panmixie (1 – s des zygotes), on a vu que la proportion de 1/1 produite est de p1² (la fréquence de l’allèle 1 chez les zygotes n’a pas de raison d’être différente de celle de la population). On a donc :
31Dn+1 = s [Dn + ¼ Hn] + (1 – s) p1²
32– Pour Hn+1 : seuls les hétérozygotes (Hn) peuvent produire d’autres hétérozygotes par autofécondation (s) (pour moitié, car le reste se répartit en ¼ de 1/1 et ¼ de 2/2, comme on l’a vu), et la panmixie (1 – s) en produit 2p1 p2, donc :
33Hn+1 = s [½ Hn] + (1 – s) 2p1 p2
34– Pour Rn+1 : on a la situation symétrique à celle de Dn+1, à savoir :
35Rn+1 = s [Rn + ¼ Hn] + (1 – s) p2²
36Nous avons maintenant toutes les informations nécessaires pour calculer la fréquence d’équilibre des hétérozygotes, si elle existe. À l’équilibre, plus rien ne bouge (par définition), et nous obtenons donc Hn+1 = Hn = He. Nous pouvons alors poser :
37He = s [½ He] + (1 – s) 2p1 p2 et donc
38He – s [½ He] = (1 – s) 2p1 p2, d’où
39He [1 – ½ s] = (1 – s) 2p1 p2, d’où
40et donc pour De et Re on a de la même façon :
41et
42D’après l’équation (3), on voit que si s = 0 on retrouve Hardy-Weinberg. Si s = 1, on obtient He = 0, ce qui revient à dire qu’il ne reste pas d’hétérozygotes à l’équilibre, seulement p1 1/1 et p2 2/2 (facile à vérifier avec les équations 4 et 5, sinon allez voir la réponse 3). C’est ce qui se passe par exemple chez Taenia solium (Kunz, 2002 ; De Meeûs et al., 2003). Si s est entre 0 et 1, il y aura un déficit plus ou moins important d’hétérozygotes. Il est très important de noter que la même signature de l’autofécondation est attendue à tous les loci étudiés (signature génomique).
43Le fait qu’un organisme soit hermaphrodite et puisse s’autoféconder n’implique pas nécessairement que ses populations ne soient pas panmictiques. Par exemple, en utilisant des marqueurs microsatellites, Hurtrez-Boussés et al. (2004) ont trouvé que les populations de la grande douve du foie Fasciola hepatica, plathelminthe hermaphrodite, montraient des fréquences génotypiques conformes à l’attendu sous panmixie. En panmixie, on attend en effet que 1/N des zygotes produits le soient par autofécondation (Rousset, 1996). Ce sont plutôt les organismes à sexes séparés qui ne sont jamais panmictiques entièrement (les gènes contenus dans les femelles ne peuvent s’associer qu’à ceux contenus dans les mâles). Ceci n’a vraiment d’importance que dans les petites populations. Chez les espèces dioïques ou chez les hermaphrodites auto-incompatibles, on s’attend à détecter des excès d’hétérozygotes par rapport à l’attendu sous les hypothèses de Hardy-Weinberg (Balloux, 2004). Des excès d’hétérozygotes plus ou moins prononcés sont donc attendus chez de nombreuses espèces parasites tels que les schistosomes (dioecie) ou les monogènes (monoïques largement auto-incompatibles), ce qui a en effet été documenté pour Schistosoma mansoni (Prugnolle et al., 2002).
Les croisements systématiques entre apparentés
44Chez la guêpe parasitoïde Nasonia vitripennis, la femelle pond plusieurs œufs (frères-sœurs) dans une même chenille. Ceci a tendance à favoriser les croisements entre frères et sœurs (Shuker et al., 2004). Dans certaines populations, c’est même la règle. Ce type de reproduction existe ou a existé de façon marginale dans l’espèce humaine pour certains membres de familles royales ou impériales (pharaons, rois européens). Le résultat est identique au précédent même si moins efficace (voir la figure 6). On obtient des déficits en hétérozygotes à tous les loci par rapport aux attendus sous l’hypothèse de panmixie.
L’homogamie
45Ici, les individus de même génotype préfèrent s’accoupler entre eux ou la compatibilité entre gamètes est augmentée par la ressemblance génétique. Les conséquences sont identiques à l’autofécondation sauf qu’elles ne concernent que les gènes responsables du caractère (homogamie), et ceux qui leur sont liés (auto-stop), qui voient la fréquence des hétérozygotes diminuer. S’il y a co-dominance pour le caractère (chaque génotype se reconnaît), la vitesse de perte d’hétérozygotie sera la même que pour l’autofécondation, alors que s’il y a dominance pour le caractère (les hétérozygotes et homozygotes dominants s’accouplent de leur côté et les homozygotes récessifs du leur), cette vitesse dépend des fréquences alléliques. Des caractères tels que la taille à la maturité sexuelle ou la résistance aux pathogènes ont presque toujours, au moins en partie, un déterminisme génétique. Or, il est prouvé que dans de nombreuses espèces, ces caractères conditionnent l’appariement assorti (assortative mating) des partenaires sexuels (Thomas et al., 1995).
46La figure 6 illustre une comparaison de l’efficacité, en termes de perte d’hétérozygotie, des différents régimes consanguins de reproduction décrits plus haut. Remarquons que l’autofécondation est la plus efficace, que les croisements frères/sœurs sont les moins rapides, mais rattrapent l’homogamie avec dominance sur la fin et que les plus lents sont les homogames dominants pour lesquels l’allèle dominant est le plus fréquent dans la population de départ.
L’hétérogamie
47L’auto-incompatibilité est une forme d’hétérogamie. Elle ne peut exister sans sélection fréquence-dépendante (voir p. 37). Notons qu’elle ne concerne que les loci responsables du caractère. Cependant, nous pouvons aussi envisager une relation épistatique de l’ensemble du génome sur un locus d’évitement de l’apparentement. En effet, la consanguinité peut entraîner un fardeau important, il n’est donc pas déraisonnable de penser qu’il peut être avantageux de choisir les partenaires sexuels les moins apparentés pour former des zygotes. Une descendance plus hétérozygote et donc plus variable pourrait aussi apporter un avantage face à des agresseurs (parasites). Dans ce cas, on s’attend à un excès d’hétérozygotes sur tous les loci utilisés pour cette reconnaissance. Ceci peut aussi être accompli par un biais sexe-spécifique de dispersion dans une population structurée (seuls les mâles dispersent, par exemple) (Prugnolle et De Meeûs, 2002 ; Prugnolle et al., 2003). Dans ce cas, les accouplements se font entre individus plus divergents génétiquement que s’il y avait panmixie. Cela entraîne alors, comme déjà évoqué, de légers excès d’hétérozygotes à tous les loci (Prout, 1981 ; Prugnolle et De Meeûs, 2002). Un exemple récent sur les otaries à fourrure de l’île de Géorgie (hémisphère sud) a mis en évidence un choix délibéré des femelles pour s’accoupler avec des mâles non apparentés et plus hétérozygotes1 (Hoffman et al., 2007).
La clonalité
48Par définition la clonalité, ou reproduction asexuée, ou encore parthénogenèse apomictique, reproduit à l’identique les individus qui la pratiquent. Elle ne peut donc rien changer à elle seule. Cependant, en populations finies subissant la dérive génétique, avec un taux de mutation constant, des excès d’hétérozygotes sont attendus par rapport aux fréquences génotypiques de Hardy-Weinberg à l’échelle de l’ensemble du génome et on s’attend même au bout d’un certain temps à une hétérozygotie totale, sauf pour les allèles homoplasiques (Balloux et al., 2003 ; De Meeûs et Balloux, 2005 ; De Meeûs et al., 2006 ; De Meeûs et al., 2007b ; De Meeûs, 2015).
Les générations se chevauchent
49Ce phénomène ne va pas créer une perturbation seul, mais combiné à la dérive, il va créer une hétérogénéité dans la population (effet Wahlund, voir plus loin) qui va se traduire par un déficit en hétérozygotes proportionnel à l’intensité de la dérive. Cela aura aussi tendance à minimiser certaines mesures de différenciation entre populations telles que le FST (voir plus loin). Si les générations peuvent se croiser entre elles, cela accélèrera par ailleurs la dérive génétique.
La notion de déficit en hétérozygotes, définitions
50Comme nous venons de le voir, la structure génotypique d’une population, p1², 2 p1 p2 et p2², attendue sous les hypothèses de Hardy-Weinberg, peut être altérée par certaines formes de sélection et par le système de reproduction. Il va donc y avoir d’autres fréquences génotypiques observées, Do, Ho et Ro pour les génotypes 1/1, 1/2 et 2/2 respectivement (pour le cas à deux allèles). Si on ne s’intéresse qu’aux causes dues au système de reproduction (qui affectent donc tous les loci), on voit que ce qui est perdu ou gagné par les hétérozygotes est normalement équitablement restitué aux homozygotes, comme suggéré en p. 39 équations 4 et 5 :
51Do = p1² + p1p2FIS
52Ho = 2p1p2(1 – FIS) = 2p1p2 – 2p1p2FIS = He – HeFIS
53Ro = p2² + p1p2FIS
54d’où on peut tirer que :
55où FIS représente donc le ratio d’hétérozygotie en plus ou en moins observé par rapport à l’hétérozygotie attendue (He) sous les hypothèses de Hardy-Weinberg. Ce nouveau paramètre, défini par Wright (Wright, 1965) est appelé indice de fixation (F) des individus dans les sous-populations (s) ou déficit en hétérozygotes. Il varie entre – 1 et + 1. Les valeurs négatives correspondant donc à un excès d’hétérozygotes, les valeurs positives à un déficit en hétérozygotes et une valeur nulle correspondant donc à Hardy-Weinberg. Il est intéressant de noter que – 1 ne peut être atteint que par une population où tous les individus sont hétérozygotes pour les mêmes deux allèles (par exemple, 1/2), alors que + 1 signifie seulement qu’il n’y a aucun hétérozygote, et donc tous les homozygotes que l’on veut. Il y a donc une contrainte sur les fréquences alléliques pour les FIS négatifs : pour FIS = – 1 on a donc nécessairement deux allèles avec p1 = p2 = ½.
56On peut donc exprimer les fréquences génotypiques en fonction du FIS :
57ce qui correspond aux formules généralisées de Wright.
58Nous pouvons donc calculer un déficit en hétérozygotes standardisé, indépendant des fréquences alléliques et donc comparable d’un locus à l’autre et d’une étude à l’autre. Prenons par exemple les effectifs génotypiques suivants : N11 = 15, N12 = 10 et N22 = 20, issus du génotypage allozymique d’une enzyme quelconque d’un échantillon de vers hermaphrodites prélevés dans un intestin de mammifère. En utilisant les équations (1) et (2), nous pouvons calculer les fréquences alléliques : p1 = 0,44, p2 = (1 – p1) = 0,56. D’où nous pouvons tirer, en utilisant (6) :
59Ce résultat se traduit par le fait qu’il manque 55 % des hétérozygotes attendus sous l’hypothèse de panmixie. Si on fait l’hypothèse que ce déficit vient de l’autofécondation, on peut utiliser les équations (3) et (7) pour estimer le taux d’autofécondation conduisant au FIS observé. En effet, on voit bien qu’en combinant ces deux équations, on obtient :
60D’où on tire facilement que :
61Nous avons ici un premier exemple d’inférence possible à l’aide de marqueurs moléculaires. La connaissance du déficit en hétérozygotes, en supposant que ce dernier ne vient que du régime de reproduction et qu’on est à l’équilibre génotypique, permet d’estimer la proportion d’autofécondation pratiquée par la population étudiée. Ceci a par exemple permis d’estimer ce taux d’autofécondation dans les populations de lymnées tronquées, escargot aquatique hôte intermédiaire de la grande douve du foie (s estimé entre 0,8 et 1) (Meunier et al., 2004a). Si la population n’est pas à l’équilibre génotypique, il s’agit alors de valeurs minimales nécessaires pour expliquer les fréquences génotypiques observées. Dans le cas des lymnées tronquées, cela ne change pas grand-chose d’ailleurs, car on est proche du maximum possible.
62Dans le cas de loci à plus de deux allèles, il va exister autant de FIS que d’allèles. On comprend facilement que la multiplicité des FIS ne va pas favoriser l’interprétation des processus qui conduisent aux fréquences génotypiques observées (comme le taux d’autofécondation). On peut calculer un FIS moyen sur l’ensemble des allèles. On peut faire la moyenne non pondérée, mais la méthode la plus populaire, et la meilleure à mon sens, correspond à la moyenne des FIS par allèle pondérée par le produit des fréquences alléliques pi(1 – pi). Ce type de pondération permet de donner le maximum de poids aux allèles de fréquences intermédiaires, et peu de poids aux allèles rares.
63Une mesure du FIS sur un seul locus est une entreprise hasardeuse, car il ne permet pas de mesurer à quel point c’est bien le régime de reproduction qui est responsable de ce que l’on observe ou un artefact lié au locus étudié. Plus cette mesure est faite sur un grand nombre de marqueurs, plus fiables seront les inférences qu’on en tirera. La philosophie de pondération est la même que pour le FIS multiallélique et ce sont donc les loci les plus polymorphes (qui ont le plus d’allèles aux fréquences les plus équilibrées) qui ont le plus de poids dans le calcul du FIS moyen.
64Enfin, il est plus fiable de calculer un FIS moyen sur plusieurs réplicats indépendants (échantillons), la philosophie de pondération restant la même, additionné des tailles respectives des différents échantillons si celles-ci diffèrent. Il convient alors de définir le FIS comme l’indice de fixation, ou degré relatif d’homozygotie des individus dans les sous-populations (d’où les lettres i et s en indice) provenant d’une rencontre non aléatoire des allèles pour former les individus de chaque sous-population. La formule 6 devient (Nei et Chesser, 1983) :
65où Hs représente l’hétérozygotie attendue moyenne sur l’ensemble des sites, des loci et allèles ou, plus exactement, la diversité génétique moyenne sur l’ensemble des sous-échantillons, et l’hétérozygotie moyenne observée. Cependant, afin de nous conformer aux notations et expressions modernes il nous faut maintenant exprimer cet indice en fonction des probabilités d’identité entre allèles. Soit QI la probabilité d’identité de deux allèles dans un individu à un locus prix au hasard et QS la probabilité d’identité de deux allèles pris au hasard dans deux individus de la même sous-population pour le même locus pris au hasard, alors nous avons (approximativement)
66 et QS = 1 – Hs et donc :
67qui correspond à la définition la plus générale du FIS (Rousset, 2004).
Populations structurées, effet Wahlund et statistiques F (F-statistics)
L’exemple du modèle en îles
68Les populations naturelles d’êtres vivants ne sont pas distribuées de façon homogène sur l’ensemble de la biosphère : elles sont subdivisées. Un très grand nombre de modèles de populations structurées existe. Le but de cette notice n’étant pas de passer en revue tout ce qui existe en génétique des populations (~ une dizaine de volumes de 500 pages chacun), nous nous focaliserons ici sur le modèle en îles de Wright (Wright, 1951). Nous allons supposer que la population qui nous intéresse est subdivisée en n sous-populations de taille N chacune, avec n très grand. À chaque génération, chaque population meurt en envoyant une infinité de propagules dans le milieu. Chaque sous-population est ensuite recolonisée par ces propagules avec une proportion m qui vient d’ailleurs et (1 – m) qui revient à sa population d’origine (ils n’ont pas bougé en fait). Cela revient à dire que chaque sous-population est constituée, à chaque génération, de Nm immigrants et de (1 – m)N résidents et où les immigrants proviennent de chacune des n – 1 sous-populations avec la même probabilité 1/n – 1 (elles ont toutes la même taille et les propagules tombent au hasard). Notons que cette probabilité est cependant faible (car n grand). Ce modèle est illustré dans la figure 7.
Le déficit en hétérozygotes dû à la structuration (effet Wahlund)
69Pour l’instant, on ne fait pas d’hypothèse sur le régime de reproduction, on va donc considérer que la reproduction est panmictique. Si on laisse ce système évoluer, les fréquences alléliques des différents loci vont donc évoluer également à l’intérieur des sous-populations, même si elles restent inchangées sur l’ensemble. Nous avons en effet supposé que n était très grand (n → ∞). Il n’y a donc pas de dérive à l’échelle globale. Par contre, N et m sont limités, il y a donc possibilité de dérive génétique dans chaque sous-population, comme décrit en p. 33, et interaction avec la migration. La dérive va tendre à faire diverger les fréquences alléliques entre les différentes sous-populations et la migration va tendre à homogénéiser ces fréquences. Si on admet qu’il y a panmixie dans chaque sous-population i, on va observer, sur l’ensemble du système, une hétérozygotie de :
70s’il n’y a que deux allèles dans tout le système, dont le premier à la fréquence pi dans la sous-population i.
71Sur l’ensemble, la fréquence de cet allèle sera donc égale à la moyenne des fréquences trouvées sur l’ensemble des sous-populations :
72Sur l’ensemble encore, on peut également calculer la fréquence des hétérozygotes attendus sous l’hypothèse d’une panmixie globale :
73On peut alors calculer un déficit global en hétérozygotes :
74En utilisant (11) et (13), on obtient pour (14) :
75d’où
76en simplifiant et en développant :
77et donc en utilisant (12) :
78ce qui donne enfin :
79L’équation (15) peut également s’écrire (veuillez vous référer à la réponse 4 si vous ne voyez pas pourquoi) :
80Il s’agit donc du rapport entre la moyenne du carré des écarts à la moyenne (si cela ne vous rappelle rien, reportez-vous à la réponse 5) et la valeur que prend cette moyenne des carrés des écarts à la moyenne quand toutes les sous-populations sont fixées pour l’un ou l’autre des allèles (à vérifier en réponse 6). Dans le cas de deux allèles, cela veut dire qu’on a sous-populations fixées pour l’allèle 1 et 1 – pour le 2. Nous avons donc :
81Cette valeur est nécessairement toujours positive et correspond donc à un déficit en hétérozygotes dû au fait que l’on calcule le FIS en réunissant des individus qui n’appartiennent pas aux mêmes unités. On voit bien dans les équations (14), (15) et (16) que si les sous-populations partagent les mêmes fréquences alléliques (variance nulle), ce déficit est nul (pas de déviation par rapport à Hardy-Weinberg), alors que dans les autres cas il est positif, et ce d’autant plus que les fréquences alléliques diffèrent entre sous-populations, jusqu’à une valeur maximale de 1 quand chaque sous-population est fixée pour un des allèles présents (variance maximale). On appelle ce phénomène l’effet Wahlund (Wahlund, 1928), c’est-à-dire le déficit en hétérozygotes dû à la structuration de la population. Ce déficit en hétérozygotes correspond en fait au FST de Wright (1965), dont la formule en fonction des hétérozygoties et diversités géniques (Nei et Chesser, 1983) est la suivante :
82où HT correspond à l’hétérozygotie attendue si tous les individus de toutes les sous-populations se croisaient au hasard (panmixie globale) et Hs correspond à l’hétérozygotie moyenne attendue si les individus se croisaient au hasard à l’intérieur de chaque sous-population (panmixie locale). En fait pour le cas le plus général, HT et Hs correspondent respectivement à la diversité génique de la population totale et à celle trouvée au sein des sous-populations (moyennée sur l’ensemble).
Les statistiques F de Wright (1965)
Définitions classiques
83Il est possible que les sous-populations de notre modèle en îles ne soient pas panmictiques. Dans ce cas, le déficit en hétérozygotes global résultera de deux effets : l’effet Wahlund et l’effet des croisements non aléatoires dans les sous-populations. On aura alors (Nei et Chesser, 1983) :
84Nous pouvons ainsi définir les trois statistiques F de Wright (ou indices de fixation de Wright). Le FIS (I pour individu et S pour sous-population) mesure la consanguinité des individus eux-mêmes relativement à la consanguinité entre individus d’une même sous-population (parenté). C’est aussi une mesure de la part d’homozygotie qui provient d’une déviation par rapport au régime de reproduction panmictique idéal dans les sous-populations (rencontre au hasard des gamètes dans chaque sous-population), on dit souvent aussi que le FIS mesure le déficit en hétérozygotes local moyen (sur l’ensemble des sous-populations). Le FST correspond à la consanguinité entre individus d’une même sous-population relativement à la consanguinité entre sous-populations de la population totale. Il mesure l’effet Wahlund (ou structuration des populations), c’est-à-dire la part d’homozygotie des individus de la population totale (d’où l’indice T) provenant de la subdivision de ces derniers en sous-populations de tailles limitées (indice S), on dit aussi qu’il mesure la différenciation génétique entre sous-populations. Enfin, le FIT mesure l’homozygotie des individus de la population totale résultant des deux phénomènes précédents :
85À partir des équations (19), il est facile d’obtenir la relation classique (au moins pour les personnes ayant déjà entendu parler de génétique des populations structurées) :
86(1 – FIT) = (1 – FIS)(1 – FST) (20)
87Il n’est pas inintéressant de préciser que ces indices de fixation mesurent également, à un certain degré, la consanguinité des individus, celle due au nombre restreint de partenaires dans des sous-populations isolées et de tailles finies (FST) et celle due aux déviations par rapport à un régime panmictique de reproduction (FIS).
88Comme nous l’avons vu, le FIS varie de – 1 à 1 (voir p. 43). Le FST varie de 0 (pas de structuration) à 1 (toutes les sous-populations sont fixées pour l’un ou l’autre des allèles). Le FIT, tout comme le FIS, varie entre – 1 et 1.
89Nous pouvons, pour finir, remarquer que, pour un modèle en îles infini et deux allèles, nous avons démontré avec l’équation (16) que :
90ce qui correspond à la définition originelle du FST (Wright, 1965) restée assez populaire pour qu’on la trouve encore dans de nombreuses publications et ouvrages spécialisés.
Définitions en fonction des probabilités d’identité
91Maintenant, notons QI la probabilité d’identité de deux allèles d’un même locus au sein d’un même individu pris au hasard, QS la probabilité de tirer deux allèles identiques d’un même locus de deux individus différents de la même sous-population et QT la probabilité de tirer deux allèles identiques de deux individus de deux sous-populations différentes pris au hasard. Nous pouvons alors donner les formules généralisées des statistiques F pour un degré 3 de subdivision (individu, sous-population et total) (Rousset, 2004) :
92En partant du système d’équations (21), nous pouvons également constater que le FST varie entre FST = 0, quand l’identité génétique entre individus est indépendante de la sous-population où ces individus résident (absence de différenciation génétique entre sous-populations), et FST = 1, quand tous les individus résidant dans la même sous-population sont génétiquement identiques (QS = 1), mais ne sont pas nécessairement identiques à ceux résidant dans d’autres sous-populations (QT < 1). Par conséquent, FST = 1 signifie une indépendance complète des sous-populations (et donc des individus qui les composent) entre elles, ce qui est attendu si ces sous-populations sont restées isolées les unes des autres pendant une durée suffisamment longue. Le FIT varie entre FIT = – 1, quand tous les individus de la population totale sont hétérozygotes pour les deux mêmes allèles et FIT = 1 quand tous les individus sont homozygotes avec au moins deux allèles dans la population totale.
93Quand la probabilité d’échantillonner deux allèles identiques d’un même locus sur l’ensemble de la métapopulation devient indépendante de la localité d’origine et des individus d’où l’on peut les tirer, alors QI = QS = QT et une conformité globale aux proportions attendues sous Hardy-Weinberg est observée avec FIS = FST = FIT = 0.
Inférer Nm à partir du FST dans un modèle en îles
94Nous avons vu précédemment qu’en utilisant les conséquences analytiques de l’autofécondation, nous pouvions estimer un taux possible d’autofécondation à partir de la connaissance du FIS (équation 8). Nous allons voir maintenant que la connaissance d’un FST peut permettre l’inférence du nombre d’individus migrants (le produit Nm) dans une sous-population si cette dernière fait partie d’un modèle en îles. Dans un modèle en îles infini composé de sous-populations panmictiques, la probabilité d’identité entre deux allèles pris au hasard entre deux sous-populations est nulle. En effet, si le nombre de sous-populations n est suffisamment grand, cette probabilité est proportionnelle à 1/(n – 1) qui tend vers 0. Ceci conduit naturellement à ce que FST = QS, la probabilité d’identité entre allèles d’individus résidant dans la même sous-population (voir l’équation 21). Soit QS(t) cette probabilité à une génération quelconque t. La proportion d’allèles non identiques dans chaque sous-population est donc égale à (1 – QS(t)). À t + 1, la proportion d’allèles identiques se verra augmentée par les allèles échantillonnés deux fois parmi ceux différents au temps t. Sachant que la probabilité d’échantillonner deux fois le même allèle parmi les 2N existants est égale à (1/2N)², et qu’il faut répéter l’opération 2N fois pour construire une sous-population, on a donc 1/2N chances de prélever deux fois le même allèle parmi les (1 – QS(t)) qui diffèrent au temps t. L’accroissement de la probabilité d’identité dans les sous-populations sera donc de (1 – QS(t))/2N et, si on ignore la migration, nous aurons QS(t+1) = QS(t) + (1 – QS(t))/2N. Avec la migration, cette probabilité ne reste valable que pour les paires d’allèles non migrants, avec la probabilité (1 – m)², car les immigrants ne peuvent être identiques à personne (QT ≈ 0). En tenant compte de l’ensemble de ces informations, et en espérant que les lecteurs ne sont pas encore entièrement perdus, nous pouvons poser qu’à la génération t + 1 :
95À l’équilibre entre migration et dérive, nous aurons :
96ce qui donne :
97Ici, nous pouvons supposer que m est suffisamment petit pour pouvoir le négliger en face de 1. Si alors nous remplaçons QS par FST, nous pouvons retrouver la formule classique :
98De cette équation, il est facile d’extraire la non moins fameuse égalité Nm = (1 – FST)/4FST.
99Nous pouvons introduire ici le fait que si les allèles sont affectés par un taux de mutation constant u, correspondant au modèle IAM, alors l’équation (23) devient :
100En partant de l’équation (24), il est très facile de constater que pour des loci soumis à de forts taux de mutation et donc très polymorphes, la valeur maximale du FST ne pourra jamais atteindre la valeur 1, même quand m = 0. Cela signifie également qu’un petit FST peut être obtenu dans des populations très structurées (Nm petits) si les loci utilisés sont très polymorphes (beaucoup d’allèles, taux de mutation élevé). Il existe une méthode simple pour se rendre compte de ce phénomène, comme nous le verrons plus loin (en p. 62).
101Pour obtenir l’équation (24), nous avons également fait l’hypothèse d’un nombre infini d’allèles possible (IAM). Il se peut cependant que le modèle de mutation s’écarte fortement de cet idéal, ce qui peut altérer les valeurs d’équilibre des statistiques F (Rousset, 1996). Dans le cas d’un KAM, Rousset (1996) montre que les statistiques F attendues sont les mêmes que pour un IAM, mais avec un taux de mutation augmenté de K/(K – 1). Pour l’équation (24), cela donnerait :
102D’une manière très analogue, dans le cas d’un modèle en îles fini (nombre d’îles n petit), on montre que l’équation (23) devient (toujours pour m petit) (en partant par exemple de Rousset, 1996) :
103Il est également utile de remarquer que les équations (23) et (24) sont obtenues sous l’hypothèse d’un modèle en îles infini à l’équilibre entre migration, mutation et dérive. Relâcher ces hypothèses peut alors fortement limiter nos capacités d’inférences sur le nombre effectif de migrants (Whitlock et McCauley, 1998). Ainsi, l’estimation du Nm à partir du FST n’est bien souvent qu’un « équivalent modèle en îles ». C’est aussi pour ce genre de problèmes que d’autres types de modèles de populations structurées ont été imaginés.
Pertinence du modèle en îles
104Le modèle en îles n’a pas que l’avantage de simplifier les analyses mathématiques. Ce modèle est en effet conforme, même approximativement, à certaines structures de populations réelles. Dans le milieu marin, par exemple, il est probable que ce modèle reflète le cycle de nombreux types d’organismes fixés et à dispersion importante comme les bivalves, les échinodermes, les crustacés ou les algues, mais aussi de nombreux parasites tels que les crustacés parasites (copépodes, cirripèdes, isopodes, amphipodes) et autres monogènes (De Meeûs, 2000), ou même les parasites en général si on considère l’individu hôte comme une sous-population et que ces individus hôtes sont suffisamment mobiles (Nébavi et al., 2006). Malgré un aspect très caricatural, le modèle en îles représente donc un outil souvent efficace pour étudier les populations naturelles, notamment de parasites.
Autres modèles de populations structurées
105Il existe d’autres modèles de populations structurées qui permettent d’étudier les conséquences génétiques d’autres contraintes de subdivision que celles décrites par le modèle en îles. Ces modèles font intervenir une composante géographique où l’éloignement des sous-populations et/ou des individus va influencer les probabilités d’échanges de gènes et/ou d’individus (flux de gènes et/ou d’individus). En termes de migration formelle, ceci peut se traduire par un schéma discontinu de migration comme pour les modèles en pas japonais (stepping stone models) (Kimura et Weiss, 1964 ; Slatkin, 1985). Le modèle de diffusion peut être continu dans le cas de modèles en voisinage (neighbourhood models) (Wright, 1965 ; Rousset, 2000 ; Leblois et al., 2004).
106Ces modèles de populations peuvent se présenter en une dimension, comme dans le cas d’espèces inféodées à un écotone bien défini (écosystèmes côtiers, bordures de chemins, de routes de forêts, etc.), deux dimensions (paysage quelconque) ou trois dimensions (milieux aquatiques, forestiers, etc.). La figure 8 illustre ces différentes possibilités pour un modèle en stepping stone. Dans cette figure, les migrants ne peuvent passer que d’une population directement adjacente à l’autre. Il existe également des modèles mixtes entre stepping stone et modèle en îles (voir Hartl et Clark, 1989 : 317-318). Enfin, le problème des individus ou sous-populations marginales (en situation de bordure) est souvent résolu par la connexion entre elles de ces bords libres, aboutissant à l’établissement d’un cercle (modèles en une dimension) ou d’un tore (modèle en deux dimensions).
107Dans de telles configurations de populations, plutôt que d’étudier un FST global, il est plus informatif d’examiner la corrélation qui relie les distances génétiques avec les distances géographiques séparant les paires d’individus ou de dèmes (Rousset, 1997, 2000).
Estimateurs non biaisés des statistiques F
108Les définitions présentées dans les équations (19) et (21) correspondent aux définitions paramétriques des F de Wright. Dans la réalité, le nombre de sous-populations et le nombre d’individus échantillonnés par sous-population sont tous les deux limités. Le génotypage d’individus sur plusieurs marqueurs génétiques ne peut se faire que sur quelques sous-populations et sur un échantillon d’individus de ces sous-populations.
109Nous pouvons ici faire un petit rappel de statistiques de base. Pour un échantillon de taille n où on mesure un caractère variable x dont la moyenne est , la variance aura la forme :
110si et seulement si on a échantillonné et mesuré x sur tous les individus de la population. On aura alors une mesure paramétrique de la variance.
111Dans le cas contraire, on doit appliquer la formule d’estimation de cette variance à partir de notre échantillon de taille n :
112Ceci vient du fait que pour calculer la moyenne, nous avons utilisé toute l’information concernant la somme des xi. Par conséquent, quand on procède à la somme des et que l’on arrive au (n – 1)ème terme, on a déjà toute l’information, le nème terme apporte une information redondante. C’est pour cela que l’on divise par n – 1 (degré de liberté). Si on divise par n au lieu de (n – 1), on sous-estime la variance (estimation biaisée). On voit bien que plus n augmente, moins le biais est important.
113Pour les F de Wright, que l’on peut faire correspondre à des rapports de variance, le même type de phénomène se rencontre. Imaginons par exemple que je suis très paresseux et que je n’échantillonne qu’un individu par sous-population. Dans ce cas, j’aurais un individu soit homozygote, soit hétérozygote dans chacune de mes sous-populations. Je ne peux calculer alors un FIS que dans les sites polymorphes, c’est-à-dire ceux où j’ai trouvé un hétérozygote, avec p1 = p2 = 0,5. En appliquant l’équation (19) on calcule :
114Le biais est ici énorme : on sous-estime le déficit de 100 % puisque, en effet, on ne peut s’attendre à rien d’autre que cette valeur de – 1, qui bien évidemment n’a pas d’autre sens.
115L’estimation non biaisée des paramètres F est beaucoup plus complexe que pour une simple variance. Les estimateurs f, θ et F de Weir et Cockerham (Weir et Cockerham, 1984) sont des estimateurs non biaisés des FIS, le FST et le FIT de Wright respectivement. Ils sont issus d’un modèle d’analyse de variance hiérarchique (nested analysis of variance) des fréquences alléliques dans les individus des sous-populations, entre individus des sous-populations et entre sous-populations. En reprenant les notations originales, les estimateurs de Weir et Cockerham dépendent donc de et qui sont les composantes inter dèmes (among sub-populations, a), entre individus de chaque sous-population (between individuals, b) et intra-individuelle (within individuals, w) de la variance des fréquences alléliques. À partir de là, on peut exprimer les différents estimateurs sous la forme :
116Le calcul de ces composantes s’effectue à partir de la table d’analyse de variance hiérarchique similaire à celle présentée dans le tableau 2.
117Il s’agit ensuite de calculer les carrés moyens des fréquences d’allèles de l’échantillon pour obtenir, avec les carrés moyens attendus, un système de trois équations à trois inconnues permettant de déduire les différentes composantes de la variance des fréquences alléliques. Cela est possible en s’aidant d’un ouvrage traitant en détail de l’analyse de variance hiérarchique (nested en anglais) (Sokal et Rohlf, 1981). Si nous considérons le cas d’un locus à deux allèles (1 et 2), l’étude de la variation allélique se fait alors sur un seul allèle (l’allèle 1) qui prend la valeur α = 1 ou α = 0 quand il est présent ou absent. Nous avons besoin ensuite de calculer les sommes des carrés des quantités de l’allèle dans chaque chromosome de chaque individu (SS1), des individus (SS2), des sous-échantillons (SS3) et de l’échantillon total (SS4). Notons NT11 le nombre d’homozygotes pour l’allèle 1, NT12 celui des hétérozygotes et NT22 celui des homozygotes pour l’absence de cet allèle dans l’échantillon total. De même, considérons Ni11 le nombre d’homozygotes pour l’allèle 1, Ni12 celui des hétérozygotes et Ni22 celui des homozygotes pour l’absence de cet allèle dans l’échantillon i. Sachant que la quantité mesurée α prend la valeur 0 ou 1 et en supposant une espérance uniforme des hétérozygoties de chaque sous-population, nous pouvons poser2 :
118Du système d’équations (30), on peut tirer (en détaillant au maximum) :
119Du système (31) on déduit :
120À partir de ces sommes de carrés, nous pouvons ensuite calculer les composantes intra-individuelles (w), interindividuelles (b) et inter-sous-échantillons (a) des sommes de carrés de cette quantité α, soit SSw, SSb et SSa respectivement :
121c’est-à-dire les contributions respectives de ces différents niveaux à la variance des fréquences alléliques. Des systèmes d’équations (33) et (32), on peut obtenir :
122Toujours en détaillant sensiblement, nous déduisons du système d’équations (34) :
123d’où on tire :
124Nous pouvons enfin obtenir les moyennes de ces sommes de carrés en les divisant par leur degré de liberté respectif et ainsi obtenir le système d’équations à trois inconnues :
125On a donc :
126ce qui donne :
127La combinaison des systèmes d’équations (39) et (29) permet d’obtenir les estimateurs des différentes statistiques F dans le cas de figure présenté.
128Ceux qui souhaiteraient plus de détails sont invités à consulter la bibliographie correspondante, car je n’entrerai pas plus dans les détails ici étant donné que ces estimateurs sont calculés par la plupart des logiciels disponibles tels que Fstat 2.9.3 (Goudet, 2002) téléchargeable gratuitement à http://www.unil.ch/izea/softwares/fstat.html (voir Goudet, 1995), Genetix 4.03 (Belkhir et al., 2004) téléchargeable gratuitement à http://www.univ-montp2.fr/~genetix/genetix/genetix.htm, ou encore Genepop 3.4 (Raymond et Rousset, 2003) téléchargeable gratuitement à http://wbiomed.curtin.edu.au/genepop/ (voir Raymond et Rousset, 1995b), Genepop 4 (Rousset, 2008) (http://kimura.univ-montp2.fr/~rousset/Genepop.htm) ou la version web du logiciel (http://genepop.curtin.edu.au/).
129Il est cependant nécessaire de signaler que si f et F varient entre – 1 et 1, tout comme les paramètres qu’ils estiment FIS et FIT, θ, quant à lui, varie entre – 1 et 1, alors que le paramètre qu’il estime, FST varie entre 0 et 1. L’estimateur du FST peut prendre des valeurs négatives, car sous l’hypothèse d’absence de structuration, θ, puisqu’il est non biaisé, doit être centré sur 0, valeur attendue sous l’hypothèse d’absence de structuration génétique. Des valeurs très négatives de θ correspondront à des configurations particulières où les sous-échantillons sont plus proches génétiquement que ce qui est attendu par variance d’échantillonnage. En effet, si on échantillonne deux fois dans la même population, on aura peu de chances d’échantillonner exactement le même nombre d’individus de chaque génotype dans chacun des deux échantillons. Il s’ensuit une différence aléatoire (variance d’échantillonnage) prise en compte par θ, dont l’espérance mathématique est centrée sur 0. Il est enfin utile de préciser que, pour plus de deux allèles, l’estimateur moyen pondère par construction les valeurs obtenues pour chaque allèle par le facteur (variance maximale possible dans l’équation 39), ce qui donne le maximum de poids aux allèles dont la fréquence est la moins proche de 0 et 1. Étant donné que les estimateurs moyens sur plusieurs loci et/ou plusieurs sous-échantillons suivent la même logique, ce sont les loci et/ou les sous-échantillons les plus polymorphes qui auront le plus de poids. D’autres méthodes de pondération existent. En particulier, celle proposée par Robertson et Hill (1984) a connu un certain succès pour ses propriétés statistiques (Goudet et al., 1996 ; Rousset et Raymond, 1995). Ici, une pondération différente est implémentée. Si les estimateurs de Weir et Cockerham et Robertson et Hill sont notés avec les indices WC et RH respectivement, nous obtenons pour K allèles noté de A = 1 à K :
130pour les estimateurs de Weir et Cockerham où nous savons que les termes contiennent une pondération inhérente donnant davantage de poids aux allèles dont la fréquence est la plus proche de 0,5, et :
131pour les estimateurs de Robertson et Hill qui donnent un poids maximal aux allèles les plus rares (pondération par 1 – pA). Les estimateurs de Weir et Cockerham sont non biaisés, mais sujets à une variance importante, alors que ceux de Robertson et Hill sont biaisés, mais beaucoup moins variables pour de faibles valeurs des F (Rousset et Raymond, 1995 ; Raufaste et Bonhomme, 2000), ce qui leur confère un avantage statistique certain (voir plus loin).
132Les estimations multilocus tiennent également compte du polymorphisme des loci (les plus polymorphes auront en principe le plus de poids) et du nombre d’individus génotypés (par toujours le même nombre par locus), de même que les estimations multi-échantillons (pour le FIS).
Mesures de différenciation génétique alternatives au FST
Les R-Statistiques
133Dans le cas des microsatellites, si la mutation suit strictement un SMM (voir p. 34), il peut alors être plus approprié d’utiliser des mesures qui tiennent compte de la taille des allèles. Pour évaluer la différenciation entre sous-populations, Slatkin (1995) a proposé le RST dont la mesure tient compte de la taille des allèles, des allèles de taille proche ayant plus de chances d’avoir un ancêtre commun proche. Ces statistiques sont estimées d’une façon équivalente aux estimateurs de Weir et Cockerham (1984), sauf que ce sont les tailles des allèles et non leurs fréquences qui sont utilisées (Slatkin, 1995 ; Rousset, 1996 ; Michalakis et Excoffier, 1996). Le même principe peut être appliqué au FIS (Rousset, 1996). Ces statistiques s’avèrent peu appropriées si le modèle de mutation dévie un peu du schéma idéal d’un SMM et sont de toutes manières sujettes à de trop fortes variances d’estimation. En règle générale, on préfère utiliser les estimateurs de Weir et Cockerham (1984) (Balloux et al., 2000 ; Balloux et Goudet, 2002).
Le FST maximum possible
134Dans le cas de marqueurs génétiques hypervariables comme les microsatellites, la valeur maximale du FST ne sera pas 1, car il y a plus d’allèles que de sous-échantillons (voir l’équation 24). Donc même si aucun sous-échantillon n’a d’allèle en commun (différenciation maximale possible), le FST pourra être de valeur modeste (Hedrick, 1999). Pour pallier ce problème, Hedrick (1999, 2005) propose une méthode simple pour visualiser de combien le FST observé est éloigné de sa valeur maximale que l’on observerait sans migration entre sous-populations. Dans une telle situation, et si le nombre de dèmes est assez grand, nous savons par l’équation (21) que QT = 0 (probabilité d’identité entre individus de dèmes différents) et que le FST est alors égal à Qs = 1 – Hs = FSTmax, où Hs est l’estimateur non biaisé de la diversité génétique de Nei (Nei et Chesser, 1983). On peut ensuite diviser la valeur observée dans les données par cette valeur maximale afin d’avoir une meilleure appréciation (et non pas une mesure exacte) du flux de gènes échangé entre les sous-populations échantillonnées FST’= FST/FSTmax. Une alternative pour calculer ce FSTmax consiste en un recodage des allèles de telle sorte que les diversités locales restent les mêmes dans chaque sous-échantillon, mais aucun allèle en commun n’est partagé et chaque sous-échantillon montre des allèles uniquement présents chez lui (Meirmans, 2006). De mon expérience, les deux méthodes donnent des résultats très proches. Une autre méthode plus récente existe (Meirmans et Hedrick, 2011) mais elle n’est pas applicable dans toutes les situations (Wang, 2015) (cf. annexe 1, 10.1).
Différenciation génétique par paire d’échantillons ou d’individus
135Il existe fréquemment des situations où la différenciation génétique doit être appréciée entre paires de populations ou même d’individus. Plusieurs possibilités s’offrent à nous. Le FST peut bien entendu être utilisé, mais il a été montré que dans cette configuration, il est loin d’être le plus performant (Rousset, 1997 ; Balloux et Goudet, 2002). L’empiriste avisé préférera l’utilisation d’autres outils, à choisir en fonction de la question posée. Si un isolement par la distance est recherché, l’utilisation de FST/(1 – FST) ou son estimateur θ/(1 – θ) est recommandée par Rousset (1997). Nous verrons plus loin que ce nouvel estimateur est surtout utile pour inférer les paramètres démographiques de la population investiguée. Dans les autres situations, la distance de corde (chord distance) de Cavalli-Sforza et Edwards (Cavalli-Sforza et Edwards, 1967) donne de meilleurs résultats (Takezaki et Nei, 1996 ; Kalinowski, 2002). Cette distance est obtenue suivant la formule suivante :
136où r correspond au nombre de loci, j au label du locus (de 1 à r), i au label de l’allèle (de 1 à mj), mj au nombre d’allèles au locus j, xij et yij les fréquences de l’allèle i au locus j pour les sous-populations x et y respectivement.
137Quand c’est la distance génétique entre individus qui est pertinente, il semble plus approprié d’utiliser la distance d’allèles partagés (shared allelic distance) (Bowcock et al., 1994) (voir Prugnolle et al., 2005). Si Nsa correspond au nombre d’allèles en commun partagés par deux individus sur l’ensemble des L loci, alors cette distance est égale à Dsa = 1 – Nsa/2L. Il existe d’autres mesures (comme l’apparentement) que nous verrons lors des analyses de données réelles. Il est certain que nous manquons de recul pour appréhender quelles mesures sont vraiment les meilleures et dans quelles situations.
Espèces haploïdes et loci liés au sexe
138Certaines espèces sont haploïdes durant une certaine période (voire la totalité) de leur cycle de vie. Il se peut qu’elles soient étudiées (échantillonnées) durant cette phase. Bien entendu, il ne saurait être question d’étudier des hétérozygoties chez de telles espèces. Il n’en reste pas moins que des études de génétique des populations demeurent possibles, et en particulier le calcul de différenciation entre populations (FST). Selon le logiciel d’analyses étudié, il suffit juste de coder les données d’une manière spéciale (en général, on code les individus homozygotes à tous les loci).
139Certaines espèces ont une reproduction sexuée avec des sexes séparés (espèces dites dioïques ou gonochoriques). Chez ces dernières, il peut arriver que le déterminisme du sexe soit chromosomique. Dans ce cas, l’un des deux sexes est déterminé par la possession de deux chromosomes identiques, alors que le second sexe est déterminé par une hétérogénéité à ce niveau, d’où le terme hétérogamétique qualifiant ce dernier. Dans le sexe hétérogamétique, un chromosome détermine le sexe (chromosome Y, ou chromosome W), il n’y aura en général que très peu de gènes et rarement les mêmes loci que sur l’autre chromosome. Dans certains cas, c’est même son absence qui détermine le sexe (mâles X0, par exemple). Il y aura donc, pour les individus hétérogamétiques, haploïdie de fait pour les loci situés sur les chromosomes sexuels (en général donc sur l’X ou le Z). Les mammifères et les drosophiles (Chippindale et Rice, 2001) ont par exemple un déterminisme du sexe XY (femelles XX et mâles XY). C’est également le cas de la plupart des tiques Argasidae et Ixodes (Kiszewski et al., 2001). Les oiseaux ont, quant à eux, un déterminisme du type ZW/ZZ (femelles ZW). C’est également ainsi que le sexe est déterminé chez les schistosomes (Hirai et LoVerde, 1995). Chez certaines espèces de nématodes (Šnabel et al., 2000), chez la plupart des tiques des genres Dermacentor, Amblyomma et Rhipicephalus et l’espèce Ixodes holocyclus (Kiszewski et al., 2001) ainsi que chez certains pucerons (Caillaud et al., 2002) le système est du type XX (femelles) et X0 (mâles). Dans ces cas, ces loci sont tout de même utilisables en ce qui concerne les études de différenciation ou de diversité génique (selon le logiciel d’analyse, on les code homozygotes) sauf pour l’estimation de FIS, pour laquelle les données à ces loci doivent bien évidemment être éliminées (codées en données manquantes). C’est ce qui a été fait pour la tique Ixodes ricinus (De Meeûs et al., 2002a) ou pour les mouches tsé-tsé (Camara et al., 2006 ; Ravel et al., 2007). Il est cependant clair que ce n’est pas idéal et l’utilisation de loci autosomaux devrait idéalement être favorisée.
Le problème de l’homoplasie
140Comme nous l’avons déjà vu, les marqueurs génétiques polymorphes dont nous avons besoin pour analyser nos populations naturelles correspondent rarement à des loci à nombre infini d’allèles. C’est par exemple le cas des allozymes pour lesquels un grand nombre de mutations différentes sont confondues dans un seul allèle. C’est aussi vrai pour les microsatellites les plus polymorphes, de par les contraintes issues du mécanisme mutationnel de ces séquences particulières d’ADN, beaucoup d’allèles sont identiques par état sans être identiques par descendance (ou ascendance en fonction de la direction vers laquelle nous regardons). On parle alors d’homoplasie. Pour certains, ce phénomène est rédhibitoire en génétique des populations. Tout d’abord, en ce qui concerne le FIS, il a été démontré que ce dernier est virtuellement indépendant du processus de mutation (Rousset, 1996). En ce qui concerne les mesures de différenciation, nous avons vu avec l’équation (25) que le biais du FST est proportionnel à K/(K – 1) quand K est le nombre d’allèles possibles. Ce biais est donc faible pour des nombres raisonnables d’allèles. La figure 9 illustre bien la modestie de l’influence de l’homoplasie sur les paramètres courants utilisés en génétique des populations.
141Cette influence, quasi nulle sur le FIS (notez la faiblesse de l’échelle), devient rapidement négligeable dès que le nombre d’allèles possibles dépasse 5, voire même 2 quand les taux de mutation sont au-dessous de 10-4. Si on ajoute que les variances des estimateurs de ces paramètres sont telles qu’il n’est pas raisonnable d’espérer une précision en deçà de deux décimales, l’homoplasie n’est absolument pas un problème pour le FIS et donc pour les inférences liées au système de reproduction, et ne représente qu’un problème modeste pour le FST dans les cas à deux allèles et pour des taux de mutations incompatibles avec ce type de marqueurs. Donc, si les loci homoplasiques sont bien évidemment à éviter pour toute étude phylogénétique ou assimilée, il n’y a aucune raison valable de les écarter pour des études de génétique des populations.
Structuration à plus de trois niveaux
142La situation classique à trois niveaux, individus, sous-population, population totale ne correspond bien évidemment pas à tous les cas de figure. Il peut, par exemple exister plus de niveaux. Si j’échantillonne plusieurs parasites par individu hôte, avec plusieurs hôtes dans plusieurs habitations de plusieurs villages, on voit bien que l’on peut avoir autant de niveaux pertinents de structuration potentiels. On peut alors subdiviser l’échantillon en autant de sous-échantillons qu’il est nécessaire en supprimant l’influence des niveaux potentiellement confondants. Par exemple, l’effet individu hôte peut être étudié en considérant chaque habitation séparément et en calculant un FST, alors que l’analyse de l’effet habitation se fera dans chaque village (séparé) en ne gardant les parasites que d’un seul individu hôte par habitation, en calculant de nouveau un FST et en regardant de combien celui-ci est différent du précédent. Cette tâche devient rapidement irréalisable et de toutes façons assez contestable, car il existe une solution beaucoup plus élégante. Le logiciel HierFstat (Goudet, 2005, disponible à http://www2.unil.ch/popgen/softwares/hierfstat.htm) offre la possibilité d’estimer les F hiérarchiques pour toute structure hiérarchisée de population et ce en une seule analyse, comme cela a été utilisé avec profit dans Trouvé et al. (2005) ou Nébavi et al. (2006). Dans notre exemple, on aurait donc obtenu FParasites_Hôte, FHôte_Habitation, FHabitation_Village, FVillage_Total. Ces différents F sont calculés et estimés suivant des principes analogues à ceux décrits en (21) et (40) et donnent donc les parts respectives des différents niveaux hiérarchiques dans la partition de la variation génétique. Par exemple, FHabitation_Village donne la différenciation génétique entre habitations dans chaque village en corrigeant pour l’effet individu hôte.
143Ceci est plus important qu’il n’y paraît. S’il y a un effet significatif de l’individu hôte et que les parasites de ces derniers sont confondus, le calcul d’un FST entre habitations sera nécessairement biaisé, car l’effet individu hôte y sera nécessairement inclus (les habitants de différentes habitations sont différents).
Probabilités (ou indices) d’assignement
144Le génotype multilocus d’un individu peut permettre de calculer la probabilité avec laquelle cet individu appartient à une sous-population donnée (Rannala et Mountain, 1997 ; Waser et Strobeck, 1998 ; Cornuet et al., 1999). Cette probabilité correspond alors simplement à la probabilité multinomiale attendue d’observer un génotype particulier compte tenu des fréquences des allèles dans la sous-population. La précision de cette probabilité dépend nécessairement de celle avec laquelle les fréquences alléliques sont estimées et donc de la taille de l’échantillon. Idéalement, la mesure devrait être effectuée à partir d’au moins 30 individus génotypés sur au moins 10 loci variables dans chaque sous-population. Cette probabilité est conventionnellement appelée indice d’assignement. Un individu présentant une faible valeur correspondra probablement à un immigrant récent. En comparant l’indice d’un individu pour différentes populations, on peut aussi essayer de détecter sa population d’origine, pour autant que cette population ait été échantillonnée bien entendu.
145On peut aussi analyser ces indices pour détecter des individus parasites mieux adaptés à telle ou telle autre espèce d’hôte (races d’hôte) en comparant les indices d’assignement des individus parasites aux différentes espèces hôtes sur lesquelles ils ont été prélevés ainsi qu’aux différentes localités de prélèvements où les échantillons ont été effectués (voir par exemple McCoy et al., 2005). On utilise également ces indices pour étudier des catégories d’individus (femelles versus mâles, hôtes parasités versus sains).
146L’indice d’assignement (AI) (Paetkau et al., 1995) d’un individu k échantillonné dans une population l correspond à la probabilité que ce génotype soit retrouvé par chance dans cette population l, compte tenu des fréquences alléliques dans cette population (fréquences calculées en y incluant l’individu focal). Pour un locus donné, si les fréquences des allèles i et j dans la population l sont pi et pj respectivement, la probabilité d’appartenir à cette population est de pour les homozygotes et 2pilpjl pour les hétérozygotes. Les probabilités obtenues pour chaque locus (pl) doivent être multipliées entre elles pour obtenir sur l’ensemble des L loci.
147D’autres méthodes permettent de calculer un indice d’assignement. Par exemple, Piry et al. (2004) utilisent une méthode bayésienne, avec exclusion de l’individu focal.
148Par ailleurs, on peut ne pas souhaiter comparer des populations, mais plutôt des catégories d’individus dans les populations. On peut se demander par exemple si les hôtes parasités sont plus ou moins bien assignés que les sains, ce qui refléterait une modification du comportement des individus sous l’effet du parasitisme. On peut désirer savoir si les individus mâles ont le même comportement que les femelles. Il est alors intéressant de s’affranchir du biais imposé par le degré de polymorphisme contenu dans chaque sous-population. On utilise alors une version centrée de AI (AIc) en retranchant de AI la moyenne de la population, après transformation Log (pour minimiser l’impact des trop petites valeurs) (Favre et al., 1997). Il en résulte que l’AIc moyen de chaque sous-échantillon est centré sur 0 et que les individus avec un AIc négatif correspondent à des individus moins bien assignés à leur population d’origine que la moyenne des individus échantillonnés sur place. Cette dernière méthode est celle que l’on trouve dans Fstat 2.9.3. (Goudet, 2002) alors que celle de Piry et al. peut être trouvée dans GeneClass 2 (Piry et Alapetite, 2003) téléchargeable à http://www.montpellier.inra.fr/URLB/.
149Pour plus de détails sur les indices d’assignement, on pourra consulter Manel et al. (2005).
Les déséquilibres de liaison
150Comme mentionné précédemment, il est indispensable de travailler à partir de l’information recueillie sur plusieurs loci. Un problème supplémentaire peut alors survenir sous la forme d’une corrélation entre les allèles de différents loci. Nous allons maintenant nous intéresser au polymorphisme à deux loci. Si ces deux loci polymorphes (au moins deux allèles chacun) sont indépendants dans une population qui suit les hypothèses de Hardy-Weinberg, on s’attend, à l’équilibre, à retrouver une association aléatoire entre les allèles des deux loci. Comme en général on n’a pas accès à la phase des gamètes, on regarde cela au niveau des génotypes des individus diploïdes. Donc si D1, H1 et R1, et D2, H2 et R2 sont les fréquences des génotypes 11, 12 et 22 aux loci 1 et 2 respectivement (on supposera pour simplifier qu’il n’y a que deux allèles et donc trois génotypes par locus), on s’attend alors à trouver des fréquences de génotypes aux deux loci suivants :
151Si les fréquences bilocus observées diffèrent de celles décrites dans le système d’équations (43), on dit qu’il y a déséquilibre de liaison. Il s’agit d’un déséquilibre statistique uniquement, car rien ne prouve que les loci sont liés physiquement (proches sur le même chromosome). La liaison physique peut bien sûr représenter une cause possible d’un déséquilibre statistique de liaison entre deux loci, mais d’autres phénomènes peuvent conduire à une telle observation. Les systèmes de reproduction fermés (autofécondation ou mieux clonalité) sont par eux-mêmes susceptibles de générer d’importants déséquilibres de liaison entre tous les loci du génome. La sélection naturelle, quand elle favorise des combinaisons spécifiques d’allèles à différents loci, ou quand elle est épistatique (Ohta, 1982 ; Chippindale et Rice, 2001), peut elle aussi être rendue responsable de la liaison entre certains loci. Enfin, et ce n’est pas la moins importante des causes à signaler, l’interaction entre mutation, dérive et migration peut elle aussi générer des déséquilibres de liaison entre loci, en particulier dans les populations très structurées (petites sous-populations échangeant peu de migrants). Comme nous n’avons généralement pas accès à la phase haploïde (gamétique) des organismes étudiés (sauf chez des haploïdes évidemment), l’estimation du déséquilibre de liaison ne peut se faire que de façon composite (12_12 ne peut être distingué de 21_12) (Weir, 1979, 1996). Parce que les systèmes de reproduction sexués fermés, comme l’autofécondation ou la parthénogénèse, ou encore les systèmes clonaux (reproduction végétative) conduisent à un déséquilibre global, certains auteurs ont développé des mesures multilocus du déséquilibre de liaison (par exemple, Agapow et Burt, 2001). Il est cependant important de noter ici que le comportement de ces différentes mesures dans différentes conditions de populations n’a été que peu étudié jusqu’à présent malgré l’importance soulignée de telles études (De Meeûs et Balloux, 2004). L’absence de déséquilibre de liaison est une hypothèse souvent mise en avant, car certaines analyses statistiques considèrent l’information apportée par les différents loci comme indépendante. Un déséquilibre de liaison fort risquant d’apporter une redondance conduisant à un risque d’erreur de décision (traité dans le chapitre suivant), il est souvent plus « confortable » de pouvoir écarter ce problème, tout en sachant qu’il ne peut exister de population exempte de déséquilibre de liaison. En effet, il n’existe aucune population de taille infinie depuis une infinité de générations.
Notes de bas de page
1 Les individus les plus hétérozygotes sont probablement ceux qui présentent le plus grand choix d’allèles disponibles. Dans l’un et l’autre cas, les descendants peuvent espérer une plus grande hétérozygotie.
2 Le détail de cette démonstration n’est pas indispensable, mais je conseille à tous les lecteurs d’essayer de la comprendre au moins une fois.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Tiques et maladies à tiques
Biologie, écologie évolutive, épidémiologie
Karen D. McCoy et Nathalie Boulanger (dir.)
2015
Initiation à la génétique des populations naturelles
Applications aux parasites et à leurs vecteurs
Thierry De Meeûs
2012
Audit des décès maternels dans les établissements de santé
Guide de mise en oeuvre
Alexandre Dumont, Mamadou Traoré et Jean-Richard Dortonne (dir.)
2014
Les anophèles
Biologie, transmission du Plasmodium et lutte antivectorielle
Pierre Carnevale et Vincent Robert (dir.)
2009
Les champignons ectomycorhiziens des arbres forestiers en Afrique de l’Ouest
Méthodes d’étude, diversité, écologie, utilisation en foresterie et comestibilité
Amadou Bâ, Robin Duponnois, Moussa Diabaté et al.
2011
Lutte contre la maladie du sommeil et soins de santé primaire
Claude Laveissière, André Garcia et Bocar Sané
2003