La notion de variables – leurs distributions
p. 139-143
Texte intégral
VARIABLES
1Les variables sont les caractères qui décrivent une population, ou un échantillon. Ils sont choisis en fonction des objectifs de l’étude et de ses contraintes. Au cours de l’essai clinique, on cherche à confirmer que les modifications observées sont entraînées par l’intervention indépendamment de la variabilité biologique naturelle. Une variable est donc un attribut qui peut prendre une valeur quelconque parmi toutes celles qui sont possibles ; elle est définie en fonction de son type (encadré 27).
2Il est souvent possible de transformer les variables pour en changer le type. Ainsi, pour un même sujet, l’âge peut être considéré comme une variable quantitative continue (10,4 ans), une variable quantitative discrète (≥ 10 ans et ≤ 11 ans), une variable qualitative (« adolescent », défini comme appartenant au groupe des sujets dont l’âge est compris entre 10 et 15 ans). Il pourrait même être traité comme une variable censurée si l’on envisage le vieillissement du sujet par rapport à une intervention lors d’un suivi longitudinal.
3Les techniques statistiques sont différentes selon le type de variables utilisées. Par ailleurs, certaines contraintes ou limites d’utilisation des tests statistiques peuvent nécessiter un changement de type de variable pour que l’on puisse effectuer une comparaison. Il est toujours possible de modifier secondairement une variable à condition de détenir l’information la plus précise possible (en général, la variable quantitative continue). Il faut noter que, le plus souvent, la transformation fait perdre de l’information, donc de la précision ou de la puissance : « 10,4 ans » est plus précis que « ≥ 10 ans et ≤11 ans » qui est lui-même plus informatif que « adolescent ».
DISTRIBUTIONS
4La distribution décrit la répartition des valeurs possibles ou observées d’une variable au sein d’un ensemble. Comme il est difficile de décrire une population importante, indéfinie ou fictive, on a recours à une estimation de celle-ci à partir d’un échantillon supposé représentatif. Pour éviter les confusions, on se réfère à la population d’origine à l’aide d’une lettre grecque et à l’échantillon avec une lettre latine (encadré 28).
5La distribution d’une variable traduit la probabilité qu’elle prenne chacune des valeurs possibles. Bien que les possibilités soient infinies, on peut décrire la plupart d’entre elles grâce à un nombre restreint de modèles « approchés » ou lois de probabilité. Une distribution est caractérisée par un certain nombre de paramètres définis (encadré 29) qui suffisent à la décrire et à effectuer les calculs de comparaison.
Lois de probabilités discrètes
6Elles permettent de représenter des variables qui ne prennent que des valeurs entières régulièrement espacées. Ces lois de probabilités sont utilisées pour estimer la probabilité de variables qualitatives ou quantitatives discrètes.
La loi binomiale intervient lorsque l’on étudie les probabilités d’une alternative (masculin/féminin, mort/vivant, malade/guéri, oui/non, présent/absent, etc.). Elle permet l’interprétation d’un tirage aléatoire dans lequel p est la probabilité d’observer un événement et q celle d’obtenir son contraire, soit 1 = p + q.
La loi de Poisson décrit des événements de fréquence faible, généralement inférieure à 5 %. La moyenne est égale au produit de l’effectif et de la probabilité de l’événement au sein de la population étudiée et en première approximation égale à la variance de la distribution, soit m = n p = V = s2. Cette loi présente donc l’avantage de ne dépendre que de la moyenne, ce qui permet l’utilisation d’une table pour obtenir la distribution de la probabilité des valeurs de la variable en fonction de la moyenne. Elle sert à décrire les événements rares dont l’observation nécessite un effectif très élevé (fig. 8).
Lois de probabilités continues
7Elles décrivent des variables qui prennent toutes les valeurs possibles, même si elles ne sont pas entières. Elles sont appropriées pour mesurer la probabilité de variables quantitatives. Le modèle le plus courant est la distribution normale, ou loi de Laplace-Gauss dont la représentation graphique est une courbe en cloche. Elle est définie par la moyenne (μ) et la variance (V ou σ2) (fig. 9). Ainsi, la variance (donc l’écart-type) décrit la dispersion des variables autour de la moyenne : 50 % de l’effectif est compris entre μ – 0,75 et μ + 0,75 et 95 % entre μ – 1,96 et μ + 1,96, soit pratiquement 2 σ.
Représentation des variables censurées
8Les variables censurées peuvent être décrites en utilisant des courbes de survie. L’événement considéré ne s’applique pas seulement au décès mais à tout ce qui peut survenir au cours de la période étudiée (guérison, rechute, exclusion, disparition, etc.). Par extension, le délai séparant le début de l’observation et la survenue de l’événement correspond à la notion de « survie ».
9Les courbes de survie servent à représenter, sous ses différents aspects, la succession d’événements importants qui surviennent dans une population. Elles considèrent la fréquence de l’événement, donc sa probabilité, sa récurrence au sein de l’échantillon ainsi que les sujets perdus de vue, c’est-à-dire susceptibles de subir l’événement étudié mais qui sortent de l’observation et chez qui l’on ne pourra savoir s’il est survenu ou non. D’une part, ces sujets présents au début de l’étude doivent être intégrés à l’exploitation de l’information. D’autre part, leur absence au cours du reste de l’étude doit être prise en compte.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Tiques et maladies à tiques
Biologie, écologie évolutive, épidémiologie
Karen D. McCoy et Nathalie Boulanger (dir.)
2015
Initiation à la génétique des populations naturelles
Applications aux parasites et à leurs vecteurs
Thierry De Meeûs
2012
Audit des décès maternels dans les établissements de santé
Guide de mise en oeuvre
Alexandre Dumont, Mamadou Traoré et Jean-Richard Dortonne (dir.)
2014
Les anophèles
Biologie, transmission du Plasmodium et lutte antivectorielle
Pierre Carnevale et Vincent Robert (dir.)
2009
Les champignons ectomycorhiziens des arbres forestiers en Afrique de l’Ouest
Méthodes d’étude, diversité, écologie, utilisation en foresterie et comestibilité
Amadou Bâ, Robin Duponnois, Moussa Diabaté et al.
2011
Lutte contre la maladie du sommeil et soins de santé primaire
Claude Laveissière, André Garcia et Bocar Sané
2003