Mesurer pour évaluer ?
p. 26-31
Texte intégral
Il ne suffit pas d’ouvrir les yeux pour voir, il faut que ces yeux interrogent.
Jean Louis Chrétien. L'appel et la réponse
Introduction
1Évaluer signifie mesurer et juger, rassembler une série de données de façon la plus précise et interpréter ensuite les résultats dans un contexte. Il s’agit donc d’un processus bidimensionnel : dans un premier temps, on cherche à rassembler des données fiables de la façon la plus précise, la plus « objective ». Dans un deuxième temps, les indices obtenus ou les valeurs numériques se voient attribuer une signification, c’est-à-dire sont interprétés dans un contexte.
2Il arrive que cette deuxième étape d’interprétation soit court-circuitée, obtenant une signification opérationnelle immédiate. Un exemple classique et historique est l’indice développé par Virginia Apgar (1), utilisable immédiatement comme indicateur objectif pour une prise en charge adéquate du nouveau-né.
3Il existe différents types de mesures : des mesures biologiques, des mesures physiologiques, des questionnaires, des tests psychologiques, etc.
4Les échelles d’évaluation sont différentes des tests. En effet, les tests représentent une situation standardisée expérimentale qui sert de stimulus à une réaction ou un comportement. Ce comportement est évalué par comparaison statistique à celui d’autres individus placés dans la même situation, permettant de classer le sujet examiné soit quantitativement, soit typologiquement (exemple : le test de Tineti). Les échelles d’évaluation, par contre, cherchent à apprécier le comportement du sujet dans une situation semi-standardisée (un entretien, une observation simple ou répétée). De l’observation va découler un jugement quant à la présence, à l’intensité des comportements et/ou à la fréquence des symptômes relevés par l’observateur (exemple : l’IADL de Lawton).
5Les échelles d’évaluation représentent donc plus un « état de la question » que des tests. Une échelle peut être remplie par un ou plusieurs observateurs. Dans ce cas, il s’agit d’échelles d’hétéro-évaluation qui s’opposent aux échelles d’auto-évaluation qui sont, elles, remplies par le sujet lui-même.
Quelques notions de métrologie
6La construction, puis la validation, d’une échelle nécessite de grands efforts. Leur développement s’effectue le plus souvent en plusieurs étapes successives permettant d’améliorer progressivement les qualités métrologiques de l’instrument de départ. Les trois qualités fondamentales d’une échelle d’évaluation sont la validité, la reproductibilité et la structure factorielle. Elles sont appréciées au cours d’études sur des populations souffrant d’une pathologie ou d’une affection en les comparant à des groupes témoins et en répétant les mesures dans le temps.
La validité
7Une échelle est dite valide si elle mesure correctement le phénomène qu’elle est censée mesurer. Ce concept très général se décompose en différentes facettes. Il existe en effet plusieurs formes de validité, leur regroupement variant selon l’approche méthodologique utilisée.
Validité de contenu (content validity)
8Elle résulte de l’appréciation par des juges compétents qui étudient chaque item dans l’échelle afin de voir s’il explore au moins une dimension du phénomène mesuré. Ceci nécessite donc d’avoir établi au préalable la liste des dimensions importantes du phénomène. Par exemple, la validité de contenu d’une échelle visant à « mesurer » l’évolution d’un syndrome dépressif majeur peut être considérée comme satisfaisante si certains items investiguent la dimension idéique et d’autre la dimension motrice ou somatique de la dépression.
Validité apparente (face validity)
9Pour l’évaluer, des juges compétents se prononcent sur sa valeur apparente après avoir inspecté l’instrument ; elle leur semble satisfaisante ou non. La face validity résulte donc d’un jugement subjectif, fonction de l’observateur, prenant en compte les aspects visibles et « reconnaissables » de l’échelle : longueur, libellé des items, modalités de réponse, etc.
10Notons que la validité apparente et la validité de contenu résultent toutes deux du jugement subjectif par un panel de juges. C’est pourquoi certains auteurs réunissent ces deux types de validité en une seule entité commune.
Validité de critère (criterian validity)
11Pour mesurer cette validité, un critère extérieur à l’échelle, évaluant le même phénomène, est pris comme référence ou gold standard. Un nombre suffisant de sujets sont alors évalués à la fois par l’échelle et le critère de référence, et l’on mesure l’intensité du lien statistique existant entre les deux évaluations. Le gold
12standard peut être l’opinion d’un ou de plusieurs experts ou bien le score obtenu à une autre échelle considérée par toute la communauté scientifique comme une référence indiscutable.
Validité théorique (construct validity)
13La validité de construct s’établit progressivement par l’accumulation des données concernant la validité convergente et la validité discriminante. La validité convergente peut se définir comme la recherche de corrélation entre deux outils évaluant le même construct. La validité discriminante peut se définir comme l’absence de corrélation entre deux outils appartenant théoriquement à des constructs différents. De nombreux outils d’évaluation sont construits pour mesurer des traits hypothétiques (ou constructs) telles que par exemple la dépression ou l’autonomie. Ces constructs permettent de comprendre et d’expliquer les différences dans le comportement des individus.
Validité factorielle
14L’analyse factorielle est une méthode pour construire des questionnaires homogènes et unifactoriels. Selon les auteurs, elle est classée dans la fidélité ou la validité. Cette approche révèle la structure des items et permet de les regrouper en sous-ensembles. Ces regroupements d’items représentent des facteurs dont le nom est donné par les items regroupés. Les facteurs représentent des dimensions fondamentales sousjacentes à la symptomatologie. La stabilité factorielle doit être établie à travers différents groupes de sujets.
La fidélité
La fidélité inter-juges
15Deux observateurs cotent de manière indépendante N sujets au même moment en utilisant la même échelle. À partir de ces cotations, on mesure l’accord observé entre les deux juges. La fidélité inter-juges est donc représentée par la corrélation (ou le coefficient Kappa) obtenue par plusieurs observateurs avec le même instrument et en cotant les mêmes patients.
La stabilité temporelle ou la fidélité test-retest
16Toutes les conditions externes étant égales, la répétition d’une mesure doit donner le même résultat. La fidélité test-retest consiste à répéter l’évaluation sur les mêmes sujets mais à des temps différents sans qu’aucune procédure thérapeutique ne soit intervenue. La stabilité du questionnaire sera d’autant plus grande que le coefficient de corrélation est élevé.
La consistance interne ou l’homogénéité
17Elle correspond à une corrélation des différents items entre eux ainsi qu’à une corrélation avec la note totale. Différentes techniques peuvent être utilisées. On peut utiliser la corrélation entre les items pairs d’une part et les items impairs d’autre part pour juger de la consistance interne (split half reliability). Très souvent le coefficient alpha de Cronbach sera calculé. Cet indice (qui varie entre 0 et 1) permet de vérifier que les différents items mesurent bien la même chose.
La sensibilité
18La sensibilité se définit comme la finesse discriminative de l’outil d’évaluation. La sensibilité inter-individuelle représente la capacité de l’instrument à discriminer des individus différents. La sensibilité intra-individuelle est la capacité de l’instrument à détecter des différences chez un même sujet au cours de mesures répétées. Fidélité et sensibilité sont inverses l’une de l’autre et s’opposent en fonctions des instruments, des buts de l’utilisation des échelles et des populations étudiées.
19Dans les échelles d’évaluation, on souhaite surtout avoir des « instantanés », photographies d’un état actuel que l’on va comparer à d’autres photographies. C’est donc plus la sensibilité au changement et la capacité d’enregistrer des variations même minimes qui sera recherchée.
Mesurer pour évaluer ?
20Pour choisir judicieusement une échelle parmi toutes celles qui sont disponibles sur le marché, il faut prendre en compte essentiellement la validité, la fiabilité et la sensibilité de l’outil. De plus, l’utilisation « sage » suppose que l’on dispose des informations détaillées sur les méthodes utilisées au cours des diverses validations : nature des coefficients, valeurs numériques, type de populations examinées. Certes, il n’est pas toujours aisé en pratique de réunir toutes ces informations mais sans elles un choix rigoureux est impossible.
21Finalement il faut également se rendre compte que les échelles d’évaluation ne ciblent le plus souvent que quelques dimensions (constructs) d’un phénomène clinique. Le risque d’une trop grande confiance dans les échelles est de ne prendre en compte que les dimensions qu’elles représentent, alors que d’autres phénomènes imprévus pourraient apparaître.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références
10.1213/ANE.0b013e31829bdc5c :1 Apgar V., Proposal for a new method of evaluation of the newborn infant, 1953, Anesth. Analg. 32 : 260-7
2 Streiner D.L & Norman G.R., Health Measurement Scales. A practical Guide to their Development and Use, 2002, Oxford University Press
10.1093/acprof:oso/9780195165678.001.0001 :3 Mcdowel I., Measuring Health. A Guide to Scales and Questionnaires, 2006, Oxford University Press
Auteur
Jean-Marie Degryse est professeur à la Faculté de médecine de l’Université catholique de Louvain et responsable du service de recherche du Centre académique de médecine générale de l’UCL. Il enseigne également à l’Akademisch centrum voor huisartsgeneeskunde de la KULeuven.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Des échelles pour prendre soin
Cailloux pour santé fragile
Isabelle Dagneaux, Marie-Pierre Vercruysse, Jean-Marie Degryse et al.
2009
Le vieillissement actif dans tous ses éclats
Laurent Nisen, Sylvie Carbonnelle et Thibauld Moulaert (dir.)
2014