Chapitre 9
Les randomistas sont‑ils des évaluateurs ?
p. 307-332
Résumé
Dans un article publié en 2012, l’auteur concluait que la vague d’enthousiasme suscitée par la randomisation était vouée à ne pas durer. Mais il avait sous-estimé l’attrait du public pour les RCT et leur adaptation aux évolutions des exigences émanant d’un marché de l’évaluation dominé par des intérêts particuliers. Il est désormais clair que la bulle de la randomisation n’éclatera pas de sitôt. Ancrées par des racines historiques profondes, défendues par les puissants de ce monde et jugées d’une grande rigueur par un public mal informé, les RCT continueront à être plébiscitées, en dépit de leurs limitations statistiques et éthiques, leur incapacité à traiter les questions de recherche sociale complexes et leur inefficacité en tant qu’outils de responsabilisation et d’apprentissage des organisations.
Remerciements
Lant Pritchett a formulé des commentaires judicieux sur une version antérieure de ce chapitre, mais il n’est nullement responsable de ses erreurs et omissions.
Texte intégral
Introduction
1Les randomistas prévoient un brillant avenir pour la théorie et la pratique du développement grâce à l’accumulation patiente de preuves expérimentales issues d’interventions menées au niveau individuel. Pour la charismatique cofondatrice du Laboratoire d’action contre la pauvreté (J-PAL) du Massachussets Institute of Technology (MIT), Esther Duflo, lauréate du prix Nobel 2019, une nouvelle ère de progrès scientifique s’annonce dans le champ social. Elle a ainsi fait sensation en déclarant, lors d’une conférence de la Banque mondiale sur l’évaluation de l’efficacité du développement : « La création d’une culture qui promouvrait, encouragerait et financerait des évaluations randomisées rigoureuses, et qui pourrait révolutionner les politiques sociales du xxie siècle, tout comme les essais cliniques ont révolutionné la médecine du xxe siècle » (Lancet, 2004).
2S’agit-il d’une mission réaliste pour les évaluations par assignation aléatoire (Randomized Controlled Trials – RCT) ou d’une manifestation de la pensée magique ? Depuis le début du siècle, l’usage des RCT a massivement augmenté dans le domaine du développement : en un temps relativement court, elles se sont imposées sur un créneau très en vogue de la recherche en sciences sociales, celui de l’évaluation d’impact sur le développement. La publication annuelle d’évaluations d’impact expérimentales et quasi expérimentales connaît une véritable envolée. Elle plafonne aujourd’hui au niveau du pic qu’elle avait atteint en 2012, soit 400 à 500 études par an, ce qui est remarquable. Sur les 4 600 évaluations expérimentales et quasi expérimentales publiées, selon un recensement établi en juin 2018, seules 132 étaient antérieures à l’an 2000 (Cameron et al., 2016).
3Environ 62 % des évaluations d’impact figurant dans le référentiel de l’International Initiative for Impact Evaluation (3ie) sont exclusivement expérimentales et 5 % combinent RCT et méthodes quasi expérimentales. Le reste, soit un tiers environ, repose exclusivement sur des méthodes quasi expérimentales. Certes, les RCT représentent encore à ce jour moins de la moitié des articles dans les revues économiques d’intérêt général, et moins d’un tiers de ceux présents dans les cinq principales revues dédiées à l’économie du développement (McKenzie, 2016). La hausse du nombre d’articles sur l’économie du développement publiés dans ces revues entre 1990 et 2015 est toutefois imputable pour les deux tiers aux RCT (Banerjee et al., 2016). Comment expliquer alors cette progression rapide des RCT et que laisse présager leur adoption enthousiaste par les universités d’élite, les fondations philanthropiques et les instances de l’aide au développement pour l’avenir du mouvement en faveur de l’évaluation ?
4Dans ce chapitre, je commence par relever la forte emprise que les RCT exercent sur l’imaginaire collectif, qui s’explique par les racines historiques profondes du courant expérimentaliste. Dans un deuxième temps, je montre que l’affirmation largement répandue selon laquelle les RCT constituent l’étalon-or de l’évaluation va à l’encontre du consensus acquis de haute lutte dans la communauté des évaluateurs : la diversité méthodologique constitue une bonne pratique. Troisièmement, j’observe que, malgré leurs limites, les RCT ont la faveur de ceux qui paient les exécutants de l’évaluation et qui dominent le marché actuel de l’évaluation. Quatrièmement, je reconnais que les RCT apportent une modeste contribution à la recherche en sciences sociales. Cinquièmement, et avant de conclure, j’établis que les RCT ont beau faire partie intégrante de la boîte à outils de l’évaluation, elles n’en sont pas pour autant des évaluations.
Éluder les dures leçons de l’histoire de l’évaluation
5Les racines historiques du mouvement expérimentaliste sont profondes. Thalès de Milet, né au milieu des années 620 av. J.-C., a été le premier à proposer une interprétation des phénomènes naturels basée sur la théorie, s’écartant alors des explications surnaturelles ou mythologiques. Après lui, Platon et Aristote ont mis en avant des approches systématiques de l’étude de la nature par le biais du raisonnement déductif. Mais l’institutionnalisation de la recherche scientifique ne s’est imposée en Europe qu’au début de l’ère moderne.
Un engagement fondé sur la foi
6Au fur et à mesure que l’expérimentalisme devenait une partie intégrante de la méthode scientifique, il a suscité un grand nombre de controverses et n’a acquis sa légitimité publique qu’en étant reconnu comme un renouveau de la religion innocente. L’appel à la sanction divine a été mobilisé pour valider le principe de base de la méthode scientifique, selon lequel la vérification expérimentale est le seul test authentique du savoir. Par leur réexamen systématique des textes bibliques, John Milton et ses disciples ont proposé de nouvelles interprétations convaincantes de la Création. En fin de compte, leur conception réformiste de la foi religieuse a donné de la respectabilité au mouvement expérimentaliste (Picciotto, 2011).
7Il s’est ensuivi une reconfiguration fondamentale de la relation entre la religion, la science expérimentale et la sphère publique. Pour Francis Bacon et ses disciples de la Royal Society, la pratique d’une observation et d’une évaluation minutieuses non corrompues par le dogme a été légitimée par l’avènement d’une nouvelle souche de l’apologétique chrétienne, qui a enjoint au public, ainsi qu’aux scientifiques et aux savants, d’apporter des preuves de la sagesse divine par l’examen direct de l’ordre naturel. Le positivisme a finalement étendu l’approche expérimentale à la société humaine en affirmant que, pour les sciences sociales comme pour les sciences physiques, seules sont valables les connaissances qui sont vérifiables, cumulatives, transculturelles et indépendantes de l’observateur.
8La foi en l’expérimentation est ainsi devenue une composante de la doctrine religieuse, jusqu’à ce que la modernité émerge et que le désenchantement du monde prenne le dessus (Weber, 1958). Dès lors, l’expérimentalisme a été accepté tel qu’il était, sans référence à une quelconque divinité, mais ses caractéristiques sacrées ont persisté dans l’esprit collectif. Elles ont en effet été consacrées par Auguste Comte, le fondateur de la sociologie : sa « religion de l’humanité » fut inspirée par des principes positivistes. Depuis lors, la foi collective inébranlable en la supériorité de l’approche expérimentale a résisté à tout, même si ses hypothèses philosophiques fondamentales ont été discréditées.
Des fondements philosophiques fragiles
9Aujourd’hui, la position épistémologique privilégiée par les partisans des RCT a été catégoriquement réfutée par les spécialistes des sciences sociales. Ils ne souscrivent plus au principe du positivisme logique, selon lequel il serait possible de formuler des généralisations immuables sur les relations humaines en dehors de tout contexte culturel spécifique. Ainsi, Émile Durkheim a d’abord soutenu que la sociologie avait pour mission de créer sa propre approche distinctive, plutôt que de reproduire les méthodes des sciences naturelles.
10Max Weber s’est éloigné plus encore d’un positivisme étroit en suggérant que la complexité des interactions humaines est telle que les sciences sociales peuvent seulement révéler des relations causales au travers de simplifications hypothétiques des phénomènes sociaux. Le fossé entre les sciences sociales et les sciences naturelles s’est progressivement creusé sous l’impulsion de théoriciens critiques et de matérialistes historiques comme Karl Marx, Theodor Adorno et Jürgen Habermas. Leurs théories concurrentes ont convergé vers la proposition selon laquelle sciences naturelles et sciences sociales sont ontologiquement distinctes.
11Thomas Kuhn a ensuite fait valoir que le choix de la théorie dans le domaine de la science est subordonné à des considérations paradigmatiques qui vont bien au-delà de l’observation. Les critiques postmodernes sont allées plus loin et ont tenté de réfuter totalement la méthode scientifique en défendant l’idée que toute expérimentation est subjective, si ce n’est rétrograde, en particulier lorsqu’elle concerne la société. Ce plaidoyer frôlant l’irrationalité a fatalement exposé les déconstructionnistes à de vives critiques et à des accusations de subjectivité et de partialité. Mais le profond scepticisme suscité par des prétentions évaluatives qui n’explicitent pas leur finalité sociale s’était alors généralisé et le positivisme, en particulier dans sa forme utopique, avait perdu de sa superbe.
12La science n’est plus considérée comme l’arbitre ultime de la politique sociale, et la croyance en un progrès humain – qui serait inévitablement alimenté par le développement technologique – n’a plus cours. En explorant l’interface entre le pouvoir et le savoir, la recherche sociale axée sur l’agir communicationnel dans la sphère publique est devenue un moyen privilégié d’exploiter l’évaluation pour promouvoir le bien collectif. Mais l’idée qu’il existe une réalité unique susceptible d’être identifiée de manière probante par l’observation, même en l’absence de théorie, a perdu tout crédit. Ainsi, Karl Popper a démontré que, dans le monde naturel comme dans le monde social, toute recherche scientifique est façonnée par les hypothèses avancées par les chercheurs, et que toutes les théories ne sont que de simples conjectures sujettes à réfutation : si la réalité existe, elle n’est vécue qu’indirectement et imparfaitement.
13Ceci étant, la croyance constructiviste selon laquelle la réalité est une pure construction sociale demeure une position philosophique marginale. Un large consensus soutient que, si les expérimentations sont essentielles au progrès scientifique, la seule inférence valable qu’on puisse en tirer est la réfutation de théories prédéfinies de causalité. Sous cet angle, toute prise de décision rationnelle dans la sphère publique ne peut être guidée que par des connaissances contextuelles plausibles, bien que faillibles, issues d’une confrontation rigoureuse avec la réalité, d’une autocritique scrupuleuse, d’une critique par des pairs et d’un débat de principes.
Une loyauté à toute épreuve
14Si le positivisme logique a perdu de son lustre dans les cercles philosophiques, il suscite encore une forte loyauté dans le monde universitaire. Les partisans des RCT estiment ainsi que les modèles expérimentaux constituent la seule base scientifique permettant de déterminer la causalité ou l’attribution. Cette position extrême est intenable, puisque la biologie, la géologie, l’astronomie, l’épidémiologie, les sciences médico-légales, etc. confirment toutes que la causalité peut être établie sans évaluations randomisées. Pour citer Lant Pritchett, « si l’expérimentation était la marque de fabrique de la science, il y aurait des prix Nobel d’alchimie, et non d’astrophysique1 ».
15Une observation et une évaluation minutieuses peuvent confirmer ou infirmer une théorie sur le monde naturel sans randomisation. La prédiction de la déviation de la lumière induite par la théorie générale de la relativité a été confirmée pour la première fois par Arthur Stanley Eddington à partir de ses observations de l’éclipse solaire du 29 mai 1919. Plus récemment, des essais utilisant des mesures radio interférométriques sur des quasars passant derrière le soleil ont confirmé la théorie de façon plus précise et cohérente.
16De même, les RCT ne sont pas utiles dans l’administration de la justice. Les techniques d’enquête, les mécanismes de contestation et les règles de preuve sont jugés suffisants pour pénaliser, emprisonner et, dans certaines juridictions, exécuter des coupables présumés d’un crime. Les modèles randomisés ne sont pas non plus suffisamment flexibles pour prendre en compte la diversité des questions qui préoccupent les chercheurs en sciences sociales, la variabilité des contextes opérationnels ou la complexité des interventions de développement. Les approches qualitatives sont essentielles dans la quête de réponses aux dilemmes et aux défis du développement.
17Mais les randomistas sont de vrais croyants. Ils excluent toute autre perspective, préfèrent s’associer avec d’autres croyants et tentent de vaincre la résistance des non-croyants en les excluant. L’une des caractéristiques distinctives du fondamentalisme est que la source de la vérité légitime réside dans le passé : les fondamentalistes se réfèrent souvent à des textes et à des personnages sacrés. De la même manière, les partisans radicaux des RCT bâtissent leur autorité sur les contributions intellectuelles des pionniers de l’évaluation, sans tenir compte des leçons apprises au cours du processus d’évolution de la discipline de l’évaluation.
18Selon Alkin (2004), toutes les doctrines d’évaluation actuelles peuvent être classées selon l’importance qu’elles accordent aux méthodes, aux usages ou à la valorisation. Il propose une métaphore où la théorie de l’évaluation est un arbre touffu, composé de modèles d’évaluation concurrents, qui se regroupent en trois branches principales. Le modèle expérimentaliste occupe une place prépondérante à la base même de la branche méthodologique, car il est présent depuis la création de la discipline de l’évaluation.
Des conceptions évolutives de l’évaluation
19De façon plus spécifique, les pionniers de l’évaluation des programmes sociaux ont conçu l’évaluation comme une courroie de transmission entre les sciences sociales et les décideurs2. Ainsi, Donald T. Campbell, le méthodologue de la Société expérimentale, a présenté les interventions publiques comme des expérimentations politiques. Très concentré sur l’élimination des biais dans la recherche en sciences sociales, il a vanté l’expérimentation comme « le seul moyen de régler les différends relatifs aux pratiques d’enseignement, la seule façon de vérifier les améliorations en matière d’enseignement et le seul moyen de fonder une tradition cumulative » (Campbell et Stanley, 1963 : 2).
20Les randomistas continuent de soutenir ce point de vue, bien que Campbell ait fini par reconsidérer et nuancer sa position méthodologique. En effet, au vu des résultats décevants des études expérimentales dans le domaine des politiques sociales, il a révisé son avis négatif sur les méthodes qualitatives. Il a admis qu’un jugement qualitatif expert était nécessaire pour identifier ou écarter de potentielles relations de causalité, ou encore pour interpréter les effets secondaires des interventions publiques. Ainsi, afin de « d’être vraiment scientifique, on doit rétablir le fondement qualitatif du quantitatif » (Campbell, 1974).
21Thomas Cook s’est inspiré des idées de Campbell en se concentrant sur les facteurs contextuels et leur incidence sur les expérimentations classiques. Il a mis au point des techniques quasi expérimentales permettant de surmonter les difficultés liées au contrôle de l’expérimentation. Il a également souligné l’importance de la concertation avec les parties prenantes de l’évaluation. De même, Peter Rossi et Carol Weiss, tout en reconnaissant l’attrait des expérimentations contrôlées pour éliminer les biais de sélection, ont apporté des contributions majeures au champ méthodologique en corrélant la logique d’intervention sous-jacente aux programmes publics avec les évaluations fondées sur la théorie.
22Le parcours intellectuel de Lee J. Cronbach l’a éloigné d’une adhésion systématique aux essais randomisés pour aboutir à son rejet total de l’expérimentalisme classique. Cronbach est arrivé à la conclusion que seules les décisions simplistes « go/no go » sont influencées par les essais randomisés, alors que la collecte de données d’évaluation utiles pour l’action nécessite d’explorer un large éventail de questions pertinentes plutôt que de se focaliser sur la série de questions nécessairement restreinte qui se prête à des évaluations randomisées.
23L’intérêt de Cronbach pour l’élaboration de politiques éclairées par l’évaluation l’a finalement amené à remettre en question la validité externe des évaluations randomisées. Il a fini par douter du fait que des généralisations robustes sur le comportement humain puissent être établies par le biais de la recherche en sciences sociales, et a prôné davantage de modestie et de retenue dans la formulation des recommandations politiques (Cronbach, 1982). De la même façon, Stake (2010), qui a commencé sa carrière d’évaluateur comme positiviste et mathématicien, s’est montré de plus en plus désabusé par le potentiel de la mesure et de la modélisation formelle pour l’évaluation des programmes sociaux.
Retour vers le futur ?
24L’ignorance réelle ou feinte de l’histoire de l’évaluation a condamné l’industrie du développement à la répéter. Les débats fomentés par les vrais apôtres des RCT ne sont pas nouveaux. Les conflits acharnés entre partisans des méthodes quantitatives et qualitatives ont longtemps fracturé le monde de l’évaluation et de la recherche en sciences sociales, jusqu’à ce qu’ils trouvent une issue dans les années 1990. Après d’innombrables débats et à la lumière de multiples publications, presque une décennie avant que le MIT ne crée son Laboratoire d’action contre la pauvreté, les « guerres de paradigmes » ont été résolues avec succès à la satisfaction de la plupart des chercheurs et évaluateurs en sciences sociales : qu’elles soient qualitatives et quantitatives, les deux types de méthodes ont leur utilité, et les méthodes mixtes ont l’avantage (Datta, 1994).
25Le retour vers le futur des RCT dans le développement international depuis le début du siècle est donc paradoxal. Les experts s’accordent à dire qu’une diversité méthodologique adaptée au contexte l’emporte sur l’adhésion rigide à un modèle d’évaluation unique. Les partisans des RCT ont choisi d’ignorer ce consensus acquis de haute lutte. Ils restent bornés au constructionnisme utopique des pionniers de l’évaluation. Ils affirment que les expérimentations de terrain présentent des avantages uniques pour produire des essais rigoureux sur l’efficacité de l’aide et générer des connaissances scientifiques sur le développement. Peu importe que les responsables des politiques de développement apprécient depuis longtemps la capacité démontrée de l’évaluation indépendante utilisant des méthodes mixtes à promouvoir l’autoévaluation, à suivre les performances, à tirer parti des leçons de l’expérience et à reconsidérer les approches erronées des politiques de développement (Grasso et al., 2003). Les RCT occupent une place centrale dans la recherche économique.
26Ainsi, le dédain envers l’histoire de l’évaluation et les objections doctrinales aux évaluations qualitatives sous-tendent la popularité croissante des RCT dans le développement. L’échec de la recherche sociale macro-économique à satisfaire les sceptiques de l’aide a facilité l’incursion des micro-économistes sur le marché de l’économie du développement. La montée en puissance des RCT était typiquement liée à la désillusion quant à la capacité des méthodes macro-économiques à générer des prescriptions politiques valables pour le secteur de l’aide : une industrie artisanale d’études de recherche politique fondée sur des régressions multi-pays avait en effet généré des conclusions diverses et contradictoires sur l’impact global de l’aide (Tarp, 2009).
27La recherche macro-économique n’a pas su identifier les corrélations solides qui existent entre les volumes d’aide, les prescriptions politiques et la croissance économique visée par les décideurs politiques. Et ce n’est guère surprenant : parfois, l’aide fonctionne, parfois elle échoue. Le contexte est important et les objectifs de l’aide varient. Le développement n’est pas qu’une question de croissance. Les macro-modèles peuvent difficilement cerner les apports de l’aide sur le plan de la technologie et du renforcement des capacités. Les circuits, les instruments et les modalités de l’aide sont importants. Et cela est vrai aussi des contextes sociaux et institutionnels.
28Pourtant, à une époque où l’establishment de l’aide est en plein bouleversement, les résultats ambigus ont contribué à décourager le public quant à l’utilité de la recherche macro-économique pour déterminer l’impact de l’aide. Ainsi, un ensemble d’articles tendant à expliquer les écarts entre l’impact de l’aide à l’échelle nationale et les études au niveau des projets (le fameux « paradoxe micro-macro ») a par exemple été publié, semant un doute supplémentaire parmi les chercheurs sur le bilan des résultats de l’aide publiés par les services d’évaluation des agences de développement. Les conclusions sur les performances de développement, même si elles sont basées sur des méthodes qualitatives transparentes, ont soudain été jugées peu fiables par les expérimentalistes, qui considèrent que seules les méthodes quantitatives constituent des tests d’attribution valides.
Les micro-économistes entrent dans la mêlée sur l’efficacité de l’aide
29Dans un environnement intellectuel tumultueux, deux factions en guerre – les optimistes de l’aide, conduits par le professeur Sachs (2005) de l’université de Columbia et les pessimistes de l’aide, inspirés par Easterly (2007) de l’université de New York – se sont engagées dans des joutes intellectuelles qui ont échauffé les esprits plus qu’elles n’ont éclairé les débats, sapant ainsi la confiance collective dans l’aide au développement et offrant une opportunité stratégique aux jeunes économistes du MIT. Les résultats forcément peu concluants des recherches en sciences sociales ont déplacé le point de mire du débat sur l’efficacité de l’aide depuis le plan abstrait de la macro-économie vers le terrain de jeu plus concret de la micro-économie.
30Se gardant bien de généralisations grandiloquentes, les randomistas ont prôné une nouvelle approche axée sur l’examen clinique d’interventions de développement spécifiques. Peu importe que les évaluateurs du développement aient toujours cherché à vérifier si les hypothèses des praticiens de l’aide « fonctionnaient sur le terrain » aux niveaux des projets, des secteurs et des pays. Leurs travaux ont été rejetés sans appel par ceux qui postulent que seules les méthodes expérimentales sont valables, alors même qu’il est amplement prouvé que les évaluations qualitatives du développement ont longtemps été, et demeurent, des instruments essentiels pour assurer un suivi approprié dans l’administration de l’aide.
31Le flou des résultats de recherche au niveau macro-politique, conjugué aux critiques superficielles des évaluations qualitatives, a été renforcé par le scepticisme à l’égard de l’aide. Étonnamment, les preuves abondantes apportées par les évaluations de projets et le succès extraordinaire des efforts de développement dans de nombreuses économies émergentes ont été considérés comme sans importance, au motif douteux que l’attribution ne peut être établie sans expérimentation.
L’expérimentalisme nouvelle formule
32La combinaison d’une rigueur scientifique présumée, d’une neutralité idéologique appliquée et d’un pragmatisme volontariste s’est avérée irrésistible. Elle a rapidement gagné le soutien enthousiaste de fondations philanthropiques internationales désireuses de s’imposer sur la scène du développement. Avec l’aide financière de la fondation Bill & Melinda Gates et de la fondation William et Flora Hewlett, un groupe de travail sur les lacunes en matière d’évaluation (Evaluation Gap Working Group) a été constitué par le Center for Global Development (CGD) en 2004. Sa raison d’être sous-jacente était que des milliards de dollars et des milliers de programmes d’aide avaient été dédiés à la santé, à l’éducation et à d’autres domaines du secteur social sans qu’aucune étude ne puisse déterminer sans ambiguïté si ces programmes « fonctionnaient » réellement.
33Le rapport du groupe de travail (Center for Global Development, 2006) a rejeté le système de notation utilisé par les évaluateurs du développement pour mesurer l’efficacité des interventions d’aide. Il a conclu que les résultats des évaluations traditionnelles manquaient de validité, car celles-ci n’abordaient pas la question de l’attribution de manière rigoureuse. Une recherche systématique de preuves solides sur l’efficacité des interventions de développement par des méthodes « scientifiques » a été préconisée. Le rapport considérait que c’était la seule façon d’obtenir des preuves adéquates pour mettre fin aux programmes inefficaces et identifier les approches de réduction de la pauvreté qui méritaient d’être répliquées3.
34Le rapport soutenait en particulier que déterminer si « l’aide marche », requiert des expérimentations ou des méthodes quasi expérimentales se rapprochant de l’étalon-or de la randomisation4. Or, comme indiqué plus haut, ce statut d’étalon-or avait été mis à mal des décennies auparavant. De toute évidence, les enseignements de la « guerre des paradigmes » n’avaient pas été intégrés par le petit monde de l’économie du développement, et rien n’a pu arrêter la dynamique enclenchée par les arrivistes du MIT. Progressivement, le financement de la recherche pour le développement s’est détourné des études macro-économiques au profit des évaluations micro-économiques des interventions de développement.
De la recherche en sciences sociales à l’évaluation
35Il n’a pas fallu attendre longtemps avant que la lutte pour la suprématie des RCT au sein de l’élite de la recherche en sciences sociales ne gagne le monde de l’évaluation et ne ravive le conflit latent des paradigmes. Les évaluateurs de l’aide qui venaient seulement de rejoindre le courant dominant de la profession ont été pris au dépourvu. Non préparés à l’assaut, ils ont cédé du terrain. Ils n’avaient pas pris part aux débats méthodologiques qui avaient secoué la communauté de l’évaluation à la fin des années 1970 et au début des années 19805. C’est ainsi que les micro-économistes inféodés aux méthodes expérimentales ont envahi un territoire jusque-là réservé aux praticiens du développement. De bruyantes controverses ont rapidement éclaté lors de conférences internationales, et un schisme de la communauté de l’évaluation du développement s’est avéré inévitable.
36À une extrémité du spectre, des évaluateurs du développement chevronnés, formés aux méthodes qualitatives, ont jugé illusoire la rigueur attribuée aux méthodes expérimentales. À l’autre extrémité, ceux qui avaient longtemps cherché à se rapprocher de l’économie, « reine des sciences sociales », ont vu d’un bon œil les incursions des micro-économistes dans le domaine de l’évaluation et ont plaidé en faveur d’une collaboration étroite. Après de longues délibérations, ils se sont mis d’accord sur un document d’orientation méthodologique (Leeuw et Vaessen, 2009), qui reconnaissait la supériorité fréquente des modèles expérimentaux pour établir l’attribution, mais réfutait l’hypothèse selon laquelle les évaluations randomisées constituaient un étalon-or. Il préconisait plutôt des méthodes mixtes adaptées aux besoins spécifiques de chaque évaluation.
37Ce « jugement de Salomon » marquait une nouvelle trêve. Mais le consensus ne s’est guère étendu au-delà des cercles appartenant au courant dominant de l’évaluation. En revanche, dans le monde de la recherche en sciences sociales, et pour les principaux utilisateurs des évaluations, les malentendus et les tensions persistèrent. De toute évidence, le conflit a été mis en suspens. Quel est donc le consensus des experts concernant les RCT ?
Le potentiel et les limites des méthodes expérimentales
38Dans des circonstances adaptées et entre des mains expertes, les méthodes expérimentales fournissent une estimation des résultats qui auraient été observés si l’intervention n’avait pas eu lieu. Pour cela, elles cherchent à établir une comparabilité stricte entre les groupes de contrôle et de traitement en sélectionnant de façon aléatoire des bénéficiaires et des non-bénéficiaires issus d’une même population par un processus reposant explicitement sur le hasard (par exemple, un lancé de dés, des tours de roulette ou une table de nombres aléatoires).
39Une répartition non biaisée signifie que la probabilité de se retrouver dans le groupe de contrôle ou le groupe de traitement est identique. Cette caractéristique des RCT vise à résoudre le problème du biais de sélection, qui se produit lorsqu’une comparaison des impacts sur deux ensembles très différents de bénéficiaires finit par attribuer à tort les résultats observés à l’intervention, alors que différentes caractéristiques connues ou inconnues des groupes avec et sans traitement peuvent avoir opéré.
40C’est par exemple souvent le cas lorsque les personnes qui ont accès au programme sont plus riches, plus puissantes, plus motivées ou plus instruites. En principe, une véritable assignation aléatoire aux groupes de traitement et de non-traitement issus d’une même population permet de garantir que, exception faite des fluctuations dues au hasard, l’impact de l’intervention peut être déterminé de manière fiable en comparant les résultats entre les deux groupes et en veillant à ce que tous les autres facteurs susceptibles d’altérer les résultats soient identiques, sauf erreurs stochastiques.
41Afin de vérifier la fiabilité des essais, des techniques statistiques sont disponibles pour déterminer l’intervalle de confiance que l’on peut sans risque attribuer au résultat (c’est-à-dire le rôle qu’a pu jouer le hasard pur associé au processus de randomisation). Les RCT présentent ainsi l’avantage supplémentaire de permettre aux évaluateurs d’établir une mesure de la significativité statistique des résultats de l’évaluation.
Les limites des RCT
42Comme l’explique clairement le chapitre de Ravallion (chap. 1, ce volume), il serait erroné de prétendre que toute différence entre les résultats du groupe de traitement et du groupe de comparaison ne peut être due qu’à l’intervention. En effet, ce n’est que si le groupe de traitement, le groupe de contrôle et le processus qui affecte chacun d’eux sont strictement identiques (sauf en termes de cause et d’effet) que des conclusions fiables peuvent être tirées. Pourtant, les erreurs d’échantillonnage sont inévitables et la validité interne peut être compromise par des facteurs latents et non observés qui n’ont pas été pris en compte lors de l’élaboration des groupes de traitement et de contrôle.
43Ces écueils statistiques ne sont pas souvent reconnus par les défenseurs des RCT, et il n’est pas toujours possible de les surmonter à un coût raisonnable. Quelle est alors l’applicabilité des évaluations randomisées pour mesurer l’impact des interventions de développement ? Elles peuvent être utiles si leurs risques sont identifiés et traités. Cela étant, elles ne sont pas toujours appropriées. Elles ne se concentrent que sur un seul paramètre de la politique, alors que la plupart des interventions de développement sont motivées par des théories d’action et de changement complexes et visent de nombreux objectifs politiques. Elles supposent également que les interventions sont fixes et stables alors que, dans le monde réel, elles sont flexibles et adaptables.
44Les RCT sont redondantes lorsqu’il n’existe aucune autre explication plausible concernant les résultats observés. Elles ne sont pas toujours une option réalisable. Il n’est par exemple pas possible de randomiser l’emplacement géographique de projets d’infrastructure (Ravallion, 2009a). Les méthodes expérimentales ne sont pas applicables lorsqu’aucun groupe cible non traité ne peut être identifié, par exemple lorsqu’une intervention a une portée universelle (imposition d’une limite légale pour la consommation d’alcool, programme de réforme de la fonction publique, libéralisation d’un régime d’importation, etc.) ou lorsque le modèle de l’intervention est flexible et adaptable à des circonstances nouvelles (Lensink, 2014).
45La validité externe n’est pas non plus le point fort des méthodes expérimentales. Même lorsque les expérimentations sont appropriées, elles peuvent ne pas répondre aux besoins des décideurs politiques, qui se préoccupent, avant tout, non pas de ce qui s’est passé dans un échantillon expérimental d’essai, mais des chances que cela continue à fonctionner dans un environnement de mise en œuvre diversifié, complexe et instable (Cartwright et Munro, 2010). La taille, la structure et le contexte des programmes sont déterminants pour le résultat des activités de développement.
46L’argument plaidant en faveur des études observationnelles et des études qualitatives réside également dans le fait que seules les expérimentations fondées sur une théorie plausible valent la peine d’être menées. Ainsi, les examens systématiques qui agrègent les conclusions d’études sur les transferts monétaires conditionnels sans tenir compte des élasticités différentielles de la demande sont quasiment dénués de sens. Pour obtenir une évaluation de qualité, il est essentiel de bien comprendre le fonctionnement d’un programme dans son contexte spécifique et de préciser la théorie sur laquelle se fondent les conclusions. La compréhension appropriée des relations causales et l’identification des explications concurrentes à réfuter requièrent une connaissance approfondie de l’intervention, de sa conception, de ses protocoles de mise en œuvre et des motivations des participants et des bénéficiaires du programme.
47Même lorsque les expérimentations visant à définir l’attribution paraissent sensées, elles nécessitent d’excellentes compétences, des études poussées, de grands échantillons et des dispositifs spécifiques d’assurance qualité. Or, ces conditions préalables ne peuvent pas toujours être réunies dans le domaine du développement. De ce fait, les RCT sont susceptibles de ne pas permettre une utilisation parcimonieuse des rares ressources d’évaluation. Elles peuvent également empêcher le recours à des évaluations moins coûteuses et plus efficaces, et entraver la pleine participation des bénéficiaires de l’aide au processus d’évaluation en transférant le contrôle d’une évaluation d’impact économétriquement sophistiquée à des universités bien dotées et à des groupes d’experts situés dans des pays développés.
Préoccupations éthiques
48Les RCT constituent une réponse au biais de sélection lorsque les personnes qui accèdent au programme sont plus riches, plus puissantes, plus motivées ou plus instruites. L’assignation aléatoire aux groupes de traitement et de non-traitement à partir de la même population garantit qu’à l’exception des fluctuations dues au hasard, l’impact de l’intervention peut être déterminé de manière fiable en veillant à ce que tous les facteurs susceptibles d’altérer les résultats soient identiques, sauf erreurs stochastiques. Les évaluations randomisées fournissent également aux évaluateurs une mesure de la significativité statistique des résultats de l’évaluation.
49Ce sont là de formidables avantages. Mais les méthodes expérimentales soulèvent presque invariablement des préoccupations éthiques qui ne sont pas souvent reconnues par les randomistas. Il peut être discriminatoire, voire illégal, de priver les membres du groupe de contrôle d’un traitement utile sur la base d’un processus de sélection perçu comme capricieux et arbitraire. Dans certains territoires, il est interdit d’administrer aux membres du groupe de comparaison un traitement inférieur au meilleur traitement disponible.
50De même, il n’est généralement pas considéré comme une pratique éthique d’inciter les membres d’un groupe de traitement à participer à une intervention qui peut avoir des effets secondaires négatifs. Paradoxalement, les procédures de consentement éclairé appliquées dans de tels cas peuvent introduire le biais de sélection que la méthode est justement censée éviter, de sorte que des expérimentations en aveugle doivent être utilisées. Même dans ce cas, on ne peut pas éliminer les effets subtils que les expérimentations peuvent induire sur les groupes de traitement et de non-traitement (biais de Hawthorne et de John Henry).
Effets imprévus
51En privilégiant les interventions publiques qui peuvent être évaluées par des méthodes expérimentales, on encourage la sélection de programmes et de projets simplistes qui peuvent ne pas être adaptés à l’objectif visé et/ou favoriser l’évitement des questions évaluatives essentielles au profit des seules questions qui se prêtent à la randomisation. Les RCT ne peuvent pas répondre seules aux questions suivantes : « pourquoi ? », « qui ? » et « et alors ? ».
52La plupart des politiques, programmes et projets de haut niveau qui sont privilégiés aujourd’hui par les agences internationales de développement ne peuvent être évalués par un traitement randomisé. Cela signifie que la randomisation convient surtout aux problématiques limitées ou aux projets simples, avec des participants et des non-participants facilement identifiables, et dont les externalités ne risquent pas de fausser les résultats. Elle est peu adaptée à l’évaluation de programmes complexes ou compliqués dans des environnements instables. Or, c’est justement là que le manque de connaissances est le plus important.
Il existe des alternatives
53De nombreux évaluateurs mènent toute leur carrière sans recourir à la moindre évaluation randomisée. Cela s’explique en partie par le fait que d’autres méthodes sont mieux adaptées pour déterminer pourquoi les interventions réussissent, si des problèmes de conception ou de mise en œuvre expliquent les échecs constatés des interventions ou qui, parmi les partenaires du développement, est responsable des résultats observés. Elles impliquent la participation, l’observation, l’analyse d’informations textuelles, des réunions de village, des entretiens non directifs, etc.
54Pour permettre une analyse économétrique, la collecte de données qualitatives nécessite bien entendu un codage minutieux et une quantification systématique. Les méthodes qualitatives guidées par des théories du changement étudient ce qui s’est passé et pourquoi. Elles sont mieux à même d’expliquer pourquoi les effets escomptés ont été atteints ou non (ainsi que l’étendue et la nature des effets imprévus). Elles aident à faire la distinction entre les problèmes liés à la conception et ceux relevant de la mise en œuvre.
55Alors que les méthodes expérimentales sont fondées sur des données, les approches qualitatives basées sur la théorie sont définies par les questions qui intéressent les parties prenantes et par les hypothèses qui sont intégrées dans les interventions des programmes et des projets (Bamberger et al., 2010). Enfin, il existe une grande variété d’outils permettant de simuler un contrefactuel, sans passer par la randomisation. La liste qui suit n’est qu’une indication de la richesse des méthodes et outils dont disposent les évaluateurs. Elle ne prétend nullement évaluer leurs forces et faiblesses respectives dans divers contextes d’évaluation.
Analyse de régression et analyse factorielle
56L’analyse de régression permet de déterminer dans quelle mesure diverses caractéristiques relatives au contexte et aux bénéficiaires d’une intervention expliquent les variations des effets obtenus. Le résultat est imputable au programme, en supposant que toutes les explications concurrentes ont été prises en compte dans le modèle. La régression par discontinuité compare les effets du traitement sur des sujets sélectionnés selon un critère (par exemple, la notation des sujets par des experts en fonction de leur probabilité de réussite, ou de leur besoin de bénéficier de l’intervention). Elle compare l’effet du traitement juste au-dessus d’un seuil d’éligibilité avec ceux obtenus juste en dessous de ce seuil.
Modèles quasi expérimentaux
57Lorsque la randomisation n’est pas réalisable, elle peut être simulée au moyen de modèles quasi expérimentaux. Les personnes incluses dans les groupes de traitement et de non-traitement sont appariées pour assurer une certaine similarité au niveau des caractéristiques susceptibles d’influencer le résultat. Des ajustements statistiques peuvent être pratiqués pour garantir une étroite ressemblance entre les deux groupes sur ces dimensions pertinentes.
Modélisation statistique multivariée
58Conçu pour prendre en compte toutes les relations supposées entre les variables de traitement et de non-traitement, ce modèle doit permettre d’expliquer les différences entre les deux groupes au stade initial afin que les différences observées au stade post-traitement puissent être compensées statistiquement. Mais cette approche présente des inconvénients propres : elle suppose non seulement que le modèle a cerné avec précision les relations entre les variables, mais aussi que tous les facteurs expliquant les différences avant traitement ont été identifiés.
Approches participatives
59L’évaluation d’impact qualitative repose sur les perceptions exprimées par les bénéficiaires réels ou potentiels, les observateurs experts et/ou les décideurs. Le vote par couleur facilite le débat de principe en affichant les opinions des parties prenantes par des présentations en couleurs de leurs votes (ou scores) sur des questions clairement formulées concernant l’intervention. La schématisation conceptuelle implique l’utilisation de tableaux à feuilles mobiles et de cartes (ou de logiciels de traitement des données) pour obtenir une image graphique des perceptions des parties prenantes sur les impacts potentiels d’une intervention de développement. Elle fait appel à des modérateurs expérimentés pour motiver un groupe représentatif de parties prenantes qui sont bien informées et décidées à participer.
Enquêtes et échantillonnage
60La collecte et l’interprétation des données d’enquête, les entretiens structurés ou semi-structurés, les groupes de discussion et autres méthodes d’implication des bénéficiaires peuvent permettre de comprendre ce qui fonctionne, ce qui ne fonctionne pas et pourquoi. Lorsque des groupes importants de citoyens ou de bénéficiaires sont interrogés, la collecte et l’interprétation des données exigent des stratégies d’échantillonnage efficaces.
Méthode d’élimination générale
61Scriven (2008) a proposé une alternative aux RCT inspirée par les techniques d’enquête criminelle et mettant l’accent sur les mobiles, les moyens et l’opportunité. Cette méthode d’élimination générale nécessite une revue des travaux publiés et/ou la consultation de personnes possédant une expertise tacite pertinente sur le domaine de l’intervention. Le processus commence par un recensement systématique des causes possibles relevant de l’intervention. Ensuite, une liste des modus operandi est établie pour chaque cause possible. Elle est suivie d’un examen détaillé des faits relatifs au cas. Seules les causes qui tiennent encore sont retenues comme explications potentielles.
Panels d’experts
62Le recours à des panels d’experts composés de spécialistes indépendants qui connaissent bien le domaine de l’intervention peut être utile en combinaison avec d’autres méthodes, notamment lorsque l’équipe d’évaluation ne comporte pas de spécialistes du domaine ou d’évaluateurs chevronnés. Ces panels peuvent être utilisés pour déterminer si les impacts observés sont conformes à ce qui peut raisonnablement être attendu dans un contexte spécifique. La validité et la fiabilité des jugements des panels d’experts peuvent être améliorées grâce à la méthode Delphi (ou méthode de Delphes), à savoir des procédures de consultation de chacun des experts sans concertation préalable entre eux.
Étude comparative (benchmarking)
63L’étude comparative utilise des tests de performances clés pour juger de l’impact par des comparaisons avec les bonnes ou les meilleures pratiques observées dans des circonstances similaires. L’étude comparative interne identifie et cherche à reproduire les bonnes pratiques observées au sein d’un programme. L’étude comparative externe compare l’impact d’une intervention avec celui d’une initiative caractérisée par des conditions similaires et réputée avoir atteint des normes d’excellence.
Le marché actuel de l’évaluation favorise les RCT
64Étant donné l’écrasant consensus auquel la communauté de l’évaluation est parvenue concernant les sérieuses limites des RCT, qu’est-ce qui explique l’ascension extraordinaire du mouvement expérimentaliste pour les évaluations en matière de développement international ? Quoi qu’en pensent les experts, en pratique, la politique d’évaluation tend naturellement à refléter les intérêts dominants dans la société. Par conséquent, les concepts d’évaluation les plus influents à un moment donné traduisent les modèles mentaux qui motivent les décisions des puissants de ce monde.
65Les dynamiques qui en résultent sont appréhendées de façon très pertinente par Vedung (2010) dans son célèbre modèle de diffusion des évaluations. Il raconte l’histoire de l’évaluation comme une succession de vagues poussées par les vents changeants de l’idéologie politique. Chaque vague est entraînée par la marée des doctrines du moment. La vague finit par perdre de l’énergie et, une fois arrivée au bout de sa course, elle laisse derrière elle des couches de sédiments intellectuels qui enrichissent la discipline et en façonnent les contours.
Les vagues de diffusion de l’évaluation
66Le mouvement expérimentaliste est emblématique de la première vague et, comme nous l’avons déjà mentionné, les hypothèses positivistes qui le sous-tendent ont progressivement été délaissées et, sous les gouvernements démocratiques des États-Unis, une vague constructiviste, participative et pluraliste axée sur le dialogue a déferlé à la fin des années 1960, lorsque les valeurs sous-jacentes de la guerre intérieure contre la pauvreté et l’aide internationale se sont rencontrées. Puis, dans les années 1980, le vent politique s’est mis à souffler brusquement vers la droite. Une troisième vague néolibérale puissante s’est alors formée, engloutissant la discipline de l’évaluation. Marquée par le nouveau courant de pensée du New Public Management, elle a supplanté les approches évaluatives constructivistes, dialogiques, participatives et démocratiques de la deuxième vague.
67Nous surfons maintenant sur une quatrième vague. Elle repose sur des preuves empiriques et tient le néolibéralisme pour acquis. Elle est axée sur la réalisation des objectifs et privilégie les méthodes quantitatives. Elle légitime une évaluation dénuée de toute valeur en la parant d’attributs technocratiques. Elle accorde une place de choix à l’accomplissement des buts politiques fixés par les dirigeants. Elle prospère en surveillant les progrès au moyen d’indicateurs athéoriques. Dans cet environnement favorable, une approche technocratique, positiviste, axée sur l’utilisation et fortement dépendante des méthodes expérimentales répond tout à fait aux exigences d’un marché de l’évaluation de plus en plus dominé par des intérêts particuliers.
68Paradoxalement, le même milieu intellectuel qui aspirait à des méthodes d’évaluation plus rigoureuses a fait naître de nouvelles menaces pour l’intégrité des processus d’évaluation et la validité de leurs résultats. Selon House (2014), « en raison des changements structurels intervenus dans la société, nous faisons face à un nouvel ensemble de biais potentiels, une famille de biais que nous devons ou devrions gérer ». Parmi ces changements structurels, on note l’envahissement progressif des affaires publiques par des intérêts privés exacerbés. Les travaux d’évaluation dans la recherche médicale (toujours acclamés et qualifiés d’exemplaires par les défenseurs des RCT) sont emblématiques des risques auxquels est actuellement confrontée l’entreprise d’évaluation du développement.
Les sirènes de la recherche médicale
69Amorcer une initiative de transformation sociale par le biais d’une intervention de développement n’est pas la même chose que d’administrer un médicament. Cela ne signifie pas pour autant que le travail scientifique n’est pas capable de rigueur dans le domaine de la recherche médicale ou que la randomisation n’est pas une méthode de choix pour évaluer l’attribution dans certaines circonstances. Mais il faut avoir conscience des écueils de la recherche médicale telle qu’elle est actuellement pratiquée avant de la transposer à l’identique dans le domaine de l’évaluation du développement.
70Dans la pratique, les études de recherche médicale évaluées par des pairs et diffusées par les médias grand public ont annoncé des conclusions différentes concernant les bienfaits sur la santé de traitements comme la prise régulière de vitamines, la prise d’une aspirine par jour, le fait de dormir plus de huit heures par nuit, la consommation de vin rouge à chaque repas, les risques de cancer liés à l’utilisation des téléphones portables, le fait d’habiter à proximité d’une ligne électrique à haute tension, etc. Des allégations extravagantes et parfois frauduleuses ont réussi à passer à travers les mailles du processus d’examen par des pairs des revues scientifiques. Ainsi, une grande évaluation randomisée a révélé que les prières secrètes d’inconnus peuvent sauver la vie de patients ayant subi une chirurgie cardiaque, alors qu’une autre a prouvé qu’elles peuvent leur nuire (Freedman, 2010).
71Ioannidis (2005a), directeur du Prevention Research Center de l’université de Stanford, a conçu un modèle mathématique permettant d’évaluer la probabilité qu’un résultat de recherche médicale soit vrai. Son article de référence confirme que la probabilité des hypothèses dépend de bien d’autres éléments que le seuil de l’intervalle de confiance fixé à 5 % par la plupart des revues. Ses simulations montrent en particulier qu’une mauvaise sélection de la relation testée, une puissance insuffisante des modèles statistiques, des traitements médicaux caractérisés par des effets mineurs, diverses sources de préjugés chez les chercheurs, etc. ont eu un effet dévastateur sur la validité de la plupart des résultats de recherche publiés.
72Même à des niveaux modestes, les biais des chercheurs (alimentés par l’ambition ou la conviction) sont propices à une mauvaise interprétation des essais statistiques, à une utilisation faussée des preuves et/ou à une présentation trompeuse des résultats. Ceux publiés sur la recherche médicale sont souvent manifestement faux. Et même les résultats les plus salués peuvent ne pas être dignes de confiance (Ioannidis, 2005b). Cette érosion de la crédibilité de la recherche médicale est due à l’invasion des intérêts particuliers, un risque qui pèse de plus en plus sur le monde de l’évaluation.
73Jusqu’aux années 1980, la recherche sur les médicaments était largement indépendante des sociétés pharmaceutiques. Ce n’est plus le cas : les essais cliniques sont désormais contrôlés par des multinationales privées et les RCT ne protègent pas le processus contre les nombreux biais systémiques (House, 2008) :
- les nouveaux médicaments sont souvent testés en parallèle avec des placebos (le contrefactuel sélectionné), plutôt qu’avec des médicaments en usage, ce qui conduit souvent à recommander des variantes mineures de médicaments existants, même si elles ne sont pas supérieures à ceux-ci ;
- les comparaisons entre médicaments concurrents ne se basent pas toujours sur des dosages équivalents ;
- des sujets plus jeunes, qui souffrent moins d’effets secondaires, sont sollicités pour les essais, même si ces médicaments sont plus souvent destinés à des patients plus âgés ;
- les échelles de temps sont fréquemment manipulées, c’est-à-dire que les essais sont souvent de courte durée, même pour des médicaments administrés à vie ;
- comme ce sont les sociétés, et non les chercheurs, qui contrôlent l’analyse et la publication des données, les résultats des essais négatifs ou non concluants sont généralement dissimulés et des rapports sont rédigés pour présenter les produits sous un jour favorable.
Des incitations faussées
74Sur le marché actuel de l’évaluation, les puissants tiennent les cordons de la bourse. Aucune évaluation n’est conçue et mise en œuvre sans la participation pleine et entière des responsables. Ces contraintes se traduisent par des incitations faussées qui menacent l’intégrité et l’indépendance de l’évaluation. Il n’est guère surprenant que les RCT soient favorisées par des intérêts particuliers, puisqu’elles se gardent bien d’examiner l’impact sur les résultats de l’aide d’une sélection inadéquate des programmes ou d’une mauvaise gestion.
75Le cas de la recherche médicale démontre que les RCT sont exposées à une sélection trompeuse des comparateurs, à un tri sélectif des données, à des biais dans la présentation des résultats, à des pressions financières, etc. lorsqu’elles sont accaparées par des intérêts particuliers. Même si la recherche est menée par les universités, la plupart des essais sont désormais financés par des sociétés pharmaceutiques en vertu de contrats qui restreignent la liberté des chercheurs en permettant à des sponsors privés de contrôler étroitement les modèles d’évaluation, l’analyse des données, l’interprétation des recherches, la diffusion des résultats, etc.
76Ainsi, la mainmise insidieuse des intérêts particuliers sur la recherche médicale démontre que les menaces qui pèsent sur la validité des évaluations peuvent être davantage liées à un manque d’indépendance qu’à une absence de rigueur méthodologique. En d’autres termes, la pratique de la recherche médicale n’a rien d’une norme d’excellence.
77Compte tenu de l’influence croissante des intérêts commerciaux et géopolitiques dans le domaine de l’aide internationale, le triste bilan de la recherche médicale fait craindre des risques imminents pour l’évaluation du développement. Seuls des principes éthiques et des normes agréées permettant d’encadrer la pratique professionnelle peuvent faire obstacle à l’emprise des intérêts partisans sur l’évaluation.
Des contributions modestes aux connaissances sur le développement
78En plus de vérifier si des interventions menées au niveau individuel « fonctionnent » comme prévu, les randomistas ont pour ambition de produire des résultats importants en matière de recherche en sciences sociales et de politiques. Selon le site web du J-PAL du MIT, « les évaluations randomisées peuvent générer des informations importantes sur le comportement humain et les institutions, en plus de mesurer les impacts de programmes et de politiques spécifiques. Les connaissances découlant de multiples évaluations randomisées sur un même sujet peuvent aider à la prise de décisions par des gouvernements, des ONG, des entreprises et des bailleurs de fonds qui travaillent à relever des défis similaires » (Dhaliwal et Olken, 2018). Tout porte à croire que ces prétentions ont une validité limitée.
Un champ d’application étroit
79Les RCT considèrent leur absence de lien avec toute théorie comme un avantage. Ceci se transforme en inconvénient dans la recherche en sciences sociales, sauf si les RCT sont associées à d’autres méthodes et s’appuient sur des connaissances préalables (Vivalt, chap. 11, ce volume). En effet, les RCT individuelles ne peuvent pas à elles seules prétendre à la réplicabilité d’un contexte opérationnel à un autre. Les aléas statistiques associés à l’échantillonnage entravent sérieusement la transférabilité des résultats en dehors du contexte dans lequel les expérimentations ont été conçues et réalisées. Ce n’est pas seulement dû au fait que les RCT ne donnent pas toujours une estimation fiable des effets de traitement moyens, mais aussi parce que la garantie de causalité au niveau de l’intervention ne permet guère d’établir la validité externe des résultats des RCT (Deaton et Cartwright, 2018).
80De surcroît, les RCT sont méthodologiquement parcimonieuses et ont une portée limitée. Comme elles s’attachent surtout à éliminer le biais de sélection des interventions de développement, elles ne traitent que de questions restreintes portant sur l’efficacité des mécanismes de fourniture de biens privés. Les biens publics, c’est-à-dire les biens qui ne sont ni rivaux ni exclusifs, ne se prêtent pas aisément à la randomisation.
81Les RCT ne sont donc pas capables de traiter des enjeux cruciaux en matière de politique de développement, comme le changement climatique, la biodiversité, la sécurité publique, la propriété intellectuelle, etc. Pour ces biens, qui sont au cœur de la politique de développement durable, il n’est pas possible de concevoir des expérimentations permettant de faire la distinction entre ceux qui ont bénéficié du « traitement » et ceux qui n’en ont pas bénéficié.
Une position paternaliste
82Les RCT se concentrent sur la manière dont les bénéficiaires de l’aide (c’est-à-dire les pauvres) pensent et se comportent. Cette position est en phase avec l’opinion selon laquelle la pauvreté est un choix personnel, plutôt que la conséquence des dispositifs sociaux et structures politiques existants. Les randomistas mènent un travail de terrain pour construire des enquêtes statistiquement plausibles. Mais ils privilégient des modèles mentaux préexistants et réactionnaires qui se focalisent sur des ajustements marginaux des politiques existantes plutôt que sur des choix radicaux de politiques alternatives.
83Encouragés par les résultats de l’économie comportementale en vogue, ils sont ainsi enclins à remettre en question la rationalité des choix des pauvres et, plutôt que d’étudier les dysfonctionnements sociaux qui limitent leurs options et sapent leurs initiatives, ils se concentrent sur la façon dont les décideurs politiques peuvent les aiguiller vers des changements comportementaux prédéterminés, même si ces changements ne reflètent pas toujours leurs préférences ou leur situation.
Des contributions limitées à la connaissance
84L’évaluation donne des résultats significatifs lorsqu’elle aborde des problématiques opérationnelles importantes et pertinentes. Pour porter ses fruits, elle doit donc passer par une sélection judicieuse des sujets d’évaluation. Sur le plan de l’utilisation, l’évaluation indépendante, conçue comme un outil d’apprentissage organisationnel et axée sur des questions stratégiquement pertinentes, présente des avantages majeurs par rapport aux évaluations expérimentales dispersées, réalisées dans des contextes très différents pour le compte de clients variés et souvent intéressés. C’est particulièrement le cas lorsque ces évaluations expérimentales sont mises en œuvre par des agents extérieurs, qui ont une expérience limitée du développement et qui sont handicapés par des asymétries informationnelles massives et poussés par des chercheurs impatients de publier leurs travaux.
85Certes, les RCT contribuent à la connaissance du développement lorsqu’elles traitent d’une question politique pertinente, lorsqu’elles exploitent les résultats accumulés dans la littérature et lorsqu’elles sont complétées par des études observationnelles et des méthodes qualitatives. La Royal Swedish Academy of Sciences (2019), enthousiasmée par le savoir-faire expérimental de terrain affiché par les économistes du MIT et d’Harvard leur a ainsi attribué le prix Sveriges Riksbank 2019.
86Les RCT ont par exemple contribué à infirmer les prétentions exagérées des ardents défenseurs du microcrédit, qui avaient vu dans les études de cas décrivant des programmes de microcrédit la clé de l’autonomisation des femmes et de la réduction de la pauvreté à grande échelle. Des RCT soigneusement construites dans divers contextes, associées à des observations sur le terrain, ont montré que le microcrédit est un produit financier certes utile, mais qu’il n’est nullement le garant d’un changement social radical.
87Dans certains cas, les microprêts n’ont induit aucune différence notable dans l’influence des femmes sur les décisions et les dépenses des ménages. De même, les conditions rigides et les règles de prêt collectif destinées à protéger la viabilité financière des institutions de microcrédit se sont révélées peu adaptées aux besoins des entrepreneurs en herbe. Les programmes de formation commerciale mis en place par les microprêteurs pour aider les emprunteurs à développer leur entreprise n’ont pas non plus eu un impact significatif sur leurs bénéfices ou leurs ventes (Banerjee et Duflo, 2011). Les RCT ont ainsi contribué à démystifier certains des modèles en vogue, mais imparfaits, qui ont périodiquement déferlé dans le monde du développement.
88Les RCT ont également « redécouvert » certaines bonnes pratiques bien établies dans le domaine du développement, notamment l’efficacité du rattrapage scolaire et des soins de santé préventifs, mise en exergue par la l’Académie royale des sciences de Suède. Dans la même veine, 58 RCT du Laboratoire d’action contre la pauvreté ont produit des données de terrain qui confirment les conclusions de praticiens expérimentés de la politique de l’éducation sur les facteurs permettant d’augmenter les inscriptions et la participation des étudiants, à savoir la baisse (ou la suppression) des frais de scolarité, la réduction des temps de trajet jusqu’à l’école, la prise en charge des problèmes de santé des enfants et l’information des parents sur les bénéfices de l’enseignement.
89Dans le même ordre d’idées, une expérimentation de terrain menée dans 100 villages indiens a permis de valider les résultats d’études antérieures sur le développement agricole : les journées passées au champ par les agriculteurs sont utiles et rentables pour la diffusion de nouvelles variétés à haut rendement. En outre, et sans surprise, une étude expérimentale complexe réalisée au Kenya a confirmé que les conseils sur les applications d’engrais devaient être guidés par la maximisation des profits au niveau de l’exploitation agricole, plutôt que par la maximisation des rendements. C’est comme si les randomistas cherchaient des preuves que les sciences économiques sont dignes d’intérêt ou que leur instrument d’évaluation favori « fonctionne ».
Les RCT ne sont qu’un outil parmi d’autres
90Compte tenu de ces observations, les RCT obéissent-elles aux principes, objectifs et pratiques de base de la discipline de l’évaluation ? Si les définitions de l’évaluation et des modèles d’évaluation sont légion, nombreux sont ceux qui reconnaissent le rôle essentiel de la valeur dans l’évaluation, au sens proposé dans la définition concise donnée par Scriven (1991 : 5) et largement acceptée par la communauté de l’évaluation comme « le processus de détermination du mérite, de la pertinence et de la valeur des choses – ou le résultat de ce processus ». Les trois dimensions d’intérêt de cette définition sont interdépendantes, mais c’est le critère de valeur qui distingue le plus l’évaluation des autres types d’enquête.
91Tout d’abord, le mérite détermine les performances par rapport aux normes de qualité. Il s’agit de bien faire les choses pour atteindre les objectifs de l’intervention, ce qui relève de l’efficacité définie dans le glossaire du Comité d’aide au développement (2010 : 20) comme étant la « mesure selon laquelle les objectifs de l’action de développement ont été atteints, ou sont en train de l’être, compte tenu de leur importance relative ».
92Ensuite, l’intérêt a trait au fait de faire les choses appropriées. Il fait référence aux bénéfices nets qui peuvent légitimement être attribués à l’intervention en tenant compte de considérations de mérite fondées sur les perspectives de ceux qui sont censés bénéficier de l’intervention et d’autres parties prenantes, personnes ou entités concernées par l’intervention. Il s’agit de la pertinence telle que définie dans le glossaire du comité d’aide au développement comme étant « la mesure selon laquelle les objectifs de l’action de développement correspondent aux attentes des bénéficiaires, aux besoins du pays, aux priorités globales, aux politiques des partenaires et des bailleurs de fonds » (Comité d’aide au développement, 2010 : 32).
93Enfin, la valeur évoque l’intérêt collectif et intègre également des considérations d’économie dans les ressources utilisées pour atteindre les résultats escomptés, c’est-à-dire faire les choses efficacement par rapport à d’autres façons de concevoir et de mettre en œuvre l’intervention. Plus précisément, l’efficience est définie par le glossaire du comité d’aide au développement comme étant « la mesure selon laquelle les ressources (fonds, expertise, temps, etc.) sont converties en résultats de façon économe » (Comité d’aide au développement, 2010 : 21).
Dans quelle mesure les RCT sont‑elles évaluatives ?
94Les RCT font partie intégrante de la boîte à outils de l’évaluateur et il ne fait guère de doute que la détermination de la causalité des résultats observés (l’objectif fondamental des RCT) constitue un élément essentiel pour juger de leur mérite. Par contre, cette approche restreinte de l’évaluation ne permet guère de définir si une intervention est pertinente, efficiente ou durable. Établir qu’une intervention fonctionne n’est pas la même chose que déterminer si c’était la bonne intervention, comprendre pourquoi elle a fonctionné de cette façon ou si ses objectifs valaient la peine d’être poursuivis au départ.
95Les objectifs, la portée, la structure et le contexte du programme sont d’une grande importance pour façonner le résultat des politiques et programmes. Même lorsque les expérimentations constituent une approche adaptée pour l’analyse d’attribution, les résultats peuvent ne pas satisfaire tous les besoins ressentis par les décideurs politiques, qui se préoccupent moins de ce qui s’est passé dans l’expérimentation que des chances qu’elle a de continuer à fonctionner dans d’autres contextes ou dans le futur, étant donné la prédominance des environnements de mise en œuvre complexes et volatils (Cartwright et Munro, 2010).
96Enfin, en l’absence de théorie susceptible d’être infirmée, il n’est pas possible de faire progresser les connaissances. Une évaluation de grande qualité, permettant d’établir la validité de la théorie sur laquelle repose le programme, requiert une compréhension approfondie du fonctionnement de celui-ci. La bonne compréhension des relations causales et l’identification des explications concurrentes à réfuter nécessitent de bien appréhender l’intervention, sa conception, ses protocoles de mise en œuvre et les motivations des participants et des bénéficiaires du programme. Les questions ouvertes et les approches qualitatives sont mieux adaptées à ces questions.
97Cela explique pourquoi l’évaluation indépendante, fondée sur le travail de terrain, intégrée à l’organisation et réalisée par des praticiens expérimentés, s’est avérée beaucoup plus efficace que les RCT pour réorienter les processus opérationnels et pour supprimer (Gautam, 2000) ou restructurer les lignes de crédit de développement inefficaces (Tendler, 1993). La caricature de l’évaluation interne inévitablement subordonnée à l’intérêt personnel des institutions n’est pas davantage valable, surtout lorsque la fonction d’évaluation est responsable devant l’autorité suprême de l’organisation plutôt que devant la direction opérationnelle et qu’elle est mandatée pour attester de la qualité de processus auto-évaluatifs (Picciotto, 2013).
98Les politiciens et les fonctionnaires font des choix collectifs concernant l’allocation et l’utilisation des ressources publiques. Ils ont pour mission de valoriser au mieux l’ensemble des actifs dont ils ont la charge. Ils doivent démontrer qu’ils le font de manière responsable et efficace. Par conséquent, la clé pour légitimer le pouvoir et l’autorité tient à un argumentaire valide et digne de foi sur la création de valeur publique.
99Dans sa mission sommative, l’évaluation examine les résultats des politiques et des programmes, et s’attache à déterminer dans quelle mesure les autorités dirigeantes ont agi de manière responsable. Le principal mécanisme permettant de remédier aux mauvaises performances d’un gouvernement est la voix des citoyens. L’évaluation l’amplifie en fournissant aux électeurs des connaissances pertinentes sur les performances du secteur public.
100La gestion du secteur public a longtemps été dominée par une évaluation de la valeur publique basée sur de simples mesures de rendement et des coefficients budgétaires plutôt que sur les résultats et les impacts. Or, ces indicateurs laissent beaucoup à désirer. Ils ne mesurent pas les résultats et sont faciles à manipuler. Les informations fournies par les responsables du secteur public sur leur travail nécessitent une validation étayée : l’évaluation indépendante dans le secteur public équivaut à la vérification des comptes dans le secteur privé.
101C’est donc là qu’intervient l’évaluation indépendante : elle a pour mission de déterminer de manière fiable si les erreurs décisionnelles sont dues à des circonstances sur lesquelles les décideurs n’ont aucune prise ou si les risques encourus pouvaient être mieux gérés. Une évaluation juste et objective est un facteur de responsabilisation : elle garantit que les promesses faites par les politiciens et les décideurs des secteurs public, privé et associatif sont systématiquement mises en regard des résultats fournis par des processus d’évaluation justes et objectifs. La mise en regard des résultats avec les promesses faites lors du lancement d’une politique ou d’un programme fait partie intégrante du processus démocratique.
102Les méthodes orientées sur les objectifs occupent ainsi une place privilégiée dans l’arsenal de l’évaluateur. Mais, à cet égard, l’évaluation expérimentale ne peut prétendre faire la distinction entre les effets imputables aux différents acteurs – qui sont invariablement impliqués dans les interventions des politiques – et aux programmes. Pourtant, la plupart des politiques et des programmes sociaux reposent sur des partenariats entre diverses entités du gouvernement, du secteur privé et de la société civile pour atteindre des résultats et avoir des impacts. Si l’on n’évalue pas les contributions respectives des partenaires et le respect de leurs obligations réciproques, les responsabilités de chacun restent floues.
103La responsabilité d’un échec peut par exemple être totalement éludée si elle est sommairement attribuée à la mauvaise performance d’un partenaire. Inversement, la responsabilité d’une réussite peut être injustement attribuée à un seul partenaire (une agence gouvernementale, par exemple), que sa contribution à l’atteinte des objectifs communs le justifie ou non. L’absence d’évaluation adéquate peut donc avoir des effets délétères sur les motivations en émettant des signaux erronés.
104Ainsi, lorsque l’échec d’un programme ou d’un projet (s’il se produit) est intégralement imputé à l’organisme qui met en œuvre l’intervention (indépendamment des influences exogènes et des contributions des partenaires), cela induit une aversion au risque et peut même conduire à la suspension des programmes qui ne parviennent pas à atteindre des objectifs ambitieux, manquant par là même l’opportunité de les adapter pour qu’ils puissent réussir.
105Les bonnes évaluations doivent donc explicitement tenir compte des responsabilités respectives et des obligations réciproques des partenaires. Si les performances des différents acteurs ne sont pas évaluées séparément pour expliquer les résultats et les impacts, le risque moral l’emportera. Une évaluation sommative de grande qualité ne se contente donc pas de répondre à la question de savoir si une politique ou un programme fonctionne ou non, ce qui est l’objectif très limité de l’évaluation d’impact expérimentale.
106En résumé, pour une approche se targuant souvent à tort de favoriser fortement la responsabilisation, la nouvelle conception de l’évaluation d’impact utilisant les RCT élude la question embarrassante de savoir qui doit répondre des écarts observés entre, d’un côté, les objectifs des politiques et des programmes et, de l’autre, les résultats réels. En se limitant à l’attribution d’effets à l’intervention, les RCT ne répondent pas à la question de la contribution, c’est-à-dire dans quelle mesure chacun des partenaires individuels impliqués dans l’action de développement a contribué à la réalisation des objectifs du programme ou du projet, et ce qui pourrait être fait pour améliorer ses performances.
Manier les bons outils
107Les RCT ne sont qu’un outil d’évaluation parmi d’autres. En tant que telles, elles ne devraient pas être autorisées à dominer ce qui est avant tout un processus créatif, analytique et participatif. Les méthodes expérimentales présentent de nombreuses caractéristiques statistiques que d’autres modèles d’évaluation peuvent difficilement égaler dans certaines circonstances. Il est dangereux pour la bonne gestion de l’évaluation de surinvestir une technique unique. Un outil ne peut remplir que la ou les fonction(s) pour laquelle/lesquelles il a été conçu.
108Utiliser les bons outils, et les utiliser avec soin et compétence, compte pour beaucoup dans la qualité de l’évaluation. Mettre en œuvre des méthodes inappropriées peut ruiner une évaluation. Mais d’autres facteurs peuvent également compromettre la rigueur d’une évaluation : une collecte de données bâclée, des évaluations politiquement naïves, le manque d’indépendance, l’absence de compétences adéquates des évaluateurs, l’incapacité à se focaliser sur l’utilisation, l’ignorance du contexte, une participation limitée des parties prenantes, la concentration sur des questions sans importance ou non pertinentes, etc.
109Des outils bien choisis et employés dans les règles de l’art contribuent à la validité des évaluations. Ils facilitent la comparaison de celles-ci, ainsi que leur chiffrage financier et leur planification. Ils rendent les résultats des évaluations plus crédibles et plus prévisibles. Comprendre et mesurer les limites des outils utilisés dans un contexte est essentiel pour garantir la qualité. L’incapacité à corréler le modèle détaillé de l’évaluation avec les questions prioritaires identifiées au stade de la planification explique pourquoi de nombreuses évaluations tournent mal.
110La compréhension des forces, faiblesses et limites respectives des méthodes et outils d’évaluation constitue par conséquent une compétence critique pour les évaluateurs. Si les méthodes expérimentales et quasi expérimentales peuvent, dans certaines circonstances, éclairer l’attribution des résultats observés, les études observationnelles basées sur la théorie et les évaluations de processus appliquant une triangulation judicieuse des méthodes sont plus adaptées pour expliquer le « comment » et le « pourquoi » des effets observés. C’est donc une chance que toutes les directives et normes d’évaluation nationales et régionales accordent aux approches qualitatives l’importance et la crédibilité qui se doit. Elles privilégient ainsi la pertinence méthodologique et le pluralisme par rapport à l’orthodoxie doctrinale.
Conclusion
111Le mouvement expérimentaliste a des racines historiques profondes. Vendues avec succès par des chercheurs-entrepreneurs, les RCT jouissent d’une grande loyauté de leurs praticiens. Elles promettent certitude et rigueur dans un monde du développement caractérisé par une volatilité et une complexité extraordinaires. Elles comportent pourtant une foule de limites. Elles sont coûteuses et doivent faire face à de nombreux défis statistiques et éthiques. Leurs fondements épistémologiques sont peu solides, leur prétention au titre d’étalon-or est injustifiée et les arguments selon lesquels les procédures d’évaluation randomisée qui ont fait leurs preuves dans le secteur de la santé sont la clé de la rigueur de l’évaluation dans le domaine des sciences sociales sont infondés.
112Pour ce qui est des interventions menées au niveau individuel, les RCT permettent de tirer des conclusions d’attribution seulement dans le cas d’interventions simples et mises en œuvre dans des environnements stables. Elles ne contribuent à la recherche sur l’action publique en général que lorsqu’elles s’inscrivent dans un processus de production de connaissances cumulées qui s’appuie également sur des études observationnelles et des études qualitatives. D’autres méthodes d’évaluation, associées ou non à l’expérimentation, permettent de traiter de façon convaincante les questions complexes d’une activité de développement qui ne cesse d’évoluer.
113En tant qu’évaluations, les RCT ne traitent qu’un seul des critères évaluatifs fondamentaux (l’efficacité), que les interventions des politiques et des programmes doivent satisfaire pour être jugées efficaces. Elles échouent à traiter les questions de pertinence, d’efficience et de durabilité, qui sont souvent plus importantes. Elles ne permettent pas non plus de distinguer et d’estimer les contributions de chaque partenaire responsable de la réussite ou de l’échec de ces interventions, une lacune majeure puisque la responsabilité envers les citoyens fait partie intégrante de la mission d’évaluation.
114Les randomistas ne sont donc pas des évaluateurs, puisque les RCT ne sont pas des évaluations. Néanmoins, les RCT continueront à jouer un rôle majeur dans le domaine du développement, puisqu’elles sont solidement ancrées dans le monde de la recherche, qu’elles apportent de modestes contributions à la connaissance du développement, qu’elles ne remettent pas en cause les prérogatives du pouvoir. En dépit de leur portée limitée, elles répondent à une réelle demande de preuves officiellement plausibles quant au « bon fonctionnement » des interventions de développement. Le prix Nobel obtenu en 2019 renforcera davantage encore le rôle privilégié des études expérimentales dans l’économie du développement.
Notes de bas de page
1 Communication personnelle.
2 L’avènement de la discipline de l’évaluation coïncide également avec le début des efforts de développement, une période d’optimisme où les épées de la Seconde Guerre mondiale ont été transformées en socs de charrue par les alliés victorieux.
3 Dans la pratique, cette vision ne s’est jamais concrétisée.
4 En médecine, un étalon-or désigne une méthode de diagnostic ou de comparaison considérée comme irréfutable.
5 Le conflit méthodologique dans le monde de l’évaluation a de nouveau brièvement éclaté fin 2003 aux États-Unis, lorsque le ministère de l’Éducation a décidé de privilégier les méthodes expérimentales dans le financement des évaluations.
Auteur
Professeur associé à l’université d’Auckland et conseiller principal indépendant en matière d’évaluation auprès du ministère des Affaires étrangères et du Commerce en Nouvelle-Zélande. Il est diplômé de l’université de Princeton et membre de l’Académie des sciences sociales. Il a pris sa retraite de la Banque mondiale en 2002 après avoir occupé plusieurs postes opérationnels et de gouvernance institutionnelle, notamment celui de vice-président, de responsable de la planification et du budget et celui de directeur général du groupe d’évaluation indépendant pendant deux mandats consécutifs de cinq ans.
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Du social hors la loi
L’anthropologie analytique de Christian Geffray
Yann Guillaud et Frédéric Létang (dir.)
2009
Gestion durable des eaux et des sols au Maroc
Valorisation des techniques traditionnelles méditerranéennes
Éric Roose, Mohamed Sabir et Abdellah Laouina
2010
Madagascar face au défi des Objectifs du millénaire pour le développement
Bénédicte Gastineau, Flore Gubert, Anne-Sophie Robilliard et al. (dir.)
2010
Le projet majeur africain de la Grande Muraille Verte
Concepts et mise en œuvre
Abdoulaye Dia et Robin Duponnois (dir.)
2010
La Grande Muraille Verte
Capitalisation des recherches et valorisation des savoirs locaux
Abdoulaye Dia et Robin Duponnois (dir.)
2012
Parcours de recherche à Madagascar
L’IRD-Orstom et ses partenaires
Christian Feller et Frédéric Sandron (dir.)
2010
Pratiques et représentations linguistiques en Guyane
Regards croisés
Isabelle Léglise et Bettina Migge (dir.)
2008
Les sociétés rurales face aux changements climatiques et environnementaux en Afrique de l’Ouest
Benjamin Sultan, Richard Lalou, Mouftaou Amadou Sanni et al. (dir.)
2015
Aires marine protégées ouest-africaines
Défis scientifiques et enjeux sociétaux
Marie Bonnin, Raymond Laë et Mohamed Behnassi (dir.)
2015