5. La logique inductive est-elle seulement possible ?1
p. 198-220
Texte intégral
1En 1687, paraissaient les Principes mathématiques de la philosophie naturelle. Une science rigoureuse, à la fois universelle et précise, était née. Or Newton lui-même dit qu’il n’a fait que dériver ses lois « à partir des phénomènes », en particulier des « lois de Kepler ». Contre Descartes, il prétend ne pas « feindre d’hypothèses » et se contenter d’induire à partir de l’observation.
2Comme l’a compris Kant, il y a là une énigme. Car l’idée que la puissante théorie newtonienne découle de l’observation se heurte à des objections très fortes. Selon Popper2, elle n’est ni (a) plausible d’un point de vue intuitif, ni (b) historiquement exacte [comme l’avait enseigné Duhem3], ni (c) soutenable d’un point de vue logique. C’est au philosophe écossais David Hume que revient le mérite d’avoir, dès 1739, mis en évidence ce dernier point.
3On peut reconstruire logiquement une partie de l’argument humien comme suit : soit k un ensemble d’observations (passées) vraies. Soit B un ensemble (cohérent) d’observations logiquement possibles. Il est clair que, quel que soit B et quel que soit k, la conjonction Bk est logiquement cohérente : aucune observation future logiquement possible ne saurait jamais venir contredire la classe des observations passées. Comme le dit Nelson Goodman4, le passé n’exerce en tant que tel aucune contrainte logique sur le futur. (Incidemment, on notera que si la théorie newtonienne (N) était dérivable de B, aucune observation future ne pourrait la réfuter.) Si donc N « dépasse » le contenu de B (= fait des prédictions réelles), elle ne peut être dérivée de B. Comment ce dépassement est-il possible ?
4On sait depuis Aristote (au moins : on trouve les prémisses du syllogisme chez Platon) qu’une inférence est déductivement valide si et seulement si, si ses prémisses sont vraies, sa conclusion l’est aussi. La déduction (le syllogisme) transmet la vérité et « retransmet » la fausseté. Affirmer la vérité d’une hypothèse parce que certaines de ses conséquences sont vraies est un sophisme (tout comme affirmer la fausseté d’une conclusion sous prétexte que ses prémisses sont fausses) :

5Dans une déduction valide, il n’y a rien de plus dans la conclusion que dans la conjonction des prémisses. La déduction permet la preuve et la réfutation. Elle est l’organon (l’instrument) de la pensée rationnelle, et en particulier des mathématiques : les théorèmes peuvent être détachés des axiomes et affirmés inconditionnellement grâce au Modus ponens. Mais une conclusion ne va jamais « au-delà » des prémisses (de leur conjonction).
6En revanche, une « inférence inductive » est telle que ses prémisses n’impliquent pas sa conclusion ; c’est la réciproque qui est vraie, sa conclusion implique ses prémisses :

7Il n’y a ni transmission de la vérité, ni « retransmission » de la fausseté. Et l’on ne connaît pas de « règle de détachement » incontestable qui puisse permettre de distinguer à priori entre une inférence inductive légitime et un sophisme. Le passage du singulier au général n’est valide en toute rigueur que négativement : Si nous accordons (provisoirement) notre créance à des « généralisations inductives », qu’à n’en pas douter nous avons tendance à effectuer, c’est l’absence de contre-exemples qui nous y pousse plutôt que la multiplicité des exemples (telle est en tout cas la position poppérienne). Si l’on veut reformuler le « problème de Hume » de manière plus précise, on peut partir des trois propositions suivantes, plausibles d’un point de vue empiriste5 :
Aucun énoncé informatif (« synthétique » au sens de Kant) ne peut être établi ni infirmé sans que l’on ait recours à l’expérience perceptive ;
Toute connaissance authentique du monde réel doit être dérivée de l’expérience sensible ;
Seules les dérivations déductives sont valides.

8Si h est une connaissance, il existe des prémisses vraies e, dérivant des données empiriques, dont h est dérivable. Mais si h affirme quelque chose sur le monde extérieur, et si e porte sur l’expérience perceptive d’un sujet, h transcende e et ne peut en être dérivée. La connaissance authentique (la science) est impossible.
9Il existe de multiples stratégies philosophiques possibles pour répondre à ce défi sceptique. Ainsi, Kant tient (1) pour faux et reformule en conséquence (2). On peut aussi tenir (2) pour faux, tout en conservant (1) et (3) : la connaissance scientifique n’est pas dérivée de l’observation, mais conjecturée librement, puis soumise au contrôle négatif de l’expérience : soit h est réfutée, soit h n’est pas réfutée, auquel cas on dit qu’elle est corroborée. Telle est en un mot l’essence de la solution anti-inductiviste, ou hypothético-déductiviste de Karl Popper. Le résultat le plus frappant de cette approche est que le degré de corroboration d’une théorie par l’expérience n’est pas une probabilité.
10À l’opposé, la stratégie probabiliste (Keynes, Carnap, Reichenbach, Good…) tient que le problème peut être résolu si l’on accorde que le calcul des probabilités constitue une généralisation authentique de la logique booléenne, une logique inductive, telle que :
p (h l e) ≥ p(h) si h Ⱶ e
Si e Ⱶ h, on a
p (h l e) = 1
11Si p (h I e) < 1, on dira que e implique partiellement h ou que e soutient inductivement h [inductive support].
12La probabilité mesure l’effet inductif des données sur l’hypothèse : si e implique partiellement h, cette implication soutient h dans l’exacte mesure où p (h I e) se rapproche de 1. Les données confortent ce qui va au-delà d’elles (la partie de h qu’elles n’impliquent pas).
13Donner un sens rigoureux à ces intuitions constitue le programme de recherche de la logique inductive probabiliste, en particulier chez des auteurs comme Carnap (1950) ou Salmon (1969)6. Quelle qu’ait été, en particulier, l’ampleur de l’entreprise du premier, il est clair que personne n’est prêt à affirmer que la logique inductive (probabiliste) en soit arrivée à un stade où elle puisse être comparée à son modèle, la logique déductive. Serait-ce parce que ce projet recèle en fait des difficultés d’ordre supérieur, ou parce qu’il est vain ? Tel est l’enjeu du débat entre les « inductivistes » et les « anti-inductivistes », dont le plus célèbre n’est autre que Popper. En compagnie d’un de ses disciples les plus proches, le philosophe et logicien David Miller, de l’université de Warwick à Coventry (en Grande-Bretagne), Popper a publié en 1983 dans la revue Nature un article retentissant7, qui a été suivi de nombreuses réponses, critiques, mises au point, et en particulier d’un long article de Popper et Miller en 1987, dont nous nous inspirerons de près.
L’interprétation logique des probabilités
14On pourrait contester l’idée même que des probabilités peuvent être attribuées à des énoncés (interprétation « logique » des probabilités)8. Sans remonter jusqu’à Leibniz, on peut attribuer à Bolzano la paternité de l’interprétation logique des probabilités, et, indépendamment, à Boole.
15On en trouve des développements dans le Tractatus de Wittgenstein (5.15 sq.) et surtout dans le Traité des probabilités de Keynes à la même date. Selon Popper, un système « plus satisfaisant » a été donné par Mazurkiewicz en 19329 ; Waismann (1930) l’avait introduite, à la suite de Wittgenstein, dans les débats du Cercle de Vienne. Popper10 (1934) la considère d’abord – suivant Keynes – comme une forme de l’interprétation subjective des probabilités, qu’il critique du point de vue de l’interprétation objective (fréquentiste [von Mises] ou, plus tard, « propensionniste11 » (Popper, 1983). Mais dès 1938, il s’aperçoit que l’interprétation logique, même si elle est au fondement de l’interprétation subjective, est en elle-même parfaitement cohérente, puisqu’elle est une interprétation sémantique possible de ses propres systèmes d’axiomes du calcul des probabilités.
16Popper considère qu’une théorie axiomatique des probabilités doit être :
formelle (ne favoriser aucune interprétation) ;
« autonome » (éviter de présupposer quelque notion déductive que ce soit) ;
symétrique (permettre de définir p (b I a) à chaque fois que p (a I b) l’est, même si p(b) = 0).
17Or, selon lui (LDS, Appendice *iv)12, l’axiomatique de Kolmogorov, interprétant a et b dans p (a I b) comme des ensembles, n’est pas assez libre du point de vue sémantique, puisqu’elle semble rendre problématique l’interprétation logique. (Ce point est peut-être discutable : le théorème de Stone permet de se restreindre aux algèbres d’ensembles. On peut construire à partir d’une algèbre de Boole munie d’une mesure une algèbre de probabilités de Kolmogorov13. Mais les systèmes de Popper paraissent effectivement à priori plus « formels » que celui de Kolmogorov, en ce qu’il peuvent directement être interprétés logiquement.) Le système d’axiomes proposé par Popper en 1956 – démontrablement indépendant, cohérent et incomplet – part de la probabilité conditionnelle (comme le système de Renyi [1955]).
18La formule p (a I b) = r y est définie même si p(b) = 0, ce qui rend possible une dérivation immédiate des lois de l’algèbre de Boole, et donc du calcul des propositions. Ces lois ne sont pas présupposées, mais déduites. Néanmoins, les mérites particuliers de ces systèmes ne seront pas nécessaires à la discussion qui suit. (On notera que celui de 1956 peut être interprété comme un système de logique plurivalente ou comme une logique modale.)
19Il existe donc de bonnes raisons de ne pas contester l’idée qu’il soit possible d’attribuer une probabilité à des énoncés, et donc à des hypothèses. La question pertinente est plutôt de savoir si le calcul des probabilités permet de donner un sens à l’idée d’amplification, à savoir à l’idée que l’on peut logiquement passer de ce qui est donné, admis, connu, à ce qui ne l’est pas. Autrement dit, le calcul des probabilités permet-il de mettre en évidence un effet inductif différent du simple effet déductif (lequel provient du fait que tout ensemble de données e pertinent par rapport à une hypothèse h implique une partie de h) ? Peut-on mettre en évidence un « soutien inductif » pur (et positif) ?
20Quelques principes classiques seront nécessaires :
loi de l’addition : p (x v y I z) + p (xy I z) = p (x I z) + p (y I z)
loi de la multiplication : p (xy I z) = p (x I yz) p (y I z)
0 ≤ p (x l y) ≤ 1
p (xy I z) ≤ p (xz I z) = p (x I z).
Enfin, le symbole logique y → x pourra être considéré comme une abréviation de : (z) [p (y I z) ≤ p (x I z)].
21Partons de deux propositions quelconques, h et e : on ne suppose donc plus que h Ⱶ e, mais seulement que h et e ont certaines conséquences en commun, autrement dit que (h → e) n’est pas une tautologie ; on voit immédiatement que toutes les conséquences communes de h et de e sont des conséquences de (h → e).

22On pourrait représenter plus généralement les relations entre h, e, e, de la manière suivante :

23(Cette représentation, qui n’est pas irréprochable, n’est pas de Popper-Miller).
24Il est évident que h est égal à la conjonction de (h v e) et de (h v e), que l’on peut écrire sous la forme (e → h), ou encore (h ← e) :
25h = (h v e) (h ← e).
26Popper et Miller (1983) font remarquer que (h ← e) est la proposition logiquement la plus faible qui soit suffisante pour permettre de retrouver h si e est donnée, he étant la plus forte :

27De plus, (h ← e) est impliquée par toutes ces propositions jusques et y compris he. Elle représente leur intersection.
28(On notera que dans les termes de la logique traditionnelle, (h ← e) et (h v e) sont des subcontraires : elles peuvent être vraies en même temps (si h est vraie), mais pas fausses en même temps.)
Contenus
29Tarski définit le contenu logique d’une proposition p comme l’ensemble des conséquences non tautologiques de p. Nous reviendrons plus loin sur le calcul des contenus. Notons que Popper, dès 1934, définissait le contenu informatif d’une théorie t comme l’ensemble des énoncés incompatibles avec t : « Plus une théorie interdit (d’états de choses possibles), plus elle dit ». Le contenu informatif croît ou diminue comme le contenu logique. Bien que les deux contenus n’aient pas les mêmes propriétés, il est clair que plus le contenu logique d’un énoncé est grand, plus cet énoncé est informatif.
30Le contenu d’une contradiction étant maximal, on peut mesurer son contenu par :
ct (x x) = 1
31et celui d’une tautologie par :
ct (x v x) = 0
32alors que l’on a :

33D’où l’idée de Popper de considérer la probabilité (absolue) de x comme la mesure de son manque de contenu.
34Plus un énoncé est probable, moins il a de contenu. D’où l’idée de prendre pour mesure du contenu :

35Il vient que :
ct(x) ≤ ct (x y) ≥ ct (y)
36ce qui est conforme à notre intuition : si l’on ajoute une information y à x, le résultat contient au moins autant d’information que x (et exactement autant seulement si y est redondant, autrement dit si x Ⱶ y).
37Alors que :
p(x) ≥ p (x y) ≤ p(y) [principe de monotonie]
38La probabilité diminue lorsque l’information augmente.
39La thèse de Popper est simplement qu’entre la probabilité et le contenu, il faut choisir : on ne peut maximiser les deux en même temps. Si l’on choisit la probabilité, on risque de préférer des hypothèses « peu audacieuses », autrement dit très probables étant donné e (et b), très peu éloignées des données.
Le soutien probabiliste
40On définit habituellement le soutien [support] probabiliste de la manière suivante :
s (x I y) = p (x I y) - p(x)
41et le « contre-soutien », simplement :
cs (x l y) =) - s (x I y)
42Il vient évidemment que si :
s (x I y) = cs (x I y) = 0
43x et y sont (probabilistiquement) indépendants.
44Si, par exemple, x est un énoncé existentiel et y sa négation universelle, on a :
s (x I y) = -1
45Si y Ⱶ x, on a :
s (x I y) = 1 - p(x) = ct(x)
46On peut relativiser cette définition à une troisième variable z :
s (x I y, z) = p (x I y, z) - p (x I z)
47Cette relativisation permet d’exprimer le soutien d’une hypothèse h par les données empiriques e, étant donné « l’état des connaissances » ou le « contexte des connaissances » b [background knowledge], l’ensemble des connaissances (conjecturales) tacitement utilisées lors d’un test e, et considérées alors comme non problématiques : s (h, e, b).
48L’argument central des partisans de l’induction probabiliste peut être formulé comme suit :
49« Nous admettons, avec Einstein, Popper et quelques autres, qu’il n’y a pas d’algorithme pour engendrer de « bonnes » hypothèses h à partir de e, car, comme le montre le paradoxe de Goodman14, e « pointe dans toutes les directions », et donc dans aucune en particulier : pour tout ensemble (fini) de données e, il existe une infinité d’hypothèses universelles hi, deux à deux incompatibles mais toutes compatibles avec e.
50« Nous acceptons aussi l’idée (poppérienne, mais conforme à la pratique intuitive des scientifiques) selon laquelle un évènement corrobore d’autant mieux une théorie qu’il était improbable avant la constitution de cette théorie.
51« Si l’on appelle S (e, h, b) le degré de rigueur [severity] du test e eu égard à h étant donné b, on peut accepter en première analyse l’identité suivante15 :
S (e, h, b) = p (e I hb) - p (e I b)
52[quantité, on le notera, égale au soutien de e par h].
53« En revanche, nous ne sommes pas prêts à admettre l’idée que la probabilité à priori d’une hypothèse universelle doit être nécessairement nulle, comme le pense Popper, et comme c’était le cas dans le système de logique inductive de Carnap. Ceux d’entre nous, en particulier, qui sont « bayésiens » admettent que les probabilités à priori peuvent être fixées librement par les agents, pourvu qu’ils restent cohérents dans leur manière de réviser leurs croyances à la lumière de l’expérience, c’est-à-dire pourvu qu’ils appliquent le (trivial) théorème de Bayes : Si h Ⱶ e, alors (pourvu que p(e) ≠ 1), il vient que :

(1) p (h l e) > p(h)
54autrement dit : la probabilité d’une hypothèse augmente à mesure que ses conséquences (empiriques) sont vérifiées. L’accumulation des données favorables, en l’absence de réfutation (auquel cas on aurait : p (h I e) = 0), fait croître la probabilité (le degré de confirmation) de l’hypothèse. Nous n’en demanderons pas plus. On notera que si e2 contient plus d’information que e1 :
(2) Si h Ⱶ e1e2, alors : p (h I e2) > p (h I e1)
55« Et ce n’est autre que la probabilité d’une hypothèse qui nous permet d’expliquer son succès prédictif. »
56Popper ne récuse pas ce raisonnement (sauf le dernier alinéa) ; dans les articles rédigés avec David Miller, il va jusqu’à concéder, pour les besoins de la discussion (« dialectique » au sens d’Aristote), que p(h) > 0. Dans ce cas, il ne peut être question de nier (1) et (2). Le problème est de savoir comment il convient d’interpréter ces résultats (triviaux). Observons tout d’abord, nous dit Popper, que ce résultat semble bien moins impressionnant si l’on s’avise qu’il vaut pour toute hypothèse hi compatible avec e, y compris les généralisations les plus « anti-inductives ». Ainsi, les données e : « Tous les corbeaux observés sont noirs », confèrent à h1 : « Tous les corbeaux sont noirs » et à h2 : « Aucun corbeau n’est noir, sauf ceux qui ont été observés », la même probabilité, à supposer que p (h1) =p (h2) :
[p (h1) = p (h2)] ⇒ [p (h1 l e) = p (h2 l e)]
57Un bayésien peut rétorquer que ce résultat – qui explique le « paradoxe de Goodman »16, ne vaut que si les probabilités à priori des hypothèses sont identiques, et qu’il convient de stipuler que ces probabilités – éventuellement relativisées à b – sont différentes : dès lors, on aura bien :
p (h1 l e) > p (h2 I e)
58À cela, Popper répond que le recours à une telle stratégie – quelque peu ad hoc est illusoire. En effet :
p (hi I e) < p (hj I e) ssi p (hi) < p (hj)
59Les données ne changent pas l’ordre des probabilités. Cet ordre ne saurait être modifié par l’expérience (favorable). De plus, il est clair qu’il existe une infinité d’hypothèses universelles compatibles avec les données ; il paraît donc bien difficile d’attribuer à p (h I e) une valeur approchant 1/2. Ce qui veut dire que h ii demeure à jamais improbable. Dire que hi est « probable » veut dire qu’elle est plus probable que sa négation : qu’il est probable (probabilité supérieure à 1/2) qu’elle est vraie ; qu’elle n’est donc incompatible avec aucun fait dans l’univers, ni dans le passé ni dans l’avenir ; qu’elle n’a aucun contre-exemple. Selon Popper, aucun ensemble (fini) de données ne saurait nous dire cela. Notre expérience est à jamais de l’ordre du fini, alors que nos prétentions cognitives sont infinies.
Dépendance probabiliste et dépendance déductive
60Si l’on cherche une mesure de la dépendance probabiliste entre deux propositions x et y, il paraît intuitif de partir de
d (x, y) = p (xy) - p(x) p(y)
61qui est nulle si x et y sont (probabilistiquement) indépendants. En l’occurrence :
d (h, e) = p (he) - p(h) p(e)
62L’avantage de cette mesure est qu’elle est symétrique en x et y, et peut donc servir à mesurer la dépendance mutuelle entre x et y.
63En revanche, les cas limites ne sont guère satisfaisants, puisqu’elle s’annule si p(h) ou p(e) sont nulles ou égales à 1.
64Popper et Miller (1987) démontrent alors :
(D) d (h, e) = d ((h v e), e) + d ((h ← e), e)
65La preuve de (D) est « relativement simple ».
66On a :

67On a d’autre part :
p ((h v e) v (h ← e)) + p ((h v e) (h ← e)) = p (h v e) + p (h ← e)
Or : Ⱶ (h v e) v (h ← e)
et Ⱶ (h v e) (h ← e) ⇔ h
D’où (B) 1 + p(h) = p (h v e) + p (h ← e)
68Si l’on multiplie cette dernière égalité par p(e), on obtient :
(C) p (h v e) p(e) + p (h ← e) p(e) = p(h) p(e) + p(e)
69Si l’on soustrait ce résultat de (A), on obtient :

70D’autres mesures seraient évidemment possibles, puisque si e est donnée, h est équivalente à nombres d’autres propositions x telles que l’on ait :

71Toutes ces propositions ont (h ← e) en commun, le reste de leur contenu étant constitué de propositions qu’elles ont en commun avec e.
72On pourrait définir une mesure de dépendance différente pour chaque x :
d (x, e) = p (he) - p(x) p(e)
73On constate que si x croît (en force logique, en improbabilité absolue), d (x, e) augmente. Il vient donc :

74dm étant la mesure maximale de dépendance, et d, la mesure minimale.
75m
76Mais il est clair que dm est la seule pour laquelle on ait :

77On en conclut que les x ont des degrés de dépendance déductive (mesurant la quantité de propositions que deux propositions ont en commun) différents par rapport à e : he Ⱶ e, donc e est maximalement dépendant de he ; alors que Ⱶ ((h ← e) v e), autrement dit : (h ← e) et e n’ont aucune conséquence non tautologique en commun. Elles sont maximalement indépendantes de he (au sens de Sheffer [1921] et Tarski). Puisque la dépendance probabiliste va de 0 à 1, il est raisonnable de chercher à déterminer une mesure de dépendance déductive qui ne se réduise pas au « tout ou rien », comme lorsque l’on parle de l’indépendance des axiomes d’une théorie.
78En conséquence, dm pourra être considérée comme caractérisant la dépendance non déductive entre h et e, puisque (D) montre que d (h, e) est la somme de la dépendance déductive de h par rapport à e et de la dépendance minimale de h par rapport à e (laquelle est la seule qui ne doit rien à la dépendance déductive de h et e).
79S’il existe quelque chose comme une dépendance non déductive, ce ne peut donc être que dm, puisque toutes les autres mesures de dépendance intègrent une certaine part de dépendance déductive entre h et e.
80Si l’on divise d (h, e) par p(e), on obtient évidemment :
s (h I e) = p (h I e) - p(h),
81qui n’est plus symétrique en h et e, mais qui a l’avantage d’être définie même si p(e) = 0 et de ne pas être alors nécessairement nulle. On reconnaît ici le soutien probabiliste. Il est clair que s (h l e) ne saurait être une mesure purement non déductive (« inductive ») puisque
s (h I e) = s (h v e I e) + s (h ← e I e)
82Si s (h v e I e) > 0, la valeur de s (h I e) est « contaminée » par la dépendance déductive de h par rapport à e.
83On remarque que :

84autrement dit que la dépendance déductive de h par rapport à e est comme il convient égale au contenu de leur disjonction.
85Qu’en est-il de s (h ← e I e) ?
86L’article de 1983 prouve essentiellement le théorème suivant :
87(1) s (h ← e I e) = - Exc (h I e)
88« Exc » désignant l’« excès » ou l’« excédent » de la probabilité du conditionnel sur la probabilité conditionnelle :
Exc (h I e) = p (h ← e) - p (h I e)
89Au cours de sa critique de la logique inductive de Reichenbach, Popper avait été amené, dès 1938, à calculer cette quantité, sans apparemment attacher une importance suffisante à son résultat.
90Le calcul montre que :
Exc (h I e) = ct (h I e) ct(e)
Dès lors, si p (h I e) ≠ 1 et p(e) ≠ 1, on a :
Exc (h I e) > 0
91En conséquence :
(2) s (h ← e I e) < 0
92Popper et Miller interprètent ce résultat surprenant comme étant la preuve qu’une dépendance probabiliste positive ne peut exister là où il n’y a aucune dépendance déductive positive. Tout soutien probabiliste non déductif est négatif. CQFD.
Démonstration
93Calculons le degré de dépendance probabiliste de k par rapport à e, k et e étant mutuellement déductivement indépendants.
94On a p (k I e) + p (e I e) = p (ke I e) + p (k v e I e)
95et p(k) + p(e) = p (ke) + p (k v e)
96donc (par soustraction) :

97Corollaires
98(1) s (h v e I e) - s (h I e) = ct (h I e) ct(e)
99(2) s (h I e) ≤ s (h v e I e) = ct (h v e)
100Puisque Ⱶ (h ← e) v e, il vient que
101[Théorème 2] s (h ← e I e) = - ct (h I e) ct(e) = - Exc (h I e)
Objections et réponses
102Avant d’aborder la discussion des principales objections qui ont été apportées à l’interprétation par Popper et Miller de leur résultat, il nous faut revenir quelque peu sur la notion de contenu au sens de Tarski.
103Soit X un ensemble quelconque de propositions. On appellera Cn (X) = X, l’ensemble des conséquences logiques de X. (Si X = {x}, on écrira Cn (x) pour Cn ({x})). Tarski appelle système déductif tout ensemble X. Il montre, comme on pourrait s’y attendre, que la classe des systèmes déductifs a une structure de treillis. On peut y définir deux opérations classiques, produit et somme de contenus :

104On note en effet qu’en général on aura :
X∪Y⊂X+Y
105L’union des contenus – qui n’est pas (en général) un contenu – est (en général) strictement incluse dans la somme des contenus. Ce point est crucial.
106On peut évidemment définir un plus petit système L, l’ensemble des tautologies ou des vérités logiques, inclus dans tout système. (On pourra poser L = ∅ si l’on définit le contenu de p comme l’ensemble des conséquences non tautologiques de p). Le plus grand système, la borne supérieure du treillis, sera clairement S, l’ensemble de toutes les propositions (ou le contenu logique d’une contradiction).
107On démontre que la classe de tous les systèmes déductifs finiment axiomatisables est une algèbre de Boole, dualement isomorphe à l’algèbre des propositions du langage :

108(Il est évident que si un système est finiment axiomatisable, on peut le représenter comme le contenu d’une proposition x, conjonction des axiomes.)
109Le produit des contenus est égal au contenu de leur somme, et réciproquement. En conséquence, le système qui permet d’exprimer le contenu de (X ← Y) n’est autre que (X - Y) :

110Dans Nature (1984), Jeffrey fait remarquer que l’on pourrait factoriser h autrement et plus simplement :

111Or f n’est pas fonction de vérité de h et e, et le résultat contre-inductif (et contre-intuitif) ne suit pas.
112Popper et Miller répondent que ce nouveau découpage ne fait qu’obscurcir la question. Car la proposition f de Jeffrey est un des x dont on a dit plus haut – en suivant l’article de Popper et Miller de 1987 – qu’ils permettaient d’impliquer h en présence de e :
heⱵxⱵh←e
113Pour tous ces x, le résultat suivant vaut :
s (x I e) = s (x v I e) + s (h ← e I e)
114ce qui montre que le soutien de f par rapport à e peut être considéré comme la somme d’un soutien purement déductif et d’un soutien à l’évidence non déductif et jamais positif. Lorsque l’on prend x = (h > e), on obtient
s (h ← e I e) = s ((h ← e) v e I e) + s (h ← e I e),
115ce qui n’est pas étonnant puisque le soutien déductif de (h ← e) par e est nul.
116Prendre f comme caractérisant « ce qui, dans h, va au-delà de e » ne permet donc pas d’éviter le résultat négatif de Popper et Miller, car si le soutien de f par e est positif, c’est uniquement parce que f partage nombre de conséquences avec e, (s (f v e I e) > 0). Il faut derechef décomposer f.
117Readhead (1985) et Good (1984) suggèrent une autre factorisation. Readhead fait d’abord remarquer que ce n’est que dans des cas fort peu intéressants que l’on a :
Cn (h ← e) = Cn (h) - Cn (e)
118(« – » désignant ici simplement la différence ensembliste).
119La plupart du temps (sauf si e Ⱶ h, auquel cas Cn (h) - Cn (e) = Cn (h ← e) = ∅), le contenu de (h ← e) est strictement inclus dans la différence des contenus, laquelle désigne l’ensemble des conséquences de h qui ne sont pas conséquences de e. Comme nous l’avions vu, il fallait s’y attendre, puisque l’union du contenu de (h ← e) et du contenu de (h ← e) n’est qu’une partie propre du contenu de leur somme, autrement dit du contenu de h. Le contenu de (h ← e) est donc « plus petit » que la différence ensembliste Cn (h) -Cn (h v e) : il y a des propositions qui sont conséquences de h sans être conséquences de (h ← e) ni de (h v e).
120Pour prendre un exemple très parlant du point de vue de l’induction, et si l’on conserve les interprétations données à h et e par Jeffrey, la proposition « le prochain objet observé sera vert » n’est ni dans Cn (h v e) ni dans Cn (h ← e). Il en va tout simplement de même de h, qui est conséquence d’elle-même sans l’être ni de (h v e) ni de (h ← e).
121Popper et Miller admettent évidemment tout cela. Mais ils font remarquer qu’à leur sens, le problème crucial, qui est d’isoler une partie de h « non contaminée » déductivement par e, ne saurait être résolu par l’appel à Cn (h) - Cn (e). Soit une proposition k, déductible de h mais qui n’appartient ni à Cn (h v e) ni à Cn (k ← e).
122On a : (h ← e) Ⱶ k
123ou (ē v h) Ⱶ k
124donc e Ⱶ k
125et Cn (k v e) ∅
126((k v e) n’est une tautologie que si e Ⱶ k).
127Ainsi, k et e partagent (une infinité) de conséquences ; autrement dit k et e sont déductivement dépendants. On n’a pas montré que le soutien probabiliste pouvait intervenir en l’absence de dépendance déductive positive.
128C’est une erreur, soutiennent Popper et Miller, que de poser le problème de l’induction en termes de passage du passé à l’avenir : toute prédiction partage avec les énoncés portant sur l’observation passée nombre de conséquences déductives, de telle sorte que l’on ne saurait interpréter le soutien probabiliste positif éventuel de ces prédictions par les données comme résultat d’un effet inductif quelconque. « La distinction cruciale est celle qui existe entre ce qui est établi par l’expérience [evidence] et ce qui la transcende totalement. La logique inductive, telle que nous en comprenons les objectifs, revient à affirmer qu’il existe une certaine connexion logique entre les deux » (1987, p. 581). Il s’agit là d’une interprétation radicale de l’induction : est inductif ce qui n’est en rien déductif. (Selon Zwirn et Zwirn17, il y aurait là quelque chose de paradoxal, du fait que le « contre-soutien » apporté à àe par e serait « non déductif », puisque Ⱶ e v e.) Accepter une proposition telle que celle de Good – prendre la différence ensembliste Cn (h) - Cn (h v e) comme contenu « transcendant » de h par rapport à e – revient à refuser d’isoler un véritable contenu (transcendant ou ampliatif), puisque cet ensemble n’est pas clos par déduction18, n’est pas identifiable à une proposition, et n’est donc pas probabilisable. Il contient de plus des propositions comme (h ← e) qui, conformément au résultat de Popper-Miller, sont « contre-soutenues » (affaiblies) par e, ce qui accentue, selon Miller, l’impression que l’on a affaire à un ensemble hétéroclite, peu susceptible de servir à l’analyse logique de la situation19.
129Si l’on accepte l’idée que le contenu ampliatif doit être un contenu, alors Cn (h ← e) s’impose. Il s’agit en effet de trouver un X tel que :
1) Cn (X) . Cn (e v h) = ∅
2) Cn (X) + Cn (e h) = Cn (h)
130Autrement dit, un X tel que la somme de X de (h v e) permette de retrouver h, alors que X est totalement disjoint de (h ← e).
131Il est clair non seulement que (h ← e) fait l’affaire, mais aussi que c’est la seule proposition qui satisfasse aux deux équations.
132On notera que la même situation se retrouve si l’on utilise :
1331) la mesure du contenu utilisée par Popper
134ct (h) = ct (h ← e) + ct (h v e)
135ct [(h v e) v e)] = 0.
1362) la notion sémantique de contenu.
137Si l’on préfère une approche en termes de théorie des modèles à l’approche syntaxique du contenu, on pourra définir le contenu Ct (h) comme la classe des modèles dans lesquels h n’est pas satisfaite (ce qui rappelle la définition poppérienne (1934) du contenu empirique d’une hypothèse comme la classe des énoncés singuliers observationnels qu’elle exclut [LDS, sections 31 et 35]).
138On obtient dans ce cas :
Ct (h) ∪ Ct (k) = Ct (h k).
139Il s’ensuit que :
Ct (h) - Ct (h v e) = Ct (h ← e).
140Cn et Ct permettent donc de retrouver les mêmes propriétés du contenu, à ceci près que Ct satisfait aux opérations ensemblistes habituelles. La factorisation proposée n’est pas aussi étrange que l’on veut bien le dire.
141Popper et Miller20 signalent une autre objection possible : si Y n’est pas finiment axiomatisable, X - Y n’est pas définissable. Mais la situation n’est guère embarrassante ici, puisqu’il suffit que e soit un ensemble fini pour que C (h) ← Cn (e) – autrement dit Cn (h) v Cn (e) – soit définissable, même à supposer que Cn (h) v Cn (e) ne soit pas finiment axiomatisable. De toute façon, le fait est que chaque proposition qui va réellement « au-delà » de e sera affaiblie (« contre soutenue ») par e. (Cf. l’article de Miller et Popper (1986), qui contient de larges développements techniques sur ces questions, en rapport avec la théorie des algèbres de Heyting et de Brouwer.)
Conclusions et perspectives
142Personne ne nie la réalité proprement mathématique du théorème de 1983, à savoir, essentiellement, le fait que p (h ← e) > p (h ← e I e). La question est plutôt de savoir si ce résultat (non trivial) possède une quelconque portée philosophique, et si oui, laquelle. Popper et Miller tiennent qu’il est « dévastateur » pour tous les projets de logique inductive probabiliste. Les auteurs de dizaines de gros livres très techniques perdraient leur temps et leur peine serait vaine… (« Bien qu’une logique inductive ne puisse exister, les logiciens inductivistes existent, eux, bel et bien21. »). Il y a là quelque chose de peu plausible. (« Implausible, mais vrai », dirait peut-être David Miller…) Aussi convient-il de demeurer prudent. Le débat reste ouvert. Une question se pose par ailleurs : si la théorie de la confirmation, entendue comme logique inductive, ne peut être couronnée de succès, sommes-nous conduits au scepticisme ? Popper pense que non, d’autant qu’il propose une théorie concurrente de la corroboration22. Mais celle-ci n’est-elle pas touchée par le théorème ? De l’aveu de Popper et Miller, les mesures c (h I e) proposées par Popper dans les années 50 conduisent au même résultat : c (h ← e I e) ≤ 0. « Il est évident que h ← e, qui ne partage aucune conséquence avec e, n’a donc pas été testée par e ; en conséquence, nous n’avons pas le droit d’interpréter c comme un degré de corroboration » (1987, p. 584). Puisqu’il n’est pas question d’attribuer une probabilité à h, il est possible que le problème ne soit guère dramatique. Mais on aimerait en savoir plus. La théorie de la corroboration (ou « non-infirmation », comme aurait dit Épicure)23 constitue à n’en pas douter l’un des lieux les plus problématiques de la méthodologie « falsificationniste ».
143On pourrait juger le résultat peu plausible d’un point de vue anti-inductiviste24 : autant il serait agréable de pouvoir dire que ce qui transcende les données est indépendant (s (x I y) = 0) de ces mêmes données, autant il paraît curieux que l’on soit amené à avouer un effet inductif, fût-il paradoxalement négatif. N’est-ce pas trop beau ?
144Popper et Miller pourraient rétorquer que leur stratégie est réfutative, et qu’il s’agit d’une sorte de preuve par l’absurde de l’inexistence d’un soutien inductif positif : Quod Erat Demonstrandum. Mais il serait plus convaincant de parvenir à rendre compte de cet effet négatif contre-intuitif. (On notera cependant que la mesure Q du soutien déductif proposée par Miller et Popper (1986) présente l’avantage d’être nulle lorsqu’il n’y a aucune conséquence commune entre les deux propositions.)
145Comme on l’a vu, il semble qu’il soit impossible d’obtenir – dans le cadre probabiliste – une factorisation de h différente de celle de Popper-Miller et telle que :
la partie de h qui va au-delà de e ne soit pas « contaminée » déductivement par e (ce qui rendrait douteuse toute caractérisation de son soutien par e comme « inductif », d’autant que plus une proposition partage de conséquences avec e, plus son soutien par e est grand) ;
cette partie soit représentable par une proposition (condition pour que l’on puisse d’ailleurs lui attribuer une probabilité).
146Les factorisations proposées par Jeffrey et Good, malgré leur aspect intuitif, ne sont pas de ce point de vue très satisfaisantes. Elles ne sauraient permettre de régler définitivement le débat.
147Il reste qu’un inductiviste peut réagir comme suit :
Popper et Miller ont montré que le soutien (positif) était de nature déductive. Je n’en disconviens pas. Mais il n’en reste pas moins que le soutien de h par e est positif. J’abandonne volontiers le terme d’« induction », ou bien j’appelle « inductif » l’augmentation de la probabilité de h en présence de e. Peu importe que celle-ci soit au fond d’ordre déductif. Popper et Miller ont simplement fait avancer l’intelligence de la situation logique. Mais je demeure bayésien25.
148Une telle position est sans doute cohérente. Elle s’accorde assez aisément avec l’idée selon laquelle une « inférence inductive » n’est autre chose qu’une implication partielle. Resterait à expliquer, de ce point de vue, en quoi la probabilité (d’une hypothèse) est une bonne chose, puisque l’on paraît accepter que son augmentation n’est due qu’à l’effet de e sur ses propres conséquences. Il faudrait aussi expliquer comment il se fait que le soutien probabiliste de h par e est plus grand que le soutien de (h ← e) par e, alors même que e implique l’équivalence de h et de (h ← e)26.
149Il est clair également que le débat philosophique perd alors de son intérêt, car le calcul des probabilités n’intervient plus que pour montrer la cohérence des choix éventuels des scientifiques, sans que l’on puisse prétendre avoir résolu de manière satisfaisante le problème de l’induction (de la transcendance des hypothèses par rapport aux données de l’expérience). Quoi qu’il en soit, il paraît important de souligner que l’impact des travaux récents de Popper et Miller ne se réduit pas à leur aspect réfutatif et dialectique, mais qu’ils permettent de donner un sens précis à la notion de dépendance déductive, la munissant d’une mesure aussi fine que celle dont on dispose eu égard à la dépendance probabiliste. Cette idée pourrait apporter des lueurs intéressantes en philosophie des mathématiques : on peut désormais savoir mieux ce que l’on dit lorsque l’on parle de la plus ou moins grande « proximité » de tels ou tels axiomes27 (mais n’oublions pas que tout ne va pas pour le mieux lorsque le système Y n’est pas finiment axiomatisable, ce qui est la règle).
150En 1986, Miller et Popper ont proposé une nouvelle mesure de dépendance déductive q (b I a). Si ct (b) > 0, alors, puisque (a v b) représente exactement le contenu commun de b et de a, on peut supposer que le rapport ct (b v a) / ct (b) constitue une mesure adéquate de la dépendance de b par rapport à a. Il s’avère que ce rapport n’est autre que p (ba) / p(b), c’est-à-dire p (a I b). (Ce terme est d’ailleurs défini même si ct (b) = 0.) Dans leur article (1986), Miller et Popper démontrent que cette mesure très simple possède d’intéressantes propriétés. (En particulier du fait que des axiomes propres à q peuvent être obtenus en remplaçant p (a I b) par q (b I a) dans les axiomes du système probabiliste de Popper (1956) : le résultat constitue une « dualisation » de ces axiomes (1986, § 2).)
151Si chacun, avant de se mettre à la tâche en vue de construire une nouvelle théorie du « soutien inductif », commençait par prendre la peine d’expliquer pourquoi il ne tient pas son projet pour vain, en dépit de Popper-Miller, alors Popper aurait au moins un motif de satisfaction : il aurait commencé à « convaincre tous ceux qui jugent utile de s’occuper de théorie de l’induction, qu’il leur est absolument indispensable d’interrompre provisoirement leur travail, de considérer comme inexistant tout ce qui s’est fait jusqu’ici et de soulever avant tout la question de savoir si une telle chose que la théorie probabiliste de l’induction est seulement possible28 ».
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Bibliographie
Boudot, Maurice, Logique inductive et probabilité, Paris, Armand Colin, 1972.
Bunge, Mario, Épistémologie, Paris, Maloine, 1983.
Carnap, Rudolph, Introduction to Semantics, Cambridge, Harvard University Press, 1948.
Desanti, Jean-Toussaint, La Philosophie silencieuse, Paris, Le Seuil, 1975.
Duhem, Pierre, La Théorie physique, Paris, Vrin, 1906.
10.1038/310434a0 :Good, Irving John, « The impossibility of inductive probability », Nature, 310, 1984.
Goodman, Nelson, Faits, fictions et prédictions, Paris, Minuit, 1984.
10.1007/978-94-015-9313-7 :Hintikka, Jaako, « The varieties of information and scientific explanation », Logic, Methodology and Philosophy of science iii, p. 311-331, Amsterdam, North-Holland, 1968.
10.2307/2183724 :Horwich, Paul, Probability and Evidence, Cambridge, Cambridge University Press, 1982.
Hume, David, Enquête sur l’entendement humain, Paris, GF, 1983.
10.1093/analys/35.4.130 :Hudson, J. L., « Logical subtraction », Analysis, 35, 1974, p. 130-135.
Jacob, Pierre, De Vienne à Cambridge, Paris, Gallimard, 1980.
Jeffrey, Richard et Levi, Isaac, « The impossibility of inductive logic », Nature, 310, 1984, p. 433.
Kant, Emmanuel, Prolégomènes à toute métaphysique future, Paris, Vrin, 1963.
Largeault, Jean, Hasards, probabilités, inductions, Toulouse, Presses de l’Université de Toulouse-le-Mirail, 1979.
10.1111/j.1468-0114.1982.tb00094.x :Leblanc, Hugues, « Popper’s 1955 axiomatization of absolute probability », Pacific Philosophical Quarterly, 63, 1982.
10.2307/2184045 :Lewis, David, « Probabilities of conditionals and conditional probabilities », Philosophical Review, 85, 1976, p. 297-315.
Miller, David, « On the comparaison of false theories by their bases », British Journal for the Philosophy of Science, 25, 1974, p. 178-188.
Miller, David et Popper, Karl, « Deductive dependence », Actes du IVe Congrès Català de Lógica, Barcelone, 1986, p. 21-24.
10.1007/978-1-349-21232-3 :Popper, Karl, « The non-existence of probabilistic inductive support », in Georg Dorn et Paul Weingartner (éd.), Foundations of Logic and Linguistics, New York, Plenum, 1985, p. 303-318.
— , Realism and the Aim of Science, Londres, Hutchinson, 1983 ; trad. fr. A. Boyer et D. Andler, Le Réalisme et la Science, Paris, Hermann, 1990.
— , Conjectures and Refutations, Londres, RKP, 1963 ; trad. fr. Conjectures et Réfutations, Paris, Payot, 1985.
— , Logik der Forschung, Vienne, Springer, 1934 ; trad. ang. 1959, Londres, Hutchinson ; trad. fr. La Logique de la découverte scientifique, Paris, Payot, 1973 [les appendices techniques souffrent d’un certain nombres d’erreurs de traduction].
— et Miller, David, – « Why probabilistic support is not inductive », Philosophical Transactions of the Royal Society of London, A321, 1987, p. 569-591.
— et Miller, David, – « Reply to Levi, Good and Jeffrey », Nature, 310, 1984, p. 434.
— et Miller, David, « A proof of the impossibility of inductive probability », Nature, 302, 1983, p. 687 sq. ; trad. fr. en Appendice de Popper, 1990.
10.1007/978-94-017-1466-2 :Salmon, Wesley, « Partial entailment as a basis for inductive logic », Essays in honor of C. Hempel, Dordrecht, Reidel, 1969.
10.1007/978-94-010-9521-1 :Simon, Herbert, Models of Discovery (MD), New York, Springer, 1977.
Tarski, Alfred, Logic, Semantics, Metamathematics, Oxford, Oxford University Press, 1956, trad. fr., G.-G. Granger, Paris, Armand Colin, 1972.
Vuillemin, Jules, Nécessité ou contingence, Paris, Minuit, 1984.
Watkins, John, Science and Septicism, Princeton, Princeton University Press, 1984.
— , « Epistemology and politics », Proceedings of the Aristotelician Society, vol. 58, 1957.
Zwirn, Denis et Hervé, « L’argument de Popper et Miller contre la justification probabiliste de l’induction », L’Âge de la Science, 2, 1989.
[Pour une bibliographie plus complète, voir Boudot (1972) et Popper et Miller (1987)].
Notes de bas de page
1 Tiré de : Actes du séminaire d’analyse, département de Mathématiques, Université Blaise-Pascal, Clermond-Ferrand, 1990.
2 K. Popper, Conjectures et Réfutations, chap. 8-1 (Kant et la logique de l’expérience). Cet ouvrage très riche constitue peut-être la meilleure introduction à l’œuvre du philosophe.
3 Cf. P. Duhem, La Théorie physique, Partie ii, chap. vi, § iv (Critique de la méthode newtonienne) ; cet argument est développé et raffiné par Popper dans Le Réalisme et la Science, i, chap. 15.
4 N. Goodman, Faits, fictions et prédictions, chap. iii, § 1.
5 Cf. J. Watkins, Science and Scepticism, chap. 1.
6 Voir M. Boudot, Logique inductive et probabilité.
7 Des résultats similaires se trouvent dans Le Réalisme et la Science, partie ii, chap. ii – 15, en part. la note 2.
8 Cf. M. Bunge, Épistémologie, p. 20.
9 1938, in LDS, Appendice *II.
10 Voir Logik der Forschung ; trad. fr. La Logique de la découverte scientifique (LDS).
11 Voir K. Popper,
12 Cf. Logique de la découverte scientifique, Appendices *iv et *v, et H. Leblanc, « Popper’s 1955 axiomatization of absolute probability », in Pacific Philosophical Quarterly, 63, 1982, p. 133-145, concernant un système légèrement antérieur, dont la première version date de 1938 (LDS, Appendice*ii).
13 Cf. M. Boudot, Logique inductive et probabilité, p. 91-92 et p. 314.
14 Ibid.
15 Conjectures et Réfutations, Add. 2.
16 Le Réalisme et la Science, Introduction, 1982, in fine et Addenda du chapitre ii de la Partie ii.
17 Voir D et H. Zwirn, « L’argument de Popper et Miller contre la justification probabiliste de l’induction ».
18 Popper et Miller rappellent eux-mêmes les déboires de la définition donnée par le premier en 1960 de la vérisimilitude d’une théorie, et… réfutée par le second en 1974 : cette définition faisait usage du contenu de vérité d’une théorie et de son « contenu » de fausseté, lequel n’est pas un contenu (i. e. n’est pas déductivement clos : le faux implique le vrai).
19 Voir I. Good, « The impossibility of inductive probability ».
20 K. Popper et D. Miller, « Why probabilistic support is not inductive », p. 583.
21 K. Popper, Le Réalisme et la Science, ii, 16.
22 Ibid., Partie i, chap. iv.
23 Cf. J. Vuillemin, Nécessité ou contingence, p. 201.
24 Cf. D. et H. Zwirn, « L’argument de Popper et Miller contre la justification probabiliste de l’induction ».
25 Telle semble être la position du bayésien Paul Horwich (communication personnelle) ; cf. la réponse de Popper et Miller à ce type de réaction possible dans « Why probabilistic support is not inductive », p. 582.
26 Voir I. Levi, « The impossibility of inductive logic ».
27 Idée peut-être implicite chez Leibniz, lorsqu’il parle (à propos de Dieu) « des décrets ou hypothèses (qui) tiennent lieu de dépenses à mesure qu’elles sont plus indépendantes les unes des autres » (Discours de métaphysique, art. 5).
28 Popper (Le Réalisme et la Science, Partie I, chap. iv, 33) cite ce texte fameux du début des Prolégomènes à toute métaphysique future qui pourra se présenter comme science, en substituant « logique inductive (probabiliste) » à « métaphysique ».
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Undoing Slavery
American Abolotionism in Transnational Perspective (1776-1865)
Michaël Roy, Marie-Jeanne Rossignol et Claire Parfait (dir.)
2018
Histoire, légende, imaginaire : nouvelles études sur le western
Jean-Loup Bourget, Anne-Marie Paquet-Deyris et Françoise Zamour (dir.)
2018
Approches de l’individuel
Épistémologie, logique, métaphysique
Philippe Lacour, Julien Rabachou et Anne Lefebvre (dir.)
2017
Sacré canon
Autorité et marginalité en littérature
Anne-Catherine Baudoin et Marion Lata (dir.)
2017
Jouer l’actrice
De Katherine Hepburn à Juliette Binoche
Jean-Loup Bourget et Françoise Zamour (dir.)
2017
Les Petites Cartes du web
Analyse critique des nouvelles fabriques cartographiques
Matthieu Noucher
2017