Avant que l'on ne me tombe dessus, je tiens à mentionner une autre approche du "problème du dé pipé", qui découle des travaux du Révérend Thomas Bayes. Réduisons le problème à sa plus simple expression : nous sommes supposés savoir (une contrainte technologique sans doute !) que le dé ne peut avoir été pipé que d'une seule facon : il peut tirer un six une fois sur trois, au lieu d'une fois sur six. Imaginons par exemple que nous lancions le dé n fois. Chose surprenante, il montre un six à chaque fois. Que pouvons-nous en déduire ? Par exemple, à partir de quelle valeur de n déciderons-nous que le dé est pipé ?
La statistique "classique" a une réponse très simple : appliquons le test de Neyman-Pearson, bien sûr ! (L'article de Wikipedia mélange honteusement perspective bayesienne et perspective classique, en trois lignes...). Si le dé est pipé, la probabilité quíl tire à chaque fois un six est 1/(3^n) ; c'est 1/(6^n) s'il n'est pas pipé. Le "ratio de vraisemblance" est simplement le rapport de ces deux nombres, soit 2^n. C'est donc 2 si n=1, 4 si n=2...1 024 si n=10. "Et alors, j'en fais quoi ?" Pazienza... Supposons par exemple que je n'ai lancé le dé que deux fois. Avec n=2, il y a trois possibilités : zéro, un ou deux six. Chacune de ces possibilités a un ratio de vraisemblance ; c'est
- 16/25 pour zéro six
- 8/5 pour un six
- 4 pour deux six (4=2^2, ouf !).
(Si je lance le dé n fois et je tire m six, le ratio est 2^(2n-m)/5^(n-m)).
A l'évidence, plus je tire de six et moins j'aurai confiance dans l'hypothèse que le dé n'est pas pipé : le fait que le ratio de vraisemblance augmente (exponentiellement dans ce cas) le montre. Neyman et Pearson ont montré que si seules deux hypothèses simples sont envisageables, comme ici, le "meilleur" test possible consiste à rejeter l'hypothèse du dé non pipé si le ratio de vraisemblance est assez grand. Ici, c'est on ne peut plus simple : si je tire "trop souvent" six, je rejette. Mais cela ne me dit toujours pas ce que "trop souvent" veut dire...
Vediamo un po. Si le dé n'est pas pipé, en le lancant deux fois j'obtiendrai deux six avec probabilité 1/36 (1/6 au carré), zéro six avec probabilité 25/36 (5/6 au carré), et un six avec la probabilité qui reste, soit 5/18. La solution classique au problème de test est la suivante : mon objectif, comme dans les tests présenté hier, est de limiter le risque de rejeter l'hypothèse de non-pipage à une probabilité 0,05 quand elle est en fait juste. Comment obtenir ce 0,05 ? Facile : je prends le cas où j'ai tiré deux six (probabilité 1/36), et je complète avec 0,08 fois le cas où j'ai tiré un six. Pourquoi 0,08 ? Tout simplement parce que
1/36+0,08*5/18=1,8/36=0,05 !
"Mais 0,08 de "un six", kesaco ?" Tout simplement ceci : je lance le dé deux fois, et
- si j'ai deux six, je décide que le dé est pipé ;
- si je n'en ai qu'un, je tire au hasard un nombre entier entre 1 et 100 (avec un mécanisme non pipé...) ; s'il est inférieur ou égal à 8, je décide que le dé est pipé ;
- si je n'ai qu'un six et le nombre tiré est supérieur à 8, ou si je n'ai tiré aucun six, je reste méfiant mais je n'ai pas de preuve sérieuse que le dé soit pipé.
Quid si n=10, au fait, expérience tout de même plus raisonnable ? Il faut faire un peu plus de calculs, mais les choses sont encore assez simples. Si le dé n'est pas pipé, on tirera :
- zéro six avec probabilité 0,162 ;
- un six avec probabilité 0,323 ;
- deux six avec probabilité 0,291 ;
- trois six avec probabilité 0,155 ;
- quatre six avec probabilité 0,054...
Il n'est pas nécessaire d'aller plus loin, puisque nous sommes arrivés à une probabilité totale de 0,985. Le test sera le suivant :
- si je tire au moins cinq six, je rejette l'hypothèse que le dé est pipé ;
- si j'en tire quatre, je tire un entier entre 1 et 100 et je rejette cette hypothèse si cet entier est supérieur à 36 ;
- dans tous les autres cas, je reste aux aguets.
Tout ceci est bien gentil, nous dirait le Révérend Bayes ; mais c'est aussi un peu absurde. Il est très possible que le dé appartienne à la personne qui vient de parier avec moi qu'il pouvait tirer des six une fois sur trois. Dans ce cas, je me méfierai a priori. Peut-être serais-je prêt à parier, par exemple à deux contre un, que le dé est pipé. Bayes dirait que j'accorde a priori une probabilité de 1/3 (deux contre un, c'est un tiers, si si) à l'hypothèse que le dé n'est pas pipé. A chaque lancer du dé, le tirage d'un six me conduira à réviser cette probabilité à la hausse (et naturellement, à la baisse si le dé ne tombe pas sur un six). On peut facilement calculer la suite des probabilités de non-pipage si on tire consécutivement des six, en appliquant le théorème de Bayes, of course. Si je pense que la probabilité de non-pipage est p, alors un nouveau six me conduira à la réviser en
- p'=(p/6)/(p/6+(1-p)/3)=p/(2-p).
Voici la suite obtenue quand on ne tire que des six :
- a priori : 0,33
- après que le premier tirage a été un six : 0,2
- après deux six : 0,11
- après trois six : 0,06
- après quatre six : 0,03...
Si par exemple j'ai décidé de ne lancer le dé que trois fois, alors le fait d'avoir obtenu trois six me conduit à réviser mon évaluation des chances que le dé soit pipé (à 8 contre un). Si je tiens à conserver le seuil arbitraire mais conventionnel de 0,05, ce n'est pas assez pour me conduire à rejeter l'hypothèse que le dé est pipé ; en revanche, si j'avais décidé de lancer le dé quatre fois, obtenir quatre six me convaincra que le dé est pipé.
Ces deux approches ont l'air assez différentes : dans cet exemple, une expérience avec n=2 me permet de construire un test "classique", mais pas un test bayesien (pas avec un seuil de 5%, en tout cas). Quid si j'avais adopté un a priori "laplacien", en attribuant une probabilité égale à toutes les possibilités ? Dans ce cas, je serai parti d'une probabilité de p=1/2 ; après le premier six, j'aurais révisé cette probabilité à 1/3, puis à 1/5 après le deuxième, 1/9 après le troisième, 1/17 après le quatrième... vous vérifierez facilement que je retombe sur la même suite de probabilités qu'en partant de p=1/3, mais avec un coup de retard. En statistique bayesienne, un a priori plus informatif (1/3 plutôt que 1/2) permet de tirer des déductions d'un plus petit nombre d'observations. Entre des mains malhonnêtes, c'est évidemment une tentation de trucage... mais d'un autre côté, pourquoi négliger les précieuses informations dont nous pouvons disposer a priori ? Les modèles de la théorie économique ne font rien d'autre, puisqu'ils mettent en présence des agents dont les expériences passées (ou simplement un système de croyances subjectives) leur ont donné des a priori qu'ils révisent au vu des informations qui leur arrivent en permanence. Le débat, qui a parfois pris des airs de mini-guerre de religion, n'est pas tranché ; mais de plus en plus d''economètres sont convaincus que le choix entre ces deux approches doit se faire en fonction d'arguments pragmatiques---et l'accroissement des capacités des ordinateurs a beaucoup contribué à diffuser l'approche bayesienne.