[D'accord, pas "pour les idiots" ; et, Jacques, quelle est la traduction occitane ?]
(Sans vouloir insulter personne, naturellement : c'est la traduction française de la collection "...for Dummies", un très grand succès d'édition dont je posssède moi-même le volume sur le football américain).
Ergo, salaniephile me rappelle fort opportunément à mes devoirs. TV5 (notre French-language network) pousse aussi à la roue en m'expliquant que
- selon l'institut Y, Sarkozy est à 31% et Royal à 24%
- selon l'institut Z, Sarkozy est à 27,5% et Royal à 23,5%
- et (sous-entendu présumé lourrd de sens, je suppose) "4%, c'est la marge d'erreur des sondages".
Ah. On ne peut que se réjouir que l'idée que les sondages ont une "marge d'erreur" soit devenue un lieu commun. Les choses se compliquent quand on veut expliquer ce qu'est cette fameuse marge d'erreur. Pour simplifier, supposons que seuls Sarkozy et Royal soient aux prises (que les Bayrovistes m'excusent). Il y a plus de trente millions d'électeurs, soit un nombre à peu près infini. Mais nous ne pouvons en interroger que 1 000 : cela coûte cher. A vu de nez (et de sondages !), un duel Sarkozy-Royal se résout en 60-40, à ce stade des intentions de vote. Par hypothèse, pas d'indécis, et personne n'est honteux d'avouer sa préférence---voir plus bas.
Quand on interroge 1 000 personnes prises au hasard, 600 en moyenne déclareront vouloir voter pour Sarkozy. "En moyenne" veut dire ici que si on répétait un très grand nombre de fois le sondage, le nombre de sarkozystes serait en moyenne très proche de 600. Malheureusement, on ne fait qu'un sondage (en fait, plusieurs instituts en font, et à plusieurs moments---voir plus bas encore, mon Dieu que c'est compliqué !) C'est bien pour cela qu'il y a une "marge d'erreur"... mais quelle est-elle, et comment la chiffrer ?
Il y a une réponse mathématiquement simple, mais pas forcément simple à interpréter : p(1-p)/n. C'est la formule qui donne la variance du score atteint par Sarkozy dans le sondage. Avec p=600/1000=0,6 et n=1 000, on arrive à 0,00024. Pour dire les choses autrement, la "marge d'erreur", si on veut l'interpréter comme l'écart-type de la proportion de sarkozystes, est la racine de ce nombre, soit environ 0.015.
Goody! Première question : d'où sorté-ce ? Deuxième question : et à quoi ça sert ? La première question est d'un abord plus ardu, mais se plie à une réponse simple. Une personne prise au hasard peut être sarkozyste (avec une probabilité p=60/100=0,6) ou royaliste (sic) (avec une probabilité 1-p=40/100=0,4). Si j'en prends un assez grand nombre (n) au hasard, alors la proportion de sarkozystes parmi elles sera à peu près prévisible (et très proche de 0,6)---c'est la loi des grands nombres. Si n est grand, le théorème central-limite nous indique qu'en fait la proportion de sarkozystes s'écartera de 0,6 d'une "marge d'erreur" qui, quelle que soit la mesure raisonnable qu'on peut en faire, est proportionnelle à la racine carrée de ce fameux p(1-p)/n---soit ici 0,015.
La seconde question ressort de l'interprétation (l'esprit de finesse...), et est donc plus complexe. Que vais-je faire de ce 0,015 ? Dans cette situation archi-simpliste, ce n'est pas trop dur. Le théorème central-limite est beaucoup plus puissant que la caricature que j'en ai fait. Si la vraie proportion de français sarkozystes est (toujours au moment du sondage) de 0,6, je peux par exemple dire que la probabilité que le sondage me donne une réponse supérieure à 0,63 ou inférieure à 0,57 est à peu près de 0,05. Pourquoi 0,05 ? Parce que c'est une convention historiquement surdéterminée...pas une très bonne réponse, je l'admets, mais il est facile de refaire les calculs si vous préférez 0,1 (vous êtes joueur) ou 0,01 (vous avez le sens rassis).
Après, les choses se compliquent. Je pourrais par exemple, si mon sondage me donne une proportion de sarkozystes de 0,6 (coup de chance !) annoncer fièrement que "la probabilité que la proportion de sarkozystes est supérieure à 0,63 ou inférieure à 0,57 est négligeable : inférieur à 0,05". Dit comme cela, c'est un peu, même carrément, une escroquerie : la proportion de sarkozystes dans la populatiion française est ce qu'elle est, c'est mon sondage qui est affecté d'erreur !
Ce que je peux dire plus raisonnablement, c'est : "si vraiment la proportion de sarkozystes dans la population française s'écartait d'au moins 3 points des résultats de mon sondage, alors j'aurai joué de malchance : il n'y avait qu'une probabilité inférieure à 5% que je me trompe autant".
Voilà pour la théorie "fréquentiste", classique. Mais comme mes lecteurs le savent, il existe aussi une théorie bayesienne. Je ne suis pas tout à fait innocent de la chose politique, et je suis prêt à parier ma chemise que la proportion de sarkozystes parmi les Français ne s'écarte pas de 0,6 de plus de, disons, 0,1. Pourquoi ne pas utiliser cette connaissance synthétique a priori ? (pas de référent kantien ici, que chacun reste chez soi et les vaches seront bien gardées). Ca n'est pas bien difficile, mais...ça ne sert pas à grand'chose ici. La raison est simple : les résultats du sondage sont bien plus précis (avec une marge d'erreur de 0,015) que ma connaissance a priori. Les choses changeraient si j'étais certain a priori que la proportion de sarkozystes est entre 0,58 et 0,62...mais je ne suis pas sûr que ce soit un bon argument de vente pour les sondeurs !
Comment appliquer ces notions de base aux affirmations de TV5 ? Prenons 2 et 3, et ramenons-les aux termes de mon exemple où nul candidat n'existe hors Sarkozy et Royal (j'entends certains lecteurs gémir...) 27,5-23,5 devient alors 54-46. Qu'à cela ne tienne, la marge d'erreur en est fort peu changée, disons 0,016. Attention : la marge d'erreur sur la différence des scores de Sarkozy et Royal (8 points ici) est en fait de 3,2 points (2 fois 0,016). En revenant à 27,5-23,5, on obtient en gros 1,6 point de marge d'erreur ; si le sondeur de TV5 s'en tient à la règle conventionnelle des 5% d'erreurs, nos 4 points sont une évaluation prudente---la différence mesurée selon les sondages est très probablement réelle.
Rajoutons maintenant les autres candidats, que nous appellerons Bayrou à des fins purement illustratives. "Bayrou" récolte 100-27,5-23,5=49, bravo. Nous ne sommes plus tout à fait dans le cadre de l'exemple, mais laissez-moi vous guider : la marge d'erreur sur la différence du score entre S et R est la racine carrée de (0,275*0,725+0,235*0,765+2*0,275*0,235)/1000, soit 0,023--- et finalement, les 4 points de TV5 paraissent de plus en plus raisonnables.
Ils ne le sont plus forcément si on prend en compte que 1) les sondés sont influencés dans leur réponse par l'attitude ou même la voix de la personne qui les interroge 2) il n'est pas toujours simple de contrôler le carcatère représentatif de l'échantillon interrogé. Le point 1) est un énorme casse-tête s'agissant du vote lepéniste ; les sondeurs essaient de corriger les biais qu'il induit, mais comme ces biais changent au cours du temps... Le point 2) renvoie aux "sondages à probabilités inégales", un classique de Statistics 101. Le vote le péniste est un bon exemple. Les ouvriers votent à un tiers pour Le Pen, les enseignants à 3% (disons). Il y a un quart d'ouvriers et 3% d'enseignants dans l'électorat en France. Si j'ai décidé d'interroger 1 000 personnes pour évaluer le vote lepéniste, dois-je donc en choisir 1 000/4=250 parmi les ouvriers et 3/100*1 000=30 chez les enseignants ? Que nenni : au lieu de prendre huit fois moins d'enseignants que d'ouvriers sous le prétexte bêtement démocratique d'avoir un échantillon représentatif, je dois en prendre 21 fois plus chez les ouvriers que chez les enseignants !
Là encore, c'est notre marge d'erreur en "racine carrée de p(1-p)" qui joue. Elle est de 0,47 pour les ouvriers, et de 0,17 seulement pour les enseignants. Une vieille plaisanterie montre un ivrogne (ou un économiste) cherchant ses clés sous un réverbère "parce que c'est là qu'on voit le mieux". De fait, un calcul de variance élémentaire montre que quitte à interroger 1 000 personnes, le sondage sera plus précis si le pourcentage de personnes interrogées dans une sous-population donnée (les femmes , les ouvriers...) est proportionnel à la marge d'erreur sur cette sous-population. Dans l'exemple lepéniste, le gain de précision qui en résulte est important, parce que différentes sous-populations ont des attitudes très différentes. Le gain est moins spectaculaire si l'on oppose Sarkozy à Royal.
Dernier point, qui est double : 1) peut-on affiner les résultats en "agrégeant" les résultats des différents unbstituts ? Oui, certainement, pour autant que chaque institut ne "cuisine" pas trop ses résultats au vu de ceux de ses concurrents. 2) les tendances sont-elles plus précises que les niveaux ? Pour dire les choses autrement, si Royal monte de 3 points pour un institut donné, la marge d'erreur sur ces 3 points est-elle plus faible que sur ses 23,5 ou 24 points ? Pas vraiment, dans la mesure où l'échantillon de Français interrogés a changé entre temps. En fait, la précision de la tendance est environ 1,4 (racine de 2) fois plus faible que celle des niveaux...sauf à supposer que l'institut a surtout un biais structurel que la tendance élimine. Il est permis de rêver.
je doute que beaucoup de bacheliers puissent suivre cette brillante demonstration...!
plus serieusement, il serait interessant de mentionner les marches de predictions, qui n'attirent que peu d'interet dans les medias francais bizarrement.
cf. www.tradesports.com (ou les volumes ne sont pas tres important helas)
et http://www.easyodds.com/compareodds/specials/politics/
Justin Wolfers a recemment ecrit plusieurs articles suggerant que ces marches fournissent des bonnes predictions.
Rédigé par : luc | 04 avril 2007 à 02:50
Bernard, la traduction de "for dummies" est "pour les nuls". Si tu ne sais même pas ça, c'est que tu as vraiment passé trop de temps à l'étranger et que tu devrais vraiment revenir au pays; pourquoi pas à Toulouse?
Rédigé par : Jacques Cremer | 04 avril 2007 à 03:10
Il existe une collection équivalente des "for Dummies" en France, qui s'appelle "pour les Nuls". Faudrait changer votre titre... Sinon merci pour cet excellent article, moi qui avais toujours cru que si "en niveau" les sondages ne voulaient pas dire grand chose, "en tendance" on pouvait voir le rapport de force.
Rédigé par : Kaem | 04 avril 2007 à 03:14
Dans votre démonstration mathématique, vous oubliez le rapport à la réalité.
Les instituts ont 2 manières de sonder :
1) le tirage aléatoire de 1000 personnes, qui n'est pas utilisé car on a pas de liste de la population, et si on doit joindre les types jusqu'à ce qu'ils répondent, on est pas sorti de l'auberge.
Sur cette méthode, la loi des grans nombres s'applique.
2) la méthode des quotas. L'institut a des quotas par couche socioprofessionnelles, et ils appellent. Les gens sont interchangeables. C'est la méthode courante.
Il y a des biais dans la conception du quota, le mensonge etc...
Mais on ne peut pas calculer de marge d'erreur au sens strict. Et donc les 3-4 % ne sont pas issus d'un calcul de variance, mais du pifomètre et de l'expérience.
Rédigé par : tommy | 04 avril 2007 à 05:02
Merci Bernard de ce billet en réponse à mon dernier message.
Ta démonstration est très éclairante, mais permets-moi de te relancer avec quelques interrogations:
Quid des non réponses?
- Les résidents à l'étranger (1 million d'électeurs, désolé je radote un peu, pourtant je crois ne pas encore être sénile) votent très différemment du reste de la population (Le Pen en dessous de 7% en 2002 par exemple). Les sondeurs les ont-ils inclus dans leur plan de sondage? J'en doute. Mais j’avoue pinailler un peu, on parle ici de moins de 3% des électeurs.
- Les enquêtes sont très fréquemment (toujours?) faites par téléphone. Mais certains sont plus souvent absents de leur domicile que d'autres (comme ceux qui voyagent beaucoup et qui me font penser à la catégorie précédente, a contrario les inactifs, travailleurs à domicile, enseignants sont probablement plus fréquemment à leur domicile à l'heure d'appel des enquêteurs), je ne sais pas si les quotas choisis compensent bien ces effets de sélection. 13% des français n'ont pas de téléphone fixe http://www.insee.fr/fr/ffc/chifcle_fiche.asp?ref_id=NATSOS05106P&tab_id=465 et je doute que les français sur liste rouge soient interrogés. De plus, une fraction (que j'ignore) des sondés va décliner la demande au téléphone.
Ipsos ( http://www.ipsos.fr/CanalIpsos/cnl_static_content.asp?rubId=35#02 ) avoue ne pas faire d'effort auprès des non-répondants en présentant la méthode des quotas comme la solution miracle, est-ce satisfaisant? Je présume qu'il s'agit d'un sondeur représentatif :=) , qu'il ne soit pas vu ici une attaque contre un institut en particulier.
Supposer que tous ces non-répondants auraient une réponse analogue aux répondants me parait contestable. Et corriger du biais de sélection est ardu, car il faudrait des informations sur le comportement de vote des non-répondants (on peut penser à des informations sur une précédente élection analogue), à moins que tu n'aies une idée de méthode plus astucieuse.
Pire, il est notoire que des sondés mentent (pour ne pas avouer qu'ils comptent s'abstenir, voter Le Pen...).
Les paramètres utilisés pour le redressement sont eux-mêmes des variables aléatoires entachées d'erreur, comment le prendre en compte? Par-dessus le marché, ces paramètres fluctuent vraisemblablement au cours du temps, et on ne peut les caler que lors d'une élection analogue. Est-il moins ou plus honteux d’avouer qu’on vote Le Pen sachant 2002 ? Difficile à dire.
Ton écart-type est celui d'un sondage aléatoire simple (SAS). La méthode des quotas n'aurait-elle donc rien apporté? Je sais bien qu'on ne connaît pas l'écart-type dans le cas de la méthode des quotas, mais ne serait-elle pas plus proche d'un sondage stratifié que d'un SAS?
A partir du résultat 27,5/23,5, au lieu de te ramener à 54/46, je te propose le raisonnement suivant pour discuter de marge de 4% annoncée par TV5. On peut s’intéresser à la précision du résultat de Sarkozy pris isolément (comme si on demandait: votez-vous Sarkozy ou votez-vous pour un autre candidat?), alors la variance devient p(1-p)/n=0.275*(1-0.275)/1000=0.0002, soit un intervalle de confiance (au seuil que tu utilises dans ton billet) de plus ou moins 2,8%. Si on ajoute les risques de biais (ne devrait-on pas d'ailleurs parler ici d'erreur quadratique?), les erreurs liées au redressement, les 4% annoncés par TV5 (je comprends plus ou moins 4%) ne me paraissent pas invraisemblables.
Tout ceci sans compter que les commentateurs mettent souvent l'accent un ou deux résultats du dernier sondage, en en omettant d'autres (que penser du Figaro qui a fait une une sur les bons sondages de Sarkozy et qui n'a pas fait l'équivalent lors de la montée plutôt rapide de Bayrou...)
On peut également s'interroger sur l'effet autoréalisateur (on ne va pas voter pour tel candidat car on sait qu'il n'a que très peu de chance de victoire) des sondages. La théorie des jeux nous éclairent-elles sur le lien entre nos choix de votes et nos croyances sur les résultats? Si l'effet autoréalisateur est important, un résultat sorti par hasard "en haut de fourchette" peut alimenter une hausse qui peut s'auto-entretenir. Phénomène qui me rappelle Napoléon: "Dans tout ce qu'on entreprend, il faut donner les deux tiers à la raison et l'autre tiers au hasard. Augmentez la première fraction, et vous serez pusillanime. Augmentez la seconde, vous serez téméraire."
Rédigé par : salaniephile | 04 avril 2007 à 07:12
* titre corrigé plus haut...
* tommy : l'experience et le pifometre, c'est aussi une methode (peut-etre aleatoire). Le pifometre tient de "que puis-je annoncer tout en restant credible et sans decourager les clients"? L'experience, c'est apprendre du passe, un probleme statistique typique. Il vaut mieux le faire de maniere methodique. Si vous voulez dire que les sondeurs annoncent n'importe quelle marge d'erreur, 1) je ne crois pas que ce soit vrai 2) peu me chaut : je voudrais expliquer ce qu'ils devraient faire, pas ce qu'ils font, qui a beaucoup moins d'interet !
* salaniephile : j'ai effectivement mes doutes sur la couverture/representativite de ces echantillons. Et bien sur, la marge d'erreur sur le vote sur Sarkozy est plus faible que celle sur la difference de votes entre Sarkozy et Royal, et cette derniere depend de l'existence ou no d'autres candidats. Sauf erreur, si p est la proportion de sarkozystes et q celle de royalistes, avec p+q<=1 bien sur, les variances sont
Pour le vote sarkozyste : p(1-p)
Pour le "spread" S-R : p(1-p)+q(1-q)+2pq.
(Remarquons au passage que si le spread est positif, alors la marge d'erreur est maximale quand il s'agit d'un duel, p+q=1.)
* les marches de prediction m'interessent beaucoup, professionnellement. Voir les cotes actuelles sur Betfair :
http://lite.betfair.com/Market.do?s=0000095864458x1z#marketinfo
Rédigé par : Bernard Salanie | 04 avril 2007 à 13:22
Point du tout, je ne voulait pas dire que ce que vous supposez sur la marge d'erreur.
Simplement que la méthode aléatoire pour laquelle s'applique la loi des grands nombre n'est jamais utilisée, et que par conséquent on ne SAIT pas calculer la marge d'erreur des sondages.
Certains sondeurs dénie même le concept de marge d'erreur pour les sondages, vu qu'ils sont fait par quota.
Quand je disait pifomètre, j'entendais "expérience", bien sûr. Je ne suis pas de ceux qui jettent la pierre aux sondeurs.
Je voulait juste exprimer que les théories mathématiques de l'aléatoires sont interessantes à connaïtre, mais ne s'appliquent pas à ce cas précis :)
Rédigé par : tommy | 04 avril 2007 à 15:25
@ tommy sur les quotas (qui empêcheraient de calculer des marges d'erreur) : ce que vous écrivez là est souvent écrit mais faux. Cf. la discussion sur le blog de Thierry Vedel :
http://vedel.blogspot.com/2007/03/les-sondages-politiques-ct-cuisine-la.html
@ Bernard Salanié : la formule sur la variance de (p-q) me semble juste mais je ne comprends pas comment elle peut donner, *au 1er tour*, le double de la marge d'erreur sur chacun des scores. Il s'agit ici, non de questions différentes sur un même échantillon (plus ou moins corrélées, éventuellement r=0) mais de réponses alternatives à une QCM (r<0). Pas le temps de refaire le calcul tout de suite, désolé.
Rédigé par : FrédéricLN | 06 avril 2007 à 01:38