En discutant de manière très "ouverte" des raisons qui feraient que les femmes ont moins de succès que les hommes dans la recherche scientifique, Larry Summers a déclenché une tempête qui a contribué à sa chute---d'économiste réputé à Secrétaire au Trésor américain à président de Harvard à paria (relatif) du système. (Il est probable qu'en fait, cette mini-tempête a permis à Harvard de liquider des problèmes bien plus épineux qui risquaient de lui coûter très cher si Summers restait aux commandes ; mais c'est une autre histoire).
Maintenant que les choses se sont calmées, les statisticiens, gens toujours un peu rabat-joie dans leur manie de vouloir en revenir aux données, nous livrent des mesures intéressantes. Oublions la question de la parité parmi les senior faculty de Harvard, qui sont après tout un nanocosme. Il reste que les rapports officiels sur le système éducatif, ici comme ailleurs, rappellent régulièrement que les garçons réussissent "significativement" mieux que les filles dans les sciences.
Ah, ce terme de "significatif"... il est aussi vieux que la statistique moderne ; mais c'est l'un des pires choix de terminologie de l'histoire des sciences. Lorsque les statisticiens d'un ministère de l'éducation parlent d'une différence "significative" comme ci-dessus, ils constatent simplement que
- en moyenne, les garcons ont une meilleure note en sciences que les filles (cela ne prête guère à contestation---il suffit d'effectuer une simple moyenne des notes obtenues) ;
- la différence entre les deux moyennes est suffisamment élevée pour qu'on ne puisse pas l'expliquer par des fluctuations statistiques.
Le 2e alinéa mérite un commentaire. Si par exemple je veux savoir si un dé est pipé pour tirer plus de six, je peux le lancer 60 fois et compter le nombre de six obtenu. A priori, je m'attendrai à en avoir 10. Si j'observe 30 fois un six, je concluerai naturellement que le dé est pipé ; mais quid si j'observe 11 six, ou 12 ? C'est à cette question que la "significativité statistique" veut répondre. Des calculs élémentaires montrent que si le dé n'est pas pipé, en le lancant 60 fois j'obtiendrai exactement 10 six avec une probabilité d'environ 0,137 (soit une chance sur sept). Mais j'ai aussi une probabilité très proche (0,134) d'en obtenir 11, ou d'en tirer 12 (avec probabilité 0,102)...ceci suggère que tirer 12 six n'est pas une indication suffisante que le dé est pipé.
Comment faire ? Dans les années 20, le grand statisticien Ronald Fisher a proposé que l'on décide que le dé est pipé si l'on obtient un nombre de six plus élevé qu'une "valeur critique". Ladite valeur est, par définition conventionnelle, telle qu'un dé non pipé ne pourrait obtenir ce nombre de six ou plus qu'avec une probabilité de 0,05. Dans cet exemple, je "rejetterai l'hypothèse que le dé est non pipé" (c'est le jargon...) si j'obtiens au moins 15 six.
Quel rapport avec les garcons et les filles ? Si je tire 15 fois un six, je déduirai que le dé a une probabilité "significativement supérieure à un sixième" de produire un six. Mais supposons que je lance 6 000 fois le dé ; alors les déviations de la moyenne attendue de 1 000 six (si le dé est non pipé) deviennent proportionnellement plus faibles. Pour être précis : comme je dispose de 100 fois plus d'observations, les déviations probables deviennent 10 fois plus petites (10 est la racine carrée de 100). Résultat des courses : cette fois ma valeur critique sera de 1 048, ce qui est bien plus proche (proportionnellement) des 1 000 six attendus. Plus on a d'observations, et plus il est facile de rejeter une hypothèse, c'est-à-dire de trouver un résultat statistiquement significatif. Mais que se passe-t-il si je veux "estimer" la probabilité d'obtenir un six au vu des tirages ? Si le dé était non pipé, cette probabilité serait de 1/6=0,167. Quand je n'avais que 60 tirages, je déclarais le dé significativement pipé si j'avais obtenu au moins 15 six ; mais alors ma probabilité estimée de tirer un six était de 15/60=0,25, ce qui signale effectivement un pipage non négligeable. Avec 6 000 tirages, je peux juger le pipage significatif avec 1 048 six, alors même que la probabilité de six serait alors de 1 048/6 000=0,175...soit un pipage finalement très discret.
Les statisticiens des ministères de l'éducation moyennent les notes de centaines de milliers d'élèves ; ils essaient de prendre en compte les différences entre eux (qualité des établissements, diplômes des parents...) mais même ainsi, ils trouvent nécessairement des différences statistiquement significatives là où la différence entre un garcon moyen et une fille moyenne est en fait très faible. C'est la raison pour laquelle il est bien préférable de calculer une distance entre les performances moyennes des filles et des garcons, divisée par la variabilité des performances dans la population. Appelons cet indice d. Il s'avère---je tire les chiffres d'un article récent de Hyde et Linn dans Science---que d est très faible en ce qui concerne les performances en sciences : de l'ordre de 0,1 à 0,2 selon les études. Autrement dit, la différence entre le garcon moyen et la fille moyenne est environ 15% de la variabilité moyenne dans la population. Si cela vous paraît encore important, voici deux faits supplémentaires :
- les garcons sont-ils plus agressifs que les filles ? Oui---avec un d proche de 0,5. Mais même ainsi, 40% des filles sont plus agressives que le garcon moyen....pour les sciences, le chiffre correspondant serait de 48% environ.
- la différence entre les garcons américains et les garcons japonais (ou les filles japonaises, à peu de choses près) en sciences est de...d=1,4, ce qui relativise fortement la différence garcon-fille.
Ce dernier fait est particulièrement intéressant pour un économiste. In fine, la question centrale est celle de la gestion des moyens : quelle est la manière la plus efficace d'allouer les dépenses pour améliorer les performances des filles américaines en sciences ? Visiblement, il faut les envoyer au Japon...ou s'inspirer de l'enseignement des sciences dans les lycées japonais.

"Il est probable qu'en fait, cette mini-tempête a permis à Harvard de liquider des problèmes bien plus épineux "
Ah ben maintenant, je suis curieux !
Je connais la sombre histoire avec Andrei Shleifer, mais il y a autre chose ?
LSR
Rédigé par: Elessar | 11 novembre 2006 à 23:27
Le débat fait intervenir deux questions bien distinctes :
- "la différence entre le garcon moyen et la fille moyenne"
- le "succès [...] dans la recherche scientifique"
La première question porte sur la différence/ressemblance à la moyenne, et la deuxième sur ce qui se passe vers le haut de la distribution. Que les hommes et les femmes soient presque aussi doués pour la musique "en moyenne" n'implique pas qu'il y aura autant de Mozart homme que femme. Le haut de la distribution peut avoir une forme particulière qui amplifie les différences les plus petites, en particulier si on se rapproche d'une gaussienne. Comme les cas exceptionnels sont particulièrement visibles dans les media, cela peut fausser notre perception des différences.
Cela ne donne pas pour autant raison à L.Summers, car les étudiant(e)s sont sélectionné(e)s avec un critère de seuil un peu au-dessus de la moyenne, mais quand même pas en fonction de leurs chances d'obtenir le prix Nobel!
Rédigé par: Gu Si Fang | 12 novembre 2006 à 02:39
* LSR : ca ne suffit pas ?
* GSF : oui, bien sur. Il est bien etabli que la distribution des performances des hommes est plus dispersee que celle des femmes (des deux cotes !). C'est la raison pour laquelle j'avais ramene le debat aux competences des adolescents en general.
Rédigé par: Bernard Salanie | 12 novembre 2006 à 07:58
Les courbes gaussienne (et la variance) peuvent en général décrire correctement une distribution près de la moyenne, mais ne disent rien sur les queues (et Summers devrait le savoir ...).
Sinon, sur la part culturelle :
http://feminin.over-blog.com/article-4244974-6.html
Rédigé par: Laurent GUERBY | 12 novembre 2006 à 09:47