Science

Comment la crise de la reproductibilité fonctionne – et pourquoi elle ébranle la science

La moitié des résultats en sciences sociales ne peuvent être reproduits par des chercheurs indépendants, ce qui révèle de profonds problèmes structurels dans la manière dont les études sont publiées, financées et encouragées – et suscite des réformes qui pourraient remodeler l'entreprise scientifique.

R
Redakcia
5 min de lecture
Partager
Comment la crise de la reproductibilité fonctionne – et pourquoi elle ébranle la science

Le problème derrière les gros titres

La science est censée s'autocorriger. Un chercheur publie un résultat, d'autres scientifiques répètent l'expérience, et le résultat se confirme ou non. En pratique, cependant, cette boucle de rétroaction est en panne depuis des années. La crise de la reproductibilité – également appelée crise de la réplication – fait référence à l'incapacité généralisée des chercheurs indépendants à reproduire les résultats scientifiques publiés. Elle touche la psychologie, la médecine, l'économie et presque toutes les disciplines empiriques.

L'ampleur est stupéfiante. Un effort historique de 2015 de l'Open Science Collaboration a tenté de reproduire 100 études de psychologie publiées. Bien que 97 % des études originales aient rapporté des résultats statistiquement significatifs, seuls 36 % ont été confirmés lors de la réplication. En biologie du cancer, des scientifiques de la société pharmaceutique Amgen ont tenté de confirmer 53 articles précliniques marquants et n'ont réussi qu'avec six, soit un taux d'échec de 89 %.

Un nouveau test massif

L'effort le plus complet à ce jour, le projet SCORE (Systematizing Confidence in Open Research and Evidence), a été publié dans Nature en avril 2026. Financé par la U.S. Defense Advanced Research Projects Agency avec près de 8 millions de dollars, le programme de sept ans a enrôlé 865 chercheurs pour analyser environ 3 900 articles de sciences sociales publiés entre 2009 et 2018 dans 62 revues couvrant l'économie, la psychologie, les sciences politiques, l'éducation, et plus encore.

Les résultats ont été décevants. Sur 274 affirmations soumises à une réplication directe, seuls 55,1 % ont produit des résultats statistiquement significatifs dans la direction originale. Au niveau de l'article, seuls 49,3 % ont été reproduits avec succès. Les taux de réplication ont varié modestement d'une discipline à l'autre – de 42,5 % dans certains domaines à 63,1 % dans d'autres – mais aucune discipline n'a été épargnée. Pire encore, même les études qui ont été reproduites ont montré des tailles d'effet inférieures de moitié à ce qui avait été initialement rapporté.

Pourquoi tant d'études échouent

Plusieurs forces structurelles sont à l'origine de la crise :

  • Biais de publication. Les revues ont historiquement préféré les résultats nouveaux et positifs. Une étude qui trouve un effet spectaculaire est publiée ; une étude qui ne trouve rien languit dans le « tiroir ». Cela crée une littérature biaisée vers des résultats tape-à-l'œil mais fragiles.
  • Faible puissance statistique. De nombreuses études utilisent des tailles d'échantillon trop petites pour détecter de manière fiable les effets réels. Les estimations suggèrent que la puissance statistique moyenne en psychologie oscille autour de 35 %, ce qui signifie que la plupart des études sont sous-alimentées dès le départ.
  • Degrés de liberté du chercheur. À chaque étape – de la formulation de l'hypothèse à l'analyse des données – les scientifiques sont confrontés à des choix qui ne sont pas entièrement contraints par les meilleures pratiques. Des décisions flexibles sur les données à exclure, les variables à tester et le moment d'arrêter la collecte de données peuvent gonfler les taux de faux positifs, parfois involontairement.
  • Incitation à publier ou à périr. L'avancement de carrière dépend de la publication fréquente dans des revues à fort impact, ce qui récompense la rapidité et la nouveauté plutôt que la rigueur et la réplication.

Ce qui prédit réellement la reproductibilité

Le projet SCORE a mis en évidence un facteur fortement corrélé à la possibilité de reproduire une étude : la disponibilité des données. Seul un tiers environ des articles de l'échantillon avaient rendu leurs données sous-jacentes et leur code informatique facilement accessibles. Ceux qui l'ont fait étaient significativement plus susceptibles d'être reproduits. La transparence, il s'avère, est le meilleur prédicteur de la fiabilité.

Des réformes qui prennent racine

La crise a déjà commencé à remodeler la pratique scientifique. Les rapports enregistrés – un format de publication dans lequel les chercheurs soumettent leurs méthodes et leurs plans d'analyse à un examen par les pairs avant de collecter des données – sont désormais proposés par des centaines de revues. Étant donné que la publication est garantie quel que soit le résultat, cela élimine l'incitation à rechercher des résultats positifs.

Les pratiques de science ouverte se répandent également. Les principaux bailleurs de fonds, tels que les U.S. National Institutes of Health et le Conseil européen de la recherche, exigent de plus en plus le partage des données. Des outils comme StatCheck analysent automatiquement les articles à la recherche d'incohérences statistiques. Les communautés de base, y compris le Center for Open Science, fournissent une formation et une infrastructure pour une recherche transparente.

Ces réformes ne sont pas une panacée. La modification des structures d'incitation – la manière dont les comités d'embauche évaluent les candidats, la manière dont les subventions sont attribuées – reste lente. Mais la direction du voyage est claire : la science apprend à vérifier son propre travail, une réplication à la fois.

Cet article est également disponible dans d'autres langues :

Articles connexes