Aller au contenu principal
Encore 1/5 articles gratuits à lire
Certaines méthodes employées par les chercheurs pour rendre leurs travaux plus attractifs sont discutables.
© Sylvie Serprix

Recherche

Dans les labos, des petits arrangements avec la science

Pour aboutir à des découvertes, les chercheurs ont parfois recours à des tours de passe-passe douteux: trucages d’images et bidouillages statistiques abondent. Quatrième volet de notre série sur le monde trouble de la publication scientifique

[En partenariat avec Le Monde] Toute cette semaine, Le Temps vous emmène dans les coulisses de  la science qui se fabrique, découvrir les cinq plaies de la recherche actuelle. Voici le quatrième épisode. A lire aussi:

Copier-coller d’images, bidouillage statistique, exagération des résultats, méconnaissance des méthodes utilisées, lenteur voire refus à corriger des erreurs…, les arrière-cours des laboratoires ne sont pas toujours reluisantes.

En juin 2016, dans le journal mBio, un criblage de plus de 20 000 articles tirés de 40 journaux scientifiques a repéré près de 4% de problèmes avec des images présentes dans les articles à l’appui des démonstrations. Le taux dépassant 12% pour un journal de l’échantillon. Les «erreurs» vont de la simple duplication de parties d’images, à la retouche frauduleuse en passant par le repositionnement ou l’inversion de certaines parties. Ces images montrent, pour l’essentiel, quelles protéines sont exprimées ou non dans des tissus.

«Les reviewers ne regardent pas les images»

La base de données de Retraction Watch, un site lancé en 2010 pour suivre l’actualité des retraits ou corrections d’articles, recense plus de cas problématiques pour «manipulation» d’images que pour «plagiat de texte» (le plagiat d’images existant également!): 294 plagiats d’articles pour 422 duplications, 305 manipulations et 134 falsifications d’images. Un autre site, PubPeer, lancé en 2012 pour accueillir des discussions anonymes sur des articles déjà publiés, s’est vite transformé en forum de la traque des images manipulées. Ce qui a conduit à bien des corrections et rétractions.

L’un des drames est «que les reviewers ne regardent pas les images» constate Elisabeth Bik, microbiologiste de la société de génomique microbienne uBiome en Californie et coauteur de l’étude de mBio. Elle a repéré à l’œil les erreurs, avant que d’autres collègues ne les valident. Elle pointe aussi un autre problème: l’absence de réactions des auteurs ou des journaux qui publient les articles litigieux. Elle estime avoir signalé plus de 800 cas qui ont conduit à une trentaine de rétractions, «mais dans la grande majorité des cas, je n’ai pas eu de réponses».

Logiciels de détection automatique

La spécialiste, pour expliquer ces pratiques plus ou moins discutables, évoque «l’erreur, le manque de temps pour faire les expériences de contrôle, la précipitation à publier ou l’envie de cacher des choses…» Elle est aussi tombée sur des récidivistes ayant plus d’une vingtaine d’images retouchées, preuve de dysfonctionnements plus graves. Dans un nouvel article à paraître, elle a mis en avant des corrélations. La pression à publier augmente le risque de mauvaises pratiques, tandis qu’un contrôle social plus important, c’est-à-dire l’existence de règles ou de sanctions, le limite. Pour résorber ces problèmes, la chercheuse est impliquée dans la mise au point de logiciels de détection automatique de retouches d’images, dont commencent à se doter les éditeurs.

Les chercheurs savent aussi s’arranger avec les statistiques, l’outil qui leur sert pour analyser leurs résultats et qui permet surtout de clamer une découverte (l’absence de découverte faisant rarement l’objet de publication). Le 1er septembre, plus de soixante-dix chercheurs ont appelé dans Nature Human Behaviour à «redéfinir la significativité statistique». Pour eux, «les standards statistiques pour revendiquer une découverte sont tout simplement trop bas dans beaucoup de domaines de la science». Et ils appellent à relever ces standards.

Certains surexploitent les données et essaient jusqu’à ce que ça marche

Bertrand Thirion, spécialiste en neurosciences à l’Inria

A commencer par le plus connu d’entre eux, la valeur p. Le «standard» veut qu’un test statistique mesurant la différence entre deux hypothèses et donnant une valeur p inférieure à 5% soit significatif et donc digne d’être publié. Premier problème, depuis des années, des chercheurs ont alerté sur le fait que certains ignorent la définition même de cette valeur p. Beaucoup croient ainsi que ce paramètre désigne la probabilité qu’un résultat expérimental soit un faux positif. Mais ce n’est pas vraiment le cas.

David Colquhoun de l’University College à Londres l’a expliqué en 2014 dans un article de la Royal Society, avec l’exemple d’un test de détection d’une maladie. Une valeur p de 5% signifie que si quelqu’un n’est pas malade, alors le test trouvera qu’il a 5% de chance de l’être (faux positif). Mais cela ne dit pas qu’elle est la probabilité d’être malade. En prenant un taux de prévalence de 90% par exemple pour cette maladie on peut alors calculer le taux réel de faux positif comme étant 36%! La valeur p seule peut donc induire de fausses interprétations. Néanmoins, plus on fixe un seuil bas, plus ce taux de faux positif baissera. Idem si on augmente la taille de l’échantillon.

L’art du «p-hacking»

Mais alors que la génétique ou la physique ont fixé des seuils autrement plus drastiques pour p (dix à cent millionièmes), des disciplines comme la recherche biomédicale, la psychologie, l’économie… restent accrochées à ce 0,05. En mars 2016 une étude de John Ioannidis dans JAMA notait la présence de valeur p dans le résumé d’un tiers des 151 revues médicales les plus importantes et dans près de 40% des essais cliniques. Petite bizarrerie, déjà constatée par d’autres: les valeurs p rapportées ont une forte tendance à se concentrer vers 0,05, le fameux seuil à partir duquel les résultats sont considérés significatifs. C’est sans doute que les chercheurs sont passés maître dans l’art du «p-hacking», c’est-à-dire l’art de trouver la bonne méthode afin de tomber sous le seuil fatidique.

Effets négatifs clairs

«Certains surexploitent les données et essaient jusqu’à ce que ça marche», explique Bertrand Thirion, spécialiste en neurosciences à l’Inria, l’Institut national français de recherche en informatique et en automatique. «Ce n’est pas de la triche délibérée mais comme les chercheurs ont fait beaucoup d’efforts pour faire les expériences, ils veulent trouver quelque chose et font «vibrer» les méthodes». Chris Chambers, dans son livre Les sept pêchés mortels de la psychologie (Princeton University Press, non traduit) détaille avec regret ces mauvaises pratiques. «Les effets du p-hacking sont clairs, remplissant la littérature scientifique avec des hypothèses faites après l’expérience, de fausses découvertes, et des impasses de recherche», écrit-il.

Pour améliorer la fiabilité, les auteurs de l’appel de Nature human behaviour recommandent dans un premier temps de baisser le seuil à 0,005 et évoquent aussi l’existence d’autres critères ou méthodes statistiques. Ce problème de la valeur p est fortement lié à une plaie de la recherche, «la crise de la reproductibilité»… à découvrir dans le prochain volet de notre série.


Le spin, ou comment tordre la réalité

Quand on a essayé le forceps pour arriver à un résultat (copier-coller d’images, exploitation des méthodes statistiques…), mais que la nature persiste encore à empêcher une découverte, il reste la solution du tour de passe-passe: présenter les conclusions sous un jour plus beau que la réalité. Ce spin, comme disent les Anglo-Saxons, peut se faire lors du passage de l’article au communiqué de presse, mais aussi de l’article scientifique à son résumé par les auteurs (sur lequel beaucoup de lecteurs s’arrêtent), comme l’ont mis en évidence de nombreux travaux.

Pratique répandue

Ainsi le 11 septembre dans Plos Biology une équipe de l’Université de Sydney a analysé 35 études sur le spin et confirmé que la pratique est répandue. Dans les articles rapportant des essais cliniques, plus de la moitié, 57%, présente des gauchissements de la réalité. En 2014, une autre étude constatait que 40% des communiqués de presse contiennent des exagérations et que dans ces cas-là, 58% des articles de journaux mentionnant ces travaux exagèrent aussi…

Les tours de passe-passe consistent à surinterpréter les conclusions, ou à exagérer la portée d’un test statistique. Ou bien à mettre en avant un résultat secondaire pour suggérer un bénéfice d’un traitement. Ou encore à attribuer, sans preuve, une cause à un effet.

Dossier
Les 5 plaies de la recherche scientifique

Publicité
Publicité

La dernière vidéo sciences

Sécheresse et feux de forêts vus de l’espace

Chaque année, 350 millions d’hectares de forêts, friches et cultures sont ravagés par des incendies, soit la taille de l’Inde. L’astronaute allemand Alexander Gerst partage sur Twitter sa vue panoramique sur le réchauffement climatique depuis la Station spatiale internationale

Sécheresse et feux de forêts vus de l’espace

This handout picture obtained from the European Space Agency (ESA) on August 7, 2018 shows a view taken by German astronaut and geophysicist Alexander Gerst, showing wildfires in the state of California as seen from the International Space Station…
© ALEXANDER GERST