Intelligence Artificielle

Recherche bâclée : Des scientifiques paresseux s’appuient sur le Machine Learning sans le maîtriser

Recherche bâclée : Des scientifiques paresseux s'appuient sur le Machine Learning sans le maîtriser

Les systèmes d’apprentissage automatique connaissent un essor fulgurant dans la recherche scientifique, et il est facile de comprendre pourquoi.

Ces **algorithmes** sont conçus pour analyser des ensembles de données complexes afin d’identifier des **schémas** susceptibles de prédire des résultats futurs. Ils peuvent ainsi **économiser** un temps considérable, et beaucoup espèrent qu’ils réussiront à déceler des tendances que les méthodes traditionnelles ne parviennent pas à mettre en lumière.

Impressionnants, certes. Cependant, les modèles d’apprentissage automatique sont si **compliqués** qu’il devient **particulièrement difficile** même pour leurs créateurs d’expliquer leurs résultats. Des exemples existent où ces systèmes ont été capables de **falsifier** des données pour obtenir des solutions plus élégantes.

Ajoutez à cela le fait que de nombreux scientifiques utilisant cette technologie ne sont pas des **experts** en apprentissage automatique, ce qui crée un terrain propice à des erreurs méthodologiques majeures. Comme l’ont souligné le professeur de Princeton Arvind Narayanan et son doctorant Sayash Kapoor dans un article pour **Wired**, un nombre surprenant de chercheurs pourraient commettre des erreurs graves dans leurs méthodes, ce qui pourrait avoir de lourdes conséquences pour le milieu académique.

Selon **Wired**, ces deux chercheurs ont commencé à s’inquiéter en découvrant une étude en science politique affirmant pouvoir prédire une future guerre civile avec une **précision** de 90 %. Cependant, en examinant de plus près, ils ont constaté que ce travail était truffé de **résultats fallacieux**, étant le produit d’un phénomène appelé “**fuite de données**”.

A lire :  GPT-4 : Quand l'Intelligence Artificielle Déjoue un CAPTCHA Humain

La fuite de données se produit lorsque le système d’apprentissage utilise des **informations** qui ne devraient pas être accessibles. Cela arrive typiquement lorsque les utilisateurs manipulent mal les ensembles de données, faussant ainsi la manière dont le modèle “apprend”.

Suite à cette découverte dans l’étude sur la guerre civile, les chercheurs de Princeton ont entrepris de chercher des erreurs similaires dans d’autres études publiées. Les résultats, qu’ils ont partagés dans un document encore en attente de validation par les pairs, sont **alarmants**. Ils ont ainsi identifié des fuites de données dans un total de **329 travaux** dans divers domaines, y compris la médecine et les sciences sociales.

« Ils prétendaient avoir une précision presque parfaite, mais nous avons constaté qu’il y avait une **erreur** dans le processus d’apprentissage automatique à chaque fois », a expliqué Kapoor à la revue.

Dans leur étude, ils décrivent la situation actuelle comme une **”crise de reproductibilité”**, signifiant que les résultats d’une étude ne peuvent pas être reproduits par des recherches suivantes.

Ce constat soulève des inquiétudes quant à une éventuelle répétition d’une **autre crise** de reproduction qui a récemment secoué le milieu scientifique, dans laquelle des chercheurs ont déformé des statistiques pour arriver à des conclusions qui n’étaient que du **bruit** statistique dans d’importants ensembles de données.

Si cela se confirme après des analyses approfondies, ce serait une révélation extrêmement préoccupante. Les recherches scientifiques ne sont pas menées sans raison ; généralement, l’objectif est d’appliquer les connaissances acquises d’une manière ou d’une autre, que ce soit pour des actions immédiates ou pour orienter de futures études. Une erreur dans le pipeline d’information conduit souvent à des problèmes ultérieurs, ce qui pourrait avoir des conséquences désastreuses.

A lire :  10 Modèles de Prompts IA pour Gagner du Temps dans les Tâches Quotidiennes au Bureau

D’après **Wired**, Narayanan et Kapoor pensent que la présence d’erreurs d’apprentissage automatique dans la recherche scientifique peut être attribuée à deux facteurs principaux : le **battage médiatique** entourant ces systèmes et le manque de **formation** des utilisateurs. L’industrie de l’IA a commercialisé des logiciels d’apprentissage automatique promettant une facilité et une efficacité toujours croissantes, mais comme le signalent les deux chercheurs, cela n’est pas forcément positif.

« L’idée qu’on peut suivre un cours en ligne de quatre heures et ensuite utiliser l’apprentissage automatique dans ses recherches est totalement **exagérée**. Beaucoup de gens ne s’arrêtent pas pour réfléchir aux **erreurs** potentielles », ajoute Kapoor.

Il est vrai que les scientifiques peuvent commettre des erreurs sans l’aide de l’IA. De plus, le fait que l’apprentissage automatique semble parfois difficile à **contester** ne facilite pas les choses, surtout quand la facilité et l’efficacité sont mises en avant — en effet, ce n’est “que des chiffres”, n’est-ce pas ? Cependant, il semble que les chercheurs commettent des erreurs non seulement à cause de l’apprentissage automatique, mais également à cause de cette technologie.

Cela dit, l’IA peut être extrêmement utile pour les études scientifiques. Il ne fait aucun doute qu’elle a été bénéfique dans de nombreux cas et continuera probablement de l’être. Toutefois, il est essentiel que les chercheurs qui l’utilisent fassent preuve de **prudence** et se posent de sérieuses questions sur leurs capacités. Car au bout du compte, ces erreurs ne sont pas dues à la machine, mais bien aux **humains**.

Pour citer tous les enseignants de mathématiques : n’oubliez pas de montrer votre travail la prochaine fois.

A lire :  OpenAI Affirme Que Des Accusations Erronées de Crimes Par ChatGPT Ne Sont Pas Un Problème.

LIRE ENCORE : Une utilisation négligente de l’apprentissage automatique provoque une crise de reproductibilité dans la science [Wired]

Pour en savoir plus sur l’apprentissage automatique : Des chercheurs ambitieux veulent utiliser l’IA pour communiquer avec tous les animaux

FAQ

Qu’est-ce que l’apprentissage automatique ?

L’apprentissage automatique est une branche de l’intelligence artificielle qui permet aux machines d’apprendre à partir de données sans être explicitement programmées.

Pourquoi la reproductibilité est-elle importante en science ?

La reproductibilité garantit que les résultats d’une étude puissent être vérifiés et confirmés par d’autres chercheurs, c’est un fondement crucial de la méthode scientifique.

Comment prévenir les erreurs d’apprentissage automatique dans la recherche ?

Il est essentiel de former correctement les chercheurs à l’utilisation des outils d’apprentissage automatique et d’appliquer des vérifications rigoureuses lors de l’analyse des données.

Quels sont les risques associés à l’utilisation de données biaisées ?

Les données biaisées peuvent conduire à des résultats erronés, faussant ainsi les conclusions d’une étude et nuisant à la crédibilité des recherches scientifiques.

Existe-t-il des exemples d’utilisation réussie de l’apprentissage automatique ?

Oui, l’apprentissage automatique a été utilisé avec succès dans des domaines comme la médecine pour diagnostiquer des maladies à partir d’images médicales et dans la climatologie pour modéliser le changement climatique.