Intelligence Artificielle

L’IA génère des contenus redondants : une surexploitation lexicale révélée par la recherche.

L'IA génère des contenus redondants : une surexploitation lexicale révélée par la recherche.

Comprendre l’impact de l’IA sur la rédaction scientifique

Une analyse des modèles d’intelligence artificielle

Des études récentes révèlent un fait surprenant concernant les modèles d’intelligence artificielle : malgré leur formation sur une vaste collection d’écrits humains, leur vocabulaire reste souvent limité. Une recherche qui n’a pas encore été évaluée par des pairs, relayée par Ars Technica, met en lumière ces faiblesses. Les données suggèrent que certains mots sont utilisés de manière excessive, ce qui pourrait trahir l’origine d’un texte généré par ces modèles.

Méthode d’analyse innovante

Les chercheurs ayant mené cette étude ont adopté une approche inspirée de l’épidémiologie. Ils ont mesuré l’« usage excessif de mots » dans des articles biomédicaux, semblable à la manière dont les médecins analysaient l’impact de la COVID-19 via les « morts excédentaires ». Cette méthode a permis d’obtenir des résultats fascinants sur l’influence de l’IA dans le monde académique. Ils ont découvert qu’au moins 10 % des résumés en 2024 avaient été « traités par des LLM » (modèles de langage de grande taille).

A lire :  Le rachat d'IBM de Confluent pour 11 milliards de dollars propulse le cours de l'action de 29%

Effets remarquables sur l’écriture scientifique

Les chercheurs soulignent que l’effet de ces modèles sur la rédaction scientifique est sans précédent, surpassant même les changements lexicaux engendrés par la pandémie. Les travaux réalisés pourraient également contribuer à améliorer les techniques de détection des écrits générés par l’IA, qui sont actuellement peu fiables.

Tendances dans l’utilisation des mots

Les résultats de cette étude proviennent d’une analyse exhaustives de 14 millions de résumés biomédicaux publiés entre 2010 et 2024 sur PubMed. Afin d’établir des repères, les chercheurs ont pris en compte les articles publiés avant 2023, avant l’essor commercial des LLM comme ChatGPT. Ainsi, des mots qui étaient autrefois considérés comme « rares », tels que « delves », sont désormais employés 25 fois plus souvent. D’autres termes comme « showcasing » et « underscores » ont vu leur fréquence grimper de manière inattendue. Même des mots jugés « courants » tels que « potential », « findings » et « crucial » ont enregistré une hausse notable de 4 %.

Cette hausse est d’autant plus intrigante qu’elle se produit sans qu’il y ait de circonstances globales urgentes pour l’expliquer. En examinant l’usage de mots entre 2013 et 2023, les termes en excès avaient des liens évidents avec des événements mondiaux, comme « ebola », « coronavirus » et « lockdown ». En revanche, les mots excessivement utilisés en 2024 sont principalement des termes de style.

Barrières linguistiques et adoption de l’IA

Les chercheurs ont utilisé ces termes de style comme des indicateurs de l’utilisation de ChatGPT. Il s’avère qu’environ 15 % des articles publiés dans des pays non anglophones, tels que la Chine, la Corée du Sud et Taïwan, sont désormais influencés par l’IA, ce qui est bien plus élevé que dans des pays comme le Royaume-Uni, où ce chiffre n’atteint que 3 %. Cela suggère que les modèles d’IA pourraient effectivement représenter un outil précieux pour les chercheurs qui ne sont pas anglophones, facilitant leur intégration dans un domaine largement dominé par la langue anglaise.

A lire :  Nvidia Nemotron 3 Nano : Guide Complet et Essentiel

Cependant, les chercheurs soulignent que les locuteurs natifs pourraient avoir davantage de talent pour dissimuler l’utilisation de ces modèles. Par ailleurs, l’apparition de ces mots ne garantit pas que le texte en question a été généré par l’IA.

Conclusion

L’avenir de cette méthode de détection reste incertain, mais il est évident que l’IA a le potentiel d’accélérer les changements dans le langage écrit.

FAQ

Qu’est-ce qu’un modèle de langage de grande taille (LLM) ?

Un modèle de langage de grande taille est une intelligence artificielle conçue pour comprendre et générer du langage humain. Ces modèles sont formés sur d’énormes ensembles de données pour pouvoir produire des textes de manière cohérente.

Pourquoi les chercheurs s’intéressent-ils à l’usage excessif des mots ?

L’analyse des mots fréquemment utilisés peut aider à identifier les changements de style d’écriture liés à l’utilisation d’IA, ce qui peut être crucial pour évaluer l’authenticité des articles académiques.

Quels sont les risques associés à l’utilisation d’IA dans la rédaction scientifique ?

L’un des principaux risques est le manque de créativité et de nuance dans les textes générés par des IA, qui peuvent conduire à une certaine uniformité dans le langage académique.

En quoi l’IA peut-elle aider les non-francophones dans le milieu académique ?

L’IA peut servir d’outil pour améliorer la rédaction et la clarté des textes en offrant des suggestions et des corrections, facilitant ainsi l’accès à la publication dans des revues internationales.

Comment les chercheurs peuvent-ils détecter si un texte a été généré par l’IA ?

Actuellement, il existe des techniques d’analyse de texte qui examinent l’usage de certains mots et structures grammaticales pour évaluer la probabilité que le contenu ait été produit par une intelligence artificielle.

A lire :  Les PDG et l'Utilisation de l'IA pour Manipuler leurs Employés