Intelligence Artificielle

Ce site détermine si un texte a été rédigé par un bot.

Ce site détermine si un texte a été rédigé par un bot.

Un tournant numérique

Le mois dernier, une équipe de développeurs d’OpenAI a fait une annonce importante. Ils ont mis au point un algorithme capable de générer du texte, nommé GPT-2, qu’ils ont jugé trop dangereux à diffuser, car il pourrait être utilisé pour inonder le web de contenu écrit par des bots.

Dans ce contexte, des chercheurs du MIT-IBM Watson AI Lab et de l’Université de Harvard ont développé un nouvel outil appelé GLTR. Cet algorithme permet de déterminer la probabilité qu’un texte ait été rédigé par une machine comme GPT-2, ce qui représente une avancée intéressante dans la lutte contre le spam numérique.

Une confrontation de talents

Lors du lancement de GPT-2, OpenAI a démontré la capacité de cet algorithme à créer des articles d’actualités fictifs, mais convaincants, en partageant par exemple un article sur des scientifiques ayant découvert des licornes.

GLTR, utilisant les mêmes modèles, évalue la sortie de texte et tente de prédire si elle provient d’un humain ou de GPT-2. En prédisant les mots susceptibles de suivre les uns les autres, GLTR est ainsi capable de vérifier si les phrases contiennent des mots que l’algorithme aurait choisis.

A lire :  « Un groupe indie dénonce une rumeur sur sa musique générée par IA avant de révéler la vérité »

Les chercheurs derrière GLTR ont expliqué dans leur blog : « Nous partons du principe que le texte généré par ordinateur trompe les humains en se limitant à des choix de mots très probables. En revanche, l’écriture naturelle tend à privilégier des mots moins prévisibles mais pertinents au contexte. Ainsi, nous pouvons déterminer si un texte semble vraiment trop prévisible pour avoir été rédigé par un humain ! »

Vérifiez par vous-même

L’équipe de MIT, Harvard et IBM a mis en ligne un site web permettant aux utilisateurs de tester GLTR. Cet outil met en évidence les mots en différentes couleurs selon leur probabilité d’avoir été écrits par un algorithme comme GPT-2 : le vert indique un texte correspondant à GPT-2, tandis que des nuances de jaune, rouge et surtout violet signalent qu’un humain est probablement à l’origine du texte.

J’ai décidé de mettre le système à l’épreuve avec une phrase de mon propre article sur GPT-2, et il semble que mon utilisation d’acronymes et de tirets a trahi ma nature humaine.

Cependant, la chercheuse en intelligence artificielle, Janelle Shane, a découvert que GLTR ne fonctionne pas aussi bien contre d’autres algorithmes de génération de texte. En testant son propre générateur, elle s’est rendu compte que GLTR classait son texte comme étant si imprévisible qu’il devait avoir été écrit par un humain, soulignant ainsi qu’un seul outil ne suffira pas à lutter contre la désinformation et les fake news.

À LIRE ÉGALEMENT : Un bot peut-il reconnaître un autre bot ? [AI Weirdness]

Plus sur les fausses actualités : L’UE : Facebook, Google et Twitter ont échoué à lutter contre les fake news

FAQ

Quels sont les risques liés à l’utilisation de GPT-2 ?

GPT-2 peut générer des informations trompeuses, permettant la création de fake news ou de contenu nuisible, ce qui soulève des préoccupations éthiques.

A lire :  Mark Zuckerberg Relance-t-il la Course à l'IA ?

GLTR fonctionne-t-il toujours de manière fiable ?

Bien que GLTR soit efficace avec certains textes, il a montré ses limites avec d’autres générateurs, ce qui signifie que sa fiabilité peut varier.

Qui peut bénéficier de l’utilisation de GLTR ?

Les chercheurs, journalistes, et toute personne intéressée par l’authenticité du contenu numérique peuvent utiliser GLTR pour évaluer l’origine des textes.

Y a-t-il d’autres outils pour lutter contre les fake news ?

Oui, divers outils et algorithmes existent, mais il est crucial de les combiner pour obtenir une évaluation complète et précise.

Quel est l’avenir des algorithmes de génération de texte ?

Le développement d’algorithmes comme GPT-2 et des outils comme GLTR souligne la nécessité de créer des solutions robustes pour éviter les abus liés à la génération de contenu automatisé.