Ne manquez pas les dernières innovations aux frontières de la science et de la technologie. Inscrivez-vous dès maintenant pour obtenir les informations les plus récentes et puissantes.
GPTBot : Le nouvel outil d’OpenAI
OpenAI a récemment introduit un nouveau robot d’exploration nommé “GPTBot”. Cet outil a pour mission de parcourir le web et de collecter des contenus pour former ses modèles de langage, comme GPT-4, qui soutiennent ChatGPT.
Il est mentionné sur le site d’OpenAI qu’autoriser GPTBot à accéder à votre site peut contribuer à améliorer la précision des modèles d’IA et à renforcer leurs capacités globales, tout en assurant leur sécurité.
GPTBot a été conçu pour être filtré, évitant les sources protégées par des paiements, les informations personnelles identifiables, ainsi que tout contenu qui ne respecterait pas la politique de l’entreprise.
Gestion de l’accès à GPTBot
OpenAI offre un moyen clair de bloquer GPTBot. En ajoutant une ligne dans le fichier robots.txt de votre site web, vous pouvez indiquer aux robots d’exploration ce qu’ils sont autorisés à analyser. Cela permet aux webmasters de faire des choix spécifiques concernant les parties de leur site que le robot peut explorer. OpenAI met également à disposition les adresses IP de GPTBot pour faciliter le blocage.
Ne laissez pas entrer GPTBot !
Jusqu’à présent, les modèles de langage qui alimentent ChatGPT ont été formés grâce à un vaste volume de données en ligne, jusqu’à septembre 2021. Il n’est pas possible de supprimer rétroactivement les données qui ont été collectées avant cette date. Cependant, en bloquant ce nouveau robot d’exploration, les sites web peuvent se prémunir pour l’avenir.
De nombreux propriétaires de sites, soucieux de préserver leur contenu d’une collecte non autorisée par l’IA, sont déjà en train de prendre des mesures. Par exemple, la célèbre revue de science-fiction Clarkesworld a annoncé sur X (anciennement Twitter) qu’elle mettait en place un blocage de GPTBot. De même, le site d’actualités technologiques The Verge a pris des mesures similaires, et de nombreux articles circulent pour conseiller sur la façon de le bloquer.
Les robots d’exploration : entre opportunité et inquiétude
Les robots d’exploration, en dépit de ce qu’on peut en penser, constituent un élément essentiel de l’internet moderne. Beaucoup de sites encouragent l’accès aux robots d’exploration de Google et d’autres moteurs de recherche, car cela peut significativement augmenter leur trafic web.
Cependant, beaucoup estiment qu’utiliser ces robots pour former des IA génératives est un abus manifeste. Récemment, OpenAI fait face à une poursuite judiciaire qui allègue que son chatbot est formé sur des écrits sans autorisation — des livres aux articles en ligne — ce qui serait considéré comme du vol.
La décision d’OpenAI d’introduire GPTBot malgré la poursuite peut indiquer qu’elle n’est pas préoccupée par les conséquences. Cependant, en offrant aux sites la possibilité de bloquer le robot, OpenAI pourrait également chercher à protéger ses intérêts.
Points supplémentaires à retenir
Nouveaux développements, une attention accrue se porte sur les pratiques de collecte des données et leur légalité.
FAQ
Que fait GPTBot exactement ?
GPTBot est un robot d’exploration développé par OpenAI pour parcourir le web et collecter du contenu afin de former ses modèles de langage.
Comment puis-je bloquer GPTBot sur mon site ?
Pour bloquer GPTBot, ajoutez simplement une ligne dans le fichier robots.txt de votre site pour indiquer les accès autorisés.
Quelles sont les conséquences de l’autorisation de GPTBot ?
Autoriser GPTBot peut améliorer les performances des modèles d’IA formés, mais cela peut également mener à une utilisation non souhaitée de votre contenu.
GPTBot peut-il accéder à des contenus protégés ?
Non, GPTBot est conçu pour être filtré afin de ne pas accéder à des sources payantes ou à des informations privées.
Quelles alternatives pour protéger mon contenu ?
En plus d’utiliser le fichier robots.txt, envisagez des mesures juridiques pour protéger vos droits d’auteur en cas d’utilisation abusive de votre contenu.
