Intelligence Artificielle

L’IA de Google Ignore-T-elle les Sites Qui Demandent à Rester Exclu ?

L'IA de Google Ignore-T-elle les Sites Qui Demandent à Rester Exclu ?

Google pourrait bien se servir de votre site web pour entraîner ses modèles d’intelligence artificielle, même si vous avez explicitement choisi de vous opposer à cela. C’est ce qu’un responsable de Google a reconnu lors d’un procès fédéral à Washington. Les éditeurs disposent effectivement d’une option pour se retirer de l’entraînement de modèles de langage par DeepMind, le laboratoire d’IA de l’entreprise, mais cette option ne couvre pas les efforts d’IA entrepris par d’autres divisions, y compris celle qui gère leur moteur de recherche. En d’autres termes, Google continue à exploiter le contenu des éditeurs qui ne consentent pas à cet usage.

Cette déclaration a été faite par Eli Collins, vice-président de DeepMind, alors qu’il témoigne dans le cadre d’une affaire d’antitrust. L’avocate du ministère de la Justice, Diana Aguilar, a interrogé Collins sur le paradoxe que représente cette pratique, particulièrement en ce qui concerne le développement de Gemini, le chatbot de la société.

Aguilar a spécifiquement demandé : « Si le Gemini est intégré dans l’organisation de recherche, celle-ci peut-elle s’entraîner sur les données des éditeurs qui ont choisi de ne pas participer à cette formation ? » Collins a confirmé, précisant que ces données peuvent effectivement être utilisées pour améliorer leurs services de recherche.

L’ampleur de cette collecte de données est immense. Une note interne de 2024, fournie par Aguilar, a révélé que Google avait accumulé un total de 160 milliards de tokens, des unités courtes de texte, pour l’entraînement de ses intelligences artificielles. Bien que Google ait affirmé avoir retiré la moitié de ces tokens provenant d’éditeurs ayant refusé leur emploi, les 80 milliards restants sont toujours exploités pour entraîner diverses intelligences artificielles, mais cette fois-ci, pas directement par DeepMind.

Il existe une façon de s’assurer que votre site ne soit pas scruté par un algorithme d’IA : renoncer entièrement à être indexé par le moteur de recherche de Google. Cependant, cette stratégie est destructrice pour un site web, rendant cette option pratiquement illusoire.

Google attribue cela au fonctionnement du fichier “robots.txt”, qui permet de guider les robots d’indexation sur les parties d’un site accessibles au public. Cependant, cette explication soulève davantage de questions qu’elle n’en résout.

Un porte-parole de Google a alors précisé que l’entreprise propose un moyen de gérer le contenu de recherche à travers ce standard bien connu qu’est le robots.txt, sans aborder les implications de l’utilisation des données.

L’année dernière, un tribunal a déclaré que Google détient une position monopolistique illégale sur le marché des moteurs de recherche, tirant parti de son pouvoir pour exclure les concurrents. Les régulateurs américains évaluent actuellement comment briser cette domination. Entre autres solutions, il y a la possibilité d’obliger Google à vendre son navigateur Chrome, ou encore de mettre fin aux accords d’exclusivité avec d’autres entreprises.

Le procès en cours met en lumière comment Google utilise sa domination sur le marché pour alimenter ses projets d’IA. En affirmant que la seule façon pour les sites de se protéger de son scraping de données est de disparaître de ses résultats de recherche, Google pourrait renforcer les accusations de monopolisation. Par exemple, le site éducatif Chegg a récemment déposé une plainte disant que Google poussait à exploiter son contenu pour former ses outils d’IA sans rémunération.

FAQ

Pourquoi Google ne respecte-t-il pas les choix des éditeurs de contenu ?

Google argumente que les standards techniques comme “robots.txt” régissent les accès aux sites web, mais la mise en œuvre de ces règles ne protège pas nécessairement contre l’exploitation des données.

Quels autres moyens les éditeurs ont-ils pour protéger leur contenu ?

Les éditeurs peuvent envisager d’autres solutions de protection sur leur site, mais cela pourrait influencer leur visibilité en ligne de manière négative.

Que se passerait-il si Google devait vendre Chrome ?

Cela pourrait mener à une redistribution des parts de marché dans le secteur des navigateurs, offrant ainsi une chance à d’autres acteurs de rivaliser et potentiellement de réduire l’influence monopolistique de Google.

Quelle est l’ampleur du problème de monopole au-delà du secteur de la recherche ?

Les préoccupations concernant le monopole de Google s’étendent à plusieurs domaines, notamment la publicité et la collecte de données, avec des discussions continues autour de la nécessité d’une meilleure régulation.

Quelles sont les implications pour l’avenir des intelligences artificielles développées par Google ?

La manière dont Google collecte et utilise des données soulève des enjeux éthiques et juridiques, et pourrait influencer les réglementations futures sur l’IA et la protection des données personnelles.

Quitter la version mobile