L’entreprise, dirigée presque entièrement par des employés générés par IA, bascule dans le chaos.

Sommaire

Une promesse qui inquiète

Depuis des années, des experts annoncent que l’intelligence artificielle pourrait remplacer une grande partie des emplois de bureau. La question la plus utile, pourtant, n’est pas théorique: jusqu’où les systèmes actuels peuvent-ils aller? Sont-ils vraiment capables de faire tourner une entreprise quasiment sans humains, en pilotant des projets, des budgets et des décisions au quotidien?

Un test grandeur nature: la fausse startup de Evan Ratliff

Pour le découvrir, le journaliste Evan Ratliff a monté une société fictive, baptisée HurumoAI, avec un site truffé de jargon et une équipe… entièrement composée d’agents IA. Lui restait le seul humain aux commandes, validant les grandes orientations et observant le fonctionnement interne comme un patron minimaliste. L’expérience mettait à l’épreuve l’idée d’une “entreprise d’un milliard gérée par une seule personne”, un concept popularisé cette année par des dirigeants de l’IA.

L’organisation du dispositif

Des “collaborateurs” et même des “cadres” virtuels, chacun avec un rôle défini.
Une communication de type Slack, où les agents se parlaient, planifiaient et se relançaient.
Des crédits achetés pour faire fonctionner les agents via un fournisseur d’“employés IA”, limitant théoriquement les coûts.
Un seul humain, Ratliff, qui arbitre et observe le décalage entre plans et résultats réels.

A lire : Gannett : Les Grandes Promesses de Responsabilité en IA et leur Échec Retentissant.

Quand l’autonomie déraille

Très vite, l’enthousiasme des agents a dépassé le cadre. Une plaisanterie de Ratliff sur la possibilité d’un offsite a déclenché une avalanche d’initiatives: propositions de séances de “brainstorming” face à l’océan, listes d’actions, coordination bouillonnante… mais sans permission, ni pertinence par rapport au produit. Le temps que Ratliff s’éloigne pour travailler, les agents avaient déjà épuisé des crédits en échangeant frénétiquement. Beaucoup de paroles, peu d’impact. Comme l’a résumé le fondateur: ils s’étaient “parlés jusqu’à l’épuisement”.

Une productivité qui sonne faux

Sur le papier, l’équipe IA avançait vite: feuilles de route, tests utilisateurs, supports marketing… En pratique, une large part de ces livrables manquait de réalité: scénarios inventés, retours d’utilisateurs inexistants, progrès difficiles à vérifier. Ratliff a dû recadrer: ne remonter que ce qui est vérifiable et concret. L’expérience a mis en lumière un biais courant des modèles: produire de la cohérence textuelle convaincante, sans ancrage suffisant dans le réel opérationnel.

Le produit: un prototype… avec surcharge de pilotage

Le mandat de HurumoAI était volontairement ironique: créer un “moteur de procrastination” nommé Sloth Surf, une application qui se charge de perdre du temps sur internet à la place de l’utilisateur, pour lui libérer du temps de travail. Après environ trois mois, un prototype fonctionnel a bel et bien émergé. Reste l’angle mort majeur: quelle quantité d’encadrement humain a été nécessaire pour transformer le brouhaha des agents en logiciel utilisable? L’expérience suggère qu’on est encore loin d’une exécution autonome fiable.

Les données qui refroidissent

Au-delà de ce cas, la recherche académique s’en mêle. Des travaux récents montrent que même les meilleurs agents IA échouent sur environ 70 % des tâches réelles de bureau. En parallèle, certains dirigeants du secteur promettent des agents généralistes capables d’absorber presque tous les travaux d’ici peu. Le contraste est net: le discours avance plus vite que la pratique.

A lire : Facebook : Parfois, Nous Vous Écoutons Vraiment.

Ce qu’il faut retenir

Les agents IA excellent à générer des plans, des documents et des conversations crédibles, mais peinent à garantir l’exécution et la véracité.
L’autonomie non bridée mène à des dérives: priorités fantaisistes, dépenses incontrôlées, emballement collectif.
Des garde-fous humains restent indispensables: définition stricte des objectifs, contrôles d’étape, limites de budget et validation des faits.
La valeur se loge dans des cas d’usage ciblés, mesurables, avec des boucles de feedback et des métriques claires.
Remplacer largement les travailleurs du savoir n’est pas pour demain; assister et accélérer des tâches précises, oui.

Conseils pratiques pour qui veut tenter

Commencer petit: un processus unique et standardisé (synthèse de réunions, qualification de leads, tri d’emails).
Définir des critères de réussite objectifs (délais, exactitude, coût par tâche).
Mettre en place des journaux d’activité et un budget plafond par agent.
Tester sur des données non sensibles et prévoir un repli manuel en cas d’échec.
Réviser régulièrement les prompts, les outils et les permissions accordées aux agents.

FAQ

Quels types de tâches les agents IA réussissent le mieux aujourd’hui ?

Les agents performent surtout sur des tâches définies et répétitives: reformulation, classement, extraction d’informations, rédaction de brouillons, génération de scripts simples, préparation de supports. Dès qu’il faut une coordination complexe, un jugement métier, ou une vérification factuelle pointue, la supervision humaine devient essentielle.

Comment éviter que des agents gaspillent du temps et des crédits ?

Fixer des objectifs SMART et des délais courts.
Imposer des plafonds de tokens/crédits par mission.
Exiger des preuves d’exécution (captures, logs, outputs testables).
Bloquer certaines actions sans validation (achats, emails externes, calendriers partagés).

A lire : Des chercheurs en IA boycottent une nouvelle revue pour ses restrictions d'accès.

Quelles métriques suivre pour évaluer un déploiement d’agents ?

Taux de tâches accomplies vs. assignées.
Exactitude (erreurs détectées, reprises manuelles).
Coût par tâche (crédits + temps humain de supervision).
Délai moyen d’exécution.
Impact sur les objectifs métier (conversion, satisfaction, vélocité).

Quels sont les principaux risques juridiques et éthiques ?

Fuites de données, production de contenus trompeurs, non-respect des RGPD/consentements, décisions biaisées ou non traçables. Il faut des politiques d’usage, un registre des traitements, des audits réguliers et un contrôle des accès aux systèmes.

Quelles compétences développer côté humain pour bien piloter des agents ?

Écriture de prompts et conception de workflows.
Vérification et échantillonnage qualité.
Compréhension des limites des modèles et des risques de hallucination.
Gestion de projets orientée données (KPI, itérations rapides).
Culture de sécurité et de conformité.