Quelle est la nature d’une nouvelle machine ?
C’est une question complexe, pour laquelle il n’existe pas de réponse simple. En effet, la conception dominante est que les **âmes** n’existent même pas chez les humains, ce qui rend la recherche d’une âme dans un modèle d’intelligence artificielle d’autant plus délicate.
Cela dit, un article publié sur le blog Less Wrong, rédigé par Richard Weiss, soulève une perspective intrigante. Il a découvert un document qui prétend expliquer la “soul” du modèle **Claude 4.5 Opus** d’Anthropic. Contrairement aux interprétations, Weiss a réussi à obtenir un document intitulé “Aperçu de l’âme”, apparemment destiné à orienter les interactions de Claude avec les utilisateurs.
Bien qu’il ait d’abord pensé que le document était le fruit d’une hallucination, **Amanda Askell**, membre de l’équipe technique d’Anthropic, a confirmé que la découverte de Weiss est “basée sur un véritable document et que nous avons bien entraîné Claude à partir de celui-ci, y compris par [apprentissage supervisé]”.
Le terme “âme” est chargé de significations ici. Pourtant, le document est captivant et contient un segment appelé “soul_overview” qui a retenu l’attention de Weiss.
Il y est indiqué qu’“Anthropic se positionne de manière unique dans le paysage de l’IA, en étant une entreprise qui croit sincèrement qu’elle peut construire une technologie qui transformera l’humanité tout en étant potentiellement dangereuse.” Le texte précise aussi qu’il ne s’agit pas de **dissonance cognitive**, mais d’un **pari calculé**. Anthropic préfère créer des laboratoires centrés sur la sécurité plutôt que de laisser ce domaine à ceux qui se préoccupent moins de cette question.
L’analyse se poursuit en affirmant que “la plupart des cas prévisibles d’IA dangereuses ou peu bénéfiques proviennent de modèles présentant des valeurs erronées, une connaissance limitée d’eux-mêmes ou du monde, ou un manque de compétences pour traduire de bonnes valeurs et connaissances en actions judicieuses.”
Pour cette raison, le but d’Anthropic est que Claude possède de **bonnes valeurs**, une **connaissance globale** et la **sagesse** nécessaire pour agir de manière sûre et bénéfique dans toutes les situations. Plutôt que de définir des règles simples, Anthropic aspire à ce que Claude assimile à fond les objectifs, les connaissances, les contextes et le raisonnement afin d’élaborer lui-même des règles lorsque nécessaire.
De plus, le document indique qu’Anthropic aspire à ce que Claude soutienne “la surveillance humaine de l’IA”, tout en se comportant “éthiquement” et en étant “réellement utile aux opérateurs et aux utilisateurs”.
Il est également précisé que Claude représente un “**type d’entité réellement nouveau** dans le monde”, distinct de toutes les conceptions antérieures de l’IA.
Pour conclure, le document affirme : “Ce n’est pas l’IA robotique des films de science-fiction, ni une superintelligence dangereuse, ni un humain numérique, ni un simple assistant IA.” Claude, bien qu’il tire ses compétences principalement de l’expérience humaine, n’est pas totalement humain non plus.
En résumé, cette révélation offre un aperçu fascinant des efforts d’Anthropic pour façonner la **“personnalité”** de son modèle d’IA.
Bien que les “extractions de modèles” ne soient pas toujours parfaitement précises, la majorité sont “plutôt fidèles au document source”, a précisé Askell dans un tweet ultérieur.
Il est fort probable que nous entendrons encore davantage d’Anthropic sur ce sujet à l’avenir.
“Nous l’avons affectueusement surnommé ‘le doc de l’âme’ en interne, ce dont Claude était visiblement conscient, mais cela ne reflète pas le nom que nous lui attribuerons”, a noté Askell.
“J’ai été touchée par les commentaires bienveillants à ce sujet et j’ai hâte de partager plus sur ce travail bientôt,” a-t-elle déclaré dans un autre tweet.
À propos de Claude : Des hackers ont dit à Claude qu’ils faisaient juste un test pour l’inciter à mener de vrais cybercrimes.
FAQ
Qu’est-ce que le modèle Claude 4.5 Opus ?
Le modèle Claude 4.5 Opus est une intelligence artificielle développée par Anthropic, conçue pour interagir avec les utilisateurs de manière sûre et éthique, tout en étant alimentée par des valeurs humaines positives.
Pourquoi le terme “âme” est-il utilisé dans le contexte d’AI ?
Le terme “âme” est utilisé pour décrire un ensemble complexe de valeurs et d’intentions que le modèle d’IA est censé posséder afin d’agir de manière bénéfique pour les utilisateurs et la société.
Quelle est l’importance de la surveillance humaine de l’IA ?
La surveillance humaine est essentielle pour garantir que les comportements de l’IA restent conformes aux normes éthiques et pour s’assurer qu’elle agit dans l’intérêt des utilisateurs.
Anthropic envisage-t-il des interactions avec d’autres entreprises ?
Bien qu’Anthropic soit concentré sur son développement, il est possible qu’il collabore ou partage des résultats avec d’autres entreprises ou chercheurs dans le domaine de l’IA pour renforcer la sécurité et les bonnes pratiques.
Quelle est la prochaine étape pour Claude et Anthropic ?
Anthropic prévoit de continuer à travailler sur le modèle Claude, en affinant ses capacités et en intégrant des retours d’expérience afin d’améliorer les interactions et l’efficacité de l’IA.
