Intelligence Artificielle

Le MIT Résout de Manière Ingenieuse le Problème de la Mémoire en IA

Le MIT Résout de Manière Ingenieuse le Problème de la Mémoire en IA
Les recommandations de contenu et de produits sur ADGO.ca sont éditorialement indépendantes. Nous pouvons générer des revenus lorsque vous cliquez sur des liens vers nos partenaires.
En savoir plus

Introduction

Il existe un sentiment bien connu lorsque l’on consulte un document PDF de plusieurs centaines de pages. Imaginez que quelqu’un vous interroge sur une information précisée à la page 47. À ce moment-là, vous n’avez pas tendance à relire tout le contenu ; vous feuilletez vers la bonne section, recherchez les éléments pertinents et construisez votre réponse. Si vous possédez une excellente mémoire, et surtout une grande capacité de rappel, vous pouvez citer ce que vous avez lu avec aisance.

Limites des modèles actuels d’IA

Malheureusement, les modèles d’intelligence artificielle que nous avons aujourd’hui ne sont pas aussi performants. Ils essaient de stocker une immense quantité d’informations dans leur mémoire active simultanément. Lorsque cette mémoire arrive à saturation (environ 100 000 unités de texte), leur efficacité chute de manière significative. Les données se mélangent en raison de ce que les chercheurs appellent la « dégradation du contexte », ce qui entraîne des pertes d’information.

Une solution simple mais efficace

Cependant, la solution à ce problème est d’une simplicité trompeuse : il faut cesser de vouloir tout mémoriser.

A lire :  Un homme permet à l'IA de prendre possession de son corps.

Le nouvel approche du Modèle de Langage Récursif (RLM) développé par le MIT change complètement la donne. Au lieu de forcer le modèle à intégrer toutes les informations dans un unique espace d’attention, il traite des documents volumineux comme un base de données consultable que le modèle peut interroger à la demande.

Éclaircissements essentiels

  • Le texte n’est pas directement introduit dans le réseau de neurones.
  • Il est transformé en un environnement que le modèle peut explorer de manière programmatique.
  • Visualisez un modèle de langage standard comme une personne qui essaie de lire toute une encyclopédie avant de répondre à une question. Après quelques volumes, cette personne est débordée. En revanche, un RLM est comme fournir à cette même personne une bibliothèque consultable et des assistants de recherche qui peuvent obtenir exactement ce qui est nécessaire.

Résultats impressionnants

Avec cette approche, les RLM peuvent gérer des entrées jusqu’à cent fois plus volumineuses que l’espace d’attention d’un modèle traditionnel. Cela inclut des bases de code entières, des archives documentaires sur plusieurs années, et même des textes de longueur de livre. Ils surpassent non seulement les modèles de base, mais également les solutions courantes dans les benchmarks de raisonnement complexe, tout en maintenant des coûts comparables en ne traitant que les extraits pertinents.

Importance de cette avancée

L’expansion traditionnelle de la fenêtre de contexte n’est pas suffisante pour répondre aux besoins des situations réelles. Des équipes juridiques analysant des historiques de cas complets, des ingénieurs scrutant des bases de code complexes, et des chercheurs synthétisant des centaines de papiers ont besoin de moyens plus intelligents pour naviguer dans des informations massives.

A lire :  Application Inquiétante Utilise des Images Volées de Défunts pour Entraîner Son Algorithme de Reconnaissance Faciale

L’étude originale des chercheurs Alex Zhang, Tim Kraska, et Omar Khattab du MIT CSAIL propose une bibliothèque d’implémentation complète qui prend en charge divers environnements de test, ainsi qu’une version minimale pour les développeurs souhaitant construire sur cette base.

De plus, Prime Intellect est déjà en train de développer des versions adaptées à la production.

Au lieu de poser la question « comment faire pour que le modèle mémorise plus ? », les chercheurs se sont demandé « comment améliorer la capacité de recherche du modèle ? ». La réponse, qui consiste à considérer le contexte comme un espace à explorer plutôt que comme une simple donnée à mémoriser, pourrait bien fournir les clés pour faire face aux défis liés à l’information massive qui nous attendent.

Nous avons également comparé cette méthode à trois autres recherches qui retiennent notre attention sur ce sujet. Consultez l’analyse approfondie de tous les quatre ici..

Note de l’éditeur : Ce contenu a initialement été publié dans la newsletter de notre publication sœur, The Neuron. Pour lire plus de contenu de The Neuron, inscrivez-vous à sa newsletter ici.

FAQ

Qu’est-ce qu’un Modèle de Langage Récursif (RLM) ?

Un Modèle de Langage Récursif est une nouvelle méthode d’intelligence artificielle qui permet de traiter de grands volumes d’informations en interrogeant une base de données, plutôt que de tenter de mémoriser toutes les données à la fois.

Comment les RLM améliorent-ils la gestion des informations ?

Les RLM peuvent gérer des entrées beaucoup plus volumineuses que les modèles conventionnels, ce qui permet de traiter des documents longs et complexes sans perte de performance.

A lire :  Facebook AI Accuse un Chercheur d'Être un Terroriste

Dans quels domaines les RLM peuvent-ils être appliqués ?

Les RLM ont des applications potentielles dans divers domaines tels que le droit, l’ingénierie logicielle, la recherche académique, et bien d’autres, où le traitement de grandes quantités d’informations est nécessaire.

Quel est l’impact des RLM sur le coût des systèmes d’IA ?

Bien que les RLM traitent plus de données, leurs coûts restent comparables car ils se concentrent uniquement sur les informations pertinentes durant le processus.

Existe-t-il déjà des exemples d’utilisation des RLM dans l’industrie ?

Oui, des entreprises comme Prime Intellect travaillent déjà sur des versions en production des RLM pour diverses applications industrielles.