Les recommandations et le contenu d’ADGO.ca sont entièrement indépendants sur le plan éditorial. Nous pouvons générer des revenus quand vous cliquez sur les liens de nos partenaires.
En savoir plus
Chaque fois que ChatGPT met trois secondes à répondre plutôt que 30, il y a probablement une infrastructure comme **vLLM** qui fonctionne en arrière-plan.
Vous l’avez déjà utilisé sans même vous en rendre compte. Récemment, l’équipe derrière cette technologie a vu sa valorisation grimper à **800 millions de dollars** presque du jour au lendemain.
Détails clés
Aujourd’hui, Inferact a réussi à lever **150 millions de dollars** en fonds d’amorçage pour commercialiser un moteur d’inférence open-source qui alimente déjà l’intelligence artificielle chez Amazon, chez d’importants fournisseurs de cloud et chez des milliers de développeurs à travers le monde. Ce tour de financement a été dirigé par Andréessen Horowitz et Lightspeed, avec la participation de Sequoia, Databricks, et d’autres grands noms.
Mais qu’est-ce que **vLLM** en réalité ? Imaginez-le comme une autoroute pour la gestion des questions plutôt qu’un embouteillage. Lorsque vous interrogez ChatGPT, votre question passe par un processus d’**inférence**, où le modèle génère votre réponse petit à petit. **vLLM** rend ce processus beaucoup plus rapide et économique grâce à deux innovations majeures :
– **PagedAttention** : Cela gère la mémoire de manière similaire à la façon dont votre ordinateur gère la RAM, réduisant ainsi le gaspillage jusqu’à **24 fois** par rapport aux méthodes traditionnelles.
– **Batching continu** : Au lieu de traiter une demande à la fois, **vLLM** gère plusieurs demandes en même temps, comme un restaurant qui sert 10 tables en parallèle plutôt que d’attendre que chaque convive finisse avant d’accueillir le suivant.
Les entreprises qui utilisent **vLLM** rapportent des vitesses d’inférence de **2 à 24 fois plus rapides** que les mises en œuvre standards, avec des coûts considérablement réduits. Depuis son lancement en 2023 à partir du **Sky Computing Lab** de l’UC Berkeley, le projet a attiré plus de **2,000** contributeurs au code.
Pourquoi cela est important
La dynamique autour de l’**intelligence artificielle** évolue : nous passons d’un problème de **formation** à un problème de **déploiement**.
Construire un modèle performant n’est plus le principal obstacle ; le véritable défi réside dans sa mise en œuvre à grande échelle de manière économiquement viable. À mesure que les entreprises passent de l’expérimentation avec ChatGPT à une utilisation massive de l’IA dans la vie quotidienne, l’**optimisation de l’inférence** deviendra un facteur crucial pour passer du profit à la faillite.
Dans le futur proche, attendez-vous à ce que les grands acteurs du secteur de l’IA se concentrent intensément sur l’économie de l’inférence en 2026. Les gagnants ne seront pas nécessairement ceux qui possèdent les modèles les plus brillants, mais plutôt ceux capables de fournir des **prévisions** suffisamment rapidement et à faible coût pour être rentables.
Pour vous : Si votre entreprise envisage d’intégrer des outils d’IA, interrogez les fournisseurs sur leur infrastructure d’inférence. Les outils basés sur des moteurs comme **vLLM** seront plus évolutifs et économiques que des solutions propriétaires n’ayant pas résolu ce problème. L’avantage de l’open-source est bien réel… et maintenant soutenu par des investissements.
Note de l’éditeur : Ce contenu a d’abord été publié dans la newsletter de notre publication sœur, The Neuron. Pour plus d’articles de The Neuron, inscrivez-vous à sa newsletter ici.
FAQ
Qu’est-ce que vLLM ?
vLLM est une infrastructure d’inférence open-source qui améliore considérablement la rapidité et l’efficacité des modèles d’IA en optimisant le traitement des requêtes.
Comment vLLM peut-il bénéficier à mon entreprise ?
L’utilisation de vLLM peut réduire les coûts d’inférence et améliorer les temps de réponse, ce qui est crucial pour les applications nécessitant une intelligence artificielle à grande échelle.
Qui sont les principaux investisseurs d’Inferact ?
Le tour de financement a été dirigé par Andreessen Horowitz et Lightspeed, en incluant d’autres participants majeurs comme Sequoia et Databricks.
Pourquoi est-ce pertinent aujourd’hui ?
Avec la montée en puissance des applications d’IA, l’optimisation de l’inférence devient essentielle pour garantir que les entreprises puissent proposer cette technologie de manière rentable.
Quelles sont les implications de l’open-source dans l’IA ?
L’open-source permet aux entreprises de bénéficier de solutions collaboratives et de réduire les coûts tout en stimulant l’innovation dans le domaine de l’intelligence artificielle.
