Image : Le Neuron
indépendants sur le plan de la rédaction. Nous pouvons gagner de l’argent lorsque vous cliquez sur des liens vers nos partenaires.
En savoir plus
Les modèles de voix basés sur l’intelligence artificielle nécessitent souvent des GPU coûteux et des API cloud pour produire de la parole. Cela peut être peu pratique si vous souhaitez créer un assistant vocal ou simplement copier votre voix sans consommer trop de crédits de calcul.
Récemment, Kyutai a lancé Pocket TTS, un modèle de synthèse vocale qui, avec ses 100 millions de paramètres, fonctionne plus rapidement que le temps réel directement sur votre CPU, sans avoir besoin d’un GPU sophistiqué.
Ce modèle permet de créer une imitation vocal de haute qualité avec seulement 5 secondes d’enregistrement audio. En lui soumettant cinq secondes de voix d’une personne, il peut reproduire son ton, son accent, ses émotions, ainsi que l’acoustique de la pièce et la qualité du microphone.
Un peu comme votre neveu qui peut imiter à la perfection cette vidéo TikTok agaçante, vous pouvez désormais faire pareil. Est-ce que d’autres familles ont banni l’expression “6-7” après le repas de Thanksgiving de l’année dernière ?
## Les chiffres parlent d’eux-mêmes
- Une précision inégalée : Taux d’erreur des mots le plus bas (1,84 %) parmi tous les modèles, y compris ceux sept fois plus gros.
- Véritablement portable : Fonctionne sur les processeurs Apple M3 ou Intel Core Ultra sans graphique dédié.
- Tout est ouvert : Complètement open-source sous licence MIT, avec le code de formation complet et 88 000 heures de données publiques.
Cette avancée repose sur les modèles de langage audio continu (CALM), un nouveau cadre qui prédit l’audio directement, sans le convertir au préalable en jetons discrets. Cela supprime le goulet d’étranglement de calcul qui rendait les précédents modèles de TTS dépendants des GPU.
## Pourquoi cela est important
La voix artificielle est désormais accessible à tous les développeurs (ou même à vous) disposant d’un ordinateur portable (plus besoin de s’abonner à un service coûteux comme ElevenLabs, bien qu’ils viennent d’atteindre 330 millions de dollars de revenus récurrents annuels).
Ce que vous pouvez faire aujourd’hui, qui était autrefois impossible :
- Un développeur de jeu indépendant peut créer 50 voix de personnages uniques sans recruter d’acteurs ni payer pour des appels API cloud.
- Une personne atteinte de SLA peut sauvegarder sa voix sur un ordinateur portable avant qu’elle ne se dégrade, préservant ainsi son identité dans un fichier privé dont elle a le contrôle.
- Un enseignant de langue peut créer des guides de prononciation en utilisant sa propre voix pour 200 mots de vocabulaire en une après-midi.
L’aspect de la vie privée est crucial. Jusqu’à présent, le clonage vocal nécessitait d’envoyer des enregistrements à des serveurs tiers. Que ce soit pour des transcriptions médicales, des dépositions légales ou des communications commerciales confidentielles, cela impliquait de faire confiance à un tiers. Désormais, votre voix reste sur votre machine.
Les développeurs peuvent commencer à utiliser Pocket TTS immédiatement. Si vous souhaitez tester vous-même, le rapport technique complet de Kyutai contient des instructions d’installation et des exemples de voix.
Note de l’éditeur : Ce contenu a initialement été publié dans la newsletter de notre publication sœur, Le Neuron. Pour lire plus d’articles de Le Neuron, abonnez-vous à sa newsletter ici.
Grant Harvey est l’écrivain quotidien de Le Neuron, une newsletter d’ADGO.ca consacrée à l’intelligence artificielle pour les non-initiés. Il passe ses journées à analyser des outils d’IA et l’industrie dans son ensemble, puis à les simplifier dans un langage compréhensible par tous.
## FAQ
### Qu’est-ce que Pocket TTS ?
Pocket TTS est un nouveau modèle de synthèse vocale qui permet de créer des voix avec une grande précision en utilisant simplement quelques secondes d’enregistrements audio.
### Est-ce que je peux utiliser Pocket TTS sur n’importe quel ordinateur ?
Oui, Pocket TTS peut fonctionner sur des ordinateurs avec des processeurs Apple M3 ou Intel Core Ultra, sans nécessiter de GPU spécialisé.
### Quels sont les avantages de préserver la vie privée avec Pocket TTS ?
Contrairement aux modèles précédents qui nécessitaient d’envoyer des données vocales à des serveurs externes, Pocket TTS maintient vos enregistrements sur votre machine, garantissant ainsi une plus grande sécurité et confidentialité.
### Quelles applications pratiques peut-on envisager avec Pocket TTS ?
Les développeurs de jeux peuvent créer des voix de personnages, les enseignants de langues peuvent préparer des supports éducatifs et ceux souffrant de maladies comme la SLA peuvent préserver leur identité vocale.
### Où puis-je trouver des ressources pour commencer avec Pocket TTS ?
Vous pouvez consulter le rapport technique complet de Kyutai, qui contient des instructions d’installation et des exemples de voix.
