22-09-2025 , 22-09-2025
Speechgen offre une fonctionnalité de mise en cache économique unique qui réduit considérablement le temps et les coûts de conversion texte-parole. Dans cet article, nous allons explorer comment cette fonctionnalité fonctionne, ses avantages et comment elle vous aide à économiser lors des voix off.
Lorsque vous synthétisez la parole, Speechgen mémorise le résultat de chaque phrase. Par exemple :
Imaginez que vous travaillez sur la voix off d'un cours éducatif de 20 leçons. Une fois le travail terminé, vous décidez d'ajouter une brève introduction à chaque leçon. Avec un service classique, vous devriez refaire la voix off de tout le matériel, ce qui entraînerait des coûts importants. Avec Speechgen, vous ne paierez que pour la génération des nouvelles introductions, économisant ainsi des ressources et du temps.
Voici une comparaison de Speechgen avec d'autres services :
Exemple |
Autre TTS |
Speechgen |
Exemple n°1 : 30 phrases |
100 % du coût |
100 % du coût |
Exemple n°2 : 30 phrases + 10 nouvelles |
100 % du coût |
25 % du coût |
Avec d'autres services de synthèse vocale, chaque voix off entraîne un coût de 100 % de tout ce que vous avez généré. Avec Speechgen, seules les phrases nouvelles ou modifiées sont générées. Comme le montre le tableau, lors d'une voix off répétée, Speechgen a utilisé seulement 25 % du nombre total de caractères au lieu de 100 %, car 75 % du texte provenait de contenu déjà généré.
Cela signifie que vous n'avez pas à vous soucier des coûts répétés lors de la révision de votre texte. Vous pouvez revenir à votre texte plus tard et travailler avec.
Au-delà, un mode livre pour une génération plus rapide de textes volumineux est utilisé, traitant par grands blocs de texte au lieu de phrases. Speechgen peut générer jusqu'à 2 000 000 de caractères à la fois, mais la mise en cache économique fonctionne jusqu'à 100 000 caractères.
Les phrases générées sont stockées en mémoire pendant seulement 1 semaine. Vous avez 7 jours pour compléter ou réviser la voix off.
De plus, dans votre profil, l'historique complet des voix off est stocké pendant 30 jours. Cela signifie que dans les 30 jours, vous pouvez télécharger le texte et le fichier dans leur intégralité. Cependant, la mise en cache elle-même ne sera stockée que pendant 7 jours.
Si vous décidez, par exemple, d'ajouter quelque chose à la voix off après 25 jours, les limites seront à nouveau déduites pour l'ensemble du projet. En enregistrant la voix off dans vos favoris, vous pouvez conserver l'audio avec le texte pour toujours, mais la mise en cache ne sera toujours stockée que pendant 7 jours.
Votre texte et votre fichier audio sont enregistrés dans votre profil, mais pas la mise en cache, alors gardez cela à l'esprit lorsque vous travaillez.
La mise en cache ne fonctionne que pour les phrases inchangées. Si vous modifiez ne serait-ce qu'une lettre ou supprimez une virgule dans une phrase, elle est considérée comme nouvelle par le système.
Texte original :
Ajout d'une nouvelle phrase :
Résultat : Speechgen prend les trois premières phrases de la mise en cache et ne génère que la quatrième. Les coûts ne sont engagés que pour la quatrième phrase.
Texte original :
Modification d'un mot dans la deuxième phrase :
Résultat : Speechgen prend la première et la troisième phrase de la mise en cache mais génère à nouveau la deuxième.
Texte original :
Suppression des virgules dans la troisième phrase :
Résultat : Speechgen régénérera la troisième phrase et prendra les première et deuxième phrases de la mise en cache. La troisième phrase est considérée comme modifiée en raison de la suppression des virgules.
Si vous ajoutez une nouvelle balise de pause, comme break, elle est également considérée comme une modification de la phrase. Le système la réanalysera et la régénérera.
<break time="200ms"/>
En fait, les phrases sont récupérées de la mise en cache économique sur la base d'une correspondance complète, caractère par caractère. S'il y a un nouveau caractère ou si un caractère est manquant dans la phrase, le programme ne pourra pas la faire correspondre exactement.
Si vous modifiez les paramètres de vitesse ou de ton, il s'agira d'une nouvelle voix off complète, et la mise en cache économique ne fonctionnera pas. Lorsque vous modifiez la vitesse ou le ton, le réseau neuronal régénère le texte avec ces nouveaux paramètres. Il ne s'agit pas d'une accélération ou d'un changement de ton logiciel ; il s'agit d'une régénération complète.
Changer de locuteur entraîne également une régénération complète. Ici, le réseau neuronal refait tout le travail. Par conséquent, si vous ajustez la voix, faites-le pour 1 à 2 phrases, et une fois que vous êtes satisfait de la vitesse et du ton, générez l'intégralité du texte souhaité.
Sur cette page spéciale https://speechgen.io/fr/subs/, vous pouvez générer des sous-titres. Pour respecter le timing, il est souvent nécessaire d'accélérer la parole pour respecter le délai requis. Dans ce cas, la mise en cache économique fonctionne, car Speechgen génère d'abord la voix, puis accélère programmatiquement le sous-titre.
Vous pouvez modifier les pauses dans les paramètres sous le champ de génération de voix, et la mise en cache fonctionnera parfaitement. Nous enregistrons des phrases entières en mémoire, et le système les combine ensuite en audio. De cette façon, vous pouvez ajuster les pauses entre les phrases ou les paragraphes sans frais supplémentaires.
Si vous sélectionnez un format différent — ogg, wav, opus — et que vous appuyez sur régénérer, le système ne vous facturera aucune limite. C'est gratuit. Si vous avez généré la voix, puis réalisé que vous aviez besoin d'un format différent, changez-le sans craindre de doubles coûts.
Si vous modifiez le taux d'échantillonnage dans les paramètres et que vous appuyez à nouveau sur régénérer, le système ne vous facturera aucune limite. C'est gratuit.
Le système de mise en cache économique de Speechgen offre des avantages significatifs :
Speechgen économise vos ressources et fournit des outils pour un travail plus efficace avec le contenu audio, ce qui en fait un choix idéal pour ceux qui valorisent l'efficacité et la qualité dans la synthèse vocale.