08-09-2025 , 16-09-2025
Ouvrez le menu déroulant des langues et sélectionnez la langue de votre texte. Langues prises en charge : Plus de 150 langues (bibliothèque de voix IA).
Après avoir sélectionné la langue, une liste de voix apparaîtra. Écoutez les échantillons et choisissez votre préférée.
Copiez votre texte dans la zone de texte ou téléchargez un fichier (DOCX, PDF). Pour convertir des sous-titres en parole, utilisez la page dédiée SRT en voix.
Attendez le traitement et téléchargez votre fichier audio prêt.
C'est fait ! Votre première voix off est prête en quelques minutes seulement.
💡 Astuce : Lors de la copie depuis des fichiers PDF, portez une attention particulière au texte — des caractères invisibles peuvent apparaître et gâcher l'audio !
Maximum par génération : 2 000 000 de caractères (environ 285 000 à 330 000 mots) - c'est une quantité impressionnante de texte que vous pouvez convertir en parole en une seule génération, ce qui la rend idéale pour les contenus longs comme des livres entiers ou une documentation étendue.
⚠️ Important : Sélectionnez d'abord la bonne langue pour votre texte.
Après avoir sélectionné la langue, une liste de voix disponibles s'ouvrira. Écoutez des échantillons en cliquant sur le bouton de lecture pour chaque voix afin de trouver celle qui correspond le mieux à vos besoins. Vous verrez différents types de voix disponibles : les voix régulières offrent une qualité standard, les voix PRO fournissent une qualité et un naturel améliorés, et les voix multilingues (marquées de codes de langue comme Ava_US, Ava_ES) vous permettent de maintenir la cohérence de la voix entre différentes langues. Prenez le temps de prévisualiser chaque voix car elles varient considérablement en ton, émotion et caractère.
Sous la zone de texte, au-dessus du bouton de génération, vous pouvez ajuster les paramètres de pause :
Cliquez sur le bouton "Générer la parole" sous la zone de texte pour lancer le processus de conversion. Le temps de traitement dépend de la longueur de votre texte : les textes plus courts se terminent en quelques secondes, tandis que les documents plus longs peuvent prendre quelques minutes. Une fois la génération terminée, vous pourrez écouter le résultat directement dans le navigateur pour vous assurer qu'il répond à vos attentes.
Une fois la génération terminée, un bouton "Télécharger" apparaîtra. Par défaut, vous pouvez simplement télécharger le fichier au format MP3. Cependant, si vous avez besoin d'un format différent (WAV ou OPUS) ou si vous souhaitez modifier la qualité audio (fréquence d'échantillonnage de 8000 à 44000 Hz), vous devrez d'abord sélectionner ces options dans les menus déroulants, régénérer la parole avec vos paramètres choisis, puis télécharger le fichier avec vos spécifications préférées.
Échelle de vitesse :
Pourquoi cette échelle : Les valeurs fractionnaires inférieures à 1 ralentissent la parole, celles supérieures à 1 l'accélèrent. Cela permet une sélection précise du tempo pour votre public.
Recommandations de vitesse :
Plage de hauteur : de -20 à +20 avec un pas de 2.
Pourquoi un pas de 2 : Un pas de 2 unités permet un changement de hauteur perceptible mais pas brusque. Des pas plus petits seraient imperceptibles, des pas plus grands trop dramatiques.
Influence de la hauteur :
Applications :
Pauses entre les phrases : 300 ms (par défaut).
Pauses entre les paragraphes : 400 ms (par défaut).
Ces paramètres peuvent être modifiés dans les menus déroulants de 150 ms à 30 secondes.
Via l'interface :
Via les balises :
Insérez la balise <break time="200ms"/> ou <break time="2s"/> à l'endroit souhaité.
Règles de pause :
Quand utiliser des pauses :
La fonction de dialogue permet d'utiliser différentes voix dans un même texte.
La fonction de dialogue multivoix ouvre des possibilités créatives au-delà des simples voix de personnages. Les professeurs de langues étrangères, par exemple, peuvent utiliser cette fonction pour démontrer la même phrase à différentes vitesses pour l'apprentissage des langues, aidant les étudiants à assimiler la prononciation à différents niveaux de compréhension. Pour des techniques détaillées et des applications en classe, consultez notre guide sur l'utilisation de la synthèse vocale pour l'enseignement des langues étrangères.
Les voix avec des codes de langue (par exemple, Ava_US, Ava_ES, Ava_DE) sont conçues pour maintenir une reconnaissance vocale cohérente entre différentes langues. Ces voix multilingues vous permettent de créer un style unifié pour le contenu multilingue, garantissant que le même personnage vocal puisse parler plusieurs langues de manière fluide. Cette fonctionnalité est particulièrement utile en mode dialogue, où vous pouvez passer d'une langue à l'autre tout en conservant la même personnalité vocale reconnaissable tout au long de votre projet audio.
SpeechGen vous permet de diviser votre audio généré en plusieurs segments au sein d'un même projet de synthèse, ce qui est parfait pour les monteurs vidéo qui ont besoin de fichiers audio séparés pour différentes scènes ou chapitres. Cette fonctionnalité est particulièrement utile pour créer des voix off pour des vidéos YouTube, des cours en ligne ou tout projet nécessitant une synchronisation audio précise.
Pour diviser votre audio, placez simplement votre curseur à l'endroit où vous souhaitez diviser le texte et cliquez sur le bouton de coupe dans le panneau du menu. Cela insère une balise <cut/> à cette position. Vous pouvez également taper manuellement ou copier-coller cette balise dans votre texte. Pour des noms de fichiers personnalisés, utilisez ce format :
<cut name="votre-nom-de-fichier"/>
Cette fonctionnalité vous aide à organiser les segments avec des noms significatifs comme :
<cut name="intro"/>
<cut name="chapitre-1"/>
Une fois que vous avez ajouté au moins une balise de segment, un bouton "télécharger les segments" apparaît après la génération. Cliquez dessus pour télécharger tous les segments en une seule fois, ou utilisez le bouton "plus" sur le lecteur audio pour accéder aux segments individuels. Chaque fichier est automatiquement nommé avec un identifiant unique, un numéro de séquence et un titre descriptif (par exemple, "7054789_1_premiere-phrase"), ce qui facilite l'identification et l'organisation de vos fichiers audio dans votre logiciel de montage.
Pour les projets plus importants, divisez-les en plusieurs générations. Pour des instructions complètes, des techniques avancées et des tutoriels vidéo, consultez notre documentation complète sur la segmentation audio.
Certaines voix disposent de graphiques d'intonation :
Les graphiques d'intonation sont disponibles sur les voix qui affichent une icône de paramètres à côté du nom de la voix - cette fonctionnalité se trouve sur plus de la moitié des voix de la bibliothèque, y compris les options régulières et PRO.
Sélectionnez la phrase dans laquelle vous souhaitez ajuster l'intonation et appuyez sur le bouton intonation. Cette interface apparaîtra.
SpeechGen utilise un système de cache intelligent qui permet d'économiser considérablement vos limites. Le système fonctionne en sauvegardant chaque phrase (jusqu'à 100 000 caractères) dans le cache pendant 7 jours. Lorsque vous régénérez votre audio, toutes les phrases inchangées sont automatiquement récupérées du cache gratuitement - vous ne payez que pour les phrases nouvelles ou modifiées. Cela signifie que vous pouvez apporter des modifications progressives à votre texte sans consommer toute votre allocation de caractères à chaque fois. L'historique des projets est stocké pendant 30 jours, et les fichiers que vous ajoutez aux favoris sont conservés en permanence.
Périodes de stockage :
La voix sonne peu naturelle :
Prononciation incorrecte :
Pauses non naturelles :
Erreurs SSML :
Pour un contrôle expert de la voix, utilisez les balises SSML :
⚠️ Attention : Différentes voix prennent en charge différents ensembles de balises SSML. Testez la fonctionnalité pour chaque voix spécifique.
L'API est disponible pour les développeurs afin d'intégrer SpeechGen.io dans leurs propres applications et services.
Vérifiez d'abord que votre fichier est dans un format pris en charge (DOCX, PDF ou TXT). Assurez-vous que le fichier n'est pas corrompu et essayez de le télécharger à nouveau. Si le problème persiste, copiez le texte manuellement et collez-le directement dans la zone de texte. Vérifiez également que la taille de votre fichier ne dépasse pas les limites de la plateforme.
Votre historique de projet est automatiquement sauvegardé pendant 30 jours. Le cache intelligent (pour les économies au niveau des phrases) dure 7 jours. Pour conserver les fichiers de manière permanente, ajoutez-les à vos favoris. Cela garantit que vos projets audio importants ne sont jamais perdus et restent accessibles dans votre profil.
Oui ! SpeechGen propose la génération audio multivoix (mode dialogue). Vous pouvez attribuer différentes voix à différentes sections de texte, ce qui est parfait pour les livres audio avec plusieurs personnages, les dialogues éducatifs ou les podcasts avec plusieurs intervenants. Vous pouvez même utiliser des voix multilingues pour passer d'une langue à l'autre tout en conservant la cohérence du personnage.
Les voix PRO offrent une qualité et un naturel supérieurs par rapport aux voix régulières. Elles ont généralement une meilleure expression émotionnelle, une prononciation plus précise et certaines prennent en charge des fonctionnalités avancées comme les graphiques d'intonation. Pour les projets professionnels tels que les livres audio, les cours ou les présentations d'entreprise, les voix PRO sont recommandées.
Cela dépend des paramètres que vous modifiez. L'ajustement de la vitesse de parole ou de la hauteur nécessite une régénération complète et consommera vos limites de caractères, car ces modifications affectent l'ensemble de la synthèse vocale. Cependant, vous pouvez modifier librement les pauses entre les phrases et les paragraphes sans aucune consommation de limite. De plus, SpeechGen utilise un cache intelligent : si vous générez un texte volumineux, puis modifiez une seule phrase et régénérez, le système ne vous facturera que cette seule phrase modifiée, pas l'intégralité du texte. Ce système de cache sauvegarde vos phrases inchangées pendant 7 jours, rendant l'édition itérative très économique.
Obtenez de l'aide de notre communauté ! Posez vos questions sur notre chat Telegram : https://t.me/speechgen