Comment utiliser la synthèse vocale sur SpeechGen.io : Guide complet

, 16-09-2025

🚀 Démarrage rapide — Créez de l'audio en 4 étapes

Étape 1 : Sélectionner la langue

Étape 1 : Sélectionner la langue

Ouvrez le menu déroulant des langues et sélectionnez la langue de votre texte. Langues prises en charge : Plus de 150 langues (bibliothèque de voix IA).

Étape 2 : Choisir une voix

Étape 2 : Choisir une voix

Après avoir sélectionné la langue, une liste de voix apparaîtra. Écoutez les échantillons et choisissez votre préférée.

Étape 3 : Coller le texte

Étape 3 : Coller le texte

Copiez votre texte dans la zone de texte ou téléchargez un fichier (DOCX, PDF). Pour convertir des sous-titres en parole, utilisez la page dédiée SRT en voix.

Étape 4 : Cliquez sur "Générer la parole" (bouton bleu)

Étape 4 : Cliquez sur Générer la parole

Attendez le traitement et téléchargez votre fichier audio prêt.

C'est fait ! Votre première voix off est prête en quelques minutes seulement.

Préparation du texte

Recommandé :

À éviter :

  • Emojis et émoticônes (peuvent perturber la génération audio).
  • Symboles exotiques : ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
  • Symboles Unicode spéciaux :  

💡 Astuce : Lors de la copie depuis des fichiers PDF, portez une attention particulière au texte — des caractères invisibles peuvent apparaître et gâcher l'audio !

Limites et restrictions

  • Langues prises en charge : plus de 150 langues (liste complète).
  • Formats de téléchargement : texte brut, DOCX, PDF, SRT.

Maximum par génération : 2 000 000 de caractères (environ 285 000 à 330 000 mots) - c'est une quantité impressionnante de texte que vous pouvez convertir en parole en une seule génération, ce qui la rend idéale pour les contenus longs comme des livres entiers ou une documentation étendue.

Instructions détaillées étape par étape

Étape 1 : Télécharger le texte

  1. Coller le texte : Copiez votre texte dans la zone de texte.
  2. Télécharger le fichier : Ou cliquez sur le bouton de téléchargement et sélectionnez un fichier (DOCX, PDF).
  3. Vérifier le texte : Assurez-vous que le texte s'affiche correctement.

Étape 2 : Sélectionner la langue

⚠️ Important : Sélectionnez d'abord la bonne langue pour votre texte.

  • Ouvrez la liste déroulante des langues.
  • Trouvez la langue souhaitée (plus de 150 langues disponibles).
  • Pour les textes multilingues, utilisez la génération audio multivoix.

Étape 3 : Choisir une voix

Après avoir sélectionné la langue, une liste de voix disponibles s'ouvrira. Écoutez des échantillons en cliquant sur le bouton de lecture pour chaque voix afin de trouver celle qui correspond le mieux à vos besoins. Vous verrez différents types de voix disponibles : les voix régulières offrent une qualité standard, les voix PRO fournissent une qualité et un naturel améliorés, et les voix multilingues (marquées de codes de langue comme Ava_US, Ava_ES) vous permettent de maintenir la cohérence de la voix entre différentes langues. Prenez le temps de prévisualiser chaque voix car elles varient considérablement en ton, émotion et caractère.

Étape 4 : Configurer les paramètres

  • Vitesse de parole : de x0.1 (très lent) à x2.2 (très rapide).
  • Hauteur de la voix : de -20 à +20 (par pas de 2).

Sous la zone de texte, au-dessus du bouton de génération, vous pouvez ajuster les paramètres de pause :

paramètres de pause

  • Pauses entre les phrases : 150 ms - 30 secondes.
  • Pauses entre les paragraphes : 150 ms - 30 secondes.

Étape 5 : Générer la parole

Cliquez sur le bouton "Générer la parole" sous la zone de texte pour lancer le processus de conversion. Le temps de traitement dépend de la longueur de votre texte : les textes plus courts se terminent en quelques secondes, tandis que les documents plus longs peuvent prendre quelques minutes. Une fois la génération terminée, vous pourrez écouter le résultat directement dans le navigateur pour vous assurer qu'il répond à vos attentes.

Étape 6 : Télécharger

Une fois la génération terminée, un bouton "Télécharger" apparaîtra. Par défaut, vous pouvez simplement télécharger le fichier au format MP3. Cependant, si vous avez besoin d'un format différent (WAV ou OPUS) ou si vous souhaitez modifier la qualité audio (fréquence d'échantillonnage de 8000 à 44000 Hz), vous devrez d'abord sélectionner ces options dans les menus déroulants, régénérer la parole avec vos paramètres choisis, puis télécharger le fichier avec vos spécifications préférées.

Paramètres des paramètres audio

Vitesse de parole

Échelle de vitesse :

  • x0.1 - x0.9 : Ralentissement (pour le matériel complexe, l'apprentissage des langues).
  • x1.0 : Vitesse normale (par défaut).
  • x1.1 - x2.2 : Accélération (pour le contenu dynamique).

Pourquoi cette échelle : Les valeurs fractionnaires inférieures à 1 ralentissent la parole, celles supérieures à 1 l'accélèrent. Cela permet une sélection précise du tempo pour votre public.

Recommandations de vitesse :

  • Éducation : x0.8-x1.0 (pour une meilleure compréhension).
  • Présentations : x0.9-x1.1 (rythme officiel).
  • Podcasts : x1.0-x1.2 (rythme animé).
  • YouTube : x1.1-x1.4 (pour retenir l'attention).

Hauteur de la voix

Plage de hauteur : de -20 à +20 avec un pas de 2.

Pourquoi un pas de 2 : Un pas de 2 unités permet un changement de hauteur perceptible mais pas brusque. Des pas plus petits seraient imperceptibles, des pas plus grands trop dramatiques.

Influence de la hauteur :

  • Valeurs négatives (-2 à -20) : Rendent la voix plus grave, plus sérieuse, plus autoritaire.
  • Valeurs positives (+2 à +20) : Rendent la voix plus aiguë, plus amicale, plus énergique.
  • 0 : Hauteur neutre (par défaut).

Applications :

  • Contenu professionnel : -4 à +2.
  • Contenu pour enfants : +4 à +12.
  • Contenu dramatique : -8 à -16.
  • Contenu amical : +2 à +8.

Travail avec les pauses

Pauses automatiques

Pauses entre les phrases : 300 ms (par défaut).

Pauses entre les paragraphes : 400 ms (par défaut).

Ces paramètres peuvent être modifiés dans les menus déroulants de 150 ms à 30 secondes.

Insertion de pause manuelle

Via l'interface :

  1. Placez le curseur à l'endroit souhaité dans le texte.
  2. Cliquez sur le bouton "Pause" dans le menu.
  3. Le symbole .- apparaîtra dans le texte.

Via les balises :

Insérez la balise <break time="200ms"/> ou <break time="2s"/> à l'endroit souhaité.

Règles de pause :

  • Pause maximale : 30 secondes.
  • Plusieurs pauses peuvent être placées à la suite pour un délai plus long.
  • Les pauses ne consomment pas de limites supplémentaires.

Quand utiliser des pauses :

  • Avant des déclarations importantes.
  • Après des questions rhétoriques.
  • Entre différents sujets.
  • Pour créer un effet dramatique.

Audio multivoix

La fonction de dialogue permet d'utiliser différentes voix dans un même texte.

Applications :

  • Livres audio : Différentes voix pour les personnages.
  • Dialogues éducatifs : Professeur et élève.
  • Présentations : Orateur principal et commentateur.
  • Podcasts : Plusieurs animateurs.

La fonction de dialogue multivoix ouvre des possibilités créatives au-delà des simples voix de personnages. Les professeurs de langues étrangères, par exemple, peuvent utiliser cette fonction pour démontrer la même phrase à différentes vitesses pour l'apprentissage des langues, aidant les étudiants à assimiler la prononciation à différents niveaux de compréhension. Pour des techniques détaillées et des applications en classe, consultez notre guide sur l'utilisation de la synthèse vocale pour l'enseignement des langues étrangères.

Sélection de la voix

Voix multilingues

Les voix avec des codes de langue (par exemple, Ava_US, Ava_ES, Ava_DE) sont conçues pour maintenir une reconnaissance vocale cohérente entre différentes langues. Ces voix multilingues vous permettent de créer un style unifié pour le contenu multilingue, garantissant que le même personnage vocal puisse parler plusieurs langues de manière fluide. Cette fonctionnalité est particulièrement utile en mode dialogue, où vous pouvez passer d'une langue à l'autre tout en conservant la même personnalité vocale reconnaissable tout au long de votre projet audio.

Segmentation audio

SpeechGen vous permet de diviser votre audio généré en plusieurs segments au sein d'un même projet de synthèse, ce qui est parfait pour les monteurs vidéo qui ont besoin de fichiers audio séparés pour différentes scènes ou chapitres. Cette fonctionnalité est particulièrement utile pour créer des voix off pour des vidéos YouTube, des cours en ligne ou tout projet nécessitant une synchronisation audio précise.

Comment créer des segments

Pour diviser votre audio, placez simplement votre curseur à l'endroit où vous souhaitez diviser le texte et cliquez sur le bouton de coupe dans le panneau du menu. Cela insère une balise <cut/> à cette position. Vous pouvez également taper manuellement ou copier-coller cette balise dans votre texte. Pour des noms de fichiers personnalisés, utilisez ce format :

<cut name="votre-nom-de-fichier"/>

Cette fonctionnalité vous aide à organiser les segments avec des noms significatifs comme :

<cut name="intro"/>

<cut name="chapitre-1"/>

Téléchargement et gestion des segments

Une fois que vous avez ajouté au moins une balise de segment, un bouton "télécharger les segments" apparaît après la génération. Cliquez dessus pour télécharger tous les segments en une seule fois, ou utilisez le bouton "plus" sur le lecteur audio pour accéder aux segments individuels. Chaque fichier est automatiquement nommé avec un identifiant unique, un numéro de séquence et un titre descriptif (par exemple, "7054789_1_premiere-phrase"), ce qui facilite l'identification et l'organisation de vos fichiers audio dans votre logiciel de montage.

Limitations des segments

  • Segments courts : Jusqu'à 1000 segments par génération.
  • Segments longs : Jusqu'à 500 segments par génération.

Pour les projets plus importants, divisez-les en plusieurs générations. Pour des instructions complètes, des techniques avancées et des tutoriels vidéo, consultez notre documentation complète sur la segmentation audio.

Configuration de l'intonation

Certaines voix disposent de graphiques d'intonation :

Les graphiques d'intonation sont disponibles sur les voix qui affichent une icône de paramètres à côté du nom de la voix - cette fonctionnalité se trouve sur plus de la moitié des voix de la bibliothèque, y compris les options régulières et PRO.

  • Faites glisser les points sur le graphique pour modifier l'intonation.
  • Augmentez les points pour augmenter la hauteur sur certains mots.
  • Baissez les points pour créer un ton plus sérieux.
  • Expérimentez avec différentes courbes pour plus de naturel.

Faites glisser les points sur le graphique pour modifier l'intonation

Sélectionnez la phrase dans laquelle vous souhaitez ajuster l'intonation et appuyez sur le bouton intonation. Cette interface apparaîtra.

Système de cache et économie de limites

Cache intelligent

SpeechGen utilise un système de cache intelligent qui permet d'économiser considérablement vos limites. Le système fonctionne en sauvegardant chaque phrase (jusqu'à 100 000 caractères) dans le cache pendant 7 jours. Lorsque vous régénérez votre audio, toutes les phrases inchangées sont automatiquement récupérées du cache gratuitement - vous ne payez que pour les phrases nouvelles ou modifiées. Cela signifie que vous pouvez apporter des modifications progressives à votre texte sans consommer toute votre allocation de caractères à chaque fois. L'historique des projets est stocké pendant 30 jours, et les fichiers que vous ajoutez aux favoris sont conservés en permanence.

Périodes de stockage :

  • Cache de phrases : 7 jours.
  • Historique des projets : 30 jours.
  • Fichiers favoris : Stockés en permanence.

Dépannage des problèmes courants

Problèmes de qualité audio

La voix sonne peu naturelle :

  • Essayez les voix PRO.
  • Réduisez la vitesse à x0.9-x1.1.
  • Vérifiez l'exactitude de la ponctuation.
  • Utilisez une hauteur neutre (0).

Prononciation incorrecte :

  • Assurez-vous que la bonne langue est sélectionnée.
  • Écrivez les mots complexes phonétiquement.
  • Utilisez les balises SSML pour un contrôle précis.

Pauses non naturelles :

  • Vérifiez la ponctuation.
  • Configurez les pauses entre les phrases.
  • Utilisez des pauses manuelles .- ou <break time=""/>.
  • Supprimez les espaces et les sauts de ligne supplémentaires.

Erreurs SSML :

  • Vérifiez l'exactitude des balises.
  • Toutes les voix ne prennent pas en charge toutes les balises SSML.

Fonctionnalités supplémentaires

SSML (Speech Synthesis Markup Language)

Pour un contrôle expert de la voix, utilisez les balises SSML :

  • <break time="2s"/> — pauses.
  • <emphasis level="strong"> — emphase vocale.
  • <prosody rate="slow" pitch="low"> — modification des caractéristiques de la parole.

⚠️ Attention : Différentes voix prennent en charge différents ensembles de balises SSML. Testez la fonctionnalité pour chaque voix spécifique.

Historique et favoris

  • Historique des projets : Automatiquement sauvegardé pendant 30 jours.
  • Favoris : Ajoutez des projets importants pour un stockage permanent.

Intégration et API

L'API est disponible pour les développeurs afin d'intégrer SpeechGen.io dans leurs propres applications et services.

Mon fichier ne se télécharge pas sur SpeechGen. Que dois-je faire ?

Vérifiez d'abord que votre fichier est dans un format pris en charge (DOCX, PDF ou TXT). Assurez-vous que le fichier n'est pas corrompu et essayez de le télécharger à nouveau. Si le problème persiste, copiez le texte manuellement et collez-le directement dans la zone de texte. Vérifiez également que la taille de votre fichier ne dépasse pas les limites de la plateforme.

Combien de temps SpeechGen conserve-t-il mes fichiers audio générés ?

Votre historique de projet est automatiquement sauvegardé pendant 30 jours. Le cache intelligent (pour les économies au niveau des phrases) dure 7 jours. Pour conserver les fichiers de manière permanente, ajoutez-les à vos favoris. Cela garantit que vos projets audio importants ne sont jamais perdus et restent accessibles dans votre profil.

Puis-je utiliser différentes voix pour différents personnages dans un même fichier audio ?

Oui ! SpeechGen propose la génération audio multivoix (mode dialogue). Vous pouvez attribuer différentes voix à différentes sections de texte, ce qui est parfait pour les livres audio avec plusieurs personnages, les dialogues éducatifs ou les podcasts avec plusieurs intervenants. Vous pouvez même utiliser des voix multilingues pour passer d'une langue à l'autre tout en conservant la cohérence du personnage.

Quelle est la différence entre les voix régulières et les voix PRO sur SpeechGen ?

Les voix PRO offrent une qualité et un naturel supérieurs par rapport aux voix régulières. Elles ont généralement une meilleure expression émotionnelle, une prononciation plus précise et certaines prennent en charge des fonctionnalités avancées comme les graphiques d'intonation. Pour les projets professionnels tels que les livres audio, les cours ou les présentations d'entreprise, les voix PRO sont recommandées.

La modification des paramètres audio consomme-t-elle mes limites de caractères ?

Cela dépend des paramètres que vous modifiez. L'ajustement de la vitesse de parole ou de la hauteur nécessite une régénération complète et consommera vos limites de caractères, car ces modifications affectent l'ensemble de la synthèse vocale. Cependant, vous pouvez modifier librement les pauses entre les phrases et les paragraphes sans aucune consommation de limite. De plus, SpeechGen utilise un cache intelligent : si vous générez un texte volumineux, puis modifiez une seule phrase et régénérez, le système ne vous facturera que cette seule phrase modifiée, pas l'intégralité du texte. Ce système de cache sauvegarde vos phrases inchangées pendant 7 jours, rendant l'édition itérative très économique.

Vidéo

Vous avez encore des questions ?

Obtenez de l'aide de notre communauté ! Posez vos questions sur notre chat Telegram : https://t.me/speechgen

Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site Web. En savoir plus : Politique de confidentialité

Accepter les cookies