So verwenden Sie Text-to-Speech auf SpeechGen.io: Vollständiger Leitfaden

08-09-2025 , 16-09-2025

🚀 Schneller Start — Audio in 4 Schritten erstellen

Schritt 1: Sprache auswählen

Öffnen Sie das Sprachmenü und wählen Sie die Sprache Ihres Textes aus. Unterstützte Sprachen: Über 150 Sprachen (Bibliothek mit KI-Stimmen).

Schritt 2: Stimme auswählen

Nachdem Sie die Sprache ausgewählt haben, wird eine Liste von Stimmen angezeigt. Hören Sie sich Beispiele an und wählen Sie Ihre Favoriten aus.

Schritt 3: Text einfügen

Kopieren Sie Ihren Text in das Textfeld oder laden Sie eine Datei hoch (DOCX, PDF). Für die Umwandlung von Untertiteln in Sprache verwenden Sie die spezielle Seite SRT zu Sprache.

Schritt 4: Klicken Sie auf "Sprache generieren" (blauer Button)

Schritt 4: Auf Sprache generieren klicken

Warten Sie auf die Verarbeitung und laden Sie Ihre fertige Audiodatei herunter.

Das war's! Ihr erstes Voiceover ist in nur wenigen Minuten fertig.

Textvorbereitung

Vermeiden Sie:

Emojis und Emoticons (können die Audiogenerierung stören).
Exotische Symbole: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Spezielle Unicode-Symbole:

💡 Tipp: Achten Sie beim Kopieren aus PDF-Dateien besonders auf den Text – es können unsichtbare Zeichen auftreten, die die Audioqualität beeinträchtigen!

Limits und Einschränkungen

Unterstützte Sprachen: 150+ Sprachen (vollständige Liste).
Upload-Formate: einfacher Text, DOCX, PDF, SRT.

Maximal pro Generierung: 2.000.000 Zeichen (≈ 285.000-330.000 Wörter) – dies ist die beeindruckende Textmenge, die Sie in einer einzigen Generierung in Sprache umwandeln können, was sie ideal für Langform-Inhalte wie ganze Bücher oder umfangreiche Dokumentationen macht.

Detaillierte Schritt-für-Schritt-Anleitung

Schritt 1: Text hochladen

Text einfügen: Kopieren Sie Ihren Text in das Textfeld.
Datei hochladen: Oder klicken Sie auf die Upload-Schaltfläche und wählen Sie eine Datei aus (DOCX, PDF).
Text prüfen: Stellen Sie sicher, dass der Text korrekt angezeigt wird.

Schritt 2: Sprache auswählen

⚠️ Wichtig: Wählen Sie zuerst die richtige Sprache für Ihren Text aus.

Öffnen Sie die Dropdown-Liste für Sprachen.
Finden Sie die benötigte Sprache (über 150 Sprachen verfügbar).
Für mehrsprachige Texte verwenden Sie die mehrsprachige Audiogenerierung.

Schritt 3: Stimme auswählen

Nachdem Sie die Sprache ausgewählt haben, öffnet sich eine Liste verfügbarer Stimmen. Hören Sie sich Beispiele an, indem Sie auf die Wiedergabetaste für jede Stimme klicken, um diejenige zu finden, die Ihren Bedürfnissen am besten entspricht. Sie sehen verschiedene verfügbare Stimmentypen: Reguläre Stimmen bieten Standardqualität, PRO-Stimmen bieten verbesserte Qualität und Natürlichkeit, und Mehrsprachige Stimmen (gekennzeichnet mit Sprachcodes wie Ava_US, Ava_ES) ermöglichen es Ihnen, die Stimmkonsistenz über verschiedene Sprachen hinweg beizubehalten. Nehmen Sie sich Zeit, jede Stimme anzuhören, da sie sich erheblich in Tonfall, Emotion und Charakter unterscheiden.

Schritt 4: Parameter konfigurieren

Sprechgeschwindigkeit: von x0,1 (sehr langsam) bis x2,2 (sehr schnell).
Stimmhöhe: von -20 bis +20 (Schrittweite 2).

Unter dem Textfeld, über dem Generierungsbutton, können Sie die Pauseneinstellungen anpassen:

Pauseneinstellungen

Pausen zwischen Sätzen: 150ms - 30 Sekunden.
Pausen zwischen Absätzen: 150ms - 30 Sekunden.

Schritt 5: Sprache generieren

Klicken Sie auf die Schaltfläche "Sprache generieren" unter dem Textfeld, um den Konvertierungsprozess zu starten. Die Verarbeitungszeit hängt von Ihrer Textlänge ab – kürzere Texte werden in Sekunden abgeschlossen, während längere Dokumente einige Minuten dauern können. Sobald die Generierung abgeschlossen ist, können Sie das Ergebnis direkt im Browser anhören, um sicherzustellen, dass es Ihren Erwartungen entspricht.

Schritt 6: Herunterladen

Nach Abschluss der Generierung erscheint eine Schaltfläche "Herunterladen". Standardmäßig können Sie die Datei einfach als MP3 herunterladen. Wenn Sie jedoch ein anderes Format (WAV oder OPUS) benötigen oder die Audioqualität ändern möchten (Sample-Rate von 8000 bis 44000 Hz), müssen Sie diese Optionen zuerst aus den Dropdown-Menüs auswählen, die Sprache mit Ihren gewählten Einstellungen neu generieren und dann die Datei mit Ihren bevorzugten Spezifikationen herunterladen.

Audio-Parameter-Einstellungen

Sprechgeschwindigkeit

Geschwindigkeitsskala:

x0,1 - x0,9: Verlangsamung (für komplexe Materialien, Sprachenlernen).
x1,0: Normale Geschwindigkeit (Standard).
x1,1 - x2,2: Beschleunigung (für dynamische Inhalte).

Warum diese Skala: Bruchteilige Werte kleiner als 1 verlangsamen die Sprache, größere als 1 beschleunigen sie. Dies ermöglicht eine präzise Tempoauswahl für Ihr Publikum.

Empfehlungen für die Geschwindigkeit:

Bildung: x0,8-x1,0 (für besseres Verständnis).
Präsentationen: x0,9-x1,1 (offizielles Tempo).
Podcasts: x1,0-x1,2 (lebhaftes Tempo).
YouTube: x1,1-x1,4 (Aufmerksamkeitsbindung).

Stimmhöhe

Tonhöhenbereich: von -20 bis +20 mit einer Schrittweite von 2.

Warum Schrittweite 2: Eine Schrittweite von 2 Einheiten sorgt für eine spürbare, aber nicht abrupte Tonhöhenänderung. Kleinere Schritte wären nicht wahrnehmbar, größere Schritte zu dramatisch.

Einfluss der Tonhöhe:

Negative Werte (-2 bis -20): Machen die Stimme tiefer, ernster, autoritärer.
Positive Werte (+2 bis +20): Machen die Stimme höher, freundlicher, energischer.
0: Neutrale Tonhöhe (Standard).

Anwendungen:

Geschäftsinhalte: -4 bis +2.
Kinderinhalte: +4 bis +12.
Dramatische Inhalte: -8 bis -16.
Freundliche Inhalte: +2 bis +8.

Arbeiten mit Pausen

Automatische Pausen

Pausen zwischen Sätzen: 300ms (Standard).

Pausen zwischen Absätzen: 400ms (Standard).

Diese Einstellungen können in Dropdown-Menüs von 150ms bis 30 Sekunden geändert werden.

Manuelles Einfügen von Pausen

Über die Benutzeroberfläche:

Platzieren Sie den Cursor an der gewünschten Stelle im Text.
Klicken Sie im Menü auf die Schaltfläche "Pause".
Das Symbol .- erscheint im Text.

Über Tags:

Fügen Sie das Tag <break time="200ms"/> oder <break time="2s"/> an der gewünschten Stelle ein.

Pausenregeln:

Maximale Pause: 30 Sekunden.
Mehrere Pausen können hintereinander für eine längere Verzögerung platziert werden.
Pausen verbrauchen keine zusätzlichen Limits.

Wann Pausen verwenden:

Vor wichtigen Aussagen.
Nach rhetorischen Fragen.
Zwischen verschiedenen Themen.
Um einen dramatischen Effekt zu erzielen.

Mehrstimmige Audioausgabe

Die Dialogfunktion ermöglicht die Verwendung verschiedener Stimmen in einem Text.

Anwendungen:

Hörbücher: Verschiedene Stimmen für Charaktere.
Bildungsdialoge: Lehrer und Schüler.
Präsentationen: Hauptsprecher und Kommentator.
Podcasts: Mehrere Moderatoren.

Die Funktion für mehrstimmige Dialoge eröffnet kreative Möglichkeiten, die über reine Charakterstimmen hinausgehen. Fremdsprachenlehrer können diese Funktion beispielsweise nutzen, um denselben Satz mit unterschiedlichen Geschwindigkeiten zu demonstrieren, um Schülern die Aussprache auf verschiedenen Verständnisebenen näherzubringen. Detaillierte Techniken und Unterrichtsanwendungen finden Sie in unserem Leitfaden zur Verwendung von Text-to-Speech für den Fremdsprachenunterricht.

Stimmenauswahl

Mehrsprachige Stimmen

Stimmen mit Sprachcodes (z. B. Ava_US, Ava_ES, Ava_DE) sind darauf ausgelegt, eine konsistente Stimmerkennung über verschiedene Sprachen hinweg beizubehalten. Diese mehrsprachigen Stimmen ermöglichen es Ihnen, einen einheitlichen Stil für mehrsprachige Inhalte zu schaffen und sicherzustellen, dass derselbe Stimmcharakter mehrere Sprachen nahtlos sprechen kann. Diese Funktion ist besonders nützlich im Dialogmodus, wo Sie zwischen Sprachen wechseln können, während Sie die gleiche erkennbare Stimmpersönlichkeit während Ihres Audioprojekts beibehalten.

Audio-Segmentierung

SpeechGen ermöglicht es Ihnen, Ihr generiertes Audio in mehrere Segmente innerhalb eines einzigen Syntheseprojekts aufzuteilen. Dies ist perfekt für Videoschnitt-Experten, die separate Audiodateien für verschiedene Szenen oder Kapitel benötigen. Diese Funktion ist besonders nützlich für die Erstellung von Voiceovers für YouTube-Videos, Online-Kurse oder jedes Projekt, das eine präzise Audiosynchronisation erfordert.

So erstellen Sie Segmente

Um Ihr Audio zu teilen, platzieren Sie einfach Ihren Cursor dort, wo Sie den Text aufteilen möchten, und klicken Sie im Menü auf die Schaltfläche "Schneiden". Dadurch wird ein <cut/>-Tag an dieser Stelle eingefügt. Sie können dieses Tag auch manuell in Ihren Text eingeben oder kopieren und einfügen. Für benutzerdefinierte Dateinamen verwenden Sie dieses Format:

<cut name="Ihr-Dateiname"/>

Diese Funktion hilft Ihnen, Segmente mit aussagekräftigen Namen zu organisieren, wie zum Beispiel:

<cut name="intro"/>

<cut name="kapitel-1"/>

Herunterladen und Verwalten von Segmenten

Sobald Sie mindestens ein Segment-Tag hinzugefügt haben, erscheint nach der Generierung eine Schaltfläche "Segmente herunterladen". Klicken Sie darauf, um alle Segmente auf einmal herunterzuladen, oder verwenden Sie die Schaltfläche "Mehr" im Audioplayer, um auf einzelne Segmente zuzugreifen. Jede Datei wird automatisch mit einer eindeutigen ID, einer Sequenznummer und einem beschreibenden Titel benannt (z. B. "7054789_1_erster-satz"), was die Identifizierung und Organisation Ihrer Audiodateien in Ihrer Bearbeitungssoftware erleichtert.

Segmentbeschränkungen

Kurze Segmente: Bis zu 1000 Segmente pro Generierung.
Lange Segmente: Bis zu 500 Segmente pro Generierung.

Für größere Projekte teilen Sie diese in mehrere Generierungen auf. Umfassende Anleitungen, fortgeschrittene Techniken und Video-Tutorials finden Sie in unserer vollständigen Dokumentation zur Audio-Segmentierung.

Intonations-Setup

Einige Stimmen verfügen über Intonationsgraphen:

Intonationsgraphen sind für Stimmen verfügbar, die ein Einstellungen-Symbol neben dem Stimmnamen anzeigen – diese Funktion ist bei mehr als der Hälfte der Stimmen in der Bibliothek verfügbar, sowohl bei regulären als auch bei PRO-Optionen.

Ziehen Sie Punkte im Graphen, um die Intonation zu ändern.
Heben Sie Punkte an, um die Tonhöhe bei bestimmten Wörtern zu erhöhen.
Senken Sie Punkte, um einen ernsteren Ton zu erzeugen.
Experimentieren Sie mit verschiedenen Kurven für mehr Natürlichkeit.

Punkte im Graphen ziehen, um die Intonation zu ändern

Wählen Sie den Satz aus, dessen Intonation Sie anpassen möchten, und drücken Sie die Schaltfläche Intonation. Diese Benutzeroberfläche wird angezeigt.

Cachesystem und Limit-Einsparungen

Intelligenter Cache

SpeechGen verwendet ein intelligentes Cachesystem, das Ihre Limits erheblich schont. Das System speichert jeden Satz (bis zu 100.000 Zeichen) 7 Tage lang im Cache. Wenn Sie Ihr Audio neu generieren, werden alle unveränderten Sätze automatisch kostenlos aus dem Cache abgerufen – Sie zahlen nur für neue oder bearbeitete Sätze. Das bedeutet, dass Sie inkrementelle Änderungen an Ihrem Text vornehmen können, ohne jedes Mal Ihr gesamtes Zeichenkontingent zu verbrauchen. Der Projektverlauf wird 30 Tage lang gespeichert, und Dateien, die Sie zu Ihren Favoriten hinzufügen, werden dauerhaft aufbewahrt.

Speicherfristen:

Satz-Cache: 7 Tage.
Projektverlauf: 30 Tage.
Favoriten-Dateien: Dauerhaft gespeichert.

Fehlerbehebung bei häufigen Problemen

Probleme mit der Audioqualität

Stimme klingt unnatürlich:

Probieren Sie PRO-Stimmen aus.
Reduzieren Sie die Geschwindigkeit auf x0,9-x1,1.
Überprüfen Sie die Korrektheit der Satzzeichen.
Verwenden Sie eine neutrale Tonhöhe (0).

Falsche Aussprache:

Stellen Sie sicher, dass die richtige Sprache ausgewählt ist.
Schreiben Sie komplexe Wörter phonetisch.
Verwenden Sie SSML-Tags für präzise Kontrolle.

Unnatürliche Pausen:

Überprüfen Sie die Satzzeichen.
Konfigurieren Sie Pausen zwischen Sätzen.
Verwenden Sie manuelle Pausen .- oder <break time=""/>.
Entfernen Sie zusätzliche Leerzeichen und Zeilenumbrüche.

SSML-Fehler:

Überprüfen Sie die Korrektheit der Tags.
Nicht alle Stimmen unterstützen alle SSML-Tags.

Zusätzliche Funktionen

SSML (Speech Synthesis Markup Language)

Für expertenhafte Sprachsteuerung verwenden Sie SSML-Tags:

<break time="2s"/> — Pausen.
<emphasis level="strong"> — Stimmbetonung.
<prosody rate="slow" pitch="low"> — Änderung der Spracheigenschaften.

⚠️ Achtung: Verschiedene Stimmen unterstützen unterschiedliche SSML-Tag-Sets. Testen Sie die Funktionalität für jede einzelne Stimme.

Verlauf und Favoriten

Projektverlauf: Automatisch für 30 Tage gespeichert.
Favoriten: Fügen Sie wichtige Projekte für die dauerhafte Speicherung hinzu.

Integration und API

API ist für Entwickler verfügbar, um SpeechGen.io in ihre eigenen Anwendungen und Dienste zu integrieren.

Meine Datei wird nicht auf SpeechGen hochgeladen. Was soll ich tun?

Überprüfen Sie zuerst, ob Ihre Datei in einem unterstützten Format vorliegt (DOCX, PDF oder TXT). Stellen Sie sicher, dass die Datei nicht beschädigt ist, und versuchen Sie es erneut. Wenn das Problem weiterhin besteht, kopieren Sie den Text manuell und fügen Sie ihn direkt in das Textfeld ein. Überprüfen Sie auch, ob die Dateigröße die Plattformlimits nicht überschreitet.

Wie lange speichert SpeechGen meine generierten Audiodateien?

Ihr Projektverlauf wird automatisch für 30 Tage gespeichert. Der intelligente Cache (für satzbasierte Einsparungen) ist 7 Tage gültig. Um Dateien dauerhaft zu speichern, fügen Sie sie zu Ihren Favoriten hinzu. Dies stellt sicher, dass Ihre wichtigen Audioprojekte nie verloren gehen und in Ihrem Profil zugänglich bleiben.

Kann ich verschiedene Stimmen für verschiedene Charaktere in einer Audiodatei verwenden?

Ja! SpeechGen bietet mehrsprachige Audiogenerierung (Dialogmodus). Sie können verschiedenen Textabschnitten unterschiedliche Stimmen zuweisen, was es perfekt für Hörbücher mit mehreren Charakteren, Bildungsdialoge oder Podcasts mit mehreren Sprechern macht. Sie können sogar mehrsprachige Stimmen verwenden, um zwischen Sprachen zu wechseln und dabei die Charakterkonsistenz beizubehalten.

Was ist der Unterschied zwischen regulären und PRO-Stimmen bei SpeechGen?

PRO-Stimmen bieten eine überlegene Qualität und Natürlichkeit im Vergleich zu regulären Stimmen. Sie haben in der Regel eine bessere emotionale Ausdrucksfähigkeit, eine genauere Aussprache und einige unterstützen erweiterte Funktionen wie Intonationsgraphen. Für professionelle Projekte wie Hörbücher, Kurse oder Geschäftspräsentationen werden PRO-Stimmen empfohlen.

Verbrauchen Änderungen der Audioeinstellungen meine Zeichenlimits?

Das hängt davon ab, welche Einstellungen Sie ändern. Das Anpassen der Sprechgeschwindigkeit oder Tonhöhe erfordert eine vollständige Neugenerierung und verbraucht Ihre Zeichenlimits, da diese Änderungen die gesamte Sprachsynthese beeinflussen. Sie können jedoch Pausen zwischen Sätzen und Absätzen frei ändern, ohne dass dies zu Limit-Verbrauch führt. Darüber hinaus verwendet SpeechGen intelligentes Caching: Wenn Sie einen großen Text generieren, dann nur einen Satz bearbeiten und neu generieren, berechnet das System nur diesen einen geänderten Satz, nicht den gesamten Text. Dieses Caching-System speichert Ihre unveränderten Sätze 7 Tage lang, was iterative Bearbeitungen sehr kostengünstig macht.

Video

Noch Fragen?

Holen Sie sich Hilfe von unserer Community! Stellen Sie Ihre Fragen in unserem Telegram-Chat: https://t.me/speechgen