08-09-2025 , 16-09-2025
Öffnen Sie das Sprachmenü und wählen Sie die Sprache Ihres Textes aus. Unterstützte Sprachen: Über 150 Sprachen (Bibliothek mit KI-Stimmen).
Nachdem Sie die Sprache ausgewählt haben, wird eine Liste von Stimmen angezeigt. Hören Sie sich Beispiele an und wählen Sie Ihre Favoriten aus.
Kopieren Sie Ihren Text in das Textfeld oder laden Sie eine Datei hoch (DOCX, PDF). Für die Umwandlung von Untertiteln in Sprache verwenden Sie die spezielle Seite SRT zu Sprache.
Warten Sie auf die Verarbeitung und laden Sie Ihre fertige Audiodatei herunter.
Das war's! Ihr erstes Voiceover ist in nur wenigen Minuten fertig.
💡 Tipp: Achten Sie beim Kopieren aus PDF-Dateien besonders auf den Text – es können unsichtbare Zeichen auftreten, die die Audioqualität beeinträchtigen!
Maximal pro Generierung: 2.000.000 Zeichen (≈ 285.000-330.000 Wörter) – dies ist die beeindruckende Textmenge, die Sie in einer einzigen Generierung in Sprache umwandeln können, was sie ideal für Langform-Inhalte wie ganze Bücher oder umfangreiche Dokumentationen macht.
⚠️ Wichtig: Wählen Sie zuerst die richtige Sprache für Ihren Text aus.
Nachdem Sie die Sprache ausgewählt haben, öffnet sich eine Liste verfügbarer Stimmen. Hören Sie sich Beispiele an, indem Sie auf die Wiedergabetaste für jede Stimme klicken, um diejenige zu finden, die Ihren Bedürfnissen am besten entspricht. Sie sehen verschiedene verfügbare Stimmentypen: Reguläre Stimmen bieten Standardqualität, PRO-Stimmen bieten verbesserte Qualität und Natürlichkeit, und Mehrsprachige Stimmen (gekennzeichnet mit Sprachcodes wie Ava_US, Ava_ES) ermöglichen es Ihnen, die Stimmkonsistenz über verschiedene Sprachen hinweg beizubehalten. Nehmen Sie sich Zeit, jede Stimme anzuhören, da sie sich erheblich in Tonfall, Emotion und Charakter unterscheiden.
Unter dem Textfeld, über dem Generierungsbutton, können Sie die Pauseneinstellungen anpassen:
Klicken Sie auf die Schaltfläche "Sprache generieren" unter dem Textfeld, um den Konvertierungsprozess zu starten. Die Verarbeitungszeit hängt von Ihrer Textlänge ab – kürzere Texte werden in Sekunden abgeschlossen, während längere Dokumente einige Minuten dauern können. Sobald die Generierung abgeschlossen ist, können Sie das Ergebnis direkt im Browser anhören, um sicherzustellen, dass es Ihren Erwartungen entspricht.
Nach Abschluss der Generierung erscheint eine Schaltfläche "Herunterladen". Standardmäßig können Sie die Datei einfach als MP3 herunterladen. Wenn Sie jedoch ein anderes Format (WAV oder OPUS) benötigen oder die Audioqualität ändern möchten (Sample-Rate von 8000 bis 44000 Hz), müssen Sie diese Optionen zuerst aus den Dropdown-Menüs auswählen, die Sprache mit Ihren gewählten Einstellungen neu generieren und dann die Datei mit Ihren bevorzugten Spezifikationen herunterladen.
Geschwindigkeitsskala:
Warum diese Skala: Bruchteilige Werte kleiner als 1 verlangsamen die Sprache, größere als 1 beschleunigen sie. Dies ermöglicht eine präzise Tempoauswahl für Ihr Publikum.
Empfehlungen für die Geschwindigkeit:
Tonhöhenbereich: von -20 bis +20 mit einer Schrittweite von 2.
Warum Schrittweite 2: Eine Schrittweite von 2 Einheiten sorgt für eine spürbare, aber nicht abrupte Tonhöhenänderung. Kleinere Schritte wären nicht wahrnehmbar, größere Schritte zu dramatisch.
Einfluss der Tonhöhe:
Anwendungen:
Pausen zwischen Sätzen: 300ms (Standard).
Pausen zwischen Absätzen: 400ms (Standard).
Diese Einstellungen können in Dropdown-Menüs von 150ms bis 30 Sekunden geändert werden.
Über die Benutzeroberfläche:
Über Tags:
Fügen Sie das Tag <break time="200ms"/> oder <break time="2s"/> an der gewünschten Stelle ein.
Pausenregeln:
Wann Pausen verwenden:
Die Dialogfunktion ermöglicht die Verwendung verschiedener Stimmen in einem Text.
Die Funktion für mehrstimmige Dialoge eröffnet kreative Möglichkeiten, die über reine Charakterstimmen hinausgehen. Fremdsprachenlehrer können diese Funktion beispielsweise nutzen, um denselben Satz mit unterschiedlichen Geschwindigkeiten zu demonstrieren, um Schülern die Aussprache auf verschiedenen Verständnisebenen näherzubringen. Detaillierte Techniken und Unterrichtsanwendungen finden Sie in unserem Leitfaden zur Verwendung von Text-to-Speech für den Fremdsprachenunterricht.
Stimmen mit Sprachcodes (z. B. Ava_US, Ava_ES, Ava_DE) sind darauf ausgelegt, eine konsistente Stimmerkennung über verschiedene Sprachen hinweg beizubehalten. Diese mehrsprachigen Stimmen ermöglichen es Ihnen, einen einheitlichen Stil für mehrsprachige Inhalte zu schaffen und sicherzustellen, dass derselbe Stimmcharakter mehrere Sprachen nahtlos sprechen kann. Diese Funktion ist besonders nützlich im Dialogmodus, wo Sie zwischen Sprachen wechseln können, während Sie die gleiche erkennbare Stimmpersönlichkeit während Ihres Audioprojekts beibehalten.
SpeechGen ermöglicht es Ihnen, Ihr generiertes Audio in mehrere Segmente innerhalb eines einzigen Syntheseprojekts aufzuteilen. Dies ist perfekt für Videoschnitt-Experten, die separate Audiodateien für verschiedene Szenen oder Kapitel benötigen. Diese Funktion ist besonders nützlich für die Erstellung von Voiceovers für YouTube-Videos, Online-Kurse oder jedes Projekt, das eine präzise Audiosynchronisation erfordert.
Um Ihr Audio zu teilen, platzieren Sie einfach Ihren Cursor dort, wo Sie den Text aufteilen möchten, und klicken Sie im Menü auf die Schaltfläche "Schneiden". Dadurch wird ein <cut/>-Tag an dieser Stelle eingefügt. Sie können dieses Tag auch manuell in Ihren Text eingeben oder kopieren und einfügen. Für benutzerdefinierte Dateinamen verwenden Sie dieses Format:
<cut name="Ihr-Dateiname"/>
Diese Funktion hilft Ihnen, Segmente mit aussagekräftigen Namen zu organisieren, wie zum Beispiel:
<cut name="intro"/>
<cut name="kapitel-1"/>
Sobald Sie mindestens ein Segment-Tag hinzugefügt haben, erscheint nach der Generierung eine Schaltfläche "Segmente herunterladen". Klicken Sie darauf, um alle Segmente auf einmal herunterzuladen, oder verwenden Sie die Schaltfläche "Mehr" im Audioplayer, um auf einzelne Segmente zuzugreifen. Jede Datei wird automatisch mit einer eindeutigen ID, einer Sequenznummer und einem beschreibenden Titel benannt (z. B. "7054789_1_erster-satz"), was die Identifizierung und Organisation Ihrer Audiodateien in Ihrer Bearbeitungssoftware erleichtert.
Für größere Projekte teilen Sie diese in mehrere Generierungen auf. Umfassende Anleitungen, fortgeschrittene Techniken und Video-Tutorials finden Sie in unserer vollständigen Dokumentation zur Audio-Segmentierung.
Einige Stimmen verfügen über Intonationsgraphen:
Intonationsgraphen sind für Stimmen verfügbar, die ein Einstellungen-Symbol neben dem Stimmnamen anzeigen – diese Funktion ist bei mehr als der Hälfte der Stimmen in der Bibliothek verfügbar, sowohl bei regulären als auch bei PRO-Optionen.
Wählen Sie den Satz aus, dessen Intonation Sie anpassen möchten, und drücken Sie die Schaltfläche Intonation. Diese Benutzeroberfläche wird angezeigt.
SpeechGen verwendet ein intelligentes Cachesystem, das Ihre Limits erheblich schont. Das System speichert jeden Satz (bis zu 100.000 Zeichen) 7 Tage lang im Cache. Wenn Sie Ihr Audio neu generieren, werden alle unveränderten Sätze automatisch kostenlos aus dem Cache abgerufen – Sie zahlen nur für neue oder bearbeitete Sätze. Das bedeutet, dass Sie inkrementelle Änderungen an Ihrem Text vornehmen können, ohne jedes Mal Ihr gesamtes Zeichenkontingent zu verbrauchen. Der Projektverlauf wird 30 Tage lang gespeichert, und Dateien, die Sie zu Ihren Favoriten hinzufügen, werden dauerhaft aufbewahrt.
Speicherfristen:
Stimme klingt unnatürlich:
Falsche Aussprache:
Unnatürliche Pausen:
SSML-Fehler:
Für expertenhafte Sprachsteuerung verwenden Sie SSML-Tags:
⚠️ Achtung: Verschiedene Stimmen unterstützen unterschiedliche SSML-Tag-Sets. Testen Sie die Funktionalität für jede einzelne Stimme.
API ist für Entwickler verfügbar, um SpeechGen.io in ihre eigenen Anwendungen und Dienste zu integrieren.
Überprüfen Sie zuerst, ob Ihre Datei in einem unterstützten Format vorliegt (DOCX, PDF oder TXT). Stellen Sie sicher, dass die Datei nicht beschädigt ist, und versuchen Sie es erneut. Wenn das Problem weiterhin besteht, kopieren Sie den Text manuell und fügen Sie ihn direkt in das Textfeld ein. Überprüfen Sie auch, ob die Dateigröße die Plattformlimits nicht überschreitet.
Ihr Projektverlauf wird automatisch für 30 Tage gespeichert. Der intelligente Cache (für satzbasierte Einsparungen) ist 7 Tage gültig. Um Dateien dauerhaft zu speichern, fügen Sie sie zu Ihren Favoriten hinzu. Dies stellt sicher, dass Ihre wichtigen Audioprojekte nie verloren gehen und in Ihrem Profil zugänglich bleiben.
Ja! SpeechGen bietet mehrsprachige Audiogenerierung (Dialogmodus). Sie können verschiedenen Textabschnitten unterschiedliche Stimmen zuweisen, was es perfekt für Hörbücher mit mehreren Charakteren, Bildungsdialoge oder Podcasts mit mehreren Sprechern macht. Sie können sogar mehrsprachige Stimmen verwenden, um zwischen Sprachen zu wechseln und dabei die Charakterkonsistenz beizubehalten.
PRO-Stimmen bieten eine überlegene Qualität und Natürlichkeit im Vergleich zu regulären Stimmen. Sie haben in der Regel eine bessere emotionale Ausdrucksfähigkeit, eine genauere Aussprache und einige unterstützen erweiterte Funktionen wie Intonationsgraphen. Für professionelle Projekte wie Hörbücher, Kurse oder Geschäftspräsentationen werden PRO-Stimmen empfohlen.
Das hängt davon ab, welche Einstellungen Sie ändern. Das Anpassen der Sprechgeschwindigkeit oder Tonhöhe erfordert eine vollständige Neugenerierung und verbraucht Ihre Zeichenlimits, da diese Änderungen die gesamte Sprachsynthese beeinflussen. Sie können jedoch Pausen zwischen Sätzen und Absätzen frei ändern, ohne dass dies zu Limit-Verbrauch führt. Darüber hinaus verwendet SpeechGen intelligentes Caching: Wenn Sie einen großen Text generieren, dann nur einen Satz bearbeiten und neu generieren, berechnet das System nur diesen einen geänderten Satz, nicht den gesamten Text. Dieses Caching-System speichert Ihre unveränderten Sätze 7 Tage lang, was iterative Bearbeitungen sehr kostengünstig macht.
Holen Sie sich Hilfe von unserer Community! Stellen Sie Ihre Fragen in unserem Telegram-Chat: https://t.me/speechgen