Japanisch Vorlesen Lassen

100+ KI-Stimmen — Tokio-Tonhöhenakzent, Mora-Timing & gemischte Schriften

Für Japanologie-Studierende in Heidelberg, München und Berlin, Anime-Fans auf der Animagic Bonn, und Mittelständler, die mit Toyota, BMW Tokio oder Bosch Japan zusammenarbeiten: Füge deinen Text ein und höre ihn mit korrektem Tokio-Tonhöhenakzent — das L-H-L-Muster, das 橋 (Brücke) von 箸 (Essstäbchen) unterscheidet, die stimmlosen Vokale in です /des/ und ます /mas/, die kleine っ als Sokuon-Mora, und das alveolare Flap-R, das zwischen englischem R und L liegt. Hiragana, Katakana und Kanji mischen sich frei in einer Eingabe. Wähle eine Stimme wie Daichi (PRO Neural, männlich) oder Akemi (PRO Neural, weiblich) und lade deine MP3 in Sekunden herunter.

Für Studio-Qualität liefern Achird JP (HD, männlich) und Achernar JP (HD, weiblich) Broadcast-Qualität. Der Katalog deckt JLPT-Vorbereitung von N5 bis N1, Anime-Dub- und Visual-Novel-Charakterarbeit, YouTube-Voiceover, Hörbuchaufnahmen japanischer Klassiker, und Audioguides für Tempel, Schreine und Städtetouren ab. Erste 1.000 Zeichen kostenlos — kein Konto, kein Wasserzeichen.

Stimmstile — 3 expressive Register

Ausgewählte PRO-Neural-Stimmen bieten zusätzlich zum neutralen Standardregister expressive Stile. Gleicher Satz, gleiche Sprecherin — Nanami, eine weibliche japanische PRO-Neural-Stimme — liest die Zeile unten in drei verschiedenen Stimmungen.

cheerful Kinderinhalte, fröhliche Ankündigungen, Promo-Spots.

chat Vlogs, lockere Erklärvideos, Podcast-Intros, freundliches Gespräch.

customerservice IVR-Begrüßungen, Support-Hotlines, höfliche Ansagen, formeller Ton.

Alle drei Hörproben oben lesen denselben japanischen Satz. Nanami ist die einzige ja-JP-Stimme mit mehreren expressiven Stilen (cheerful, chat, customer-service). Die übrigen 100+ japanischen Stimmen lesen im neutralen Standardregister.

Japanische Aussprache-Leitfaden und Tonhöhenakzent

Die japanische Aussprache wird durch Mora-Timing, Tonhöhenakzent und drei gemeinsam arbeitende Schriftsysteme definiert. Diese sechs Merkmale sind dort, wo sich TTS-Qualität zwischen nativer Aussprache und robotischer Ausgabe unterscheidet — höre, wie SpeechGen jedes einzelne handhabt.

日本語 ni·HO·N·go Tokyo-Tonhöhenakzent Tokyo-Standard: tief auf der ersten Mora, hoch ab der zweiten, dann fallend. にほんご = T-H-H-T-Muster. Tonhöhenakzent ist kein Druckakzent — die Lautstärke bleibt gleich, während die Tonhöhe sich ändert.

おかあさん o·ka·A·san Lange Vokale (長音) Das doppelte あ in おかあさん (Mutter) hält für zwei Moren an. Vergleiche おかさん — eine bedeutungslose Verkürzung. Lange Vokale werden als ā im Romaji geschrieben. Im TTS: Verwende das korrekte Kana und der Motor kümmert sich automatisch um die Länge.

がっこう ga·k·KO·u Mora-Timing (促音) Das kleine っ (Sokuon) ist eine stille Mora — eine kurze Pause vor dem folgenden Konsonanten. がっこう (Schule) hat einen Verschluss vor dem k. Wird er ausgelassen, klingt das Wort unnatürlich. Jede Mora nimmt in Japanisch gleich viel Zeit ein.

です des (not de·su) Stimmlose Vokale (無声化) Im Tokioter Standardjapanisch werden die Vokale い und う zwischen stimmlosen Konsonanten oder am Wortende entstimmt (geflüstert oder lautlos). です klingt wie "des". Auch: ます → "mas". KI-Stimmen behandeln dies korrekt.

らりるれろ ra·ri·ru·re·ro Das japanische R (弾き音) Das japanische R ist ein alveolarer Flap — ein einzelner Zungentipp gegen den Gaumen. Es ist weder das deutsche R noch das L. Am nächsten kommt es dem schnellen "d" im amerikanischen Englisch "butter". Daichi und Akemi produzieren diesen Laut korrekt ohne SSML-Anpassung.

橋 vs 箸 ha·SHI vs HA·shi Tonales Minimalpaar 橋 (Brücke) = T-H-Muster; 箸 (Essstäbchen) = H-T-Muster. Gleiches Kana はし, unterschiedlicher Pitch — unterschiedliche Bedeutung. Deshalb ist Tonhöhenakzent in der japanischen Aussprache so wichtig. Die KI-Stimme löst Mehrdeutigkeit automatisch aus dem Kanji-Kontext.

Warum Tonhöhenakzent für TTS wichtig ist

Tonhöhe, kein Druckakzent — Die Sprache ist ein Pitch-Accent-System, kein Stress-Accent wie im Deutschen oder Englischen. Die Lautstärke bleibt konstant; nur das Hoch-Tief-Muster wechselt zwischen den Moren. Ein falsches Tonhöhenmuster klingt für Muttersprachler fremd, selbst wenn jeder einzelne Laut perfekt sitzt.
Kanji löst Mehrdeutigkeit — Viele Homophon-Paare unterscheiden sich allein im Pitch (橋/箸, 雨/飴). Gibst du Kanji ein, wählt die Stimme das korrekte Muster aus dem Kontext. Für die natürlichste Ausgabe schreibe mit Kanji statt nur Kana.
Drei Schriftsysteme, eine Engine — Hiragana, Katakana und Kanji mischen sich frei in derselben Eingabe. Fremdsprachige Lehnwörter in Katakana (コーヒー, テレビ, パソコン) und Markennamen in Romaji werden ohne manuelle Phonem-Eingriffe korrekt gelesen.

Formatierung und Konventionen für TTS

Bei der Vorbereitung von japanischem Text für den Sprachgenerator beeinflussen diese Formatierungsregeln, wie der Motor deinen Inhalt liest:

Zahlen & Zählwörter

Schreibe Zahlen in Kanji für natürliches Lesen: 三つ、五冊、二人. Die Sprache verwendet Zählwörter (助数詞), die sich je nach Objekttyp ändern: 一本 (längliche Objekte), 一枚 (flache Objekte), 一匹 (kleine Tiere). Arabische Ziffern funktionieren auch — 3 → さん — aber Kanji-Zählwörter klingen authentischer.

Währung

¥1,500 → "せんごひゃくえん". Das Yen-Zeichen wird automatisch gelesen. Für große Beträge: 一万円 (10.000 Yen) → "いちまんえん". Japanisch verwendet 万 (10.000) als Einheit — der Motor verarbeitet 3万円 korrekt ohne manuelle Aussprachemarkierung.

Datum & Uhrzeit

Japanische Datumsreihenfolge: Jahr → Monat → Tag. 2024年3月15日 → "にせんにじゅうよねんさんがつじゅうごにち". Uhrzeit: 14時30分 → "じゅうよじさんじゅっぷん". Schreibe mit Kanji-Datumsmarkierungen (年・月・日・時・分) für korrekte Aussprache.

Formalitätsstufe (敬語 Keigo)

Japanisch hat drei Register: umgangssprachlich (だ/である), höflich (です/ます) und honorifisch (Keigo). Verwende です・ます-Endungen für professionelle Inhalte, だ・だよ für lockere Voiceovers. Der Sprachmotor liest beide Register korrekt — die Wahl der Formalitätsstufe liegt bei dir.

Was du erstellen kannst

Study desk with hiragana charts, JLPT textbook and headphones

Sprachlernen & Tokio-Pitch

Für Japanologie-Studierende an Sorbonne-Partneruniversitäten, Heidelberg, München und Berlin sowie DAAD-Austauschteilnehmer: Füge einen beliebigen Satz ein und höre genau, wie die Tonhöhenkontur zwischen den Moren steigt und fällt. Verlangsame die Wiedergabe auf 0,75×, um stimmlose Vokale und das kleine っ-Sokuon zu erfassen. Ideal für JLPT N5-N1 Hörvorbereitung, Shadowing-Übungen gegen ein natives Modell und Kanji-Vokabeltraining mit kontextsensitiver Aussprache.

Home studio with video editing timeline and voiceover waveform

Anime, Visual Novels & Charakterstimmen

Für die deutsche Anime-Community (Animagic Bonn, Dokomi Düsseldorf, AnimagiC): Besetze Charakterdialoge für Fan-Dubs, Gaming-NPCs, Cosplay-Reels und Visual-Novel-Szenen. Senke die Tonhöhe um 4-6 Halbtöne für Schurken und ältere Charaktere; hebe sie leicht für jüngere oder energiegeladene Personas. Nutze den Dialog-Modus, um einem Multi-Charakter-Skript unterschiedliche Stimmen zuzuweisen. Export direkt in Premiere, DaVinci, Unity oder Ren'Py.

Travel flat-lay with torii gate figurine, Japan map, earbuds and shinkansen ticket

Tourismus & Audioguides

Deutschland ist Europas größter Herkunftsmarkt für Japan-Reisende. Baue Audioguides für Tempel und Schreine (Kyoto, Nara, Nikko), Stadtführungen (Tokio, Osaka, Sapporo) und Ryokan-Willkommensansagen. Produziere Shinkansen- und Metro-Durchsagen, Museumsbeschreibungen und Restaurantvorstellungen. MP3 herunterladen und offline auf jedem Gerät abspielen.

Business desk with meishi card, microphone and Tokyo skyline

Content & Business — BMW, Siemens, Bosch Japan

Für Mittelstand und Konzerne mit Japan-Präsenz (BMW Tokio, Siemens K.K., Bosch Japan) sowie deutsche YouTuber und Podcaster: Füge professionelle Narration zu Produktdemos, Schulungsvideos und Keigo-Unternehmensansagen hinzu. Achernar JP (HD) liefert Broadcast-Qualität für Sprecherinnen; Daichi (PRO Neural) deckt klare männliche Präsentationen ab. Export als MP3 direkt in Premiere, DaVinci oder CapCut.

So funktioniert es — 3 Schritte

Vom Text zum Audio in Sekunden. Keine Software, keine Anmeldung erforderlich.

01

Text einfügen

Gib direkt ein oder füge bis zu 1.000.000 Zeichen ein. Die Engine verarbeitet Hiragana, Katakana, Kanji und gemischte Schriften in einem einzigen Durchlauf. Lade DOCX- oder PDF-Dateien für lange Dokumente hoch.

02

Stimme wählen

Wähle aus 100+ nativen Sprechern. Filtere nach Geschlecht, Qualitätsstufe (Standard, PRO Neural, HD) und ja-JP. Passe die Geschwindigkeit für Pitch-Accent-Übungen an oder stelle die Tonhöhe für Charakterstimmen im Dub-Einsatz ein.

03

Anhören & kostenlos herunterladen

Klicke Convert to Speech, höre die Vorschau und lade als MP3, WAV oder FLAC herunter. Die ersten 1.000 Zeichen sind kostenlos — ohne Anmeldung. Kein Wasserzeichen in keinem Tarif.

Jetzt ausprobieren — nach oben scrollen

Häufig gestellte Fragen

Welche ist die beste japanische Text-zu-Sprache-Stimme?

Für Broadcast- und Hörbucharbeit liefern Achernar JP (HD, weiblich) und Achird JP (HD, männlich) die sauberste, natürlichste Ausgabe — Studio-Klarheit mit präzisen Tokio-Tonhöhenkonturen. Für Alltagscontent und Sprachlernen bringen Daichi (PRO Neural, männlich) und Akemi (PRO Neural, weiblich) einen warmen, konversationellen Ton mit. Alle vier verarbeiten Hiragana, Katakana und Kanji gemischt in einer Eingabe ohne Phonem-Markup.

Wie übe ich Tokio-Tonhöhenakzent mit TTS?

Füge ein Wort oder einen Satz ein, erzeuge das Audio und achte auf die Hoch-Tief-Kontur zwischen den Moren. Verlangsame auf 0,75× — Pitch-Veränderungen sind bei reduziertem Tempo leichter zu erkennen. Für Minimalpaare wie 橋 (Brücke, L-H) vs 箸 (Essstäbchen, H-L) — gleiche Kana はし, unterschiedlicher Pitch — erzeuge beide als separate Clips und vergleiche direkt. Schreibe mit Kanji statt nur Kana, damit die Engine den korrekten Pitch aus dem Kontext ableitet — entscheidend ab JLPT N3.

Kann ich diese Stimmen für Anime und Charakterarbeit nutzen?

Ja. Die deutsche Anime-Community auf Conventions wie Animagic Bonn und Dokomi Düsseldorf nutzt sie regelmäßig. Wähle eine männliche oder weibliche Stimme, füge den Dialog ein, passe die Tonhöhe um 4-6 Halbtöne an, um den Charakter zu formen — tiefer für Schurken und ältere Figuren, höher für junge oder energiegeladene Personas. Export als MP3 und in Premiere, DaVinci, Unity oder Ren'Py einbinden. Der Dialog-Modus erlaubt es, in einer Sitzung unterschiedliche Stimmen für ein Multi-Charakter-Skript zu vergeben — nützlich für Fan-Dubs, Visual Novels und Indie-Game-NPCs.

Ist der MP3-Download wirklich kostenlos?

Ja. Die ersten 1.000 Zeichen sind kostenlos ohne Konto, ohne Karte, ohne Wasserzeichen — einfach einfügen, generieren, herunterladen. Erstelle ein kostenloses Konto und erhalte zusätzliche 3.000 Zeichen pro Tag für sieben Tage. Jede Datei kommt mit kommerzieller Lizenz in jedem Tarif, also funktioniert das Audio für monetarisierte YouTube-Kanäle, Podcasts, Indie-Games und Kundenarbeit ohne zusätzliche Gebühren.

Behandelt die Engine Tonhöhenakzent korrekt?

Ja. Die PRO Neural- und HD-Stimmen sind auf Standard-Tokioter Aussprache trainiert und reproduzieren korrekte Pitch-Muster für gängiges Vokabular. Kanji-Eingabe löst Homophon-Mehrdeutigkeit aus dem Kontext — 橋 und 箸 werden unterschiedlich gelesen, auch wenn beide romanisiert "hashi" ergeben. Für seltene Wörter, Eigennamen oder Fachvokabular füge einen SSML-<phoneme>-Tag ein, um die Aussprache explizit festzulegen.