Skip to editor

日本語テキスト読み上げ

日本語をAIで読み上げ — 100以上の声、ピッチアクセント練習、アニメ音声制作、無料MP3ダウンロード。

ja-JP
スタイル
速度:1.0
音調:0
ボリューム:100%
ファイル
ポーズ
クリア
一歩戻る
一歩進み
Ssml
切り取る
サウンド選択

100以上のAI音声でクリエイター向け — Audible Japan、YouTube、オーディオブックのスタジオ品質

YouTube動画やポッドキャスト、Audible JapanやAudiobook.jp向けのオーディオブック、Vtuber配信、ニコニコ動画のコンテンツに、スタジオ品質のナレーションを数秒で作成できます。東京方言のピッチアクセント、モーラ拍、小さい「っ」の促音、「です」「ます」の無声化も正確に再現。平仮名・片仮名・漢字の混在テキストも一括処理します。Daichi(PRO Neural、男声)やAkemi(PRO Neural、女声)を選んで、MP3を即座にダウンロードしてください。

ブロードキャスト品質が必要な場面には、Achird JP(HD、男声)とAchernar JP(HD、女声)をご用意しています。Audible Japan向けオーディオブック制作、TV asahiやNHKクオリティの番組ナレーション、Ren'PyやUnityのインディーゲームキャラクター音声、Vocaloid系コンテンツ、企業研修動画、音声アクセシビリティ対応、広告ナレーションまで幅広く対応。最初の1,000文字は登録不要・無料・ウォーターマークなしで試せます。

  • 100以上のネイティブ音声 — Standard、PRO、HD
  • 平仮名・片仮名・漢字の混在に対応
  • 東京方言のピッチアクセント & モーラ拍
  • MP3・WAV・FLAC・OGG形式でダウンロード
  • 無料 — 1,000文字、登録不要

AI音声サンプル — 東京方言

クリックして試聴 · 100以上の音声を収録

こちらは厳選した4つの音声です。100以上の音声は音声一覧ページでご確認いただけます。

音声スタイル — 3つの表現レジスター

一部のPRO Neuralボイスは、デフォルトのニュートラルレジスターに加えて表現スタイルをサポートしています。同じ文、同じスピーカー — Nanami(日本語女性のPRO Neuralボイス)が、下の一文を3つの異なるムードで読み上げます。

スタイル 試聴 代表的な用途
cheerful 子ども向けコンテンツ、明るいアナウンス、プロモーション。
chat Vlog、カジュアルな解説、ポッドキャストのイントロ、フレンドリーな会話。
customerservice IVR応答、サポート窓口、丁寧なアナウンス、フォーマルなトーン。

上の3つのサンプルはすべて同じ日本語の文を読み上げています。Nanamiは、複数の表現スタイル(cheerful、chat、customer-service)を持つ唯一のja-JPボイスです。残りの100+の日本語ボイスはデフォルトのニュートラルレジスターで読み上げます。

日本語の発音とピッチアクセント

日本語の発音はモーラ拍・ピッチアクセント・3つの文字体系の組み合わせで成り立っています。この6つの特徴こそ、TTS音質の差が「自然な日本語」か「機械的な読み上げ」かを分ける核心部分です。SpeechGenがそれぞれをどう処理するか、実際に聴いて確かめてください。

単語 / フレーズ ローマ字表記 + 音声 特徴 解説
日本語 ni·HO·N·go 東京のピッチアクセント 東京標準語: 1モーラ目が低く、2モーラ目以降が高くなり、その後下がる。にほんご = 低・高・高・低のパターン。ピッチアクセントは強弱ではなく、音の高低の変化です。
おかあさん o·ka·A·san 長音(長音符) 「おかあさん」の「ああ」は2モーラ分の長さで発音します。「おかさん」と短く読むと別の(無意味な)語になります。長音はローマ字では ā と表記。TTSでは正しい仮名を入力すれば、長さは自動的に処理されます。
がっこう ga·k·KO·u モーラ(促音) 小さい「っ」(促音)は無音のモーラで、次の子音の前に短い閉鎖音が入ります。「がっこう(学校)」の「っ」では「k」の前に一瞬の停止が生じます。日本語ではすべてのモーラが均等な長さで発音されます。
です des (not de·su) 無声化母音(無声化) 東京標準語では、無声子音に挟まれた「い」「う」、または語末の「す」「き」などが無声化(ほぼ無音)になります。「です」は「des」のように聞こえます。「ます」→「mas」も同様。AI音声はこれを正確に再現します。
らりるれろ ra·ri·ru·re·ro 日本語のR音(弾き音) 日本語の「ら行」は弾き音(はじき音)で、舌先が上顎に一瞬触れる音です。英語の「R」でも「L」でもありません。DaichiとAkemiはSSML調整なしでこの音を正確に発音します。
橋 vs 箸 ha·SHI vs HA·shi ピッチ最小対(ミニマルペア) = 低・高のパターン; = 高・低のパターン。同じ仮名「はし」でもピッチが違えば意味が変わります。AI音声は漢字の文脈から正しいパターンを自動的に選択します。

TTSにおいてピッチアクセントが重要な理由

  • 強弱ではなく高低 — 母語話者には当たり前のことですが、TTSエンジンにとってはピッチアクセントの正確な再現が品質の分水嶺です。音量は一定のまま、モーラ間で音の高低だけが変化します。ピッチパターンが崩れると、オーディオブックのリスナーには即座に違和感として伝わります。
  • 漢字が同音異義語を解決 — 橋/箸、雨/飴のようなピッチで区別される対は、漢字入力であれば文脈から正しいパターンがAI音声に自動的に選ばれます。Audible Japan向けの原稿や台本では、ひらがなよりも漢字表記の方がより自然な音声出力になります。
  • 3つの文字体系、1つのエンジン — 平仮名・片仮名・漢字は同じ入力欄で自由に混在させられます。片仮名の外来語(コーヒー、テレビ、パソコン)もローマ字の商標名も、音素指定なしで正しく読み上げられます。

TTSのための表記ルールと慣例

原稿を音声合成エンジンに渡す際、以下の表記ルールが読み上げ結果に影響します:

数字と助数詞

自然な読み上げには漢数字を推奨します:三つ、五冊、二人。助数詞は対象によって変わります:一本(細長いもの)、一枚(薄いもの)、一匹(小動物)。エンジンはアラビア数字も読めますが(3→さん)、漢字の助数詞の方がより自然に響きます。

通貨

¥1,500→「せんごひゃくえん」。円マークは自動で読まれます。大きな金額の場合:一万円(10,000円)→「いちまんえん」。「万」(10,000)が基本単位 — エンジンは3万円も手動の読み仮名なしで正しく処理します。

日付と時刻

順序は年→月→日。2024年3月15日→「にせんにじゅうよねん さんがつ じゅうごにち」。時刻:14時30分→「じゅうよじ さんじゅっぷん」。漢字の日付記号(年・月・日・時・分)を付けることで正しく読み上げられます。

丁寧さの度合い(敬語 Keigo)

3つのスタイルがあります:普通体(だ/である)、丁寧体(です/ます)、敬語(keigo)。企業研修やビジネス動画にはです・ます体を、Vtuber配信やカジュアルなナレーションにはだ・だよ体を使い分けます。音声エンジンはどちらも正確に読み上げます。

活用シーン

Home studio with video editing timeline and voiceover waveform

YouTube・ポッドキャスト制作

YouTubeの解説動画、Spotify/Apple Podcasts向けの配信、ニコニコ動画のショート、InstagramのReelsに、数秒でプロ品質のナレーションを追加できます。Achernar JP(HD)はブロードキャスト品質の女声、Daichi(PRO Neural)は解説動画に適した明瞭な男声を提供。MP3をエクスポートしてPremiere、DaVinci、Final Cut、CapCutなどに同期できます。

Dark gaming desk with anime character on screen, RGB keyboard and manga volumes

インディーゲーム・ビジュアルノベル

Ren'PyやUnityで開発するインディーゲームのNPCセリフ、ビジュアルノベルのキャラクターボイス、乙女ゲームの多キャラ台本、Vtuberの朗読コンテンツを制作できます。ピッチを4〜6半音下げれば敵キャラや年配の声に、少し上げれば若いキャラに変化。ダイアログモードで複数キャラの声を一つのセッション内で使い分けられます。

Pitch accent diagram on whiteboard with phonetic study cards

Audible Japan・オーディオブック制作

Audible JapanやAudiobook.jp向けの長編オーディオブック制作に最適な速度プリセットとHD音質を提供。Achernar JP(HD女声)とAchird JP(HD男声)はスタジオレベルのクリアさで、文芸作品、ビジネス書、自己啓発本のナレーションに対応します。商用ライセンス付きでそのまま納品できます。

Business desk with meishi card, microphone and Tokyo skyline

企業研修・アクセシビリティ対応

社内研修動画、eラーニング教材、プレゼンのナレーション、IVR自動応答メッセージ、音声アクセシビリティ対応のWebコンテンツを敬語スタイルで作成できます。Daichi(PRO Neural)はビジネスシーンに適した明瞭さ、Akemi(PRO Neural)は親しみやすい女声で、企業研修から広告ナレーションまで対応します。

使い方 — 3ステップ

テキストから音声まで、数秒で完了。ソフトウェア不要、登録不要。

01

テキストを貼り付ける

直接入力するか、最大100万文字まで貼り付けられます。平仮名・片仮名・漢字・混在テキストを一括処理。長編オーディオブックや企業研修動画の原稿は、DOCX・PDFファイルをアップロードして読み込めます。

02

音声を選ぶ

100以上のネイティブ音声から選択。性別とクオリティ(Standard・PRO Neural・HD)でフィルターできます。オーディオブック制作には速度プリセット、インディーゲームのキャラクターボイスにはピッチ調整を使い分けましょう。

03

試聴して無料ダウンロード

「Convert to Speech」をクリックして試聴し、MP3・WAV・FLACでダウンロード。最初の1,000文字は無料、アカウント不要です。どのプランでもウォーターマークなし、すべての音声ファイルに商用ライセンスが付きます。

よくある質問

Audible Japan向けのオーディオブック制作に使えますか?

はい。Achernar JP(HD女声)とAchird JP(HD男声)はスタジオレベルのクリアさで、Audible JapanやAudiobook.jp向けの長編オーディオブック制作に対応します。速度プリセットで朗読ペースを細かく調整でき、すべての出力に商用ライセンスが付くため、そのまま納品可能です。文芸作品、ビジネス書、自己啓発本のナレーションにお使いください。

商用利用はできますか?ライセンスは?

はい。すべてのプランに商用ライセンスが含まれています。YouTubeの収益化動画、Spotify/Apple Podcastsの配信、TVerなどの番組、Audible Japanや楽天Koboのオーディオブック、インディーゲームの販売、企業研修動画、広告ナレーションなど、追加費用なしで利用できます。クレジット表記も必要ありません。

インディーゲームのキャラクターボイスに使えますか?

はい。Ren'PyやUnityで開発中のビジュアルノベル、乙女ゲーム、アドベンチャーゲーム、Vtuber朗読コンテンツに最適です。ピッチを4〜6半音下げれば敵キャラや年配の声、少し上げれば若いキャラになります。ダイアログモードでは複数キャラに異なる音声を1つのセッション内で割り当てられるため、多キャラ台本を効率的に処理できます。

本当に無料でMP3をダウンロードできますか?

はい。最初の1,000文字はアカウント不要・カード登録不要・ウォーターマークなしで無料です。無料アカウントに登録すると、7日間毎日3,000文字分を追加でご利用いただけます。すべてのプランに商用ライセンスが含まれており、YouTubeの収益化動画、ポッドキャスト、インディーゲーム販売、クライアントワークにそのままお使いいただけます。

ピッチアクセントは正確に再現されますか?

はい。PRO NeuralとHD音声は東京標準語で学習されており、一般的な語彙のピッチアクセントパターンを正確に再現します。漢字入力であれば、文脈から同音異義語(橋/箸、雨/飴)のピッチを自動的に選択します。珍しい単語、固有名詞、専門用語についてはSSMLの<phoneme>タグで明示的に読み方を指定できます。

当ウェブサイトでは、最高の体験を提供するためにクッキーを使用しています。詳細については、プライバシーポリシーをご覧ください。

クッキーを許可