日本語テキスト読み上げ
日本語をAIで読み上げ — 100以上の声、ピッチアクセント練習、アニメ音声制作、無料MP3ダウンロード。
100以上のAI音声でクリエイター向け — Audible Japan、YouTube、オーディオブックのスタジオ品質
YouTube動画やポッドキャスト、Audible JapanやAudiobook.jp向けのオーディオブック、Vtuber配信、ニコニコ動画のコンテンツに、スタジオ品質のナレーションを数秒で作成できます。東京方言のピッチアクセント、モーラ拍、小さい「っ」の促音、「です」「ます」の無声化も正確に再現。平仮名・片仮名・漢字の混在テキストも一括処理します。Daichi(PRO Neural、男声)やAkemi(PRO Neural、女声)を選んで、MP3を即座にダウンロードしてください。
ブロードキャスト品質が必要な場面には、Achird JP(HD、男声)とAchernar JP(HD、女声)をご用意しています。Audible Japan向けオーディオブック制作、TV asahiやNHKクオリティの番組ナレーション、Ren'PyやUnityのインディーゲームキャラクター音声、Vocaloid系コンテンツ、企業研修動画、音声アクセシビリティ対応、広告ナレーションまで幅広く対応。最初の1,000文字は登録不要・無料・ウォーターマークなしで試せます。
- 100以上のネイティブ音声 — Standard、PRO、HD
- 平仮名・片仮名・漢字の混在に対応
- 東京方言のピッチアクセント & モーラ拍
- MP3・WAV・FLAC・OGG形式でダウンロード
- 無料 — 1,000文字、登録不要
音声スタイル — 3つの表現レジスター
一部のPRO Neuralボイスは、デフォルトのニュートラルレジスターに加えて表現スタイルをサポートしています。同じ文、同じスピーカー — Nanami(日本語女性のPRO Neuralボイス)が、下の一文を3つの異なるムードで読み上げます。
上の3つのサンプルはすべて同じ日本語の文を読み上げています。Nanamiは、複数の表現スタイル(cheerful、chat、customer-service)を持つ唯一のja-JPボイスです。残りの100+の日本語ボイスはデフォルトのニュートラルレジスターで読み上げます。
日本語の発音とピッチアクセント
日本語の発音はモーラ拍・ピッチアクセント・3つの文字体系の組み合わせで成り立っています。この6つの特徴こそ、TTS音質の差が「自然な日本語」か「機械的な読み上げ」かを分ける核心部分です。SpeechGenがそれぞれをどう処理するか、実際に聴いて確かめてください。
TTSにおいてピッチアクセントが重要な理由
- 強弱ではなく高低 — 母語話者には当たり前のことですが、TTSエンジンにとってはピッチアクセントの正確な再現が品質の分水嶺です。音量は一定のまま、モーラ間で音の高低だけが変化します。ピッチパターンが崩れると、オーディオブックのリスナーには即座に違和感として伝わります。
- 漢字が同音異義語を解決 — 橋/箸、雨/飴のようなピッチで区別される対は、漢字入力であれば文脈から正しいパターンがAI音声に自動的に選ばれます。Audible Japan向けの原稿や台本では、ひらがなよりも漢字表記の方がより自然な音声出力になります。
- 3つの文字体系、1つのエンジン — 平仮名・片仮名・漢字は同じ入力欄で自由に混在させられます。片仮名の外来語(コーヒー、テレビ、パソコン)もローマ字の商標名も、音素指定なしで正しく読み上げられます。
TTSのための表記ルールと慣例
原稿を音声合成エンジンに渡す際、以下の表記ルールが読み上げ結果に影響します:
数字と助数詞
自然な読み上げには漢数字を推奨します:三つ、五冊、二人。助数詞は対象によって変わります:一本(細長いもの)、一枚(薄いもの)、一匹(小動物)。エンジンはアラビア数字も読めますが(3→さん)、漢字の助数詞の方がより自然に響きます。
通貨
¥1,500→「せんごひゃくえん」。円マークは自動で読まれます。大きな金額の場合:一万円(10,000円)→「いちまんえん」。「万」(10,000)が基本単位 — エンジンは3万円も手動の読み仮名なしで正しく処理します。
日付と時刻
順序は年→月→日。2024年3月15日→「にせんにじゅうよねん さんがつ じゅうごにち」。時刻:14時30分→「じゅうよじ さんじゅっぷん」。漢字の日付記号(年・月・日・時・分)を付けることで正しく読み上げられます。
丁寧さの度合い(敬語 Keigo)
3つのスタイルがあります:普通体(だ/である)、丁寧体(です/ます)、敬語(keigo)。企業研修やビジネス動画にはです・ます体を、Vtuber配信やカジュアルなナレーションにはだ・だよ体を使い分けます。音声エンジンはどちらも正確に読み上げます。
活用シーン
YouTube・ポッドキャスト制作
YouTubeの解説動画、Spotify/Apple Podcasts向けの配信、ニコニコ動画のショート、InstagramのReelsに、数秒でプロ品質のナレーションを追加できます。Achernar JP(HD)はブロードキャスト品質の女声、Daichi(PRO Neural)は解説動画に適した明瞭な男声を提供。MP3をエクスポートしてPremiere、DaVinci、Final Cut、CapCutなどに同期できます。
インディーゲーム・ビジュアルノベル
Ren'PyやUnityで開発するインディーゲームのNPCセリフ、ビジュアルノベルのキャラクターボイス、乙女ゲームの多キャラ台本、Vtuberの朗読コンテンツを制作できます。ピッチを4〜6半音下げれば敵キャラや年配の声に、少し上げれば若いキャラに変化。ダイアログモードで複数キャラの声を一つのセッション内で使い分けられます。
Audible Japan・オーディオブック制作
Audible JapanやAudiobook.jp向けの長編オーディオブック制作に最適な速度プリセットとHD音質を提供。Achernar JP(HD女声)とAchird JP(HD男声)はスタジオレベルのクリアさで、文芸作品、ビジネス書、自己啓発本のナレーションに対応します。商用ライセンス付きでそのまま納品できます。
企業研修・アクセシビリティ対応
社内研修動画、eラーニング教材、プレゼンのナレーション、IVR自動応答メッセージ、音声アクセシビリティ対応のWebコンテンツを敬語スタイルで作成できます。Daichi(PRO Neural)はビジネスシーンに適した明瞭さ、Akemi(PRO Neural)は親しみやすい女声で、企業研修から広告ナレーションまで対応します。
使い方 — 3ステップ
テキストから音声まで、数秒で完了。ソフトウェア不要、登録不要。
テキストを貼り付ける
直接入力するか、最大100万文字まで貼り付けられます。平仮名・片仮名・漢字・混在テキストを一括処理。長編オーディオブックや企業研修動画の原稿は、DOCX・PDFファイルをアップロードして読み込めます。
音声を選ぶ
100以上のネイティブ音声から選択。性別とクオリティ(Standard・PRO Neural・HD)でフィルターできます。オーディオブック制作には速度プリセット、インディーゲームのキャラクターボイスにはピッチ調整を使い分けましょう。
試聴して無料ダウンロード
「Convert to Speech」をクリックして試聴し、MP3・WAV・FLACでダウンロード。最初の1,000文字は無料、アカウント不要です。どのプランでもウォーターマークなし、すべての音声ファイルに商用ライセンスが付きます。
よくある質問
はい。Achernar JP(HD女声)とAchird JP(HD男声)はスタジオレベルのクリアさで、Audible JapanやAudiobook.jp向けの長編オーディオブック制作に対応します。速度プリセットで朗読ペースを細かく調整でき、すべての出力に商用ライセンスが付くため、そのまま納品可能です。文芸作品、ビジネス書、自己啓発本のナレーションにお使いください。
はい。すべてのプランに商用ライセンスが含まれています。YouTubeの収益化動画、Spotify/Apple Podcastsの配信、TVerなどの番組、Audible Japanや楽天Koboのオーディオブック、インディーゲームの販売、企業研修動画、広告ナレーションなど、追加費用なしで利用できます。クレジット表記も必要ありません。
はい。Ren'PyやUnityで開発中のビジュアルノベル、乙女ゲーム、アドベンチャーゲーム、Vtuber朗読コンテンツに最適です。ピッチを4〜6半音下げれば敵キャラや年配の声、少し上げれば若いキャラになります。ダイアログモードでは複数キャラに異なる音声を1つのセッション内で割り当てられるため、多キャラ台本を効率的に処理できます。
はい。最初の1,000文字はアカウント不要・カード登録不要・ウォーターマークなしで無料です。無料アカウントに登録すると、7日間毎日3,000文字分を追加でご利用いただけます。すべてのプランに商用ライセンスが含まれており、YouTubeの収益化動画、ポッドキャスト、インディーゲーム販売、クライアントワークにそのままお使いいただけます。
はい。PRO NeuralとHD音声は東京標準語で学習されており、一般的な語彙のピッチアクセントパターンを正確に再現します。漢字入力であれば、文脈から同音異義語(橋/箸、雨/飴)のピッチを自動的に選択します。珍しい単語、固有名詞、専門用語についてはSSMLの<phoneme>タグで明示的に読み方を指定できます。