TTSに正確なポーズを追加する方法
08-09-2025 , 30-04-2026
TTSに正確なポーズを追加する三つの方法 — ワンクリックのポーズアイコン、SSMLの <break> タグ、設定のグローバルなポーズコントロール。さらにスマートキャッシュでポーズの編集が無料になる仕組みもご紹介します。
三つの短い文から始める
エディタにテキストを入力します。デフォルトのポーズだと文同士がつながって流れていきます。多くの場合はこれで十分ですが、重要な場面ではより長い呼吸が欲しいときがあります。
ポーズアイコン — ワンクリックのソフトブレイク
ポーズを入れたい位置にカーソルを置き、ツールバーのポーズアイコンをクリックします。カーソル位置に小さなマーカー — -. — が挿入されます。TTSエンジンはこれを短く自然なポーズとして読み上げます。完全なSSMLをサポートしていない音声を含む、すべての音声で動作します。
ポーズアイコンは呼吸の間を追加する最速の方法です。SSMLの知識は不要です。
正確に制御するには <break> タグを入力
正確なタイミングを指定するには、SSMLのブレイクタグを直接入力します。1秒なら <break time="1s"/>、半秒なら <break time="500ms"/> です。秒(s)とミリ秒(ms)、好きな単位を使えます。
あるいはSSMLを開いてビジュアルピッカーを使う
ツールバーで ① SSML をクリックしてSSMLパネルを開き、② Break をクリックするとビジュアルピッカーが起動します。タグの構文を覚える必要はありません。プリセットを選ぶか、数値フィールドに値を入力するだけです。
クイックプリセット — 200msから5秒まで
Breakモーダルには八つのクイックポーズプリセットが用意されています: 200ms · 300ms · 500ms · 700ms · 1000ms · 1500ms · 2000ms · 5000ms。任意のプリセットを1回クリックすると、対応するブレイクタグがカーソル位置に挿入され、モーダルが閉じます。
手動入力 — 必要な値を自由に
カスタムの長さが必要な場合はManualセクションを使います: ① 秒(0〜30)またはミリ秒(50〜1000)で値を入力し、② Insert をクリックします。指定したタイミングのタグが挿入されます — 例えば <break time="750ms"/> のようにです。
長めの間には秒(1s、2s、5s)、細かい調整にはミリ秒(250ms、600ms、850ms)を使います。
グローバルポーズコントロール — 段落と文向け
エディタの下の Settings を開きます。中央の列 — Pause Control — には二つのドロップダウンがあります: ① Pause for paragraphs(デフォルト400ms)は空行で区切られたテキストブロック間の沈黙を制御します。② Pause for sentences(デフォルト300ms)は文末の句読点ごとの間を制御します。
範囲は150msから30秒まで。ポッドキャストやオーディオブック、じっくり聴かせるコンテンツには長めの値を、テンポの速い広告やニュースには短めの値を使います。
Convert to Speech(音声に変換)
Convert to Speech をクリックします。SpeechGenはツールバーのマーカー、手動のブレイクタグ、グローバルポーズコントロールの設定を組み合わせて、あなたが設定したすべてのポーズを反映してテキストを生成します。下のプレイヤーで結果を聴いてみましょう。
スマートキャッシュ — ポーズの編集はゼロコスト
では、ブレイクの長さを一つ変えてみましょう — 例えば <break time="1s"/> → <break time="3s"/> のように — そしてもう一度Convertをクリックします。結果パネルを見てください: ① Smart Cache 100% が表示され、② 0 Limits の消費となっています。
SpeechGenはテキストを文単位で音声化し、生成された各チャンクをキャッシュします。ポーズの長さを変更したり、ブレイクタグを追加・編集したりするだけなら、実際の音声チャンク自体は変わりません。それらはキャッシュからゼロコストで提供されます。ペース配分は何度でも調整できます。
どの方法をいつ使うか
各ポーズ方法には異なる目的があります。組み合わせて使うと自然に響く音声になります。
ツールバーのポーズアイコン( -.)
- 最速 — ワンクリック、SSMLの知識不要
- SSML非対応の音声を含む、すべての音声で動作
- 柔らかく自然なポーズ — タイミングを考える必要なし
- 最適な用途: 下書き、カジュアルな音声、SSMLタグを受け付けない音声
手動の <break time="..."/>
- 正確なタイミング — ミリ秒または秒で指定
- 一度入力すればどこへでもコピー&ペースト可能
- テキスト内に見える形で残るので、後から見直し編集しやすい
- 最適な用途: スクリプト化されたコンテンツ、オーディオブック、欲しい間が明確に分かっているとき
SSML Breakモーダル
- クイックプリセットと手動入力を備えたビジュアルピッカー
- タグ構文を覚える必要なし
- 異なる長さを試したいときに便利
- 最適な用途: 何が合うか探るとき、複数の値を素早く試したいとき
グローバルポーズコントロール(Settings)
- テキスト中のすべての段落・文に対するデフォルトのポーズ長を設定
- ひとつのダイヤル — 文書全体に影響
- インラインのブレイクタグと併用可能(手動のブレイクはグローバル設定を上書きします)
- 最適な用途: 一貫したペースで進めたい長尺コンテンツ(オーディオブック、ポッドキャスト)
活用シーン
読み上げ速度よりも自然なペース配分が重要となるあらゆる場面で:
オーディオブック&ポッドキャスト
- 章の切り替えでの長めのブレイク(1.5〜3秒)
- 対話シーン — ドラマチックなセリフの前のポーズ
- 内省的な箇所 — 雰囲気を出すための長めの段落ポーズ
教育&研修
- 重要な概念の後の理解のためのポーズ(リスナーが吸収できるように)
- クイズのタイミング — 各問題の後に考える時間としての沈黙
- 語学ドリル — リピート練習のための正確な秒数のポーズ
ナレーション&広告
- 重要な行動喚起の前のひと呼吸
- オチのタイミング — コメディ向けの短いブレイク
- ブランド読み上げ — ブランド名の周りのきれいな間
IVR&電話システム
- メニューオプション間のポーズ(リスナーが押せるように)
- データ入力プロンプト中の待ち時間
- 音声で読み上げた数字の後の確認用ポーズ
注: 一部のスクリーンショットに小さな管理パネルが表示されることがあります。これは社内向けの内部ツールで、お客様のアカウントでは表示されません。