TTSに正確なポーズを追加する方法

, 30-04-2026

TTSに正確なポーズを追加する三つの方法 — ワンクリックのポーズアイコン、SSMLの <break> タグ、設定のグローバルなポーズコントロール。さらにスマートキャッシュでポーズの編集が無料になる仕組みもご紹介します。

ポーズが重要な理由 · ポーズがないと文がつながって機械的に聞こえます。ポーズがあれば話し手と一緒に呼吸でき、重要なフレーズが伝わり、ナレーションが自然になります。SpeechGenでは最速(ワンクリック)から最も精密(ミリ秒単位のブレイク)まで四つの方法を組み合わせて使えます。スマートキャッシュは変更されていない音声チャンクを再利用するので、ポーズの長さの調整に追加の消費はかかりません。
0:00 / 0:00
完全な操作の流れ — 3つの文を入力し、3通りの方法でポーズを挿入、変換してから1つのブレイクを変更し、スマートキャッシュで消費がゼロになる様子をご覧ください。
01

三つの短い文から始める

エディタにテキストを入力します。デフォルトのポーズだと文同士がつながって流れていきます。多くの場合はこれで十分ですが、重要な場面ではより長い呼吸が欲しいときがあります。

02

ポーズアイコン — ワンクリックのソフトブレイク

ポーズを入れたい位置にカーソルを置き、ツールバーのポーズアイコンをクリックします。カーソル位置に小さなマーカー — -. — が挿入されます。TTSエンジンはこれを短く自然なポーズとして読み上げます。完全なSSMLをサポートしていない音声を含む、すべての音声で動作します。

エディタのツールバーで強調表示されたポーズアイコンと、文の間に挿入されたマーカー

ポーズアイコンは呼吸の間を追加する最速の方法です。SSMLの知識は不要です。

03

正確に制御するには <break> タグを入力

正確なタイミングを指定するには、SSMLのブレイクタグを直接入力します。1秒なら <break time="1s"/>、半秒なら <break time="500ms"/> です。秒(s)とミリ秒(ms)、好きな単位を使えます。

二つの文の間にエディタで手動入力されたブレイクタグ
04

あるいはSSMLを開いてビジュアルピッカーを使う

ツールバーで ① SSML をクリックしてSSMLパネルを開き、② Break をクリックするとビジュアルピッカーが起動します。タグの構文を覚える必要はありません。プリセットを選ぶか、数値フィールドに値を入力するだけです。

エディタのツールバーで強調表示されたSSMLボタンとBreakボタン
05

クイックプリセット — 200msから5秒まで

Breakモーダルには八つのクイックポーズプリセットが用意されています: 200ms · 300ms · 500ms · 700ms · 1000ms · 1500ms · 2000ms · 5000ms。任意のプリセットを1回クリックすると、対応するブレイクタグがカーソル位置に挿入され、モーダルが閉じます。

クイックポーズセクションが表示されたBreakモーダル
06

手動入力 — 必要な値を自由に

カスタムの長さが必要な場合はManualセクションを使います: ① 秒(0〜30)またはミリ秒(50〜1000)で値を入力し、② Insert をクリックします。指定したタイミングのタグが挿入されます — 例えば <break time="750ms"/> のようにです。

750が入力された手動ms入力欄と強調表示されたInsertボタン

長めの間には秒(1s、2s、5s)、細かい調整にはミリ秒(250ms、600ms、850ms)を使います。

07

グローバルポーズコントロール — 段落と文向け

エディタの下の Settings を開きます。中央の列 — Pause Control — には二つのドロップダウンがあります: ① Pause for paragraphs(デフォルト400ms)は空行で区切られたテキストブロック間の沈黙を制御します。② Pause for sentences(デフォルト300ms)は文末の句読点ごとの間を制御します。

設定パネルのポーズコントロール列で、段落と文のポーズドロップダウンが強調表示されている

範囲は150msから30秒まで。ポッドキャストやオーディオブック、じっくり聴かせるコンテンツには長めの値を、テンポの速い広告やニュースには短めの値を使います。

08

Convert to Speech(音声に変換)

Convert to Speech をクリックします。SpeechGenはツールバーのマーカー、手動のブレイクタグ、グローバルポーズコントロールの設定を組み合わせて、あなたが設定したすべてのポーズを反映してテキストを生成します。下のプレイヤーで結果を聴いてみましょう。

エディタで強調表示されたConvert to Speechボタン
09

スマートキャッシュ — ポーズの編集はゼロコスト

では、ブレイクの長さを一つ変えてみましょう — 例えば <break time="1s"/><break time="3s"/> のように — そしてもう一度Convertをクリックします。結果パネルを見てください: ① Smart Cache 100% が表示され、② 0 Limits の消費となっています。

二回目の結果で強調表示されたスマートキャッシュ100%インジケーターと0 Limitsのメッセージ

SpeechGenはテキストを文単位で音声化し、生成された各チャンクをキャッシュします。ポーズの長さを変更したり、ブレイクタグを追加・編集したりするだけなら、実際の音声チャンク自体は変わりません。それらはキャッシュからゼロコストで提供されます。ペース配分は何度でも調整できます。

結果を聴いてみる

3通りのポーズ方法を全て適用して合成された音声を聴いてみましょう:

ポーズ付きの三つの文 · Amber

約10秒 · ポーズアイコン + ブレイクタグ
この例をエディタで開く

どの方法をいつ使うか

各ポーズ方法には異なる目的があります。組み合わせて使うと自然に響く音声になります。

ツールバーのポーズアイコン( -.)

  • 最速 — ワンクリック、SSMLの知識不要
  • SSML非対応の音声を含む、すべての音声で動作
  • 柔らかく自然なポーズ — タイミングを考える必要なし
  • 最適な用途: 下書き、カジュアルな音声、SSMLタグを受け付けない音声

手動の <break time="..."/>

  • 正確なタイミング — ミリ秒または秒で指定
  • 一度入力すればどこへでもコピー&ペースト可能
  • テキスト内に見える形で残るので、後から見直し編集しやすい
  • 最適な用途: スクリプト化されたコンテンツ、オーディオブック、欲しい間が明確に分かっているとき

SSML Breakモーダル

  • クイックプリセットと手動入力を備えたビジュアルピッカー
  • タグ構文を覚える必要なし
  • 異なる長さを試したいときに便利
  • 最適な用途: 何が合うか探るとき、複数の値を素早く試したいとき

グローバルポーズコントロール(Settings)

  • テキスト中のすべての段落・文に対するデフォルトのポーズ長を設定
  • ひとつのダイヤル — 文書全体に影響
  • インラインのブレイクタグと併用可能(手動のブレイクはグローバル設定を上書きします)
  • 最適な用途: 一貫したペースで進めたい長尺コンテンツ(オーディオブック、ポッドキャスト)

活用シーン

読み上げ速度よりも自然なペース配分が重要となるあらゆる場面で:

オーディオブック&ポッドキャスト

  • 章の切り替えでの長めのブレイク(1.5〜3秒)
  • 対話シーン — ドラマチックなセリフの前のポーズ
  • 内省的な箇所 — 雰囲気を出すための長めの段落ポーズ

教育&研修

  • 重要な概念の後の理解のためのポーズ(リスナーが吸収できるように)
  • クイズのタイミング — 各問題の後に考える時間としての沈黙
  • 語学ドリル — リピート練習のための正確な秒数のポーズ

ナレーション&広告

  • 重要な行動喚起の前のひと呼吸
  • オチのタイミング — コメディ向けの短いブレイク
  • ブランド読み上げ — ブランド名の周りのきれいな間

IVR&電話システム

  • メニューオプション間のポーズ(リスナーが押せるように)
  • データ入力プロンプト中の待ち時間
  • 音声で読み上げた数字の後の確認用ポーズ
SpeechGen.ioで作成 · これでTTSのポーズを制御する4つの方法と、スマートキャッシュでポーズの調整が無料になる仕組みを理解できました。長い生成結果を別ファイルに分割するには Audio Cut タグと組み合わせ、韻律・強調・音素の制御にはSSMLパネルと組み合わせて使えます。

注: 一部のスクリーンショットに小さな管理パネルが表示されることがあります。これは社内向けの内部ツールで、お客様のアカウントでは表示されません。

当ウェブサイトでは、最高の体験を提供するためにクッキーを使用しています。詳細については、プライバシーポリシーをご覧ください。

クッキーを許可