为您的 TTS 添加精准停顿

, 30-04-2026

为您的 TTS 添加精准停顿的三种方式——一键停顿图标、SSML <break> 标签,以及设置中的全局停顿控制——还有智能缓存如何让停顿编辑免费。

为什么停顿很重要 · 没有停顿,句子就会连成一片,听起来像机器人。有了停顿,听众可以与说话者一起呼吸,关键短语得以凸显,您的配音听起来就自然。SpeechGen 提供四种方案,从最快(一键)到最精准(毫秒级间隔),它们可以协同工作。而且由于智能缓存会复用未变化的音频片段,反复调整停顿长度不会消耗任何额外额度。
0:00 / 0:00
完整演示——输入 3 个句子,用三种方式插入停顿,渲染,然后修改一个间隔,看看智能缓存如何返回零额度消耗。
01

从三个短句开始

在编辑器中输入您的文本。使用默认停顿时,句子会连贯地流动——大多数情况下没问题,但有时您需要在关键时刻有更长的呼吸。

02

停顿图标——一键添加柔和间隔

将光标放在需要停顿的位置,然后点击工具栏中的停顿图标。它会在光标处放置一个小标记—— -. ——TTS 引擎会将其读作一个简短而自然的停顿。适用于所有声音,包括不支持完整 SSML 的声音。

编辑器工具栏中高亮显示的停顿图标,标记已插入到句子之间

停顿图标是添加呼吸空间的最快方式——无需 SSML 知识。

03

输入 <break> 标签实现精准控制

要实现精确计时,请自己输入 SSML break 标签:<break time="1s"/> 表示 1 秒,<break time="500ms"/> 表示半秒。可以使用秒(s)或毫秒(ms)——任您选择。

在编辑器中两个句子之间手动输入的 break 标签
04

或打开 SSML 使用可视化选择器

点击工具栏中的 ① SSML 打开 SSML 面板,然后点击 ② Break 启动可视化选择器。无需记住标签语法——选择预设或在数字字段中输入值即可。

编辑器工具栏中高亮显示的 SSML 按钮和 Break 按钮
05

快速预设——200ms 到 5 秒

Break 弹窗打开时带有八种快速停顿预设:200ms · 300ms · 500ms · 700ms · 1000ms · 1500ms · 2000ms · 5000ms。点击任何预设即可在光标处插入相应的 break 标签并关闭弹窗。

显示快速停顿区域的 Break 弹窗
06

手动输入——任何您需要的值

需要自定义时长?使用手动输入区域:在 ① 输入秒数(0-30)或毫秒数(50-1000),然后点击 ② Insert。标签将以您指定的精确时长插入——例如 <break time="750ms"/>

手动毫秒输入框填入 750,Insert 按钮被高亮

长间隔用秒(1s、2s、5s)。精细控制用毫秒(250ms、600ms、850ms)。

07

全局停顿控制——针对段落和句子

打开编辑器下方的设置。中间一栏——停顿控制——有两个下拉菜单:① 段落停顿(默认 400ms)控制由空行分隔的文本块之间的静默;② 句子停顿(默认 300ms)控制每个句末标点之后的间隔。

设置面板中的停顿控制栏,段落和句子停顿下拉菜单被高亮

范围:150ms 到 30 秒。播客、有声书或沉思类内容请使用更长的值——快节奏广告或新闻请使用较短的值。

08

转换为语音

点击 Convert to Speech。SpeechGen 将渲染包含您设置的所有停顿的文本——工具栏标记、手动 break 标签和全局停顿控制设置——所有这些综合生效。在下方的播放器中聆听结果。

编辑器中高亮显示的 Convert to Speech 按钮
09

智能缓存——停顿编辑零成本

现在更改一个 break 时长——例如,<break time="1s"/><break time="3s"/>——然后再次点击 Convert。注意结果面板:① 智能缓存 100% 出现,② 0 额度消耗。

第二个结果上高亮显示的智能缓存 100% 指示器和 0 额度消息

SpeechGen 按句子合成文本;每个生成的片段都会被缓存。当您只更改停顿时长或添加/编辑 break 标签时,实际的音频片段并未改变——它们以零成本从缓存中提供。您可以随心所欲地反复调整节奏。

结果

试听应用了全部三种停顿方式的合成音频:

三个带停顿的句子 · Amber

约 10 秒 · 停顿图标 + break 标签
在编辑器中打开此示例

何时使用哪种方式

每种停顿方式都有不同的用途。结合使用可获得自然听感的语音。

工具栏停顿图标( -.

  • 最快——一键搞定,无需 SSML 知识
  • 适用于所有声音,包括不支持 SSML 的声音
  • 柔和、自然的停顿——无需考虑时长
  • 最适合:草稿、随意语音、不接受 SSML 标签的声音

手动 <break time="..."/>

  • 精确时长——毫秒或秒
  • 输入一次,可随处复制粘贴
  • 在文本中可见——便于扫读和后续编辑
  • 最适合:脚本内容、有声书、当您知道想要的精确节拍时

SSML Break 弹窗

  • 带快速预设和手动输入的可视化选择器
  • 无需记住标签语法
  • 尝试不同时长时很有用
  • 最适合:探索哪种效果最好,快速尝试多个值

全局停顿控制(设置)

  • 为文本中的每个段落和每个句子设置默认停顿长度
  • 一个开关——影响整个文档
  • 与内联 break 标签协同工作(您的手动间隔会覆盖全局设置)
  • 最适合:长篇内容(有声书、播客),需要保持一致的节奏

何时使用

凡是自然节奏比纯粹的文本转语音速度更重要的场景:

有声书与播客

  • 章节过渡使用较长的间隔(1.5-3 秒)
  • 对话场景——戏剧性台词前的停顿
  • 反思段落——较慢的段落停顿营造氛围

教育与培训

  • 关键概念之后的理解停顿(让听众消化)
  • 测验计时——每个问题之后的静默用于思考
  • 语言练习——精确秒数的停顿用于跟读练习

配音与广告

  • 关键号召前的节拍
  • 笑点时机——喜剧用的小间隔
  • 品牌朗读——品牌名称周围的整洁间距

IVR 与电话系统

  • 菜单选项之间的停顿(让听众有时间按键)
  • 数据录入提示期间的等待节拍
  • 朗读数字之后的确认停顿
由 SpeechGen.io 制作 · 您现在已了解控制 TTS 停顿的四种方式,以及智能缓存如何让停顿迭代免费。可与 音频切分标签结合,将长篇渲染拆分为多个文件,或与 SSML 面板结合实现韵律、强调和音素控制。

注意:某些截图中可能出现一个小型管理面板——那是仅对工作人员可见的内部工具。您在自己的账户中不会看到它。

我们使用Cookie来确保您在我们的网站上获得最佳体验。了解更多:隐私政策

接受Cookies