如何使用 SpeechGen.io 的文本转语音功能：完整指南

08-09-2025 , 16-09-2025

🚀 快速入门 — 4 步创建音频

第 1 步：选择语言

打开语言下拉菜单，选择您文本的语言。支持的语言：超过 150 种语言（AI 语音库）。

第 2 步：选择语音

选择语言后，将出现语音列表。试听样本并选择您喜欢的语音。

第 3 步：粘贴文本

将您的文本复制到文本框中，或上传文件（DOCX、PDF）。要将字幕转换为语音，请使用专门的 SRT 转语音页面。

第 4 步：点击“生成语音”（蓝色按钮）

第 4 步：点击生成语音

等待处理，然后下载您准备好的音频文件。

就是这样！您可以在几分钟内完成第一个配音。

文本准备

避免：

表情符号和颜文字（可能会干扰音频生成）
特殊符号：✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
特殊 Unicode 符号：

💡 提示：从 PDF 文件复制时，请特别注意文本 — 可能会出现不可见的字符，这会破坏音频！

限制和约束

支持的语言：150 多种语言（完整列表）。
上传格式：纯文本、DOCX、PDF、SRT。

每次生成最大字符数：2,000,000 个字符（约 285,000-330,000 个单词）— 这是您可以在一次生成中转换成语音的惊人文本量，非常适合书籍或大量文档等长篇内容。

详细的分步说明

第 1 步：上传文本

粘贴文本：将您的文本复制到文本框中
上传文件：或点击上传按钮并选择文件（DOCX、PDF）
检查文本：确保文本显示正确

第 2 步：选择语言

⚠️ 重要提示：首先为您的文本选择正确的语言

打开语言下拉列表
找到所需的语言（提供 150 多种语言）
对于多语言文本，请使用多语音频生成

第 3 步：选择语音

选择语言后，将打开可用语音列表。通过点击每种语音的播放按钮来试听样本，找到最适合您需求的语音。您会看到不同的语音类型：常规语音提供标准质量，PRO 语音提供改进的质量和自然度，多语言语音（标有 Ava_US、Ava_ES 等语言代码）允许您在不同语言之间保持语音一致性。花时间预览每种语音，因为它们的音调、情感和个性差异很大。

第 4 步：配置参数

语速：从 x0.1（非常慢）到 x2.2（非常快）
音高：从 -20 到 +20（步长为 2）

在文本框下方、生成按钮上方，您可以调整停顿设置：

停顿设置

句子之间的停顿：150 毫秒 - 30 秒
段落之间的停顿：150 毫秒 - 30 秒

第 5 步：生成语音

点击文本框下方的“生成语音”按钮开始转换过程。处理时间取决于您的文本长度 — 较短的文本在几秒钟内完成，而较长的文档可能需要几分钟。生成完成后，您可以在浏览器中直接收听结果，以确保它符合您的期望。

第 6 步：下载

生成完成后，将出现一个“下载”按钮。默认情况下，您可以直接将文件下载为 MP3 格式。但是，如果您需要其他格式（WAV 或 OPUS）或想更改音频质量（采样率从 8000 到 44000 Hz），您需要先从下拉菜单中选择这些选项，然后使用您选择的设置重新生成语音，最后下载您首选规格的文件。

音频参数设置

语速

语速比例：

x0.1 - x0.9：减速（适用于复杂材料、语言学习）
x1.0：正常速度（默认）
x1.1 - x2.2：加速（适用于动态内容）

此比例的意义：小于 1 的小数表示减慢语速，大于 1 的表示加快语速。这允许您为听众精确选择语速。

语速建议：

教育：x0.8-x1.0（为了更好地理解）
演示：x0.9-x1.1（正式节奏）
播客：x1.0-x1.2（生动节奏）
YouTube：x1.1-x1.4（吸引注意力）

音高

音高范围：从 -20 到 +20，步长为 2

为什么是步长 2：步长为 2 个单位可以实现明显但不过于尖锐的音高变化。更小的步长可能不明显，更大的步长则过于夸张。

音高影响：

负值（-2 至 -20）：使声音更低沉、更严肃、更有权威感
正值（+2 至 +20）：使声音更高亢、更友好、更有活力
0：中性音高（默认）

应用场景：

商务内容：-4 至 +2
儿童内容：+4 至 +12
戏剧内容：-8 至 -16
友好内容：+2 至 +8

处理停顿

自动停顿

句子之间的停顿：300 毫秒（默认）

段落之间的停顿：400 毫秒（默认）

这些设置可以在下拉菜单中从 150 毫秒更改到 30 秒。

手动插入停顿

通过界面：

将光标放在文本中的所需位置
点击菜单中的“停顿”按钮
文本中将出现符号 .-

通过标签：

在所需位置插入标签 <break time="200ms"/> 或 <break time="2s"/>

停顿规则：

最大停顿：30 秒
可以连续放置多个停顿以获得更长的延迟
停顿不消耗额外限制

何时使用停顿：

在重要陈述之前
在反问句之后
在不同主题之间
营造戏剧效果

多语音频

该对话功能允许在一篇文本中使用不同的语音。

应用场景：

有声读物：为不同角色使用不同语音
教育对话：师生对话
演示：主讲人和评论员
播客：多位主持人

多语音对话功能为角色语音之外的创意提供了可能性。例如，外语教师可以使用此功能以不同的语速演示同一短语，以帮助学生掌握不同理解水平的发音。有关详细技术和课堂应用，请参阅我们关于将文本转语音用于外语教学的指南。

语音选择

多语言语音

带有语言代码的语音（例如，Ava_US、Ava_ES、Ava_DE）旨在跨不同语言保持一致的语音识别。这些多语言语音使您能够为多语言内容创建统一的风格，确保同一语音角色能够无缝地说多种语言。此功能在对话模式下尤其有用，您可以在其中切换语言，同时在整个音频项目中保持相同的可识别语音个性。

音频分段

SpeechGen 允许您在单个合成项目中将生成的音频分割成多个片段，这对于需要为不同场景或章节创建单独音频文件的视频编辑者来说非常理想。此功能对于为 YouTube 视频、在线课程或任何需要精确音频同步的项目创建配音特别有用。

如何创建分段

要分割音频，只需将光标放在要分割文本的位置，然后点击菜单面板中的剪切按钮。这会在该位置插入一个 <cut/> 标签。您也可以在文本中手动输入或复制粘贴此标签。对于自定义文件名，请使用此格式：

<cut name="your-filename"/>

此功能可帮助您使用有意义的名称组织分段，例如：

<cut name="intro"/>

<cut name="chapter-1"/>

下载和管理分段

添加至少一个分段标签后，生成后会出现一个“下载分段”按钮。点击它可一次性下载所有分段，或使用音频播放器上的“更多”按钮访问单个分段。每个文件都会自动命名，包含唯一的 ID、序列号和描述性标题（例如，“7054789_1_first-sentence”），方便您在编辑软件中识别和组织音频文件。

分段限制

短分段：每次生成最多 1000 个分段
长分段：每次生成最多 500 个分段

对于较大的项目，请分成多次生成。有关全面的说明、高级技术和视频教程，请访问我们的完整音频分段文档。

语调设置

某些语音具有语调图：

语调图适用于在语音名称旁边显示设置图标的语音 — 此功能在语音库中超过一半的语音中可用，包括常规和 PRO 选项。

拖动图上的点以更改语调
向上拖动点以提高某些单词的音高
向下拖动点以营造更严肃的语调
尝试不同的曲线以获得自然感

拖动图上的点以更改语调

选择要调整语调的句子，然后按语调按钮。将出现此界面。

缓存系统和限制节省

智能缓存

SpeechGen 使用一个智能缓存系统，可以显著节省您的限制。该系统通过将每个句子（最多 100,000 个字符）缓存 7 天来工作。当您重新生成音频时，任何未更改的句子都会免费从缓存中自动检索 — 您只需为新句子或已编辑的句子付费。这意味着您可以对文本进行增量编辑，而无需每次都消耗全部字符配额。项目历史记录保存 30 天，您添加到收藏夹的文件将永久保存。

存储期限：

句子缓存：7 天
项目历史：30 天
收藏夹文件：永久存储

常见问题故障排除

音频质量问题

语音听起来不自然：

尝试 PRO 语音
将语速降低到 x0.9-x1.1
检查标点符号是否正确
使用中性音高（0）

发音不正确：

确保选择了正确的语言
用语音方式拼写复杂单词
使用 SSML 标签进行精确控制

不自然的停顿：

检查标点符号
配置句子之间的停顿
使用手动停顿 .- 或 <break time=""/>
删除多余的空格和换行符

SSML 错误：

检查标签的正确性
并非所有语音都支持所有 SSML 标签

附加功能

SSML（语音合成标记语言）

如需专家级语音控制，请使用 SSML 标签：

<break time="2s"/> — 停顿
<emphasis level="strong"> — 语音强调
<prosody rate="slow" pitch="low"> — 更改语音特征

⚠️ 注意：不同的语音支持不同的 SSML 标签集。请测试每个特定语音的功能。

历史记录和收藏夹

项目历史：自动保存 30 天
收藏夹：添加重要项目以永久存储

集成和 API

API 可供开发人员使用，用于将 SpeechGen.io 集成到他们自己的应用程序和服务中。

我的文件无法上传到 SpeechGen。我该怎么办？

首先，请检查您的文件是否为支持的格式（DOCX、PDF 或 TXT）。确保文件未损坏，然后重试上传。如果问题仍然存在，请手动复制文本并直接粘贴到文本框中。同时，请验证您的文件大小是否未超过平台限制。

SpeechGen 会保留我的生成音频文件多长时间？

您的项目历史记录会自动保存 30 天。智能缓存（用于句子级别的保存）有效期为 7 天。要永久保留文件，请将其添加到您的收藏夹。这样可以确保您重要的音频项目永远不会丢失，并且在您的个人资料中保持可访问状态。

我可以在一个音频文件中为不同的角色使用不同的语音吗？

是的！SpeechGen 提供多语音频生成（对话模式）。您可以为不同的文本部分分配不同的语音，这非常适合具有多个角色的有声读物、教育对话或具有多个发言人的播客。您甚至可以使用多语言语音在不同语言之间切换，同时保持角色一致性。

SpeechGen 中的常规语音和 PRO 语音有什么区别？

与常规语音相比，PRO 语音提供更优质、更自然的音效。它们通常具有更好的情感表达、更准确的发音，并且一些 PRO 语音支持语调图等高级功能。对于有声读物、课程或商务演示等专业项目，建议使用 PRO 语音。

更改音频设置会消耗我的字符限制吗？

这取决于您更改了哪些设置。调整语速或音高需要完全重新生成，并且会消耗您的字符限制，因为这些更改会影响整个语音合成。但是，您可以自由修改句子和段落之间的停顿，而不会消耗任何限制。此外，SpeechGen 使用智能缓存：如果您生成了一个长文本，然后只编辑了一个句子并重新生成，系统只会向您收取该单个更改句子的费用，而不是整个文本。此缓存系统会将您未更改的句子缓存 7 天，使迭代编辑非常经济高效。

视频

仍有疑问？

从我们的社区获取帮助！在我们的 Telegram 聊天中提问：https://t.me/speechgen