08-09-2025 , 16-09-2025
打开语言下拉菜单,选择您文本的语言。 支持的语言:超过 150 种语言(AI 语音库)。
选择语言后,将出现语音列表。试听样本并选择您喜欢的语音。
将您的文本复制到文本框中,或上传文件(DOCX、PDF)。 要将字幕转换为语音,请使用专门的 SRT 转语音页面。
等待处理,然后下载您准备好的音频文件。
就是这样!您可以在几分钟内完成第一个配音。
💡 提示:从 PDF 文件复制时,请特别注意文本 — 可能会出现不可见的字符,这会破坏音频!
每次生成最大字符数:2,000,000 个字符(约 285,000-330,000 个单词)— 这是您可以在一次生成中转换成语音的惊人文本量,非常适合书籍或大量文档等长篇内容。
⚠️ 重要提示:首先为您的文本选择正确的语言
选择语言后,将打开可用语音列表。通过点击每种语音的播放按钮来试听样本,找到最适合您需求的语音。您会看到不同的语音类型:常规语音提供标准质量,PRO 语音提供改进的质量和自然度,多语言语音(标有 Ava_US、Ava_ES 等语言代码)允许您在不同语言之间保持语音一致性。花时间预览每种语音,因为它们的音调、情感和个性差异很大。
在文本框下方、生成按钮上方,您可以调整停顿设置:
点击文本框下方的“生成语音”按钮开始转换过程。处理时间取决于您的文本长度 — 较短的文本在几秒钟内完成,而较长的文档可能需要几分钟。生成完成后,您可以在浏览器中直接收听结果,以确保它符合您的期望。
生成完成后,将出现一个“下载”按钮。默认情况下,您可以直接将文件下载为 MP3 格式。但是,如果您需要其他格式(WAV 或 OPUS)或想更改音频质量(采样率从 8000 到 44000 Hz),您需要先从下拉菜单中选择这些选项,然后使用您选择的设置重新生成语音,最后下载您首选规格的文件。
语速比例:
此比例的意义:小于 1 的小数表示减慢语速,大于 1 的表示加快语速。这允许您为听众精确选择语速。
语速建议:
音高范围:从 -20 到 +20,步长为 2
为什么是步长 2:步长为 2 个单位可以实现明显但不过于尖锐的音高变化。更小的步长可能不明显,更大的步长则过于夸张。
音高影响:
应用场景:
句子之间的停顿:300 毫秒(默认)
段落之间的停顿:400 毫秒(默认)
这些设置可以在下拉菜单中从 150 毫秒更改到 30 秒。
通过界面:
通过标签:
在所需位置插入标签 <break time="200ms"/> 或 <break time="2s"/>
停顿规则:
何时使用停顿:
该 对话功能允许在一篇文本中使用不同的语音。
多语音对话功能为角色语音之外的创意提供了可能性。例如,外语教师可以使用此功能以不同的语速演示同一短语,以帮助学生掌握不同理解水平的发音。有关详细技术和课堂应用,请参阅我们关于将文本转语音用于外语教学的指南。
带有语言代码的语音(例如,Ava_US、Ava_ES、Ava_DE)旨在跨不同语言保持一致的语音识别。这些多语言语音使您能够为多语言内容创建统一的风格,确保同一语音角色能够无缝地说多种语言。此功能在对话模式下尤其有用,您可以在其中切换语言,同时在整个音频项目中保持相同的可识别语音个性。
SpeechGen 允许您在单个合成项目中将生成的音频分割成多个片段,这对于需要为不同场景或章节创建单独音频文件的视频编辑者来说非常理想。此功能对于为 YouTube 视频、在线课程或任何需要精确音频同步的项目创建配音特别有用。
要分割音频,只需将光标放在要分割文本的位置,然后点击菜单面板中的剪切按钮。这会在该位置插入一个 <cut/> 标签。您也可以在文本中手动输入或复制粘贴此标签。对于自定义文件名,请使用此格式:
<cut name="your-filename"/>
此功能可帮助您使用有意义的名称组织分段,例如:
<cut name="intro"/>
<cut name="chapter-1"/>
添加至少一个分段标签后,生成后会出现一个“下载分段”按钮。点击它可一次性下载所有分段,或使用音频播放器上的“更多”按钮访问单个分段。每个文件都会自动命名,包含唯一的 ID、序列号和描述性标题(例如,“7054789_1_first-sentence”),方便您在编辑软件中识别和组织音频文件。
对于较大的项目,请分成多次生成。有关全面的说明、高级技术和视频教程,请访问我们的完整音频分段文档。
某些语音具有语调图:
语调图适用于在语音名称旁边显示设置图标的语音 — 此功能在语音库中超过一半的语音中可用,包括常规和 PRO 选项。
选择要调整语调的句子,然后按语调按钮。将出现此界面。
SpeechGen 使用一个智能缓存系统,可以显著节省您的限制。该系统通过将每个句子(最多 100,000 个字符)缓存 7 天来工作。当您重新生成音频时,任何未更改的句子都会免费从缓存中自动检索 — 您只需为新句子或已编辑的句子付费。这意味着您可以对文本进行增量编辑,而无需每次都消耗全部字符配额。项目历史记录保存 30 天,您添加到收藏夹的文件将永久保存。
存储期限:
语音听起来不自然:
发音不正确:
不自然的停顿:
SSML 错误:
⚠️ 注意:不同的语音支持不同的 SSML 标签集。请测试每个特定语音的功能。
API 可供开发人员使用,用于将 SpeechGen.io 集成到他们自己的应用程序和服务中。
首先,请检查您的文件是否为支持的格式(DOCX、PDF 或 TXT)。确保文件未损坏,然后重试上传。如果问题仍然存在,请手动复制文本并直接粘贴到文本框中。同时,请验证您的文件大小是否未超过平台限制。
您的项目历史记录会自动保存 30 天。智能缓存(用于句子级别的保存)有效期为 7 天。要永久保留文件,请将其添加到您的收藏夹。这样可以确保您重要的音频项目永远不会丢失,并且在您的个人资料中保持可访问状态。
是的!SpeechGen 提供多语音频生成(对话模式)。您可以为不同的文本部分分配不同的语音,这非常适合具有多个角色的有声读物、教育对话或具有多个发言人的播客。您甚至可以使用多语言语音在不同语言之间切换,同时保持角色一致性。
与常规语音相比,PRO 语音提供更优质、更自然的音效。它们通常具有更好的情感表达、更准确的发音,并且一些 PRO 语音支持语调图等高级功能。对于有声读物、课程或商务演示等专业项目,建议使用 PRO 语音。
这取决于您更改了哪些设置。调整语速或音高需要完全重新生成,并且会消耗您的字符限制,因为这些更改会影响整个语音合成。但是,您可以自由修改句子和段落之间的停顿,而不会消耗任何限制。此外,SpeechGen 使用智能缓存:如果您生成了一个长文本,然后只编辑了一个句子并重新生成,系统只会向您收取该单个更改句子的费用,而不是整个文本。此缓存系统会将您未更改的句子缓存 7 天,使迭代编辑非常经济高效。
从我们的社区获取帮助!在我们的 Telegram 聊天中提问:https://t.me/speechgen