11-11-2024 , 11-11-2024
Speechgen 提供了一项独特的经济型缓存功能,能够显著减少文本转语音转换的时间和成本。本文将探讨该功能的运作原理、其优势,以及如何帮助您在配音时节省成本。
当您进行语音合成时,Speechgen 会记住每个句子的合成结果。例如:
假设您正在为一个包含20课的教育课程进行配音。完成工作后,您决定为每堂课添加简短的介绍。使用常规服务,您可能需要重新为全部材料进行配音,这会导致巨大的成本。而使用Speechgen,您只需支付新增的介绍部分的配音费用,从而节省资源和时间。
以下是Speechgen与其他服务的对比:
示例 |
其他TTS服务 |
Speechgen |
示例#1:30个句子 |
100%成本 |
100%成本 |
示例#2:30个句子+10个新句子 |
100%成本 |
25%成本 |
与其他语音合成服务不同的是,每次配音都会产生您已配音内容的100%成本。而使用Speechgen,只有新增或更改过的句子会重新配音。如表中所示,在重复配音情况下,Speechgen只使用了 25% 的总字符数,而不是100%,因为 75% 的文本来自之前已配音的内容。
这意味着即使您需要修改文本,您也无需担心重复成本。您可以随时返回修改文本并继续操作。
超过此字符数时,将使用“书籍模式”来加快大文本的配音处理,以大块文本而非单句处理。Speechgen最多可一次性配音2,000,000字符,但经济型缓存适用于100,000字符以下的文本。
配音的句子仅在内存中保存1周。您有7天时间补充或修改配音。
此外,在您的个人资料中,完整的配音历史将保存30天。这意味着在30天内,您可以下载整篇文本和对应的音频文件。然而缓存本身仅保存7天。
如果您决定例如在25天后对配音进行补充,整个项目将再次从新计算使用限制。通过将配音保存在收藏夹中,您可以永久保存音频和文本,但缓存仍旧只会保存7天。
请注意,文本和音频文件会保存在您的个人资料中,但缓存不会,因此在操作时请留意这一点。
缓存仅适用于未更改的句子。如果您更改了一个字母或删除了句子中的逗号,系统将认为这是一条新句子。
原始文本:
添加了一条新句子:
结果:Speechgen从缓存中提取前三句,并且只对第四句进行配音。费用只针对第四句产生。
原始文本:
更改第二句的一个单词:
结果:Speechgen从缓存中提取第一句和第三句,但需要重新配音第二句。
原始文本:
移除第三句中的逗号:
结果:Speechgen需要重新配音第三句,而从缓存中提取第一句和第二句。由于删除了逗号,第三句被视为已更改。
如果您添加了一个新暂停标签(如break),系统也会视此为对该句子的更改,程序将重新分析并重新配音。
<break time="200ms"/>
实际上,系统是字符对字符进行完全匹配来从经济缓存中检索句子的。如果句子中有任何新的字符或缺少字符,程序将无法精确匹配。
如果您更改语速或音调设置,系统会认为这是完全新的配音,经济型缓存不再适用。当您更改语速或音调时,神经网络会根据新参数重新生成语音。这并非简单的软件加速或音调变更,而是一次全新的配音。
更改发言人同样会导致全新配音。在这种情况下,神经网络会重新运作。因此,如果您调整语音,建议先针对1-2个句子进行调整,直到满意之后再配音完整文本。
在这个专门页面https://speechgen.io/zh/subs/上,您可以为字幕配音。为了满足时间要求,通常需要加快语速以达到正确的时长。在这种情况下,经济型缓存仍然可以使用,因为Speechgen会首先配音,然后程序上加快字幕的效果。
您可以更改语音框下的停顿设置,缓存也可以正常工作。我们会将完整的句子保存到内存中,系统随后将它们合并为音频文件。因此您可以调整句子或段落之间的停顿时间,而不会产生额外费用。
如果您选择了不同的格式——ogg、wav、opus——然后按下重新生成键,系统不会扣除您的配额。这是免费的。如果您配音后发现需要不同的格式,可以放心更改,不用担心双倍成本。
如果您在设置中更改了采样率并再次按重新生成,系统不会扣除您的配额。这是免费的。
Speechgen 的经济型缓存系统带来了显著的优势:
Speechgen 节省您的资源并提供让音频内容工作得更有效率的工具,是那些重视效率与语音合成质量人员的理想选择。