通过独家智能缓存技术，实现无额外成本的文本转语音合成

11-11-2024 , 11-11-2024

Speechgen 提供了一项独特的经济型缓存功能，能够显著减少文本转语音转换的时间和成本。本文将探讨该功能的运作原理、其优势，以及如何帮助您在配音时节省成本。

经济型缓存的工作原理

当您进行语音合成时，Speechgen 会记住每个句子的合成结果。例如：

您为30个句子配音。
然后再添加了10个句子并再次配音。
Speechgen 会从内存中提取之前已配音的30个句子，针对10个新句子进行配音，并将它们合并到一个文件中。

优势：

缩短配音时间
节省已配音句子的使用限制

使用示例

假设您正在为一个包含20课的教育课程进行配音。完成工作后，您决定为每堂课添加简短的介绍。使用常规服务，您可能需要重新为全部材料进行配音，这会导致巨大的成本。而使用Speechgen，您只需支付新增的介绍部分的配音费用，从而节省资源和时间。

以下是Speechgen与其他服务的对比：

示例	其他TTS服务	Speechgen
示例#1：30个句子	100%成本	100%成本
示例#2：30个句子+10个新句子	100%成本	25%成本

与其他语音合成服务不同的是，每次配音都会产生您已配音内容的100%成本。而使用Speechgen，只有新增或更改过的句子会重新配音。如表中所示，在重复配音情况下，Speechgen只使用了 25% 的总字符数，而不是100%，因为 75% 的文本来自之前已配音的内容。

这意味着即使您需要修改文本，您也无需担心重复成本。您可以随时返回修改文本并继续操作。

条款与限制

文本量：相同设置和发言人最多支持100,000字符。
缓存存储时间：经济型缓存最多保存1周。
缓存单位：保存的是完整句子，而非单个单词。

详细操作

最多100,000字符文本

超过此字符数时，将使用“书籍模式”来加快大文本的配音处理，以大块文本而非单句处理。Speechgen最多可一次性配音2,000,000字符，但经济型缓存适用于100,000字符以下的文本。

经济型缓存保存1周

配音的句子仅在内存中保存1周。您有7天时间补充或修改配音。

此外，在您的个人资料中，完整的配音历史将保存30天。这意味着在30天内，您可以下载整篇文本和对应的音频文件。然而缓存本身仅保存7天。

如果您决定例如在25天后对配音进行补充，整个项目将再次从新计算使用限制。通过将配音保存在收藏夹中，您可以永久保存音频和文本，但缓存仍旧只会保存7天。

请注意，文本和音频文件会保存在您的个人资料中，但缓存不会，因此在操作时请留意这一点。

什么算作文本变更

缓存仅适用于未更改的句子。如果您更改了一个字母或删除了句子中的逗号，系统将认为这是一条新句子。

示例

添加新句子：

原始文本：

人工智能正在改变世界。
科技以惊人的速度进步。
我们所期待的未来已经到来。

添加了一条新句子：

我们必须为变化做好准备。

结果：Speechgen从缓存中提取前三句，并且只对第四句进行配音。费用只针对第四句产生。

更改一个单词：

原始文本：

人工智能正在改变世界。
科技以惊人的速度进步。
我们所期待的未来已经到来。

更改第二句的一个单词：

科技以令人惊讶的速度进步。

结果：Speechgen从缓存中提取第一句和第三句，但需要重新配音第二句。

移除逗号：

原始文本：

人工智能正在改变世界。
科技以惊人的速度进步。
我们，所期待的未来，已经到来。

移除第三句中的逗号：

我们所期待的未来已经到来。

结果：Speechgen需要重新配音第三句，而从缓存中提取第一句和第二句。由于删除了逗号，第三句被视为已更改。

额外更改

添加<break>

如果您添加了一个新暂停标签（如break)，系统也会视此为对该句子的更改，程序将重新分析并重新配音。

<break time="200ms"/>

实际上，系统是字符对字符进行完全匹配来从经济缓存中检索句子的。如果句子中有任何新的字符或缺少字符，程序将无法精确匹配。

更改语速、音调和发言人

如果您更改语速或音调设置，系统会认为这是完全新的配音，经济型缓存不再适用。当您更改语速或音调时，神经网络会根据新参数重新生成语音。这并非简单的软件加速或音调变更，而是一次全新的配音。

更改发言人同样会导致全新配音。在这种情况下，神经网络会重新运作。因此，如果您调整语音，建议先针对1-2个句子进行调整，直到满意之后再配音完整文本。

可以更改的内容

加速或减慢字幕配音

在这个专门页面https://speechgen.io/zh/subs/上，您可以为字幕配音。为了满足时间要求，通常需要加快语速以达到正确的时长。在这种情况下，经济型缓存仍然可以使用，因为Speechgen会首先配音，然后程序上加快字幕的效果。

更改设置中的停顿时间

您可以更改语音框下的停顿设置，缓存也可以正常工作。我们会将完整的句子保存到内存中，系统随后将它们合并为音频文件。因此您可以调整句子或段落之间的停顿时间，而不会产生额外费用。

更改格式

如果您选择了不同的格式——ogg、wav、opus——然后按下重新生成键，系统不会扣除您的配额。这是免费的。如果您配音后发现需要不同的格式，可以放心更改，不用担心双倍成本。

改变采样率

如果您在设置中更改了采样率并再次按重新生成，系统不会扣除您的配额。这是免费的。

结论

Speechgen 的经济型缓存系统带来了显著的优势：

节约资源：只需为新的内容付费，而不是为整个文本再次付费。
工作更快：重复配音更为迅速。
灵活性：轻松实验文本，而不用担心额外费用。

Speechgen 节省您的资源并提供让音频内容工作得更有效率的工具，是那些重视效率与语音合成质量人员的理想选择。

说明

通过独家智能缓存技术，实现无额外成本的文本转语音合成

经济型缓存的工作原理

优势：

使用示例

条款与限制

详细操作

最多100,000字符文本

经济型缓存保存1周

什么算作文本变更

示例

添加新句子：

更改一个单词：

移除逗号：

额外更改

添加<break>

更改语速、音调和发言人

可以更改的内容

加速或减慢字幕配音

更改设置中的停顿时间

更改格式

改变采样率

结论

支持

内容