通过独家智能缓存技术,实现无额外成本的文本转语音合成

, 11-11-2024

Speechgen 提供了一项独特的经济型缓存功能,能够显著减少文本转语音转换的时间和成本。本文将探讨该功能的运作原理、其优势,以及如何帮助您在配音时节省成本。

经济型缓存的工作原理

当您进行语音合成时,Speechgen 会记住每个句子的合成结果。例如

  • 您为30个句子配音。
  • 然后再添加了10个句子并再次配音。
  • Speechgen 会从内存中提取之前已配音的30个句子,针对10个新句子进行配音,并将它们合并到一个文件中。

优势:

  • 缩短配音时间
  • 节省已配音句子的使用限制

使用示例

假设您正在为一个包含20课的教育课程进行配音。完成工作后,您决定为每堂课添加简短的介绍。使用常规服务,您可能需要重新为全部材料进行配音,这会导致巨大的成本。而使用Speechgen,您只需支付新增的介绍部分的配音费用,从而节省资源和时间。

以下是Speechgen与其他服务的对比:

示例

其他TTS服务

Speechgen

示例#1:30个句子

100%成本

100%成本

示例#2:30个句子+10个新句子

100%成本

25%成本

与其他语音合成服务不同的是,每次配音都会产生您已配音内容的100%成本。而使用Speechgen,只有新增或更改过的句子会重新配音。如表中所示,在重复配音情况下,Speechgen只使用了 25% 的总字符数,而不是100%,因为 75% 的文本来自之前已配音的内容。

这意味着即使您需要修改文本,您也无需担心重复成本。您可以随时返回修改文本并继续操作。

条款与限制

  • 文本量:相同设置和发言人最多支持100,000字符。
  • 缓存存储时间:经济型缓存最多保存1周。
  • 缓存单位:保存的是完整句子,而非单个单词。

详细操作

最多100,000字符文本

超过此字符数时,将使用“书籍模式”来加快大文本的配音处理,以大块文本而非单句处理。Speechgen最多可一次性配音2,000,000字符,但经济型缓存适用于100,000字符以下的文本。

经济型缓存保存1周

配音的句子仅在内存中保存1周。您有7天时间补充或修改配音。

此外,在您的个人资料中,完整的配音历史将保存30天。这意味着在30天内,您可以下载整篇文本和对应的音频文件。然而缓存本身仅保存7天。

如果您决定例如在25天后对配音进行补充,整个项目将再次从新计算使用限制。通过将配音保存在收藏夹中,您可以永久保存音频和文本,但缓存仍旧只会保存7天。

请注意,文本和音频文件会保存在您的个人资料中,但缓存不会,因此在操作时请留意这一点。

什么算作文本变更

缓存仅适用于未更改的句子。如果您更改了一个字母或删除了句子中的逗号,系统将认为这是一条新句子。

示例

添加新句子:

原始文本:

  • 人工智能正在改变世界。
  • 科技以惊人的速度进步。
  • 我们所期待的未来已经到来。

添加了一条新句子:

  • 我们必须为变化做好准备。

结果:Speechgen从缓存中提取前三句,并且只对第四句进行配音。费用只针对第四句产生。

更改一个单词:

原始文本:

  • 人工智能正在改变世界。
  • 科技以惊人的速度进步。
  • 我们所期待的未来已经到来。

更改第二句的一个单词:

  • 科技以令人惊讶的速度进步。

结果:Speechgen从缓存中提取第一句和第三句,但需要重新配音第二句。

移除逗号:

原始文本:

  • 人工智能正在改变世界。
  • 科技以惊人的速度进步。
  • 我们所期待的未来已经到来。

移除第三句中的逗号:

  • 我们所期待的未来已经到来。

结果:Speechgen需要重新配音第三句,而从缓存中提取第一句和第二句。由于删除了逗号,第三句被视为已更改。

额外更改

添加<break>

如果您添加了一个新暂停标签(如break),系统也会视此为对该句子的更改,程序将重新分析并重新配音。

<break time="200ms"/>

实际上,系统是字符对字符进行完全匹配来从经济缓存中检索句子的。如果句子中有任何新的字符或缺少字符,程序将无法精确匹配。

更改语速、音调和发言人

如果您更改语速或音调设置,系统会认为这是完全新的配音,经济型缓存不再适用。当您更改语速或音调时,神经网络会根据新参数重新生成语音。这并非简单的软件加速或音调变更,而是一次全新的配音。

更改发言人同样会导致全新配音。在这种情况下,神经网络会重新运作。因此,如果您调整语音,建议先针对1-2个句子进行调整,直到满意之后再配音完整文本。

可以更改的内容

加速或减慢字幕配音

在这个专门页面https://speechgen.io/zh/subs/上,您可以为字幕配音。为了满足时间要求,通常需要加快语速以达到正确的时长。在这种情况下,经济型缓存仍然可以使用,因为Speechgen会首先配音,然后程序上加快字幕的效果。

更改设置中的停顿时间

您可以更改语音框下的停顿设置,缓存也可以正常工作。我们会将完整的句子保存到内存中,系统随后将它们合并为音频文件。因此您可以调整句子或段落之间的停顿时间,而不会产生额外费用。

更改格式

如果您选择了不同的格式——ogg、wav、opus——然后按下重新生成键,系统不会扣除您的配额。这是免费的。如果您配音后发现需要不同的格式,可以放心更改,不用担心双倍成本。

改变采样率

如果您在设置中更改了采样率并再次按重新生成,系统不会扣除您的配额。这是免费的。

结论

Speechgen 的经济型缓存系统带来了显著的优势:

  • 节约资源:只需为新的内容付费,而不是为整个文本再次付费。
  • 工作更快:重复配音更为迅速。
  • 灵活性:轻松实验文本,而不用担心额外费用。

Speechgen 节省您的资源并提供让音频内容工作得更有效率的工具,是那些重视效率与语音合成质量人员的理想选择。

我们使用Cookie来确保您在我们的网站上获得最佳体验。了解更多:隐私政策

接受Cookies