22-09-2025 , 22-09-2025
Speechgenは、テキスト読み上げ変換の時間とコストを大幅に削減する独自の経済的なキャッシュ機能を備えています。この記事では、この機能がどのように機能し、その利点、そして音声制作の際にどのように節約できるかを探ります。
音声を合成する際、Speechgenは各文の結果を記憶します。例えば:
20のレッスンからなる教育コースの音声制作に取り組んでいると想像してください。作業完了後、各レッスンに短い紹介文を追加することにしました。通常のサービスでは、教材全体を再度音声化する必要があり、多額の費用がかかります。Speechgenを使用すると、新しい紹介文の音声化に対してのみ支払いが発生し、リソースと時間を節約できます。
Speechgenと他のサービスとの比較をご覧ください:
例 |
他のTTS |
Speechgen |
例 #1:30文 |
100%の費用 |
100%の費用 |
例 #2:30文 + 新規10文 |
100%の費用 |
25%の費用 |
他の音声合成サービスでは、すべての音声化に対して100%の費用が発生します。Speechgenでは、新しく追加された文または変更された文のみが音声化されます。表に示すように、繰り返し音声化した場合、Speechgenはテキストの75%が以前に音声化されたコンテンツから取得されたため、100%ではなく総文字数の25%しか使用しませんでした。
これにより、テキストを修正する際の繰り返し費用を心配する必要がなくなります。後でテキストに戻って作業することができます。
これを超える場合、大量のテキストをより速く音声化するためのブックモードが使用され、文単位ではなく大きなテキストブロックで処理されます。Speechgenは一度に最大2,000,000文字まで音声化できますが、経済的なキャッシュは最大100,000文字まで機能します。
音声化された文は、メモリにわずか1週間保存されます。音声化の追加や修正には7日間あります。
さらに、プロフィールでは、完全な音声化履歴が30日間保存されます。これは、30日以内であればテキストとファイルをすべてダウンロードできることを意味します。ただし、キャッシュ自体は7日間しか保存されません。
例えば、25日後に音声化に追加することにした場合、プロジェクト全体に対して制限が再度差し引かれます。音声化をお気に入りとして保存すると、オーディオとテキストを永久に保持できますが、キャッシュは依然として7日間しか保存されません。
テキストとオーディオファイルはプロフィールに保存されますが、キャッシュは保存されないため、作業中はこれを念頭に置いてください。
キャッシュは変更されていない文に対してのみ機能します。文に1文字でも変更を加えたり、句読点を削除したりすると、システムはそれを新しいものとして扱います。
元のテキスト:
新しい文の追加:
結果:Speechgenは最初の3文をキャッシュから取得し、4番目の文のみを音声化します。費用は4番目の文に対してのみ発生します。
元のテキスト:
2番目の文の単語を1つ変更:
結果:Speechgenは最初の文と3番目の文をキャッシュから取得しますが、2番目の文を再度音声化します。
元のテキスト:
3番目の文の句読点を削除:
結果:Speechgenは3番目の文を再音声化し、最初の文と2番目の文をキャッシュから取得します。句読点の削除により、3番目の文は変更されたとみなされます。
breakのような新しい一時停止タグを追加した場合も、文の変更とみなされます。システムはそれを再解析して再音声化します。
<break time="200ms"/>
実際、文は完全一致で経済的なキャッシュから取得されます。文に新しい文字があったり、文字が欠けていたりすると、プログラムは正確に一致させることができません。
速度やトーンの設定を変更した場合、それは完全に新しい音声化となり、経済的なキャッシュは機能しません。速度やトーンを変更すると、ニューラルネットワークはこれらの新しいパラメータでテキストを再音声化します。これはソフトウェアによる速度変更やトーン変更ではなく、完全な再音声化です。
話者の変更も完全な再音声化につながります。ここでは、ニューラルネットワークがすべての作業を再度行います。したがって、声を調整する場合は、1〜2文で行い、速度とトーンに満足したら、希望するテキスト全体を音声化してください。
この特別なページ https://speechgen.io/ja/subs/ では、字幕を音声化できます。タイミングに合わせるために、必要なタイミングに合わせるために音声速度を上げる必要があることがよくあります。この場合、Speechgenが最初に音声化し、その後プログラムで字幕の速度を上げるため、経済的なキャッシュが機能します。
音声化フィールドの下の設定で一時停止を変更できます。キャッシュは完全に機能します。文全体をメモリに保存し、システムがそれらをオーディオに結合します。このようにして、追加費用なしで文間または段落間の一時停止を調整できます。
異なるフォーマット(ogg、wav、opus)を選択して再音声化を押した場合、システムは制限を請求しません。これは無料です。音声化してから別のフォーマットが必要だと気づいた場合でも、二重請求を恐れることなく変更してください。
設定でサンプルレートを変更して再度再音声化を押した場合、システムは制限を請求しません。これは無料です。
Speechgenの経済的なキャッシュシステムは、大きな利点を提供します:
Speechgenはリソースを節約し、オーディオコンテンツをより効率的に作業するためのツールを提供するため、音声合成における効率と品質を重視するユーザーにとって理想的な選択肢となります。