22-09-2025 , 22-09-2025
Speechgen ofrece una característica única de caché económica que reduce significativamente el tiempo y los costos de conversión de texto a voz. En este artículo, exploraremos cómo funciona esta característica, sus beneficios y cómo te ayuda a ahorrar durante las locuciones.
Cuando sintetizas voz, Speechgen recuerda el resultado de cada frase. Por ejemplo:
Imagina que estás trabajando en la locución de un curso educativo con 20 lecciones. Después de terminar el trabajo, decides añadir una breve introducción a cada lección. Con un servicio normal, tendrías que volver a locutar todo el material, lo que generaría costos significativos. Con Speechgen, solo pagarás por la locución de las nuevas introducciones, ahorrando recursos y tiempo.
Aquí tienes una comparación de Speechgen con otros servicios:
Ejemplo |
Otros TTS |
Speechgen |
Ejemplo #1: 30 frases |
100% de costo |
100% de costo |
Ejemplo #2: 30 frases + 10 nuevas |
100% de costo |
25% de costo |
Con otros servicios de síntesis de voz, cada locución incurre en un costo del 100% de todo lo que has locutado. Con Speechgen, solo se locutan las frases nuevas o modificadas. Como se ve en la tabla, con una locución repetida, Speechgen utilizó solo el 25% del recuento total de caracteres en lugar del 100%, ya que el 75% del texto se tomó de contenido previamente locutado.
Esto significa que no necesitas preocuparte por costos repetidos al revisar tu texto. Puedes volver a tu texto más tarde y trabajar con él.
Por encima de esto, se utiliza un modo de libro para una locución más rápida de textos largos, procesando por bloques de texto grandes en lugar de frases. Speechgen puede locutar hasta 2,000,000 de caracteres a la vez, pero el caché económico funciona hasta 100,000 caracteres.
Las frases locutadas se almacenan en memoria solo durante 1 semana. Tienes 7 días para complementar o revisar la locución.
Además, en tu perfil, el historial completo de locuciones se almacena durante 30 días. Esto significa que dentro de 30 días puedes descargar el texto y el archivo en su totalidad. Sin embargo, el caché en sí solo se almacenará durante 7 días.
Si decides, por ejemplo, añadir a la locución después de 25 días, los límites se deducirán nuevamente para todo el proyecto. Al guardar la locución en favoritos, puedes conservar el audio con el texto para siempre, pero el caché seguirá almacenándose solo durante 7 días.
Tu texto y archivo de audio se guardan en tu perfil, pero no el caché, así que ten esto en cuenta al trabajar.
El caché solo funciona para frases sin cambios. Si cambias incluso una letra o eliminas una coma en una frase, el sistema la considera nueva.
Texto Original:
Añadiendo una nueva frase:
Resultado: Speechgen toma las tres primeras frases de la caché y locuta solo la cuarta. Los costos se generan solo por la cuarta frase.
Texto Original:
Cambiando una palabra en la segunda frase:
Resultado: Speechgen toma la primera y tercera frase de la caché, pero vuelve a locutar la segunda.
Texto Original:
Eliminando las comas en la tercera frase:
Resultado: Speechgen volverá a locutar la tercera frase y tomará la primera y segunda frase de la caché. La tercera frase se considera cambiada debido a la eliminación de las comas.
Si añades una nueva etiqueta de pausa, como break, también se considera un cambio en la frase. El sistema la reanalizará y volverá a locutarla.
<break time="200ms"/>
De hecho, las frases se recuperan de la caché económica basándose en una coincidencia completa, carácter por carácter. Si hay algún carácter nuevo o si falta un carácter en la frase, el programa no podrá hacer coincidir exactamente.
Si cambias la configuración de velocidad o tono, será una locución completamente nueva y el caché económico no funcionará. Cuando cambias la velocidad o el tono, la red neuronal vuelve a locutar el texto con estos nuevos parámetros. No es una aceleración o cambio de tono por software; es una re-locución completa.
Cambiar el locutor también resulta en una re-locución completa. Aquí, la red neuronal hace todo el trabajo de nuevo. Por lo tanto, si estás ajustando la voz, hazlo para 1-2 frases, y una vez que estés satisfecho con la velocidad y el tono, locuta todo el texto deseado.
En esta página especial https://speechgen.io/es/subs/, puedes locutar subtítulos. Para ajustarse a la temporización, a menudo es necesario acelerar el habla para cumplir con el tiempo requerido. En este caso, el caché económico funciona, ya que Speechgen primero locuta y luego acelera programáticamente el subtítulo.
Puedes cambiar las pausas en la configuración debajo del campo de locución, y el caché funcionará perfectamente. Guardamos frases completas en memoria, y el sistema luego las combina en audio. De esta manera, puedes ajustar las pausas entre frases o párrafos sin costos adicionales.
Si seleccionas un formato diferente —ogg, wav, opus— y presionas re-locutar, el sistema no te cobrará ningún límite. Esto es gratuito. Si locutaste y luego te diste cuenta de que necesitabas un formato diferente, cámbialo sin temer costos duplicados.
Si cambias la Frecuencia de Muestreo en la configuración y presionas re-locutar de nuevo, el sistema no te cobrará ningún límite. Esto es gratuito.
El sistema de caché económico de Speechgen ofrece ventajas significativas:
Speechgen ahorra tus recursos y proporciona herramientas para un trabajo más eficiente con contenido de audio, lo que lo convierte en una opción ideal para quienes valoran la eficiencia y la calidad en la síntesis de voz.