15-09-2024 , 15-09-2024
Speechgen ofrece una función única de caché económico que reduce significativamente el tiempo y los costos para la conversión de texto a voz. En este artículo, exploraremos cómo funciona esta característica, sus beneficios y cómo te ayuda a ahorrar en las locuciones.
Cuando sintetizas voz, Speechgen recuerda el resultado de cada oración. Por ejemplo:
Imagina que estás trabajando en la locución de un curso educativo con 20 lecciones. Después de completar el trabajo, decides agregar una breve introducción a cada lección. Con un servicio normal, tendrías que volver a locutar todo el material, lo que llevaría a costos significativos. Con Speechgen, solo pagarás por locutar las nuevas introducciones, ahorrando recursos y tiempo.
Aquí tienes una comparación de Speechgen con otros servicios:
Ejemplo |
Otros TTS |
Speechgen |
Ejemplo #1: 30 oraciones |
100% costo |
100% costo |
Ejemplo #2: 30 oraciones + 10 nuevas |
100% costo |
25% costo |
Con otros servicios de síntesis de voz, cada locución incurre en el 100% del costo de todo lo que hayas sintetizado. Con Speechgen, solo se sintetizan las oraciones nuevas o modificadas. Como se muestra en la tabla, con una locución repetida, Speechgen utilizó solo el 25% del número total de caracteres en lugar del 100%, ya que el 75% del texto se tomó de contenido previamente locutado.
Esto significa que no necesitas preocuparte por costos repetidos al revisar tu texto. Puedes volver a tu texto más tarde y trabajar con él.
Por encima de este límite, se utiliza un modo de libro para una locución más rápida de textos largos, procesando bloques grandes de texto en lugar de oraciones. Speechgen puede locutar hasta 2,000,000 de caracteres de una sola vez, pero el caché económico funciona hasta los 100,000 caracteres.
Las oraciones locutadas se guardan en memoria solo por 1 semana. Tienes 7 días para complementar o revisar la locución.
Además, en tu perfil, el historial completo de locuciones se guarda durante 30 días. Esto significa que dentro de 30 días puedes descargar el texto y el archivo en su totalidad. Sin embargo, el caché en sí se almacenará solo por 7 días.
Si decides, por ejemplo, agregar algo a la locución después de 25 días, los límites se descontarán nuevamente para todo el proyecto. Al guardar la locución en favoritos, puedes conservar el audio con el texto para siempre, pero el caché aún se almacenará solo por 7 días.
Tu texto y archivo de audio se guardan en tu perfil, pero no el caché, así que ten esto en cuenta cuando trabajes.
El caché funciona solo para oraciones no modificadas. Si cambias incluso una letra o eliminas una coma en una oración, se considera nueva para el sistema.
Texto Original:
Agregando una nueva oración:
Resultado: Speechgen toma las primeras tres oraciones del caché y solo locuta la cuarta. Los costos se incurren solo por la cuarta oración.
Texto Original:
Cambiando una palabra en la segunda oración:
Resultado: Speechgen toma la primera y tercera oración del caché, pero locuta nuevamente la segunda.
Texto Original:
Quitando las comas en la tercera oración:
Resultado: Speechgen locutará nuevamente la tercera oración y tomará la primera y segunda del caché. La tercera oración se considera modificada debido a la eliminación de las comas.
Si agregas una nueva etiqueta de pausa, como break, también se considera un cambio en la oración. El sistema la volverá a analizar y locutar.
<break time="200ms"/>
De hecho, las oraciones se recuperan del caché económico en base a una coincidencia completa, carácter por carácter. Si hay algún nuevo carácter o si falta un carácter en la oración, el programa no podrá igualarla exactamente.
Si cambias la velocidad o el tono, será una locución completamente nueva y el caché económico no funcionará. Cuando cambias la velocidad o el tono, la red neuronal vuelve a locutar el texto con estos nuevos parámetros. No es una simple aceleración o cambio de tono por software; es una nueva locución completa.
Cambiar el locutor también resulta en una nueva locución completa. Aquí, la red neuronal hace todo el trabajo nuevamente. Por lo tanto, si estás ajustando la voz, hazlo para 1-2 oraciones, y cuando estés satisfecho con la velocidad y el tono, locuta el texto completo deseado.
En esta página especial https://speechgen.io/es/subs/, puedes locutar subtítulos. Para ajustar los tiempos, es a menudo necesario acelerar la voz para cumplir con el tiempo requerido. En este caso, el caché económico funciona, ya que Speechgen primero locuta y luego acelera el subtítulo de manera programada.
Puedes cambiar las pausas en la configuración bajo el campo de locución, y el caché funcionará perfectamente. Guardamos oraciones completas en memoria, y el sistema luego las combina en un audio. De esta manera, puedes ajustar las pausas entre oraciones o párrafos sin costos adicionales.
Si seleccionas un formato diferente—ogg, wav, opus—y presionas locutar nuevamente, el sistema no te descontará ningún límite. Esto es gratuito. Si realizaste la locución y luego te diste cuenta de que necesitabas un formato diferente, cámbialo sin temer costos duplicados.
Si cambias la tasa de muestreo en la configuración y presionas locutar nuevamente, el sistema no te descontará ningún límite. Esto es gratuito.
El sistema de caché económico de Speechgen ofrece ventajas significativas:
Speechgen ahorra tus recursos y proporciona herramientas para trabajar de manera más eficiente con contenido de audio, convirtiéndolo en una opción ideal para aquellos que valoran la eficiencia y calidad en la síntesis de voz.