Síntesis de Voz desde Texto Sin Costos Adicionales Gracias a la Tecnología Exclusiva de Smart Caching

, 15-09-2024

Speechgen ofrece una función única de caché económico que reduce significativamente el tiempo y los costos para la conversión de texto a voz. En este artículo, exploraremos cómo funciona esta característica, sus beneficios y cómo te ayuda a ahorrar en las locuciones.

Cómo Funciona el Caché Económico

Cuando sintetizas voz, Speechgen recuerda el resultado de cada oración. Por ejemplo:

  • Sintetizaste 30 oraciones.
  • Luego agregaste 10 más y las sintetizaste nuevamente.
  • Speechgen tomará las 30 oraciones ya sintetizadas de la memoria, sintetizará las 10 nuevas y las combinará en un solo archivo.

Beneficios:

  • Menos tiempo en locución
  • Ahorro de límites para oraciones ya sintetizadas

Ejemplo de Uso

Imagina que estás trabajando en la locución de un curso educativo con 20 lecciones. Después de completar el trabajo, decides agregar una breve introducción a cada lección. Con un servicio normal, tendrías que volver a locutar todo el material, lo que llevaría a costos significativos. Con Speechgen, solo pagarás por locutar las nuevas introducciones, ahorrando recursos y tiempo.

Aquí tienes una comparación de Speechgen con otros servicios:

Ejemplo

Otros TTS

Speechgen

Ejemplo #1: 30 oraciones

100% costo

100% costo

Ejemplo #2: 30 oraciones + 10 nuevas

100% costo

25% costo

Con otros servicios de síntesis de voz, cada locución incurre en el 100% del costo de todo lo que hayas sintetizado. Con Speechgen, solo se sintetizan las oraciones nuevas o modificadas. Como se muestra en la tabla, con una locución repetida, Speechgen utilizó solo el 25% del número total de caracteres en lugar del 100%, ya que el 75% del texto se tomó de contenido previamente locutado.

Esto significa que no necesitas preocuparte por costos repetidos al revisar tu texto. Puedes volver a tu texto más tarde y trabajar con él.

Términos y Limitaciones

  • Volumen de Texto: Hasta 100,000 caracteres para las mismas configuraciones y locutor.
  • Duración del Almacenamiento: El caché económico se guarda durante 1 semana.
  • Unidad de Caché: Se guardan oraciones completas, no palabras individuales.

Operación Detallada

Texto de hasta 100,000 caracteres

Por encima de este límite, se utiliza un modo de libro para una locución más rápida de textos largos, procesando bloques grandes de texto en lugar de oraciones. Speechgen puede locutar hasta 2,000,000 de caracteres de una sola vez, pero el caché económico funciona hasta los 100,000 caracteres.

Caché Económico Almacenado por 1 Semana

Las oraciones locutadas se guardan en memoria solo por 1 semana. Tienes 7 días para complementar o revisar la locución.

Además, en tu perfil, el historial completo de locuciones se guarda durante 30 días. Esto significa que dentro de 30 días puedes descargar el texto y el archivo en su totalidad. Sin embargo, el caché en sí se almacenará solo por 7 días.

Si decides, por ejemplo, agregar algo a la locución después de 25 días, los límites se descontarán nuevamente para todo el proyecto. Al guardar la locución en favoritos, puedes conservar el audio con el texto para siempre, pero el caché aún se almacenará solo por 7 días.

Tu texto y archivo de audio se guardan en tu perfil, pero no el caché, así que ten esto en cuenta cuando trabajes.

Qué Constituye un Cambio de Texto

El caché funciona solo para oraciones no modificadas. Si cambias incluso una letra o eliminas una coma en una oración, se considera nueva para el sistema.

Ejemplos

Agregando una Nueva Oración:

Texto Original:

  • La inteligencia artificial está cambiando el mundo.
  • La tecnología avanza a una velocidad increíble.
  • El futuro que esperábamos, ha llegado.

Agregando una nueva oración:

  • Debemos estar listos para los cambios.

Resultado: Speechgen toma las primeras tres oraciones del caché y solo locuta la cuarta. Los costos se incurren solo por la cuarta oración.

Cambiando una Palabra:

Texto Original:

  • La inteligencia artificial está cambiando el mundo.
  • La tecnología avanza a una velocidad increíble.
  • El futuro que esperábamos, ha llegado.

Cambiando una palabra en la segunda oración:

  • La tecnología avanza a una velocidad sorprendente.

Resultado: Speechgen toma la primera y tercera oración del caché, pero locuta nuevamente la segunda.

Quitando una Coma:

Texto Original:

  • La inteligencia artificial está cambiando el mundo.
  • La tecnología avanza a una velocidad increíble.
  • El futuro, que esperábamos, ha llegado.

Quitando las comas en la tercera oración:

  • El futuro que esperábamos ha llegado.

Resultado: Speechgen locutará nuevamente la tercera oración y tomará la primera y segunda del caché. La tercera oración se considera modificada debido a la eliminación de las comas.

Cambios Adicionales

Agregando <break>

Si agregas una nueva etiqueta de pausa, como break, también se considera un cambio en la oración. El sistema la volverá a analizar y locutar.

<break time="200ms"/>

De hecho, las oraciones se recuperan del caché económico en base a una coincidencia completa, carácter por carácter. Si hay algún nuevo carácter o si falta un carácter en la oración, el programa no podrá igualarla exactamente.

Cambiando Velocidad, Tono y Locutor

Si cambias la velocidad o el tono, será una locución completamente nueva y el caché económico no funcionará. Cuando cambias la velocidad o el tono, la red neuronal vuelve a locutar el texto con estos nuevos parámetros. No es una simple aceleración o cambio de tono por software; es una nueva locución completa.

Cambiar el locutor también resulta en una nueva locución completa. Aquí, la red neuronal hace todo el trabajo nuevamente. Por lo tanto, si estás ajustando la voz, hazlo para 1-2 oraciones, y cuando estés satisfecho con la velocidad y el tono, locuta el texto completo deseado.

Qué Se Puede Cambiar

Acelerar o Reducir la Velocidad en Subtítulos

En esta página especial https://speechgen.io/es/subs/, puedes locutar subtítulos. Para ajustar los tiempos, es a menudo necesario acelerar la voz para cumplir con el tiempo requerido. En este caso, el caché económico funciona, ya que Speechgen primero locuta y luego acelera el subtítulo de manera programada.

Cambiando Pausas en la Configuración

Puedes cambiar las pausas en la configuración bajo el campo de locución, y el caché funcionará perfectamente. Guardamos oraciones completas en memoria, y el sistema luego las combina en un audio. De esta manera, puedes ajustar las pausas entre oraciones o párrafos sin costos adicionales.

Cambiando el Formato

Si seleccionas un formato diferente—ogg, wav, opus—y presionas locutar nuevamente, el sistema no te descontará ningún límite. Esto es gratuito. Si realizaste la locución y luego te diste cuenta de que necesitabas un formato diferente, cámbialo sin temer costos duplicados.

Cambiando la Tasa de Muestreo

Si cambias la tasa de muestreo en la configuración y presionas locutar nuevamente, el sistema no te descontará ningún límite. Esto es gratuito.

Conclusión

El sistema de caché económico de Speechgen ofrece ventajas significativas:

  • Ahorro de Recursos: Paga solo por contenido nuevo, no por todo el texto de nuevo.
  • Trabajo Más Rápido: Las locuciones repetidas son mucho más rápidas.
  • Flexibilidad: Experimenta con tu texto sin preocuparte por costos adicionales.

Speechgen ahorra tus recursos y proporciona herramientas para trabajar de manera más eficiente con contenido de audio, convirtiéndolo en una opción ideal para aquellos que valoran la eficiencia y calidad en la síntesis de voz.

Utilizamos cookies para garantizar que obtenga la mejor experiencia en nuestro sitio web. Más información: Política de privacidad

Accept Aceptar cookies