08-09-2025 , 16-09-2025
Abre el menú desplegable de idiomas y selecciona el idioma de tu texto. Idiomas admitidos: Más de 150 idiomas (biblioteca de voces IA).
Después de seleccionar el idioma, aparecerá una lista de voces. Escucha las muestras y elige tu favorita.
Copia tu texto en el cuadro de texto o sube un archivo (DOCX, PDF). Para convertir subtítulos a voz, usa la página dedicada de SRT a voz.
Espera el procesamiento y descarga tu archivo de audio listo.
¡Listo! Tu primera locución está lista en solo un par de minutos.
💡 Consejo: Al copiar desde archivos PDF, presta especial atención al texto — ¡pueden aparecer caracteres invisibles que arruinarán el audio!
Máximo por generación: 2,000,000 de caracteres (aprox. 285,000-330,000 palabras) — esta es una cantidad impresionante de texto que puedes convertir a voz en una sola generación, lo que la hace ideal para contenido extenso como libros completos o documentación detallada.
⚠️ Importante: Primero selecciona el idioma correcto para tu texto
Después de seleccionar el idioma, se abrirá una lista de voces disponibles. Escucha las muestras haciendo clic en el botón de reproducción de cada voz para encontrar la que mejor se adapte a tus necesidades. Verás diferentes tipos de voces disponibles: las voces Regulares ofrecen calidad estándar, las voces PRO proporcionan calidad y naturalidad mejoradas, y las voces Multilingües (marcadas con códigos de idioma como Ava_US, Ava_ES) te permiten mantener la consistencia de la voz en diferentes idiomas. Tómate tu tiempo para previsualizar cada voz, ya que varían significativamente en tono, emoción y carácter.
Debajo del cuadro de texto, encima del botón de generar, puedes ajustar la configuración de las pausas:
Haz clic en el botón "Generar Voz" debajo del cuadro de texto para iniciar el proceso de conversión. El tiempo de procesamiento depende de la longitud de tu texto: los textos más cortos se completan en segundos, mientras que los documentos más largos pueden tardar unos minutos. Una vez completada la generación, podrás escuchar el resultado directamente en el navegador para asegurarte de que cumple tus expectativas.
Una vez completada la generación, aparecerá un botón de "Descargar". Por defecto, puedes simplemente descargar el archivo como MP3. Sin embargo, si necesitas un formato diferente (WAV u OPUS) o quieres cambiar la calidad del audio (frecuencia de muestreo de 8000 a 44000 Hz), primero deberás seleccionar estas opciones en los menús desplegables, regenerar la voz con la configuración elegida y luego descargar el archivo con tus especificaciones preferidas.
Escala de velocidad:
Por qué esta escala: Los valores fraccionarios menores que 1 ralentizan la voz, los mayores que 1 la aceleran. Esto permite una selección precisa del tempo para tu audiencia.
Recomendaciones de velocidad:
Rango de tono: de -20 a +20 con paso de 2
Por qué paso de 2: Un paso de 2 unidades proporciona un cambio de tono notable pero no brusco. Pasos más pequeños serían imperceptibles, pasos más grandes demasiado drásticos.
Influencia del tono:
Aplicaciones:
Pausas entre frases: 300ms (predeterminado)
Pausas entre párrafos: 400ms (predeterminado)
Estas configuraciones se pueden cambiar en menús desplegables de 150ms a 30 segundos.
A través de la interfaz:
A través de etiquetas:
Inserta la etiqueta <break time="200ms"/> o <break time="2s"/> en la ubicación deseada
Reglas de pausa:
Cuándo usar pausas:
La función de diálogo permite usar diferentes voces en un mismo texto.
La función de diálogo multivoz abre posibilidades creativas más allá de las voces de personajes. Los profesores de idiomas extranjeros, por ejemplo, pueden usar esta función para demostrar la misma frase a diferentes velocidades para el aprendizaje de idiomas, ayudando a los estudiantes a comprender la pronunciación en diferentes niveles de comprensión. Para técnicas detalladas y aplicaciones en el aula, consulta nuestra guía sobre uso de texto a voz para profesores de idiomas extranjeros.
Las voces con códigos de idioma (por ejemplo, Ava_US, Ava_ES, Ava_DE) están diseñadas para mantener un reconocimiento de voz consistente en diferentes idiomas. Estas voces multilingües te permiten crear un estilo unificado para contenido multilingüe, asegurando que la misma personalidad de voz pueda hablar varios idiomas sin problemas. Esta función es particularmente útil en el modo de diálogo, donde puedes cambiar entre idiomas manteniendo la misma personalidad de voz reconocible a lo largo de tu proyecto de audio.
SpeechGen te permite dividir tu audio generado en múltiples segmentos dentro de un mismo proyecto de síntesis, lo que lo hace perfecto para editores de video que necesitan archivos de audio separados para diferentes escenas o capítulos. Esta función es particularmente útil para crear locuciones para videos de YouTube, cursos en línea o cualquier proyecto que requiera una sincronización de audio precisa.
Para dividir tu audio, simplemente coloca el cursor donde deseas dividir el texto y haz clic en el botón de corte en el panel del menú. Esto inserta una etiqueta <cut/> en esa posición. También puedes escribir o copiar y pegar manualmente esta etiqueta en tu texto. Para nombres de archivo personalizados, usa este formato:
<cut name="tu-nombre-de-archivo"/>
Esta función te ayuda a organizar los segmentos con nombres significativos como:
<cut name="intro"/>
<cut name="capitulo-1"/>
Una vez que hayas agregado al menos una etiqueta de segmento, aparecerá un botón "descargar segmentos" después de la generación. Haz clic en él para descargar todos los segmentos a la vez, o usa el botón "más" en el reproductor de audio para acceder a los segmentos individuales. Cada archivo se nombra automáticamente con un ID único, número de secuencia y título descriptivo (por ejemplo, "7054789_1_primera-frase"), lo que facilita la identificación y organización de tus archivos de audio en tu software de edición.
Para proyectos más grandes, divídelos en múltiples generaciones. Para instrucciones completas, técnicas avanzadas y tutoriales en video, visita nuestra documentación completa sobre segmentación de audio.
Algunas voces tienen gráficos de entonación:
Los gráficos de entonación están disponibles en voces que muestran un icono de configuración junto al nombre de la voz; esta función se encuentra en más de la mitad de las voces de la biblioteca, incluidas las opciones regulares y PRO.
Selecciona la frase en la que deseas ajustar la entonación y presiona el botón de entonación. Aparecerá esta interfaz.
SpeechGen utiliza un sistema de caché inteligente que ahorra significativamente tus límites. El sistema funciona guardando cada frase (hasta 100,000 caracteres) en caché durante 7 días. Cuando regeneras tu audio, cualquier frase sin cambios se recupera automáticamente de la caché de forma gratuita; solo pagas por las frases nuevas o editadas. Esto significa que puedes hacer ediciones incrementales en tu texto sin consumir toda tu asignación de caracteres cada vez. El historial del proyecto se almacena durante 30 días y los archivos que agregas a favoritos se conservan permanentemente.
Períodos de almacenamiento:
La voz suena poco natural:
Pronunciación incorrecta:
Pausas poco naturales:
Errores de SSML:
Para un control experto de la voz, usa etiquetas SSML:
⚠️ Atención: Diferentes voces admiten diferentes conjuntos de etiquetas SSML. Prueba la funcionalidad para cada voz específica.
La API está disponible para desarrolladores para integrar SpeechGen.io en sus propias aplicaciones y servicios.
Primero, verifica que tu archivo esté en un formato compatible (DOCX, PDF o TXT). Asegúrate de que el archivo no esté corrupto e intenta subirlo de nuevo. Si el problema persiste, copia el texto manualmente y pégalo directamente en el cuadro de texto. También verifica que el tamaño de tu archivo no exceda los límites de la plataforma.
El historial de tu proyecto se guarda automáticamente durante 30 días. La caché inteligente (para ahorros a nivel de frase) dura 7 días. Para conservar los archivos de forma permanente, agrégalos a tus favoritos. Esto asegura que tus proyectos de audio importantes nunca se pierdan y permanezcan accesibles en tu perfil.
¡Sí! SpeechGen ofrece generación de audio multivoz (modo diálogo). Puedes asignar diferentes voces a diferentes secciones de texto, lo que lo hace perfecto para audiolibros con múltiples personajes, diálogos educativos o podcasts con varios locutores. Incluso puedes usar voces multilingües para cambiar entre idiomas manteniendo la consistencia del personaje.
Las voces PRO ofrecen una calidad y naturalidad superiores en comparación con las voces regulares. Generalmente tienen una mejor expresión emocional, una pronunciación más precisa y algunas admiten funciones avanzadas como gráficos de entonación. Para proyectos profesionales como audiolibros, cursos o presentaciones empresariales, se recomiendan las voces PRO.
Depende de qué configuraciones cambies. Ajustar la velocidad o el tono de la voz requiere una regeneración completa y consumirá tus límites de caracteres, ya que estos cambios afectan a toda la síntesis de voz. Sin embargo, puedes modificar libremente las pausas entre frases y párrafos sin ningún consumo de límite. Además, SpeechGen utiliza caché inteligente: si generas un texto largo, luego editas solo una frase y regeneras, el sistema solo te cobrará por esa única frase cambiada, no por todo el texto. Este sistema de caché guarda tus frases sin cambios durante 7 días, lo que hace que la edición iterativa sea muy económica.
¡Obtén ayuda de nuestra comunidad! Haz tus preguntas en nuestro chat de Telegram: https://t.me/speechgen