Cómo Usar Texto a Voz en SpeechGen.io: Guía Completa

, 16-09-2025

🚀 Inicio Rápido — Crea Audio en 4 Pasos

Paso 1: Selecciona el Idioma

Paso 1: Selecciona el Idioma

Abre el menú desplegable de idiomas y selecciona el idioma de tu texto. Idiomas admitidos: Más de 150 idiomas (biblioteca de voces IA).

Paso 2: Elige la Voz

Paso 2: Elige la Voz

Después de seleccionar el idioma, aparecerá una lista de voces. Escucha las muestras y elige tu favorita.

Paso 3: Pega el Texto

Paso 3: Pega el Texto

Copia tu texto en el cuadro de texto o sube un archivo (DOCX, PDF). Para convertir subtítulos a voz, usa la página dedicada de SRT a voz.

Paso 4: Haz clic en "Generar Voz" (botón azul)

Paso 4: Haz clic en Generar Voz

Espera el procesamiento y descarga tu archivo de audio listo.

¡Listo! Tu primera locución está lista en solo un par de minutos.

Preparación del Texto

Recomendado:

Evita:

  • Emojis y emoticonos (pueden interrumpir la generación de audio)
  • Símbolos exóticos: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
  • Símbolos especiales de Unicode:  

💡 Consejo: Al copiar desde archivos PDF, presta especial atención al texto — ¡pueden aparecer caracteres invisibles que arruinarán el audio!

Límites y Restricciones

Máximo por generación: 2,000,000 de caracteres (aprox. 285,000-330,000 palabras) — esta es una cantidad impresionante de texto que puedes convertir a voz en una sola generación, lo que la hace ideal para contenido extenso como libros completos o documentación detallada.

Instrucciones Detalladas Paso a Paso

Paso 1: Sube el Texto

  1. Pega el texto: Copia tu texto en el cuadro de texto
  2. Sube el archivo: O haz clic en el botón de carga y selecciona un archivo (DOCX, PDF)
  3. Verifica el texto: Asegúrate de que el texto se muestre correctamente

Paso 2: Selecciona el Idioma

⚠️ Importante: Primero selecciona el idioma correcto para tu texto

  • Abre la lista desplegable de idiomas
  • Busca el idioma necesario (más de 150 idiomas disponibles)
  • Para textos en varios idiomas, usa la generación de audio multivoz

Paso 3: Elige la Voz

Después de seleccionar el idioma, se abrirá una lista de voces disponibles. Escucha las muestras haciendo clic en el botón de reproducción de cada voz para encontrar la que mejor se adapte a tus necesidades. Verás diferentes tipos de voces disponibles: las voces Regulares ofrecen calidad estándar, las voces PRO proporcionan calidad y naturalidad mejoradas, y las voces Multilingües (marcadas con códigos de idioma como Ava_US, Ava_ES) te permiten mantener la consistencia de la voz en diferentes idiomas. Tómate tu tiempo para previsualizar cada voz, ya que varían significativamente en tono, emoción y carácter.

Paso 4: Configura los Parámetros

  • Velocidad de voz: de x0.1 (muy lenta) a x2.2 (muy rápida)
  • Tono de voz: de -20 a +20 (paso de 2)

Debajo del cuadro de texto, encima del botón de generar, puedes ajustar la configuración de las pausas:

configuración de pausas

  • Pausas entre frases: 150ms - 30 segundos
  • Pausas entre párrafos: 150ms - 30 segundos

Paso 5: Genera la Voz

Haz clic en el botón "Generar Voz" debajo del cuadro de texto para iniciar el proceso de conversión. El tiempo de procesamiento depende de la longitud de tu texto: los textos más cortos se completan en segundos, mientras que los documentos más largos pueden tardar unos minutos. Una vez completada la generación, podrás escuchar el resultado directamente en el navegador para asegurarte de que cumple tus expectativas.

Paso 6: Descarga

Una vez completada la generación, aparecerá un botón de "Descargar". Por defecto, puedes simplemente descargar el archivo como MP3. Sin embargo, si necesitas un formato diferente (WAV u OPUS) o quieres cambiar la calidad del audio (frecuencia de muestreo de 8000 a 44000 Hz), primero deberás seleccionar estas opciones en los menús desplegables, regenerar la voz con la configuración elegida y luego descargar el archivo con tus especificaciones preferidas.

Configuración de Parámetros de Audio

Velocidad de Voz

Escala de velocidad:

  • x0.1 - x0.9: Ralentización (para material complejo, aprendizaje de idiomas)
  • x1.0: Velocidad normal (predeterminada)
  • x1.1 - x2.2: Aceleración (para contenido dinámico)

Por qué esta escala: Los valores fraccionarios menores que 1 ralentizan la voz, los mayores que 1 la aceleran. Esto permite una selección precisa del tempo para tu audiencia.

Recomendaciones de velocidad:

  • Educación: x0.8-x1.0 (para una mejor comprensión)
  • Presentaciones: x0.9-x1.1 (ritmo oficial)
  • Podcasts: x1.0-x1.2 (ritmo animado)
  • YouTube: x1.1-x1.4 (retención de atención)

Tono de Voz

Rango de tono: de -20 a +20 con paso de 2

Por qué paso de 2: Un paso de 2 unidades proporciona un cambio de tono notable pero no brusco. Pasos más pequeños serían imperceptibles, pasos más grandes demasiado drásticos.

Influencia del tono:

  • Valores negativos (-2 a -20): Hacen la voz más grave, seria, autoritaria
  • Valores positivos (+2 a +20): Hacen la voz más aguda, amigable, enérgica
  • 0: Tono neutro (predeterminado)

Aplicaciones:

  • Contenido empresarial: -4 a +2
  • Contenido infantil: +4 a +12
  • Contenido dramático: -8 a -16
  • Contenido amigable: +2 a +8

Trabajando con Pausas

Pausas Automáticas

Pausas entre frases: 300ms (predeterminado)

Pausas entre párrafos: 400ms (predeterminado)

Estas configuraciones se pueden cambiar en menús desplegables de 150ms a 30 segundos.

Inserción Manual de Pausas

A través de la interfaz:

  1. Coloca el cursor en la ubicación deseada en el texto
  2. Haz clic en el botón "Pausa" en el menú
  3. El símbolo .- aparecerá en el texto

A través de etiquetas:

Inserta la etiqueta <break time="200ms"/> o <break time="2s"/> en la ubicación deseada

Reglas de pausa:

  • Pausa máxima: 30 segundos
  • Se pueden colocar múltiples pausas seguidas para un retraso mayor
  • Las pausas no consumen límites adicionales

Cuándo usar pausas:

  • Antes de declaraciones importantes
  • Después de preguntas retóricas
  • Entre diferentes temas
  • Para crear un efecto dramático

Audio Multivoz

La función de diálogo permite usar diferentes voces en un mismo texto.

Aplicaciones:

  • Audiolibros: Diferentes voces para los personajes
  • Diálogos educativos: Profesor y alumno
  • Presentaciones: Orador principal y comentarista
  • Podcasts: Múltiples presentadores

La función de diálogo multivoz abre posibilidades creativas más allá de las voces de personajes. Los profesores de idiomas extranjeros, por ejemplo, pueden usar esta función para demostrar la misma frase a diferentes velocidades para el aprendizaje de idiomas, ayudando a los estudiantes a comprender la pronunciación en diferentes niveles de comprensión. Para técnicas detalladas y aplicaciones en el aula, consulta nuestra guía sobre uso de texto a voz para profesores de idiomas extranjeros.

Selección de Voz

Voces Multilingües

Las voces con códigos de idioma (por ejemplo, Ava_US, Ava_ES, Ava_DE) están diseñadas para mantener un reconocimiento de voz consistente en diferentes idiomas. Estas voces multilingües te permiten crear un estilo unificado para contenido multilingüe, asegurando que la misma personalidad de voz pueda hablar varios idiomas sin problemas. Esta función es particularmente útil en el modo de diálogo, donde puedes cambiar entre idiomas manteniendo la misma personalidad de voz reconocible a lo largo de tu proyecto de audio.

Segmentación de Audio

SpeechGen te permite dividir tu audio generado en múltiples segmentos dentro de un mismo proyecto de síntesis, lo que lo hace perfecto para editores de video que necesitan archivos de audio separados para diferentes escenas o capítulos. Esta función es particularmente útil para crear locuciones para videos de YouTube, cursos en línea o cualquier proyecto que requiera una sincronización de audio precisa.

Cómo Crear Segmentos

Para dividir tu audio, simplemente coloca el cursor donde deseas dividir el texto y haz clic en el botón de corte en el panel del menú. Esto inserta una etiqueta <cut/> en esa posición. También puedes escribir o copiar y pegar manualmente esta etiqueta en tu texto. Para nombres de archivo personalizados, usa este formato:

<cut name="tu-nombre-de-archivo"/>

Esta función te ayuda a organizar los segmentos con nombres significativos como:

<cut name="intro"/>

<cut name="capitulo-1"/>

Descarga y Gestión de Segmentos

Una vez que hayas agregado al menos una etiqueta de segmento, aparecerá un botón "descargar segmentos" después de la generación. Haz clic en él para descargar todos los segmentos a la vez, o usa el botón "más" en el reproductor de audio para acceder a los segmentos individuales. Cada archivo se nombra automáticamente con un ID único, número de secuencia y título descriptivo (por ejemplo, "7054789_1_primera-frase"), lo que facilita la identificación y organización de tus archivos de audio en tu software de edición.

Limitaciones de Segmentos

  • Segmentos cortos: Hasta 1000 segmentos por generación
  • Segmentos largos: Hasta 500 segmentos por generación

Para proyectos más grandes, divídelos en múltiples generaciones. Para instrucciones completas, técnicas avanzadas y tutoriales en video, visita nuestra documentación completa sobre segmentación de audio.

Configuración de Entonación

Algunas voces tienen gráficos de entonación:

Los gráficos de entonación están disponibles en voces que muestran un icono de configuración junto al nombre de la voz; esta función se encuentra en más de la mitad de las voces de la biblioteca, incluidas las opciones regulares y PRO.

  • Arrastra los puntos en el gráfico para cambiar la entonación
  • Sube los puntos para aumentar el tono en ciertas palabras
  • Baja los puntos para crear un tono más serio
  • Experimenta con diferentes curvas para lograr naturalidad

Arrastra los puntos en el gráfico para cambiar la entonación

Selecciona la frase en la que deseas ajustar la entonación y presiona el botón de entonación. Aparecerá esta interfaz.

Sistema de Caché y Ahorro de Límites

Caché Inteligente

SpeechGen utiliza un sistema de caché inteligente que ahorra significativamente tus límites. El sistema funciona guardando cada frase (hasta 100,000 caracteres) en caché durante 7 días. Cuando regeneras tu audio, cualquier frase sin cambios se recupera automáticamente de la caché de forma gratuita; solo pagas por las frases nuevas o editadas. Esto significa que puedes hacer ediciones incrementales en tu texto sin consumir toda tu asignación de caracteres cada vez. El historial del proyecto se almacena durante 30 días y los archivos que agregas a favoritos se conservan permanentemente.

Períodos de almacenamiento:

  • Caché de frases: 7 días
  • Historial del proyecto: 30 días
  • Archivos favoritos: Almacenados permanentemente

Solución de Problemas Comunes

Problemas de Calidad de Audio

La voz suena poco natural:

  • Prueba las voces PRO
  • Reduce la velocidad a x0.9-x1.1
  • Verifica la corrección de la puntuación
  • Usa un tono neutro (0)

Pronunciación incorrecta:

  • Asegúrate de que el idioma correcto esté seleccionado
  • Escribe palabras complejas fonéticamente
  • Usa etiquetas SSML para un control preciso

Pausas poco naturales:

  • Verifica la puntuación
  • Configura las pausas entre frases
  • Usa pausas manuales .- o <break time=""/>
  • Elimina espacios y saltos de línea adicionales

Errores de SSML:

  • Verifica la corrección de las etiquetas
  • No todas las voces admiten todas las etiquetas SSML

Funciones Adicionales

SSML (Lenguaje de Marcado de Síntesis de Voz)

Para un control experto de la voz, usa etiquetas SSML:

  • <break time="2s"/> — pausas
  • <emphasis level="strong"> — énfasis de voz
  • <prosody rate="slow" pitch="low"> — cambio de características de la voz

⚠️ Atención: Diferentes voces admiten diferentes conjuntos de etiquetas SSML. Prueba la funcionalidad para cada voz específica.

Historial y Favoritos

  • Historial del proyecto: Guardado automáticamente durante 30 días
  • Favoritos: Agrega proyectos importantes para almacenamiento permanente

Integración y API

La API está disponible para desarrolladores para integrar SpeechGen.io en sus propias aplicaciones y servicios.

Mi archivo no se sube a SpeechGen. ¿Qué debo hacer?

Primero, verifica que tu archivo esté en un formato compatible (DOCX, PDF o TXT). Asegúrate de que el archivo no esté corrupto e intenta subirlo de nuevo. Si el problema persiste, copia el texto manualmente y pégalo directamente en el cuadro de texto. También verifica que el tamaño de tu archivo no exceda los límites de la plataforma.

¿Cuánto tiempo guarda SpeechGen mis archivos de audio generados?

El historial de tu proyecto se guarda automáticamente durante 30 días. La caché inteligente (para ahorros a nivel de frase) dura 7 días. Para conservar los archivos de forma permanente, agrégalos a tus favoritos. Esto asegura que tus proyectos de audio importantes nunca se pierdan y permanezcan accesibles en tu perfil.

¿Puedo usar diferentes voces para diferentes personajes en un mismo archivo de audio?

¡Sí! SpeechGen ofrece generación de audio multivoz (modo diálogo). Puedes asignar diferentes voces a diferentes secciones de texto, lo que lo hace perfecto para audiolibros con múltiples personajes, diálogos educativos o podcasts con varios locutores. Incluso puedes usar voces multilingües para cambiar entre idiomas manteniendo la consistencia del personaje.

¿Cuál es la diferencia entre las voces regulares y PRO en SpeechGen?

Las voces PRO ofrecen una calidad y naturalidad superiores en comparación con las voces regulares. Generalmente tienen una mejor expresión emocional, una pronunciación más precisa y algunas admiten funciones avanzadas como gráficos de entonación. Para proyectos profesionales como audiolibros, cursos o presentaciones empresariales, se recomiendan las voces PRO.

¿Cambiar la configuración de audio consume mis límites de caracteres?

Depende de qué configuraciones cambies. Ajustar la velocidad o el tono de la voz requiere una regeneración completa y consumirá tus límites de caracteres, ya que estos cambios afectan a toda la síntesis de voz. Sin embargo, puedes modificar libremente las pausas entre frases y párrafos sin ningún consumo de límite. Además, SpeechGen utiliza caché inteligente: si generas un texto largo, luego editas solo una frase y regeneras, el sistema solo te cobrará por esa única frase cambiada, no por todo el texto. Este sistema de caché guarda tus frases sin cambios durante 7 días, lo que hace que la edición iterativa sea muy económica.

Video

¿Todavía Tienes Preguntas?

¡Obtén ayuda de nuestra comunidad! Haz tus preguntas en nuestro chat de Telegram: https://t.me/speechgen

Utilizamos cookies para garantizar que obtenga la mejor experiencia en nuestro sitio web. Más información: Política de privacidad

Accept Aceptar cookies