Com utilitzar Text to Speech a SpeechGen.io: Guia completa

12-09-2025 , 16-09-2025

🚀 Inici ràpid — Crea àudio en 4 passos

Pas 1: Selecciona l'idioma

Obre el menú desplegable d'idiomes i selecciona l'idioma del teu text. Idiomes suportats: Més de 150 idiomes (llibreria de veus IA).

Pas 2: Tria la veu

Després de seleccionar l'idioma, apareixerà una llista de veus. Escolta les mostres i tria la teva preferida.

Pas 3: Enganxa el text

Copia el teu text al quadre de text o penja un fitxer (DOCX, PDF). Per convertir subtítols a veu, utilitza la pàgina dedicada de SRT a veu.

Pas 4: Fes clic a "Generar veu" (botó blau)

Pas 4: Fes clic a Generar veu

Espera el processament i descarrega el teu fitxer d'àudio llest.

Ja està! La teva primera veu està llesta en només un parell de minuts.

Preparació del text

Recomanat:

Utilitza text pla sense símbols innecessaris
Col·loca correctament els signes de puntuació (punts, comes, signes d'exclamació)
Divideix el text llarg en paràgrafs

Evita:

Emojis i emoticones (poden interrompre la generació d'àudio)
Símbols exòtics: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Símbols Unicode especials:

💡 Consell: Quan copiïs de fitxers PDF, presta especial atenció al text — poden aparèixer caràcters invisibles que faran malbé l'àudio!

Límits i restriccions

Idiomes suportats: 150+ idiomes (llista completa).
Formats de pujada: text pla, DOCX, PDF, SRT.

Màxim per generació: 2.000.000 de caràcters (≈ 285.000-330.000 paraules) — aquesta és una quantitat impressionant de text que pots convertir a veu en una sola generació, fent-la ideal per a contingut llarg com llibres sencers o documentació extensa.

Instruccions detallades pas a pas

Pas 1: Posa el text

Enganxa el text: Copia el teu text al quadre de text
Puja el fitxer: O fes clic al botó de pujada i selecciona un fitxer (DOCX, PDF)
Comprova el text: Assegura't que el text es mostra correctament

Pas 2: Selecciona l'idioma

⚠️ Important: Primer selecciona l'idioma correcte per al teu text

Obre la llista desplegable d'idiomes
Troba l'idioma necessari (més de 150 idiomes disponibles)
Per a textos multilingües, utilitza la generació d'àudio multiveu

Pas 3: Tria la veu

Després de seleccionar l'idioma, s'obrirà una llista de veus disponibles. Escolta les mostres fent clic al botó de reproducció de cada veu per trobar la que millor s'adapti a les teves necessitats. Veureu diferents tipus de veus disponibles: les veus regulars ofereixen una qualitat estàndard, les veus PRO proporcionen una qualitat i naturalitat millorades, i les veus multilingües (marcades amb codis d'idioma com Ava_US, Ava_ES) us permeten mantenir la coherència de la veu en diferents idiomes. Preneu-vos temps per previsualitzar cada veu, ja que varien significativament en to, emoció i caràcter.

Pas 4: Configura els paràmetres

Velocitat de la veu: de x0.1 (molt lent) a x2.2 (molt ràpid)
To de la veu: de -20 a +20 (pas de 2)

A sota del quadre de text, per sobre del botó de generar, pots ajustar la configuració de les pauses:

configuració de pauses

Pausas entre frases: 150ms - 30 segons
Pausas entre paràgrafs: 150ms - 30 segons

Pas 5: Genera la veu

Fes clic al botó "Generar veu" sota el quadre de text per iniciar el procés de conversió. El temps de processament depèn de la longitud del teu text: els textos més curts es completen en segons, mentre que els documents més llargs poden trigar uns minuts. Un cop finalitzada la generació, podràs escoltar el resultat directament al navegador per assegurar-te que compleix les teves expectatives.

Pas 6: Descarrega

Un cop finalitzada la generació, apareixerà un botó "Descarregar". Per defecte, pots descarregar el fitxer com a MP3. Tanmateix, si necessites un format diferent (WAV o OPUS) o vols canviar la qualitat de l'àudio (freqüència de mostreig de 8000 a 44000 Hz), primer hauràs de seleccionar aquestes opcions als menús desplegables, regenerar la veu amb la configuració escollida i després descarregar el fitxer amb les teves especificacions preferides.

Configuració de paràmetres d'àudio

Velocitat de la veu

Escala de velocitat:

x0.1 - x0.9: Ralentització (per a material complex, aprenentatge d'idiomes)
x1.0: Velocitat normal (per defecte)
x1.1 - x2.2: Acceleració (per a contingut dinàmic)

Per què aquesta escala: Els valors fraccionaris inferiors a 1 alenteixen la veu, els superiors a 1 l'acceleren. Això permet una selecció precisa del tempo per al teu públic.

Recomanacions de velocitat:

Educació: x0.8-x1.0 (per a una millor comprensió)
Presentacions: x0.9-x1.1 (pas oficial)
Podcasts: x1.0-x1.2 (pas animat)
YouTube: x1.1-x1.4 (per mantenir l'atenció)

To de la veu

Rang de to: de -20 a +20 amb pas de 2

Per què pas de 2: Un pas de 2 unitats proporciona un canvi de to notable però no brusc. Passos més petits serien imperceptibles, passos més grans massa dràstics.

Influència del to:

Valors negatius (-2 a -20): Fan la veu més greu, més seriosa, autoritària
Valors positius (+2 a +20): Fan la veu més aguda, més amable, més energètica
0: To neutre (per defecte)

Aplicacions:

Contingut empresarial: -4 a +2
Contingut infantil: +4 a +12
Contingut dramàtic: -8 a -16
Contingut amable: +2 a +8

Treballar amb pauses

Pausas automàtiques

Pausas entre frases: 300ms (per defecte)

Pausas entre paràgrafs: 400ms (per defecte)

Aquests paràmetres es poden canviar en menús desplegables de 150ms a 30 segons.

Inserció manual de pauses

A través de la interfície:

Col·loca el cursor al lloc desitjat del text
Fes clic al botó "Pausa" al menú
El símbol .- apareixerà al text

A través d'etiquetes:

Insereix l'etiqueta <break time="200ms"/> o <break time="2s"/> al lloc desitjat

Regles de pausa:

Pausa màxima: 30 segons
Es poden col·locar múltiples pauses seguides per a un retard més llarg
Les pauses no consumeixen límits addicionals

Quan utilitzar pauses:

Abans d'afirmacions importants
Després de preguntes retòriques
Entre diferents temes
Per crear un efecte dramàtic

Àudio multiveu

La funció de diàleg permet utilitzar diferents veus en un mateix text.

Aplicacions:

Audiollibres: Diferents veus per als personatges
Diàlegs educatius: Professor i alumne
Presentacions: Ponent principal i comentarista
Podcasts: Múltiples presentadors

La funció de diàleg multiveu obre possibilitats creatives més enllà de les simples veus de personatges. Els professors d'idiomes estrangers, per exemple, poden utilitzar aquesta funció per demostrar la mateixa frase a diferents velocitats per a l'aprenentatge d'idiomes, ajudant els estudiants a comprendre la pronunciació a diferents nivells de comprensió. Per a tècniques detallades i aplicacions a l'aula, consulta la nostra guia sobre l'ús de text a veu per a l'ensenyament d'idiomes estrangers.

Selecció de veu

Veus multilingües

Les veus amb codis d'idioma (per exemple, Ava_US, Ava_ES, Ava_DE) estan dissenyades per mantenir un reconeixement de veu coherent en diferents idiomes. Aquestes veus multilingües us permeten crear un estil unificat per a contingut multilingüe, assegurant que el mateix personatge de veu pugui parlar diversos idiomes sense problemes. Aquesta funció és especialment útil en mode diàleg, on podeu canviar entre idiomes mantenint la mateixa personalitat de veu reconeixible al llarg del vostre projecte d'àudio.

Segmentació d'àudio

SpeechGen us permet dividir el vostre àudio generat en múltiples segments dins d'un mateix projecte de síntesi, fent-lo perfecte per a editors de vídeo que necessiten fitxers d'àudio separats per a diferents escenes o capítols. Aquesta funció és especialment útil per crear veus en off per a vídeos de YouTube, cursos en línia o qualsevol projecte que requereixi una sincronització d'àudio precisa.

Com crear segments

Per dividir el vostre àudio, simplement col·loqueu el cursor on vulgueu dividir el text i feu clic al botó de tall al panell del menú. Això insereix una etiqueta <cut/> en aquesta posició. També podeu escriure manualment o copiar i enganxar aquesta etiqueta al llarg del vostre text. Per a noms de fitxer personalitzats, utilitzeu aquest format:

<cut name="el-teu-nom-de-fitxer"/>

Aquesta funció us ajuda a organitzar els segments amb noms significatius com:

<cut name="intro"/>

<cut name="capitol-1"/>

Descarregar i gestionar segments

Un cop hàgiu afegit almenys una etiqueta de segment, apareixerà un botó "descarregar segments" després de la generació. Feu-hi clic per descarregar tots els segments alhora, o utilitzeu el botó "més" al reproductor d'àudio per accedir als segments individuals. Cada fitxer es nomena automàticament amb un ID únic, un número de seqüència i un títol descriptiu (per exemple, "7054789_1_primera-frase"), cosa que facilita la identificació i organització dels vostres fitxers d'àudio al vostre programari d'edició.

Limitacions de segments

Segments curts: Fins a 1000 segments per generació
Segments llargs: Fins a 500 segments per generació

Per a projectes més grans, divideix-los en múltiples generacions. Per a instruccions completes, tècniques avançades i tutorials en vídeo, visita la nostra documentació completa de segmentació d'àudio.

Configuració d'entonació

Algunes veus tenen gràfics d'entonació:

Els gràfics d'entonació estan disponibles en veus que mostren una icona de configuració al costat del nom de la veu; aquesta funció es troba en més de la meitat de les veus de la biblioteca, incloses les opcions regulars i PRO.

Arrossega els punts del gràfic per canviar la entonació
Puja els punts per augmentar el to en paraules determinades
Baixa els punts per crear un to més seriós
Experimenta amb diferents corbes per a la naturalitat

Arrossega els punts del gràfic per canviar la entonació

Selecciona la frase en la qual vols ajustar la entonació i prem el botó d'entonació. Apareixerà aquesta interfície.

Sistema de memòria cau i estalvi de límits

Memòria cau intel·ligent

SpeechGen utilitza un sistema de memòria cau intel·ligent que estalvia significativament els teus límits. El sistema funciona guardant cada frase (fins a 100.000 caràcters) a la memòria cau durant 7 dies. Quan tornes a generar el teu àudio, qualsevol frase no modificada es recupera automàticament de la memòria cau de forma gratuïta; només pagues per les frases noves o editades. Això significa que pots fer edicions incrementals al teu text sense consumir tota la teva assignació de caràcters cada vegada. L'historial del projecte es desa durant 30 dies i els fitxers que afegeixes als preferits es conserven permanentment.

Períodes de conservació:

Memòria cau de frases: 7 dies
Historial del projecte: 30 dies
Fitxers preferits: Conservats permanentment

Solució de problemes comuns

Problemes de qualitat d'àudio

La veu sona poc natural:

Prova les veus PRO
Redueix la velocitat a x0.9-x1.1
Comprova la correcció de la puntuació
Utilitza un to neutre (0)

Pronunciació incorrecta:

Assegura't que s'ha seleccionat l'idioma correcte
Escriu paraules complexes fonèticament
Utilitza etiquetes SSML per a un control precís

Pausas poc naturals:

Comprova la puntuació
Configura les pauses entre frases
Utilitza pauses manuals .- o <break time=""/>
Elimina espais addicionals i salts de línia

Errors SSML:

Comprova la correcció de les etiquetes
No totes les veus admeten totes les etiquetes SSML

Funcions addicionals

SSML (Speech Synthesis Markup Language)

Per a un control expert de la veu, utilitza etiquetes SSML:

<break time="2s"/> — pauses
<emphasis level="strong"> — èmfasi de la veu
<prosody rate="slow" pitch="low"> — canvi de característiques de la veu

⚠️ Atenció: Diferents veus admeten diferents conjunts d'etiquetes SSML. Prova la funcionalitat per a cada veu específica.

Historial i preferits

Historial del projecte: Desa automàticament durant 30 dies
Preferits: Afegeix projectes importants per a la conservació permanent

Integració i API

L'API està disponible per als desenvolupadors per integrar SpeechGen.io a les seves pròpies aplicacions i serveis.

El meu fitxer no es carrega a SpeechGen. Què he de fer?

Primer, comprova que el teu fitxer estigui en un format compatible (DOCX, PDF o TXT). Assegura't que el fitxer no estigui corrupte i torna a intentar-lo. Si el problema persisteix, copia el text manualment i enganxa'l directament al quadre de text. També verifica que la mida del teu fitxer no superi els límits de la plataforma.

Quant de temps conserva SpeechGen els meus fitxers d'àudio generats?

El teu historial de projectes es desa automàticament durant 30 dies. La memòria cau intel·ligent (per a estalvis a nivell de frase) dura 7 dies. Per conservar els fitxers permanentment, afegeix-los als teus preferits. Això garanteix que els teus projectes d'àudio importants mai es perdin i romanguin accessibles al teu perfil.

Puc utilitzar diferents veus per a diferents personatges en un mateix fitxer d'àudio?

Sí! SpeechGen ofereix generació d'àudio multiveu (mode diàleg). Pots assignar diferents veus a diferents seccions de text, fent-lo perfecte per a audiollibres amb múltiples personatges, diàlegs educatius o podcasts amb múltiples parlants. Fins i tot pots utilitzar veus multilingües per canviar entre idiomes mantenint la coherència del personatge.

La modificació de la configuració d'àudio consumeix els meus límits de caràcters?

Depèn de quins paràmetres modifiquis. Ajustar la velocitat de la veu o el to requereix una regeneració completa i consumirà els teus límits de caràcters, ja que aquests canvis afecten tota la síntesi de veu. Tanmateix, pots modificar lliurement les pauses entre frases i paràgrafs sense cap consum de límit. A més, SpeechGen utilitza memòria cau intel·ligent: si generes un text llarg, després edites només una frase i tornes a generar, el sistema només et cobrarà per aquesta frase canviada, no per tot el text. Aquest sistema de memòria cau estalvia les teves frases no modificades durant 7 dies, fent que l'edició iterativa sigui molt econòmica.

Vídeo

Encara tens preguntes?

Obtén ajuda de la nostra comunitat! Fes les teves preguntes al nostre xat de Telegram: https://t.me/speechgen