12-09-2025 , 16-09-2025
Obre el menú desplegable d'idiomes i selecciona l'idioma del teu text. Idiomes suportats: Més de 150 idiomes (llibreria de veus IA).
Després de seleccionar l'idioma, apareixerà una llista de veus. Escolta les mostres i tria la teva preferida.
Copia el teu text al quadre de text o penja un fitxer (DOCX, PDF). Per convertir subtítols a veu, utilitza la pàgina dedicada de SRT a veu.
Espera el processament i descarrega el teu fitxer d'àudio llest.
Ja està! La teva primera veu està llesta en només un parell de minuts.
💡 Consell: Quan copiïs de fitxers PDF, presta especial atenció al text — poden aparèixer caràcters invisibles que faran malbé l'àudio!
Màxim per generació: 2.000.000 de caràcters (≈ 285.000-330.000 paraules) — aquesta és una quantitat impressionant de text que pots convertir a veu en una sola generació, fent-la ideal per a contingut llarg com llibres sencers o documentació extensa.
⚠️ Important: Primer selecciona l'idioma correcte per al teu text
Després de seleccionar l'idioma, s'obrirà una llista de veus disponibles. Escolta les mostres fent clic al botó de reproducció de cada veu per trobar la que millor s'adapti a les teves necessitats. Veureu diferents tipus de veus disponibles: les veus regulars ofereixen una qualitat estàndard, les veus PRO proporcionen una qualitat i naturalitat millorades, i les veus multilingües (marcades amb codis d'idioma com Ava_US, Ava_ES) us permeten mantenir la coherència de la veu en diferents idiomes. Preneu-vos temps per previsualitzar cada veu, ja que varien significativament en to, emoció i caràcter.
A sota del quadre de text, per sobre del botó de generar, pots ajustar la configuració de les pauses:
Fes clic al botó "Generar veu" sota el quadre de text per iniciar el procés de conversió. El temps de processament depèn de la longitud del teu text: els textos més curts es completen en segons, mentre que els documents més llargs poden trigar uns minuts. Un cop finalitzada la generació, podràs escoltar el resultat directament al navegador per assegurar-te que compleix les teves expectatives.
Un cop finalitzada la generació, apareixerà un botó "Descarregar". Per defecte, pots descarregar el fitxer com a MP3. Tanmateix, si necessites un format diferent (WAV o OPUS) o vols canviar la qualitat de l'àudio (freqüència de mostreig de 8000 a 44000 Hz), primer hauràs de seleccionar aquestes opcions als menús desplegables, regenerar la veu amb la configuració escollida i després descarregar el fitxer amb les teves especificacions preferides.
Escala de velocitat:
Per què aquesta escala: Els valors fraccionaris inferiors a 1 alenteixen la veu, els superiors a 1 l'acceleren. Això permet una selecció precisa del tempo per al teu públic.
Recomanacions de velocitat:
Rang de to: de -20 a +20 amb pas de 2
Per què pas de 2: Un pas de 2 unitats proporciona un canvi de to notable però no brusc. Passos més petits serien imperceptibles, passos més grans massa dràstics.
Influència del to:
Aplicacions:
Pausas entre frases: 300ms (per defecte)
Pausas entre paràgrafs: 400ms (per defecte)
Aquests paràmetres es poden canviar en menús desplegables de 150ms a 30 segons.
A través de la interfície:
A través d'etiquetes:
Insereix l'etiqueta <break time="200ms"/> o <break time="2s"/> al lloc desitjat
Regles de pausa:
Quan utilitzar pauses:
La funció de diàleg permet utilitzar diferents veus en un mateix text.
La funció de diàleg multiveu obre possibilitats creatives més enllà de les simples veus de personatges. Els professors d'idiomes estrangers, per exemple, poden utilitzar aquesta funció per demostrar la mateixa frase a diferents velocitats per a l'aprenentatge d'idiomes, ajudant els estudiants a comprendre la pronunciació a diferents nivells de comprensió. Per a tècniques detallades i aplicacions a l'aula, consulta la nostra guia sobre l'ús de text a veu per a l'ensenyament d'idiomes estrangers.
Les veus amb codis d'idioma (per exemple, Ava_US, Ava_ES, Ava_DE) estan dissenyades per mantenir un reconeixement de veu coherent en diferents idiomes. Aquestes veus multilingües us permeten crear un estil unificat per a contingut multilingüe, assegurant que el mateix personatge de veu pugui parlar diversos idiomes sense problemes. Aquesta funció és especialment útil en mode diàleg, on podeu canviar entre idiomes mantenint la mateixa personalitat de veu reconeixible al llarg del vostre projecte d'àudio.
SpeechGen us permet dividir el vostre àudio generat en múltiples segments dins d'un mateix projecte de síntesi, fent-lo perfecte per a editors de vídeo que necessiten fitxers d'àudio separats per a diferents escenes o capítols. Aquesta funció és especialment útil per crear veus en off per a vídeos de YouTube, cursos en línia o qualsevol projecte que requereixi una sincronització d'àudio precisa.
Per dividir el vostre àudio, simplement col·loqueu el cursor on vulgueu dividir el text i feu clic al botó de tall al panell del menú. Això insereix una etiqueta <cut/> en aquesta posició. També podeu escriure manualment o copiar i enganxar aquesta etiqueta al llarg del vostre text. Per a noms de fitxer personalitzats, utilitzeu aquest format:
<cut name="el-teu-nom-de-fitxer"/>
Aquesta funció us ajuda a organitzar els segments amb noms significatius com:
<cut name="intro"/>
<cut name="capitol-1"/>
Un cop hàgiu afegit almenys una etiqueta de segment, apareixerà un botó "descarregar segments" després de la generació. Feu-hi clic per descarregar tots els segments alhora, o utilitzeu el botó "més" al reproductor d'àudio per accedir als segments individuals. Cada fitxer es nomena automàticament amb un ID únic, un número de seqüència i un títol descriptiu (per exemple, "7054789_1_primera-frase"), cosa que facilita la identificació i organització dels vostres fitxers d'àudio al vostre programari d'edició.
Per a projectes més grans, divideix-los en múltiples generacions. Per a instruccions completes, tècniques avançades i tutorials en vídeo, visita la nostra documentació completa de segmentació d'àudio.
Algunes veus tenen gràfics d'entonació:
Els gràfics d'entonació estan disponibles en veus que mostren una icona de configuració al costat del nom de la veu; aquesta funció es troba en més de la meitat de les veus de la biblioteca, incloses les opcions regulars i PRO.
Selecciona la frase en la qual vols ajustar la entonació i prem el botó d'entonació. Apareixerà aquesta interfície.
SpeechGen utilitza un sistema de memòria cau intel·ligent que estalvia significativament els teus límits. El sistema funciona guardant cada frase (fins a 100.000 caràcters) a la memòria cau durant 7 dies. Quan tornes a generar el teu àudio, qualsevol frase no modificada es recupera automàticament de la memòria cau de forma gratuïta; només pagues per les frases noves o editades. Això significa que pots fer edicions incrementals al teu text sense consumir tota la teva assignació de caràcters cada vegada. L'historial del projecte es desa durant 30 dies i els fitxers que afegeixes als preferits es conserven permanentment.
Períodes de conservació:
La veu sona poc natural:
Pronunciació incorrecta:
Pausas poc naturals:
Errors SSML:
Per a un control expert de la veu, utilitza etiquetes SSML:
⚠️ Atenció: Diferents veus admeten diferents conjunts d'etiquetes SSML. Prova la funcionalitat per a cada veu específica.
L'API està disponible per als desenvolupadors per integrar SpeechGen.io a les seves pròpies aplicacions i serveis.
Primer, comprova que el teu fitxer estigui en un format compatible (DOCX, PDF o TXT). Assegura't que el fitxer no estigui corrupte i torna a intentar-lo. Si el problema persisteix, copia el text manualment i enganxa'l directament al quadre de text. També verifica que la mida del teu fitxer no superi els límits de la plataforma.
El teu historial de projectes es desa automàticament durant 30 dies. La memòria cau intel·ligent (per a estalvis a nivell de frase) dura 7 dies. Per conservar els fitxers permanentment, afegeix-los als teus preferits. Això garanteix que els teus projectes d'àudio importants mai es perdin i romanguin accessibles al teu perfil.
Sí! SpeechGen ofereix generació d'àudio multiveu (mode diàleg). Pots assignar diferents veus a diferents seccions de text, fent-lo perfecte per a audiollibres amb múltiples personatges, diàlegs educatius o podcasts amb múltiples parlants. Fins i tot pots utilitzar veus multilingües per canviar entre idiomes mantenint la coherència del personatge.
Depèn de quins paràmetres modifiquis. Ajustar la velocitat de la veu o el to requereix una regeneració completa i consumirà els teus límits de caràcters, ja que aquests canvis afecten tota la síntesi de veu. Tanmateix, pots modificar lliurement les pauses entre frases i paràgrafs sense cap consum de límit. A més, SpeechGen utilitza memòria cau intel·ligent: si generes un text llarg, després edites només una frase i tornes a generar, el sistema només et cobrarà per aquesta frase canviada, no per tot el text. Aquest sistema de memòria cau estalvia les teves frases no modificades durant 7 dies, fent que l'edició iterativa sigui molt econòmica.
Obtén ajuda de la nostra comunitat! Fes les teves preguntes al nostre xat de Telegram: https://t.me/speechgen
Xat internacional de Telegram @speechgen
Suport personal en Telegram @speechgen_alex