Come usare Text to Speech su SpeechGen.io: Guida completa

, 16-09-2025

🚀 Avvio rapido — Crea audio in 4 passaggi

Passaggio 1: Seleziona la lingua

Passaggio 1: Seleziona la lingua

Apri il menu a tendina delle lingue e seleziona la lingua del tuo testo. Lingue supportate: Oltre 150 lingue (libreria di voci AI).

Passaggio 2: Scegli la voce

Passaggio 2: Scegli la voce

Dopo aver selezionato la lingua, apparirà un elenco di voci. Ascolta i campioni e scegli la tua preferita.

Passaggio 3: Incolla il testo

Passaggio 3: Incolla il testo

Copia il tuo testo nella casella di testo o carica un file (DOCX, PDF). Per convertire sottotitoli in voce, usa la pagina dedicata da SRT a voce.

Passaggio 4: Clicca su "Genera Voce" (pulsante blu)

Passaggio 4: Clicca Genera Voce

Attendi l'elaborazione e scarica il tuo file audio pronto.

Fatto! Il tuo primo voiceover è pronto in pochi minuti.

Preparazione del testo

Consigliato:

Da evitare:

  • Emoji ed emoticon (possono interrompere la generazione vocale)
  • Simboli esotici: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
  • Simboli Unicode speciali:  

💡 Suggerimento: Quando copi da file PDF, presta particolare attenzione al testo: potrebbero apparire caratteri invisibili che rovineranno l'audio!

Limiti e restrizioni

Massimo per generazione: 2.000.000 di caratteri (≈ 285.000-330.000 parole) - questa è un'impressionante quantità di testo che puoi convertire in voce in un'unica generazione, rendendola ideale per contenuti lunghi come interi libri o documentazione estesa.

Istruzioni dettagliate passo passo

Passaggio 1: Carica il testo

  1. Incolla il testo: Copia il tuo testo nella casella di testo
  2. Carica file: Oppure clicca sul pulsante di caricamento e seleziona un file (DOCX, PDF)
  3. Controlla il testo: Assicurati che il testo venga visualizzato correttamente

Passaggio 2: Seleziona la lingua

⚠️ Importante: Seleziona prima la lingua corretta per il tuo testo

  • Apri l'elenco a tendina delle lingue
  • Trova la lingua desiderata (oltre 150 lingue disponibili)
  • Per testi multilingue, usa la generazione audio multivoce

Passaggio 3: Scegli la voce

Dopo aver selezionato la lingua, si aprirà un elenco di voci disponibili. Ascolta i campioni cliccando sul pulsante play per ogni voce per trovare quella che meglio si adatta alle tue esigenze. Vedrai diversi tipi di voci disponibili: le voci Regolari offrono qualità standard, le voci PRO forniscono qualità e naturalezza migliorate, e le voci Multilingue (contrassegnate con codici lingua come Ava_US, Ava_ES) ti permettono di mantenere la coerenza della voce tra diverse lingue. Prenditi il tempo di ascoltare ogni voce, poiché variano significativamente in tono, emozione e carattere.

Passaggio 4: Configura i parametri

  • Velocità del parlato: da x0.1 (molto lenta) a x2.2 (molto veloce)
  • Tono della voce: da -20 a +20 (passo 2)

Sotto la casella di testo, sopra il pulsante di generazione, puoi regolare le impostazioni delle pause:

impostazioni pausa

  • Pause tra frasi: 150ms - 30 secondi
  • Pause tra paragrafi: 150ms - 30 secondi

Passaggio 5: Genera la voce

Clicca sul pulsante "Genera Voce" sotto la casella di testo per avviare il processo di conversione. Il tempo di elaborazione dipende dalla lunghezza del tuo testo: testi più brevi completano in secondi, mentre documenti più lunghi possono richiedere alcuni minuti. Una volta completata la generazione, potrai ascoltare il risultato direttamente nel browser per assicurarti che soddisfi le tue aspettative.

Passaggio 6: Scarica

Dopo il completamento della generazione, apparirà un pulsante "Scarica". Di default, puoi semplicemente scaricare il file come MP3. Tuttavia, se hai bisogno di un formato diverso (WAV o OPUS) o vuoi cambiare la qualità audio (frequenza di campionamento da 8000 a 44000 Hz), dovrai prima selezionare queste opzioni dai menu a tendina, rigenerare la voce con le impostazioni scelte e poi scaricare il file con le tue specifiche preferite.

Impostazioni dei parametri audio

Velocità del parlato

Scala di velocità:

  • x0.1 - x0.9: Rallentamento (per materiale complesso, apprendimento linguistico)
  • x1.0: Velocità normale (predefinita)
  • x1.1 - x2.2: Accelerazione (per contenuti dinamici)

Perché questa scala: Valori frazionari inferiori a 1 rallentano il parlato, valori superiori a 1 lo accelerano. Questo permette una selezione precisa del tempo per il tuo pubblico.

Raccomandazioni sulla velocità:

  • Educazione: x0.8-x1.0 (per una migliore comprensione)
  • Presentazioni: x0.9-x1.1 (ritmo ufficiale)
  • Podcast: x1.0-x1.2 (ritmo vivace)
  • YouTube: x1.1-x1.4 (mantenimento dell'attenzione)

Tono della voce

Intervallo del tono: da -20 a +20 con passo 2

Perché il passo 2: Un passo di 2 unità fornisce un cambiamento di tono percettibile ma non brusco. Passi più piccoli sarebbero impercettibili, passi più grandi troppo drastici.

Influenza del tono:

  • Valori negativi (-2 a -20): Rendono la voce più bassa, seria, autorevole
  • Valori positivi (+2 a +20): Rendono la voce più alta, amichevole, energica
  • 0: Tono neutro (predefinito)

Applicazioni:

  • Contenuti aziendali: -4 a +2
  • Contenuti per bambini: +4 a +12
  • Contenuti drammatici: -8 a -16
  • Contenuti amichevoli: +2 a +8

Lavorare con le pause

Pause automatiche

Pause tra frasi: 300ms (predefinito)

Pause tra paragrafi: 400ms (predefinito)

Queste impostazioni possono essere modificate nei menu a tendina da 150ms a 30 secondi.

Inserimento manuale delle pause

Tramite interfaccia:

  1. Posiziona il cursore nel punto desiderato del testo
  2. Clicca sul pulsante "Pausa" nel menu
  3. Il simbolo .- apparirà nel testo

Tramite tag:

Inserisci il tag <break time="200ms"/> o <break time="2s"/> nella posizione desiderata

Regole per le pause:

  • Pausa massima: 30 secondi
  • È possibile inserire più pause di seguito per un ritardo maggiore
  • Le pause non consumano limiti aggiuntivi

Quando usare le pause:

  • Prima di affermazioni importanti
  • Dopo domande retoriche
  • Tra argomenti diversi
  • Per creare un effetto drammatico

Audio multivoce

La funzione dialogo permette di usare voci diverse in un unico testo.

Applicazioni:

  • Audiolibri: Voci diverse per i personaggi
  • Dialoghi educativi: Insegnante e studente
  • Presentazioni: Relatore principale e commentatore
  • Podcast: Più host

La funzione di dialogo multivoce apre possibilità creative oltre le semplici voci dei personaggi. Gli insegnanti di lingue straniere, ad esempio, possono usare questa funzione per dimostrare la stessa frase a diverse velocità per l'apprendimento delle lingue, aiutando gli studenti a comprendere la pronuncia a diversi livelli di comprensione. Per tecniche dettagliate e applicazioni in classe, consulta la nostra guida su come usare il text-to-speech per l'insegnamento delle lingue straniere.

Selezione della voce

Voci multilingue

Le voci con codici lingua (ad esempio, Ava_US, Ava_ES, Ava_DE) sono progettate per mantenere un riconoscimento vocale coerente tra diverse lingue. Queste voci multilingue ti consentono di creare uno stile unificato per contenuti multilingue, garantendo che lo stesso personaggio vocale possa parlare più lingue senza problemi. Questa funzione è particolarmente utile in modalità dialogo, dove puoi passare da una lingua all'altra mantenendo la stessa personalità vocale riconoscibile durante il tuo progetto audio.

Segmentazione audio

SpeechGen ti consente di dividere il tuo audio generato in più segmenti all'interno di un unico progetto di sintesi, rendendolo perfetto per gli editor video che necessitano di file audio separati per diverse scene o capitoli. Questa funzione è particolarmente utile per creare voci fuori campo per video di YouTube, corsi online o qualsiasi progetto che richieda una sincronizzazione audio precisa.

Come creare segmenti

Per dividere l'audio, posiziona semplicemente il cursore dove vuoi dividere il testo e clicca sul pulsante di taglio nel pannello del menu. Questo inserirà un tag <cut/> in quella posizione. Puoi anche digitare manualmente o copiare e incollare questo tag nel tuo testo. Per nomi di file personalizzati, usa questo formato:

<cut name="tuo-nome-file"/>

Questa funzione ti aiuta a organizzare i segmenti con nomi significativi come:

<cut name="introduzione"/>

<cut name="capitolo-1"/>

Scaricare e gestire i segmenti

Una volta aggiunto almeno un tag di segmento, dopo la generazione apparirà un pulsante "scarica segmenti". Cliccaci sopra per scaricare tutti i segmenti contemporaneamente, oppure usa il pulsante "altro" sul lettore audio per accedere ai singoli segmenti. Ogni file viene automaticamente nominato con un ID univoco, un numero di sequenza e un titolo descrittivo (ad esempio, "7054789_1_prima-frase"), rendendo facile identificare e organizzare i tuoi file audio nel tuo software di editing.

Limitazioni dei segmenti

  • Segmenti brevi: Fino a 1000 segmenti per generazione
  • Segmenti lunghi: Fino a 500 segmenti per generazione

Per progetti più grandi, dividi in più generazioni. Per istruzioni complete, tecniche avanzate e tutorial video, visita la nostra documentazione completa sulla segmentazione audio.

Impostazione dell'intonazione

Alcune voci hanno grafici di intonazione:

I grafici di intonazione sono disponibili per le voci che mostrano un'icona impostazioni accanto al nome della voce: questa funzione si trova su più della metà delle voci nella libreria, comprese le opzioni regolari e PRO.

  • Trascina i punti sul grafico per cambiare l'intonazione
  • Alza i punti per aumentare il tono su determinate parole
  • Abbassa i punti per creare un tono più serio
  • Sperimenta con diverse curve per la naturalezza

Trascina i punti sul grafico per cambiare l'intonazione

Seleziona la frase in cui desideri regolare l'intonazione e premi il pulsante intonazione. Apparirà questa interfaccia.

Sistema di cache e risparmio limiti

Cache intelligente

SpeechGen utilizza un sistema di caching intelligente che consente di risparmiare significativamente sui tuoi limiti. Il sistema funziona salvando ogni frase (fino a 100.000 caratteri) nella cache per 7 giorni. Quando rigeneri il tuo audio, tutte le frasi non modificate vengono recuperate automaticamente dalla cache gratuitamente: paghi solo per le frasi nuove o modificate. Ciò significa che puoi apportare modifiche incrementali al tuo testo senza consumare l'intera quota di caratteri ogni volta. La cronologia dei progetti viene memorizzata per 30 giorni e i file che aggiungi ai preferiti vengono conservati permanentemente.

Periodi di archiviazione:

  • Cache delle frasi: 7 giorni
  • Cronologia progetti: 30 giorni
  • File preferiti: Archiviati permanentemente

Risoluzione dei problemi comuni

Problemi di qualità audio

La voce suona innaturale:

  • Prova le voci PRO
  • Riduci la velocità a x0.9-x1.1
  • Controlla la correttezza della punteggiatura
  • Usa un tono neutro (0)

Pronuncia errata:

  • Assicurati che sia selezionata la lingua corretta
  • Scrivi parole complesse foneticamente
  • Usa i tag SSML per un controllo preciso

Pause innaturali:

  • Controlla la punteggiatura
  • Configura le pause tra frasi
  • Usa pause manuali .- o <break time=""/>
  • Rimuovi spazi e interruzioni di riga extra

Errori SSML:

  • Controlla la correttezza dei tag
  • Non tutte le voci supportano tutti i tag SSML

Funzionalità aggiuntive

SSML (Speech Synthesis Markup Language)

Per un controllo esperto della voce, usa i tag SSML:

  • <break time="2s"/> — pause
  • <emphasis level="strong"> — enfasi vocale
  • <prosody rate="slow" pitch="low"> — modifica delle caratteristiche vocali

⚠️ Attenzione: Voci diverse supportano set diversi di tag SSML. Testa la funzionalità per ogni voce specifica.

Cronologia e preferiti

  • Cronologia progetti: Salvata automaticamente per 30 giorni
  • Preferiti: Aggiungi progetti importanti per l'archiviazione permanente

Integrazione e API

L'API è disponibile per gli sviluppatori per integrare SpeechGen.io nelle proprie applicazioni e servizi.

Il mio file non viene caricato su SpeechGen. Cosa devo fare?

Innanzitutto, verifica che il tuo file sia in un formato supportato (DOCX, PDF o TXT). Assicurati che il file non sia corrotto e prova a caricarlo di nuovo. Se il problema persiste, copia manualmente il testo e incollalo direttamente nella casella di testo. Verifica anche che la dimensione del tuo file non superi i limiti della piattaforma.

Per quanto tempo SpeechGen conserva i miei file audio generati?

La cronologia dei tuoi progetti viene salvata automaticamente per 30 giorni. La cache intelligente (per il salvataggio a livello di frase) dura 7 giorni. Per conservare i file in modo permanente, aggiungili ai tuoi preferiti. Questo garantisce che i tuoi importanti progetti audio non vengano mai persi e rimangano accessibili nel tuo profilo.

Posso usare voci diverse per personaggi diversi in un unico file audio?

Sì! SpeechGen offre la generazione audio multivoce (modalità dialogo). Puoi assegnare voci diverse a diverse sezioni di testo, rendendolo perfetto per audiolibri con più personaggi, dialoghi educativi o podcast con più relatori. Puoi anche usare voci multilingue per passare da una lingua all'altra mantenendo la coerenza del personaggio.

Qual è la differenza tra voci regolari e PRO in SpeechGen?

Le voci PRO offrono una qualità e una naturalezza superiori rispetto alle voci regolari. Di solito hanno una migliore espressione emotiva, una pronuncia più accurata e alcune supportano funzionalità avanzate come i grafici di intonazione. Per progetti professionali come audiolibri, corsi o presentazioni aziendali, si consigliano le voci PRO.

La modifica delle impostazioni audio consuma i miei limiti di caratteri?

Dipende da quali impostazioni modifichi. La regolazione della velocità o del tono del parlato richiede una rigenerazione completa e consumerà i tuoi limiti di caratteri, poiché queste modifiche influiscono sull'intera sintesi vocale. Tuttavia, puoi modificare liberamente le pause tra frasi e paragrafi senza alcun consumo di limiti. Inoltre, SpeechGen utilizza la cache intelligente: se generi un testo lungo, poi modifichi solo una frase e rigeneri, il sistema ti addebiterà solo quella singola frase modificata, non l'intero testo. Questo sistema di cache salva le tue frasi non modificate per 7 giorni, rendendo l'editing iterativo molto economico.

Video

Hai ancora domande?

Ottieni aiuto dalla nostra community! Poni le tue domande nella nostra chat Telegram: https://t.me/speechgen

Utilizziamo i cookie per assicurarti la migliore esperienza sul nostro sito web. Ulteriori informazioni: Informativa sulla privacy

Accetta i cookie