08-09-2025 , 16-09-2025
Apri il menu a tendina delle lingue e seleziona la lingua del tuo testo. Lingue supportate: Oltre 150 lingue (libreria di voci AI).
Dopo aver selezionato la lingua, apparirà un elenco di voci. Ascolta i campioni e scegli la tua preferita.
Copia il tuo testo nella casella di testo o carica un file (DOCX, PDF). Per convertire sottotitoli in voce, usa la pagina dedicata da SRT a voce.
Attendi l'elaborazione e scarica il tuo file audio pronto.
Fatto! Il tuo primo voiceover è pronto in pochi minuti.
💡 Suggerimento: Quando copi da file PDF, presta particolare attenzione al testo: potrebbero apparire caratteri invisibili che rovineranno l'audio!
Massimo per generazione: 2.000.000 di caratteri (≈ 285.000-330.000 parole) - questa è un'impressionante quantità di testo che puoi convertire in voce in un'unica generazione, rendendola ideale per contenuti lunghi come interi libri o documentazione estesa.
⚠️ Importante: Seleziona prima la lingua corretta per il tuo testo
Dopo aver selezionato la lingua, si aprirà un elenco di voci disponibili. Ascolta i campioni cliccando sul pulsante play per ogni voce per trovare quella che meglio si adatta alle tue esigenze. Vedrai diversi tipi di voci disponibili: le voci Regolari offrono qualità standard, le voci PRO forniscono qualità e naturalezza migliorate, e le voci Multilingue (contrassegnate con codici lingua come Ava_US, Ava_ES) ti permettono di mantenere la coerenza della voce tra diverse lingue. Prenditi il tempo di ascoltare ogni voce, poiché variano significativamente in tono, emozione e carattere.
Sotto la casella di testo, sopra il pulsante di generazione, puoi regolare le impostazioni delle pause:
Clicca sul pulsante "Genera Voce" sotto la casella di testo per avviare il processo di conversione. Il tempo di elaborazione dipende dalla lunghezza del tuo testo: testi più brevi completano in secondi, mentre documenti più lunghi possono richiedere alcuni minuti. Una volta completata la generazione, potrai ascoltare il risultato direttamente nel browser per assicurarti che soddisfi le tue aspettative.
Dopo il completamento della generazione, apparirà un pulsante "Scarica". Di default, puoi semplicemente scaricare il file come MP3. Tuttavia, se hai bisogno di un formato diverso (WAV o OPUS) o vuoi cambiare la qualità audio (frequenza di campionamento da 8000 a 44000 Hz), dovrai prima selezionare queste opzioni dai menu a tendina, rigenerare la voce con le impostazioni scelte e poi scaricare il file con le tue specifiche preferite.
Scala di velocità:
Perché questa scala: Valori frazionari inferiori a 1 rallentano il parlato, valori superiori a 1 lo accelerano. Questo permette una selezione precisa del tempo per il tuo pubblico.
Raccomandazioni sulla velocità:
Intervallo del tono: da -20 a +20 con passo 2
Perché il passo 2: Un passo di 2 unità fornisce un cambiamento di tono percettibile ma non brusco. Passi più piccoli sarebbero impercettibili, passi più grandi troppo drastici.
Influenza del tono:
Applicazioni:
Pause tra frasi: 300ms (predefinito)
Pause tra paragrafi: 400ms (predefinito)
Queste impostazioni possono essere modificate nei menu a tendina da 150ms a 30 secondi.
Tramite interfaccia:
Tramite tag:
Inserisci il tag <break time="200ms"/> o <break time="2s"/> nella posizione desiderata
Regole per le pause:
Quando usare le pause:
La funzione dialogo permette di usare voci diverse in un unico testo.
La funzione di dialogo multivoce apre possibilità creative oltre le semplici voci dei personaggi. Gli insegnanti di lingue straniere, ad esempio, possono usare questa funzione per dimostrare la stessa frase a diverse velocità per l'apprendimento delle lingue, aiutando gli studenti a comprendere la pronuncia a diversi livelli di comprensione. Per tecniche dettagliate e applicazioni in classe, consulta la nostra guida su come usare il text-to-speech per l'insegnamento delle lingue straniere.
Le voci con codici lingua (ad esempio, Ava_US, Ava_ES, Ava_DE) sono progettate per mantenere un riconoscimento vocale coerente tra diverse lingue. Queste voci multilingue ti consentono di creare uno stile unificato per contenuti multilingue, garantendo che lo stesso personaggio vocale possa parlare più lingue senza problemi. Questa funzione è particolarmente utile in modalità dialogo, dove puoi passare da una lingua all'altra mantenendo la stessa personalità vocale riconoscibile durante il tuo progetto audio.
SpeechGen ti consente di dividere il tuo audio generato in più segmenti all'interno di un unico progetto di sintesi, rendendolo perfetto per gli editor video che necessitano di file audio separati per diverse scene o capitoli. Questa funzione è particolarmente utile per creare voci fuori campo per video di YouTube, corsi online o qualsiasi progetto che richieda una sincronizzazione audio precisa.
Per dividere l'audio, posiziona semplicemente il cursore dove vuoi dividere il testo e clicca sul pulsante di taglio nel pannello del menu. Questo inserirà un tag <cut/> in quella posizione. Puoi anche digitare manualmente o copiare e incollare questo tag nel tuo testo. Per nomi di file personalizzati, usa questo formato:
<cut name="tuo-nome-file"/>
Questa funzione ti aiuta a organizzare i segmenti con nomi significativi come:
<cut name="introduzione"/>
<cut name="capitolo-1"/>
Una volta aggiunto almeno un tag di segmento, dopo la generazione apparirà un pulsante "scarica segmenti". Cliccaci sopra per scaricare tutti i segmenti contemporaneamente, oppure usa il pulsante "altro" sul lettore audio per accedere ai singoli segmenti. Ogni file viene automaticamente nominato con un ID univoco, un numero di sequenza e un titolo descrittivo (ad esempio, "7054789_1_prima-frase"), rendendo facile identificare e organizzare i tuoi file audio nel tuo software di editing.
Per progetti più grandi, dividi in più generazioni. Per istruzioni complete, tecniche avanzate e tutorial video, visita la nostra documentazione completa sulla segmentazione audio.
Alcune voci hanno grafici di intonazione:
I grafici di intonazione sono disponibili per le voci che mostrano un'icona impostazioni accanto al nome della voce: questa funzione si trova su più della metà delle voci nella libreria, comprese le opzioni regolari e PRO.
Seleziona la frase in cui desideri regolare l'intonazione e premi il pulsante intonazione. Apparirà questa interfaccia.
SpeechGen utilizza un sistema di caching intelligente che consente di risparmiare significativamente sui tuoi limiti. Il sistema funziona salvando ogni frase (fino a 100.000 caratteri) nella cache per 7 giorni. Quando rigeneri il tuo audio, tutte le frasi non modificate vengono recuperate automaticamente dalla cache gratuitamente: paghi solo per le frasi nuove o modificate. Ciò significa che puoi apportare modifiche incrementali al tuo testo senza consumare l'intera quota di caratteri ogni volta. La cronologia dei progetti viene memorizzata per 30 giorni e i file che aggiungi ai preferiti vengono conservati permanentemente.
Periodi di archiviazione:
La voce suona innaturale:
Pronuncia errata:
Pause innaturali:
Errori SSML:
Per un controllo esperto della voce, usa i tag SSML:
⚠️ Attenzione: Voci diverse supportano set diversi di tag SSML. Testa la funzionalità per ogni voce specifica.
L'API è disponibile per gli sviluppatori per integrare SpeechGen.io nelle proprie applicazioni e servizi.
Innanzitutto, verifica che il tuo file sia in un formato supportato (DOCX, PDF o TXT). Assicurati che il file non sia corrotto e prova a caricarlo di nuovo. Se il problema persiste, copia manualmente il testo e incollalo direttamente nella casella di testo. Verifica anche che la dimensione del tuo file non superi i limiti della piattaforma.
La cronologia dei tuoi progetti viene salvata automaticamente per 30 giorni. La cache intelligente (per il salvataggio a livello di frase) dura 7 giorni. Per conservare i file in modo permanente, aggiungili ai tuoi preferiti. Questo garantisce che i tuoi importanti progetti audio non vengano mai persi e rimangano accessibili nel tuo profilo.
Sì! SpeechGen offre la generazione audio multivoce (modalità dialogo). Puoi assegnare voci diverse a diverse sezioni di testo, rendendolo perfetto per audiolibri con più personaggi, dialoghi educativi o podcast con più relatori. Puoi anche usare voci multilingue per passare da una lingua all'altra mantenendo la coerenza del personaggio.
Le voci PRO offrono una qualità e una naturalezza superiori rispetto alle voci regolari. Di solito hanno una migliore espressione emotiva, una pronuncia più accurata e alcune supportano funzionalità avanzate come i grafici di intonazione. Per progetti professionali come audiolibri, corsi o presentazioni aziendali, si consigliano le voci PRO.
Dipende da quali impostazioni modifichi. La regolazione della velocità o del tono del parlato richiede una rigenerazione completa e consumerà i tuoi limiti di caratteri, poiché queste modifiche influiscono sull'intera sintesi vocale. Tuttavia, puoi modificare liberamente le pause tra frasi e paragrafi senza alcun consumo di limiti. Inoltre, SpeechGen utilizza la cache intelligente: se generi un testo lungo, poi modifichi solo una frase e rigeneri, il sistema ti addebiterà solo quella singola frase modificata, non l'intero testo. Questo sistema di cache salva le tue frasi non modificate per 7 giorni, rendendo l'editing iterativo molto economico.
Ottieni aiuto dalla nostra community! Poni le tue domande nella nostra chat Telegram: https://t.me/speechgen