Cum să folosești Text to Speech pe SpeechGen.io: Ghid Complet

08-09-2025 , 16-09-2025

🚀 Pornire Rapidă — Creează Audio în 4 Pași

Pasul 1: Selectează Limba

Deschide lista derulantă de limbi și selectează limba textului tău. Limbi suportate: Peste 150 de limbi (bibliotecă de voci AI).

Pasul 2: Alege Vocea

După selectarea limbii, va apărea o listă de voci. Ascultă mostre și alege-ți favorita

Pasul 3: Introdu Textul

Copiază textul tău în caseta de text sau încarcă un fișier (DOCX, PDF). Pentru a converti subtitrări în voce, folosește pagina dedicată SRT în voce.

Pasul 4: Apasă "Generează Voce" (buton albastru)

Pasul 4: Apasă Generează Voce

Așteaptă procesarea și descarcă fișierul audio gata

Gata! Primul tău voiceover este pregătit în doar câteva minute.

Pregătirea Textului

Recomandat:

Folosește text simplu, fără simboluri inutile
Plasează corect semnele de punctuație (puncte, virgule, semne de exclamare)
Împarte textul lung în paragrafe

Evită:

Emoji-uri și emoticoane (pot perturba generarea audio)
Simboluri exotice: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Simboluri Unicode speciale:

💡 Sfat: Când copiezi din fișiere PDF, acordă o atenție deosebită textului — pot apărea caractere invizibile care vor strica sunetul!

Limite și Restricții

Limbi suportate: 150+ limbi (listă completă).
Formate de încărcare: text simplu, DOCX, PDF, SRT.

Maxim per generare: 2.000.000 de caractere (≈ 285.000-330.000 de cuvinte) - aceasta este cantitatea impresionantă de text pe care o poți converti în voce într-o singură generare, fiind ideală pentru conținut de lungă durată, cum ar fi cărți întregi sau documentație extinsă.

Instrucțiuni Detaliate Pas cu Pas

Pasul 1: Încarcă Textul

Introdu text: Copiază textul tău în caseta de text
Încarcă fișier: Sau apasă butonul de încărcare și selectează un fișier (DOCX, PDF)
Verifică textul: Asigură-te că textul este afișat corect

Pasul 2: Selectează Limba

⚠️ Important: Mai întâi selectează limba corectă pentru textul tău

Deschide lista derulantă de limbi
Găsește limba dorită (peste 150 de limbi disponibile)
Pentru texte multilingve, folosește generarea audio cu mai multe voci

Pasul 3: Alege Vocea

După selectarea limbii, se va deschide o listă cu vocile disponibile. Ascultă mostre apăsând butonul de redare pentru fiecare voce pentru a o găsi pe cea care se potrivește cel mai bine nevoilor tale. Vei vedea diferite tipuri de voci disponibile: Vocile Regulate oferă calitate standard, vocile PRO oferă calitate și naturalețe îmbunătățite, iar vocile Multilingve (marcate cu coduri de limbă precum Ava_US, Ava_ES) îți permit să menții consistența vocii pe diferite limbi. Acordă-ți timp să previzualizezi fiecare voce, deoarece acestea variază semnificativ în ton, emoție și caracter.

Pasul 4: Configurează Parametrii

Viteza vorbirii: de la x0.1 (foarte lent) la x2.2 (foarte rapid)
Tonul vocii: de la -20 la +20 (pas 2)

Sub caseta de text, deasupra butonului de generare, poți ajusta setările pentru pauze:

setări pauze

Pauze între propoziții: 150ms - 30 secunde
Pauze între paragrafe: 150ms - 30 secunde

Pasul 5: Generează Vocea

Apasă butonul "Generează Voce" de sub caseta de text pentru a începe procesul de conversie. Timpul de procesare depinde de lungimea textului tău - textele mai scurte se finalizează în secunde, în timp ce documentele mai lungi pot dura câteva minute. Odată ce generarea este completă, vei putea asculta rezultatul direct în browser pentru a te asigura că corespunde așteptărilor tale.

Pasul 6: Descarcă

După finalizarea generării, va apărea un buton "Descarcă". Implicit, poți descărca fișierul ca MP3. Totuși, dacă ai nevoie de un alt format (WAV sau OPUS) sau vrei să schimbi calitatea audio (rata de eșantionare de la 8000 la 44000 Hz), va trebui mai întâi să selectezi aceste opțiuni din meniurile derulante, să regenerezi vocea cu setările alese și apoi să descarci fișierul cu specificațiile preferate.

Setări Parametri Audio

Viteza Vorbirii

Scara vitezei:

x0.1 - x0.9: Încetinire (pentru material complex, învățarea limbilor străine)
x1.0: Viteză normală (implicit)
x1.1 - x2.2: Accelerare (pentru conținut dinamic)

Scara aceasta: Valorile fracționare mai mici de 1 încetinesc vorbirea, cele mai mari de 1 o accelerează. Acest lucru permite o selecție precisă a tempoului pentru publicul tău.

Recomandări de viteză:

Educație: x0.8-x1.0 (pentru o mai bună înțelegere)
Prezentări: x0.9-x1.1 (ritm oficial)
Podcasturi: x1.0-x1.2 (ritm alert)
YouTube: x1.1-x1.4 (menținerea atenției)

Tonul Vocii

Interval ton: de la -20 la +20 cu pas de 2

De ce pasul 2: Un pas de 2 unități oferă o schimbare de ton perceptibilă, dar nu bruscă. Pașii mai mici ar fi imperceptibili, cei mai mari prea dramatici.

Influența tonului:

Valori negative (-2 la -20): Fac vocea mai joasă, mai serioasă, autoritară
Valori pozitive (+2 la +20): Fac vocea mai înaltă, mai prietenoasă, mai energică
0: Ton neutru (implicit)

Aplicații:

Conținut de afaceri: -4 la +2
Conținut pentru copii: +4 la +12
Conținut dramatic: -8 la -16
Conținut prietenos: +2 la +8

Lucrul cu Pauzele

Pauze Automate

Pauze între propoziții: 300ms (implicit)

Pauze între paragrafe: 400ms (implicit)

Aceste setări pot fi modificate în meniurile derulante de la 150ms la 30 secunde.

Inserare Pauză Manuală

Prin interfață:

Plasează cursorul în locația dorită din text
Apasă butonul "Pauză" din meniu
Simbolul .- va apărea în text

Prin etichete:

Introdu eticheta <break time="200ms"/> sau <break time="2s"/> în locația dorită

Reguli pentru pauze:

Pauză maximă: 30 secunde
Se pot plasa mai multe pauze consecutiv pentru o întârziere mai mare
Pauzele nu consumă limite suplimentare

Când să folosești pauze:

Înainte de afirmații importante
După întrebări retorice
Între subiecte diferite
Pentru a crea efect dramatic

Audio cu Mai Multe Voci

Funcția de dialog permite utilizarea diferitelor voci într-un singur text.

Aplicații:

Cărți audio: Voci diferite pentru personaje
Dialoguri educaționale: Profesor și elev
Prezentări: Vorbitor principal și comentator
Podcasturi: Mai mulți gazde

Funcția de dialog cu mai multe voci deschide posibilități creative dincolo de simplele voci de personaje. Profesorii de limbi străine, de exemplu, pot folosi această funcție pentru a demonstra aceeași frază la viteze diferite pentru învățarea limbilor străine, ajutând elevii să înțeleagă pronunția la diferite niveluri de înțelegere. Pentru tehnici detaliate și aplicații în clasă, consultați ghidul nostru despre utilizarea text-to-speech pentru predarea limbilor străine.

Selecția Vocii

Voci Multilingve

Vocile cu coduri de limbă (de exemplu, Ava_US, Ava_ES, Ava_DE) sunt concepute pentru a menține o recunoaștere consistentă a vocii pe diferite limbi. Aceste voci multilingve îți permit să creezi un stil unitar pentru conținut multilingv, asigurând că aceeași personalitate vocală poate vorbi mai multe limbi fără probleme. Această funcție este deosebit de utilă în modul dialog, unde poți comuta între limbi păstrând aceeași personalitate vocală recunoscută pe parcursul proiectului tău audio.

Segmentare Audio

SpeechGen îți permite să împarți audio-ul generat în mai multe segmente în cadrul unui singur proiect de sinteză, fiind perfect pentru editorii video care au nevoie de fișiere audio separate pentru diferite scene sau capitole. Această funcție este deosebit de utilă pentru crearea de voiceover-uri pentru videoclipuri YouTube, cursuri online sau orice proiect care necesită o sincronizare audio precisă.

Cum să Creezi Segmente

Pentru a-ți împărți audio-ul, pur și simplu plasează cursorul acolo unde vrei să divizezi textul și apasă butonul de tăiere din panoul de meniu. Aceasta inserează o etichetă <cut/> în acea poziție. Poți, de asemenea, să tastezi manual sau să copiezi și să lipești această etichetă în tot textul tău. Pentru nume de fișiere personalizate, folosește acest format:

<cut name="numele-tau-de-fisier"/>

Această funcție te ajută să organizezi segmentele cu nume sugestive, cum ar fi:

<cut name="introducere"/>

<cut name="capitol-1"/>

Descărcarea și Gestionarea Segmentelor

După ce ai adăugat cel puțin o etichetă de segment, un buton "descarcă segmente" apare după generare. Apasă-l pentru a descărca toate segmentele odată, sau folosește butonul "mai mult" de pe playerul audio pentru a accesa segmentele individuale. Fiecare fișier este denumit automat cu un ID unic, un număr de secvență și un titlu descriptiv (de exemplu, "7054789_1_prima-propozitie"), făcând ușoară identificarea și organizarea fișierelor audio în software-ul tău de editare.

Limitări ale Segmentelor

Segmente scurte: Până la 1000 de segmente per generare
Segmente lungi: Până la 500 de segmente per generare

Pentru proiecte mai mari, împarte-le în mai multe generări. Pentru instrucțiuni complete, tehnici avansate și tutoriale video, vizitează documentația noastră completă despre segmentarea audio la segmentarea audio completă.

Setarea Intonației

Unele voci au grafice de intonație:

Graficele de intonație sunt disponibile pe vocile care afișează o pictogramă de setări lângă numele vocii - această funcție se găsește pe mai mult de jumătate din vocile din bibliotecă, incluzând opțiuni regulate și PRO

Trage punctele pe grafic pentru a schimba intonația
Ridică punctele pentru a crește tonul pe anumite cuvinte
Cobori punctele pentru a crea un ton mai serios
Experimentează cu diferite curbe pentru naturalețe

Trage punctele pe grafic pentru a schimba intonația

Selectează propoziția în care vrei să ajustezi intonația și apasă butonul de intonație. Va apărea această interfață.

Sistem de Cache și Economisirea Limitelor

Cache Inteligent

SpeechGen. folosește un sistem inteligent de cache care îți economisește semnificativ limitele. Sistemul funcționează prin salvarea fiecărei propoziții (până la 100.000 de caractere) în cache timp de 7 zile. Când regenerezi audio-ul, orice propoziție neschimbată este preluată automat din cache gratuit - plătești doar pentru propozițiile noi sau modificate. Acest lucru înseamnă că poți face editări incrementale la textul tău fără a consuma întreaga alocare de caractere de fiecare dată. Istoricul proiectelor este stocat timp de 30 de zile, iar fișierele pe care le adaugi la favorite sunt păstrate permanent.

Perioade de stocare:

Cache propoziții: 7 zile
Istoric proiecte: 30 zile
Fișiere favorite: Stocate permanent

Depanarea Problemelor Comune

Probleme de Calitate Audio

Vocea sună nenatural:

Încearcă vocile PRO
Redu viteza la x0.9-x1.1
Verifică corectitudinea punctuației
Folosește ton neutru (0)

Pronunție incorectă:

Asigură-te că limba corectă este selectată
Scrie cuvintele complexe fonetic
Folosește etichete SSML pentru control precis

Pauze nenaturale:

Verifică punctuația
Configurează pauzele între propoziții
Folosește pauze manuale .- sau <break time=""/>
Elimină spațiile și întreruperile de linie suplimentare

Erori SSML:

Verifică corectitudinea etichetelor
Nu toate vocile suportă toate etichetele SSML

Funcții Suplimentare

SSML (Speech Synthesis Markup Language)

Pentru control expert al vocii, folosește etichete SSML:

<break time="2s"/> — pauze
<emphasis level="strong"> — accentuare vocală
<prosody rate="slow" pitch="low"> — schimbarea caracteristicilor vorbirii

⚠️ Atenție: Diferite voci suportă seturi diferite de etichete SSML. Testează funcționalitatea pentru fiecare voce specifică.

Istoric și Favorite

Istoric proiecte: Salvat automat timp de 30 de zile
Favorite: Adaugă proiecte importante pentru stocare permanentă

Integrare și API

API-ul este disponibil pentru dezvoltatori pentru a integra SpeechGen.io în propriile aplicații și servicii.

Fișierul meu nu se încarcă pe SpeechGen. Ce ar trebui să fac?

Mai întâi, verifică dacă fișierul tău este într-un format suportat (DOCX, PDF sau TXT). Asigură-te că fișierul nu este corupt și încearcă să-l încarci din nou. Dacă problema persistă, copiază textul manual și lipește-l direct în caseta de text. Verifică, de asemenea, dacă dimensiunea fișierului tău nu depășește limitele platformei.

Cât timp păstrează SpeechGen fișierele mele audio generate?

Istoricul proiectelor tale este salvat automat timp de 30 de zile. Cache-ul inteligent (pentru economisirea la nivel de propoziție) durează 7 zile. Pentru a păstra fișierele permanent, adaugă-le la favorite. Acest lucru asigură că proiectele tale audio importante nu se pierd niciodată și rămân accesibile în profilul tău.

Pot folosi voci diferite pentru personaje diferite într-un singur fișier audio?

Da! SpeechGen oferă generare audio cu mai multe voci (mod dialog). Poți atribui voci diferite secțiunilor de text diferite, făcându-l perfect pentru cărți audio cu mai multe personaje, dialoguri educaționale sau podcasturi cu mai mulți vorbitori. Poți chiar folosi voci multilingve pentru a comuta între limbi, menținând consistența personajului.

Care este diferența dintre vocile regulate și cele PRO în SpeechGen?

Vocile PRO oferă o calitate și o naturalețe superioare comparativ cu vocile regulate. Ele au, de obicei, o expresivitate emoțională mai bună, o pronunție mai precisă și unele suportă funcții avansate precum graficele de intonație. Pentru proiecte profesionale precum cărți audio, cursuri sau prezentări de afaceri, vocile PRO sunt recomandate.

Modificarea setărilor audio consumă din limitele mele de caractere?

Depinde de setările pe care le modifici. Ajustarea vitezei vorbirii sau a tonului necesită regenerare completă și va consuma limitele tale de caractere, deoarece aceste modificări afectează întreaga sinteză vocală. Totuși, poți modifica liber pauzele dintre propoziții și paragrafe fără niciun consum de limită. În plus, SpeechGen folosește cache inteligent: dacă generezi un text lung, apoi editezi doar o propoziție și regenerezi, sistemul te va taxa doar pentru acea singură propoziție modificată, nu pentru întregul text. Acest sistem de cache îți salvează propozițiile neschimbate timp de 7 zile, făcând editarea iterativă foarte economică.

Video

Încă ai Întrebări?

Obține ajutor de la comunitatea noastră! Pune-ți întrebările în chat-ul nostru de Telegram: https://t.me/speechgen