Kako koristiti pretvaranje teksta u govor na SpeechGen.io: Kompletno uputstvo

15-09-2025 , 16-09-2025

🚀 Brzi početak — Kreirajte audio u 4 koraka

Korak 1: Odaberite jezik

Otvorite padajući meni za jezike i izaberite jezik vašeg teksta. Podržani jezici: Preko 150 jezika (biblioteka AI glasova).

Korak 2: Izaberite glas

Nakon odabira jezika, pojaviće se lista glasova. Poslušajte primere i izaberite svoj omiljeni.

Korak 3: Ubacite tekst

Kopirajte svoj tekst u polje za tekst ili otpremite datoteku (DOCX, PDF). Za pretvaranje titlova u govor, koristite namenski SRT u glas stranicu.

Korak 4: Kliknite "Generiši govor" (plavo dugme)

Korak 4: Kliknite Generiši govor

Sačekajte obradu i preuzmite svoju gotovu audio datoteku.

To je to! Vaš prvi glasovni zapis je spreman za samo nekoliko minuta.

Priprema teksta

Preporučeno:

Koristite običan tekst bez nepotrebnih simbola.
Pravilno postavite znake interpunkcije (tačke, zareze, uzvičnike).
Podelite dug tekst na paragrafe.

Izbegavajte:

Emojis i emotikone (mogu ometati generisanje zvuka).
Egzotične simbole: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Specijalne Unicode simbole:

💡 Savet: Prilikom kopiranja iz PDF datoteka, obratite posebnu pažnju na tekst — mogu se pojaviti nevidljivi znakovi koji će pokvariti zvuk!

Ograničenja i restrikcije

Podržani jezici: 150+ jezika (kompletna lista).
Formati za otpremanje: običan tekst, DOCX, PDF, SRT.

Maksimalno po generaciji: 2.000.000 karaktera (≈ 285.000-330.000 reči) - ovo je impresivna količina teksta koju možete pretvoriti u govor u jednoj generaciji, što ga čini idealnim za duge sadržaje poput celih knjiga ili opsežne dokumentacije.

Detaljna uputstva korak po korak

Korak 1: Otpremite tekst

Ubaci tekst: Kopirajte svoj tekst u polje za tekst.
Otpremi datoteku: Ili kliknite na dugme za otpremanje i izaberite datoteku (DOCX, PDF).
Proveri tekst: Uverite se da se tekst pravilno prikazuje.

Korak 2: Odaberite jezik

⚠️ Važno: Prvo izaberite ispravan jezik za svoj tekst.

Otvorite padajući meni za jezike.
Pronađite željeni jezik (dostupno je 150+ jezika).
Za tekstove na više jezika, koristite generisanje audio zapisa sa više glasova.

Korak 3: Izaberite glas

Nakon odabira jezika, otvoriće se lista dostupnih glasova. Poslušajte primere klikom na dugme za reprodukciju za svaki glas kako biste pronašli onaj koji najbolje odgovara vašim potrebama. Videćete različite tipove glasova na raspolaganju: Redovni glasovi nude standardni kvalitet, PRO glasovi pružaju poboljšani kvalitet i prirodnost, a Višejezični glasovi (označeni kodovima jezika kao što su Ava_US, Ava_ES) omogućavaju vam da održite konzistentnost glasa preko različitih jezika. Odvojite vreme da pregledate svaki glas jer se značajno razlikuju po tonu, emociji i karakteru.

Korak 4: Konfigurišite parametre

Brzina govora: od x0.1 (veoma sporo) do x2.2 (veoma brzo).
Visina glasa: od -20 do +20 (korak 2).

Ispod polja za tekst, iznad dugmeta za generisanje, možete podesiti postavke pauze:

podešavanja pauze

Pauze između rečenica: 150ms - 30 sekundi.
Pauze između paragrafa: 150ms - 30 sekundi.

Korak 5: Generišite govor

Kliknite na dugme "Generiši govor" ispod polja za tekst da biste započeli proces konverzije. Vreme obrade zavisi od dužine vašeg teksta - kraći tekstovi se završavaju za sekunde, dok duži dokumenti mogu potrajati nekoliko minuta. Kada se generisanje završi, moći ćete da slušate rezultat direktno u pregledaču kako biste se uverili da ispunjava vaša očekivanja.

Korak 6: Preuzimanje

Nakon završetka generisanja, pojaviće se dugme "Preuzmi". Podrazumevano, možete jednostavno preuzeti datoteku kao MP3. Međutim, ako vam je potreban drugačiji format (WAV ili OPUS) ili želite da promenite kvalitet zvuka (frekvencija uzorkovanja od 8000 do 44000 Hz), prvo morate izabrati te opcije iz padajućih menija, ponovo generisati govor sa izabranim postavkama, a zatim preuzeti datoteku sa vašim željenim specifikacijama.

Podešavanja audio parametara

Brzina govora

Skala brzine:

x0.1 - x0.9: Usporavanje (za složen materijal, učenje jezika).
x1.0: Normalna brzina (podrazumevano).
x1.1 - x2.2: Ubrzavanje (za dinamičan sadržaj).

Zašto ova skala: Fraktalne vrednosti manje od 1 usporavaju govor, veće od 1 ubrzavaju. Ovo omogućava precizan odabir tempa za vašu publiku.

Preporuke za brzinu:

Obrazovanje: x0.8-x1.0 (za bolje razumevanje).
Prezentacije: x0.9-x1.1 (zvanični tempo).
Podkasti: x1.0-x1.2 (živahan tempo).
YouTube: x1.1-x1.4 (zadržavanje pažnje).

Visina glasa

Opseg visine: od -20 do +20 sa korakom 2.

Zašto korak 2: Korak od 2 jedinice pruža primetnu, ali ne oštru promenu visine. Manji koraci bi bili neprimetni, veći koraci previše dramatični.

Uticaj visine:

Negativne vrednosti (-2 do -20): Čine glas nižim, ozbiljnijim, autoritativnijim.
Pozitivne vrednosti (+2 do +20): Čine glas višim, prijateljskijim, energičnijim.
0: Neutralna visina (podrazumevano).

Primene:

Poslovni sadržaj: -4 do +2.
Sadržaj za decu: +4 do +12.
Dramski sadržaj: -8 do -16.
Prijateljski sadržaj: +2 do +8.

Rad sa pauzama

Automatske pauze

Pauze između rečenica: 300ms (podrazumevano).

Pauze između paragrafa: 400ms (podrazumevano).

Ova podešavanja se mogu promeniti u padajućim menijima od 150ms do 30 sekundi.

Umetanje ručnih pauza

Kroz interfejs:

Postavite kursor na željeno mesto u tekstu.
Kliknite na dugme "Pauza" u meniju.
Simbol .- će se pojaviti u tekstu.

Kroz tagove:

Umetnite tag <break time="200ms"/> ili <break time="2s"/> na željenom mestu.

Pravila za pauze:

Maksimalna pauza: 30 sekundi.
Može se postaviti više pauza zaredom za duže kašnjenje.
Pauze ne troše dodatna ograničenja.

Kada koristiti pauze:

Pre važnih izjava.
Posle retoričkih pitanja.
Između različitih tema.
Da se stvori dramatičan efekat.

Audio sa više glasova

Funkcija dijalog omogućava korišćenje različitih glasova u jednom tekstu.

Primene:

Audio knjige: Različiti glasovi za likove.
Obrazovni dijalozi: Učitelj i učenik.
Prezentacije: Glavni govornik i komentator.
Podkasti: Više voditelja.

Funkcija dijaloga sa više glasova otvara kreativne mogućnosti izvan samo glasova likova. Nastavnici stranih jezika, na primer, mogu koristiti ovu funkciju da prikažu istu frazu različitim brzinama za učenje jezika, pomažući učenicima da savladaju izgovor na različitim nivoima razumevanja. Za detaljne tehnike i primene u učionici, pogledajte naše uputstvo o korišćenju pretvaranja teksta u govor za nastavu stranih jezika.

Izbor glasa

Višejezični glasovi

Glasovi sa kodovima jezika (npr. Ava_US, Ava_ES, Ava_DE) dizajnirani su da održe dosledno prepoznavanje glasa preko različitih jezika. Ovi višejezični glasovi vam omogućavaju da stvorite jedinstven stil za višejezični sadržaj, osiguravajući da isti karakter glasa može govoriti više jezika bez problema. Ova funkcija je posebno korisna u režimu dijaloga, gde možete prelaziti između jezika zadržavajući istu prepoznatljivu ličnost glasa tokom vašeg audio projekta.

Segmentacija zvuka

SpeechGen vam omogućava da podelite svoj generisani audio na više segmenata unutar jednog projekta sinteze, što ga čini savršenim za video urednike kojima su potrebne odvojene audio datoteke za različite scene ili poglavlja. Ova funkcija je posebno korisna za kreiranje glasovnih snimaka za YouTube video snimke, online kurseve ili bilo koji projekat koji zahteva preciznu sinhronizaciju zvuka.

Kako kreirati segmente

Da biste podelili svoj audio, jednostavno postavite kursor tamo gde želite da podelite tekst i kliknite na dugme za sečenje u panelu menija. Ovo ubacuje <cut/> tag na toj poziciji. Takođe možete ručno upisati ili kopirati/zalepiti ovaj tag kroz vaš tekst. Za prilagođena imena datoteka, koristite ovaj format:

<cut name="vaše-ime-datoteke"/>

Ova funkcija vam pomaže da organizujete segmente sa smislenim imenima kao što su:

<cut name="uvod"/>

<cut name="poglavlje-1"/>

Preuzimanje i upravljanje segmentima

Kada dodate najmanje jedan tag za segment, dugme "preuzmi segmente" se pojavljuje nakon generisanja. Kliknite na njega da biste preuzeli sve segmente odjednom, ili koristite dugme "više" na audio plejeru da biste pristupili pojedinačnim segmentima. Svaka datoteka se automatski imenuje jedinstvenim ID-om, brojem sekvence i opisnim naslovom (npr. "7054789_1_prva-recenica"), što olakšava identifikaciju i organizaciju vaših audio datoteka u vašem softveru za uređivanje.

Ograničenja segmenata

Kratki segmenti: Do 1000 segmenata po generaciji.
Dugi segmenti: Do 500 segmenata po generaciji.

Za veće projekte, podelite ih na više generacija. Za potpuna uputstva, napredne tehnike i video tutorijale, posetite našu kompletnu dokumentaciju o segmentaciji zvuka.

Podešavanje intonacije

Neki glasovi imaju grafike intonacije:

Grafike intonacije su dostupne za glasove koji prikazuju ikonicu podešavanja pored imena glasa - ova funkcija se nalazi na više od polovine glasova u biblioteci, uključujući i redovne i PRO opcije.

Prevucite tačke na grafikonu da biste promenili intonaciju.
Podignite tačke da biste povećali visinu tona na određenim rečima.
Spustite tačke da biste stvorili ozbiljniji ton.
Eksperimentišite sa različitim krivuljama za prirodnost.

Prevucite tačke na grafikonu da biste promenili intonaciju

Izaberite rečenicu u kojoj želite da prilagodite intonaciju i pritisnite dugme intonacija. Pojaviće se ovaj interfejs.

Sistem keširanja i ušteda limita

Pametni keš

SpeechGen. koristi inteligentni sistem keširanja koji značajno štedi vaše limite. Sistem radi tako što svaku rečenicu (do 100.000 karaktera) kešira na 7 dana. Kada ponovo generišete svoj audio, sve nepromenjene rečenice se automatski preuzimaju iz keša besplatno - plaćate samo za nove ili izmenjene rečenice. To znači da možete vršiti postepene izmene svog teksta bez trošenja celokupnog karakternog dodatka svaki put. Istorija projekata se čuva 30 dana, a datoteke koje dodate u omiljene čuvaju se trajno.

Periodi skladištenja:

Keš rečenica: 7 dana.
Istorija projekata: 30 dana.
Omiljene datoteke: Čuvaju se trajno.

Rešavanje uobičajenih problema

Problemi sa kvalitetom zvuka

Glas zvuči neprirodno:

Pokušajte sa PRO glasovima.
Smanjite brzinu na x0.9-x1.1.
Proverite ispravnost interpunkcije.
Koristite neutralnu visinu tona (0).

Netačan izgovor:

Uverite se da je izabran ispravan jezik.
Pišite složene reči fonetski.
Koristite SSML tagove za preciznu kontrolu.

Neprirodne pauze:

Proverite interpunkciju.
Konfigurišite pauze između rečenica.
Koristite ručne pauze .- ili <break time=""/>.
Uklonite dodatne razmake i prelome redova.

SSML greške:

Proverite ispravnost tagova.
Nisu svi glasovi podržani svim SSML tagovima.

Dodatne funkcije

SSML (Speech Synthesis Markup Language)

Za stručnu kontrolu glasa, koristite SSML tagove:

<break time="2s"/> — pauze.
<emphasis level="strong"> — naglasak glasa.
<prosody rate="slow" pitch="low"> — promena karakteristika govora.

⚠️ Pažnja: Različiti glasovi podržavaju različite setove SSML tagova. Testirajte funkcionalnost za svaki specifični glas.

Istorija i omiljeni

Istorija projekata: Automatski se čuva 30 dana.
Omiljeni: Dodajte važne projekte za trajno čuvanje.

Integracija i API

API je dostupan za programere za integraciju SpeechGen.io u njihove sopstvene aplikacije i usluge.

Moj fajl se ne otprema na SpeechGen. Šta da radim?

Prvo proverite da li je vaš fajl u podržanom formatu (DOCX, PDF ili TXT). Uverite se da fajl nije oštećen i pokušajte ponovo da ga otpremite. Ako problem i dalje postoji, kopirajte tekst ručno i zalepite ga direktno u polje za tekst. Takođe proverite da li veličina vašeg fajla ne prelazi ograničenja platforme.

Koliko dugo SpeechGen čuva moje generisane audio fajlove?

Istorija vaših projekata se automatski čuva 30 dana. Pametni keš (za uštede na nivou rečenica) traje 7 dana. Da biste sačuvali fajlove trajno, dodajte ih u svoje omiljene. Ovo osigurava da vaši važni audio projekti nikada ne budu izgubljeni i da ostanu dostupni u vašem profilu.

Mogu li da koristim različite glasove za različite likove u jednom audio fajlu?

Da! SpeechGen nudi generisanje audio zapisa sa više glasova (režim dijaloga). Možete dodeliti različite glasove različitim delovima teksta, što ga čini savršenim za audio knjige sa više likova, obrazovne dijaloge ili podkaste sa više govornika. Možete čak koristiti višejezične glasove da prelazite između jezika, zadržavajući doslednost karaktera glasa.

Koja je razlika između redovnih i PRO glasova u SpeechGen-u?

PRO glasovi nude superiorniji kvalitet i prirodnost u poređenju sa redovnim glasovima. Oni obično imaju bolju emocionalnu ekspresiju, precizniji izgovor, a neki podržavaju napredne funkcije poput grafika intonacije. Za profesionalne projekte kao što su audio knjige, kursevi ili poslovne prezentacije, preporučuju se PRO glasovi.

Da li promena audio postavki troši moje karaktere?

Zavisi od toga koje postavke menjate. Podešavanje brzine govora ili visine tona zahteva potpunu regeneraciju i troši vaše karaktere, jer ove promene utiču na celokupnu sintezu glasa. Međutim, možete slobodno menjati pauze između rečenica i paragrafa bez ikakvog trošenja limita. Dodatno, SpeechGen koristi pametno keširanje: ako generišete dug tekst, zatim izmenite samo jednu rečenicu i ponovo generišete, sistem će vam naplatiti samo tu jednu izmenjenu rečenicu, a ne ceo tekst. Ovaj sistem keširanja čuva vaše nepromenjene rečenice 7 dana, čineći iterativno uređivanje veoma ekonomičnim.

Video

Još uvek imate pitanja?

Potražite pomoć u našoj zajednici! Postavite svoja pitanja u našem Telegram četu: https://t.me/speechgen

Programeri

Profil

Vodiči