Kaip naudoti tekstą į kalbą „SpeechGen.io“: išsamus vadovas

08-09-2025 , 16-09-2025

🚀 Greita pradžia – sukurkite garsą per 4 žingsnius

1 žingsnis: Pasirinkite kalbą

Atidarykite kalbos išskleidžiamąjį meniu ir pasirinkite savo teksto kalbą. Palaikomos kalbos: Daugiau nei 150 kalbų (dirbtinio intelekto balsų biblioteka).

2 žingsnis: Pasirinkite balsą

Pasirinkę kalbą, pasirodys balsų sąrašas. Klausykitės pavyzdžių ir pasirinkite savo mėgstamiausią.

3 žingsnis: Įklijuokite tekstą

Nukopijuokite tekstą į teksto laukelį arba įkelkite failą (DOCX, PDF). Norėdami konvertuoti subtitrus į kalbą, naudokite specialų puslapį SRT į balsą.

4 žingsnis: Spustelėkite „Generuoti kalbą“ (mėlynas mygtukas)

4 žingsnis: Spustelėkite Generuoti kalbą

Palaukite apdorojimo ir atsisiųskite paruoštą garso failą.

Štai ir viskas! Jūsų pirmasis balsas paruoštas vos per kelias minutes.

Teksto paruošimas

Rekomenduojama:

Naudokite paprastą tekstą be nereikalingų simbolių.
Tinkamai rašykite skyrybos ženklus (taškus, kablelius, šauktukus).
Ilgą tekstą suskirstykite į pastraipas.

Venkite:

Emocijų ir jaustukų (gali sutrikdyti garso generavimą).
Egzotinių simbolių: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Specialių Unicode simbolių:

💡 Patarimas: Kopijuodami iš PDF failų, atkreipkite ypatingą dėmesį į tekstą – gali atsirasti nematomi simboliai, kurie sugadins garsą!

Apribojimai ir taisyklės

Palaikomos kalbos: 150+ kalbų (pilnas sąrašas).
Įkėlimo formatai: paprastas tekstas, DOCX, PDF, SRT.

Didžiausias kiekis vienai generacijai: 2 000 000 simbolių (≈ 285 000–330 000 žodžių) – tai įspūdingas teksto kiekis, kurį galite konvertuoti į kalbą vienos generacijos metu, todėl jis idealiai tinka ilgiems turiniams, tokiems kaip visos knygos ar išsami dokumentacija.

Išsamios instrukcijos

1 žingsnis: Įkelkite tekstą

Įklijuokite tekstą: Nukopijuokite tekstą į teksto laukelį.
Įkelkite failą: Arba spustelėkite įkėlimo mygtuką ir pasirinkite failą (DOCX, PDF).
Patikrinkite tekstą: Įsitikinkite, kad tekstas rodomas teisingai.

2 žingsnis: Pasirinkite kalbą

⚠️ Svarbu: Pirmiausia pasirinkite tinkamą savo teksto kalbą.

Atidarykite kalbos išskleidžiamąjį sąrašą.
Raskite reikiamą kalbą (prieinama 150+ kalbų).
Kelių kalbų tekstams naudokite kelių balsų garso generavimą.

3 žingsnis: Pasirinkite balsą

Pasirinkus kalbą, atsiras turimų balsų sąrašas. Klausykitės pavyzdžių spustelėdami atkūrimo mygtuką kiekvienam balsui, kad rastumėte tinkamiausią. Galėsite rinktis skirtingus balso tipus: įprasti balsai siūlo standartinę kokybę, PRO balsai – pagerintą kokybę ir natūralumą, o kelių kalbų balsai (pažymėti kalbos kodais, pvz., Ava_US, Ava_ES) leidžia išlaikyti balso nuoseklumą skirtingose kalbose. Skirkite laiko kiekvieno balso peržiūrai, nes jie skiriasi tonu, emocijomis ir charakteriu.

4 žingsnis: Nustatykite parametrus

Kalbėjimo greitis: nuo x0.1 (labai lėtai) iki x2.2 (labai greitai).
Balso tonas: nuo -20 iki +20 (žingsnis 2).

Po teksto laukeliu, prieš generavimo mygtuką, galite reguliuoti pauzių nustatymus:

pauzių nustatymai

Pauzes tarp sakinių: 150ms – 30 sekundžių.
Pauzes tarp pastraipų: 150ms – 30 sekundžių.

5 žingsnis: Generuokite kalbą

Spustelėkite mygtuką „Generuoti kalbą“ po teksto laukeliu, kad pradėtumėte konvertavimo procesą. Apdorojimo laikas priklauso nuo jūsų teksto ilgio – trumpesni tekstai apdorojami per kelias sekundes, o ilgesni dokumentai gali užtrukti kelias minutes. Kai generavimas bus baigtas, galėsite tiesiogiai naršyklėje klausytis rezultato, kad įsitikintumėte, jog jis atitinka jūsų lūkesčius.

6 žingsnis: Atsisiųskite

Baigus generavimą, pasirodys mygtukas „Atsisiųsti“. Pagal numatytuosius nustatymus galite tiesiog atsisiųsti failą kaip MP3. Tačiau, jei jums reikia kito formato (WAV arba OPUS) arba norite pakeisti garso kokybę (dažnių santykis nuo 8000 iki 44000 Hz), pirmiausia turėsite pasirinkti šias parinktis išskleidžiamuosiuose meniu, pakartotinai generuoti kalbą su pasirinktais nustatymais, o tada atsisiųsti failą su pageidaujamomis specifikacijomis.

Garso parametrų nustatymai

Kalbėjimo greitis

Greičio skalė:

x0.1 – x0.9: Lėtinimas (sudėtingai medžiagai, kalbų mokymuisi).
x1.0: Normalus greitis (numatytasis).
x1.1 – x2.2: Pagreitinimas (dinamiškam turiniui).

Kodėl tokia skalė: Dalinės reikšmės mažesnės nei 1 sulėtina kalbą, didesnės nei 1 – pagreitina. Tai leidžia tiksliai pasirinkti tempą savo auditorijai.

Greičio rekomendacijos:

Švietimas: x0.8–x1.0 (geresniam supratimui).
Pristatymai: x0.9–x1.1 (oficialus tempas).
Podcastai: x1.0–x1.2 (gyvas tempas).
YouTube: x1.1–x1.4 (dėmesio išlaikymui).

Balso tonas

Tono diapazonas: nuo -20 iki +20 su 2 žingsniu.

Kodėl 2 žingsnis: 2 vienetų žingsnis suteikia pastebimą, bet ne staigų tono pokytį. Mažesni žingsniai būtų nepastebimi, didesni – per daug dramatiški.

Tono įtaka:

Neigiamos reikšmės (-2 iki -20): Padaro balsą žemesnį, rimtesnį, autoritetingesnį.
Teigiamos reikšmės (+2 iki +20): Padaro balsą aukštesnį, draugiškesnį, energingesnį.
0: Neutralus tonas (numatytasis).

Naudojimo atvejai:

Verslo turinys: -4 iki +2.
Vaikų turinys: +4 iki +12.
Dramatiškas turinys: -8 iki -16.
Draugiškas turinys: +2 iki +8.

Darbas su pauzėmis

Automatinės pauzės

Pauzes tarp sakinių: 300ms (numatytasis).

Pauzes tarp pastraipų: 400ms (numatytasis).

Šiuos nustatymus galima keisti išskleidžiamuosiuose meniu nuo 150ms iki 30 sekundžių.

Rankinis pauzių įterpimas

Per sąsają:

Pastatykite žymeklį norimoje teksto vietoje.
Meniu spustelėkite mygtuką „Pauzė“.
Tekste pasirodys simbolis .-.

Per žymas:

Įterpkite žymą <break time="200ms"/> arba <break time="2s"/> norimoje vietoje.

Pauzių taisyklės:

Didžiausia pauzė: 30 sekundžių.
Galima įterpti kelias pauzes iš eilės ilgesniam vėlavimui.
Pauzės nevartojamos papildomų limitų.

Kada naudoti pauzes:

Prieš svarbius pareiškimus.
Po retorinių klausimų.
Tarp skirtingų temų.
Norint sukurti dramatišką efektą.

Kelių balsų garsas

Funkcija dialogui leidžia naudoti skirtingus balsus viename tekste.

Naudojimo atvejai:

Audio knygos: Skirtingi personažų balsai.
Švietimo dialogai: Mokytojas ir mokinys.
Pristatymai: Pagrindinis pranešėjas ir komentatorius.
Podcastai: Keli vedėjai.

Kelių balsų dialogo funkcija atveria kūrybines galimybes, neapsiribojant tik personažų balsais. Pavyzdžiui, užsienio kalbų mokytojai gali naudoti šią funkciją, kad demonstruotų tą pačią frazę skirtingais greičiais mokymosi tikslais, padėdami studentams suprasti tarimą skirtingais suvokimo lygiais. Norėdami gauti išsamių metodų ir pamokų, peržiūrėkite mūsų vadovą teksto į kalbą naudojimas mokant užsienio kalbų.

Balso pasirinkimas

Kelių kalbų balsai

Balsai su kalbos kodais (pvz., Ava_US, Ava_ES, Ava_DE) yra sukurti taip, kad išlaikytų nuoseklų balso atpažinimą skirtingose kalbose. Šie kelių kalbų balsai leidžia sukurti vieningą stilių daugialypiam turiniui, užtikrinant, kad tas pats balso personažas galėtų sklandžiai kalbėti keliomis kalbomis. Ši funkcija ypač naudinga dialogo režimu, kai galite perjungti kalbas, išlaikydami tą pačią atpažįstamą balso asmenybę visame garso projekte.

Garso segmentavimas

„SpeechGen“ leidžia suskirstyti sugeneruotą garsą į kelis segmentus viename sintezės projekte, todėl jis puikiai tinka vaizdo redaktoriams, kuriems reikia atskirų garso failų skirtingoms scenoms ar skyriams. Ši funkcija ypač naudinga kuriant „YouTube“ vaizdo įrašų, internetinių kursų ar bet kokių projektų, kuriems reikalingas tikslus garso sinchronizavimas, balsus.

Kaip sukurti segmentus

Norėdami suskirstyti garsą, tiesiog pastatykite žymeklį ten, kur norite padalinti tekstą, ir spustelėkite pjovimo mygtuką meniu skydelyje. Tai įterps <cut/> žymą toje vietoje. Taip pat galite rankiniu būdu įvesti arba nukopijuoti ir įklijuoti šią žymą visame tekste. Norėdami nustatyti pasirinktinius failų pavadinimus, naudokite šį formatą:

<cut name="jūsų-failo-pavadinimas"/>

Ši funkcija padeda organizuoti segmentus su prasmingais pavadinimais, pvz.:

<cut name="intro"/>

<cut name="chapter-1"/>

Segmentų atsisiuntimas ir valdymas

Įvedę bent vieną segmentų žymą, po generavimo pasirodys mygtukas „atsisiųsti segmentus“. Spustelėkite jį, kad atsisiųstumėte visus segmentus vienu metu, arba naudokite garso grotuvo mygtuką „daugiau“, kad pasiektumėte atskirus segmentus. Kiekvienas failas automatiškai pavadinamas unikaliu ID, sekos numeriu ir aprašomuoju pavadinimu (pvz., „7054789_1_first-sentence“), todėl juos lengva atpažinti ir tvarkyti garso failus redagavimo programinėje įrangoje.

Segmentų apribojimai

Trumpieji segmentai: Iki 1000 segmentų vienai generacijai.
Ilgi segmentai: Iki 500 segmentų vienai generacijai.

Didesniems projektams suskirstykite į kelias generacijas. Išsamioms instrukcijoms, pažangiems metodams ir vaizdo įrašų vadovams apsilankykite mūsų visiško garso segmentavimo dokumentacijoje.

Intonacijos nustatymai

Kai kurie balsai turi intonacijos grafikus:

Intonacijos grafikai pasiekiami balsams, kurie šalia balso pavadinimo rodo nustatymų piktogramą – ši funkcija yra daugiau nei pusėje bibliotekos balsų, įskaitant tiek įprastus, tiek PRO variantus.

Vilkite taškus grafike, kad pakeistumėte intonaciją.
Pakelkite taškus, kad padidintumėte tam tikrų žodžių toną.
Nuleiskite taškus, kad sukurtumėte rimtesnį toną.
Eksperimentuokite su skirtingomis kreivėmis, kad pasiektumėte natūralumo.

Vilkite taškus grafike, kad pakeistumėte intonaciją

Pasirinkite sakinį, kuriame norite koreguoti intonaciją, ir paspauskite intonacijos mygtuką. Atsiras ši sąsaja.

Talpyklos sistema ir limitų taupymas

Išmanioji talpykla

„SpeechGen“ naudoja išmaniąją talpyklos sistemą, kuri žymiai taupo jūsų limitus. Sistema veikia išsaugodama kiekvieną sakinį (iki 100 000 simbolių) talpykloje 7 dienas. Kai pakartotinai generuojate garsą, visi nepakeisti sakiniai automatiškai nemokamai gaunami iš talpyklos – mokate tik už naujus ar redaguotus sakinius. Tai reiškia, kad galite laipsniškai redaguoti savo tekstą, nešvaistydami visos simbolių kvotos kiekvieną kartą. Projektų istorija saugoma 30 dienų, o failai, kuriuos pridedate prie mėgstamiausių, saugomi nuolat.

Saugojimo laikotarpiai:

Sakinio talpykla: 7 dienos.
Projektų istorija: 30 dienų.
Mėgstamiausi failai: Saugojami nuolat.

Dažniausių problemų sprendimas

Garso kokybės problemos

Balsas skamba nenatūraliai:

Išbandykite PRO balsus.
Sumažinkite greitį iki x0.9–x1.1.
Patikrinkite skyrybos taisyklingumą.
Naudokite neutralų toną (0).

Netinkamas tarimas:

Įsitikinkite, kad pasirinkta tinkama kalba.
Sudėtingus žodžius rašykite fonetiškai.
Naudokite SSML žymas tiksliam valdymui.

Nenatūralios pauzės:

Patikrinkite skyrybą.
Nustatykite pauzes tarp sakinių.
Naudokite rankines pauzes .- arba <break time=""/>.
Pašalinkite papildomus tarpus ir eilutės lūžius.

SSML klaidos:

Patikrinkite žymų taisyklingumą.
Ne visi balsai palaiko visas SSML žymas.

Papildomos funkcijos

SSML (Speech Synthesis Markup Language)

Norėdami ekspertų balso valdymo, naudokite SSML žymas:

<break time="2s"/> — pauzės.
<emphasis level="strong"> — balso akcentavimas.
<prosody rate="slow" pitch="low"> — kalbos charakteristikų keitimas.

⚠️ Dėmesio: Skirtingi balsai palaiko skirtingus SSML žymų rinkinius. Išbandykite funkcionalumą kiekvienam konkrečiam balsui.

Istorija ir mėgstamiausi

Projektų istorija: Automatiškai išsaugoma 30 dienų.
Mėgstamiausi: Pridėkite svarbius projektus nuolatiniam saugojimui.

Integracija ir API

API yra prieinama kūrėjams, norintiems integruoti „SpeechGen.io“ į savo programas ir paslaugas.

Mano failas neįkeliamas į „SpeechGen“. Ką turėčiau daryti?

Pirmiausia patikrinkite, ar jūsų failas yra palaikomu formatu (DOCX, PDF arba TXT). Įsitikinkite, kad failas nėra sugadintas, ir pabandykite įkelti dar kartą. Jei problema išlieka, nukopijuokite tekstą rankiniu būdu ir įklijuokite jį tiesiai į teksto laukelį. Taip pat patikrinkite, ar jūsų failo dydis neviršija platformos apribojimų.

Kiek laiko „SpeechGen“ saugo mano sugeneruotus garso failus?

Jūsų projektų istorija automatiškai saugoma 30 dienų. Išmanioji talpykla (sakinio lygio taupymui) veikia 7 dienas. Norėdami išsaugoti failus nuolat, pridėkite juos prie mėgstamiausių. Tai užtikrina, kad jūsų svarbūs garso projektai niekada nebus pamesti ir liks pasiekiami jūsų profilyje.

Ar galiu naudoti skirtingus balsus skirtingiems personažams viename garso faile?

Taip! „SpeechGen“ siūlo kelių balsų garso generavimą (dialogo režimu). Galite priskirti skirtingus balsus skirtingoms teksto dalims, todėl tai puikiai tinka audio knygoms su keliais personažais, švietimo dialogams ar podcastams su keliais vedėjais. Galite netgi naudoti kelių kalbų balsus, kad perjungtumėte kalbas, išlaikydami personažų nuoseklumą.

Ar garso nustatymų keitimas naudoja mano simbolių limitus?

Tai priklauso nuo to, kuriuos nustatymus keičiate. Keičiant kalbėjimo greitį ar toną, reikalingas pilnas pakartotinis generavimas ir tai sunaudos jūsų simbolių limitus, nes šie pakeitimai paveikia visą kalbos sintezę. Tačiau galite laisvai keisti pauzes tarp sakinių ir pastraipų be jokio limito suvartojimo. Be to, „SpeechGen“ naudoja išmaniąją talpyklą: jei generuojate ilgą tekstą, tada redaguojate tik vieną sakinį ir pakartotinai generuojate, sistema apmokestins tik tą vieną pakeistą sakinį, o ne visą tekstą. Ši talpyklos sistema saugo nepakeistus sakinius 7 dienas, todėl laipsniškas redagavimas yra labai ekonomiškas.

Vaizdo įrašas

Vis dar turite klausimų?

Gaukite pagalbos iš mūsų bendruomenės! Užduokite savo klausimus mūsų „Telegram“ pokalbių grupėje: https://t.me/speechgen

Kūrėjai

Profilis

Gidai