Hogyan használhatod a szöveget beszédre a SpeechGen.io oldalon: Teljes útmutató

08-09-2025 , 16-09-2025

🚀 Gyors kezdés — Hanganyag készítése 4 lépésben

1. lépés: Nyelv kiválasztása

Nyisd meg a nyelvi legördülő menüt, és válaszd ki a szöveged nyelvét. Támogatott nyelvek: Több mint 150 nyelv (AI hangok könyvtára).

2. lépés: Hang kiválasztása

A nyelv kiválasztása után megjelenik a hangok listája. Hallgass meg mintákat, és válaszd ki a kedvencedet.

3. lépés: Szöveg beillesztése

Másold be a szöveget a szövegmezőbe, vagy tölts fel egy fájlt (DOCX, PDF). Feliratok hanggá alakításához használd a dedikált SRT-ből hanggá konvertáló oldalt.

4. lépés: Kattints a "Hang generálása" gombra (kék gomb)

4. lépés: Kattints a Hang generálása gombra

Várj a feldolgozásra, és töltsd le a kész hangfájlt.

Ennyi! Az első hanganyagod mindössze néhány perc alatt elkészül.

Szöveg előkészítése

Ajánlott:

Használj sima szöveget, felesleges szimbólumok nélkül.
Helyezd el megfelelően az írásjeleket (pontok, vesszők, felkiáltójelek).
Bontsd a hosszú szöveget bekezdésekre.

Kerülendő:

Emoji és hangulatjelek (megzavarhatják a hanggenerálást).
Különleges szimbólumok: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Speciális Unicode szimbólumok:

💡 Tipp: PDF fájlokból történő másoláskor különösen figyelj a szövegre — láthatatlan karakterek jelenhetnek meg, amelyek tönkretehetik a hanganyagot!

Korlátok és megkötések

Támogatott nyelvek: 150+ nyelv (teljes lista).
Feltölthető formátumok: sima szöveg, DOCX, PDF, SRT.

Maximális generálásonként: 2 000 000 karakter (≈ 285 000-330 000 szó) - ez a lenyűgöző szövegmennyiség, amit egyetlen generálás során átalakíthatsz hanggá, így ideális hosszú tartalmakhoz, mint például teljes könyvek vagy kiterjedt dokumentációk.

Részletes, lépésről lépésre útmutató

1. lépés: Szöveg feltöltése

Szöveg beillesztése: Másold be a szöveget a szövegmezőbe.
Fájl feltöltése: Vagy kattints a feltöltés gombra, és válaszd ki a fájlt (DOCX, PDF).
Szöveg ellenőrzése: Győződj meg róla, hogy a szöveg helyesen jelenik meg.

2. lépés: Nyelv kiválasztása

⚠️ Fontos: Először válaszd ki a szövegedhez a megfelelő nyelvet.

Nyisd meg a nyelvi legördülő listát.
Keresd meg a szükséges nyelvet (több mint 150 nyelv áll rendelkezésre).
Többnyelvű szövegek esetén használd a több hangos generálást.

3. lépés: Hang kiválasztása

A nyelv kiválasztása után megnyílik a rendelkezésre álló hangok listája. Hallgass meg mintákat a hangok melletti lejátszás gombra kattintva, hogy megtaláld a számodra legmegfelelőbbet. Különböző hangtípusokat láthatsz: a Normál hangok alapminőséget kínálnak, a PRO hangok jobb minőséget és természetességet biztosítanak, a Többnyelvű hangok (nyelvi kódokkal jelölve, mint pl. Ava_US, Ava_ES) pedig lehetővé teszik a hangkonzisztencia fenntartását különböző nyelveken. Szánj időt minden hang előnézetére, mivel jelentősen eltérnek hangnemben, érzelmekben és karakterben.

4. lépés: Paraméterek beállítása

Beszédsebesség: x0.1 (nagyon lassú) és x2.2 (nagyon gyors) között.
Hangmagasság: -20 és +20 között (2-es lépésekben).

A szövegmező alatt, a generálás gomb felett beállíthatod a szüneteket:

szünet beállítások

Szünetek mondatok között: 150 ms - 30 másodperc.
Szünetek bekezdések között: 150 ms - 30 másodperc.

5. lépés: Hang generálása

Kattints a "Hang generálása" gombra a szövegmező alatt a konverzió elindításához. A feldolgozási idő a szöveg hosszától függ - a rövidebb szövegek másodpercek alatt elkészülnek, míg a hosszabb dokumentumok néhány percet is igénybe vehetnek. A generálás befejezése után közvetlenül a böngészőben hallgathatod meg az eredményt, hogy megbizonyosodj róla, megfelel-e az elvárásaidnak.

6. lépés: Letöltés

A generálás befejezése után megjelenik egy "Letöltés" gomb. Alapértelmezetten egyszerűen letöltheted a fájlt MP3 formátumban. Ha azonban más formátumra (WAV vagy OPUS) van szükséged, vagy szeretnéd megváltoztatni a hangminőséget (mintavételi frekvencia 8000 és 44000 Hz között), először válaszd ki ezeket az opciókat a legördülő menükből, generáld újra a hangot a kiválasztott beállításokkal, majd töltsd le a fájlt a kívánt specifikációkkal.

Hangparaméterek beállítása

Beszédsebesség

Sebességskála:

x0.1 - x0.9: Lassítás (komplex anyagokhoz, nyelvtanuláshoz).
x1.0: Normál sebesség (alapértelmezett).
x1.1 - x2.2: Gyorsítás (dinamikus tartalmakhoz).

Miért ez a skála: Az 1-nél kisebb tört értékek lassítják a beszédet, az 1-nél nagyobbak gyorsítják. Ez lehetővé teszi a pontos tempó kiválasztását a közönséged számára.

Sebesség ajánlások:

Oktatás: x0.8-x1.0 (jobb megértéshez).
Előadások: x0.9-x1.1 (hivatalos tempó).
Podcastok: x1.0-x1.2 (élénk tempó).
YouTube: x1.1-x1.4 (figyelem fenntartása).

Hangmagasság

Hangmagasság tartomány: -20 és +20 között, 2-es lépésekben.

Miért a 2-es lépés: A 2 egységes lépés észrevehető, de nem éles hangmagasság változást biztosít. A kisebb lépések nem lennének észrevehetők, a nagyobbak túl drasztikusak.

Hangmagasság befolyásolása:

Negatív értékek (-2 és -20 között): Mélyebb, komolyabb, parancsolóbb hangot eredményez.
Pozitív értékek (+2 és +20 között): Magasabb, barátságosabb, energikusabb hangot eredményez.
0: Semleges hangmagasság (alapértelmezett).

Alkalmazások:

Üzleti tartalom: -4 és +2 között.
Gyermek tartalom: +4 és +12 között.
Drámai tartalom: -8 és -16 között.
Barátságos tartalom: +2 és +8 között.

Szünetek kezelése

Automatikus szünetek

Szünetek mondatok között: 300 ms (alapértelmezett).

Szünetek bekezdések között: 400 ms (alapértelmezett).

Ezek a beállítások legördülő menükben változtathatók 150 ms-tól 30 másodpercig.

Manuális szünet beillesztése

Felületen keresztül:

Helyezd a kurzort a kívánt helyre a szövegben.
Kattints a "Szünet" gombra a menüben.
A .- szimbólum jelenik meg a szövegben.

Címkéken keresztül:

Illessz be egy <break time="200ms"/> vagy <break time="2s"/> címkét a kívánt helyre.

Szünet szabályok:

Maximális szünet: 30 másodperc.
Több szünet is elhelyezhető egymás után hosszabb késleltetéshez.
A szünetek nem fogyasztanak további karakterkorlátot.

Mikor használj szüneteket:

Fontos kijelentések előtt.
Retorikai kérdések után.
Különböző témák között.
Drámai hatás eléréséhez.

Több hangos hanganyag

A párbeszéd funkció lehetővé teszi különböző hangok használatát egyetlen szövegben.

Alkalmazások:

Hangoskönyvek: Különböző hangok a karaktereknek.
Oktatási párbeszédek: Tanár és diák.
Előadások: Fő előadó és kommentátor.
Podcastok: Több házigazda.

A több hangos párbeszéd funkció a karakterhangokon túl kreatív lehetőségeket is nyit. A nyelvtanárok például használhatják ezt a funkciót ugyanazon kifejezés bemutatására különböző sebességeken a nyelvtanuláshoz, segítve a diákokat a kiejtés elsajátításában különböző megértési szinteken. Részletes technikákért és tantermi alkalmazásokért tekintsd meg útmutatónkat a szöveg-beszéd átalakító használatáról nyelvtanárok számára.

Hang kiválasztása

Többnyelvű hangok

A nyelvi kódokkal ellátott hangok (pl. Ava_US, Ava_ES, Ava_DE) úgy lettek kialakítva, hogy fenntartsák a következetes hangfelismerést különböző nyelveken. Ezek a többnyelvű hangok lehetővé teszik, hogy egységes stílust hozz létre többnyelvű tartalmakhoz, biztosítva, hogy ugyanaz a hangkarakter beszéljen több nyelven zökkenőmentesen. Ez a funkció különösen hasznos párbeszéd módban, ahol nyelvek között válthatsz, miközben ugyanazt az ismerős hangkaraktert tartod meg az egész hangprojektedben.

Hang szegmentálás

A SpeechGen lehetővé teszi a generált hanganyag több szegmensre bontását egyetlen szintézis projektben, így tökéletes videószerkesztők számára, akiknek külön hangfájlokra van szükségük különböző jelenetekhez vagy fejezetekhez. Ez a funkció különösen hasznos YouTube videókhoz, online kurzusokhoz vagy bármilyen precíz hangszinkronizálást igénylő projekthez készült hangfelvételekhez.

Szegmensek létrehozása

A hanganyag felosztásához egyszerűen helyezd a kurzort oda, ahol fel szeretnéd osztani a szöveget, és kattints a vágás gombra a menüpanelen. Ez beszúr egy <cut/> címkét ezen a helyen. Manuálisan is beírhatod vagy kimásolhatod és beillesztheted ezt a címkét a szövegedbe. Egyéni fájlnevekhez használd ezt a formátumot:

<cut name="sajat-fajlnev"/>

Ez a funkció segít a szegmensek elnevezésében, mint például:

<cut name="intro"/>

<cut name="fejezet-1"/>

Szegmensek letöltése és kezelése

Miután legalább egy szegmens címkét hozzáadtál, a generálás után megjelenik egy "szegmensek letöltése" gomb. Kattints rá az összes szegmens egyidejű letöltéséhez, vagy használd a "több" gombot a hanglejátszón az egyes szegmensek eléréséhez. Minden fájl automatikusan egyedi azonosítóval, sorozatszámmal és leíró címmel lesz elnevezve (pl. "7054789_1_elso-mondat"), így könnyen azonosíthatod és rendszerezheted hangfájljaidat a szerkesztőszoftveredben.

Szegmens korlátok

Rövid szegmensek: Legfeljebb 1000 szegmens generálásonként.
Hosszú szegmensek: Legfeljebb 500 szegmens generálásonként.

Nagyobb projektek esetén oszd fel több generálásra. Átfogó útmutatásért, haladó technikákért és videó tutorialokért látogass el a teljes hang szegmentálási dokumentációnkhoz.

Intonáció beállítása

Néhány hang rendelkezik intonációs grafikonokkal:

Az intonációs grafikonok elérhetők azoknál a hangoknál, amelyek mellett egy beállítások ikon látható - ez a funkció a hangkönyvtár több mint felénél megtalálható, beleértve a normál és a PRO opciókat is.

Húzd a pontokat a grafikonon az intonáció megváltoztatásához.
Emeld fel a pontokat bizonyos szavaknál a hangmagasság növeléséhez.
Süllyeszd le a pontokat a komolyabb hangnem eléréséhez.
Kísérletezz különböző görbékkel a természetesség érdekében.

Húzd a pontokat a grafikonon az intonáció megváltoztatásához

Válaszd ki azt a mondatot, amelynek az intonációját szeretnéd beállítani, és nyomd meg az intonáció gombot. Ez az interfész fog megjelenni.

Gyorsítótár rendszer és korlátmegtakarítás

Intelligens gyorsítótár

A SpeechGen. egy intelligens gyorsítótár rendszert használ, amely jelentősen megtakarítja a korlátaidat. A rendszer minden mondatot (akár 100 000 karakterig) 7 napig tárol a gyorsítótárban. Amikor újra generálod a hanganyagot, minden változtatás nélkül maradt mondat automatikusan ingyenesen lekérődik a gyorsítótárból - csak az új vagy szerkesztett mondatokért fizetsz. Ez azt jelenti, hogy fokozatosan szerkesztheted a szöveget anélkül, hogy minden alkalommal felhasználnád a teljes karakterkeretedet. A projekt előzményei 30 napig, a kedvencekhez hozzáadott fájlok pedig véglegesen tárolódnak.

Tárolási időszakok:

Mondat gyorsítótár: 7 nap.
Projekt előzmények: 30 nap.
Kedvenc fájlok: Véglegesen tárolva.

Gyakori problémák hibaelhárítása

Hangminőségi problémák

A hang természetellenesnek hangzik:

Próbáld ki a PRO hangokat.
Csökkentsd a sebességet x0.9-x1.1 közé.
Ellenőrizd az írásjelek helyességét.
Használj semleges hangmagasságot (0).

Helytelen kiejtés:

Győződj meg róla, hogy a helyes nyelv van kiválasztva.
Írd le a bonyolult szavakat fonetikusan.
Használj SSML címkéket a pontos vezérléshez.

Természetellenes szünetek:

Ellenőrizd az írásjeleket.
Állítsd be a szüneteket a mondatok között.
Használj manuális szüneteket .- vagy <break time=""/>.
Távolíts el felesleges szóközöket és sortöréseket.

SSML hibák:

Ellenőrizd a címkék helyességét.
Nem minden hang támogat minden SSML címkét.

További funkciók

SSML (Speech Synthesis Markup Language)

A szakértői hangvezérléshez használj SSML címkéket:

<break time="2s"/> — szünetek.
<emphasis level="strong"> — hang hangsúlyozása.
<prosody rate="slow" pitch="low"> — beszédjellemzők változtatása.

⚠️ Figyelem: Különböző hangok különböző SSML címkekészleteket támogatnak. Teszteld a funkciót minden egyes hangnál.

Előzmények és kedvencek

Projekt előzmények: Automatikusan mentve 30 napig.
Kedvencek: Fontos projektek hozzáadása a végleges tároláshoz.

Integráció és API

API elérhető fejlesztők számára a SpeechGen.io integrálásához saját alkalmazásaikba és szolgáltatásaikba.

Nem töltődik fel a fájlom a SpeechGen-be. Mit tegyek?

Először is ellenőrizd, hogy a fájlod támogatott formátumban van-e (DOCX, PDF vagy TXT). Győződj meg róla, hogy a fájl nem sérült, és próbáld meg újra feltölteni. Ha a probléma továbbra is fennáll, másold be manuálisan a szöveget, és illeszd be közvetlenül a szövegmezőbe. Ellenőrizd azt is, hogy a fájlméreted nem haladja meg a platform korlátait.

Meddig tartja meg a SpeechGen a generált hangfájljaimat?

A projekt előzményei automatikusan 30 napig mentésre kerülnek. Az intelligens gyorsítótár (mondatszintű mentésekhez) 7 napig érvényes. A fájlok végleges megőrzéséhez add hozzá őket a kedvenceidhez. Ez biztosítja, hogy fontos hanganyagaid soha ne vesszenek el, és elérhetőek maradjanak a profilodban.

Használhatok különböző hangokat különböző karakterekhez egyetlen hangfájlban?

Igen! A SpeechGen több hangos hanggenerálást (párbeszéd módot) kínál. Különböző hangokat rendelhetsz hozzá különböző szövegrészekhez, így tökéletes hangoskönyvekhez több karakterrel, oktatási párbeszédekhez vagy több hangszórós podcastokhoz. Akár többnyelvű hangokat is használhatsz a nyelvek közötti váltáshoz, miközben fenntartod a karakter konzisztenciáját.

A hangbeállítások módosítása fogyasztja a karakterkorlátaimat?

Ez attól függ, mely beállításokat módosítod. A beszédsebesség vagy a hangmagasság beállításainak módosítása teljes újra generálást igényel, és fogyasztja a karakterkorlátaidat, mivel ezek a változások az egész hangszintézist befolyásolják. Azonban szabadon módosíthatod a mondatok és bekezdések közötti szüneteket anélkül, hogy korlátot fogyasztanál. Ezenkívül a SpeechGen intelligens gyorsítótárat használ: ha generálsz egy nagy szöveget, majd csak egy mondatot szerkesztesz és újra generálsz, a rendszer csak azt az egyetlen megváltozott mondatot számolja fel, nem az egész szöveget. Ez a gyorsítótár rendszer 7 napig tárolja a változtatás nélkül maradt mondatokat, így az iteratív szerkesztés nagyon gazdaságos.

Videó

Továbbra is kérdéseid vannak?

Kérj segítséget a közösségünktől! Tedd fel kérdéseidet a Telegram csevegésünkben: https://t.me/speechgen