Jak používat převod textu na řeč na SpeechGen.io: Kompletní průvodce

08-09-2025 , 16-09-2025

🚀 Rychlý start — Vytvořte zvuk ve 4 krocích

Krok 1: Vyberte jazyk

Otevřete rozbalovací nabídku jazyků a vyberte jazyk svého textu. Podporované jazyky: Více než 150 jazyků (knihovna hlasů AI).

Krok 2: Vyberte hlas

Po výběru jazyka se zobrazí seznam hlasů. Poslechněte si ukázky a vyberte si svůj oblíbený.

Krok 3: Vložte text

Zkopírujte svůj text do textového pole nebo nahrajte soubor (DOCX, PDF). Pro převod titulků na řeč použijte speciální stránku SRT do hlasu.

Krok 4: Klikněte na "Generovat řeč" (modré tlačítko)

Krok 4: Klikněte na Generovat řeč

Počkejte na zpracování a stáhněte si hotový zvukový soubor.

To je vše! Váš první hlasový projev je hotový během několika minut.

Příprava textu

Doporučeno:

Používejte prostý text bez zbytečných symbolů.
Správně umístěte interpunkční znaménka (tečky, čárky, vykřičníky).
Rozdělte dlouhý text do odstavců.

Vyhněte se:

Emoji a emotikonům (mohou narušit generování zvuku).
Exotickým symbolům: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Speciálním symbolům Unicode:

💡 Tip: Při kopírování z PDF souborů věnujte textu zvláštní pozornost — mohou se objevit neviditelné znaky, které zkazí zvuk!

Limity a omezení

Podporované jazyky: 150+ jazyků (úplný seznam).
Podporované formáty: prostý text, DOCX, PDF, SRT.

Maximálně na generaci: 2 000 000 znaků (≈ 285 000–330 000 slov) - to je působivé množství textu, které můžete převést na řeč v jedné generaci, což je ideální pro dlouhé texty, jako jsou celé knihy nebo rozsáhlá dokumentace.

Podrobné pokyny krok za krokem

Krok 1: Nahrání textu

Vložení textu: Zkopírujte svůj text do textového pole.
Nahrání souboru: Nebo klikněte na tlačítko pro nahrání a vyberte soubor (DOCX, PDF).
Kontrola textu: Ujistěte se, že se text zobrazuje správně.

Krok 2: Výběr jazyka

⚠️ Důležité: Nejprve vyberte správný jazyk pro svůj text.

Otevřete rozbalovací seznam jazyků.
Najděte potřebný jazyk (k dispozici je 150+ jazyků).
Pro vícejazyčné texty použijte generování zvuku s více hlasy.

Krok 3: Výběr hlasu

Po výběru jazyka se otevře seznam dostupných hlasů. Poslechněte si ukázky kliknutím na tlačítko přehrávání u každého hlasu, abyste našli ten, který nejlépe vyhovuje vašim potřebám. Uvidíte různé typy hlasů: Běžné hlasy nabízejí standardní kvalitu, PRO hlasy poskytují vylepšenou kvalitu a přirozenost a vícejazyčné hlasy (označené kódy jazyků jako Ava_US, Ava_ES) vám umožní udržet konzistenci hlasu napříč různými jazyky. Věnujte čas předposlechu každého hlasu, protože se výrazně liší tónem, emocemi a charakterem.

Krok 4: Nastavení parametrů

Rychlost řeči: od x0.1 (velmi pomalu) do x2.2 (velmi rychle).
Výška hlasu: od -20 do +20 (krok 2).

Pod textovým polem, nad tlačítkem generování, můžete upravit nastavení pauz:

nastavení pauz

Pauzy mezi větami: 150 ms - 30 sekund.
Pauzy mezi odstavci: 150 ms - 30 sekund.

Krok 5: Generování řeči

Klikněte na tlačítko "Generovat řeč" pod textovým polem, abyste spustili proces převodu. Doba zpracování závisí na délce vašeho textu - kratší texty se dokončí během několika sekund, zatímco delší dokumenty mohou trvat několik minut. Po dokončení generování si budete moci výsledek poslechnout přímo v prohlížeči, abyste se ujistili, že splňuje vaše očekávání.

Krok 6: Stažení

Po dokončení generování se objeví tlačítko "Stáhnout". Ve výchozím nastavení můžete soubor jednoduše stáhnout jako MP3. Pokud však potřebujete jiný formát (WAV nebo OPUS) nebo chcete změnit kvalitu zvuku (vzorkovací frekvence od 8000 do 44000 Hz), musíte nejprve vybrat tyto možnosti z rozbalovacích nabídek, znovu vygenerovat řeč s vybranými nastaveními a poté stáhnout soubor s preferovanými specifikacemi.

Nastavení zvukových parametrů

Rychlost řeči

Škála rychlosti:

x0.1 - x0.9: Zpomalení (pro složitý materiál, výuku jazyků).
x1.0: Normální rychlost (výchozí).
x1.1 - x2.2: Zrychlení (pro dynamický obsah).

Proč tato škála: Zlomkové hodnoty menší než 1 zpomalují řeč, větší než 1 ji zrychlují. To umožňuje přesný výběr tempa pro vaše publikum.

Doporučení pro rychlost:

Vzdělávání: x0.8-x1.0 (pro lepší porozumění).
Prezentace: x0.9-x1.1 (oficiální tempo).
Podcasty: x1.0-x1.2 (živé tempo).
YouTube: x1.1-x1.4 (udržení pozornosti).

Výška hlasu

Rozsah výšky: od -20 do +20 s krokem 2.

Proč krok 2: Krok 2 jednotek poskytuje znatelnou, ale ne ostrou změnu výšky. Menší kroky by nebyly znatelné, větší kroky by byly příliš dramatické.

Vliv výšky:

Záporné hodnoty (-2 až -20): Hlas je nižší, vážnější, autoritativnější.
Kladné hodnoty (+2 až +20): Hlas je vyšší, přátelštější, energičtější.
0: Neutrální výška (výchozí).

Použití:

Obchodní obsah: -4 až +2.
Dětský obsah: +4 až +12.
Dramatický obsah: -8 až -16.
Přátelský obsah: +2 až +8.

Práce s pauzami

Automatické pauzy

Pauzy mezi větami: 300 ms (výchozí).

Pauzy mezi odstavci: 400 ms (výchozí).

Tato nastavení lze změnit v rozbalovacích nabídkách od 150 ms do 30 sekund.

Vkládání ručních pauz

Přes rozhraní:

Umístěte kurzor na požadované místo v textu.
Klikněte na tlačítko "Pauza" v nabídce.
V textu se objeví symbol .-.

Přes tagy:

Na požadované místo vložte tag <break time="200ms"/> nebo <break time="2s"/>.

Pravidla pro pauzy:

Maximální pauza: 30 sekund.
Pro delší zpoždění lze umístit více pauz za sebou.
Pauzy nespotřebovávají další limity.

Kdy používat pauzy:

Před důležitými prohlášeními.
Po řečnických otázkách.
Mezi různými tématy.
Pro vytvoření dramatického efektu.

Zvuk s více hlasy

Funkce dialogu umožňuje použití různých hlasů v jednom textu.

Použití:

Audioknihy: Různé hlasy pro postavy.
Vzdělávací dialogy: Učitel a student.
Prezentace: Hlavní řečník a komentátor.
Podcasty: Více hostitelů.

Funkce vícejazyčného dialogu otevírá kreativní možnosti nad rámec pouhých hlasů postav. Učitelé cizích jazyků například mohou tuto funkci využít k demonstraci stejné fráze v různých rychlostech pro výuku jazyků, což studentům pomáhá pochopit výslovnost na různých úrovních porozumění. Podrobné techniky a aplikace ve třídě naleznete v našem průvodci použitím převodu textu na řeč pro výuku cizích jazyků.

Výběr hlasu

Vícejazyčné hlasy

Hlasy s kódy jazyků (např. Ava_US, Ava_ES, Ava_DE) jsou navrženy tak, aby udržovaly konzistentní rozpoznávání hlasu napříč různými jazyky. Tyto vícejazyčné hlasy vám umožňují vytvořit jednotný styl pro vícejazyčný obsah, čímž zajišťují, že stejná hlasová osobnost může plynule mluvit více jazyky. Tato funkce je zvláště užitečná v režimu dialogu, kde můžete přepínat mezi jazyky a přitom zachovat stejnou rozpoznatelnou osobnost hlasu v celém vašem zvukovém projektu.

Segmentace zvuku

SpeechGen umožňuje rozdělit vygenerovaný zvuk do více segmentů v rámci jednoho projektu syntézy, což je ideální pro editory videa, kteří potřebují samostatné zvukové soubory pro různé scény nebo kapitoly. Tato funkce je zvláště užitečná pro vytváření hlasových projevů pro videa na YouTube, online kurzy nebo jakékoli projekty vyžadující přesnou synchronizaci zvuku.

Jak vytvářet segmenty

Chcete-li zvuk rozdělit, jednoduše umístěte kurzor na místo, kde chcete text rozdělit, a klikněte na tlačítko "střih" v panelu nabídky. Tím se na dané pozici vloží tag <cut/>. Tento tag můžete také ručně napsat nebo zkopírovat a vložit do svého textu. Pro vlastní názvy souborů použijte tento formát:

<cut name="váš-název-souboru"/>

Tato funkce vám pomůže organizovat segmenty s výstižnými názvy, jako jsou:

<cut name="intro"/>

<cut name="kapitola-1"/>

Stahování a správa segmentů

Jakmile přidáte alespoň jeden segmentový tag, po generování se objeví tlačítko "stáhnout segmenty". Kliknutím na něj stáhnete všechny segmenty najednou, nebo použijte tlačítko "více" na přehrávači zvuku pro přístup k jednotlivým segmentům. Každý soubor je automaticky pojmenován jedinečným ID, číslem sekvence a popisným názvem (např. "7054789_1_první-věta"), což usnadňuje identifikaci a organizaci vašich zvukových souborů ve vašem editačním softwaru.

Omezení segmentů

Krátké segmenty: Až 1000 segmentů na generaci.
Dlouhé segmenty: Až 500 segmentů na generaci.

Pro větší projekty rozdělte do více generací. Pro komplexní pokyny, pokročilé techniky a video návody navštivte naši kompletní dokumentaci k segmentaci zvuku.

Nastavení intonace

Některé hlasy mají grafy intonace:

Grafy intonace jsou k dispozici u hlasů, které zobrazují ikonu nastavení vedle názvu hlasu - tato funkce se nachází u více než poloviny hlasů v knihovně, včetně běžných i PRO možností.

Přetahujte body na grafu pro změnu intonace.
Zvyšujte body pro zvýšení výšky u určitých slov.
Snižujte body pro vytvoření vážnějšího tónu.
Experimentujte s různými křivkami pro přirozenost.

Přetahujte body na grafu pro změnu intonace

Vyberte větu, u které chcete upravit intonaci, a stiskněte tlačítko intonace. Zobrazí se toto rozhraní.

Systém ukládání do mezipaměti a úspora limitů

Chytrá mezipaměť

SpeechGen.io používá inteligentní systém ukládání do mezipaměti, který výrazně šetří vaše limity. Systém funguje tak, že ukládá každou větu (až 100 000 znaků) do mezipaměti po dobu 7 dnů. Když znovu generujete zvuk, všechny nezměněné věty se automaticky načtou z mezipaměti zdarma - platíte pouze za nové nebo upravené věty. To znamená, že můžete provádět postupné úpravy svého textu, aniž byste pokaždé spotřebovali celý svůj povolený počet znaků. Historie projektů je uložena po dobu 30 dnů a soubory, které přidáte do oblíbených, jsou uchovávány trvale.

Doby ukládání:

Mezipaměť vět: 7 dní.
Historie projektů: 30 dní.
Oblíbené soubory: Uloženy trvale.

Řešení běžných problémů

Problémy s kvalitou zvuku

Hlas zní nepřirozeně:

Vyzkoušejte PRO hlasy.
Snižte rychlost na x0.9-x1.1.
Zkontrolujte správnost interpunkce.
Použijte neutrální výšku (0).

Nesprávná výslovnost:

Ujistěte se, že je vybrán správný jazyk.
Složité slova pište foneticky.
Použijte SSML tagy pro přesné řízení.

Nepřirozené pauzy:

Zkontrolujte interpunkci.
Nastavte pauzy mezi větami.
Použijte ruční pauzy .- nebo <break time=""/>.
Odstraňte nadbytečné mezery a konce řádků.

Chyby SSML:

Zkontrolujte správnost tagů.
Ne všechny hlasy podporují všechny SSML tagy.

Další funkce

SSML (Speech Synthesis Markup Language)

Pro odborné řízení hlasu použijte SSML tagy:

<break time="2s"/> — pauzy.
<emphasis level="strong"> — důraz hlasu.
<prosody rate="slow" pitch="low"> — změna charakteristik řeči.

⚠️ Pozor: Různé hlasy podporují různé sady SSML tagů. Otestujte funkčnost pro každý konkrétní hlas.

Historie a oblíbené

Historie projektů: Automaticky uložena po dobu 30 dnů.
Oblíbené: Přidejte důležité projekty pro trvalé uložení.

Integrace a API

API je k dispozici pro vývojáře pro integraci SpeechGen.io do jejich vlastních aplikací a služeb.

Můj soubor se nenahrává do SpeechGen. Co mám dělat?

Nejprve zkontrolujte, zda je váš soubor v podporovaném formátu (DOCX, PDF nebo TXT). Ujistěte se, že soubor není poškozený, a zkuste nahrát znovu. Pokud problém přetrvává, zkopírujte text ručně a vložte jej přímo do textového pole. Také ověřte, zda velikost vašeho souboru nepřekračuje limity platformy.

Jak dlouho SpeechGen uchovává mé vygenerované zvukové soubory?

Historie vašich projektů je automaticky ukládána po dobu 30 dnů. Chytrá mezipaměť (pro úsporu na úrovni vět) trvá 7 dní. Chcete-li soubory uchovat trvale, přidejte je do oblíbených. Tím zajistíte, že vaše důležité zvukové projekty nebudou nikdy ztraceny a zůstanou přístupné ve vašem profilu.

Mohu v jednom zvukové souboru použít různé hlasy pro různé postavy?

Ano! SpeechGen nabízí generování zvuku s více hlasy (režim dialogu). Můžete přiřadit různé hlasy různým částem textu, což je ideální pro audioknihy s více postavami, vzdělávací dialogy nebo podcasty s více řečníky. Můžete dokonce použít vícejazyčné hlasy k přepínání mezi jazyky při zachování konzistence postav.

Spotřebovává změna nastavení zvuku mé limity znaků?

Záleží na tom, která nastavení změníte. Úprava rychlosti řeči nebo výšky hlasu vyžaduje úplné přegenerování a spotřebuje vaše limity znaků, protože tyto změny ovlivňují celou syntézu hlasu. Můžete však volně upravovat pauzy mezi větami a odstavci bez jakéhokoli spotřebování limitu. Kromě toho SpeechGen využívá chytrou mezipaměť: pokud vygenerujete dlouhý text, pak upravíte pouze jednu větu a znovu vygenerujete, systém vám naúčtuje pouze tuto jednu změněnou větu, nikoli celý text. Tento systém mezipaměti ukládá vaše nezměněné věty po dobu 7 dnů, což činí iterativní úpravy velmi úspornými.

Video

Stále máte otázky?

Získejte pomoc od naší komunity! Zeptejte se na naše otázky v našem Telegram chatu: https://t.me/speechgen