08-09-2025 , 16-09-2025
Buksan ang dropdown ng wika at piliin ang wika ng iyong teksto. Mga suportadong wika: Higit sa 150 wika (AI voices library).
Pagkatapos piliin ang wika, lalabas ang listahan ng mga boses. Makinig sa mga sample at piliin ang paborito mo.
Kopyahin ang iyong teksto sa text box o mag-upload ng file (DOCX, PDF). Para gawing speech ang mga subtitle, gamitin ang dedikadong SRT to voice page.
Maghintay sa pag-proseso at i-download ang iyong audio file.
Ayan na! Handa na ang iyong unang voiceover sa loob lamang ng ilang minuto.
💡 Tip: Kapag kumokopya mula sa mga PDF file, bigyang-pansin nang mabuti ang teksto — maaaring may lumitaw na mga hindi nakikitang karakter na sisira sa audio!
Maximum bawat henerasyon: 2,000,000 karakter (≈ 285,000-330,000 salita) - ito ang kahanga-hangang dami ng teksto na maaari mong gawing speech sa isang henerasyon, na ginagawa itong perpekto para sa mahahabang nilalaman tulad ng buong libro o malawak na dokumentasyon.
⚠️ Mahalaga: Unahing piliin ang tamang wika para sa iyong teksto
Pagkatapos piliin ang wika, magbubukas ang listahan ng mga available na boses. Makinig sa mga sample sa pamamagitan ng pag-click sa play button para sa bawat boses upang mahanap ang pinakaangkop sa iyong mga pangangailangan. Makikita mo ang iba't ibang uri ng boses na available: Ang mga Regular na boses ay nag-aalok ng karaniwang kalidad, ang mga PRO na boses ay nagbibigay ng pinahusay na kalidad at naturalness, at ang mga Multi-language na boses (may tatak na mga code ng wika tulad ng Ava_US, Ava_ES) ay nagbibigay-daan sa iyo na mapanatili ang pagkakapare-pareho ng boses sa iba't ibang wika. Maglaan ng oras upang i-preview ang bawat boses dahil malaki ang pagkakaiba nila sa tono, emosyon, at karakter.
Sa ibaba ng text box, sa itaas ng generate button, maaari mong ayusin ang mga setting ng pause:
I-click ang "Generate Speech" button sa ibaba ng text box upang simulan ang proseso ng pag-convert. Ang oras ng pag-proseso ay nakasalalay sa haba ng iyong teksto - ang mas maiikling teksto ay natatapos sa ilang segundo habang ang mas mahahabang dokumento ay maaaring tumagal ng ilang minuto. Kapag natapos na ang paggawa, magagawa mong pakinggan ang resulta nang direkta sa browser upang matiyak na natutugunan nito ang iyong mga inaasahan.
Pagkatapos makumpleto ang paggawa, lilitaw ang isang "Download" button. Bilang default, maaari mo lang i-download ang file bilang MP3. Gayunpaman, kung kailangan mo ng ibang format (WAV o OPUS) o gusto mong baguhin ang kalidad ng audio (sample rate mula 8000 hanggang 44000 Hz), kailangan mo munang piliin ang mga opsyon na ito mula sa mga dropdown menu, gawing muli ang speech gamit ang iyong napiling mga setting, at pagkatapos ay i-download ang file gamit ang iyong piniling mga detalye.
Bilis ng iskala:
Bakit ang iskala na ito: Ang mga fractional na halaga na mas mababa sa 1 ay nagpapabagal ng pagsasalita, mas mataas sa 1 ay nagpapabilis. Pinapayagan nito ang tumpak na pagpili ng tempo para sa iyong audience.
Mga rekomendasyon sa bilis:
Saklaw ng tono: mula -20 hanggang +20 na may hakbang na 2
Bakit hakbang na 2: Ang hakbang na 2 yunit ay nagbibigay ng kapansin-pansin ngunit hindi matalas na pagbabago sa tono. Ang mas maliliit na hakbang ay hindi mapapansin, ang mas malalaking hakbang ay masyadong dramatiko.
Impluwensya ng tono:
Mga Aplikasyon:
Mga pause sa pagitan ng mga pangungusap: 300ms (default)
Mga pause sa pagitan ng mga talata: 400ms (default)
Maaaring baguhin ang mga setting na ito sa mga dropdown menu mula 150ms hanggang 30 segundo.
Sa pamamagitan ng interface:
Sa pamamagitan ng mga tag:
Ipasok ang tag na <break time="200ms"/> o <break time="2s"/> sa nais na lokasyon
Mga tuntunin sa pause:
Kailan gagamitin ang mga pause:
Ang dialogue function ay nagbibigay-daan sa paggamit ng iba't ibang boses sa isang teksto.
Ang multi-voice dialogue feature ay nagbubukas ng mga malikhaing posibilidad na higit pa sa mga boses ng karakter. Halimbawa, ang mga guro ng wikang banyaga ay maaaring gamitin ang function na ito upang ipakita ang parehong parirala sa iba't ibang bilis para sa pag-aaral ng wika, na tumutulong sa mga mag-aaral na maunawaan ang pagbigkas sa iba't ibang antas ng pag-unawa. Para sa mga detalyadong pamamaraan at aplikasyon sa silid-aralan, tingnan ang aming gabay sa paggamit ng text-to-speech para sa pagtuturo ng wikang banyaga.
Ang mga boses na may mga code ng wika (hal., Ava_US, Ava_ES, Ava_DE) ay idinisenyo upang mapanatili ang pare-parehong pagkilala sa boses sa iba't ibang wika. Ang mga multi-language na boses na ito ay nagbibigay-daan sa iyo na lumikha ng isang pinag-isang estilo para sa nilalamang multilingual, na tinitiyak na ang parehong karakter ng boses ay maaaring magsalita ng maraming wika nang walang putol. Ang tampok na ito ay partikular na kapaki-pakinabang sa dialogue mode, kung saan maaari kang lumipat sa pagitan ng mga wika habang pinapanatili ang parehong nakikilalang personalidad ng boses sa iyong audio project.
Pinapayagan ka ng SpeechGen na hatiin ang iyong ginawang audio sa maraming segment sa loob ng isang synthesis project, na ginagawa itong perpekto para sa mga video editor na nangangailangan ng magkakahiwalay na mga audio file para sa iba't ibang eksena o kabanata. Ang tampok na ito ay partikular na kapaki-pakinabang para sa paglikha ng mga voiceover para sa mga video sa YouTube, mga online course, o anumang proyekto na nangangailangan ng tumpak na audio synchronization.
Upang hatiin ang iyong audio, ilagay lamang ang iyong cursor kung saan mo gustong hatiin ang teksto at i-click ang cut button sa menu panel. Ito ay maglalagay ng <cut/> tag sa posisyong iyon. Maaari mo ring manu-manong i-type o kopyahin-paste ang tag na ito sa iyong teksto. Para sa mga custom na filename, gamitin ang format na ito:
<cut name="iyong-filename"/>
Ang tampok na ito ay tumutulong sa iyo na ayusin ang mga segment na may makabuluhang mga pangalan tulad ng:
<cut name="intro"/>
<cut name="chapter-1"/>
Kapag nagdagdag ka na ng kahit isang segment tag, lilitaw ang isang "download segments" button pagkatapos ng paggawa. I-click ito upang i-download ang lahat ng segment nang sabay-sabay, o gamitin ang "more" button sa audio player upang ma-access ang mga indibidwal na segment. Ang bawat file ay awtomatikong pinangalanan na may natatanging ID, numero ng pagkakasunod-sunod, at deskriptibong pamagat (hal., "7054789_1_first-sentence"), na ginagawang madali ang pagkilala at pag-aayos ng iyong mga audio file sa iyong editing software.
Para sa mas malalaking proyekto, hatiin sa maraming henerasyon. Para sa kumpletong mga tagubilin, advanced na mga pamamaraan, at mga tutorial sa video, bisitahin ang aming kumpletong dokumentasyon sa audio segmentation.
Ang ilang mga boses ay may intonation graphs:
Ang mga intonation graph ay available sa mga boses na nagpapakita ng settings icon sa tabi ng pangalan ng boses - ang tampok na ito ay matatagpuan sa mahigit kalahati ng mga boses sa library, kabilang ang mga regular at PRO na opsyon
Piliin ang pangungusap kung saan mo gustong ayusin ang intonasyon at pindutin ang intonation button. Lalabas ang interface na ito.
Gumagamit ang SpeechGen. ng isang intelligent caching system na makabuluhang nakakatipid sa iyong mga limitasyon. Gumagana ang sistema sa pamamagitan ng pag-save ng bawat pangungusap (hanggang 100,000 karakter) sa cache sa loob ng 7 araw. Kapag ginawa mo muli ang iyong audio, ang anumang hindi nabagong mga pangungusap ay awtomatikong kinukuha mula sa cache nang libre - magbabayad ka lamang para sa mga bago o binagong mga pangungusap. Nangangahulugan ito na maaari kang gumawa ng mga incremental na pag-edit sa iyong teksto nang hindi nauubos ang iyong buong character allowance sa bawat oras. Ang kasaysayan ng proyekto ay nakaimbak sa loob ng 30 araw, at ang mga file na idinagdag mo sa mga paborito ay permanenteng naitatabi.
Mga panahon ng pag-iimbak:
Hindi natural ang tunog ng boses:
Maling pagbigkas:
Hindi natural na mga pause:
Mga error sa SSML:
Para sa ekspertong kontrol sa boses, gumamit ng SSML tags:
⚠️ Pansin: Ang iba't ibang boses ay sumusuporta sa iba't ibang hanay ng SSML tags. Subukan ang paggana para sa bawat partikular na boses.
API ay available para sa mga developer upang isama ang SpeechGen.io sa kanilang sariling mga aplikasyon at serbisyo.
Una, suriin kung ang iyong file ay nasa suportadong format (DOCX, PDF, o TXT). Siguraduhing hindi sira ang file at subukang mag-upload muli. Kung magpapatuloy ang isyu, kopyahin ang teksto nang manu-mano at i-paste ito nang direkta sa text box. Suriin din kung ang laki ng iyong file ay hindi lumalagpas sa mga limitasyon ng platform.
Ang iyong kasaysayan ng proyekto ay awtomatikong nai-save sa loob ng 30 araw. Ang smart cache (para sa pag-save sa antas ng pangungusap) ay tumatagal ng 7 araw. Upang mapanatili ang mga file nang permanente, idagdag ang mga ito sa iyong mga paborito. Tinitiyak nito na ang iyong mahahalagang audio project ay hindi mawawala at mananatiling naa-access sa iyong profile.
Oo! Nag-aalok ang SpeechGen ng multi-voice audio generation (dialogue mode). Maaari kang magtalaga ng iba't ibang boses sa iba't ibang bahagi ng teksto, na ginagawa itong perpekto para sa mga audiobook na may maraming karakter, mga diyalogong pang-edukasyon, o mga podcast na may maraming nagsasalita. Maaari mo ring gamitin ang mga multi-language na boses upang lumipat sa pagitan ng mga wika habang pinapanatili ang pagkakapare-pareho ng karakter.
Ang mga PRO na boses ay nag-aalok ng mas mataas na kalidad at naturalness kumpara sa mga regular na boses. Karaniwan silang may mas mahusay na emosyonal na ekspresyon, mas tumpak na pagbigkas, at ang ilan ay sumusuporta sa mga advanced na tampok tulad ng intonation graphs. Para sa mga propesyonal na proyekto tulad ng mga audiobook, kurso, o mga presentasyon sa negosyo, inirerekomenda ang mga PRO na boses.
Nakadepende ito sa kung anong mga setting ang iyong babaguhin. Ang pag-aayos ng bilis ng pagsasalita o tono ay nangangailangan ng buong paggawa muli at kokonsumo ng iyong mga limitasyon sa karakter, dahil ang mga pagbabagong ito ay nakakaapekto sa buong voice synthesis. Gayunpaman, maaari mong malayang baguhin ang mga pause sa pagitan ng mga pangungusap at talata nang walang anumang pagkonsumo ng limitasyon. Bukod pa rito, gumagamit ang SpeechGen ng smart caching: kung gagawa ka ng isang malaking teksto, pagkatapos ay babaguhin mo lamang ang isang pangungusap at gagawin muli, ang sistema ay maniningil lamang sa iyo para sa nag-iisang nabagong pangungusap na iyon, hindi sa buong teksto. Ang sistemang ito ng caching ay nagse-save ng iyong mga hindi nabagong pangungusap sa loob ng 7 araw, na ginagawang napaka-ekonomikal ang paulit-ulit na pag-edit.
Kumuha ng tulong mula sa aming komunidad! Itanong ang iyong mga katanungan sa aming Telegram chat: https://t.me/speechgen