Paano Gamitin ang Text to Speech sa SpeechGen.io: Kumpletong Gabay

08-09-2025 , 16-09-2025

🚀 Mabilis na Simula — Gumawa ng Audio sa 4 na Hakbang

Hakbang 1: Pumili ng Wika

Buksan ang dropdown ng wika at piliin ang wika ng iyong teksto. Mga suportadong wika: Higit sa 150 wika (AI voices library).

Hakbang 2: Pumili ng Boses

Pagkatapos piliin ang wika, lalabas ang listahan ng mga boses. Makinig sa mga sample at piliin ang paborito mo.

Hakbang 3: I-paste ang Teksto

Kopyahin ang iyong teksto sa text box o mag-upload ng file (DOCX, PDF). Para gawing speech ang mga subtitle, gamitin ang dedikadong SRT to voice page.

Hakbang 4: I-click ang "Generate Speech" (asul na button)

Hakbang 4: I-click ang Generate Speech

Maghintay sa pag-proseso at i-download ang iyong audio file.

Ayan na! Handa na ang iyong unang voiceover sa loob lamang ng ilang minuto.

Paghahanda ng Teksto

Inirerekomenda:

Gumamit ng simpleng teksto na walang mga hindi kailangang simbolo
Ilagay nang tama ang mga bantas (tuldok, kuwit, tandang pananong)
Hatiin ang mahabang teksto sa mga talata

Iwasan:

Mga emoji at emoticon (maaaring makagambala sa paggawa ng audio)
Mga kakaibang simbolo: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Mga espesyal na Unicode na simbolo:

💡 Tip: Kapag kumokopya mula sa mga PDF file, bigyang-pansin nang mabuti ang teksto — maaaring may lumitaw na mga hindi nakikitang karakter na sisira sa audio!

Mga Limitasyon at Restriksyon

Mga suportadong wika: 150+ wika (buong listahan).
Mga format ng upload: simpleng teksto, DOCX, PDF, SRT.

Maximum bawat henerasyon: 2,000,000 karakter (≈ 285,000-330,000 salita) - ito ang kahanga-hangang dami ng teksto na maaari mong gawing speech sa isang henerasyon, na ginagawa itong perpekto para sa mahahabang nilalaman tulad ng buong libro o malawak na dokumentasyon.

Detalyadong Hakbang-hakbang na Mga Tagubilin

Hakbang 1: Mag-upload ng Teksto

I-paste ang teksto: Kopyahin ang iyong teksto sa text box
Mag-upload ng file: O i-click ang upload button at piliin ang file (DOCX, PDF)
Suriin ang teksto: Siguraduhing tama ang pagkakapakita ng teksto

Hakbang 2: Pumili ng Wika

⚠️ Mahalaga: Unahing piliin ang tamang wika para sa iyong teksto

Buksan ang dropdown list ng wika
Hanapin ang kailangang wika (150+ wika ang available)
Para sa mga tekstong may maraming wika, gamitin ang multi-voice audio generation

Hakbang 3: Pumili ng Boses

Pagkatapos piliin ang wika, magbubukas ang listahan ng mga available na boses. Makinig sa mga sample sa pamamagitan ng pag-click sa play button para sa bawat boses upang mahanap ang pinakaangkop sa iyong mga pangangailangan. Makikita mo ang iba't ibang uri ng boses na available: Ang mga Regular na boses ay nag-aalok ng karaniwang kalidad, ang mga PRO na boses ay nagbibigay ng pinahusay na kalidad at naturalness, at ang mga Multi-language na boses (may tatak na mga code ng wika tulad ng Ava_US, Ava_ES) ay nagbibigay-daan sa iyo na mapanatili ang pagkakapare-pareho ng boses sa iba't ibang wika. Maglaan ng oras upang i-preview ang bawat boses dahil malaki ang pagkakaiba nila sa tono, emosyon, at karakter.

Hakbang 4: I-configure ang mga Parameter

Bilis ng pagsasalita: mula x0.1 (napakabagal) hanggang x2.2 (napakabilis)
Tono ng boses: mula -20 hanggang +20 (hakbang na 2)

Sa ibaba ng text box, sa itaas ng generate button, maaari mong ayusin ang mga setting ng pause:

mga setting ng pause

Mga pause sa pagitan ng mga pangungusap: 150ms - 30 segundo
Mga pause sa pagitan ng mga talata: 150ms - 30 segundo

Hakbang 5: Gumawa ng Speech

I-click ang "Generate Speech" button sa ibaba ng text box upang simulan ang proseso ng pag-convert. Ang oras ng pag-proseso ay nakasalalay sa haba ng iyong teksto - ang mas maiikling teksto ay natatapos sa ilang segundo habang ang mas mahahabang dokumento ay maaaring tumagal ng ilang minuto. Kapag natapos na ang paggawa, magagawa mong pakinggan ang resulta nang direkta sa browser upang matiyak na natutugunan nito ang iyong mga inaasahan.

Hakbang 6: I-download

Pagkatapos makumpleto ang paggawa, lilitaw ang isang "Download" button. Bilang default, maaari mo lang i-download ang file bilang MP3. Gayunpaman, kung kailangan mo ng ibang format (WAV o OPUS) o gusto mong baguhin ang kalidad ng audio (sample rate mula 8000 hanggang 44000 Hz), kailangan mo munang piliin ang mga opsyon na ito mula sa mga dropdown menu, gawing muli ang speech gamit ang iyong napiling mga setting, at pagkatapos ay i-download ang file gamit ang iyong piniling mga detalye.

Mga Setting ng Parameter ng Audio

Bilis ng Pagsasalita

Bilis ng iskala:

x0.1 - x0.9: Pagbagal (para sa kumplikadong materyal, pag-aaral ng wika)
x1.0: Normal na bilis (default)
x1.1 - x2.2: Pagpapabilis (para sa dinamikong nilalaman)

Bakit ang iskala na ito: Ang mga fractional na halaga na mas mababa sa 1 ay nagpapabagal ng pagsasalita, mas mataas sa 1 ay nagpapabilis. Pinapayagan nito ang tumpak na pagpili ng tempo para sa iyong audience.

Mga rekomendasyon sa bilis:

Edukasyon: x0.8-x1.0 (para sa mas mahusay na pag-unawa)
Mga Presentasyon: x0.9-x1.1 (opisyal na bilis)
Mga Podcast: x1.0-x1.2 (masiglang bilis)
YouTube: x1.1-x1.4 (pagpapanatili ng atensyon)

Tono ng Boses

Saklaw ng tono: mula -20 hanggang +20 na may hakbang na 2

Bakit hakbang na 2: Ang hakbang na 2 yunit ay nagbibigay ng kapansin-pansin ngunit hindi matalas na pagbabago sa tono. Ang mas maliliit na hakbang ay hindi mapapansin, ang mas malalaking hakbang ay masyadong dramatiko.

Impluwensya ng tono:

Mga negatibong halaga (-2 hanggang -20): Ginagawang mas mababa, mas seryoso, mas awtoritatibo ang boses
Mga positibong halaga (+2 hanggang +20): Ginagawang mas mataas, mas palakaibigan, mas masigla ang boses
0: Neutral na tono (default)

Mga Aplikasyon:

Nilalaman ng Negosyo: -4 hanggang +2
Nilalaman para sa mga Bata: +4 hanggang +12
Dramatikong Nilalaman: -8 hanggang -16
Palakaibigang Nilalaman: +2 hanggang +8

Paggawa gamit ang mga Pause

Awtomatikong mga Pause

Mga pause sa pagitan ng mga pangungusap: 300ms (default)

Mga pause sa pagitan ng mga talata: 400ms (default)

Maaaring baguhin ang mga setting na ito sa mga dropdown menu mula 150ms hanggang 30 segundo.

Manu-manong Pagpasok ng Pause

Sa pamamagitan ng interface:

Ilagay ang cursor sa nais na lokasyon sa teksto
I-click ang "Pause" button sa menu
Ang simbolo na .- ay lilitaw sa teksto

Sa pamamagitan ng mga tag:

Ipasok ang tag na <break time="200ms"/> o <break time="2s"/> sa nais na lokasyon

Mga tuntunin sa pause:

Maximum na pause: 30 segundo
Maaaring maglagay ng maraming pause nang sunud-sunod para sa mas mahabang pagkaantala
Ang mga pause ay hindi kumokonsumo ng karagdagang limitasyon

Kailan gagamitin ang mga pause:

Bago ang mahahalagang pahayag
Pagkatapos ng mga retorikal na tanong
Sa pagitan ng iba't ibang paksa
Upang lumikha ng dramatiko na epekto

Multi-Voice Audio

Ang dialogue function ay nagbibigay-daan sa paggamit ng iba't ibang boses sa isang teksto.

Mga Aplikasyon:

Audiobooks: Iba't ibang boses para sa mga karakter
Mga Diyalogong Pang-edukasyon: Guro at mag-aaral
Mga Presentasyon: Pangunahing tagapagsalita at komentarista
Mga Podcast: Maraming host

Ang multi-voice dialogue feature ay nagbubukas ng mga malikhaing posibilidad na higit pa sa mga boses ng karakter. Halimbawa, ang mga guro ng wikang banyaga ay maaaring gamitin ang function na ito upang ipakita ang parehong parirala sa iba't ibang bilis para sa pag-aaral ng wika, na tumutulong sa mga mag-aaral na maunawaan ang pagbigkas sa iba't ibang antas ng pag-unawa. Para sa mga detalyadong pamamaraan at aplikasyon sa silid-aralan, tingnan ang aming gabay sa paggamit ng text-to-speech para sa pagtuturo ng wikang banyaga.

Pagpili ng Boses

Mga Multi-language na Boses

Ang mga boses na may mga code ng wika (hal., Ava_US, Ava_ES, Ava_DE) ay idinisenyo upang mapanatili ang pare-parehong pagkilala sa boses sa iba't ibang wika. Ang mga multi-language na boses na ito ay nagbibigay-daan sa iyo na lumikha ng isang pinag-isang estilo para sa nilalamang multilingual, na tinitiyak na ang parehong karakter ng boses ay maaaring magsalita ng maraming wika nang walang putol. Ang tampok na ito ay partikular na kapaki-pakinabang sa dialogue mode, kung saan maaari kang lumipat sa pagitan ng mga wika habang pinapanatili ang parehong nakikilalang personalidad ng boses sa iyong audio project.

Paghihiwalay ng Audio

Pinapayagan ka ng SpeechGen na hatiin ang iyong ginawang audio sa maraming segment sa loob ng isang synthesis project, na ginagawa itong perpekto para sa mga video editor na nangangailangan ng magkakahiwalay na mga audio file para sa iba't ibang eksena o kabanata. Ang tampok na ito ay partikular na kapaki-pakinabang para sa paglikha ng mga voiceover para sa mga video sa YouTube, mga online course, o anumang proyekto na nangangailangan ng tumpak na audio synchronization.

Paano Gumawa ng mga Segment

Upang hatiin ang iyong audio, ilagay lamang ang iyong cursor kung saan mo gustong hatiin ang teksto at i-click ang cut button sa menu panel. Ito ay maglalagay ng <cut/> tag sa posisyong iyon. Maaari mo ring manu-manong i-type o kopyahin-paste ang tag na ito sa iyong teksto. Para sa mga custom na filename, gamitin ang format na ito:

<cut name="iyong-filename"/>

Ang tampok na ito ay tumutulong sa iyo na ayusin ang mga segment na may makabuluhang mga pangalan tulad ng:

<cut name="intro"/>

<cut name="chapter-1"/>

Pag-download at Pamamahala ng mga Segment

Kapag nagdagdag ka na ng kahit isang segment tag, lilitaw ang isang "download segments" button pagkatapos ng paggawa. I-click ito upang i-download ang lahat ng segment nang sabay-sabay, o gamitin ang "more" button sa audio player upang ma-access ang mga indibidwal na segment. Ang bawat file ay awtomatikong pinangalanan na may natatanging ID, numero ng pagkakasunod-sunod, at deskriptibong pamagat (hal., "7054789_1_first-sentence"), na ginagawang madali ang pagkilala at pag-aayos ng iyong mga audio file sa iyong editing software.

Mga Limitasyon sa Segment

Maikling mga segment: Hanggang 1000 segment bawat henerasyon
Mahahabang mga segment: Hanggang 500 segment bawat henerasyon

Para sa mas malalaking proyekto, hatiin sa maraming henerasyon. Para sa kumpletong mga tagubilin, advanced na mga pamamaraan, at mga tutorial sa video, bisitahin ang aming kumpletong dokumentasyon sa audio segmentation.

Pag-setup ng Intonasyon

Ang ilang mga boses ay may intonation graphs:

Ang mga intonation graph ay available sa mga boses na nagpapakita ng settings icon sa tabi ng pangalan ng boses - ang tampok na ito ay matatagpuan sa mahigit kalahati ng mga boses sa library, kabilang ang mga regular at PRO na opsyon

I-drag ang mga punto sa graph upang baguhin ang intonasyon
Itaas ang mga punto upang dagdagan ang tono sa ilang mga salita
Ibaba ang mga punto upang lumikha ng mas seryosong tono
Mag-eksperimento sa iba't ibang mga kurba para sa naturalness

I-drag ang mga punto sa graph upang baguhin ang intonasyon

Piliin ang pangungusap kung saan mo gustong ayusin ang intonasyon at pindutin ang intonation button. Lalabas ang interface na ito.

Sistema ng Cache at Pagtitipid ng Limitasyon

Smart Cache

Gumagamit ang SpeechGen. ng isang intelligent caching system na makabuluhang nakakatipid sa iyong mga limitasyon. Gumagana ang sistema sa pamamagitan ng pag-save ng bawat pangungusap (hanggang 100,000 karakter) sa cache sa loob ng 7 araw. Kapag ginawa mo muli ang iyong audio, ang anumang hindi nabagong mga pangungusap ay awtomatikong kinukuha mula sa cache nang libre - magbabayad ka lamang para sa mga bago o binagong mga pangungusap. Nangangahulugan ito na maaari kang gumawa ng mga incremental na pag-edit sa iyong teksto nang hindi nauubos ang iyong buong character allowance sa bawat oras. Ang kasaysayan ng proyekto ay nakaimbak sa loob ng 30 araw, at ang mga file na idinagdag mo sa mga paborito ay permanenteng naitatabi.

Mga panahon ng pag-iimbak:

Sentence cache: 7 araw
Kasaysayan ng proyekto: 30 araw
Mga paboritong file: Permanenteng nakaimbak

Pag-troubleshoot ng mga Karaniwang Isyu

Mga Isyu sa Kalidad ng Audio

Hindi natural ang tunog ng boses:

Subukan ang mga PRO na boses
Bawasan ang bilis sa x0.9-x1.1
Suriin ang kawastuhan ng bantas
Gumamit ng neutral na tono (0)

Maling pagbigkas:

Siguraduhing tama ang napiling wika
Isulat ang mga kumplikadong salita nang pa-phonetic
Gumamit ng SSML tags para sa tumpak na kontrol

Hindi natural na mga pause:

Suriin ang bantas
I-configure ang mga pause sa pagitan ng mga pangungusap
Gumamit ng manu-manong mga pause na .- o <break time=""/>
Alisin ang mga sobrang espasyo at line break

Mga error sa SSML:

Suriin ang kawastuhan ng tag
Hindi lahat ng boses ay sumusuporta sa lahat ng SSML tags

Mga Karagdagang Tampok

SSML (Speech Synthesis Markup Language)

Para sa ekspertong kontrol sa boses, gumamit ng SSML tags:

<break time="2s"/> — mga pause
<emphasis level="strong"> — pagbibigay-diin sa boses
<prosody rate="slow" pitch="low"> — pagbabago ng mga katangian ng pagsasalita

⚠️ Pansin: Ang iba't ibang boses ay sumusuporta sa iba't ibang hanay ng SSML tags. Subukan ang paggana para sa bawat partikular na boses.

Kasaysayan at Mga Paborito

Kasaysayan ng proyekto: Awtomatikong nai-save sa loob ng 30 araw
Mga Paborito: Magdagdag ng mahahalagang proyekto para sa permanenteng pag-iimbak

Integrasyon at API

API ay available para sa mga developer upang isama ang SpeechGen.io sa kanilang sariling mga aplikasyon at serbisyo.

Hindi nag-a-upload ang aking file sa SpeechGen. Ano ang dapat kong gawin?

Una, suriin kung ang iyong file ay nasa suportadong format (DOCX, PDF, o TXT). Siguraduhing hindi sira ang file at subukang mag-upload muli. Kung magpapatuloy ang isyu, kopyahin ang teksto nang manu-mano at i-paste ito nang direkta sa text box. Suriin din kung ang laki ng iyong file ay hindi lumalagpas sa mga limitasyon ng platform.

Gaano katagal itinatago ng SpeechGen ang aking mga ginawang audio file?

Ang iyong kasaysayan ng proyekto ay awtomatikong nai-save sa loob ng 30 araw. Ang smart cache (para sa pag-save sa antas ng pangungusap) ay tumatagal ng 7 araw. Upang mapanatili ang mga file nang permanente, idagdag ang mga ito sa iyong mga paborito. Tinitiyak nito na ang iyong mahahalagang audio project ay hindi mawawala at mananatiling naa-access sa iyong profile.

Maaari ba akong gumamit ng iba't ibang boses para sa iba't ibang karakter sa isang audio file?

Oo! Nag-aalok ang SpeechGen ng multi-voice audio generation (dialogue mode). Maaari kang magtalaga ng iba't ibang boses sa iba't ibang bahagi ng teksto, na ginagawa itong perpekto para sa mga audiobook na may maraming karakter, mga diyalogong pang-edukasyon, o mga podcast na may maraming nagsasalita. Maaari mo ring gamitin ang mga multi-language na boses upang lumipat sa pagitan ng mga wika habang pinapanatili ang pagkakapare-pareho ng karakter.

Ano ang pagkakaiba sa pagitan ng regular at PRO na mga boses sa SpeechGen?

Ang mga PRO na boses ay nag-aalok ng mas mataas na kalidad at naturalness kumpara sa mga regular na boses. Karaniwan silang may mas mahusay na emosyonal na ekspresyon, mas tumpak na pagbigkas, at ang ilan ay sumusuporta sa mga advanced na tampok tulad ng intonation graphs. Para sa mga propesyonal na proyekto tulad ng mga audiobook, kurso, o mga presentasyon sa negosyo, inirerekomenda ang mga PRO na boses.

Ang pagbabago ba ng mga setting ng audio ay kumokonsumo ng aking mga limitasyon sa karakter?

Nakadepende ito sa kung anong mga setting ang iyong babaguhin. Ang pag-aayos ng bilis ng pagsasalita o tono ay nangangailangan ng buong paggawa muli at kokonsumo ng iyong mga limitasyon sa karakter, dahil ang mga pagbabagong ito ay nakakaapekto sa buong voice synthesis. Gayunpaman, maaari mong malayang baguhin ang mga pause sa pagitan ng mga pangungusap at talata nang walang anumang pagkonsumo ng limitasyon. Bukod pa rito, gumagamit ang SpeechGen ng smart caching: kung gagawa ka ng isang malaking teksto, pagkatapos ay babaguhin mo lamang ang isang pangungusap at gagawin muli, ang sistema ay maniningil lamang sa iyo para sa nag-iisang nabagong pangungusap na iyon, hindi sa buong teksto. Ang sistemang ito ng caching ay nagse-save ng iyong mga hindi nabagong pangungusap sa loob ng 7 araw, na ginagawang napaka-ekonomikal ang paulit-ulit na pag-edit.

Video

Mayroon Pa Bang Mga Tanong?

Kumuha ng tulong mula sa aming komunidad! Itanong ang iyong mga katanungan sa aming Telegram chat: https://t.me/speechgen

Mga Developer

Profile

Mga Gabay