Cara Menggunakan Text to Speech di SpeechGen.io: Panduan Lengkap

08-09-2025 , 16-09-2025

🚀 Mula Pantas — Cipta Audio dalam 4 Langkah

Langkah 1: Pilih Bahasa

Buka senarai juntai turun bahasa dan pilih bahasa teks anda. Bahasa yang disokong: Lebih 150 bahasa (pustaka suara AI).

Langkah 2: Pilih Suara

Selepas memilih bahasa, senarai suara akan muncul. Dengar sampel dan pilih kegemaran anda

Langkah 3: Tampal Teks

Salin teks anda ke dalam kotak teks atau muat naik fail (DOCX, PDF). Untuk menukar sarikata kepada suara, gunakan halaman SRT ke suara yang khusus.

Langkah 4: Klik "Hasilkan Suara" (butang biru)

Langkah 4: Klik Hasilkan Suara

Tunggu pemprosesan dan muat turun fail audio anda yang sedia

Itu sahaja! Suara latar pertama anda sedia dalam masa beberapa minit sahaja.

Penyediaan Teks

Disyorkan:

Gunakan teks biasa tanpa simbol yang tidak perlu
Letakkan tanda baca dengan betul (noktah, koma, tanda seru)
Pecahkan teks panjang kepada perenggan

Elakkan:

Emoji dan emotikon (boleh mengganggu penjanaan audio)
Simbol eksotik: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Simbol Unicode khas:

💡 Petua: Semasa menyalin daripada fail PDF, beri perhatian khusus pada teks — aksara yang tidak kelihatan mungkin muncul yang akan merosakkan audio!

Had dan Sekatan

Bahasa yang disokong: 150+ bahasa (senarai penuh).
Format muat naik: teks biasa, DOCX, PDF, SRT.

Maksimum setiap penjanaan: 2,000,000 aksara (≈ 285,000-330,000 patah perkataan) - ini adalah jumlah teks yang mengagumkan yang boleh anda tukar kepada suara dalam satu penjanaan, menjadikannya sesuai untuk kandungan panjang seperti keseluruhan buku atau dokumentasi yang luas.

Arahan Langkah demi Langkah Terperinci

Langkah 1: Muat Naik Teks

Tampal teks: Salin teks anda ke dalam kotak teks
Muat naik fail: Atau klik butang muat naik dan pilih fail (DOCX, PDF)
Semak teks: Pastikan teks dipaparkan dengan betul

Langkah 2: Pilih Bahasa

⚠️ Penting: Mula-mula pilih bahasa yang betul untuk teks anda

Buka senarai juntai turun bahasa
Cari bahasa yang diperlukan (150+ bahasa tersedia)
Untuk teks berbilang bahasa, gunakan penjanaan audio berbilang suara

Langkah 3: Pilih Suara

Selepas memilih bahasa, senarai suara yang tersedia akan dibuka. Dengar sampel dengan mengklik butang main untuk setiap suara untuk mencari yang paling sesuai dengan keperluan anda. Anda akan melihat jenis suara yang berbeza tersedia: Suara Biasa menawarkan kualiti standard, suara PRO memberikan kualiti dan keaslian yang dipertingkatkan, dan suara Berbilang Bahasa (ditandai dengan kod bahasa seperti Ava_US, Ava_ES) membolehkan anda mengekalkan konsistensi suara merentasi bahasa yang berbeza. Luangkan masa untuk pratonton setiap suara kerana ia berbeza dengan ketara dalam nada, emosi dan watak.

Langkah 4: Konfigurasi Parameter

Kelajuan Suara: dari x0.1 (sangat perlahan) hingga x2.2 (sangat pantas)
Nada Suara: dari -20 hingga +20 (langkah 2)

Di bawah kotak teks, di atas butang jana, anda boleh melaraskan tetapan jeda:

tetapan jeda

Jeda antara ayat: 150ms - 30 saat
Jeda antara perenggan: 150ms - 30 saat

Langkah 5: Hasilkan Suara

Klik butang "Hasilkan Suara" di bawah kotak teks untuk memulakan proses penukaran. Masa pemprosesan bergantung pada panjang teks anda - teks yang lebih pendek selesai dalam beberapa saat manakala dokumen yang lebih panjang mungkin mengambil masa beberapa minit. Setelah penjanaan selesai, anda akan dapat mendengar hasil terus dalam penyemak imbas untuk memastikan ia memenuhi jangkaan anda.

Langkah 6: Muat Turun

Selepas penjanaan selesai, butang "Muat Turun" akan muncul. Secara lalai, anda boleh memuat turun fail sebagai MP3. Walau bagaimanapun, jika anda memerlukan format yang berbeza (WAV atau OPUS) atau ingin menukar kualiti audio (kadar sampel dari 8000 hingga 44000 Hz), anda perlu memilih pilihan ini daripada menu juntai turun terlebih dahulu, menjana semula suara dengan tetapan pilihan anda, dan kemudian memuat turun fail dengan spesifikasi pilihan anda.

Tetapan Parameter Audio

Kelajuan Suara

Skala Kelajuan:

x0.1 - x0.9: Perlahan (untuk bahan kompleks, pembelajaran bahasa)
x1.0: Kelajuan Normal (lalai)
x1.1 - x2.2: Percepatkan (untuk kandungan dinamik)

Skala ini: Nilai pecahan kurang daripada 1 memperlahankan pertuturan, lebih besar daripada 1 mempercepatkan. Ini membolehkan pemilihan tempo yang tepat untuk audiens anda.

Cadangan Kelajuan:

Pendidikan: x0.8-x1.0 (untuk pemahaman yang lebih baik)
Persembahan: x0.9-x1.1 (kelajuan rasmi)
Podcast: x1.0-x1.2 (kelajuan yang meriah)
YouTube: x1.1-x1.4 (pengekalan perhatian)

Nada Suara

Julat Nada: dari -20 hingga +20 dengan langkah 2

Sebab langkah 2: Langkah 2 unit memberikan perubahan nada yang ketara tetapi tidak tajam. Langkah yang lebih kecil tidak akan ketara, langkah yang lebih besar terlalu dramatik.

Pengaruh Nada:

Nilai Negatif (-2 hingga -20): Menjadikan suara lebih rendah, lebih serius, berwibawa
Nilai Positif (+2 hingga +20): Menjadikan suara lebih tinggi, lebih mesra, lebih bertenaga
0: Nada Neutral (lalai)

Aplikasi:

Kandungan Perniagaan: -4 hingga +2
Kandungan Kanak-kanak: +4 hingga +12
Kandungan Dramatik: -8 hingga -16
Kandungan Mesra: +2 hingga +8

Bekerja dengan Jeda

Jeda Automatik

Jeda antara ayat: 300ms (lalai)

Jeda antara perenggan: 400ms (lalai)

Tetapan ini boleh diubah dalam menu juntai turun dari 150ms hingga 30 saat.

Memasukkan Jeda Manual

Melalui antara muka:

Letakkan kursor di lokasi yang diingini dalam teks
Klik butang "Jeda" dalam menu
Simbol .- akan muncul dalam teks

Melalui tag:

Masukkan tag <break time="200ms"/> atau <break time="2s"/> di lokasi yang diingini

Peraturan Jeda:

Jeda maksimum: 30 saat
Boleh meletakkan berbilang jeda berturut-turut untuk kelewatan yang lebih lama
Jeda tidak menggunakan had tambahan

Bila perlu menggunakan jeda:

Sebelum kenyataan penting
Selepas soalan retorik
Antara topik yang berbeza
Untuk mencipta kesan dramatik

Audio Berbilang Suara

Fungsi dialogue membenarkan penggunaan suara yang berbeza dalam satu teks.

Aplikasi:

Buku Audio: Suara yang berbeza untuk watak
Dialog Pendidikan: Guru dan pelajar
Persembahan: Pembicara utama dan pemberi komen
Podcast: Berbilang hos

Ciri dialog berbilang suara membuka kemungkinan kreatif di luar suara watak semata-mata. Guru bahasa asing, sebagai contoh, boleh menggunakan fungsi ini untuk menunjukkan frasa yang sama pada kelajuan yang berbeza untuk pembelajaran bahasa, membantu pelajar menguasai sebutan pada tahap pemahaman yang berbeza. Untuk teknik terperinci dan aplikasi bilik darjah, lihat panduan kami tentang menggunakan text-to-speech untuk pengajaran bahasa asing.

Pemilihan Suara

Suara Berbilang Bahasa

Suara dengan kod bahasa (cth., Ava_US, Ava_ES, Ava_DE) direka untuk mengekalkan pengiktirafan suara yang konsisten merentasi bahasa yang berbeza. Suara berbilang bahasa ini membolehkan anda mencipta gaya yang bersatu untuk kandungan berbilang bahasa, memastikan bahawa personaliti suara yang sama boleh bertutur dalam pelbagai bahasa dengan lancar. Ciri ini amat berguna dalam mod dialog, di mana anda boleh bertukar antara bahasa sambil mengekalkan personaliti suara yang sama yang boleh dikenali sepanjang projek audio anda.

Segmentasi Audio

SpeechGen membolehkan anda membahagikan audio anda kepada berbilang segmen dalam satu projek sintesis, menjadikannya sempurna untuk editor video yang memerlukan fail audio berasingan untuk adegan atau bab yang berbeza. Ciri ini amat berguna untuk mencipta suara latar untuk video YouTube, kursus dalam talian, atau mana-mana projek yang memerlukan penyegerakan audio yang tepat.

Cara Mencipta Segmen

Untuk membahagikan audio anda, hanya letakkan kursor anda di tempat anda ingin membahagikan teks dan klik butang potong dalam panel menu. Ini memasukkan tag <cut/> pada kedudukan itu. Anda juga boleh menaip atau menyalin-tampal tag ini secara manual di seluruh teks anda. Untuk nama fail tersuai, gunakan format ini:

<cut name="nama-fail-anda"/>

Ciri ini membantu anda menyusun segmen dengan nama yang bermakna seperti:

<cut name="pengenalan"/>

<cut name="bab-1"/>

Memuat Turun dan Mengurus Segmen

Setelah anda menambahkan sekurang-kurangnya satu tag segmen, butang "muat turun segmen" akan muncul selepas penjanaan. Klik padanya untuk memuat turun semua segmen sekaligus, atau gunakan butang "lain" pada pemain audio untuk mengakses segmen individu. Setiap fail dinamakan secara automatik dengan ID unik, nombor urutan, dan tajuk deskriptif (cth., "7054789_1_first-sentence"), menjadikannya mudah untuk mengenal pasti dan mengurus fail audio anda dalam perisian penyuntingan anda.

Had Segmen

Segmen Pendek: Hingga 1000 segmen setiap penjanaan
Segmen Panjang: Hingga 500 segmen setiap penjanaan

Untuk projek yang lebih besar, bahagikan kepada berbilang penjanaan. Untuk arahan yang komprehensif, teknik lanjutan, dan tutorial video, lawati dokumentasi segmentasi audio lengkap kami.

Persediaan Intonasi

Sesetengah suara mempunyai graf intonasi:

Graf intonasi tersedia pada suara yang memaparkan ikon tetapan di sebelah nama suara - ciri ini terdapat pada lebih separuh daripada suara dalam pustaka, termasuk pilihan biasa dan PRO

Seret titik pada graf untuk menukar intonasi
Naikkan titik untuk meningkatkan nada pada perkataan tertentu
Turunkan titik untuk mencipta nada yang lebih serius
Eksperimen dengan lengkung yang berbeza untuk keaslian

Seret titik pada graf untuk menukar intonasi

Pilih ayat yang anda ingin laraskan intonasinya dan tekan butang intonasi. Antara muka ini akan muncul.

Sistem Cache dan Penjimatan Had

Cache Pintar

SpeechGen. menggunakan sistem cache pintar yang menjimatkan had anda dengan ketara. Sistem ini berfungsi dengan menyimpan setiap ayat (sehingga 100,000 aksara) dalam cache selama 7 hari. Apabila anda menjana semula audio anda, mana-mana ayat yang tidak diubah akan diambil secara automatik daripada cache secara percuma - anda hanya membayar untuk ayat baharu atau yang diedit. Ini bermakna anda boleh membuat edit berperingkat pada teks anda tanpa menggunakan elaun aksara anda sepenuhnya setiap kali. Sejarah projek disimpan selama 30 hari, dan fail yang anda tambahkan pada kegemaran disimpan secara kekal.

Tempoh penyimpanan:

Cache Ayat: 7 hari
Sejarah Projek: 30 hari
Fail Kegemaran: Disimpan secara kekal

Penyelesaian Masalah Isu Biasa

Isu Kualiti Audio

Suara kedengaran tidak semula jadi:

Cuba suara PRO
Kurangkan kelajuan kepada x0.9-x1.1
Semak ketepatan tanda baca
Gunakan nada neutral (0)

Sebutan yang salah:

Pastikan bahasa yang betul dipilih
Tulis perkataan kompleks secara fonetik
Gunakan tag SSML untuk kawalan yang tepat

Jeda yang tidak semula jadi:

Semak tanda baca
Konfigurasi jeda antara ayat
Gunakan jeda manual .- atau <break time=""/>
Alihkan ruang dan pemutus baris tambahan

Ralat SSML:

Semak ketepatan tag
Tidak semua suara menyokong semua tag SSML

Ciri Tambahan

SSML (Speech Synthesis Markup Language)

Untuk kawalan suara pakar, gunakan tag SSML:

<break time="2s"/> — jeda
<emphasis level="strong"> — penekanan suara
<prosody rate="slow" pitch="low"> — perubahan ciri pertuturan

⚠️ Perhatian: Suara yang berbeza menyokong set tag SSML yang berbeza. Uji fungsi untuk setiap suara tertentu.

Sejarah dan Kegemaran

Sejarah Projek: Disimpan secara automatik selama 30 hari
Kegemaran: Tambah projek penting untuk penyimpanan kekal

Penyepaduan dan API

API tersedia untuk pembangun untuk menyepadukan SpeechGen.io ke dalam aplikasi dan perkhidmatan mereka sendiri.

Fail saya tidak dimuat naik ke SpeechGen. Apa yang perlu saya lakukan?

Pertama, semak sama ada fail anda dalam format yang disokong (DOCX, PDF, atau TXT). Pastikan fail tidak rosak dan cuba muat naik semula. Jika isu berterusan, salin teks secara manual dan tampalkannya terus ke dalam kotak teks. Juga sahkan bahawa saiz fail anda tidak melebihi had platform.

Berapa lama SpeechGen menyimpan fail audio saya yang dijana?

Sejarah projek anda disimpan secara automatik selama 30 hari. Cache pintar (untuk simpanan peringkat ayat) bertahan selama 7 hari. Untuk menyimpan fail secara kekal, tambahkan pada kegemaran anda. Ini memastikan projek audio penting anda tidak pernah hilang dan kekal boleh diakses dalam profil anda.

Bolehkah saya menggunakan suara yang berbeza untuk watak yang berbeza dalam satu fail audio?

Ya! SpeechGen menawarkan penjanaan audio berbilang suara (mod dialog). Anda boleh menetapkan suara yang berbeza kepada bahagian teks yang berbeza, menjadikannya sempurna untuk buku audio dengan berbilang watak, dialog pendidikan, atau podcast dengan berbilang pembicara. Anda juga boleh menggunakan suara berbilang bahasa untuk bertukar antara bahasa sambil mengekalkan konsistensi watak.

Apakah perbezaan antara suara biasa dan PRO di SpeechGen?

Suara PRO menawarkan kualiti dan keaslian yang unggul berbanding suara biasa. Mereka biasanya mempunyai ekspresi emosi yang lebih baik, sebutan yang lebih tepat, dan sesetengahnya menyokong ciri lanjutan seperti graf intonasi. Untuk projek profesional seperti buku audio, kursus, atau persembahan perniagaan, suara PRO disyorkan.

Adakah menukar tetapan audio menggunakan had aksara saya?

Ia bergantung pada tetapan yang anda ubah. Melaraskan kelajuan suara atau nada memerlukan penjanaan semula penuh dan akan menggunakan had aksara anda, kerana perubahan ini menjejaskan keseluruhan sintesis suara. Walau bagaimanapun, anda boleh mengubah jeda antara ayat dan perenggan secara bebas tanpa sebarang penggunaan had. Selain itu, SpeechGen menggunakan cache pintar: jika anda menjana teks yang besar, kemudian edit hanya satu ayat dan menjana semula, sistem hanya akan mengenakan bayaran untuk ayat yang diubah itu sahaja, bukan keseluruhan teks. Sistem cache ini menjimatkan ayat anda yang tidak diubah selama 7 hari, menjadikan penyuntingan berperingkat sangat menjimatkan.

Video

Masih Ada Soalan?

Dapatkan bantuan daripada komuniti kami! Ajukan soalan anda dalam sembang Telegram kami: https://t.me/speechgen