08-09-2025 , 16-09-2025
Buka senarai juntai turun bahasa dan pilih bahasa teks anda. Bahasa yang disokong: Lebih 150 bahasa (pustaka suara AI).
Selepas memilih bahasa, senarai suara akan muncul. Dengar sampel dan pilih kegemaran anda
Salin teks anda ke dalam kotak teks atau muat naik fail (DOCX, PDF). Untuk menukar sarikata kepada suara, gunakan halaman SRT ke suara yang khusus.
Tunggu pemprosesan dan muat turun fail audio anda yang sedia
Itu sahaja! Suara latar pertama anda sedia dalam masa beberapa minit sahaja.
💡 Petua: Semasa menyalin daripada fail PDF, beri perhatian khusus pada teks — aksara yang tidak kelihatan mungkin muncul yang akan merosakkan audio!
Maksimum setiap penjanaan: 2,000,000 aksara (≈ 285,000-330,000 patah perkataan) - ini adalah jumlah teks yang mengagumkan yang boleh anda tukar kepada suara dalam satu penjanaan, menjadikannya sesuai untuk kandungan panjang seperti keseluruhan buku atau dokumentasi yang luas.
⚠️ Penting: Mula-mula pilih bahasa yang betul untuk teks anda
Selepas memilih bahasa, senarai suara yang tersedia akan dibuka. Dengar sampel dengan mengklik butang main untuk setiap suara untuk mencari yang paling sesuai dengan keperluan anda. Anda akan melihat jenis suara yang berbeza tersedia: Suara Biasa menawarkan kualiti standard, suara PRO memberikan kualiti dan keaslian yang dipertingkatkan, dan suara Berbilang Bahasa (ditandai dengan kod bahasa seperti Ava_US, Ava_ES) membolehkan anda mengekalkan konsistensi suara merentasi bahasa yang berbeza. Luangkan masa untuk pratonton setiap suara kerana ia berbeza dengan ketara dalam nada, emosi dan watak.
Di bawah kotak teks, di atas butang jana, anda boleh melaraskan tetapan jeda:
Klik butang "Hasilkan Suara" di bawah kotak teks untuk memulakan proses penukaran. Masa pemprosesan bergantung pada panjang teks anda - teks yang lebih pendek selesai dalam beberapa saat manakala dokumen yang lebih panjang mungkin mengambil masa beberapa minit. Setelah penjanaan selesai, anda akan dapat mendengar hasil terus dalam penyemak imbas untuk memastikan ia memenuhi jangkaan anda.
Selepas penjanaan selesai, butang "Muat Turun" akan muncul. Secara lalai, anda boleh memuat turun fail sebagai MP3. Walau bagaimanapun, jika anda memerlukan format yang berbeza (WAV atau OPUS) atau ingin menukar kualiti audio (kadar sampel dari 8000 hingga 44000 Hz), anda perlu memilih pilihan ini daripada menu juntai turun terlebih dahulu, menjana semula suara dengan tetapan pilihan anda, dan kemudian memuat turun fail dengan spesifikasi pilihan anda.
Skala Kelajuan:
Skala ini: Nilai pecahan kurang daripada 1 memperlahankan pertuturan, lebih besar daripada 1 mempercepatkan. Ini membolehkan pemilihan tempo yang tepat untuk audiens anda.
Cadangan Kelajuan:
Julat Nada: dari -20 hingga +20 dengan langkah 2
Sebab langkah 2: Langkah 2 unit memberikan perubahan nada yang ketara tetapi tidak tajam. Langkah yang lebih kecil tidak akan ketara, langkah yang lebih besar terlalu dramatik.
Pengaruh Nada:
Aplikasi:
Jeda antara ayat: 300ms (lalai)
Jeda antara perenggan: 400ms (lalai)
Tetapan ini boleh diubah dalam menu juntai turun dari 150ms hingga 30 saat.
Melalui antara muka:
Melalui tag:
Masukkan tag <break time="200ms"/> atau <break time="2s"/> di lokasi yang diingini
Peraturan Jeda:
Bila perlu menggunakan jeda:
Fungsi dialogue membenarkan penggunaan suara yang berbeza dalam satu teks.
Ciri dialog berbilang suara membuka kemungkinan kreatif di luar suara watak semata-mata. Guru bahasa asing, sebagai contoh, boleh menggunakan fungsi ini untuk menunjukkan frasa yang sama pada kelajuan yang berbeza untuk pembelajaran bahasa, membantu pelajar menguasai sebutan pada tahap pemahaman yang berbeza. Untuk teknik terperinci dan aplikasi bilik darjah, lihat panduan kami tentang menggunakan text-to-speech untuk pengajaran bahasa asing.
Suara dengan kod bahasa (cth., Ava_US, Ava_ES, Ava_DE) direka untuk mengekalkan pengiktirafan suara yang konsisten merentasi bahasa yang berbeza. Suara berbilang bahasa ini membolehkan anda mencipta gaya yang bersatu untuk kandungan berbilang bahasa, memastikan bahawa personaliti suara yang sama boleh bertutur dalam pelbagai bahasa dengan lancar. Ciri ini amat berguna dalam mod dialog, di mana anda boleh bertukar antara bahasa sambil mengekalkan personaliti suara yang sama yang boleh dikenali sepanjang projek audio anda.
SpeechGen membolehkan anda membahagikan audio anda kepada berbilang segmen dalam satu projek sintesis, menjadikannya sempurna untuk editor video yang memerlukan fail audio berasingan untuk adegan atau bab yang berbeza. Ciri ini amat berguna untuk mencipta suara latar untuk video YouTube, kursus dalam talian, atau mana-mana projek yang memerlukan penyegerakan audio yang tepat.
Untuk membahagikan audio anda, hanya letakkan kursor anda di tempat anda ingin membahagikan teks dan klik butang potong dalam panel menu. Ini memasukkan tag <cut/> pada kedudukan itu. Anda juga boleh menaip atau menyalin-tampal tag ini secara manual di seluruh teks anda. Untuk nama fail tersuai, gunakan format ini:
<cut name="nama-fail-anda"/>
Ciri ini membantu anda menyusun segmen dengan nama yang bermakna seperti:
<cut name="pengenalan"/>
<cut name="bab-1"/>
Setelah anda menambahkan sekurang-kurangnya satu tag segmen, butang "muat turun segmen" akan muncul selepas penjanaan. Klik padanya untuk memuat turun semua segmen sekaligus, atau gunakan butang "lain" pada pemain audio untuk mengakses segmen individu. Setiap fail dinamakan secara automatik dengan ID unik, nombor urutan, dan tajuk deskriptif (cth., "7054789_1_first-sentence"), menjadikannya mudah untuk mengenal pasti dan mengurus fail audio anda dalam perisian penyuntingan anda.
Untuk projek yang lebih besar, bahagikan kepada berbilang penjanaan. Untuk arahan yang komprehensif, teknik lanjutan, dan tutorial video, lawati dokumentasi segmentasi audio lengkap kami.
Sesetengah suara mempunyai graf intonasi:
Graf intonasi tersedia pada suara yang memaparkan ikon tetapan di sebelah nama suara - ciri ini terdapat pada lebih separuh daripada suara dalam pustaka, termasuk pilihan biasa dan PRO
Pilih ayat yang anda ingin laraskan intonasinya dan tekan butang intonasi. Antara muka ini akan muncul.
SpeechGen. menggunakan sistem cache pintar yang menjimatkan had anda dengan ketara. Sistem ini berfungsi dengan menyimpan setiap ayat (sehingga 100,000 aksara) dalam cache selama 7 hari. Apabila anda menjana semula audio anda, mana-mana ayat yang tidak diubah akan diambil secara automatik daripada cache secara percuma - anda hanya membayar untuk ayat baharu atau yang diedit. Ini bermakna anda boleh membuat edit berperingkat pada teks anda tanpa menggunakan elaun aksara anda sepenuhnya setiap kali. Sejarah projek disimpan selama 30 hari, dan fail yang anda tambahkan pada kegemaran disimpan secara kekal.
Tempoh penyimpanan:
Suara kedengaran tidak semula jadi:
Sebutan yang salah:
Jeda yang tidak semula jadi:
Ralat SSML:
Untuk kawalan suara pakar, gunakan tag SSML:
⚠️ Perhatian: Suara yang berbeza menyokong set tag SSML yang berbeza. Uji fungsi untuk setiap suara tertentu.
API tersedia untuk pembangun untuk menyepadukan SpeechGen.io ke dalam aplikasi dan perkhidmatan mereka sendiri.
Pertama, semak sama ada fail anda dalam format yang disokong (DOCX, PDF, atau TXT). Pastikan fail tidak rosak dan cuba muat naik semula. Jika isu berterusan, salin teks secara manual dan tampalkannya terus ke dalam kotak teks. Juga sahkan bahawa saiz fail anda tidak melebihi had platform.
Sejarah projek anda disimpan secara automatik selama 30 hari. Cache pintar (untuk simpanan peringkat ayat) bertahan selama 7 hari. Untuk menyimpan fail secara kekal, tambahkan pada kegemaran anda. Ini memastikan projek audio penting anda tidak pernah hilang dan kekal boleh diakses dalam profil anda.
Ya! SpeechGen menawarkan penjanaan audio berbilang suara (mod dialog). Anda boleh menetapkan suara yang berbeza kepada bahagian teks yang berbeza, menjadikannya sempurna untuk buku audio dengan berbilang watak, dialog pendidikan, atau podcast dengan berbilang pembicara. Anda juga boleh menggunakan suara berbilang bahasa untuk bertukar antara bahasa sambil mengekalkan konsistensi watak.
Suara PRO menawarkan kualiti dan keaslian yang unggul berbanding suara biasa. Mereka biasanya mempunyai ekspresi emosi yang lebih baik, sebutan yang lebih tepat, dan sesetengahnya menyokong ciri lanjutan seperti graf intonasi. Untuk projek profesional seperti buku audio, kursus, atau persembahan perniagaan, suara PRO disyorkan.
Ia bergantung pada tetapan yang anda ubah. Melaraskan kelajuan suara atau nada memerlukan penjanaan semula penuh dan akan menggunakan had aksara anda, kerana perubahan ini menjejaskan keseluruhan sintesis suara. Walau bagaimanapun, anda boleh mengubah jeda antara ayat dan perenggan secara bebas tanpa sebarang penggunaan had. Selain itu, SpeechGen menggunakan cache pintar: jika anda menjana teks yang besar, kemudian edit hanya satu ayat dan menjana semula, sistem hanya akan mengenakan bayaran untuk ayat yang diubah itu sahaja, bukan keseluruhan teks. Sistem cache ini menjimatkan ayat anda yang tidak diubah selama 7 hari, menjadikan penyuntingan berperingkat sangat menjimatkan.
Dapatkan bantuan daripada komuniti kami! Ajukan soalan anda dalam sembang Telegram kami: https://t.me/speechgen