Cara Menggunakan Text to Speech di SpeechGen.io: Panduan Lengkap
08-09-2025 , 16-09-2025
🚀 Mulai Cepat — Buat Audio dalam 4 Langkah
Langkah 1: Pilih Bahasa

Buka menu tarik turun bahasa dan pilih bahasa teks Anda. Bahasa yang didukung: Lebih dari 150 bahasa (perpustakaan suara AI).
Langkah 2: Pilih Suara

Setelah memilih bahasa, daftar suara akan muncul. Dengarkan sampelnya dan pilih suara favorit Anda
Langkah 3: Tempel Teks
Salin teks Anda ke kotak teks atau unggah file (DOCX, PDF). Untuk mengubah subtitle menjadi suara, gunakan halaman SRT ke Suara khusus.
Langkah 4: Klik "Hasilkan Suara" (tombol biru)
Tunggu pemrosesan dan unduh file audio Anda yang sudah siap
Selesai! Sulih suara pertama Anda siap hanya dalam beberapa menit.
Persiapan Teks
Disarankan:
- Gunakan teks biasa tanpa simbol yang tidak perlu
- Tempatkan tanda baca dengan benar (titik, koma, tanda seru)
- Bagi teks panjang menjadi beberapa paragraf
Hindari:
- Emoji dan emotikon (dapat mengganggu pembuatan audio)
- Simbol eksotis: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
- Simbol Unicode khusus: 
💡 Tips: Saat menyalin dari file PDF, perhatikan baik-baik teksnya — karakter tak terlihat mungkin muncul dan merusak audio!
Batas dan Pembatasan
- Bahasa yang didukung: 150+ bahasa (daftar lengkap).
- Format unggah: teks biasa, DOCX, PDF, SRT.
Maksimal per generasi: 2.000.000 karakter (≈ 285.000-330.000 kata) - ini adalah jumlah teks yang mengesankan yang dapat Anda ubah menjadi suara dalam satu generasi, menjadikannya ideal untuk konten panjang seperti buku utuh atau dokumentasi ekstensif.
Instruksi Langkah demi Langkah yang Rinci
Langkah 1: Unggah Teks
- Tempel teks: Salin teks Anda ke kotak teks
- Unggah file: Atau klik tombol unggah dan pilih file (DOCX, PDF)
- Periksa teks: Pastikan teks ditampilkan dengan benar
Langkah 2: Pilih Bahasa
⚠️ Penting: Pilih bahasa yang benar untuk teks Anda terlebih dahulu
- Buka daftar tarik turun bahasa
- Temukan bahasa yang dibutuhkan (tersedia 150+ bahasa)
- Untuk teks multibahasa, gunakan pembuatan audio multibahasa
Langkah 3: Pilih Suara
Setelah memilih bahasa, daftar suara yang tersedia akan terbuka. Dengarkan sampel dengan mengklik tombol putar untuk setiap suara guna menemukan yang paling sesuai dengan kebutuhan Anda. Anda akan melihat berbagai jenis suara yang tersedia: Suara Reguler menawarkan kualitas standar, suara PRO memberikan kualitas dan kealamian yang ditingkatkan, dan suara Multibahasa (ditandai dengan kode bahasa seperti Ava_US, Ava_ES) memungkinkan Anda mempertahankan konsistensi suara di berbagai bahasa. Luangkan waktu untuk mempratinjau setiap suara karena sangat bervariasi dalam nada, emosi, dan karakter.
Langkah 4: Konfigurasi Parameter
- Kecepatan Bicara: dari x0.1 (sangat lambat) hingga x2.2 (sangat cepat)
- Nada Suara: dari -20 hingga +20 (langkah 2)
Di bawah kotak teks, di atas tombol hasilkan, Anda dapat menyesuaikan pengaturan jeda:
- Jeda antar kalimat: 150ms - 30 detik
- Jeda antar paragraf: 150ms - 30 detik
Langkah 5: Hasilkan Suara
Klik tombol "Hasilkan Suara" di bawah kotak teks untuk memulai proses konversi. Waktu pemrosesan tergantung pada panjang teks Anda - teks yang lebih pendek selesai dalam hitungan detik sementara dokumen yang lebih panjang mungkin memerlukan beberapa menit. Setelah generasi selesai, Anda akan dapat mendengarkan hasilnya langsung di browser untuk memastikan sesuai dengan harapan Anda.
Langkah 6: Unduh
Setelah generasi selesai, tombol "Unduh" akan muncul. Secara default, Anda dapat langsung mengunduh file sebagai MP3. Namun, jika Anda memerlukan format yang berbeda (WAV atau OPUS) atau ingin mengubah kualitas audio (tingkat sampel dari 8000 hingga 44000 Hz), Anda perlu memilih opsi ini terlebih dahulu dari menu tarik turun, menghasilkan ulang suara dengan pengaturan pilihan Anda, lalu mengunduh file dengan spesifikasi pilihan Anda.
Pengaturan Parameter Audio
Kecepatan Bicara
Skala Kecepatan:
- x0.1 - x0.9: Perlambatan (untuk materi kompleks, pembelajaran bahasa)
- x1.0: Kecepatan normal (default)
- x1.1 - x2.2: Percepatan (untuk konten dinamis)
Mengapa skala ini: Nilai pecahan kurang dari 1 memperlambat ucapan, lebih dari 1 mempercepat. Ini memungkinkan pemilihan tempo yang tepat untuk audiens Anda.
Rekomendasi Kecepatan:
- Pendidikan: x0.8-x1.0 (untuk pemahaman yang lebih baik)
- Presentasi: x0.9-x1.1 (tempo resmi)
- Podcast: x1.0-x1.2 (tempo bersemangat)
- YouTube: x1.1-x1.4 (mempertahankan perhatian)
Nada Suara
Rentang Nada: dari -20 hingga +20 dengan langkah 2
Mengapa langkah 2: Langkah 2 unit memberikan perubahan nada yang terlihat tetapi tidak tajam. Langkah yang lebih kecil tidak akan terlihat, langkah yang lebih besar terlalu dramatis.
Pengaruh Nada:
- Nilai negatif (-2 hingga -20): Membuat suara lebih rendah, lebih serius, berwibawa
- Nilai positif (+2 hingga +20): Membuat suara lebih tinggi, lebih ramah, lebih bersemangat
- 0: Nada netral (default)
Aplikasi:
- Konten bisnis: -4 hingga +2
- Konten anak-anak: +4 hingga +12
- Konten dramatis: -8 hingga -16
- Konten ramah: +2 hingga +8
Bekerja dengan Jeda
Jeda Otomatis
Jeda antar kalimat: 300ms (default)
Jeda antar paragraf: 400ms (default)
Pengaturan ini dapat diubah dalam menu tarik turun dari 150ms hingga 30 detik.
Menyisipkan Jeda Manual
Melalui antarmuka:
- Tempatkan kursor di lokasi yang diinginkan dalam teks
- Klik tombol "Jeda" di menu
- Simbol .- akan muncul di teks
Melalui tag:
Sisipkan tag <break time="200ms"/> atau <break time="2s"/> di lokasi yang diinginkan
Aturan Jeda:
- Jeda maksimum: 30 detik
- Dapat menempatkan beberapa jeda berturut-turut untuk penundaan yang lebih lama
- Jeda tidak mengonsumsi batas tambahan
Kapan menggunakan jeda:
- Sebelum pernyataan penting
- Setelah pertanyaan retoris
- Antara topik yang berbeda
- Untuk menciptakan efek dramatis
Audio Multisuara
Fungsi dialog memungkinkan penggunaan suara yang berbeda dalam satu teks.
Aplikasi:
- Buku Audio: Suara berbeda untuk karakter
- Dialog Edukasi: Guru dan siswa
- Presentasi: Pembicara utama dan komentator
- Podcast: Beberapa pembawa acara
Fitur dialog multibahasa membuka kemungkinan kreatif di luar sekadar suara karakter. Guru bahasa asing, misalnya, dapat menggunakan fungsi ini untuk mendemonstrasikan frasa yang sama dengan kecepatan berbeda untuk pembelajaran bahasa, membantu siswa memahami pengucapan pada tingkat pemahaman yang berbeda. Untuk teknik terperinci dan aplikasi kelas, lihat panduan kami tentang menggunakan text-to-speech untuk pengajaran bahasa asing.
Pemilihan Suara
Suara Multibahasa
Suara dengan kode bahasa (misalnya, Ava_US, Ava_ES, Ava_DE) dirancang untuk mempertahankan pengenalan suara yang konsisten di berbagai bahasa. Suara multibahasa ini memungkinkan Anda menciptakan gaya yang bersatu untuk konten multibahasa, memastikan bahwa karakter suara yang sama dapat berbicara berbagai bahasa dengan lancar. Fitur ini sangat berguna dalam mode dialog, di mana Anda dapat beralih antar bahasa sambil mempertahankan kepribadian suara yang sama sepanjang proyek audio Anda.
Segmentasi Audio
SpeechGen memungkinkan Anda membagi audio yang dihasilkan menjadi beberapa segmen dalam satu proyek sintesis, menjadikannya sempurna untuk editor video yang memerlukan file audio terpisah untuk adegan atau bab yang berbeda. Fitur ini sangat berguna untuk membuat sulih suara untuk video YouTube, kursus online, atau proyek apa pun yang memerlukan sinkronisasi audio yang tepat.
Cara Membuat Segmen
Untuk membagi audio Anda, cukup tempatkan kursor Anda di tempat Anda ingin membagi teks dan klik tombol potong di panel menu. Ini menyisipkan tag <cut/> di posisi tersebut. Anda juga dapat mengetik atau menyalin-tempel tag ini secara manual di seluruh teks Anda. Untuk nama file kustom, gunakan format ini:
<cut name="nama-file-anda"/>
Fitur ini membantu Anda mengatur segmen dengan nama yang bermakna seperti:
<cut name="intro"/>
<cut name="bab-1"/>
Mengunduh dan Mengelola Segmen
Setelah Anda menambahkan setidaknya satu tag segmen, tombol "unduh segmen" akan muncul setelah generasi. Klik untuk mengunduh semua segmen sekaligus, atau gunakan tombol "lainnya" pada pemutar audio untuk mengakses segmen individu. Setiap file secara otomatis diberi nama dengan ID unik, nomor urut, dan judul deskriptif (misalnya, "7054789_1_kalimat-pertama"), sehingga mudah untuk mengidentifikasi dan mengatur file audio Anda di perangkat lunak pengeditan Anda.
Batasan Segmen
- Segmen pendek: Hingga 1000 segmen per generasi
- Segmen panjang: Hingga 500 segmen per generasi
Untuk proyek yang lebih besar, bagi menjadi beberapa generasi. Untuk instruksi komprehensif, teknik lanjutan, dan tutorial video, kunjungi dokumentasi segmentasi audio lengkap kami.
Pengaturan Intonasi
Beberapa suara memiliki grafik intonasi:
Grafik intonasi tersedia pada suara yang menampilkan ikon pengaturan di sebelah nama suara - fitur ini ditemukan pada lebih dari separuh suara di perpustakaan, termasuk opsi reguler dan PRO
- Seret titik pada grafik untuk mengubah intonasi
- Naikkan titik untuk meningkatkan nada pada kata-kata tertentu
- Turunkan titik untuk menciptakan nada yang lebih serius
- Bereksperimenlah dengan kurva yang berbeda untuk kealamian
Pilih kalimat di mana Anda ingin menyesuaikan intonasi dan tekan tombol intonasi. Antarmuka ini akan muncul.
Sistem Cache dan Penghematan Batas
Cache Cerdas
SpeechGen. menggunakan sistem cache cerdas yang secara signifikan menghemat batas Anda. Sistem ini bekerja dengan menyimpan setiap kalimat (hingga 100.000 karakter) dalam cache selama 7 hari. Saat Anda menghasilkan ulang audio Anda, kalimat yang tidak berubah akan diambil secara otomatis dari cache secara gratis - Anda hanya membayar untuk kalimat baru atau yang diedit. Ini berarti Anda dapat melakukan pengeditan bertahap pada teks Anda tanpa menghabiskan seluruh kuota karakter Anda setiap kali. Riwayat proyek disimpan selama 30 hari, dan file yang Anda tambahkan ke favorit disimpan secara permanen.
Periode Penyimpanan:
- Cache Kalimat: 7 hari
- Riwayat Proyek: 30 hari
- File Favorit: Disimpan secara permanen
Pemecahan Masalah Umum
Masalah Kualitas Audio
Suara terdengar tidak alami:
- Coba suara PRO
- Kurangi kecepatan menjadi x0.9-x1.1
- Periksa kebenaran tanda baca
- Gunakan nada netral (0)
Pengucapan salah:
- Pastikan bahasa yang benar dipilih
- Tulis kata-kata kompleks secara fonetis
- Gunakan tag SSML untuk kontrol yang tepat
Jeda tidak alami:
- Periksa tanda baca
- Konfigurasikan jeda antar kalimat
- Gunakan jeda manual .- atau <break time=""/>
- Hapus spasi dan jeda baris ekstra
Kesalahan SSML:
- Periksa kebenaran tag
- Tidak semua suara mendukung semua tag SSML
Fitur Tambahan
SSML (Speech Synthesis Markup Language)
Untuk kontrol suara ahli, gunakan tag SSML:
- <break time="2s"/> — jeda
- <emphasis level="strong"> — penekanan suara
- <prosody rate="slow" pitch="low"> — perubahan karakteristik ucapan
⚠️ Perhatian: Suara yang berbeda mendukung set tag SSML yang berbeda. Uji fungsionalitas untuk setiap suara tertentu.
Riwayat dan Favorit
- Riwayat Proyek: Disimpan secara otomatis selama 30 hari
- Favorit: Tambahkan proyek penting untuk penyimpanan permanen
Integrasi dan API
API tersedia untuk pengembang untuk mengintegrasikan SpeechGen.io ke dalam aplikasi dan layanan mereka sendiri.
File saya tidak dapat diunggah ke SpeechGen. Apa yang harus saya lakukan?
Pertama, periksa apakah file Anda dalam format yang didukung (DOCX, PDF, atau TXT). Pastikan file tidak rusak dan coba unggah lagi. Jika masalah berlanjut, salin teks secara manual dan tempelkan langsung ke kotak teks. Periksa juga apakah ukuran file Anda tidak melebihi batas platform.
Berapa lama SpeechGen menyimpan file audio yang saya hasilkan?
Riwayat proyek Anda secara otomatis disimpan selama 30 hari. Cache cerdas (untuk penyimpanan tingkat kalimat) bertahan selama 7 hari. Untuk menyimpan file secara permanen, tambahkan ke favorit Anda. Ini memastikan proyek audio penting Anda tidak pernah hilang dan tetap dapat diakses di profil Anda.
Bisakah saya menggunakan suara yang berbeda untuk karakter yang berbeda dalam satu file audio?
Ya! SpeechGen menawarkan pembuatan audio multibahasa (mode dialog). Anda dapat menetapkan suara yang berbeda ke bagian teks yang berbeda, menjadikannya sempurna untuk buku audio dengan banyak karakter, dialog pendidikan, atau podcast dengan banyak pembicara. Anda bahkan dapat menggunakan suara multibahasa untuk beralih antar bahasa sambil mempertahankan konsistensi karakter.
Apa perbedaan antara suara reguler dan PRO di SpeechGen?
Suara PRO menawarkan kualitas dan kealamian yang unggul dibandingkan suara reguler. Mereka biasanya memiliki ekspresi emosional yang lebih baik, pengucapan yang lebih akurat, dan beberapa mendukung fitur lanjutan seperti grafik intonasi. Untuk proyek profesional seperti buku audio, kursus, atau presentasi bisnis, suara PRO direkomendasikan.
Apakah mengubah pengaturan audio mengonsumsi batas karakter saya?
Itu tergantung pada pengaturan mana yang Anda ubah. Menyesuaikan kecepatan bicara atau nada memerlukan generasi ulang penuh dan akan mengonsumsi batas karakter Anda, karena perubahan ini memengaruhi seluruh sintesis suara. Namun, Anda dapat dengan bebas mengubah jeda antar kalimat dan paragraf tanpa konsumsi batas apa pun. Selain itu, SpeechGen menggunakan caching cerdas: jika Anda menghasilkan teks besar, lalu mengedit hanya satu kalimat dan menghasilkan ulang, sistem hanya akan menagih Anda untuk kalimat yang diubah itu saja, bukan seluruh teks. Sistem caching ini menyimpan kalimat Anda yang tidak berubah selama 7 hari, membuat pengeditan berulang sangat ekonomis.
Video
Masih Ada Pertanyaan?
Dapatkan bantuan dari komunitas kami! Ajukan pertanyaan Anda di obrolan Telegram kami: https://t.me/speechgen