08-09-2025 , 16-09-2025
Buka menu tarik turun bahasa dan pilih bahasa teks Anda. Bahasa yang didukung: Lebih dari 150 bahasa (perpustakaan suara AI).
Setelah memilih bahasa, daftar suara akan muncul. Dengarkan sampelnya dan pilih suara favorit Anda
Salin teks Anda ke kotak teks atau unggah file (DOCX, PDF). Untuk mengubah subtitle menjadi suara, gunakan halaman SRT ke Suara khusus.
Tunggu pemrosesan dan unduh file audio Anda yang sudah siap
Selesai! Sulih suara pertama Anda siap hanya dalam beberapa menit.
💡 Tips: Saat menyalin dari file PDF, perhatikan baik-baik teksnya — karakter tak terlihat mungkin muncul dan merusak audio!
Maksimal per generasi: 2.000.000 karakter (≈ 285.000-330.000 kata) - ini adalah jumlah teks yang mengesankan yang dapat Anda ubah menjadi suara dalam satu generasi, menjadikannya ideal untuk konten panjang seperti buku utuh atau dokumentasi ekstensif.
⚠️ Penting: Pilih bahasa yang benar untuk teks Anda terlebih dahulu
Setelah memilih bahasa, daftar suara yang tersedia akan terbuka. Dengarkan sampel dengan mengklik tombol putar untuk setiap suara guna menemukan yang paling sesuai dengan kebutuhan Anda. Anda akan melihat berbagai jenis suara yang tersedia: Suara Reguler menawarkan kualitas standar, suara PRO memberikan kualitas dan kealamian yang ditingkatkan, dan suara Multibahasa (ditandai dengan kode bahasa seperti Ava_US, Ava_ES) memungkinkan Anda mempertahankan konsistensi suara di berbagai bahasa. Luangkan waktu untuk mempratinjau setiap suara karena sangat bervariasi dalam nada, emosi, dan karakter.
Di bawah kotak teks, di atas tombol hasilkan, Anda dapat menyesuaikan pengaturan jeda:
Klik tombol "Hasilkan Suara" di bawah kotak teks untuk memulai proses konversi. Waktu pemrosesan tergantung pada panjang teks Anda - teks yang lebih pendek selesai dalam hitungan detik sementara dokumen yang lebih panjang mungkin memerlukan beberapa menit. Setelah generasi selesai, Anda akan dapat mendengarkan hasilnya langsung di browser untuk memastikan sesuai dengan harapan Anda.
Setelah generasi selesai, tombol "Unduh" akan muncul. Secara default, Anda dapat langsung mengunduh file sebagai MP3. Namun, jika Anda memerlukan format yang berbeda (WAV atau OPUS) atau ingin mengubah kualitas audio (tingkat sampel dari 8000 hingga 44000 Hz), Anda perlu memilih opsi ini terlebih dahulu dari menu tarik turun, menghasilkan ulang suara dengan pengaturan pilihan Anda, lalu mengunduh file dengan spesifikasi pilihan Anda.
Skala Kecepatan:
Mengapa skala ini: Nilai pecahan kurang dari 1 memperlambat ucapan, lebih dari 1 mempercepat. Ini memungkinkan pemilihan tempo yang tepat untuk audiens Anda.
Rekomendasi Kecepatan:
Rentang Nada: dari -20 hingga +20 dengan langkah 2
Mengapa langkah 2: Langkah 2 unit memberikan perubahan nada yang terlihat tetapi tidak tajam. Langkah yang lebih kecil tidak akan terlihat, langkah yang lebih besar terlalu dramatis.
Pengaruh Nada:
Aplikasi:
Jeda antar kalimat: 300ms (default)
Jeda antar paragraf: 400ms (default)
Pengaturan ini dapat diubah dalam menu tarik turun dari 150ms hingga 30 detik.
Melalui antarmuka:
Melalui tag:
Sisipkan tag <break time="200ms"/> atau <break time="2s"/> di lokasi yang diinginkan
Aturan Jeda:
Kapan menggunakan jeda:
Fungsi dialog memungkinkan penggunaan suara yang berbeda dalam satu teks.
Fitur dialog multibahasa membuka kemungkinan kreatif di luar sekadar suara karakter. Guru bahasa asing, misalnya, dapat menggunakan fungsi ini untuk mendemonstrasikan frasa yang sama dengan kecepatan berbeda untuk pembelajaran bahasa, membantu siswa memahami pengucapan pada tingkat pemahaman yang berbeda. Untuk teknik terperinci dan aplikasi kelas, lihat panduan kami tentang menggunakan text-to-speech untuk pengajaran bahasa asing.
Suara dengan kode bahasa (misalnya, Ava_US, Ava_ES, Ava_DE) dirancang untuk mempertahankan pengenalan suara yang konsisten di berbagai bahasa. Suara multibahasa ini memungkinkan Anda menciptakan gaya yang bersatu untuk konten multibahasa, memastikan bahwa karakter suara yang sama dapat berbicara berbagai bahasa dengan lancar. Fitur ini sangat berguna dalam mode dialog, di mana Anda dapat beralih antar bahasa sambil mempertahankan kepribadian suara yang sama sepanjang proyek audio Anda.
SpeechGen memungkinkan Anda membagi audio yang dihasilkan menjadi beberapa segmen dalam satu proyek sintesis, menjadikannya sempurna untuk editor video yang memerlukan file audio terpisah untuk adegan atau bab yang berbeda. Fitur ini sangat berguna untuk membuat sulih suara untuk video YouTube, kursus online, atau proyek apa pun yang memerlukan sinkronisasi audio yang tepat.
Untuk membagi audio Anda, cukup tempatkan kursor Anda di tempat Anda ingin membagi teks dan klik tombol potong di panel menu. Ini menyisipkan tag <cut/> di posisi tersebut. Anda juga dapat mengetik atau menyalin-tempel tag ini secara manual di seluruh teks Anda. Untuk nama file kustom, gunakan format ini:
<cut name="nama-file-anda"/>
Fitur ini membantu Anda mengatur segmen dengan nama yang bermakna seperti:
<cut name="intro"/>
<cut name="bab-1"/>
Setelah Anda menambahkan setidaknya satu tag segmen, tombol "unduh segmen" akan muncul setelah generasi. Klik untuk mengunduh semua segmen sekaligus, atau gunakan tombol "lainnya" pada pemutar audio untuk mengakses segmen individu. Setiap file secara otomatis diberi nama dengan ID unik, nomor urut, dan judul deskriptif (misalnya, "7054789_1_kalimat-pertama"), sehingga mudah untuk mengidentifikasi dan mengatur file audio Anda di perangkat lunak pengeditan Anda.
Untuk proyek yang lebih besar, bagi menjadi beberapa generasi. Untuk instruksi komprehensif, teknik lanjutan, dan tutorial video, kunjungi dokumentasi segmentasi audio lengkap kami.
Beberapa suara memiliki grafik intonasi:
Grafik intonasi tersedia pada suara yang menampilkan ikon pengaturan di sebelah nama suara - fitur ini ditemukan pada lebih dari separuh suara di perpustakaan, termasuk opsi reguler dan PRO
Pilih kalimat di mana Anda ingin menyesuaikan intonasi dan tekan tombol intonasi. Antarmuka ini akan muncul.
SpeechGen. menggunakan sistem cache cerdas yang secara signifikan menghemat batas Anda. Sistem ini bekerja dengan menyimpan setiap kalimat (hingga 100.000 karakter) dalam cache selama 7 hari. Saat Anda menghasilkan ulang audio Anda, kalimat yang tidak berubah akan diambil secara otomatis dari cache secara gratis - Anda hanya membayar untuk kalimat baru atau yang diedit. Ini berarti Anda dapat melakukan pengeditan bertahap pada teks Anda tanpa menghabiskan seluruh kuota karakter Anda setiap kali. Riwayat proyek disimpan selama 30 hari, dan file yang Anda tambahkan ke favorit disimpan secara permanen.
Periode Penyimpanan:
Suara terdengar tidak alami:
Pengucapan salah:
Jeda tidak alami:
Kesalahan SSML:
Untuk kontrol suara ahli, gunakan tag SSML:
⚠️ Perhatian: Suara yang berbeda mendukung set tag SSML yang berbeda. Uji fungsionalitas untuk setiap suara tertentu.
API tersedia untuk pengembang untuk mengintegrasikan SpeechGen.io ke dalam aplikasi dan layanan mereka sendiri.
Pertama, periksa apakah file Anda dalam format yang didukung (DOCX, PDF, atau TXT). Pastikan file tidak rusak dan coba unggah lagi. Jika masalah berlanjut, salin teks secara manual dan tempelkan langsung ke kotak teks. Periksa juga apakah ukuran file Anda tidak melebihi batas platform.
Riwayat proyek Anda secara otomatis disimpan selama 30 hari. Cache cerdas (untuk penyimpanan tingkat kalimat) bertahan selama 7 hari. Untuk menyimpan file secara permanen, tambahkan ke favorit Anda. Ini memastikan proyek audio penting Anda tidak pernah hilang dan tetap dapat diakses di profil Anda.
Ya! SpeechGen menawarkan pembuatan audio multibahasa (mode dialog). Anda dapat menetapkan suara yang berbeda ke bagian teks yang berbeda, menjadikannya sempurna untuk buku audio dengan banyak karakter, dialog pendidikan, atau podcast dengan banyak pembicara. Anda bahkan dapat menggunakan suara multibahasa untuk beralih antar bahasa sambil mempertahankan konsistensi karakter.
Suara PRO menawarkan kualitas dan kealamian yang unggul dibandingkan suara reguler. Mereka biasanya memiliki ekspresi emosional yang lebih baik, pengucapan yang lebih akurat, dan beberapa mendukung fitur lanjutan seperti grafik intonasi. Untuk proyek profesional seperti buku audio, kursus, atau presentasi bisnis, suara PRO direkomendasikan.
Itu tergantung pada pengaturan mana yang Anda ubah. Menyesuaikan kecepatan bicara atau nada memerlukan generasi ulang penuh dan akan mengonsumsi batas karakter Anda, karena perubahan ini memengaruhi seluruh sintesis suara. Namun, Anda dapat dengan bebas mengubah jeda antar kalimat dan paragraf tanpa konsumsi batas apa pun. Selain itu, SpeechGen menggunakan caching cerdas: jika Anda menghasilkan teks besar, lalu mengedit hanya satu kalimat dan menghasilkan ulang, sistem hanya akan menagih Anda untuk kalimat yang diubah itu saja, bukan seluruh teks. Sistem caching ini menyimpan kalimat Anda yang tidak berubah selama 7 hari, membuat pengeditan berulang sangat ekonomis.
Dapatkan bantuan dari komunitas kami! Ajukan pertanyaan Anda di obrolan Telegram kami: https://t.me/speechgen
Grup obrolan internasional di Telegram @speechgen
Dukungan personal di Telegram @speechgen_alex