Cara Menggunakan Text to Speech di SpeechGen.io: Panduan Lengkap

08-09-2025 , 16-09-2025

🚀 Mulai Cepat — Buat Audio dalam 4 Langkah

Langkah 1: Pilih Bahasa

Buka menu tarik turun bahasa dan pilih bahasa teks Anda. Bahasa yang didukung: Lebih dari 150 bahasa (perpustakaan suara AI).

Langkah 2: Pilih Suara

Setelah memilih bahasa, daftar suara akan muncul. Dengarkan sampelnya dan pilih suara favorit Anda

Langkah 3: Tempel Teks

Salin teks Anda ke kotak teks atau unggah file (DOCX, PDF). Untuk mengubah subtitle menjadi suara, gunakan halaman SRT ke Suara khusus.

Langkah 4: Klik "Hasilkan Suara" (tombol biru)

Langkah 4: Klik Hasilkan Suara

Tunggu pemrosesan dan unduh file audio Anda yang sudah siap

Selesai! Sulih suara pertama Anda siap hanya dalam beberapa menit.

Persiapan Teks

Disarankan:

Gunakan teks biasa tanpa simbol yang tidak perlu
Tempatkan tanda baca dengan benar (titik, koma, tanda seru)
Bagi teks panjang menjadi beberapa paragraf

Hindari:

Emoji dan emotikon (dapat mengganggu pembuatan audio)
Simbol eksotis: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Simbol Unicode khusus:

💡 Tips: Saat menyalin dari file PDF, perhatikan baik-baik teksnya — karakter tak terlihat mungkin muncul dan merusak audio!

Batas dan Pembatasan

Bahasa yang didukung: 150+ bahasa (daftar lengkap).
Format unggah: teks biasa, DOCX, PDF, SRT.

Maksimal per generasi: 2.000.000 karakter (≈ 285.000-330.000 kata) - ini adalah jumlah teks yang mengesankan yang dapat Anda ubah menjadi suara dalam satu generasi, menjadikannya ideal untuk konten panjang seperti buku utuh atau dokumentasi ekstensif.

Instruksi Langkah demi Langkah yang Rinci

Langkah 1: Unggah Teks

Tempel teks: Salin teks Anda ke kotak teks
Unggah file: Atau klik tombol unggah dan pilih file (DOCX, PDF)
Periksa teks: Pastikan teks ditampilkan dengan benar

Langkah 2: Pilih Bahasa

⚠️ Penting: Pilih bahasa yang benar untuk teks Anda terlebih dahulu

Buka daftar tarik turun bahasa
Temukan bahasa yang dibutuhkan (tersedia 150+ bahasa)
Untuk teks multibahasa, gunakan pembuatan audio multibahasa

Langkah 3: Pilih Suara

Setelah memilih bahasa, daftar suara yang tersedia akan terbuka. Dengarkan sampel dengan mengklik tombol putar untuk setiap suara guna menemukan yang paling sesuai dengan kebutuhan Anda. Anda akan melihat berbagai jenis suara yang tersedia: Suara Reguler menawarkan kualitas standar, suara PRO memberikan kualitas dan kealamian yang ditingkatkan, dan suara Multibahasa (ditandai dengan kode bahasa seperti Ava_US, Ava_ES) memungkinkan Anda mempertahankan konsistensi suara di berbagai bahasa. Luangkan waktu untuk mempratinjau setiap suara karena sangat bervariasi dalam nada, emosi, dan karakter.

Langkah 4: Konfigurasi Parameter

Kecepatan Bicara: dari x0.1 (sangat lambat) hingga x2.2 (sangat cepat)
Nada Suara: dari -20 hingga +20 (langkah 2)

Di bawah kotak teks, di atas tombol hasilkan, Anda dapat menyesuaikan pengaturan jeda:

pengaturan jeda

Jeda antar kalimat: 150ms - 30 detik
Jeda antar paragraf: 150ms - 30 detik

Langkah 5: Hasilkan Suara

Klik tombol "Hasilkan Suara" di bawah kotak teks untuk memulai proses konversi. Waktu pemrosesan tergantung pada panjang teks Anda - teks yang lebih pendek selesai dalam hitungan detik sementara dokumen yang lebih panjang mungkin memerlukan beberapa menit. Setelah generasi selesai, Anda akan dapat mendengarkan hasilnya langsung di browser untuk memastikan sesuai dengan harapan Anda.

Langkah 6: Unduh

Setelah generasi selesai, tombol "Unduh" akan muncul. Secara default, Anda dapat langsung mengunduh file sebagai MP3. Namun, jika Anda memerlukan format yang berbeda (WAV atau OPUS) atau ingin mengubah kualitas audio (tingkat sampel dari 8000 hingga 44000 Hz), Anda perlu memilih opsi ini terlebih dahulu dari menu tarik turun, menghasilkan ulang suara dengan pengaturan pilihan Anda, lalu mengunduh file dengan spesifikasi pilihan Anda.

Pengaturan Parameter Audio

Kecepatan Bicara

Skala Kecepatan:

x0.1 - x0.9: Perlambatan (untuk materi kompleks, pembelajaran bahasa)
x1.0: Kecepatan normal (default)
x1.1 - x2.2: Percepatan (untuk konten dinamis)

Mengapa skala ini: Nilai pecahan kurang dari 1 memperlambat ucapan, lebih dari 1 mempercepat. Ini memungkinkan pemilihan tempo yang tepat untuk audiens Anda.

Rekomendasi Kecepatan:

Pendidikan: x0.8-x1.0 (untuk pemahaman yang lebih baik)
Presentasi: x0.9-x1.1 (tempo resmi)
Podcast: x1.0-x1.2 (tempo bersemangat)
YouTube: x1.1-x1.4 (mempertahankan perhatian)

Nada Suara

Rentang Nada: dari -20 hingga +20 dengan langkah 2

Mengapa langkah 2: Langkah 2 unit memberikan perubahan nada yang terlihat tetapi tidak tajam. Langkah yang lebih kecil tidak akan terlihat, langkah yang lebih besar terlalu dramatis.

Pengaruh Nada:

Nilai negatif (-2 hingga -20): Membuat suara lebih rendah, lebih serius, berwibawa
Nilai positif (+2 hingga +20): Membuat suara lebih tinggi, lebih ramah, lebih bersemangat
0: Nada netral (default)

Aplikasi:

Konten bisnis: -4 hingga +2
Konten anak-anak: +4 hingga +12
Konten dramatis: -8 hingga -16
Konten ramah: +2 hingga +8

Bekerja dengan Jeda

Jeda Otomatis

Jeda antar kalimat: 300ms (default)

Jeda antar paragraf: 400ms (default)

Pengaturan ini dapat diubah dalam menu tarik turun dari 150ms hingga 30 detik.

Menyisipkan Jeda Manual

Melalui antarmuka:

Tempatkan kursor di lokasi yang diinginkan dalam teks
Klik tombol "Jeda" di menu
Simbol .- akan muncul di teks

Melalui tag:

Sisipkan tag <break time="200ms"/> atau <break time="2s"/> di lokasi yang diinginkan

Aturan Jeda:

Jeda maksimum: 30 detik
Dapat menempatkan beberapa jeda berturut-turut untuk penundaan yang lebih lama
Jeda tidak mengonsumsi batas tambahan

Kapan menggunakan jeda:

Sebelum pernyataan penting
Setelah pertanyaan retoris
Antara topik yang berbeda
Untuk menciptakan efek dramatis

Audio Multisuara

Fungsi dialog memungkinkan penggunaan suara yang berbeda dalam satu teks.

Aplikasi:

Buku Audio: Suara berbeda untuk karakter
Dialog Edukasi: Guru dan siswa
Presentasi: Pembicara utama dan komentator
Podcast: Beberapa pembawa acara

Fitur dialog multibahasa membuka kemungkinan kreatif di luar sekadar suara karakter. Guru bahasa asing, misalnya, dapat menggunakan fungsi ini untuk mendemonstrasikan frasa yang sama dengan kecepatan berbeda untuk pembelajaran bahasa, membantu siswa memahami pengucapan pada tingkat pemahaman yang berbeda. Untuk teknik terperinci dan aplikasi kelas, lihat panduan kami tentang menggunakan text-to-speech untuk pengajaran bahasa asing.

Pemilihan Suara

Suara Multibahasa

Suara dengan kode bahasa (misalnya, Ava_US, Ava_ES, Ava_DE) dirancang untuk mempertahankan pengenalan suara yang konsisten di berbagai bahasa. Suara multibahasa ini memungkinkan Anda menciptakan gaya yang bersatu untuk konten multibahasa, memastikan bahwa karakter suara yang sama dapat berbicara berbagai bahasa dengan lancar. Fitur ini sangat berguna dalam mode dialog, di mana Anda dapat beralih antar bahasa sambil mempertahankan kepribadian suara yang sama sepanjang proyek audio Anda.

Segmentasi Audio

SpeechGen memungkinkan Anda membagi audio yang dihasilkan menjadi beberapa segmen dalam satu proyek sintesis, menjadikannya sempurna untuk editor video yang memerlukan file audio terpisah untuk adegan atau bab yang berbeda. Fitur ini sangat berguna untuk membuat sulih suara untuk video YouTube, kursus online, atau proyek apa pun yang memerlukan sinkronisasi audio yang tepat.

Cara Membuat Segmen

Untuk membagi audio Anda, cukup tempatkan kursor Anda di tempat Anda ingin membagi teks dan klik tombol potong di panel menu. Ini menyisipkan tag <cut/> di posisi tersebut. Anda juga dapat mengetik atau menyalin-tempel tag ini secara manual di seluruh teks Anda. Untuk nama file kustom, gunakan format ini:

<cut name="nama-file-anda"/>

Fitur ini membantu Anda mengatur segmen dengan nama yang bermakna seperti:

<cut name="intro"/>

<cut name="bab-1"/>

Mengunduh dan Mengelola Segmen

Setelah Anda menambahkan setidaknya satu tag segmen, tombol "unduh segmen" akan muncul setelah generasi. Klik untuk mengunduh semua segmen sekaligus, atau gunakan tombol "lainnya" pada pemutar audio untuk mengakses segmen individu. Setiap file secara otomatis diberi nama dengan ID unik, nomor urut, dan judul deskriptif (misalnya, "7054789_1_kalimat-pertama"), sehingga mudah untuk mengidentifikasi dan mengatur file audio Anda di perangkat lunak pengeditan Anda.

Batasan Segmen

Segmen pendek: Hingga 1000 segmen per generasi
Segmen panjang: Hingga 500 segmen per generasi

Untuk proyek yang lebih besar, bagi menjadi beberapa generasi. Untuk instruksi komprehensif, teknik lanjutan, dan tutorial video, kunjungi dokumentasi segmentasi audio lengkap kami.

Pengaturan Intonasi

Beberapa suara memiliki grafik intonasi:

Grafik intonasi tersedia pada suara yang menampilkan ikon pengaturan di sebelah nama suara - fitur ini ditemukan pada lebih dari separuh suara di perpustakaan, termasuk opsi reguler dan PRO

Seret titik pada grafik untuk mengubah intonasi
Naikkan titik untuk meningkatkan nada pada kata-kata tertentu
Turunkan titik untuk menciptakan nada yang lebih serius
Bereksperimenlah dengan kurva yang berbeda untuk kealamian

Seret titik pada grafik untuk mengubah intonasi

Pilih kalimat di mana Anda ingin menyesuaikan intonasi dan tekan tombol intonasi. Antarmuka ini akan muncul.

Sistem Cache dan Penghematan Batas

Cache Cerdas

SpeechGen. menggunakan sistem cache cerdas yang secara signifikan menghemat batas Anda. Sistem ini bekerja dengan menyimpan setiap kalimat (hingga 100.000 karakter) dalam cache selama 7 hari. Saat Anda menghasilkan ulang audio Anda, kalimat yang tidak berubah akan diambil secara otomatis dari cache secara gratis - Anda hanya membayar untuk kalimat baru atau yang diedit. Ini berarti Anda dapat melakukan pengeditan bertahap pada teks Anda tanpa menghabiskan seluruh kuota karakter Anda setiap kali. Riwayat proyek disimpan selama 30 hari, dan file yang Anda tambahkan ke favorit disimpan secara permanen.

Periode Penyimpanan:

Cache Kalimat: 7 hari
Riwayat Proyek: 30 hari
File Favorit: Disimpan secara permanen

Pemecahan Masalah Umum

Masalah Kualitas Audio

Suara terdengar tidak alami:

Coba suara PRO
Kurangi kecepatan menjadi x0.9-x1.1
Periksa kebenaran tanda baca
Gunakan nada netral (0)

Pengucapan salah:

Pastikan bahasa yang benar dipilih
Tulis kata-kata kompleks secara fonetis
Gunakan tag SSML untuk kontrol yang tepat

Jeda tidak alami:

Periksa tanda baca
Konfigurasikan jeda antar kalimat
Gunakan jeda manual .- atau <break time=""/>
Hapus spasi dan jeda baris ekstra

Kesalahan SSML:

Periksa kebenaran tag
Tidak semua suara mendukung semua tag SSML

Fitur Tambahan

SSML (Speech Synthesis Markup Language)

Untuk kontrol suara ahli, gunakan tag SSML:

<break time="2s"/> — jeda
<emphasis level="strong"> — penekanan suara
<prosody rate="slow" pitch="low"> — perubahan karakteristik ucapan

⚠️ Perhatian: Suara yang berbeda mendukung set tag SSML yang berbeda. Uji fungsionalitas untuk setiap suara tertentu.

Riwayat dan Favorit

Riwayat Proyek: Disimpan secara otomatis selama 30 hari
Favorit: Tambahkan proyek penting untuk penyimpanan permanen

Integrasi dan API

API tersedia untuk pengembang untuk mengintegrasikan SpeechGen.io ke dalam aplikasi dan layanan mereka sendiri.

File saya tidak dapat diunggah ke SpeechGen. Apa yang harus saya lakukan?

Pertama, periksa apakah file Anda dalam format yang didukung (DOCX, PDF, atau TXT). Pastikan file tidak rusak dan coba unggah lagi. Jika masalah berlanjut, salin teks secara manual dan tempelkan langsung ke kotak teks. Periksa juga apakah ukuran file Anda tidak melebihi batas platform.

Berapa lama SpeechGen menyimpan file audio yang saya hasilkan?

Riwayat proyek Anda secara otomatis disimpan selama 30 hari. Cache cerdas (untuk penyimpanan tingkat kalimat) bertahan selama 7 hari. Untuk menyimpan file secara permanen, tambahkan ke favorit Anda. Ini memastikan proyek audio penting Anda tidak pernah hilang dan tetap dapat diakses di profil Anda.

Bisakah saya menggunakan suara yang berbeda untuk karakter yang berbeda dalam satu file audio?

Ya! SpeechGen menawarkan pembuatan audio multibahasa (mode dialog). Anda dapat menetapkan suara yang berbeda ke bagian teks yang berbeda, menjadikannya sempurna untuk buku audio dengan banyak karakter, dialog pendidikan, atau podcast dengan banyak pembicara. Anda bahkan dapat menggunakan suara multibahasa untuk beralih antar bahasa sambil mempertahankan konsistensi karakter.

Apa perbedaan antara suara reguler dan PRO di SpeechGen?

Suara PRO menawarkan kualitas dan kealamian yang unggul dibandingkan suara reguler. Mereka biasanya memiliki ekspresi emosional yang lebih baik, pengucapan yang lebih akurat, dan beberapa mendukung fitur lanjutan seperti grafik intonasi. Untuk proyek profesional seperti buku audio, kursus, atau presentasi bisnis, suara PRO direkomendasikan.

Apakah mengubah pengaturan audio mengonsumsi batas karakter saya?

Itu tergantung pada pengaturan mana yang Anda ubah. Menyesuaikan kecepatan bicara atau nada memerlukan generasi ulang penuh dan akan mengonsumsi batas karakter Anda, karena perubahan ini memengaruhi seluruh sintesis suara. Namun, Anda dapat dengan bebas mengubah jeda antar kalimat dan paragraf tanpa konsumsi batas apa pun. Selain itu, SpeechGen menggunakan caching cerdas: jika Anda menghasilkan teks besar, lalu mengedit hanya satu kalimat dan menghasilkan ulang, sistem hanya akan menagih Anda untuk kalimat yang diubah itu saja, bukan seluruh teks. Sistem caching ini menyimpan kalimat Anda yang tidak berubah selama 7 hari, membuat pengeditan berulang sangat ekonomis.

Video

Masih Ada Pertanyaan?

Dapatkan bantuan dari komunitas kami! Ajukan pertanyaan Anda di obrolan Telegram kami: https://t.me/speechgen