08-09-2025 , 16-09-2025
Mở danh sách thả xuống ngôn ngữ và chọn ngôn ngữ cho văn bản của bạn. Các ngôn ngữ được hỗ trợ: Hơn 150 ngôn ngữ (thư viện giọng nói AI).
Sau khi chọn ngôn ngữ, một danh sách các giọng nói sẽ xuất hiện. Nghe các mẫu thử và chọn giọng nói bạn thích nhất.
Sao chép văn bản của bạn vào hộp văn bản hoặc tải lên tệp (DOCX, PDF). Để chuyển phụ đề thành giọng nói, hãy sử dụng trang SRT sang giọng nói chuyên dụng.
Chờ xử lý và tải xuống tệp âm thanh đã sẵn sàng của bạn.
Vậy là xong! Giọng đọc đầu tiên của bạn đã sẵn sàng chỉ trong vài phút.
💡 Mẹo: Khi sao chép từ tệp PDF, hãy đặc biệt chú ý đến văn bản — các ký tự ẩn có thể xuất hiện và làm hỏng âm thanh!
Tối đa cho mỗi lần tạo: 2.000.000 ký tự (≈ 285.000-330.000 từ) - đây là lượng văn bản ấn tượng mà bạn có thể chuyển đổi thành giọng nói trong một lần tạo, làm cho nó lý tưởng cho nội dung dài như toàn bộ sách hoặc tài liệu mở rộng.
⚠️ Quan trọng: Trước tiên hãy chọn đúng ngôn ngữ cho văn bản của bạn
Sau khi chọn ngôn ngữ, một danh sách các giọng nói có sẵn sẽ mở ra. Nghe các mẫu thử bằng cách nhấp vào nút phát cho từng giọng nói để tìm giọng nói phù hợp nhất với nhu cầu của bạn. Bạn sẽ thấy các loại giọng nói khác nhau có sẵn: Giọng nói thông thường cung cấp chất lượng tiêu chuẩn, giọng nói PRO cung cấp chất lượng và sự tự nhiên được cải thiện, và giọng nói đa ngôn ngữ (được đánh dấu bằng mã ngôn ngữ như Ava_US, Ava_ES) cho phép bạn duy trì sự nhất quán về giọng nói trên các ngôn ngữ khác nhau. Hãy dành thời gian để xem trước từng giọng nói vì chúng khác nhau đáng kể về tông giọng, cảm xúc và tính cách.
Bên dưới hộp văn bản, phía trên nút tạo, bạn có thể điều chỉnh cài đặt tạm dừng:
Nhấp vào nút "Tạo Giọng nói" bên dưới hộp văn bản để bắt đầu quá trình chuyển đổi. Thời gian xử lý phụ thuộc vào độ dài văn bản của bạn - văn bản ngắn hoàn thành trong vài giây trong khi tài liệu dài có thể mất vài phút. Sau khi quá trình tạo hoàn tất, bạn có thể nghe kết quả trực tiếp trong trình duyệt để đảm bảo nó đáp ứng mong đợi của bạn.
Sau khi quá trình tạo hoàn tất, một nút "Tải xuống" sẽ xuất hiện. Theo mặc định, bạn có thể tải xuống tệp dưới dạng MP3. Tuy nhiên, nếu bạn cần định dạng khác (WAV hoặc OPUS) hoặc muốn thay đổi chất lượng âm thanh (tần số lấy mẫu từ 8000 đến 44000 Hz), bạn cần chọn các tùy chọn này từ menu thả xuống, tạo lại giọng nói với cài đặt đã chọn và sau đó tải xuống tệp với các thông số kỹ thuật ưa thích của bạn.
Thang tốc độ:
Thang tốc độ này: Các giá trị phân số nhỏ hơn 1 sẽ làm chậm giọng nói, lớn hơn 1 sẽ tăng tốc. Điều này cho phép lựa chọn nhịp điệu chính xác cho đối tượng của bạn.
Khuyến nghị tốc độ:
Phạm vi cao độ: từ -20 đến +20 với bước 2
Tại sao lại là bước 2: Một bước 2 đơn vị cung cấp sự thay đổi cao độ đáng chú ý nhưng không quá đột ngột. Các bước nhỏ hơn sẽ không nhận thấy được, các bước lớn hơn sẽ quá kịch tính.
Ảnh hưởng của cao độ:
Ứng dụng:
Tạm dừng giữa các câu: 300ms (mặc định)
Tạm dừng giữa các đoạn văn: 400ms (mặc định)
Các cài đặt này có thể được thay đổi trong menu thả xuống từ 150ms đến 30 giây.
Qua giao diện:
Qua thẻ:
Chèn thẻ <break time="200ms"/> hoặc <break time="2s"/> tại vị trí mong muốn
Quy tắc tạm dừng:
Khi nào nên sử dụng tạm dừng:
Tính năng đối thoại cho phép sử dụng các giọng nói khác nhau trong cùng một văn bản.
Tính năng đối thoại đa giọng nói mở ra những khả năng sáng tạo vượt ra ngoài giọng nói nhân vật. Ví dụ, giáo viên ngoại ngữ có thể sử dụng chức năng này để trình bày cùng một cụm từ ở các tốc độ khác nhau cho việc học ngôn ngữ, giúp học sinh nắm bắt cách phát âm ở các cấp độ hiểu khác nhau. Để biết các kỹ thuật chi tiết và ứng dụng trong lớp học, hãy xem hướng dẫn của chúng tôi về sử dụng chuyển văn bản thành giọng nói cho giáo viên ngoại ngữ.
Các giọng nói có mã ngôn ngữ (ví dụ: Ava_US, Ava_ES, Ava_DE) được thiết kế để duy trì nhận dạng giọng nói nhất quán trên các ngôn ngữ khác nhau. Các giọng nói đa ngôn ngữ này cho phép bạn tạo phong cách thống nhất cho nội dung đa ngôn ngữ, đảm bảo rằng cùng một tính cách giọng nói có thể nói nhiều ngôn ngữ một cách liền mạch. Tính năng này đặc biệt hữu ích trong chế độ đối thoại, nơi bạn có thể chuyển đổi giữa các ngôn ngữ trong khi vẫn giữ nguyên tính cách giọng nói dễ nhận biết trong suốt dự án âm thanh của mình.
SpeechGen cho phép bạn chia âm thanh đã tạo thành nhiều phân đoạn trong một dự án tổng hợp duy nhất, làm cho nó trở nên hoàn hảo cho các biên tập viên video cần các tệp âm thanh riêng biệt cho các cảnh hoặc chương khác nhau. Tính năng này đặc biệt hữu ích để tạo giọng đọc cho video YouTube, khóa học trực tuyến hoặc bất kỳ dự án nào yêu cầu đồng bộ hóa âm thanh chính xác.
Để chia âm thanh của bạn, chỉ cần đặt con trỏ vào vị trí bạn muốn chia văn bản và nhấp vào nút cắt trên bảng menu. Thao tác này sẽ chèn thẻ <cut/> vào vị trí đó. Bạn cũng có thể nhập hoặc dán thủ công thẻ này vào văn bản của mình. Đối với tên tệp tùy chỉnh, hãy sử dụng định dạng này:
<cut name="your-filename"/>
Tính năng này giúp bạn tổ chức các phân đoạn với tên có ý nghĩa như:
<cut name="intro"/>
<cut name="chapter-1"/>
Sau khi bạn thêm ít nhất một thẻ phân đoạn, một nút "tải xuống phân đoạn" sẽ xuất hiện sau khi tạo. Nhấp vào đó để tải xuống tất cả các phân đoạn cùng một lúc, hoặc sử dụng nút "thêm" trên trình phát âm thanh để truy cập các phân đoạn riêng lẻ. Mỗi tệp được đặt tên tự động với ID duy nhất, số thứ tự và tiêu đề mô tả (ví dụ: "7054789_1_first-sentence"), giúp dễ dàng xác định và tổ chức các tệp âm thanh của bạn trong phần mềm chỉnh sửa.
Đối với các dự án lớn hơn, hãy chia thành nhiều lần tạo. Để biết hướng dẫn toàn diện, kỹ thuật nâng cao và hướng dẫn bằng video, hãy truy cập tài liệu phân đoạn âm thanh đầy đủ của chúng tôi.
Một số giọng nói có biểu đồ ngữ điệu:
Biểu đồ ngữ điệu có sẵn trên các giọng nói hiển thị biểu tượng cài đặt bên cạnh tên giọng nói - tính năng này có trên hơn một nửa số giọng nói trong thư viện, bao gồm cả các tùy chọn thông thường và PRO
Chọn câu mà bạn muốn điều chỉnh ngữ điệu và nhấn nút intonation. Giao diện này sẽ xuất hiện.
SpeechGen. sử dụng hệ thống bộ nhớ đệm thông minh giúp tiết kiệm đáng kể giới hạn của bạn. Hệ thống hoạt động bằng cách lưu mỗi câu (lên đến 100.000 ký tự) vào bộ nhớ đệm trong 7 ngày. Khi bạn tạo lại âm thanh của mình, bất kỳ câu nào không thay đổi sẽ được tự động truy xuất từ bộ nhớ đệm miễn phí - bạn chỉ trả tiền cho các câu mới hoặc đã chỉnh sửa. Điều này có nghĩa là bạn có thể thực hiện các chỉnh sửa tăng dần cho văn bản của mình mà không tiêu tốn toàn bộ hạn mức ký tự mỗi lần. Lịch sử dự án được lưu trữ trong 30 ngày và các tệp bạn thêm vào mục yêu thích sẽ được lưu giữ vĩnh viễn.
Thời gian lưu trữ:
Giọng nói nghe không tự nhiên:
Phát âm không chính xác:
Tạm dừng không tự nhiên:
Lỗi SSML:
Để kiểm soát giọng nói chuyên nghiệp, hãy sử dụng thẻ SSML:
⚠️ Chú ý: Các giọng nói khác nhau hỗ trợ các bộ thẻ SSML khác nhau. Kiểm tra chức năng cho từng giọng nói cụ thể.
API có sẵn cho các nhà phát triển để tích hợp SpeechGen.io vào các ứng dụng và dịch vụ của riêng họ.
Trước tiên, hãy kiểm tra xem tệp của bạn có ở định dạng được hỗ trợ không (DOCX, PDF hoặc TXT). Đảm bảo tệp không bị hỏng và thử tải lên lại. Nếu sự cố vẫn tiếp diễn, hãy sao chép văn bản thủ công và dán trực tiếp vào hộp văn bản. Cũng hãy xác minh rằng kích thước tệp của bạn không vượt quá giới hạn của nền tảng.
Lịch sử dự án của bạn được lưu tự động trong 30 ngày. Bộ nhớ đệm thông minh (để lưu trữ cấp câu) có thời hạn 7 ngày. Để giữ tệp vĩnh viễn, hãy thêm chúng vào mục yêu thích của bạn. Điều này đảm bảo các dự án âm thanh quan trọng của bạn không bao giờ bị mất và luôn có thể truy cập được trong hồ sơ của bạn.
Có! SpeechGen cung cấp tính năng tạo âm thanh đa giọng nói (chế độ đối thoại). Bạn có thể gán các giọng nói khác nhau cho các phần văn bản khác nhau, làm cho nó hoàn hảo cho sách nói có nhiều nhân vật, đối thoại giáo dục hoặc podcast có nhiều người nói. Bạn thậm chí có thể sử dụng giọng nói đa ngôn ngữ để chuyển đổi giữa các ngôn ngữ trong khi vẫn duy trì sự nhất quán về nhân vật.
Giọng nói PRO cung cấp chất lượng và sự tự nhiên vượt trội so với giọng nói thông thường. Chúng thường có biểu cảm cảm xúc tốt hơn, phát âm chính xác hơn và một số hỗ trợ các tính năng nâng cao như biểu đồ ngữ điệu. Đối với các dự án chuyên nghiệp như sách nói, khóa học hoặc bài thuyết trình kinh doanh, nên sử dụng giọng nói PRO.
Điều đó phụ thuộc vào cài đặt bạn thay đổi. Điều chỉnh tốc độ hoặc cao độ giọng nói yêu cầu tạo lại toàn bộ và sẽ tiêu tốn giới hạn ký tự của bạn, vì những thay đổi này ảnh hưởng đến toàn bộ quá trình tổng hợp giọng nói. Tuy nhiên, bạn có thể tự do sửa đổi tạm dừng giữa các câu và đoạn văn mà không tiêu tốn giới hạn. Ngoài ra, SpeechGen sử dụng bộ nhớ đệm thông minh: nếu bạn tạo một văn bản lớn, sau đó chỉ chỉnh sửa một câu và tạo lại, hệ thống sẽ chỉ tính phí cho câu đã thay đổi đó, chứ không phải toàn bộ văn bản. Hệ thống bộ nhớ đệm này lưu các câu không thay đổi của bạn trong 7 ngày, làm cho việc chỉnh sửa lặp đi lặp lại rất tiết kiệm.
Nhận trợ giúp từ cộng đồng của chúng tôi! Đặt câu hỏi của bạn trong nhóm Telegram của chúng tôi: https://t.me/speechgen