Cách Sử Dụng Chuyển Văn Bản Thành Giọng Nói trên SpeechGen.io: Hướng Dẫn Chi Tiết

08-09-2025 , 16-09-2025

🚀 Bắt đầu nhanh — Tạo âm thanh trong 4 bước

Bước 1: Chọn Ngôn ngữ

Mở danh sách thả xuống ngôn ngữ và chọn ngôn ngữ cho văn bản của bạn. Các ngôn ngữ được hỗ trợ: Hơn 150 ngôn ngữ (thư viện giọng nói AI).

Bước 2: Chọn Giọng nói

Sau khi chọn ngôn ngữ, một danh sách các giọng nói sẽ xuất hiện. Nghe các mẫu thử và chọn giọng nói bạn thích nhất.

Bước 3: Dán Văn bản

Sao chép văn bản của bạn vào hộp văn bản hoặc tải lên tệp (DOCX, PDF). Để chuyển phụ đề thành giọng nói, hãy sử dụng trang SRT sang giọng nói chuyên dụng.

Bước 4: Nhấp vào "Tạo Giọng nói" (nút màu xanh)

Bước 4: Nhấp vào Tạo Giọng nói

Chờ xử lý và tải xuống tệp âm thanh đã sẵn sàng của bạn.

Vậy là xong! Giọng đọc đầu tiên của bạn đã sẵn sàng chỉ trong vài phút.

Chuẩn bị Văn bản

Đề xuất:

Sử dụng văn bản thuần túy không có ký hiệu không cần thiết
Đặt dấu câu đúng cách (dấu chấm, dấu phẩy, dấu chấm than)
Chia văn bản dài thành các đoạn văn

Tránh:

Biểu tượng cảm xúc và mặt cười (có thể làm gián đoạn quá trình tạo giọng nói)
Ký hiệu lạ: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Ký hiệu Unicode đặc biệt:

💡 Mẹo: Khi sao chép từ tệp PDF, hãy đặc biệt chú ý đến văn bản — các ký tự ẩn có thể xuất hiện và làm hỏng âm thanh!

Giới hạn và Hạn chế

Ngôn ngữ được hỗ trợ: 150+ ngôn ngữ (danh sách đầy đủ).
Định dạng tải lên: văn bản thuần túy, DOCX, PDF, SRT.

Tối đa cho mỗi lần tạo: 2.000.000 ký tự (≈ 285.000-330.000 từ) - đây là lượng văn bản ấn tượng mà bạn có thể chuyển đổi thành giọng nói trong một lần tạo, làm cho nó lý tưởng cho nội dung dài như toàn bộ sách hoặc tài liệu mở rộng.

Hướng dẫn Chi tiết Từng Bước

Bước 1: Tải lên Văn bản

Dán văn bản: Sao chép văn bản của bạn vào hộp văn bản
Tải lên tệp: Hoặc nhấp vào nút tải lên và chọn tệp (DOCX, PDF)
Kiểm tra văn bản: Đảm bảo văn bản hiển thị chính xác

Bước 2: Chọn Ngôn ngữ

⚠️ Quan trọng: Trước tiên hãy chọn đúng ngôn ngữ cho văn bản của bạn

Mở danh sách thả xuống ngôn ngữ
Tìm ngôn ngữ cần thiết (hơn 150 ngôn ngữ có sẵn)
Đối với văn bản đa ngôn ngữ, hãy sử dụng tính năng tạo âm thanh đa giọng nói

Bước 3: Chọn Giọng nói

Sau khi chọn ngôn ngữ, một danh sách các giọng nói có sẵn sẽ mở ra. Nghe các mẫu thử bằng cách nhấp vào nút phát cho từng giọng nói để tìm giọng nói phù hợp nhất với nhu cầu của bạn. Bạn sẽ thấy các loại giọng nói khác nhau có sẵn: Giọng nói thông thường cung cấp chất lượng tiêu chuẩn, giọng nói PRO cung cấp chất lượng và sự tự nhiên được cải thiện, và giọng nói đa ngôn ngữ (được đánh dấu bằng mã ngôn ngữ như Ava_US, Ava_ES) cho phép bạn duy trì sự nhất quán về giọng nói trên các ngôn ngữ khác nhau. Hãy dành thời gian để xem trước từng giọng nói vì chúng khác nhau đáng kể về tông giọng, cảm xúc và tính cách.

Bước 4: Cấu hình Tham số

Tốc độ giọng nói: từ x0.1 (rất chậm) đến x2.2 (rất nhanh)
Cao độ giọng nói: từ -20 đến +20 (bước 2)

Bên dưới hộp văn bản, phía trên nút tạo, bạn có thể điều chỉnh cài đặt tạm dừng:

cài đặt tạm dừng

Tạm dừng giữa các câu: 150ms - 30 giây
Tạm dừng giữa các đoạn văn: 150ms - 30 giây

Bước 5: Tạo Giọng nói

Nhấp vào nút "Tạo Giọng nói" bên dưới hộp văn bản để bắt đầu quá trình chuyển đổi. Thời gian xử lý phụ thuộc vào độ dài văn bản của bạn - văn bản ngắn hoàn thành trong vài giây trong khi tài liệu dài có thể mất vài phút. Sau khi quá trình tạo hoàn tất, bạn có thể nghe kết quả trực tiếp trong trình duyệt để đảm bảo nó đáp ứng mong đợi của bạn.

Bước 6: Tải xuống

Sau khi quá trình tạo hoàn tất, một nút "Tải xuống" sẽ xuất hiện. Theo mặc định, bạn có thể tải xuống tệp dưới dạng MP3. Tuy nhiên, nếu bạn cần định dạng khác (WAV hoặc OPUS) hoặc muốn thay đổi chất lượng âm thanh (tần số lấy mẫu từ 8000 đến 44000 Hz), bạn cần chọn các tùy chọn này từ menu thả xuống, tạo lại giọng nói với cài đặt đã chọn và sau đó tải xuống tệp với các thông số kỹ thuật ưa thích của bạn.

Cài đặt Tham số Âm thanh

Tốc độ Giọng nói

Thang tốc độ:

x0.1 - x0.9: Giảm tốc độ (dành cho tài liệu phức tạp, học ngoại ngữ)
x1.0: Tốc độ bình thường (mặc định)
x1.1 - x2.2: Tăng tốc độ (dành cho nội dung năng động)

Thang tốc độ này: Các giá trị phân số nhỏ hơn 1 sẽ làm chậm giọng nói, lớn hơn 1 sẽ tăng tốc. Điều này cho phép lựa chọn nhịp điệu chính xác cho đối tượng của bạn.

Khuyến nghị tốc độ:

Giáo dục: x0.8-x1.0 (để hiểu tốt hơn)
Bài thuyết trình: x0.9-x1.1 (nhịp độ trang trọng)
Podcast: x1.0-x1.2 (nhịp độ sôi nổi)
YouTube: x1.1-x1.4 (duy trì sự chú ý)

Cao độ Giọng nói

Phạm vi cao độ: từ -20 đến +20 với bước 2

Tại sao lại là bước 2: Một bước 2 đơn vị cung cấp sự thay đổi cao độ đáng chú ý nhưng không quá đột ngột. Các bước nhỏ hơn sẽ không nhận thấy được, các bước lớn hơn sẽ quá kịch tính.

Ảnh hưởng của cao độ:

Giá trị âm (-2 đến -20): Làm giọng nói trầm hơn, nghiêm túc hơn, có thẩm quyền hơn
Giá trị dương (+2 đến +20): Làm giọng nói cao hơn, thân thiện hơn, tràn đầy năng lượng hơn
0: Cao độ trung tính (mặc định)

Ứng dụng:

Nội dung kinh doanh: -4 đến +2
Nội dung trẻ em: +4 đến +12
Nội dung kịch tính: -8 đến -16
Nội dung thân thiện: +2 đến +8

Làm việc với Tạm dừng

Tạm dừng Tự động

Tạm dừng giữa các câu: 300ms (mặc định)

Tạm dừng giữa các đoạn văn: 400ms (mặc định)

Các cài đặt này có thể được thay đổi trong menu thả xuống từ 150ms đến 30 giây.

Chèn Tạm dừng Thủ công

Qua giao diện:

Đặt con trỏ vào vị trí mong muốn trong văn bản
Nhấp vào nút "Tạm dừng" trong menu
Ký hiệu .- sẽ xuất hiện trong văn bản

Qua thẻ:

Chèn thẻ <break time="200ms"/> hoặc <break time="2s"/> tại vị trí mong muốn

Quy tắc tạm dừng:

Tạm dừng tối đa: 30 giây
Có thể đặt nhiều lần tạm dừng liên tiếp để có độ trễ dài hơn
Tạm dừng không tiêu tốn giới hạn bổ sung

Khi nào nên sử dụng tạm dừng:

Trước các tuyên bố quan trọng
Sau các câu hỏi tu từ
Giữa các chủ đề khác nhau
Để tạo hiệu ứng kịch tính

Âm thanh Đa Giọng nói

Tính năng đối thoại cho phép sử dụng các giọng nói khác nhau trong cùng một văn bản.

Ứng dụng:

Sách nói: Các giọng nói khác nhau cho các nhân vật
Đối thoại giáo dục: Giáo viên và học sinh
Bài thuyết trình: Diễn giả chính và người bình luận
Podcast: Nhiều người dẫn chương trình

Tính năng đối thoại đa giọng nói mở ra những khả năng sáng tạo vượt ra ngoài giọng nói nhân vật. Ví dụ, giáo viên ngoại ngữ có thể sử dụng chức năng này để trình bày cùng một cụm từ ở các tốc độ khác nhau cho việc học ngôn ngữ, giúp học sinh nắm bắt cách phát âm ở các cấp độ hiểu khác nhau. Để biết các kỹ thuật chi tiết và ứng dụng trong lớp học, hãy xem hướng dẫn của chúng tôi về sử dụng chuyển văn bản thành giọng nói cho giáo viên ngoại ngữ.

Lựa chọn Giọng nói

Giọng nói Đa ngôn ngữ

Các giọng nói có mã ngôn ngữ (ví dụ: Ava_US, Ava_ES, Ava_DE) được thiết kế để duy trì nhận dạng giọng nói nhất quán trên các ngôn ngữ khác nhau. Các giọng nói đa ngôn ngữ này cho phép bạn tạo phong cách thống nhất cho nội dung đa ngôn ngữ, đảm bảo rằng cùng một tính cách giọng nói có thể nói nhiều ngôn ngữ một cách liền mạch. Tính năng này đặc biệt hữu ích trong chế độ đối thoại, nơi bạn có thể chuyển đổi giữa các ngôn ngữ trong khi vẫn giữ nguyên tính cách giọng nói dễ nhận biết trong suốt dự án âm thanh của mình.

Phân đoạn Âm thanh

SpeechGen cho phép bạn chia âm thanh đã tạo thành nhiều phân đoạn trong một dự án tổng hợp duy nhất, làm cho nó trở nên hoàn hảo cho các biên tập viên video cần các tệp âm thanh riêng biệt cho các cảnh hoặc chương khác nhau. Tính năng này đặc biệt hữu ích để tạo giọng đọc cho video YouTube, khóa học trực tuyến hoặc bất kỳ dự án nào yêu cầu đồng bộ hóa âm thanh chính xác.

Cách Tạo Phân đoạn

Để chia âm thanh của bạn, chỉ cần đặt con trỏ vào vị trí bạn muốn chia văn bản và nhấp vào nút cắt trên bảng menu. Thao tác này sẽ chèn thẻ <cut/> vào vị trí đó. Bạn cũng có thể nhập hoặc dán thủ công thẻ này vào văn bản của mình. Đối với tên tệp tùy chỉnh, hãy sử dụng định dạng này:

<cut name="your-filename"/>

Tính năng này giúp bạn tổ chức các phân đoạn với tên có ý nghĩa như:

<cut name="intro"/>

<cut name="chapter-1"/>

Tải xuống và Quản lý Phân đoạn

Sau khi bạn thêm ít nhất một thẻ phân đoạn, một nút "tải xuống phân đoạn" sẽ xuất hiện sau khi tạo. Nhấp vào đó để tải xuống tất cả các phân đoạn cùng một lúc, hoặc sử dụng nút "thêm" trên trình phát âm thanh để truy cập các phân đoạn riêng lẻ. Mỗi tệp được đặt tên tự động với ID duy nhất, số thứ tự và tiêu đề mô tả (ví dụ: "7054789_1_first-sentence"), giúp dễ dàng xác định và tổ chức các tệp âm thanh của bạn trong phần mềm chỉnh sửa.

Giới hạn Phân đoạn

Phân đoạn ngắn: Tối đa 1000 phân đoạn cho mỗi lần tạo
Phân đoạn dài: Tối đa 500 phân đoạn cho mỗi lần tạo

Đối với các dự án lớn hơn, hãy chia thành nhiều lần tạo. Để biết hướng dẫn toàn diện, kỹ thuật nâng cao và hướng dẫn bằng video, hãy truy cập tài liệu phân đoạn âm thanh đầy đủ của chúng tôi.

Thiết lập Ngữ điệu

Một số giọng nói có biểu đồ ngữ điệu:

Biểu đồ ngữ điệu có sẵn trên các giọng nói hiển thị biểu tượng cài đặt bên cạnh tên giọng nói - tính năng này có trên hơn một nửa số giọng nói trong thư viện, bao gồm cả các tùy chọn thông thường và PRO

Kéo các điểm trên biểu đồ để thay đổi ngữ điệu
Tăng các điểm để tăng cao độ cho các từ nhất định
Giảm các điểm để tạo tông giọng nghiêm túc hơn
Thử nghiệm với các đường cong khác nhau để tạo sự tự nhiên

Kéo các điểm trên biểu đồ để thay đổi ngữ điệu

Chọn câu mà bạn muốn điều chỉnh ngữ điệu và nhấn nút intonation. Giao diện này sẽ xuất hiện.

Hệ thống Bộ nhớ đệm và Tiết kiệm Giới hạn

Bộ nhớ đệm Thông minh

SpeechGen. sử dụng hệ thống bộ nhớ đệm thông minh giúp tiết kiệm đáng kể giới hạn của bạn. Hệ thống hoạt động bằng cách lưu mỗi câu (lên đến 100.000 ký tự) vào bộ nhớ đệm trong 7 ngày. Khi bạn tạo lại âm thanh của mình, bất kỳ câu nào không thay đổi sẽ được tự động truy xuất từ bộ nhớ đệm miễn phí - bạn chỉ trả tiền cho các câu mới hoặc đã chỉnh sửa. Điều này có nghĩa là bạn có thể thực hiện các chỉnh sửa tăng dần cho văn bản của mình mà không tiêu tốn toàn bộ hạn mức ký tự mỗi lần. Lịch sử dự án được lưu trữ trong 30 ngày và các tệp bạn thêm vào mục yêu thích sẽ được lưu giữ vĩnh viễn.

Thời gian lưu trữ:

Bộ nhớ đệm câu: 7 ngày
Lịch sử dự án: 30 ngày
Tệp yêu thích: Lưu trữ vĩnh viễn

Khắc phục sự cố các Vấn đề Thường gặp

Sự cố Chất lượng Âm thanh

Giọng nói nghe không tự nhiên:

Thử giọng nói PRO
Giảm tốc độ xuống x0.9-x1.1
Kiểm tra tính chính xác của dấu câu
Sử dụng cao độ trung tính (0)

Phát âm không chính xác:

Đảm bảo đã chọn đúng ngôn ngữ
Viết các từ phức tạp theo cách phát âm
Sử dụng thẻ SSML để kiểm soát chính xác

Tạm dừng không tự nhiên:

Kiểm tra dấu câu
Cấu hình tạm dừng giữa các câu
Sử dụng tạm dừng thủ công .- hoặc <break time=""/>
Xóa khoảng trắng và ngắt dòng thừa

Lỗi SSML:

Kiểm tra tính chính xác của thẻ
Không phải tất cả các giọng nói đều hỗ trợ tất cả các thẻ SSML

Tính năng Bổ sung

SSML (Ngôn ngữ Đánh dấu Tổng hợp Giọng nói)

Để kiểm soát giọng nói chuyên nghiệp, hãy sử dụng thẻ SSML:

<break time="2s"/> — tạm dừng
<emphasis level="strong"> — nhấn mạnh giọng nói
<prosody rate="slow" pitch="low"> — thay đổi đặc điểm giọng nói

⚠️ Chú ý: Các giọng nói khác nhau hỗ trợ các bộ thẻ SSML khác nhau. Kiểm tra chức năng cho từng giọng nói cụ thể.

Lịch sử và Mục yêu thích

Lịch sử dự án: Tự động lưu trong 30 ngày
Mục yêu thích: Thêm các dự án quan trọng để lưu trữ vĩnh viễn

Tích hợp và API

API có sẵn cho các nhà phát triển để tích hợp SpeechGen.io vào các ứng dụng và dịch vụ của riêng họ.

Tệp của tôi không tải lên SpeechGen được. Tôi phải làm gì?

Trước tiên, hãy kiểm tra xem tệp của bạn có ở định dạng được hỗ trợ không (DOCX, PDF hoặc TXT). Đảm bảo tệp không bị hỏng và thử tải lên lại. Nếu sự cố vẫn tiếp diễn, hãy sao chép văn bản thủ công và dán trực tiếp vào hộp văn bản. Cũng hãy xác minh rằng kích thước tệp của bạn không vượt quá giới hạn của nền tảng.

SpeechGen giữ các tệp âm thanh đã tạo của tôi trong bao lâu?

Lịch sử dự án của bạn được lưu tự động trong 30 ngày. Bộ nhớ đệm thông minh (để lưu trữ cấp câu) có thời hạn 7 ngày. Để giữ tệp vĩnh viễn, hãy thêm chúng vào mục yêu thích của bạn. Điều này đảm bảo các dự án âm thanh quan trọng của bạn không bao giờ bị mất và luôn có thể truy cập được trong hồ sơ của bạn.

Tôi có thể sử dụng các giọng nói khác nhau cho các nhân vật khác nhau trong cùng một tệp âm thanh không?

Có! SpeechGen cung cấp tính năng tạo âm thanh đa giọng nói (chế độ đối thoại). Bạn có thể gán các giọng nói khác nhau cho các phần văn bản khác nhau, làm cho nó hoàn hảo cho sách nói có nhiều nhân vật, đối thoại giáo dục hoặc podcast có nhiều người nói. Bạn thậm chí có thể sử dụng giọng nói đa ngôn ngữ để chuyển đổi giữa các ngôn ngữ trong khi vẫn duy trì sự nhất quán về nhân vật.

Sự khác biệt giữa giọng nói thông thường và giọng nói PRO trong SpeechGen là gì?

Giọng nói PRO cung cấp chất lượng và sự tự nhiên vượt trội so với giọng nói thông thường. Chúng thường có biểu cảm cảm xúc tốt hơn, phát âm chính xác hơn và một số hỗ trợ các tính năng nâng cao như biểu đồ ngữ điệu. Đối với các dự án chuyên nghiệp như sách nói, khóa học hoặc bài thuyết trình kinh doanh, nên sử dụng giọng nói PRO.

Việc thay đổi cài đặt âm thanh có tiêu tốn giới hạn ký tự của tôi không?

Điều đó phụ thuộc vào cài đặt bạn thay đổi. Điều chỉnh tốc độ hoặc cao độ giọng nói yêu cầu tạo lại toàn bộ và sẽ tiêu tốn giới hạn ký tự của bạn, vì những thay đổi này ảnh hưởng đến toàn bộ quá trình tổng hợp giọng nói. Tuy nhiên, bạn có thể tự do sửa đổi tạm dừng giữa các câu và đoạn văn mà không tiêu tốn giới hạn. Ngoài ra, SpeechGen sử dụng bộ nhớ đệm thông minh: nếu bạn tạo một văn bản lớn, sau đó chỉ chỉnh sửa một câu và tạo lại, hệ thống sẽ chỉ tính phí cho câu đã thay đổi đó, chứ không phải toàn bộ văn bản. Hệ thống bộ nhớ đệm này lưu các câu không thay đổi của bạn trong 7 ngày, làm cho việc chỉnh sửa lặp đi lặp lại rất tiết kiệm.

Video

Vẫn còn câu hỏi?

Nhận trợ giúp từ cộng đồng của chúng tôi! Đặt câu hỏi của bạn trong nhóm Telegram của chúng tôi: https://t.me/speechgen