Bài báo nghiên cứu và luận văn
Bài IEEE 12 trang, bản nháp luận án, ghi chú bài giảng từ arXiv — nghe trên đường đi làm thay vì đọc lướt trên màn hình. Bố cục nhiều cột và phần chú thích được làm phẳng tự động trước khi đọc.
Mở trình chỉnh sửa ở phía trên, nhấn Tệp trên thanh công cụ để tải PDF lên — chỉ vài giây sau bạn đã có một bản MP3 với giọng đọc tự nhiên. Bài báo nghiên cứu, ebook, bài viết dài hay báo cáo kinh doanh đều được hỗ trợ. SpeechGen đọc thành tiếng mọi PDF dạng văn bản trong 146 ngôn ngữ, dùng cùng một engine đứng sau hơn 5.000 giọng có sẵn. Không cài đặt phần mềm, không cần đăng ký với 3.000 ký tự đầu tiên.
Chạy trên trình duyệt, không cần tải về. Tài liệu ngắn xong sau vài giây, sách dày mất vài phút.
Trong trình chỉnh sửa phía trên, nhấn nút Tệp ở thanh công cụ và chọn PDF của bạn. Engine đọc được mọi PDF dạng văn bản — loại được xuất từ Word, LaTeX, InDesign hoặc bất kỳ trình duyệt nào.
Lựa chọn từ hơn 5.000 giọng nói thuộc 146 ngôn ngữ. Điều chỉnh tốc độ và cao độ, hoặc chọn một giọng vùng miền cụ thể. Nghe thử trước khi quyết định.
Tài liệu ngắn có audio chỉ trong dưới một phút, sách dày mất vài phút. Bạn có thể nghe trực tiếp trong tài khoản hoặc tải MP3 về máy.
Bốn tình huống thực tế mà chúng tôi gặp mỗi ngày. Bấm vào thẻ để nghe — cùng một engine, tệp của bạn được nạp thẳng vào trình chỉnh sửa phía trên.
Bài IEEE 12 trang, bản nháp luận án, ghi chú bài giảng từ arXiv — nghe trên đường đi làm thay vì đọc lướt trên màn hình. Bố cục nhiều cột và phần chú thích được làm phẳng tự động trước khi đọc.
Sách PDF nguyên cuốn ở mọi ngôn ngữ — hồi ký Việt, trinh thám Tây Ban Nha, văn học Anh. Giọng kể giữ nguyên phong cách qua hàng trăm trang, không sụt chất lượng đến chương mười hai.
Báo cáo quý, nghiên cứu thị trường, memo cho hội đồng quản trị — biến một bộ slide 40 trang thành bản MP3 dài 25 phút để nghe trên xe khách. Iapetus đọc văn phong doanh nghiệp gọn gàng mà không khô như máy.
Tiểu luận tạp chí, bài longread Substack, phóng sự điều tra của Tuổi Trẻ xuất ra PDF — 30 phút đọc thành podcast nghe khi nấu cơm. Achernar VN có chất giọng ấm áp đặc trưng của người dẫn chuyện trên đài.
Công cụ chuyên nghiệp cho sách trọn bộ:
dùng <cut> tag để tách tiểu thuyết 300 trang thành các MP3 riêng cho từng chương trong một lần tổng hợp,
<dialog> tag giao cho mỗi nhân vật một giọng riêng trong các đoạn hội thoại,
và <break> tag để ngắt chính xác giữa các cảnh kịch tính. Mỗi tag đều có hướng dẫn ngắn riêng.
Ba điều mà công cụ này làm tốt hơn so với việc chép văn bản thô vào một engine TTS thông thường.
Bài nghiên cứu hai cột, danh sách gạch đầu dòng, tiêu đề và chú thích, footnote — luồng chữ được dựng lại theo cấu trúc. Thứ tự đọc khớp với trang thật, không nhảy cột lung tung. Đầu trang, cuối trang và số trang được lọc bỏ để không bị lặp "trang mười bảy" mỗi phút.
Bài 30 trang xong dưới một phút. Sách 200 trang hoàn tất trong 3–5 phút. Không cần cắt thủ công, không cần tách từng chương — tải lên một lần và nhận về một MP3 duy nhất (hoặc tách thành các bản nhạc theo chương qua bookmark TOC nếu có).
Tài liệu pha trộn hai hoặc ba thứ tiếng — bài báo có abstract tiếng Anh và phần thân tiếng Việt, hợp đồng song ngữ, biểu mẫu nhập cư — được nhận diện ngôn ngữ và đọc bằng giọng phù hợp cho từng đoạn. Khỏi phải tách trước.
Nhấn nút Tệp ở thanh công cụ trình chỉnh sửa trên đầu trang, chọn PDF, chọn một giọng và ngôn ngữ tiếng Việt rồi bấm Chuyển đổi. MP3 sẽ về tài khoản của bạn sau 30 giây với tài liệu ngắn và vài phút với sách trọn bộ. Không cần cài đặt gì cả.
Không — engine chỉ đọc PDF dạng văn bản (loại được xuất từ Word, LaTeX, InDesign hoặc trình duyệt). Với PDF dạng ảnh (sách scan, báo cáo fax, ảnh chụp tài liệu), bạn cần chạy qua một công cụ OCR miễn phí trước — Adobe Acrobat, ABBYY FineReader, hoặc OCR có sẵn trong Google Drive — để biến điểm ảnh thành văn bản thật. Sau đó tải lên đây như bình thường.
Có. Phần header, footer lặp lại và số trang đứng riêng đều được lọc bỏ để giọng đọc không lặp "trang mười bảy" mỗi phút. Tiêu đề chương và đề mục được giữ nguyên và đọc với tốc độ tự nhiên.
Bảng được làm phẳng theo từng dòng, tiêu đề cột được đọc một lần trước mỗi dòng. Chú thích hình ảnh và biểu đồ được đọc ngay tại vị trí chúng xuất hiện. Footnote không xen vào mạch đọc chính mà được đọc cuối mỗi chương để không phá vỡ nhịp câu.
Không — tệp có DRM hoặc khóa mật khẩu sẽ bị từ chối ngay khi tải lên vì lý do pháp lý và bảo mật. Hãy gỡ mật khẩu trước (mọi công cụ PDF đều làm được nếu bạn biết mật khẩu) rồi tải lên. Chúng tôi không vượt qua DRM.
100 trang chuyển trong khoảng 2 phút (khoảng 3 giờ MP3 ở tốc độ thường). Sách 500 trang vượt giới hạn tải lên 50 MB — hãy tách thành 2–3 phần bằng bất kỳ công cụ PDF nào, chuyển từng phần rồi nối các MP3 lại nếu muốn một tệp duy nhất.
Có — cả hai đều được tích hợp sẵn. Bọc các điểm ngắt chương trong thẻ <cut> và một lần tổng hợp sẽ trả về MP3 riêng cho mỗi chương. Với hội thoại giữa các nhân vật, thẻ <dialog> giao mỗi người nói cho một diễn viên khác nhau trong cùng một file âm thanh. Kết hợp cả hai để có sách nói đa giọng đầy đủ.
PDF chỉ là một điểm khởi đầu. Cùng tài khoản SpeechGen dùng được cho cả các công cụ này.
Chuyển .doc, .docx và .rtf. Cùng ngôn ngữ, cùng giọng đọc, cùng tốc độ. → Mở
Tải lên 20 giây, có ngay một giọng cá nhân đọc PDF và Word bằng chính chất giọng của bạn. 15 ngôn ngữ.→ Mở
Gõ hoặc dán văn bản bất kỳ. Chỉnh tốc độ, cao độ, cảm xúc, ngôn ngữ. Hơn 5.000 giọng nói. → Mở
Nhấn Tệp trong trình chỉnh sửa ở đầu trang. 3.000 ký tự đầu tiên miễn phí — khoảng 5 trang audio, không cần thẻ. Sau đó từ 5 USD.
Chuyển PDF sang MP3