Chuyển giọng nói thành văn bản — và phụ đề sẵn dùng

Kéo thả tệp vào đây hoặc nhấp để chọn
mp3, wav, ogg, opus, aac, m4a, flac, amr, aiff, aif, 3gp, webm, mp4, mov, mkv, wmv, avi

+Thêm tệp

Ngôn ngữ

Chọn model

Tải lên

Chuyển đổi YouTube

	Tên file	Ngày	Khoảng thời gian	Trạng thái

Lịch sử

Phiên âm âm thanh thành văn bản và xuất phụ đề SRT/VTT chỉ trong một lần tải lên — gắn nhãn người nói, có dấu thời gian, sẵn sàng cho mọi trình biên tập video.

Độ chính xác AI 95–98% Bản ghi + phụ đề SRT/VTT Lưu 3 ngày · không huấn luyện Miễn phí 10 phút · không đăng ký · không thẻ

Cách phiên âm âm thanh thành văn bản — 3 bước

Tải lên, để AI xử lý, rồi tinh chỉnh đầu ra theo quy trình của bạn.

Tải lên âm thanh hoặc video

Kéo thả MP3, WAV, MP4 — hoặc dán liên kết YouTube. Tệp tối đa 1 GB và 3 giờ.

AI phiên âm

Mô hình của chúng tôi chuyển giọng nói thành văn bản với độ chính xác 95–98%, gắn dấu thời gian từng dòng và phân biệt người nói.

Tinh chỉnh và xuất

Điều chỉnh nhịp đoạn văn và dấu thời gian hiển thị, sau đó xuất TXT cho biên tập, DOCX để duyệt, hoặc phụ đề SRT/VTT cho mọi trình phát video.

Quyền riêng tư và xử lý dữ liệu — nói thẳng

Nếu bạn đang phiên âm phỏng vấn bảo mật, phiên khám y tế, ghi âm pháp lý hay cuộc họp nội bộ, đây là cách chúng tôi xử lý tệp. Không màu mè quảng cáo.

Mã hóa khi truyền

Mọi tệp âm thanh bạn tải lên đều đi qua kết nối mã hóa, và bản phiên âm trả về cũng vậy. SSL/TLS đầu cuối.

Tự xóa sau 3 ngày

Tệp âm thanh và bản phiên âm sẽ bị xóa khỏi kho lưu trữ của chúng tôi sau 3 ngày kể từ lúc tải lên. Cần giữ bản sao? Hãy tải về trong khoảng thời gian đó hoặc đặt nhắc nhở.

Không huấn luyện trên dữ liệu của bạn

Bản ghi âm của bạn vẫn là của bạn. Chúng không đi vào bất kỳ pipeline huấn luyện nào. Mô hình phiên âm đã được huấn luyện trước và đóng băng — tệp của bạn được xử lý một lần rồi quên đi.

Tuân thủ GDPR

Người dùng EU có đầy đủ quyền tiêu chuẩn — sao chép, xóa, di chuyển dữ liệu — thực hiện qua tài khoản hoặc bộ phận hỗ trợ. Mỗi lần tải lên nằm tại URL riêng tư gắn với tài khoản tạo ra nó.

Nội dung của bạn luôn riêng tư, được mã hóa và hoàn toàn nằm trong tầm kiểm soát của bạn.

Định dạng được hỗ trợ

Âm thanh, video và YouTube ở đầu vào — mọi định dạng bản phiên âm phổ biến ở đầu ra.

Âm thanh đầu vào

MP3WAVOGGOPUSAACM4AFLACAMRAIFF3GPWEBM

Video đầu vào

MP4MOVMKVWMVAVIWEBM

URL đầu vào

YouTubeYouTube Shorts

Bản phiên âm đầu ra

TXTDOCXPDFSRTVTTCSVBộ nhớ tạm

Demo · không phải tệp của bạn

Từ tệp âm thanh đến phụ đề sẵn thả vào timeline

Thả âm thanh vào — nhận lại bản phiên âm sạch và tệp phụ đề được chia thành các dòng phù hợp cho caption. Mẫu 38 giây bên dưới được xuất sang SRT và VTT (làm nổi) cũng như TXT, DOCX, PDF và CSV. Cùng định dạng đầu ra mà tệp của bạn sẽ tạo ra.

Âm thanh đầu vào · 0:38 Phỏng vấn báo chí công nghệ

Người nói 1 Người nói 2

Phiên âm và xuất ↓

.srt · Tệp phụ đề

1 00:00:01,200 --> 00:00:04,500 [Người nói 1] Điều gì khiến anh bắt đầu làm báo chí công nghệ? 2 00:00:05,100 --> 00:00:13,800 [Người nói 2] Thật ra là tình cờ. Lúc đó tôi đang đưa tin...

.vtt · Tệp phụ đề

WEBVTT 00:00:01.200 --> 00:00:04.500 <v Người nói 1>Điều gì khiến anh bắt đầu làm báo chí công nghệ? 00:00:05.100 --> 00:00:13.800 <v Người nói 2>Thật ra là tình cờ...

.txt

[00:01] Người nói 1: Điều gì khiến anh bắt đầu làm báo chí công nghệ? [00:05] Người nói 2: Thật ra là tình cờ. Tôi đang đưa tin về tòa thị chính, và một nguồn cứ nói những điều mà tôi phải dịch lại cho độc giả — đó là khoảnh khắc bừng tỉnh. [00:14] Người nói 1: Bao lâu thì anh biết đây là mảng của mình?

.docx

Người nói 1 · 00:01
Điều gì khiến anh bắt đầu làm báo chí công nghệ?

Người nói 2 · 00:05
Thật ra là tình cờ. Tôi đang đưa tin về tòa thị chính…

.pdf

Phỏng vấn báo chí công nghệ
Bản phiên âm mẫu · 0:38

Người nói 1 · 00:01
Điều gì khiến anh bắt đầu làm báo chí công nghệ?

.csv

bắt đầu,kết thúc,người nói,văn bản 00:01,00:04,Người nói 1,Điều gì khiến anh bắt đầu làm báo chí công nghệ? 00:05,00:13,Người nói 2,Thật ra là tình cờ...

Thực chất là một bộ tạo phụ đề tích hợp: tệp SRT và VTT được chia sẵn theo độ dài dòng phù hợp cho caption (≤ 42 ký tự mỗi dòng) — thả thẳng vào Premiere, DaVinci, Final Cut, CapCut hay YouTube Studio. Hoặc tinh chỉnh trước tất cả tùy chọn xuất.

Tùy chỉnh đầu ra theo cách bạn cần

Hầu hết công cụ phiên âm trả về một khối văn bản dài liền mạch. Của chúng tôi tách bản ghi theo người nói, theo độ dài khoảng nghỉ và nhịp đoạn văn — điều chỉnh được theo công cụ tiếp theo.

Độ dài đoạn văn

Điều chỉnh độ dài của mỗi đoạn văn

Tự động phát hiện hoặc cố định mỗi đoạn ở 1, 2, 3, 4 hay 8 dòng. Hữu ích khi bạn dán vào tài liệu có nhịp riêng của nó.

Tự động1 dòng2 dòng3 dòng4 dòng8 dòng

Ngắt đoạn

Tinh chỉnh nơi đoạn văn mới bắt đầu

AI bắt đầu một đoạn văn mới sau khoảng nghỉ. Điều chỉnh độ dài khoảng nghỉ tùy ý — ngắn hơn cho lời nói nhanh, dài hơn cho độc thoại chậm rãi.

500 ms700 ms (mặc định)1500 mstùy chỉnh

Dấu thời gian

Hiển thị dấu thời gian ở nơi bạn muốn

Theo đoạn văn để xem nhanh, theo cụm câu cho việc trích dẫn pháp lý, cả hai để có dấu vết kiểm tra đầy đủ, hoặc tắt để có văn xuôi sạch sẵn xuất bản.

Đoạn vănCụm câuCả haiTắt

Người nói

Đặt tên người nói hoặc gộp lượt liên tiếp

Tự động gắn nhãn Người nói 1 / Người nói 2. Đổi tên trong trình biên tập để khớp với khách mời, người dẫn hay người được phỏng vấn mà bạn đã tải lên.

Tên người nóiGộp theo người nóiẨn

Chế độ văn bản thuần

Lược bỏ mọi thứ trừ chữ

Một công tắc thu gọn bản phiên âm thành văn xuôi sẵn xuất bản — sẵn sàng cho biên tập viên, công cụ tóm tắt LLM, hoặc dán vào bản nháp CMS.

Chế độ văn bản thuần

Bộ nhớ tạm

Sao chép mà không cần tải tệp

Bỏ qua bước tệp. Dán bản phiên âm đã cấu hình thẳng vào Notion, Google Docs hay CMS của bạn — đã đúng định dạng cần dùng.

Sao chép vào bộ nhớ tạm

Ngôn ngữ chúng tôi phiên âm với độ chính xác gần như bản ngữ

Đây là những ngôn ngữ mô hình cho kết quả ổn định nhất. Tự nhận diện chọn đúng ngôn ngữ; clip pha trộn nhiều ngôn ngữ cũng được.

Tiếng Anh
Tiếng Tây Ban Nha
Tiếng Trung phổ thông
Tiếng Bồ Đào Nha
Tiếng Đức
Tiếng Pháp
Tiếng Ý
Tiếng Nga
Tiếng Nhật
Tiếng Hàn
Tiếng Hindi
Tiếng Ả Rập

Nếu âm thanh của bạn ở ngôn ngữ ít phổ biến, hãy thử mẫu 60 giây ở gói miễn phí trước.

Phù hợp với cách bạn làm việc

Một engine phiên âm, mọi quy trình cần biến âm thanh thành chữ.

Nhà báo và nhà nghiên cứu

Chuyển âm thanh thành văn bản từ phỏng vấn và bản ghi hiện trường — đầu ra có gắn nhãn người nói và bộ tạo bản phiên âm dành cho việc rút trích dẫn nhanh.

Giảng viên và sinh viên

Biến bài giảng và hội thảo thành ghi chú học tập. Thêm dấu thời gian và xem lướt thay vì nghe lại từ đầu.

Podcaster và nhà sáng tạo

Một công cụ chuyển audio thành văn bản kiêm bộ tạo show note: nạp một MP3 và nhận lại bản tái sử dụng cho blog, tóm tắt tập, gợi ý chương.

Người làm phụ đề

Dùng bộ tạo phụ đề tích hợp để tạo tệp SRT và VTT cho YouTube, TikTok và mọi trình phát video.

Pháp lý và tuân thủ

Phiên âm lời khai, phiên điều trần và cuộc họp với dấu thời gian để rà soát theo dòng trích dẫn.

Đội nhóm và cuộc họp

Thả một bản ghi cuộc họp vào và nhận bản phiên âm với danh sách việc cần làm, sẵn sàng dán vào công cụ tài liệu của bạn.

Gói miễn phí — dùng thử trước khi cam kết

Kiểm tra chất lượng phiên âm trên chính âm thanh của bạn. Không cần thẻ. Nạp thêm chỉ khi cần nhiều phút hơn.

Miễn phí

10 phút / tháng Đầy đủ tính năng. Không đăng ký. Không watermark. Không gói thuê bao.

Nạp thêm

Từ $4.99 Thanh toán một lần cho gói phút. Số phút không hết hạn — không reset hàng tháng, không thuê bao.

Xem các gói

Câu hỏi thường gặp về phiên âm

Những câu hỏi chúng tôi nghe nhiều nhất từ người dùng mới — trả lời thẳng thắn.

Bản phiên âm thực sự chính xác đến mức nào?

95–98% với giọng nói rõ. Giọng vùng nặng, tiếng ồn nền, các giọng chồng chéo hay âm thanh điện thoại bị nén sẽ kéo độ chính xác xuống — đôi khi thấp hơn 95% nhiều. Con số ở phần đầu là trần, không phải sàn. Với bất cứ thứ gì bạn định xuất bản hay trích dẫn, hãy lên kế hoạch rà soát một lượt trong trình biên tập.

Phiên âm mất bao lâu?

Tùy theo độ dài tệp và tải hệ thống hiện tại. Hầu hết tệp hoàn tất trong vài phút cho mỗi giờ âm thanh; vào giờ cao điểm hoặc với tệp dài hơn sẽ lâu hơn. Bạn sẽ thấy tiến trình trực tiếp và có thể đóng tab — chúng tôi vẫn xử lý ngầm.

Nếu âm thanh của tôi chất lượng kém thì sao?

Bản phiên âm vẫn được trả về, nhưng hãy chuẩn bị tinh thần có lỗi. Tiếng ồn nền, giọng vùng nặng, hai người nói cùng lúc — đây là chỗ AI gặp khó. Mở trình biên tập tích hợp, tua âm thanh trong khi đọc, sửa các dòng quan trọng rồi xuất. Thời hạn lưu 3 ngày cho bạn khoảng thời gian để làm việc đó mà không vội vàng.

Ngoài các ngôn ngữ được liệt kê, có chạy được không?

Thường là có — nhưng chất lượng khác nhau. Các ngôn ngữ ít phổ biến và phương ngữ khu vực có thể được phiên âm với độ chính xác thấp hơn so với những ngôn ngữ chính được liệt kê. Chúng tôi khuyên bạn chạy thử một mẫu ngắn ở gói miễn phí trước để xem kết quả có dùng được cho nguồn cụ thể của bạn hay không.

Tôi có thể chia sẻ bản phiên âm với người khác không?

Có. Mỗi bản phiên âm nằm tại một URL duy nhất — chia sẻ liên kết với người cần xem, hoặc đơn giản là tải xuống và gửi tệp qua email. Hãy nhớ trang sẽ tự xóa sau 3 ngày, vì vậy người cộng tác nên lấy bản sao nếu cần truy cập lâu dài.

Các công cụ phiên âm khác

→ YouTube Bộ tạo transcript YouTube Dán URL, nhận toàn bộ văn bản trong 10–20 phút cho video 3 giờ. → Video Phiên âm video Tải lên tệp MP4, MOV, AVI tối đa 1 GB. Xuất SRT, DOCX, TXT. ↔ Hướng ngược Chuyển văn bản thành giọng nói Đang tìm chiều ngược lại? Chuyển văn bản sang giọng AI ở 100+ ngôn ngữ. → Lồng tiếng phụ đề Phụ đề có giọng đọc cho video Đã có tệp SRT? Tạo lồng tiếng AI và ghép vào video của bạn.

Chúng tôi sử dụng cookie để đảm bảo bạn có được trải nghiệm tốt nhất trên trang web của chúng tôi. Tìm hiểu thêm: Chính sách quyền riêng tư

Cần thiết Phân tích
Chấp nhận cookie