音频和视频转文字 — 即取即用的字幕

拖拽或点击选择文件
mp3, wav, ogg, opus, aac, m4a, flac, amr, aiff, aif, 3gp, webm, mp4, mov, mkv, wmv, avi

+添加更多文件

选择语言

选择模型

上传文件

Youtube转文字

	文件名	日期	时长	状态

历史

一次上传完成语音转文字与 SRT/VTT 字幕生成 — 带说话人标签和时间戳,可直接导入任何视频编辑软件。

AI 准确率 95–98% 转录文本 + SRT/VTT 字幕保留 3 天 · 不用于训练免费 10 分钟 · 免注册 · 无需信用卡

如何将音频转文字 — 3 步搞定

上传文件,让 AI 处理,然后按工作流调整导出格式。

上传音频或视频

拖放 MP3、WAV、MP4 文件 — 或粘贴 YouTube 链接。文件最大 1 GB、时长 3 小时。

AI 自动转录

我们的模型以 95–98% 的准确率将语音转文字,为每行添加时间戳并标记说话人。

配置并导出

调整段落节奏和时间戳显示方式,然后导出为 TXT(给文字工作者)、DOCX(用于审阅)或 SRT/VTT 字幕(适配任何视频播放器)。

隐私与数据处理 — 直接说明

如果您要转录的是机密访谈、医疗对话、法务录音或内部会议,以下是我们处理文件的具体方式。没有营销辞藻。

传输全程加密

您上传的每个音频文件都通过加密通道传输,取回转录文本时同样如此。SSL/TLS 端到端加密。

3 天后自动删除

上传后 3 天,您的音频文件及其转录文本会从我们的存储中彻底清除。需要保留副本?请在此期限内下载或设置提醒。

不用于训练数据

您的录音始终归您所有。它们不会进入任何训练流程。负责转录的模型已预先训练并冻结 — 您的文件只处理一次,然后被遗忘。

符合 GDPR

欧盟用户享有标准权利 — 复制、删除、可携带性 — 可通过账户或客服行使。每次上传都位于一个仅限创建账户访问的私有 URL。

您的内容始终保持私密、加密,完全由您掌控。

支持的格式

输入支持音频、视频和 YouTube 链接 — 输出涵盖所有常见的转录文本格式。

音频输入

MP3WAVOGGOPUSAACM4AFLACAMRAIFF3GPWEBM

视频输入

MP4MOVMKVWMVAVIWEBM

URL 输入

YouTubeYouTube Shorts

转录输出

TXTDOCXPDFSRTVTTCSV剪贴板

演示 · 非您的文件

从音频文件到即取即用的字幕

上传音频 — 获取干净的转录文本和已按字幕友好行长切分好的字幕文件。下方 38 秒样本可转换为 SRT 与 VTT(高亮显示),也支持 TXT、DOCX、PDF 和 CSV。您的文件输出格式完全相同。

音频输入 · 0:38 科技新闻访谈

说话人 1 说话人 2

转录并导出 ↓

.srt · 字幕文件

1 00:00:01,200 --> 00:00:04,500 [说话人 1] 您是怎么开始做科技新闻的? 2 00:00:05,100 --> 00:00:13,800 [说话人 2] 老实说,是偶然。当时我在跑...

.vtt · 字幕文件

WEBVTT 00:00:01.200 --> 00:00:04.500 <v 说话人 1>您是怎么开始做科技新闻的? 00:00:05.100 --> 00:00:13.800 <v 说话人 2>老实说,是偶然...

.txt

[00:01] 说话人 1:您是怎么开始做科技新闻的? [00:05] 说话人 2:老实说,是偶然。当时我在跑市政厅口,有个采访对象老说一些我得替读者翻译的话 — 那一刻我就明白了。 [00:14] 说话人 1:多久之后您才确定这就是您要做的方向?

.docx

说话人 1 · 00:01
您是怎么开始做科技新闻的?

说话人 2 · 00:05
老实说,是偶然。当时我在跑市政厅口…

.pdf

科技新闻访谈
转录样本 · 0:38

说话人 1 · 00:01
您是怎么开始做科技新闻的?

.csv

start,end,speaker,text 00:01,00:04,说话人 1,您是怎么开始做科技新闻的? 00:05,00:13,说话人 2,老实说是偶然...

实质上就是内置的字幕生成器:SRT 与 VTT 文件已按字幕友好行长(每行 ≤ 42 字符)预先切分 — 可直接导入 Premiere、DaVinci、Final Cut、CapCut 或 YouTube Studio。也可先调整所有输出参数。

按您所需的方式配置输出

大多数语音转文字工具只输出一大段文本。我们的工具按说话人、按停顿长度、按段落节奏切分转录文本 — 可针对下游工具进行调优。

段落长度

调整每段的长度

自动检测,或将每段固定为 1、2、3、4 或 8 行。当您要粘贴到有自己节奏要求的文档时很有用。

自动1 行2 行3 行4 行8 行

分段节点

调整新段落的起点

AI 会在停顿后开始新段落。按您的偏好调整停顿长度 — 语速快的内容用短停顿,娓娓道来的独白用长停顿。

500 ms700 ms(默认)1500 ms自定义

时间戳

把时间戳显示在您想要的位置

按段显示便于快速浏览,按句显示用于法务引用,两者都开启则提供完整审计线索,关闭则得到干净的可发布文本。

按段按句两者关闭

说话人

命名说话人,或合并连续发言

自动标记为 说话人 1 / 说话人 2。在编辑器中重命名,以匹配您上传内容里的嘉宾、主持人或访谈对象。

说话人姓名按说话人合并隐藏

纯文本模式

只保留文字内容

一键将转录文本压缩为可发布的纯文本 — 直接交给文字工作者、LLM 摘要工具,或粘贴到 CMS 草稿里。

纯文本模式

剪贴板

无需下载文件,直接复制

跳过文件步骤。把配置好的转录文本直接粘贴到 Notion、Google Docs 或您的 CMS — 已经是您要的格式。

复制到剪贴板

可达到接近母语水平准确率的语言

以下是我们的模型能稳定输出高质量结果的语言。自动检测会选择正确的语言;混合语言片段也能处理。

英语
西班牙语
普通话
葡萄牙语
德语
法语
意大利语
俄语
日语
韩语
印地语
阿拉伯语

如果您的音频是较少见的语言,请先在免费额度上跑一段 60 秒的样本试试。

为您的工作方式而生

一个转录引擎,覆盖所有需要从声音中提取文字的工作流。

记者与研究人员

将访谈和现场录音转为文字 — 输出带说话人标签,转文字工具专为快速摘录引语而设计。

教师与学生

把课程和研讨会变成学习笔记。加上时间戳后快速浏览,无需重听音频。

播客主与创作者

一款音频转文字工具,同时充当节目笔记生成器:导入 MP3,得到博客复用素材、节目摘要和章节提示。

字幕制作者

使用内置的字幕生成器,为 YouTube、TikTok 及任意视频播放器生成 SRT 与 VTT 字幕文件。

法务与合规

将证词、听证会和会议录音转为文字,带时间戳便于按行引用复核。

团队与会议

上传会议录音,获得带行动事项的转录文本,直接粘贴到您的协作文档中。

免费额度 — 先试后买

用您自己的音频测试转录质量。无需信用卡。需要更多分钟数时再充值。

免费

10 分钟 / 月 全功能开放。免注册。无水印。无订阅。

充值

$4.99 起 一次性购买分钟包。分钟数永不过期 — 不按月重置,无订阅。

查看套餐

语音转文字常见问题

新用户最常问的问题 — 直接给出答案。

转录的实际准确率到底有多高?

在干净语音上是 95–98%。浓重口音、背景噪声、声音重叠或压缩过的电话音频会拉低准确率 — 有时远低于 95%。这个数字是上限,不是下限。要拿去发布或引用的内容,请预留时间在编辑器里复核一遍。

转录需要多长时间?

取决于文件长度和当前负载。多数文件每小时音频在数分钟内完成;高峰期或较长的上传会更慢。您能看到实时进度,可以关闭标签页 — 我们会在后台继续处理。

音频质量不好会怎样?

转录文本仍会出来,但要预期会有错误。背景噪声、口音浓重、两人同时说话 — 这些都是 AI 容易出错的场景。打开内置编辑器,边读边拖动音频,修正关键的几行,然后导出。3 天保留期为您留出从容修订的窗口。

除了上述列出的语言,其他语言能用吗?

通常可以 — 但质量会有差异。较少见的语言和地区方言的转录准确率,可能低于上面列出的主流语言。建议先在免费额度里跑一段短样本,看看结果对您的具体素材是否可用。

能把转录文本分享给其他人吗?

可以。每份转录文本都有唯一的 URL — 把链接发给需要查看的人,或下载文件再通过邮件发送。请记住页面在 3 天后会自动删除,因此协作者若需长期访问,应及时下载副本保存。

其他转录工具

→ YouTube YouTube 转录文本生成器粘贴一个 URL,3 小时视频在 10–20 分钟内得到全文。 → 视频视频转文字上传 MP4、MOV、AVI 文件,最大 1 GB。支持 SRT、DOCX、TXT 导出。 ↔ 反向文字转语音想做反方向?把文字转换为 AI 语音,支持 100+ 种语言。 → 字幕配音视频字幕配音已有 SRT 文件?生成 AI 配音并合成到视频里。

我们使用Cookie来确保您在我们的网站上获得最佳体验。了解更多：隐私政策

必要分析

接受Cookies