学术论文与学位论文
十几页的 IEEE 论文、博士论文初稿、arXiv 上的讲义 — 用通勤时间听完,而不是在屏幕上匆匆扫过。多栏排版与脚注会在朗读前自动整理为线性顺序。
打开上方编辑器,点击工具栏的 文件 按钮上传 PDF,几秒钟即可获得自然流畅的 MP3 — 学术论文、电子书、长篇文章、商业报告皆可。SpeechGen 支持将任何文本型 PDF 用 146 种语言 朗读,引擎与平台内 5,000+ 内置声音完全相同。无需安装软件,前 3,000 字符无需注册。
浏览器内完成,无需下载客户端。短文档几秒钟生成,整本书也只需几分钟。
在上方编辑器工具栏点击 文件 按钮,选择您的 PDF。引擎可读取文本型 PDF — 也就是从 Word、LaTeX、InDesign 或浏览器导出的那一类文件。
从 146 种语言、5,000+ 声音中挑选。可调节语速与音调,也可指定特定口音。生成前先试听片段。
短文档不到一分钟即可完成,整本书也只需几分钟。可在账户内在线播放,也可下载 MP3 离线收听。
四类我们每天都看到的真实场景。点击卡片即可试听 — 同一套引擎,您的文件可直接接入上方编辑器。
十几页的 IEEE 论文、博士论文初稿、arXiv 上的讲义 — 用通勤时间听完,而不是在屏幕上匆匆扫过。多栏排版与脚注会在朗读前自动整理为线性顺序。
任何语种的整本书 PDF — 中文长篇小说、英文文学、西班牙悬疑、德国回忆录都行。叙述声线在数百页之内保持稳定,第十二章不会突然变质。
季度财报、市场调研、董事会备忘录 — 把 40 页的材料压成 25 分钟的 MP3,在地铁上听完。语调干练,商务节奏自然,毫无机械感。
《三联生活周刊》专题、财新长报道、Substack 长文导出的 PDF — 把一篇 30 分钟的阅读量做成做饭时可以听的播客。声线温润,有杂志主播般的叙述质感。
整本书的进阶工具:
使用 <cut> 标签 一次合成将 300 页的小说切分成各章独立的 MP3,
使用 <dialog> 标签 给每位角色分配不同声音的对话朗读,
并用 <break> 标签 在场景之间留出精准的戏剧停顿。每个标签都附有简明指南。
下面三件事,本工具比把纯文本复制到通用 TTS 引擎做得更好。
双栏论文、项目符号列表、标题与图注、脚注 — 文本重排会保留结构语义,阅读顺序与版面一致,不会出现栏间乱跳的情况。重复的页眉、页脚以及独立的页码会被过滤掉,朗读不会每分钟都说一句 “第十七页”。
30 页的论文不到一分钟就能合成完毕。200 页的整本书 3–5 分钟即可处理。无需手动切分章节 — 上传一次得到一个 MP3(若 PDF 含有目录书签,也可按章节自动拆分为多条音轨)。
混排两到三种语言的文档 — 例如英文摘要加中文正文的论文、中英双语合同、出入境表格 — 会按语种自动检测,并以对应声音分段朗读,无需事先拆分。
在本页顶部的编辑器工具栏点击 文件 按钮,选择您的 PDF,挑选声音和语种后点击转换即可。短文档大约 30 秒落入账户,整本书也只需几分钟。完全不需要安装任何软件。
不可以 — 引擎只读取文本型 PDF(也就是从 Word、LaTeX、InDesign 或浏览器导出的那一类)。扫描书籍、传真稿、文档照片这类图像型 PDF,需要先用任意免费 OCR 工具处理一下 — 例如 Adobe Acrobat、ABBYY FineReader 或 Google Drive 的内置 OCR — 把图像识别成文本后再上传即可。
不会。重复出现的页眉、页脚以及独立的页码会被过滤,朗读不会每分钟都说一句 “第十七页”。章节标题与小节标题会保留,并以自然节奏朗读出来。
表格会按行逐条展开朗读,每行之前先读一次列标题。图表与插图的说明文字在原位读出。脚注不会插入正文流,而是放到每章末尾统一朗读,以免打断句子节奏。
不能 — 出于法律与安全考量,DRM 保护和密码锁定的 PDF 在上传时会被拒绝。请先用任意 PDF 工具去除密码(前提是您拥有密码),再上传到本页面。我们不会绕过 DRM 保护。
100 页大约 2 分钟即可合成完毕(以正常语速生成约 3 小时的 MP3 音频)。500 页的整本书会超过 50 MB 的上传上限 — 请用任意 PDF 工具拆成 2–3 部分分别处理,需要单一文件时再把生成的 MP3 拼接起来即可。
PDF 只是其中一种入口。同一个 SpeechGen 账户也可以使用以下工具。