音声・動画の文字起こし、字幕ファイルもそのまま

×

ここにファイルをドラッグ&ドロップするか、クリックして選択
mp3, wav, ogg, opus, aac, m4a, flac, amr, aiff, aif, 3gp, webm, mp4, mov, mkv, wmv, avi

+さらに追加

ファイルアップロード
YouTubeから文字起こし
ファイル名 日付 時間 状態
×

書き出し


形式

書き出し設定

音声 文字起こしとSRT/VTT字幕への変換を一度のアップロードで完結。話者ラベルとタイムスタンプ付き、どの動画編集ソフトにもそのまま使えます。

AI精度95–98% テキスト + SRT/VTT字幕 3日後に自動削除・学習に使用しない 無料10分・登録不要・カード不要

音声 文字起こしの手順 — 3ステップ

アップロード、AIが処理、エクスポート設定を整えるだけ。

1

音声または動画をアップロード

MP3、WAV、MP4をドラッグ&ドロップ、またはYouTubeリンクを貼り付け。最大1 GB、3時間まで対応。

2

AIが文字起こし

音声認識モデルが精度95–98%でテキスト化、各行にタイムスタンプを付与し、話者を自動でラベリングします。

3

設定してエクスポート

段落の区切りや表示するタイムスタンプを調整して、ライター向けTXT、レビュー用DOCX、各種プレーヤー対応のSRT/VTT字幕として書き出せます。

プライバシーとデータの取り扱い — 包み隠さず

機密インタビュー、医療セッション、法務記録、社内ミーティングを文字起こしする方へ。アップロードされたファイルをどう扱っているか、装飾なしでお伝えします。

通信は暗号化

アップロードされる音声ファイルも、生成されたテキストも、すべて暗号化された経路で送受信されます。SSL/TLSによるエンドツーエンド保護。

3日後に自動削除

音声ファイルとその文字起こし結果は、アップロードから3日後にストレージから消去されます。コピーが必要な場合はその期間内にダウンロードしてください。

学習データには使用しません

アップロードされた録音はお客様のものです。学習パイプラインには一切投入されません。文字起こしに使うモデルは事前学習済みで固定されており、ファイルは一度処理されたら忘れ去られます。

GDPR準拠

EUのユーザーには、コピー、削除、ポータビリティといった標準的な権利があり、アカウント画面またはサポート経由で行使できます。各アップロードは、作成元アカウントに紐づく非公開URLに保管されます。

あなたのコンテンツは非公開・暗号化され、完全にあなたの管理下に置かれます。

対応フォーマット

入力は音声・動画・YouTube、出力は主要なテキストフォーマットすべてに対応。

音声入力
MP3WAVOGGOPUSAACM4AFLACAMRAIFF3GPWEBM
動画入力
MP4MOVMKVWMVAVIWEBM
URL入力
YouTubeYouTube Shorts
テキスト出力
TXTDOCXPDFSRTVTTCSVクリップボード
デモ・あなたのファイルではありません

音声ファイルから、すぐ使える字幕まで

音声を入れれば、整ったテキストと、字幕に適した行長で分割された字幕ファイルが返ってきます。下の38秒のサンプルはSRT・VTT(ハイライト)に加え、TXT、DOCX、PDF、CSVに変換されます。あなたのファイルでも同じ形式で出力されます。

音声入力 · 0:38 テックジャーナリズムのインタビュー
話者1 話者2
文字起こし & 書き出し ↓
.srt · 字幕ファイル
1 00:00:01,200 --> 00:00:04,500 [話者1] テックジャーナリズムを始めたきっかけは何でしたか? 2 00:00:05,100 --> 00:00:13,800 [話者2] 正直なところ、偶然ですね。当時は…
.vtt · 字幕ファイル
WEBVTT 00:00:01.200 --> 00:00:04.500 <v 話者1>テックジャーナリズムを始めたきっかけは何でしたか? 00:00:05.100 --> 00:00:13.800 <v 話者2>正直なところ、偶然ですね…
.txt
[00:01] 話者1: テックジャーナリズムを始めたきっかけは何でしたか? [00:05] 話者2: 正直なところ、偶然ですね。市役所を担当していたとき、ある情報源が読者向けに翻訳しないと伝わらないことばかり言っていて — そこでピンときたんです。 [00:14] 話者1: それが自分の領域だと気付くまでにどのくらいかかりましたか?
.docx

話者1 · 00:01
テックジャーナリズムを始めたきっかけは何でしたか?

話者2 · 00:05
正直なところ、偶然ですね。市役所を担当していたとき…

.pdf

テックジャーナリズムのインタビュー
サンプル文字起こし · 0:38

話者1 · 00:01
テックジャーナリズムを始めたきっかけは何でしたか?

.csv
start,end,speaker,text 00:01,00:04,話者1,テックジャーナリズムを始めたきっかけは何でしたか? 00:05,00:13,話者2,正直なところ偶然ですね...

実質的に字幕ジェネレーター内蔵: SRTとVTTファイルは字幕向けの行長(1行42文字以内)で事前分割されており、Premiere、DaVinci、Final Cut、CapCut、YouTube Studioにそのまま投入できます。先に出力設定をすべて調整することも可能です。

出力を用途に合わせて設定

ほとんどの文字起こしツールはテキストを一塊で吐き出すだけ。SpeechGenは話者・無音の長さ・段落のリズムでテキストを分割でき、後工程のツールに合わせて調整できます。

段落の長さ

各段落の長さを調整

自動検出にするか、各段落を1行・2行・3行・4行・8行に固定できます。独自のリズムを持つドキュメントに貼り付けるときに便利です。

自動1行2行3行4行8行
段落の区切り

新しい段落の開始位置を調整

AIは無音のあとに新しい段落を始めます。無音の長さは好みに合わせて調整可能 — 速い発話には短め、ゆったりしたモノローグには長めに。

500 ms700 ms (デフォルト)1500 msカスタム
タイムスタンプ

タイムスタンプの表示位置を選ぶ

ざっと確認したいなら段落単位、法的引用には文単位、完全な記録には両方、公開用のきれいな本文にはオフを。

段落両方オフ
話者

話者名を付ける、または連続発話を統合

自動で話者1 / 話者2とラベル付けされます。エディタで名前を変更し、アップロードしたパネリスト、ホスト、インタビュー対象に合わせられます。

話者名話者ごとに統合非表示
プレーンテキストモード

言葉だけを残してすべて取り除く

ワンクリックで文字起こしを公開可能な本文に折り畳めます — ライター、LLM要約、CMSの下書きへの貼り付けに最適です。

プレーンテキストモード
クリップボード

ファイルをダウンロードせずにコピー

ファイル化の手間を省略。設定済みの文字起こしを、整った形式のままNotion、Google Docs、CMSに直接貼り付けられます。

クリップボードにコピー

ネイティブ並みの精度で文字起こしできる言語

以下はモデルが安定して高品質な結果を出す言語です。自動検出が言語を判別し、複数言語が混在する音声にも対応します。

  • 英語
  • スペイン語
  • 中国語(普通話)
  • ポルトガル語
  • ドイツ語
  • フランス語
  • イタリア語
  • ロシア語
  • 日本語
  • 韓国語
  • ヒンディー語
  • アラビア語

対応言語以外の音声を扱う場合は、無料枠で60秒のサンプルを試してから本番に進んでください。

あなたのワークフローに合わせて

ひとつの文字起こしエンジンで、音から言葉を必要とするあらゆる業務をカバー。

記者・研究者

インタビューやフィールド録音の音声 文字起こしに。話者ラベル付きの出力と、引用の素早い抽出を想定したテキスト生成機能を提供します。

教員・学生

講義やゼミを学習用ノートに変換。タイムスタンプを付ければ、もう一度聞き直さずに必要な箇所だけ確認できます。

ポッドキャスター・クリエイター

音声からテキストへ変換するツールであり、同時にショーノート生成器でもあります。MP3を投入すれば、ブログ転用、エピソード要約、チャプター情報を取得できます。

字幕制作者

内蔵の字幕ジェネレーターで、YouTube、TikTok、各種動画プレーヤー向けのSRT・VTTファイルを作成できます。

法務・コンプライアンス

証言録取、聴聞会、会議の録音 文字起こしを、タイムスタンプ付きで行ない、行単位の引用レビューに活用できます。

チーム・ミーティング

会議の録音をアップロードすれば、アクションアイテム入りの文字起こしが得られ、ドキュメントツールへそのまま貼り付けられます。

無料プラン — まず試してから

実際の音声で精度を確かめてください。クレジットカード不要。必要になったときだけ追加チャージ。

無料

月10分 全機能利用可。登録不要、ウォーターマークなし、サブスクなし。

追加チャージ

$4.99から 分数パックの単発購入。分数は失効しません — 月次リセットなし、サブスクなし。
プランを見る

文字起こしのFAQ

新規ユーザーから多く寄せられる質問に、率直にお答えします。

実際の文字起こし精度はどのくらいですか?
きれいな音声であれば95–98%です。強い訛り、雑音、声の重なり、圧縮された電話音声では精度が下がります — 場合によっては95%を大きく割り込みます。冒頭の数値は上限であり、最低保証ではありません。公開や引用に使うものは、エディタでのレビュー工程を必ず計画してください。
文字起こしにはどれくらい時間がかかりますか?
ファイルの長さと現在の混雑状況によります。多くのファイルは音声1時間あたり数分で完了しますが、混雑時や長尺のアップロードはより時間がかかります。進捗はリアルタイムで表示され、タブを閉じても処理はバックグラウンドで継続します。
音質が悪い場合はどうなりますか?
文字起こし自体は返されますが、誤りが含まれる前提でお考えください。雑音、強い訛り、二人の同時発話 — こうした条件はAIが苦手とする領域です。内蔵エディタを開き、音声を再生しながらテキストを読み、重要な行を修正してから書き出してください。3日間の保管期間内であれば、急がずに作業できます。
掲載されていない言語でも使えますか?
多くの場合は使えます — ただし品質は変動します。掲載していない言語や地域方言は、主要対応言語より精度が落ちる可能性があります。対象の素材で実用に足るかを判断するため、無料枠で短いサンプルを先に試すことをおすすめします。
文字起こしを他の人と共有できますか?
はい。各文字起こしには固有のURLが割り当てられます — リンクを共有するか、ファイルをダウンロードしてメール送付してください。ページは3日後に自動削除されるため、長期的なアクセスが必要な場合は早めにコピーを取得しておく必要があります。

他の文字起こしツール

当ウェブサイトでは、最高の体験を提供するためにクッキーを使用しています。詳細については、プライバシーポリシーをご覧ください。

クッキーを許可