ツール・サービス·2026-06-29

AIで文字起こしする方法｜会議・動画音声を無料で文章にする手順

#文字起こし#Whisper#音声認識#議事録#無料AIツール

AIのトリセツツール・サービス

この記事の要点

1.無料でできるAI文字起こしの代表ツールは「Whisper（OpenAI）」「Google ドキュメント音声入力」「Notta無料プラン」の3択。用途と音質で選ぶのが正解。
2.文字起こし後にChatGPTなどへ「整形・要約・議事録化」を頼むと、生の文字列が即戦力の資料に変わる。プロンプトのコピペ例を本文に掲載。
3.よくある失敗は「音質が悪くて誤変換だらけ」。原因はマイクの距離と環境音。対策は録音前に30秒のテスト録音を必ず挟むこと。

この記事を読み終えると、あなたは今日中に「会議の録音ファイル」や「YouTubeの音声」をAIに渡して、文字起こしされたテキストを手に入れられるようになります。さらに、出てきた荒削りなテキストをChatGPTで整形・要約し、そのまま使える議事録や動画の字幕原稿に変える一連の流れも身につきます。必要なのはパソコンとインターネット接続だけ。有料サービスへの登録は不要です。

文字起こしは「聞き返す→打ち込む」作業の繰り返しで、1時間の音声を手作業で文字にすると平均3〜4時間かかるといわれています。AIを使えばその同じ作業が数分で終わります。浮いた時間で内容の確認や修正に集中できるので、品質も上がるという好循環が生まれます。まずは仕組みから押さえ、すぐ使えるステップに進みましょう。

AI文字起こしの仕組みをざっくり理解する

AIの文字起こしは「音声認識（ASR）」という技術が土台です。音の波形を細かく分析し、どの音がどの言語の音節に対応するかを確率で判定して文字に変換します。従来は専用ソフトが必要でしたが、OpenAIが2022年に「Whisper」というモデルを無料公開したことで、誰でもブラウザやPCから高精度な文字起こしができるようになりました。Whisperは日本語を含む約100言語に対応しており、特に標準的な話し方の日本語に対しては精度が高いと評価されています。ただし、方言・専門用語・複数人の重なり話しには苦手な部分があるため、後で人の目で確認するひと手間が必要です。

無料で使える主要ツール3つを比較する

無料で使えるAI文字起こしツールは複数ありますが、初心者が迷わず選ぶための基準は「どんなファイルを扱うか」と「どこまで手間を省きたいか」の2点です。以下の3ツールを抑えておけば、ほぼどんなケースにも対応できます。それぞれ得意な場面が異なるので、使い分けを覚えましょう。

Whisper（OpenAI製）: 精度が高く日本語も得意。音声ファイル（MP3・MP4・WAVなど）をアップロードして使う。ブラウザで使えるラッパーサービス「Whisper Web」や「Groq Whisper API（無料枠あり）」経由が手軽。ファイルサイズ上限はサービスごとに異なる。
Googleドキュメント音声入力: Googleアカウントがあれば追加登録不要。リアルタイムで話しかけると文字が入力される。録音済みファイルの再生音をマイクで拾う「スピーカー再生法」でも使える。オフラインの音声ファイルを直接渡す機能はないため、あくまでリアルタイム向き。
Notta（無料プラン）: ブラウザにURLを貼るだけでYouTube動画やZoom録画を文字起こし可能。無料プランは月に一定の利用上限があるため、頻度が高い場合は上限に注意。議事録フォーマットへの整形機能もあり、手軽さが最大の強み。

ツール選びの一発判断基準

「録音済みのファイルがある→Whisper系」「今この瞬間に話しながら文字にしたい→Googleドキュメント音声入力」「YouTubeやZoom URLだけある→Notta」。この3分岐で迷わず選べます。

ステップ1：音声ファイルを準備する（ここで品質が決まる）

文字起こしの精度は、AIの性能より先に「音の品質」で9割が決まります。ノイズが多い音声はAIでも判別できず、誤変換が連発します。会議録音なら「スマホを会議テーブルの中央に置く」「空調の吹き出し口から離す」「窓は閉める」の3点を守るだけで精度が大きく変わります。録音アプリはスマホ標準の「ボイスメモ（iOS）」や「レコーダー（Android）」で十分です。録音後は必ず30秒だけ再生して、自分の声がはっきり聞こえるか確認してください。聞こえにくければ録り直したほうが、後の修正時間が格段に減ります。ファイル形式はMP3またはM4Aで保存するとサイズが小さくなり、アップロードも速いです。

ステップ2：Whisper Webで文字起こしする（無料・登録不要）

「Whisper Web」はOpenAIのWhisperモデルをブラウザだけで動かせるサービスです。アカウント登録不要で、ファイルはサーバーに送らずブラウザ内で処理されるため、機密性の高い会議音声にも比較的安心して使えます。ただし処理はパソコンのスペックに依存するため、古い機種では時間がかかる場合があります。手順は以下の5ステップです。

ブラウザで「Whisper Web」と検索し、Hugging Faceが提供するデモページを開く（URL: huggingface.co/spaces/Xenova/whisper-web）。
ページ上部の「Language」プルダウンを「Japanese」に設定する。デフォルトは英語なので必ず変更すること。
「Upload Audio」ボタンをクリックし、録音したMP3やM4Aファイルを選択してアップロードする。
「Transcribe」ボタンを押す。1分の音声で目安として1〜3分ほど待つ（PCスペックによる）。
画面下部にテキストが表示されたら、全選択（Ctrl+A）してコピーし、メモ帳やGoogleドキュメントに貼り付けて保存する。

処理が遅い場合の対処法

Whisper Webはブラウザ内処理のため、パソコンが古いと30分の音声に10分以上かかることもあります。そのときはGroqが提供する無料APIラッパー（groq.com）を使うと、同じWhisperモデルがサーバー側で処理されて格段に速くなります。

ステップ3：GoogleドキュメントでリアルタイムまたはPCスピーカー再生で文字起こしする

録音済みファイルを手元のスピーカーで再生しながら、Googleドキュメントの音声入力をオンにする方法（通称「スピーカー再生法」）を紹介します。やや荒削りな方法ですが、アプリのインストールもファイルアップロードも不要なため、社内PCに制限がある環境でも動きます。操作手順は次のとおりです。①Googleドキュメントを新規作成する。②上部メニューの「ツール」→「音声入力」をクリック。③マイクアイコンが赤くなったら録音開始の合図です。④音声ファイルを別のウィンドウで再生し、PCのスピーカーを鳴らす。⑤文字が流れ込んでくるのを確認しながら、終わったらマイクアイコンをもう一度クリックして停止。部屋が静かなほど精度が上がります。認識中は話しかけたり雑音を立てたりしないでください。

ステップ4：ChatGPTで文字起こし結果を整形・議事録化する

AIが吐き出した生の文字起こしテキストは、句読点がなかったり、話し言葉の「あのー」「えーと」が混在していたりします。このままでは議事録として使えません。ここでChatGPT（無料版のGPT-4oでも可）の出番です。文字起こしテキストをそのまま貼り付け、以下のプロンプトを一緒に送るだけで、読みやすい議事録に整形してくれます。テキストは長くても一度に貼り付けてOKです（ツールにより入力できる文字数の上限は異なりますが、目安として数千字は問題なく処理できます）。

議事録整形プロンプト（コピペしてそのまま使えます）

以下は会議の音声を文字起こしした生のテキストです。次の条件で議事録に整形してください。

【条件】
・話し言葉（「あのー」「えーと」「〜ですよね」など）を書き言葉に直す
・句読点を適切に補う
・決定事項・議論になった点・次回アクション（担当者・期日）の3項目に分けて箇条書きにまとめる
・固有名詞や数字はそのまま残す
・不明瞭な部分は【要確認】と記す

【文字起こしテキスト】
ここに文字起こしのテキストを貼り付けてください

動画の要約・字幕原稿用プロンプト（YouTube解説動画向け）

以下は動画の音声を文字起こしした生テキストです。次の2つを作成してください。

1. 動画の要約（200字以内）：動画で伝えているメインのポイントを簡潔にまとめる
2. チャプター構成案：内容の区切りごとに「◯分頃〜：テーマ名」の形式でリストアップする

読み手はこの動画をまだ見ていない人を想定してください。

【文字起こしテキスト】
ここに文字起こしのテキストを貼り付けてください

実際のやり取り例：会議録音から議事録を作る場面

場面設定：3人での営業会議（30分）を録音し、Whisper Webで文字起こしした。出てきた生テキストをChatGPTに貼り付けて議事録を作る流れの実例です。入力から返答まで、実際にどう見えるかを以下に示します。

【ユーザーの入力（抜粋）】「以下は会議の音声を文字起こしした生のテキストです。議事録に整形してください。（条件は上記プロンプトのとおり）文字起こしテキスト：えーと今日はですね新規の田中商事さんの件なんですけどもあのー先方から見積もりの修正を求められてまして金額的には10パーセントくらい下げてほしいっていう話でそれについてどうするかっていうのを決めたいんですよね…（以下続く）」【ChatGPTの返答（抜粋）】 ■ 決定事項・田中商事への見積もりは10%値引きの方向で検討を進める ■ 議論になった点・値引き幅の原資をどの費目から捻出するか（製造コストか営業費か）が未決定 ■ 次回アクション・担当：山田さん　期日：今週金曜　内容：原価計算を見直し、値引き可能な上限額を確認してSlackで共有 ■ 要確認・【要確認】「先方の決裁者が来週まで不在」という発言があったが、具体的な日程が不明瞭— ChatGPT（GPT-4o）との実際の会話をもとに再現した例

この例のように、話し言葉のまま貼り付けても、ChatGPTは文脈を読んで構造化してくれます。「要確認」フラグも自動で立ててくれるため、後で人間が確認すべき箇所がひと目でわかります。30分の会議音声がこの形に整うまでの所要時間は、文字起こし待ち時間を含めても目安として10〜15分程度です。

よくある失敗と直し方

初めてAI文字起こしを試す人が陥りやすい失敗を3パターン紹介します。それぞれ「なぜ起きるか」の原因と「こう直す」の対策をセットで覚えておくと、試行錯誤の時間が大幅に減ります。

【失敗①】誤変換が多くて修正に時間がかかる｜原因：録音時の環境音やマイクとの距離が遠いことで音質が劣化し、AIが音を正確に拾えていない。｜対策：録音前に30秒だけテスト録音して再生確認する。「部屋の角ではなく中央で録音」「スマホを話者に近づける（目安：50cm以内）」「エアコンの直風が当たる場所を避ける」の3点を事前に整える。
【失敗②】専門用語・社内用語が別の言葉に変換される｜原因：AIの言語モデルは一般語を優先するため、業界固有の単語（例：「アジャイル」が「当然」に変換されるなど）を誤認識しやすい。｜対策：文字起こし後、ChatGPTへのプロンプトに「【専門用語リスト】以下の用語が出てきた場合は必ずこの表記に統一してください：アジャイル、KPI、OMO…」と追記する。数語追加するだけで精度が上がる。
【失敗③】複数人の発言が誰の発言か区別されない｜原因：基本的なWhisperは話者分離（誰が話したかを識別する機能）を持っていない。｜対策：NottaやOtterなど話者分離機能つきのツールに切り替えるか、ChatGPTへのプロンプトに「A・B・Cという3人が交互に話しています。文脈から発言者を推測してラベルを付けてください」と依頼する。完全な正確性は保証できないが、ある程度の整理は可能。

「後で直す」より「前に防ぐ」が10倍速い

誤変換だらけのテキストをあとから手直しするのは、最初から手打ちするのとほぼ同じ時間がかかります。録音品質への30秒の投資が、修正作業の30分を消す。この順番を覚えておくだけで使いこなしのレベルが変わります。

応用：YouTubeやZoom録画を文字起こしする方法

録音ファイルではなく、YouTubeの動画URLやZoomの録画から文字起こしをしたい場合は、Nottaの無料プランが最も手軽です。操作はシンプルで、Nottaのダッシュボード上部にある「URLをインポート」ボックスにYouTubeのURLを貼り付けて「開始」を押すだけです。数分待つと文字起こし結果が表示されます。無料プランは月あたりの利用上限（分数や回数）が設定されていますが、月に数本の動画を処理する程度なら十分まかなえます。ZoomはMP4形式で録画をダウンロードし、それをNottaにアップロードするか、Whisper WebにそのままMP4をアップロードする方法が使えます。MP4はWhisperでも音声トラックを自動で抽出してくれるため、変換作業は不要です。

応用：文字起こしをさらに活用する3つのアイデア

文字起こし済みのテキストはChatGPTやClaudeへの「素材」として、さらに多くの用途に転用できます。一度文字にしてしまえば、あとはプロンプトを変えるだけで別の成果物が生まれるのがAI活用の真骨頂です。以下の3つは実際にすぐ試せる活用例です。

SNS投稿文の生成：動画や講演の文字起こしを貼り付け、「この内容をTwitter（X）向けに140字で3パターン作ってください」と依頼。登壇後のSNS発信が数分で完成する。
FAQ自動生成：顧客対応の音声録音を文字起こしし、「よくある質問とその回答を10問、Q&A形式でまとめてください」と依頼。問い合わせ対応用のFAQページの原稿が一気に揃う。
英語翻訳・多言語展開：日本語の文字起こしテキストを「英語に自然な表現で翻訳してください。敬体は丁寧なビジネス英語で」と依頼。海外向けのレポートや動画字幕の英語版が作れる。

SNS投稿文生成プロンプト（文字起こし後にそのまま使える）

以下はセミナーの音声を文字起こしした内容です。
このセミナーで語られたポイントをもとに、X（旧Twitter）向けの投稿文を3パターン作成してください。

【条件】
・各パターンは140字以内
・冒頭に「鉤（フック）」となる一文を入れ、続きを読みたくなる書き出しにする
・ハッシュタグは1〜2個だけ末尾に追加
・売り込み感は出さず、学びや気づきをシェアするトーンで

【文字起こしテキスト】
ここに文字起こしのテキストを貼り付けてください

「一度の文字起こし→複数の成果物」が時短の本質

1本の録音を文字起こしするのは1回だけ。そのテキストをChatGPTに使い回せば、議事録・要約・SNS投稿・FAQ・翻訳と、用途ごとに別々に作業する必要がなくなります。素材を1つ作ったら、プロンプトを変えて何度でも引き出す習慣を持つと、仕事の効率が変わります。

ChatGPT・Claude・Geminiで整形する場合の違い

文字起こし結果の整形・要約には複数のAIが使えますが、どれを使っても基本的な指示は変わりません。細かい得意不得意はツールや時期によって変動するため断定はしませんが、現時点での一般的な傾向として、ChatGPT（GPT-4o）は指示への忠実さと構造化が安定しており、初心者が迷いにくいです。Claudeはやや自然な文体が得意と評されることが多く、長文の整形に向くとする意見もあります。GeminiはGoogleドキュメントやGoogleドライブとの連携が強みで、Googleのサービスを業務の中心に使っている人にはスムーズに統合できます。いずれも無料プランで基本的な整形は可能です。まず使い慣れているツールから試して、比較するとよいでしょう。

よくある質問

Q1：会議の内容をWhisperにアップロードして、情報が漏れたりしませんか？ Whisper Webのブラウザ完結版（Hugging Faceのデモ）は音声データをサーバーに送らずブラウザ内で処理するため、外部に音声が送出されません。ただし、外部のAPIを経由するラッパーサービスを使う場合はデータがサーバーに送られます。機密性の高い会議録音は、ブラウザ完結版を使うか、自社のオンプレ環境でWhisperを動かすことを検討してください。どのサービスでもプライバシーポリシーを事前に確認する習慣が大切です。 Q2：文字起こしの精度を上げるためにできることは何ですか？最も効果が高いのは「録音品質の改善」です。具体的には、外付けのピンマイクや会議用スピーカーフォン（数千円〜）を使うだけで精度が大きく変わります。次に有効なのは「言語設定の確認」で、ツールの言語設定が「自動検出」になっている場合、短い発話では英語と誤認識されることがあります。必ず「Japanese」を明示指定してください。 Q3：無料プランではどのくらいの長さの音声まで対応できますか？ツールによって上限が異なります。Whisper Web（ブラウザ版）は理論上ファイルサイズの制限はブラウザのメモリ依存で、数十分程度なら問題なく動くことが多いですが、長時間ファイルはPCスペックによって不安定になります。Nottaの無料プランは月あたりの処理時間に上限があります（最新の制限は公式サイトで確認を）。月に数本・1本あたり30〜60分以内の用途であれば、無料プランで十分まかなえるケースがほとんどです。