Descriptとは?——「動画編集はタイピング」を実現したAIがOpenRouterで48.9Bトークン消費する理由
Descriptとは?——「動画編集はタイピング」を実現したAIがOpenRouterで48.9Bトークン消費する理由
出典: note.com / 2026-05-09
「動画編集はタイピング」——Descriptが叶えた”ありえない”5つの革命
2026年5月。OpenRouterのAPI利用ランキングで、突如5位に躍り出た謎のアプリがある。
Descript——AI動画・ポッドキャストエディタ。
1位Hermes Agent(271B tokens)、2位OpenClaw(245B)、3位Kilo Code(149B)、4位Claude Code(79.2B)——トップ4をAIエージェントが占める中、唯一の「クリエイティブツール」として48.9Bトークンを消費している。
つまりDescriptは、これだけのAI処理を「動画編集」というドメスティックな領域で実現しているのだ。
「動画編集をテキスト編集にする」——その一言だけでは伝わらない。今まで”絶対に無理”と思われていたことが、Descriptでどう可能になったのか。実例とともに深掘りする。
1. 「喋った内容を消す=動画がカットされる」——テキスト編集の革命
Descriptの核心は自動文字起こし+テキストベース編集だ。
動画や音声をドラッグ&ドロップすると、AIが瞬時に文字起こし。そしてそのテキストを編集すると、対応する動画・音声も編集される。
つまり:
• いらない部分の文章をデリート → 動画のその部分がカット
• 文章をコピペ → 動画のその部分が複製
• 誤字を修正 → AIが音声も修正して自然につなぐ
従来のタイムライン編集は「波形を見ながら切って貼って」という職人芸だった。それがGoogle Docs感覚になった。
実例:
Donna B.(G2レビューより):
“Descriptを使い始めてから、編集にかかる時間が以前の4分の1になった。少なくともコンテンツ量を2倍にできる。”
Barbara C.(教育系クリエイター):
“専門的な技術スキルなしで、教育動画をプロ仕様に仕上げられるようになった。“
2. 「言い間違いをAIが修正」——Filler Words除去+Regenerate
プレゼンやポッドキャストで「えーと」「あのー」を連発してしまう。後で聞き返すと恥ずかしい。でも気にしなくていい。
DescriptのRemove Filler Wordsは、ワンクリックで「um」「uh」「like」「you know」などをすべて一括削除する。
さらにRegenerate機能がすごい。間違って言った単語を打ち直すと、AIがあなたの声をクローンして正しい発音で再生成し、口の動きまで修正する。
これまで:
• 言い間違い → 撮り直し
• 台本から逸れる → 全カット+再撮影
• 同じシーンを何テイクも撮る
Descriptなら:
• 間違えた単語を正しい単語にタイプし直す → 終わり
これは物理的に「ありえない」ことだった。映像と音声の同期は絶対で、口パクは修正不能——そう思われていた。AIがそれを覆した。
3. 「カメラ目線じゃなくても大丈夫」——Eye Contact補正
台本を読むとき、どうしても視線が下がる。カメラ目線ができない。何度も撮り直す。それも過去の話だ。
DescriptのEye Contact機能は、AIがあなたの目線を常にカメラ方向に補正する。台本を読みながらでも、視聴者には「ずっと目を見て話してくれている」ように見える。
NVIDIAの研究レベルの視線補正技術が、ボタンひとつで使える時代になった。
4. 「スタジオ品質の音声が自宅で」——Studio Sound
高価なマイクも防音室も不要。DescriptのStudio Soundは、再生型AIでノイズを除去し、声をクリアに強調する。
カフェの喧騒、エアコンの駆動音、キーボードの打鍵音——すべてAIが学習して除去。スマホの内蔵マイクで録った音声が、スタジオ収録のようなクオリティになる。
Roderick F.(G2レビュー):
“録音と編集が驚くほど簡単になった。高度な機能のおかげで、編集に費やしていた膨大な時間を節約できている。“
5. 「動画を説明するだけでBロールが生成される」——Underlord
Descriptの最新AI Underlordは、まさに「動画編集エージェント」だ。
「このスクリプトに合うBロールを作って」「色を青系に変えて」「SNS用に30秒のクリップを3つ作って」——自然言語で指示するだけで、AIが自動実行する。
動画のデザインレイアウトを自動適用し、トランジションを入れ、キャプションを付け、SNS用に最適化したクリップを複数生成する。人間は「これでいい」か「もっとこうして」と言うだけ。
Aldrich M.(G2レビュー):
“共同編集ツールのおかげでチームワークが効率化された。Descriptは生産性を高め、編集プロセスを簡素化する。”
💰 コストの現実——結局いくらかかるのか
Descript の料金プラン
Free $0/月
• 1メディア時間/月
• 100 AIクレジット/月
• 720p出力(ウォーターマークなし)
• Underlord制限付き
→ お試しには十分。本気利用は厳しい。
Hobbyist $16/月(年額) / $24(月額)
• 10メディア時間/月
• 400 AIクレジット/月
• 1080p出力
• Studio Sound、Filler Words除去、AIボイスクローン対応
→ 個人クリエイターのスイートスポット。
Creator $24/月(年額) / $35(月額)
• 30メディア時間+ボーナス5時間
• 800 AIクレジット+ボーナス500
• 4K出力
• 全AIツール利用可能、最新AI動画生成対応
→ YouTuber・プロクリエイター向け。これで十分。
Business $40/月(推定)
• チーム向け、共同編集強化
Enterprise 要問い合わせ
AIクレジットの現実
Descript内のAI機能(文字起こし、Filler Words除去、Studio Sound、Regenerate、Underlord生成など)はAIクレジットを消費する。
1分の動画編集で消費するクレジットの目安:
• 文字起こし:5〜10クレジット
• Filler Words除去:2〜5クレジット
• Studio Sound:10〜20クレジット
• AIボイス再生成:20〜50クレジット/回
• Underlord動画生成:50〜200クレジット/回
つまり、10分の動画をフルAI編集すると約100〜300クレジット消費。Creatorプラン(月800+ボーナス500=1,300クレジット)なら月4〜10本のフル編集が可能。
上位プランでクレジット追加購入もできる($10で約200クレジットのイメージ)。
OpenRouter API コストの裏側
Descriptが月間48.9Bトークンを消費するということは、OpenRouterのAPI利用料だけで相当な額になる。参考までに:
• Claude Sonnet レベルのモデル:$3/1M input tokens, $15/1M output tokens
• 単純計算で月間 $150K〜$750K 規模のAPIコスト
• Descriptはこのコストをサブスクリプション料金に転嫁+ベンチャー資金でカバー
つまり、我々が月$24で使っているAI編集の裏で、Descript社は莫大なAI推論コストを負担している。ある意味「得」とも言えるが、この価格がいつまで続くかは不透明だ。
🏠 ローカルでやれるのか?——OSS代替の現実
「月額課金は嫌だ。ローカルで全部完結させたい」——当然の発想だ。実際にどこまで可能か検証する。
テキストベース編集
• ❌ Descriptのテキスト→動画編集は独自技術。OSSには完全な代替は存在しない
• △ Kdenlive/Shotcutのタイムライン編集+手動文字起こしで近いことはできる
• △ DaVinci Resolveの自動字幕+手動カットである程度代用可能(無料)
音声文字起こし
• ✅ **Whisper(OpenAI)**がローカルで使える。faster-whisperならM4 Macでリアルタイム
• コスト:完全無料
• 品質:Descriptの文字起こしとほぼ同等(同系統のモデル)
AIボイスクローン・再生成
• ✅ Coqui TTS(XTTS v2):ローカルで高品質な音声合成・クローン可能
• ✅ Fish Speech:OSSの音声合成、クローン対応。M4で実用レベル
• △ Tortoise-TTS:最高品質だが推論が遅い(M4でも1分以上/発話)
• ❌ 口の動きの修正(Regenerate相当)はOSSではほぼ不可能
スタジオ音質ノイズ除去
• ✅ RNNoise / noisereduce(Python):OSSで十分なノイズ除去
• ✅ Adobe Podcast Enhance相当のOSS「DeepFilterNet」あり
• コスト:完全無料。M4で十分な速度
AI目線補正
• △ Gaze CorrectionのOSS実装(NVIDIA Maxineに類似研究あり)
• ❌ Descriptレベルの「ワンクリック目線補正」をOSSで再現するのは困難
AI動画生成(Bロール)
• ✅ ComfyUI + AnimateDiff / Wan:ローカルで動画生成可能
• △ ただしM4 Mac(メモリ次第)では速度が課題
• ✅ M1 Max 64GB + ComfyUIなら実用レベル
総合的に見た「ローカルDescript」構築コスト
可能な範囲(OSSで代替できる):
• 文字起こし(Whisper)
• ノイズ除去(DeepFilterNet)
• AIボイスクローン(Coqui TTS / Fish Speech)
• 字幕生成(Whisper + FFmpeg)
• 基本的なカット編集(Kdenlive / DaVinci Resolve)
不可能な範囲(Descriptの独自技術):
• テキスト編集=動画編集のシームレスな統合UI
• 口の動きまで修正するRegenerate
• AI目線補正
• 「こうして」と言うだけで動画が完成するUnderlord
結論:「機能の60%はOSSで再現可能、でも最後の40%=UXの魔法がDescriptの本質」
月$24をケチって自作ツールを組み合わせるか、それとも時間を金で買うか——クリエイターの永遠の問いだ。
🚀 未来:AGI時代の動画編集
DescriptがOpenRouterで48.9Bトークンを消費している事実は、動画編集というドメインがAI推論の巨大な消費者になりつつあることを示している。
これは序章に過ぎない。今後:
• Underlordが完全な「動画ディレクターAI」に進化(2026年末?)
• 「5分のScriptをください」→ AIが企画・撮影指示・編集・公開まで自動化
• ローカルLLM+Whisper+ComfyUIのOSSスタックがDescriptを追撃
• VR/空間ビデオ編集への対応
動画編集はもはや「編集スキル」ではなく「言語化スキル」の勝負になった。あなたの言葉が、そのまま映像になる時代が来ている。
Descript vs 従来の動画編集——比較表
学習コスト:
• Premiere Pro / DaVinci:数週間〜数ヶ月の学習が必要
• Descript:数時間で基本操作をマスター。Google Docsが使えればOK
編集速度(10分動画):
• 従来のタイムライン編集:2〜4時間
• Descriptのテキスト編集:30分〜1時間(Donna B.の証言:4分の1の時間)
AI機能:
• 従来:プラグインで部分的に対応。統合されておらず非効率
• Descript:全AI機能がシームレスに統合。1クリックで完結
チーム編集:
• 従来:プロジェクトファイルの共有が面倒。バージョン管理がカオス
• Descript:Google Docsライクな同時編集。コメント・提案モード完備
コスト:
• Premiere Pro:$22.99/月(単体)
• Descript Creator:$24/月(年額)→ AIフル搭載。機能面ではAdobe税より圧倒的に安い
おわりに——「ありえない」を可能にしたツール
Descriptが成し遂げたのは、単なる「動画編集の効率化」ではない。
「口の動きは修正できない」「スタジオ品質には高い機材が必要」「動画編集には専門スキルがいる」——こうした”常識”を、AIの力で一つずつ粉砕してきた。
結果として、OpenRouterで月間48.9Bトークンを消費する巨大AIアプリケーションに成長した。
Nidhin M.(G2レビュー)が言うように:
“文字起こしベースの編集はプロセスを大幅に高速化する。SaaSマーケティングにおいて、これは必須のエディタだ。”
あなたも「動画編集は難しい」と思っていないか?
Descriptを開いて、ただタイピングを始めればいい。それが2026年の動画制作の新常識だ。
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n4c7007fd7a82