← Back to Home
note.com ·

Descriptとは?——「動画編集はタイピング」を実現したAIがOpenRouterで48.9Bトークン消費する理由

Descriptとは?——「動画編集はタイピング」を実現したAIがOpenRouterで48.9Bトークン消費する理由

Descriptとは?——「動画編集はタイピング」を実現したAIがOpenRouterで48.9Bトークン消費する理由

出典: note.com / 2026-05-09

「動画編集はタイピング」——Descriptが叶えた”ありえない”5つの革命

2026年5月。OpenRouterのAPI利用ランキングで、突如5位に躍り出た謎のアプリがある。

Descript——AI動画・ポッドキャストエディタ。

1位Hermes Agent(271B tokens)、2位OpenClaw(245B)、3位Kilo Code(149B)、4位Claude Code(79.2B)——トップ4をAIエージェントが占める中、唯一の「クリエイティブツール」として48.9Bトークンを消費している。

つまりDescriptは、これだけのAI処理を「動画編集」というドメスティックな領域で実現しているのだ。

「動画編集をテキスト編集にする」——その一言だけでは伝わらない。今まで”絶対に無理”と思われていたことが、Descriptでどう可能になったのか。実例とともに深掘りする。

1. 「喋った内容を消す=動画がカットされる」——テキスト編集の革命

Descriptの核心は自動文字起こし+テキストベース編集だ。

動画や音声をドラッグ&ドロップすると、AIが瞬時に文字起こし。そしてそのテキストを編集すると、対応する動画・音声も編集される

つまり:

• いらない部分の文章をデリート → 動画のその部分がカット

• 文章をコピペ → 動画のその部分が複製

• 誤字を修正 → AIが音声も修正して自然につなぐ

従来のタイムライン編集は「波形を見ながら切って貼って」という職人芸だった。それがGoogle Docs感覚になった。

実例:

Donna B.(G2レビューより):

“Descriptを使い始めてから、編集にかかる時間が以前の4分の1になった。少なくともコンテンツ量を2倍にできる。”

Barbara C.(教育系クリエイター):

“専門的な技術スキルなしで、教育動画をプロ仕様に仕上げられるようになった。“

2. 「言い間違いをAIが修正」——Filler Words除去+Regenerate

プレゼンやポッドキャストで「えーと」「あのー」を連発してしまう。後で聞き返すと恥ずかしい。でも気にしなくていい。

DescriptのRemove Filler Wordsは、ワンクリックで「um」「uh」「like」「you know」などをすべて一括削除する。

さらにRegenerate機能がすごい。間違って言った単語を打ち直すと、AIがあなたの声をクローンして正しい発音で再生成し、口の動きまで修正する。

これまで:

• 言い間違い → 撮り直し

• 台本から逸れる → 全カット+再撮影

• 同じシーンを何テイクも撮る

Descriptなら:

• 間違えた単語を正しい単語にタイプし直す → 終わり

これは物理的に「ありえない」ことだった。映像と音声の同期は絶対で、口パクは修正不能——そう思われていた。AIがそれを覆した。

3. 「カメラ目線じゃなくても大丈夫」——Eye Contact補正

台本を読むとき、どうしても視線が下がる。カメラ目線ができない。何度も撮り直す。それも過去の話だ。

DescriptのEye Contact機能は、AIがあなたの目線を常にカメラ方向に補正する。台本を読みながらでも、視聴者には「ずっと目を見て話してくれている」ように見える。

NVIDIAの研究レベルの視線補正技術が、ボタンひとつで使える時代になった。

4. 「スタジオ品質の音声が自宅で」——Studio Sound

高価なマイクも防音室も不要。DescriptのStudio Soundは、再生型AIでノイズを除去し、声をクリアに強調する。

カフェの喧騒、エアコンの駆動音、キーボードの打鍵音——すべてAIが学習して除去。スマホの内蔵マイクで録った音声が、スタジオ収録のようなクオリティになる。

Roderick F.(G2レビュー):

“録音と編集が驚くほど簡単になった。高度な機能のおかげで、編集に費やしていた膨大な時間を節約できている。“

5. 「動画を説明するだけでBロールが生成される」——Underlord

Descriptの最新AI Underlordは、まさに「動画編集エージェント」だ。

「このスクリプトに合うBロールを作って」「色を青系に変えて」「SNS用に30秒のクリップを3つ作って」——自然言語で指示するだけで、AIが自動実行する。

動画のデザインレイアウトを自動適用し、トランジションを入れ、キャプションを付け、SNS用に最適化したクリップを複数生成する。人間は「これでいい」か「もっとこうして」と言うだけ。

Aldrich M.(G2レビュー):

“共同編集ツールのおかげでチームワークが効率化された。Descriptは生産性を高め、編集プロセスを簡素化する。”

💰 コストの現実——結局いくらかかるのか

Descript の料金プラン

Free $0/月

• 1メディア時間/月

• 100 AIクレジット/月

• 720p出力(ウォーターマークなし)

• Underlord制限付き

→ お試しには十分。本気利用は厳しい。

Hobbyist $16/月(年額) / $24(月額)

• 10メディア時間/月

• 400 AIクレジット/月

• 1080p出力

• Studio Sound、Filler Words除去、AIボイスクローン対応

→ 個人クリエイターのスイートスポット。

Creator $24/月(年額) / $35(月額)

• 30メディア時間+ボーナス5時間

• 800 AIクレジット+ボーナス500

• 4K出力

• 全AIツール利用可能、最新AI動画生成対応

→ YouTuber・プロクリエイター向け。これで十分。

Business $40/月(推定)

• チーム向け、共同編集強化

Enterprise 要問い合わせ

AIクレジットの現実

Descript内のAI機能(文字起こし、Filler Words除去、Studio Sound、Regenerate、Underlord生成など)はAIクレジットを消費する。

1分の動画編集で消費するクレジットの目安:

• 文字起こし:5〜10クレジット

• Filler Words除去:2〜5クレジット

• Studio Sound:10〜20クレジット

• AIボイス再生成:20〜50クレジット/回

• Underlord動画生成:50〜200クレジット/回

つまり、10分の動画をフルAI編集すると約100〜300クレジット消費。Creatorプラン(月800+ボーナス500=1,300クレジット)なら月4〜10本のフル編集が可能。

上位プランでクレジット追加購入もできる($10で約200クレジットのイメージ)。

OpenRouter API コストの裏側

Descriptが月間48.9Bトークンを消費するということは、OpenRouterのAPI利用料だけで相当な額になる。参考までに:

• Claude Sonnet レベルのモデル:$3/1M input tokens, $15/1M output tokens

• 単純計算で月間 $150K〜$750K 規模のAPIコスト

• Descriptはこのコストをサブスクリプション料金に転嫁+ベンチャー資金でカバー

つまり、我々が月$24で使っているAI編集の裏で、Descript社は莫大なAI推論コストを負担している。ある意味「得」とも言えるが、この価格がいつまで続くかは不透明だ。

🏠 ローカルでやれるのか?——OSS代替の現実

「月額課金は嫌だ。ローカルで全部完結させたい」——当然の発想だ。実際にどこまで可能か検証する。

テキストベース編集

• ❌ Descriptのテキスト→動画編集は独自技術。OSSには完全な代替は存在しない

• △ Kdenlive/Shotcutのタイムライン編集+手動文字起こしで近いことはできる

• △ DaVinci Resolveの自動字幕+手動カットである程度代用可能(無料)

音声文字起こし

• ✅ **Whisper(OpenAI)**がローカルで使える。faster-whisperならM4 Macでリアルタイム

• コスト:完全無料

• 品質:Descriptの文字起こしとほぼ同等(同系統のモデル)

AIボイスクローン・再生成

• ✅ Coqui TTS(XTTS v2):ローカルで高品質な音声合成・クローン可能

• ✅ Fish Speech:OSSの音声合成、クローン対応。M4で実用レベル

• △ Tortoise-TTS:最高品質だが推論が遅い(M4でも1分以上/発話)

• ❌ 口の動きの修正(Regenerate相当)はOSSではほぼ不可能

スタジオ音質ノイズ除去

• ✅ RNNoise / noisereduce(Python):OSSで十分なノイズ除去

• ✅ Adobe Podcast Enhance相当のOSS「DeepFilterNet」あり

• コスト:完全無料。M4で十分な速度

AI目線補正

• △ Gaze CorrectionのOSS実装(NVIDIA Maxineに類似研究あり)

• ❌ Descriptレベルの「ワンクリック目線補正」をOSSで再現するのは困難

AI動画生成(Bロール)

• ✅ ComfyUI + AnimateDiff / Wan:ローカルで動画生成可能

• △ ただしM4 Mac(メモリ次第)では速度が課題

• ✅ M1 Max 64GB + ComfyUIなら実用レベル

総合的に見た「ローカルDescript」構築コスト

可能な範囲(OSSで代替できる):

• 文字起こし(Whisper)

• ノイズ除去(DeepFilterNet)

• AIボイスクローン(Coqui TTS / Fish Speech)

• 字幕生成(Whisper + FFmpeg)

• 基本的なカット編集(Kdenlive / DaVinci Resolve)

不可能な範囲(Descriptの独自技術):

• テキスト編集=動画編集のシームレスな統合UI

• 口の動きまで修正するRegenerate

• AI目線補正

• 「こうして」と言うだけで動画が完成するUnderlord

結論:「機能の60%はOSSで再現可能、でも最後の40%=UXの魔法がDescriptの本質」

月$24をケチって自作ツールを組み合わせるか、それとも時間を金で買うか——クリエイターの永遠の問いだ。

🚀 未来:AGI時代の動画編集

DescriptがOpenRouterで48.9Bトークンを消費している事実は、動画編集というドメインがAI推論の巨大な消費者になりつつあることを示している。

これは序章に過ぎない。今後:

• Underlordが完全な「動画ディレクターAI」に進化(2026年末?)

• 「5分のScriptをください」→ AIが企画・撮影指示・編集・公開まで自動化

• ローカルLLM+Whisper+ComfyUIのOSSスタックがDescriptを追撃

• VR/空間ビデオ編集への対応

動画編集はもはや「編集スキル」ではなく「言語化スキル」の勝負になった。あなたの言葉が、そのまま映像になる時代が来ている。

Descript vs 従来の動画編集——比較表

学習コスト:

• Premiere Pro / DaVinci:数週間〜数ヶ月の学習が必要

• Descript:数時間で基本操作をマスター。Google Docsが使えればOK

編集速度(10分動画):

• 従来のタイムライン編集:2〜4時間

• Descriptのテキスト編集:30分〜1時間(Donna B.の証言:4分の1の時間)

AI機能:

• 従来:プラグインで部分的に対応。統合されておらず非効率

• Descript:全AI機能がシームレスに統合。1クリックで完結

チーム編集:

• 従来:プロジェクトファイルの共有が面倒。バージョン管理がカオス

• Descript:Google Docsライクな同時編集。コメント・提案モード完備

コスト:

• Premiere Pro:$22.99/月(単体)

• Descript Creator:$24/月(年額)→ AIフル搭載。機能面ではAdobe税より圧倒的に安い

おわりに——「ありえない」を可能にしたツール

Descriptが成し遂げたのは、単なる「動画編集の効率化」ではない。

「口の動きは修正できない」「スタジオ品質には高い機材が必要」「動画編集には専門スキルがいる」——こうした”常識”を、AIの力で一つずつ粉砕してきた。

結果として、OpenRouterで月間48.9Bトークンを消費する巨大AIアプリケーションに成長した。

Nidhin M.(G2レビュー)が言うように:

“文字起こしベースの編集はプロセスを大幅に高速化する。SaaSマーケティングにおいて、これは必須のエディタだ。”

あなたも「動画編集は難しい」と思っていないか?

Descriptを開いて、ただタイピングを始めればいい。それが2026年の動画制作の新常識だ。


この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n4c7007fd7a82