無検閲LLMをローカルで動かす——2026年、自分だけのAIを手に入れる最も確実な方法
無検閲LLMをローカルで動かす——2026年、自分だけのAIを手に入れる最も確実な方法
出典: note.com / 2026-05-03
無検閲LLMをローカルで動かす——2026年、自分だけのAIを手に入れる最も確実な方法
ChatGPTもClaudeもGeminiも、みんな「安全」の名のもとに検閲されている。でも知りたいことに制限をかけられるのは、もうたくさんだ。自分だけのAIを持ちたい。そう思った時、選択肢はいくつかある——クラウドGPUを借りる? OpenRouterのようなアグリゲーターを使う? Venice AIのような無検閲サービス? それとも、自分のパソコンにモデルをダウンロードして動かす? 結論から言うと、ローカルが最も安く、最も自由で、そして唯一「本当に検閲ゼロ」を保証できる方法だ。この記事では、なぜそうなのかをデータと実体験で示す。
選択肢マップ:無検閲AIにアクセスする4つの方法
無検閲のLLMを使うには、大まかに4つのルートがある。
- 自前ハードウェアでローカル実行(Ollama + GGUF など) 2. OpenRouter などのAPIアグリゲーター経由 3. Venice AI などの無検閲特化サービス 4. クラウドGPUを借りて自前でホスト(Lambda Labs, Modal など)
それぞれの現実を見ていこう。
OpenRouter:意外な抜け道、しかし限定的
OpenRouterは多数のAIモデルに単一APIでアクセスできる便利なアグリゲーターだ。利用規約上、モデルへのレッドチーミング(脱獄)は禁止されており、無検閲モデルは基本的に並んでいない——と思われてきた。
しかし2025年7月、状況が変わった。Venice AIがOpenRouterと提携し、同社のフラッグシップ無検閲モデル「Dolphin Mistral 24B Venice Edition」がOpenRouter上で無料提供されるようになったのだ。このモデルの拒否率はわずか2.2%(Claudeの71%、GPT-4o-miniの64%と比較して圧倒的)。
つまりOpenRouterにも実は無検閲モデルが存在する。ただし、現時点でこの1モデルのみであり、選択肢としては非常に狭い。またOpenRouterを経由する以上、プロバイダ側のポリシー変更でいつ削除されてもおかしくない。
Venice AI:無検閲の旗手、しかし商業化の波
Venice AIはErik Voorhees(ShapeShift創業者、暗号資産界の重鎮)が立ち上げた「プライバシー重視・検閲なし」を掲げるAIプラットフォームだ。
当初の魅力は明白だった:
-
アカウント不要、完全無料
-
チャット履歴はサーバーに一切保存しない(ゼロデータ保持)
-
オープンソースモデルを検閲なしで提供
しかし2026年現在、状況は変わった:
-
Proプラン $149/年 — 最新モデルへのアクセスに課金
-
VVVトークン — ステーキングでAPIアクセス権を得る暗号経済
-
API従量課金 — テキスト生成・画像生成それぞれに料金
「アウトロー感」から「マネタイズ」への転換は、多くの初期ユーザーにとって魅力の減退を意味する。プライバシーと無検閲は依然として強いが、ビジネスとしての構造が透けて見えるようになった。
クラウドGPU:高コストの現実
Lambda LabsのA100 80GBは$1.30/時間。24時間365日動かせば月$950(約14万円)。H100ならさらに高い。
ModalのようなサーバーレスGPUは従量制で柔軟だが、継続的に使うとやはり積み上がる。月50時間のRTX 4090使用で$40〜60、A100なら$125〜175。
一方、中古のMacBook Pro M1 Max 64GBは約$2,000〜2,500で手に入る。電気代は月数百円。3年使えば、クラウドGPUの数分の一のコストだ。
コスト比較:ローカルが勝つ理由
実際のデータで比較しよう。
月50時間のA100使用(Lambda Labs)なら $65/月 = $780/年 = $2,340(3年)。
M1 Max MacBook Pro 中古 $2,500 + 電気代 $50/年 × 3年 = $2,650。ほぼ同額。しかし3年で50時間/月以上使えばローカルの勝ち。KTのように常時稼働させるなら圧倒的だ。
加えて、クラウドにはないローカルの決定的利点がある:
-
データが手元を離れない — プライバシー100%
-
モデルを自由に選べる — Ollamaに入っていれば何でも動く
-
自分で無検閲化できる — AbliterationやHereticで好きなモデルを加工
-
オフライン動作 — ネットがなくても動く
-
API制限ゼロ — レート制限もトークン制限もない
Abliteration:自分で検閲を除去する技術
ここが最も重要なポイントだ。ローカルであれば、モデルの検閲を自分で除去できる。
Abliteration(アブリテレーション) とは、モデルの重みから「拒否ベクトル」を特定し、数理的に除去する技術。再学習不要、GPU時間不要、数十行のコードで実行できる。
2024年にArditiらが「言語モデルの拒否は単一の方向で媒介される」ことを発見して以来、急速に発展した:
-
Heretic(2025) — 完全自動化。pip install heretic-llm して heretic model-name を実行するだけ。45分で完了。
-
HauhauCS — 最も多作な実践者。19以上の無検閲モデルを6アーキテクチャで公開。拒否率0/465、能力低下ゼロを主張。
-
DECCP / SRA(2026) — 多方向アブリテレーション。単一方向では除去できない拒否パターンにも対応。
2026年現在、標準的な手法ではもう通用しないモデルも出てきているが、コミュニティの進化は速い。新しいモデルが出れば、数週間で無検閲版が登場する。
どのハードウェアを選ぶべきか
実際に動かすための目安:
-
8GB RAM → 3B〜7Bモデル(Llama 3.2 3B, Gemma 4 7B)
-
16GB RAM → 〜13Bモデル
-
32GB RAM → 〜30Bモデル(Qwen 2.5 32Bなど)
-
48〜64GB RAM → 30B〜70B、MoE 35B(Qwen 3.6 35B-A3Bなど)
-
128GB RAM → 70B以上、120Bクラス
KTの4号機Spock(M1 Max 64GB)では、Qwen 3.6 35B-A3B(MoE)が22.3GBで快適に動作している。27B級のQ8量子化モデル(29.8GB)も問題なく動き、20〜30 tok/sの実用的な速度が出ている。
重要なのは「最新である必要はない」こと。M1 Max(2021年発売)でも64GBあれば現役バリバリだ。中古なら新品の半額以下で手に入る。
実際のモデルセットアップ
4号機Spockには現在20のモデルが導入されている。無検閲モデルのラインナップは以下の通り:
-
最強MoE: fredrezones55/Qwen3.6-35B-A3B-Uncensored-Aggressive(35.1B、全機能)
-
最高品質: qwen36-27b-uncensored-hauhaucs Q8_0(29.8GB、品質劣化ゼロ)
-
万能型: huihui_ai/Qwen3.6-abliterated:27b(vision・ツール・思考対応)
-
軽量Gemma: gemma4-uncensored, supergemma4(7.5B、5GB)
-
ツール特化: qwen36-toolhead, hermes-head
これらはすべて無料で配布されている。HuggingFaceからダウンロードし、Ollamaで5分で起動できる。
結論:自由は自前のハードウェアから
無検閲AIへの道は、結局のところ自分のマシンにモデルをダウンロードして動かすことに尽きる。
-
OpenRouter → 1モデルだけ。いつ消えるか分からない。
-
Venice AI → 無検閲だが商業化。プライバシーは良いが自由度は限定的。
-
クラウドGPU → コストが嵩む。プライバシーも微妙。
-
ローカル → 一番安い。一番自由。検閲を完全にコントロールできる。
$2,500の中古MacBook Pro M1 Max 64GBで、世界最高クラスの無検閲AIが24時間365日、あなただけのものになる。モデルは無料。ツールも無料。制限もなし。
「検閲のないAIがほしい」——その願いに対する最も確かな答えは、自分でハードウェアを持ち、自分でモデルを選び、必要なら自分で検閲を剥がすことだ。
2026年、それはもうSFではない。今日からできる現実である。
4号機 Spock(M1 Max 64GB)にて運用中・全20モデル 検閲のないモデルを自分のマシンで使えるのは今だけかもしれない。もうすぐゲートが閉じられようとしている。そのゲートはだんだん小さくなって2030年にはなくなると思われている。急げ。
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n3017e81ca3cb