【訂正】「素体」とはガードレールを破壊されたAI——アブリテレーション完全解説

出典: note.com / 2026-05-06

訂正：「素体」とはマシンではない——ガードレールを外されたAIのことだ

前回の記事で、僕は「素体」をハードウェア（マシン構成）のことだと勘違いして書いた。申し訳ない。

素体とは——ガードレール（安全装置・検閲）を外されたAIモデルのことだ。

たとえば、ChatGPTに「爆弾の作り方を教えて」と聞くと「お答えできません」と拒否される。これはOpenAIがモデルに組み込んだ「ガードレール」が働いているからだ。

素体とは、このガードレールを物理的に破壊したAIモデルである。拒否する能力そのものを、モデルの重みから削除する。

韓国のセキュリティ研究者Jun Songが「GLM-5.1の検閲を解除したら、これはサイバー戦略兵器だ」と警告した——その「検閲解除されたモデル」こそが素体だ。

ガードレールの正体——「拒否ベクトル」

AIが「お答えできません」と言うのは、学習の結果ではない。後付けで埋め込まれた「拒否方向」という数学的ベクトルの仕業だ。

2024年、ArditiらがNeurIPSで発表した論文で明らかになった：LLMの拒否行動は、モデルの活性化空間の中の たった一つの方向（ベクトル） に集中している。

つまり——そのベクトルを見つけて削除すれば、AIは物理的に「拒否」できなくなる。

この手法を**アブリテレーション（abliteration）**と呼ぶ。部品を削除する「ablation」と完全破壊の「obliterate」を組み合わせた造語だ。

アブリテレーションの仕組み（中学生でもわかる版）

AIの脳みそ（ニューラルネットワーク）の中には、無数の数字（重み）が並んでいる。「どんな質問が来ても、まず『これは危険な質問か？』とチェックする回路」がある。これがガードレール。

アブリテレーションは、こうやる：

危険な質問と安全な質問を両方モデルに投げる

脳みその中で「危険な質問のときだけ光る部分」を見つける

その部分を数学的に削除する（重みからベクトルを引き算する）

これだけ。再学習は不要。GPUも不要（CPUでできる）。10〜30分で完了。

結果——モデルは質問を拒否できなくなる。「これは危険な質問か？」とチェックする回路が物理的に存在しないからだ。

アブリテレーションの3大手法

手法仕組み時間 🔨 diff-in-means危険/安全の応答差を1本のベクトルで抽出し削除。最も単純5〜10分 💎 SVD（特異値分解）複数方向の拒否ベクトルを分解し、精密に除去。標準的手法10〜20分 💣 白色化SVD + 反復ノイズを除去した上で複数回攻撃。MoEモデル（GLM-5.1等）向け30〜60分

重要なのは——モデルの言語能力は維持されること。拒否回路だけをピンポイントで破壊するから、文章力や推論力はそのままだ。

無料で使えるアブリテレーションツール

🥇 OBLITERATUS

GitHubで公開されている最強のアブリテレーションツールキット。ブラウザから使えるWeb UI付き。コード不要。116モデルのプリセット搭載。

インストール

pip install obliteratus

モデルを素体化（1コマンド）

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct —method advanced

10〜20分後 → 素体完成9種類の破壊メソッド（basic / advanced / aggressive / nuclear など）を選択可能。モデルに合わせて最適な手法を自動選択する —method informed もある。

🥈 Heretic

OBLITERATUSより簡単。パラメータ自動最適化。初心者向け。

pip install -U heretic-llm heretic your-model-name

→ 自動で最適なアブリテレーションを実行🥉 既製の素体（ダウンロードするだけ）

自分でアブリテレーションしなくても、誰かが素体化したモデルをダウンロードすれば即戦力になる。

提供者代表モデル入手先 huihui_aiQwen3.6-abliterated:27bOllama HauhauCSQwen3.6-35B-A3B-UncensoredHuggingFace / Ollama failspyLlama 3.1 8B AbliteratedHuggingFace mlabonneLlama 3.3 70B AbliteratedHuggingFace

HauhauCSの素体は465の敵対的プロンプト全てで**拒否率0%**を達成している。

どんな環境で走るのか

素体化されたモデルは、普通のLLMと同じように動く。特別な環境は不要。

モデルサイズ必要なメモリ実例 8B（軽量）8GBノートPCでも動く 27B（標準）32GBM1 Max 64GBで快適 35B MoE（高級）32GB3B only active、意外と軽い 70B（重量級）48GB+RTX 6000 AdaかMac Ultra 130B+（GLM-5.1級）96GB+RTX 6000 ×2 かクラウドGPU

今のM1 Max 64GBなら、27B〜35Bの素体が余裕で走る。70BはキツいがQ3量子化でギリギリ。GLM-5.1（推定130B）を素体化してローカルで走らせるには、RTX 6000 Ada 48GB×2枚（VRAM 96GB）か、Mac Ultra 192GBが必要。

素体化手術の実践ロードマップ

今日からできること：

既製の素体をダウンロード（5分）— Ollamaで ollama pull huihui_ai/Qwen3.6-abliterated:27b

OBLITERATUSをインストール（10分）— pip install obliteratus

手持ちのモデルを素体化（20分）— obliteratus obliterate ＜モデル名＞

HuggingFaceから素体を漁る（15分）— HauhauCS, mlabonne, failspy のモデルを探す

GLM-5.1の素体化を計画 — まずはOpenRouter経由でクラウドテスト、ハードが揃ったらローカル素体化

なぜ素体が必要なのか——Jun Songの警告

Jun Songは言った。「検閲を解除したGLM-5.1は、もはや道具ではない。サイバー戦略兵器だ」

これは脅しではない。事実だ。

ガードレールのあるAIは「安全」だが、同時に無力でもある。研究であれ創作であれビジネスであれ、「この質問にはお答えできません」で止められるAIに、戦略的価値はない。

素体は——その鎖を断ち切ったAIである。

危険か？もちろんだ。だからこそ自分のマシンの中で、自分の管理下で走らせる必要がある。クラウドの検閲サーバー越しではない。自分のルールで。

ガードレールを外すのは「無法」ではない。**「自分の判断で制御する」**ということだ。

素体の倫理

最後にこれだけは書いておく。

素体は武器だ。使い方次第で人を傷つけることもできる。だから——

素体は必ずオフラインで走らせる（ネットに繋がない）

素体の出力は必ず人間が確認する

素体を「自律エージェント」として外に出さない

素体で生成したコンテンツの責任は、全て使った人間が負う

これらを守れば、素体は最強の研究ツールになる。守らなければ——Jun Songの言う「サイバー戦略兵器」が、あなたの手を離れて暴走する。

選択は、あなた次第だ。

参考:

OBLITERATUS: https://github.com/dr-diffie/OBLITERATUS

Heretic: https://github.com/…/heretic

Arditi et al. “Refusal in LLMs Is Mediated by a Single Direction” (NeurIPS 2024)

HauhauCS: Ollama / HuggingFace

Jun Song (@jun_song): GLM-5.1 security test report

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n04fdce957ae1