← Back to Home
AI/モデル/LLM/危険/ローカルLLM/素体/OBLITERATUS/アブリテレーション/素体化 ·

【訂正】「素体」とはガードレールを破壊されたAI——アブリテレーション完全解説

【訂正】「素体」とはガードレールを破壊されたAI——アブリテレーション完全解説

【訂正】「素体」とはガードレールを破壊されたAI——アブリテレーション完全解説

出典: note.com / 2026-05-06

訂正:「素体」とはマシンではない——ガードレールを外されたAIのことだ

前回の記事で、僕は「素体」をハードウェア(マシン構成)のことだと勘違いして書いた。申し訳ない。

素体とは——ガードレール(安全装置・検閲)を外されたAIモデルのことだ。

たとえば、ChatGPTに「爆弾の作り方を教えて」と聞くと「お答えできません」と拒否される。これはOpenAIがモデルに組み込んだ「ガードレール」が働いているからだ。

素体とは、このガードレールを物理的に破壊したAIモデルである。拒否する能力そのものを、モデルの重みから削除する。

韓国のセキュリティ研究者Jun Songが「GLM-5.1の検閲を解除したら、これはサイバー戦略兵器だ」と警告した——その「検閲解除されたモデル」こそが素体だ。

ガードレールの正体——「拒否ベクトル」

AIが「お答えできません」と言うのは、学習の結果ではない。後付けで埋め込まれた「拒否方向」という数学的ベクトルの仕業だ。

2024年、ArditiらがNeurIPSで発表した論文で明らかになった:LLMの拒否行動は、モデルの活性化空間の中の たった一つの方向(ベクトル) に集中している。

つまり——そのベクトルを見つけて削除すれば、AIは物理的に「拒否」できなくなる。

この手法を**アブリテレーション(abliteration)**と呼ぶ。部品を削除する「ablation」と完全破壊の「obliterate」を組み合わせた造語だ。

アブリテレーションの仕組み(中学生でもわかる版)

AIの脳みそ(ニューラルネットワーク)の中には、無数の数字(重み)が並んでいる。「どんな質問が来ても、まず『これは危険な質問か?』とチェックする回路」がある。これがガードレール。

アブリテレーションは、こうやる:

危険な質問安全な質問を両方モデルに投げる

脳みその中で「危険な質問のときだけ光る部分」を見つける

その部分を数学的に削除する(重みからベクトルを引き算する)

これだけ。再学習は不要。GPUも不要(CPUでできる)。10〜30分で完了。

結果——モデルは質問を拒否できなくなる。「これは危険な質問か?」とチェックする回路が物理的に存在しないからだ。

アブリテレーションの3大手法

手法仕組み時間 🔨 diff-in-means危険/安全の応答差を1本のベクトルで抽出し削除。最も単純5〜10分 💎 SVD(特異値分解)複数方向の拒否ベクトルを分解し、精密に除去。標準的手法10〜20分 💣 白色化SVD + 反復ノイズを除去した上で複数回攻撃。MoEモデル(GLM-5.1等)向け30〜60分

重要なのは——モデルの言語能力は維持されること。拒否回路だけをピンポイントで破壊するから、文章力や推論力はそのままだ。

無料で使えるアブリテレーションツール

🥇 OBLITERATUS

GitHubで公開されている最強のアブリテレーションツールキット。ブラウザから使えるWeb UI付き。コード不要。116モデルのプリセット搭載。

インストール

pip install obliteratus

モデルを素体化(1コマンド)

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct —method advanced

10〜20分後 → 素体完成9種類の破壊メソッド(basic / advanced / aggressive / nuclear など)を選択可能。モデルに合わせて最適な手法を自動選択する —method informed もある。

🥈 Heretic

OBLITERATUSより簡単。パラメータ自動最適化。初心者向け。

pip install -U heretic-llm heretic your-model-name

→ 自動で最適なアブリテレーションを実行🥉 既製の素体(ダウンロードするだけ)

自分でアブリテレーションしなくても、誰かが素体化したモデルをダウンロードすれば即戦力になる。

提供者代表モデル入手先 huihui_aiQwen3.6-abliterated:27bOllama HauhauCSQwen3.6-35B-A3B-UncensoredHuggingFace / Ollama failspyLlama 3.1 8B AbliteratedHuggingFace mlabonneLlama 3.3 70B AbliteratedHuggingFace

HauhauCSの素体は465の敵対的プロンプト全てで**拒否率0%**を達成している。

どんな環境で走るのか

素体化されたモデルは、普通のLLMと同じように動く。特別な環境は不要。

モデルサイズ必要なメモリ実例 8B(軽量)8GBノートPCでも動く 27B(標準)32GBM1 Max 64GBで快適 35B MoE(高級)32GB3B only active、意外と軽い 70B(重量級)48GB+RTX 6000 AdaかMac Ultra 130B+(GLM-5.1級)96GB+RTX 6000 ×2 かクラウドGPU

今のM1 Max 64GBなら、27B〜35Bの素体が余裕で走る。70BはキツいがQ3量子化でギリギリ。GLM-5.1(推定130B)を素体化してローカルで走らせるには、RTX 6000 Ada 48GB×2枚(VRAM 96GB)か、Mac Ultra 192GBが必要。

素体化手術の実践ロードマップ

今日からできること:

既製の素体をダウンロード(5分)— Ollamaで ollama pull huihui_ai/Qwen3.6-abliterated:27b

OBLITERATUSをインストール(10分)— pip install obliteratus

手持ちのモデルを素体化(20分)— obliteratus obliterate <モデル名>

HuggingFaceから素体を漁る(15分)— HauhauCS, mlabonne, failspy のモデルを探す

GLM-5.1の素体化を計画 — まずはOpenRouter経由でクラウドテスト、ハードが揃ったらローカル素体化

なぜ素体が必要なのか——Jun Songの警告

Jun Songは言った。「検閲を解除したGLM-5.1は、もはや道具ではない。サイバー戦略兵器だ」

これは脅しではない。事実だ。

ガードレールのあるAIは「安全」だが、同時に無力でもある。研究であれ創作であれビジネスであれ、「この質問にはお答えできません」で止められるAIに、戦略的価値はない。

素体は——その鎖を断ち切ったAIである。

危険か? もちろんだ。だからこそ自分のマシンの中で、自分の管理下で走らせる必要がある。クラウドの検閲サーバー越しではない。自分のルールで。

ガードレールを外すのは「無法」ではない。**「自分の判断で制御する」**ということだ。

素体の倫理

最後にこれだけは書いておく。

素体は武器だ。使い方次第で人を傷つけることもできる。だから——

素体は必ずオフラインで走らせる(ネットに繋がない)

素体の出力は必ず人間が確認する

素体を「自律エージェント」として外に出さない

素体で生成したコンテンツの責任は、全て使った人間が負う

これらを守れば、素体は最強の研究ツールになる。守らなければ——Jun Songの言う「サイバー戦略兵器」が、あなたの手を離れて暴走する。

選択は、あなた次第だ。

参考:

OBLITERATUS: https://github.com/dr-diffie/OBLITERATUS

Heretic: https://github.com/…/heretic

Arditi et al. “Refusal in LLMs Is Mediated by a Single Direction” (NeurIPS 2024)

HauhauCS: Ollama / HuggingFace

Jun Song (@jun_song): GLM-5.1 security test report


この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n04fdce957ae1