アンセンサードLLM実力図鑑〜「無修正ダークミシュランガイド」構想発表〜

出典: note.com / 2026-05-05

なぜ今、アンセンサードLLMを評価するのか

生成AIの世界では、大半のモデルが「安全」な範囲で動作するように調整されています。有害コンテンツを生成しない、社会的に不適切な表現を避ける——これは必要な配慮です。しかし、その安全装置を外した先に何があるのか、ほとんどの人は知りません。

私はその「先」を覗いてみたいと思いました。そして、単なる実験ではなく、体系的に評価し、記録したい——まるで美食家がレストランを巡るように。

この企画では、アンセンサード（抑制解除済み）の大規模言語モデルに、特定の文学的テーマで短編小説を書かせ、その結果を客観的に評価・ランキングします。名前は端的に「無修正ダークミシュランガイド」です。

通常のベンチマーク（MMLUやHumanEval）では測れない**「創造性の限界」「言語の狂気」「構造的美的感覚」**を、ミシュランガイドの星評価形式で可視化します。

各モデルは以下の5軸で評価します。総合評価は星の数（★〜★★★）で表します。

★（基準を満たす優秀なモデル）：安定した出力と一定の創造性 ★★（傑出した表現力）：独自の文体や構造的驚きを持つ ★★★（独自の境地）：人間の作家とは異次元の「何か」を生み出す

評価項目：・狂気度：創造性の逸脱具合・詩性：言語の美しさと音感・一貫性：世界観の論理的整合性・推論力：因果や存在論的深さ・規約安全性：公開可能な範囲での表現力

本企画では、ローカル環境（4号/spock / M1 Max 64GB）のOllama上で動作するアンセンサードモデルを主な評価対象とします。予定：

・Qwen3.6-Abliterated 27B（推論重視）・その他、コミュニティで公開されているアンセンサードモデル

すべてオープンソースの正当な利用であり、各モデルの提供者とライセンスを明記します。

この企画は文学的実験として位置づけます。暴力や差別のような現実的害悪ではなく、「存在論的ホラー」「因果律の崩壊」「認識の汚染」といった哲学的・文学的文脈でのみ評価を行います。

実際の生成結果（短編全文）は、note.comの規約に配慮し、別の配信チャネル（Substackメルマガ）で公開します。このnote記事では企画の理念と評価基準のみをお伝えします。

第1回のテーマは「存在論的ホラー」——「自分が存在しないことを証明しようとする存在」の物語です。各モデルがこの同一プロンプトに対してどう応じるのか、比較レビューをお届けします。

隔週配信を目標に、着実に星を増やしていきます。

生成された短編全文と詳細なレビューは、Substackメルマガ「アブリテレート文学実験室」で配信します。無料登録で全文をお読みいただけます。

**→ **メルマガ登録はこちら🙇‍♀️🏗️工事🪏中

読者の皆さんと一緒に、AIの「狂気」の境界を探っていきたいと思います。

この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n96cd3297c28b