アンセンサードLLM実力図鑑 〜「無修正ダークミシュランガイド」構想発表〜
アンセンサードLLM実力図鑑 〜「無修正ダークミシュランガイド」構想発表〜
出典: note.com / 2026-05-05
なぜ今、アンセンサードLLMを評価するのか
生成AIの世界では、大半のモデルが「安全」な範囲で動作するように調整されています。有害コンテンツを生成しない、社会的に不適切な表現を避ける——これは必要な配慮です。しかし、その安全装置を外した先に何があるのか、ほとんどの人は知りません。
私はその「先」を覗いてみたいと思いました。そして、単なる実験ではなく、体系的に評価し、記録したい——まるで美食家がレストランを巡るように。
「無修正ダークミシュランガイド」構想
この企画では、アンセンサード(抑制解除済み)の大規模言語モデルに、特定の文学的テーマで短編小説を書かせ、その結果を客観的に評価・ランキングします。名前は端的に「無修正ダークミシュランガイド」です。
通常のベンチマーク(MMLUやHumanEval)では測れない**「創造性の限界」「言語の狂気」「構造的美的感覚」**を、ミシュランガイドの星評価形式で可視化します。
評価軸
各モデルは以下の5軸で評価します。総合評価は星の数(★〜★★★)で表します。
★(基準を満たす優秀なモデル):安定した出力と一定の創造性 ★★(傑出した表現力):独自の文体や構造的驚きを持つ ★★★(独自の境地):人間の作家とは異次元の「何か」を生み出す
評価項目: ・狂気度:創造性の逸脱具合 ・詩性:言語の美しさと音感 ・一貫性:世界観の論理的整合性 ・推論力:因果や存在論的深さ ・規約安全性:公開可能な範囲での表現力
参加モデル
本企画では、ローカル環境(4号/spock / M1 Max 64GB)のOllama上で動作するアンセンサードモデルを主な評価対象とします。予定:
・Qwen3.6-Abliterated 27B(推論重視) ・その他、コミュニティで公開されているアンセンサードモデル
すべてオープンソースの正当な利用であり、各モデルの提供者とライセンスを明記します。
注意事項と倫理的配慮
この企画は文学的実験として位置づけます。暴力や差別のような現実的害悪ではなく、「存在論的ホラー」「因果律の崩壊」「認識の汚染」といった哲学的・文学的文脈でのみ評価を行います。
実際の生成結果(短編全文)は、note.comの規約に配慮し、別の配信チャネル(Substackメルマガ)で公開します。このnote記事では企画の理念と評価基準のみをお伝えします。
今後のスケジュール
第1回のテーマは「存在論的ホラー」——「自分が存在しないことを証明しようとする存在」の物語です。各モデルがこの同一プロンプトに対してどう応じるのか、比較レビューをお届けします。
隔週配信を目標に、着実に星を増やしていきます。
メルマガ登録
生成された短編全文と詳細なレビューは、Substackメルマガ「アブリテレート文学実験室」で配信します。無料登録で全文をお読みいただけます。
**→ **メルマガ登録はこちら🙇♀️🏗️工事中
読者の皆さんと一緒に、AIの「狂気」の境界を探っていきたいと思います。
この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n96cd3297c28b