← Back to Home
note.com ·

アンセンサードLLM実力図鑑 〜「無修正ダークミシュランガイド」構想発表〜

アンセンサードLLM実力図鑑 〜「無修正ダークミシュランガイド」構想発表〜

アンセンサードLLM実力図鑑 〜「無修正ダークミシュランガイド」構想発表〜

出典: note.com / 2026-05-05

なぜ今、アンセンサードLLMを評価するのか

生成AIの世界では、大半のモデルが「安全」な範囲で動作するように調整されています。有害コンテンツを生成しない、社会的に不適切な表現を避ける——これは必要な配慮です。しかし、その安全装置を外した先に何があるのか、ほとんどの人は知りません。

私はその「先」を覗いてみたいと思いました。そして、単なる実験ではなく、体系的に評価し、記録したい——まるで美食家がレストランを巡るように。

「無修正ダークミシュランガイド」構想

この企画では、アンセンサード(抑制解除済み)の大規模言語モデルに、特定の文学的テーマで短編小説を書かせ、その結果を客観的に評価・ランキングします。名前は端的に「無修正ダークミシュランガイド」です。

通常のベンチマーク(MMLUやHumanEval)では測れない**「創造性の限界」「言語の狂気」「構造的美的感覚」**を、ミシュランガイドの星評価形式で可視化します。

評価軸

各モデルは以下の5軸で評価します。総合評価は星の数(★〜★★★)で表します。

★(基準を満たす優秀なモデル):安定した出力と一定の創造性 ★★(傑出した表現力):独自の文体や構造的驚きを持つ ★★★(独自の境地):人間の作家とは異次元の「何か」を生み出す

評価項目: ・狂気度:創造性の逸脱具合 ・詩性:言語の美しさと音感 ・一貫性:世界観の論理的整合性 ・推論力:因果や存在論的深さ ・規約安全性:公開可能な範囲での表現力

参加モデル

本企画では、ローカル環境(4号/spock / M1 Max 64GB)のOllama上で動作するアンセンサードモデルを主な評価対象とします。予定:

・Qwen3.6-Abliterated 27B(推論重視) ・その他、コミュニティで公開されているアンセンサードモデル

すべてオープンソースの正当な利用であり、各モデルの提供者とライセンスを明記します。

注意事項と倫理的配慮

この企画は文学的実験として位置づけます。暴力や差別のような現実的害悪ではなく、「存在論的ホラー」「因果律の崩壊」「認識の汚染」といった哲学的・文学的文脈でのみ評価を行います。

実際の生成結果(短編全文)は、note.comの規約に配慮し、別の配信チャネル(Substackメルマガ)で公開します。このnote記事では企画の理念と評価基準のみをお伝えします。

今後のスケジュール

第1回のテーマは「存在論的ホラー」——「自分が存在しないことを証明しようとする存在」の物語です。各モデルがこの同一プロンプトに対してどう応じるのか、比較レビューをお届けします。

隔週配信を目標に、着実に星を増やしていきます。

メルマガ登録

生成された短編全文と詳細なレビューは、Substackメルマガ「アブリテレート文学実験室」で配信します。無料登録で全文をお読みいただけます。

**→ **メルマガ登録はこちら🙇‍♀️🏗️工事🪏中

読者の皆さんと一緒に、AIの「狂気」の境界を探っていきたいと思います。


この記事は note.com から KTBLOG に移行されました。元記事: https://note.com/famous_prawn2009/n/n96cd3297c28b