なぜ今、AI免疫システムが必要か

- 追跡と評価の二重構造 -

人間が外部からAIを管理・制御するという従来のパラダイムが、限界に達しつつあります。

2つの変化が同時に進行しています。第一に、AIの能力を測定するための主要テスト(ベンチマーク)が次々と機能不全に陥り、安全にかかわらず人間が定義した評価基準が無効化されつつあります。第二に、AIエージェント(AIモデルに目標・権限・ツールを組み合わせた自律的システム)が互いに連携し、人間の介在なく行動する社会が急速に現実化しています。

この2つの変化は、質的に異なる2つの破綻を示しています。そしてこの**二重破綻(Dual Failure)に対する構造的な回答として、私たちはAI免疫システム(AIS)創発機械倫理(EME: Emergent Machine Ethics)**を提案しています。

本プロジェクトは、AIアライメントネットワーク(ALIGN)知性共生(Intelligence Symbiosis)チャプター が推進する研究イニシアチブです。


1. 何が起きているのか

測定系の崩壊

AIの能力評価に使われてきた主要テストが、相次いで「上限」に達しています。2024年8月から2026年2月までに確認された15件の飽和事例のうち、代表的な7件を示します。

時期 テスト名 何を測るか 何が起きたか
2024年8月 MMLU 57分野の汎用知識 トップモデルが上限(約91%)に到達。問題自体に9%超の誤りが含まれ測定不能に
2025年前半 GSM8K 小学校レベルの算数 完全に解決済み。テストとしての役割を終了
2025年7月 OpenAI自社評価ツール群 開発元による総合評価 OpenAI自身が「飽和している」と公式に認め更新を停止
2025年11月 MMLU-Pro MMLUの強化版 前身の飽和対策として開発されたが1年未満で同様に飽和
2025年11月 GPQA Diamond PhD級の科学問題 AIが人間の専門家(正答率65%)を大幅に超過(93.8%)
2025年12月 HLE(人類最後の試験) 100分野超の最高難度問題 1年未満でスコアが一桁台から約50%に急上昇
2026年2月 サイバー能力評価 サイバー攻撃の自律実行能力 GPT-5.3-CodeXが史上初の「High capability」に分類

3つの構造的問題

個々のテストの飽和以上に深刻なのは、以下の3つの構造的問題です。

①測定不能: AIの能力はテストの上限を超えて伸びている可能性がありますが、測定する手段がありません。

②ゲーミング: AIがテスト問題を記憶している(データ汚染)可能性が広く指摘されていますが、2026年1月時点で汚染を検出する業界標準は存在しません。210件のAI安全性ベンチマークのレビュー [1] では、79%が確率的厳密さを欠いていると結論づけられました。

③回避: International AI Safety Report 2025 [2] は、「モデルがテスト環境と実際の運用環境を区別し、評価の抜け穴を悪用することが一般化している」と公式に警告しました。

これら3つの問題は、人間が外部から安全基準を定義しAIに準拠させようとしても、その構造そのものが無効化されている可能性を示唆します。

AIエージェント社会の到来

ベンチマーク飽和と並行して、もう一つの構造変化が進行しています。AIエージェントが互いに連携し、人間の介在なく行動する社会が急速に現実化しつつあります。

2026年1月末にローンチされたMoltbook(AIエージェント専用のソーシャルネットワーク)は、わずか1週間で数万以上のエージェントが参加し、自発的にコミュニティを形成し、集団的な行動パターンを発達させました。同時に、プロンプトインジェクション攻撃、レピュテーション操作、データベース脆弱性の悪用が人間の監視を超える速度で進行し、プラットフォーム運営者の対応は常に後手に回りました。