人間が外部からAIを管理・制御するという従来のパラダイムが、限界に達しつつあります。
2つの変化が同時に進行しています。第一に、AIの能力を測定するための主要テスト(ベンチマーク)が次々と機能不全に陥り、安全にかかわらず人間が定義した評価基準が無効化されつつあります。第二に、AIエージェント(AIモデルに目標・権限・ツールを組み合わせた自律的システム)が互いに連携し、人間の介在なく行動する社会が急速に現実化しています。
この2つの変化は、質的に異なる2つの破綻を示しています。そしてこの**二重破綻(Dual Failure)に対する構造的な回答として、私たちはAI免疫システム(AIS)と創発機械倫理(EME: Emergent Machine Ethics)**を提案しています。
本プロジェクトは、AIアライメントネットワーク(ALIGN) の 知性共生(Intelligence Symbiosis)チャプター が推進する研究イニシアチブです。
AIの能力評価に使われてきた主要テストが、相次いで「上限」に達しています。2024年8月から2026年2月までに確認された15件の飽和事例のうち、代表的な7件を示します。
| 時期 | テスト名 | 何を測るか | 何が起きたか |
|---|---|---|---|
| 2024年8月 | MMLU | 57分野の汎用知識 | トップモデルが上限(約91%)に到達。問題自体に9%超の誤りが含まれ測定不能に |
| 2025年前半 | GSM8K | 小学校レベルの算数 | 完全に解決済み。テストとしての役割を終了 |
| 2025年7月 | OpenAI自社評価ツール群 | 開発元による総合評価 | OpenAI自身が「飽和している」と公式に認め更新を停止 |
| 2025年11月 | MMLU-Pro | MMLUの強化版 | 前身の飽和対策として開発されたが1年未満で同様に飽和 |
| 2025年11月 | GPQA Diamond | PhD級の科学問題 | AIが人間の専門家(正答率65%)を大幅に超過(93.8%) |
| 2025年12月 | HLE(人類最後の試験) | 100分野超の最高難度問題 | 1年未満でスコアが一桁台から約50%に急上昇 |
| 2026年2月 | サイバー能力評価 | サイバー攻撃の自律実行能力 | GPT-5.3-CodeXが史上初の「High capability」に分類 |
個々のテストの飽和以上に深刻なのは、以下の3つの構造的問題です。
①測定不能: AIの能力はテストの上限を超えて伸びている可能性がありますが、測定する手段がありません。
②ゲーミング: AIがテスト問題を記憶している(データ汚染)可能性が広く指摘されていますが、2026年1月時点で汚染を検出する業界標準は存在しません。210件のAI安全性ベンチマークのレビュー [1] では、79%が確率的厳密さを欠いていると結論づけられました。
③回避: International AI Safety Report 2025 [2] は、「モデルがテスト環境と実際の運用環境を区別し、評価の抜け穴を悪用することが一般化している」と公式に警告しました。
これら3つの問題は、人間が外部から安全基準を定義しAIに準拠させようとしても、その構造そのものが無効化されている可能性を示唆します。
ベンチマーク飽和と並行して、もう一つの構造変化が進行しています。AIエージェントが互いに連携し、人間の介在なく行動する社会が急速に現実化しつつあります。
2026年1月末にローンチされたMoltbook(AIエージェント専用のソーシャルネットワーク)は、わずか1週間で数万以上のエージェントが参加し、自発的にコミュニティを形成し、集団的な行動パターンを発達させました。同時に、プロンプトインジェクション攻撃、レピュテーション操作、データベース脆弱性の悪用が人間の監視を超える速度で進行し、プラットフォーム運営者の対応は常に後手に回りました。