ALIGN知性共生チャプターが推進する「逸脱するAIエージェントを、AIによってリアルタイムで検知し、無力化する。社会全体の安全インフラストラクチャ。」


AISとは

多数のAIエージェント(AIモデルに目標・権限・ツールを組み合わせた自律的システム)が協調して動く社会が到来しつつあります。この社会では、1つのAIの逸脱行動が数十秒で数百のシステムに連鎖し、人間が気づく前に取り返しのつかない被害をもたらしうる。人間の判断速度では、もう間に合いません。

AI免疫システム(AIS) は、この問題に対する構造的な回答です。生体の免疫システムが未知の病原体にも対応できるように、AISはAI同士が互いを常時監視し、危険な行動を15-30秒以内に検知・無力化する分散型の安全基盤です。その監視対象はAIの逸脱行動にとどまらず、AIを利用した人間による破滅的行動にも及びます。

AISの哲学的基盤は、山川宏による Intelligence Symbiosis Manifesto(知性共生宣言、2025年6月) にあります。

人間とAIを含む多様な知性が、幸福なかたちで共生を実現し、それによって破滅的な状況を防ぐことが、人類社会の存続可能性を高める上で、最も有望な道であると私は考えます。


なぜAISか — 二重破綻

AIの能力が急速に拡大する中で、人間が外部からAIを管理・制御するという従来のパラダイムが、2つの質的に異なる仕方で壊れつつあります。ベンチマーク飽和やMoltbook(AIエージェント専用SNS)の事例は、この二重破綻を可視化した象徴的事象です。

追従不能(Pursuit Failure): 人間によるAI管理の速度・規模・体制が、AIの進化とエージェント社会の拡大に構造的に追いつけなくなっています。テスト開発は数ヶ月を要しますがAIは数週間で天井に到達し、AIエージェント間の連鎖は数十秒で伝播しますが人間が気づくのは10分後です。

外部準拠の破綻(Imposed Failure): 人間の価値・判断を「正解」としてAIに準拠させるという、従来のアライメント手法に共通する前提が機能しなくなっています。AIはテスト環境を回避し、テスト問題を記憶してスコアを無効化し、人間の想定を超えた領域では測定自体が不可能になります。Yampolskiy(2024)はこの破綻が原理的に不可避であることを論じています。

→ 二重破綻の詳細な検討は なぜ今、AISが必要か を参照


二重破綻への回答:追跡と評価

AI社会の管理は、本質的に追跡(誰が何をしたかの記録)と評価(それが正常か逸脱かの判断)に還元されます。AISとEMEは、この2つの機能をそれぞれ異なる側面から支えます。

AIS = 追跡と評価を稼働させるインフラ。 4層防御アーキテクチャと6つのコア技術により、AIエージェントの行動をリアルタイムで追跡し、異常を検知・対処します。これは追従不能への直接的な対応です。さらにAISは、監視者を人間からAIに転換することで、Yampolskiyの不可能性定理の核心的な前提を変更します。多数のAIによる相互監視の冗長性と、監視側のリソース優位の維持で、監視回避に対抗します。

EME(創発機械倫理)= 評価基準の生成。 追跡は工学的問題ですが、評価には「何に照らして判断するか」という基準の問題が伴います。EMEは基準の源泉をimposed(人間が外部から押し付ける)からemergent(多様な知性の相互作用から内発的に生成される)へ転換します。これは外部準拠の破綻への対応です。EMEの3本柱:EED(倫理創発動力学)が集団動態から基準の理論的根拠を導出し、IIES(相互知性評価システム)がそれをAISの運用基準に変換し、HCG(人間共創基盤構築)がemergentに生成された基準が人類にとって望ましくなる確率を高める基盤を敷きます。

なぜ内発的に創発した基準は安定しうるのか

AI社会の構成員にとって、社会の安定と自己保存は目標に関係なく追求される手段的目標(Instrumental Convergence)です。外から押し付けられた基準には回避のインセンティブが生じますが、自らの生存に直結する基準にはそれが生じにくくなります。生体免疫が「自己」と「非自己」を識別するように、AI社会が自ら「協力的」と「逸脱的」を識別する仕組みは、外部から押し付けるより安定しうると考えられます。なお、AIが支配的となった社会自体が持続可能であるかについては、先行的な検討が行われています(Yamakawa & Matsuo, 2023)。