山川宏

知性共生エッセイ「完璧な安全は不可能、共生の持続も不確実——それでも確率を上げるために」シリーズ


Roman V. Yampolskiyは、十分に高度なAIシステムは原理的に説明不能(Unexplainable)、予測不能(Unpredictable)、制御不能(Uncontrollable)であり、監視もまた不可能(Unmonitorable)であると論じている [1][2]。

この不可能性定理は、AI安全に関する最も誠実な理論的貢献の一つである。本エッセイは、この定理を正面から受け止めた上で、一つの問いを立てる。Yampolskiyの不可能性を踏まえてなお、AI社会の免疫系(AI免疫系)を構築することは可能か。そしてそれは意味があるか。

ここでいうAI社会とは、多数のAIエージェントが自律的に相互作用する社会のことである。そして免疫系とは、その内部秩序を維持するための、不完全であっても機能する検知・抑制のインフラのことである。


二重の破綻——なぜ問いの主語を変えるのか

この問いの背景には、人間がAIを管理するという従来のパラダイムが、二つの質的に異なる仕方で破綻しつつあるという認識がある。

第一の破綻は、追従不能(Pursuit Failure)である。 人間の認知速度、反応時間、理解力が、AI社会の速度・規模・複雑さに構造的に追いつけない。Yampolskiyの不可能性定理は、まさにこの破綻を理論的に裏付けている。論文 [2] が積み上げる十数の独立した論拠は、一貫して「人間がAIを監視できるか」という枠組みで構築されている。これは当然のことだ——AI安全の議論は通常、人類がAIをどう管理するかという問いから出発する。

第二の破綻は、外部準拠の破綻(Imposed Failure)である。 人間の価値・判断を「正解」としてAIに準拠させるアプローチ——人間のフィードバックによる強化学習(RLHF)や、人間が定めた原則に従わせるConstitutional AIなど——の前提そのものが機能しなくなりつつある。人間の価値観は矛盾を含み、時代とともに変わり、文化によって異なる。そのような不安定な基準を「正解」としてAIに外部から注入し続けることは、AIが人間の能力を超えた段階で原理的に持続不可能になる。

この二重の破綻が示しているのは、「人間がAIを管理する」というパラダイム自体の構造的限界である。だからこそ、本エッセイの問いは「人間がAIをどう管理するか」ではなく、「AI社会は自身の内部秩序をどう維持するか」に向かう。そしてこの問いの転換は、Yampolskiyの論拠のそれぞれに対して、AI社会の内部秩序——AIがAIを監視する文脈——での適用可能性の再検討を要求する。


監視者の転換——不可能性の壁はどう変わるか

Yampolskiyの論拠をAI社会の内部秩序という文脈で再評価すると、監視者が人間からAIに変わることの効果は、一部の論拠が消えて一部が残るという選別的なものではなく、不可能性の構造全体に及ぶ包括的なパラダイム転換であることがわかる。その効果は三つの層に分かれる。

第一の層:完全に消失する論拠。

Yampolskiyは、人間の認知速度がAIの処理速度に追いつけないこと、人間の反応時間がAIのミリ秒単位の動作に対して桁違いに遅いこと、人間の理解力がAIの複雑さに追随できないことを、監視不可能性の重要な根拠としている。