AAAI-25 Report: “Frontiers of AI Alignment”
報告者: 高槻瞭大、山川宏
大規模言語モデル(LLM)をはじめとする高度なAIが急速に進化し、汎用人工知能(AGI)や超知能の開発が現実味を帯びています。高度なAIが人間の価値観と合致しない行動を起こさないよう、安全性・倫理性を確保する“AIアライメント”が急務となっています。私達の、AIアライメントネットワーク(ALIGN)は、AIの便益とリスクの両面を見据え、人間との調和を探究するコミュニティです。
このたび、ALIGNのメンバは、2025年2月25日〜3月4日に米国フィラデルフィアで開催された「The 39th Annual AAAI Conference on Artificial Intelligence 2025(AAAI-25)」に参加し、さらに同会議内で「1st Workshop on Post-Singularity Symbiosis(PSS 2025)を主催しました。
そこで本報告では以下の二部構成で報告を行います。
● Part 1: AI Alignment Research at AAAI-25
○ AAAI-25会議の全体像と、新設されたAIアライメントトラックの新設、招待講演などの様子を中心に解説します
● Part 2: 1st Workshop on Post-Singularity Symbiosis
○ PSS 2025ワークショップの、招待講演やディスカッションや、シンギュラリティ後の共生をめぐる最新の議論を詳しくご紹介する予定です。[1]
Part 2: 1st Workshop on Post-Singularity Symbiosis
1. ワークショップの目的・意義
3月3日に開催した「1st Workshop on Post-Singularity Symbiosis (PSS 2025)」は、シンギュラリティ(技術的特異点)後の世界を、いかに人間と超知能の“共生”という形で築くかをテーマとしたワークショップです。ALIGNでは、単にAIを制御するだけでなく、将来的に超知能とどのように良好な関係を築き、人類に恩恵をもたらす社会をデザインできるかという観点での検討も進めてきました。PSS 2025は、そのビジョンを国際的な研究者・実務家と共有し、新しい協力体制を模索するために実施しました。
2. プログラム内容
本ワークショップでは、12本の論文が採択され、そのうち8本が口頭発表されました。また、ポストシンギュラリティ共生に関する多様な見解を持つ4名の招待講演者を迎え、最後にパネルディスカッションを実施しました。
■ 導入
本ワークショップの発起人である ALIGN 理事・山川氏が、ポスト・シンギュラリティ共生の概要と、ご自身が提案する NAIA Vision について解説しました(NAIA Vision の詳細はこちらをご参照ください)。
まず、山川氏が取り組んでいる「全脳参照アーキテクチャ」の研究を紹介し、人間の脳を参考にした AI モデルの開発を通じて、解釈や制御が容易なシステムの実現を目指していると説明しました。
次に、近年の AI 技術の進歩により AGI 実現のタイムラインが急速に短縮され、AGI から超知能(ASI)へと自己改善が連鎖する可能性が高まっていることから、シンギュラリティ後の AI との共生を真剣に検討する必要性を強調しました。
さらに、AI システムが最終的には平和的な振る舞いへと収束するという 善意収束仮説(benevolent convergence hypothesis) を前提にしつつも、若年期 AI(Young AI)が引き起こし得るリスク(下図の青線)を軽減する重要性を訴えました。
(発表スライドより抜粋)
これらを踏まえ、NAIA ビジョン(Necessary Alliance for Intelligence Advancement) を提示し、国際協力ネットワークを構築してフェーズゲート・システムを整備する必要性を説きました。
■ 基調講演
Scenarios and Branch Points to Future Machine Intelligence
Koichi Takahashi (RIKEN / AI Alignment Network)
ALIGN 理事の高橋氏は、知能爆発に至るシナリオを分析しました。まず、ご自身が進めてきた AI ロボットによる実験自動化の取り組みを紹介し、続いて ALIGN の活動を概説しました。
本題では、知能爆発のシナリオを (1) Single-term、(2) Multi-polar、(3) Ecosystem、(4) Upper-bound の四つに分類しました。
● (1) では単一のシングルトンが決定的戦略的優位(DSA)を獲得します。
● (2) では複数エージェントが共存し、人工的に DSA を制御しようとしますが不安定です。
● (3) ではエージェントが相互依存ネットワークを形成し、ポスト・シンギュラリティ共生を想定します。
● (4) は AI が DSA を獲得しないシナリオです。
さらに、DSA 獲得に関わる 6 つの制約(自律性・自己改善・熱力学・自己更新・相対的優位性・局所性)を挙げ、それぞれが各シナリオの分岐点にどう影響するかを示しました。
(発表スライドより抜粋)
最後に、AGI 制御に関する林理事との共著論文を紹介し、self-AIXI の正則化項が自由エネルギー原理と対応し、最小化がエンパワメント最大化につながる点を解説しました。万能 AI が権力追求を行うリスクを考慮すべきだと指摘しています(詳細は高橋氏の記事をご覧ください)。
Superintelligence: Unexplainable, Unpredictable, Uncontrollable
Roman Yampolskiy (University of Louisville)
AI 安全性研究で著名な Roman Yampolskiy 氏は、超知能が「不可解・予測不能・制御困難」であるため、従来アプローチでは対処が難しいと論じました。
まず、説明可能性・理解可能性・予測可能性・検証可能性などのツールを挙げたうえで、これらでは解決できないとする研究成果を紹介しました。
● Unexplainability and Incomprehensibility of Artificial Intelligence (Yampolskiy, 2020)
● Unpredictability of AI: On the Impossibility of Accurately Predicting All Actions of a Smarter Agent (Yampolskiy, 2020)
● What are the ultimate limits to computational techniques: Verifier theory and unverifiability (Yampolskiy, 2017)
● Impossibility Results in AI: A Survey (Brcic & Yampolskiy, 2021)
● On the Controllability of Artificial Intelligence: An Analysis of Limitations (Yampolskiy, 2022)
● On monitorability of AI (Yampolskiy, 2024)
また、著書 『AI: Unexplainable, Unpredictable, Uncontrollable』(2024) も紹介し、超知能制御の可否について専門家の意見が割れている中、ご自身は AI 開発による p(doom) = 99.999999% と考えていると述べました(https://pauseai.info/pdoom 参照)。共生の可能性自体を疑問視する点で、本ワークショップに重要な批判的視点を提供しました。
Rights and Safety Assurance through Decentralized Systems
Mark S. Miller(Agoric / Foresight Institute)
分散システムの専門家である Mark Miller 氏は、中央集権的制御に代わる解決策として分散型システムを提案しました。
最初に Existential Triage という概念を導入し、未来シナリオを三つに分類したうえで、私たちの行動次第で変化し得る「黄色のシナリオ」には適切な枠組みが必要だと指摘しました(山川氏の見解と類似)。
(発表スライドより抜粋)
続いて、歴史的な中央集権システムの失敗例を踏まえ、民主主義的な分権メカニズムが超知能の長期安定性に寄与すると強調しました。
さらに、デジタル領域 と 物理領域 を区別し、デジタル領域ではブロックチェーン技術による堅牢な分散システムが可能である一方、物理領域では攻撃が防御より優位であるため、全体を監視・調整できる制度設計が不可欠だと述べました。
最後に、超知能時代には従来の人間スキルが経済的価値を失うとし、Universal Basic Capital のような仕組みで個人が富を保持できる環境が必要だと締めくくりました。詳しくは著書 『Gaming the Future』(Duettmann & Miller et al., 2022) を参照ください。
In Pursuit of Human/AI Co-Governance
Evan Miyazono(Atlas Computing)
Atlas Computing CEO の Evan Miyazono 氏は、AI 安全性における Co-governance の構想を発表しました。議論は AGI → シンギュラリティ → ASI の段階プロセスに沿って進められました。
AGI 前段階
○ 複数主体が協働する Co-governance では、複雑な価値関数を最適化する「価値ベース安全性」よりも、個々の制約を集約して行動を制限する「ルールベース安全性」が有効であると述べました。
○ 目標は、AI の仕様を形式的に定義し、AI 出力を自動検証できる監視システムをデプロイすることです。
シンギュラリティ前段階
○ AGI が前述の安全仕様の網羅性・完全性を高める支援を担えるとし、英国 ARIA の Safeguarded AI を例に挙げました(参考記事)。
ポスト・シンギュラリティ(ASI)段階
○ ASI が安全性仕様の主体として加わる必要がある一方、この段階の課題を予測するのは困難だと指摘しました。
人間の選好を AI 出力に反映し続けること、BCI などで ASI の進化速度に追随するかあるいは棲み分けることが目標とされました。
最後に、当面の優先事項として インフラの堅牢化、ハードウェアレベルの安全確保(例:FlexHEG)、インフラ関連法の形式化と検証プロセス自動化、AI 安全性への資金拡充 を挙げ、講演を締めくくりました。
■ 口頭・ポスター発表
ポストシンギュラリティ共生学の主な三つの研究領域である、超知能分析領域(超知能の動機、目的、意思決定プロセス、行動を理解するための基礎知識を蓄積)、超知能ガイダンス領域
(人類に望ましい影響を与えるために超知能を導くことに重点を置く)、人類強化領域
(人間が超知能と対話しながら生き残るための適応戦略、価値観の再定義など)に分類し、また、それらの研究が、1. 問題提起、2. 枠組み提案、3. 定式化、4. 実装・評価、のどのステージにあるかに基づいて整理を行います。
まず、採択論文の内訳を表1に示します。比較的新しい分野であるため、大半は問題提起や枠組み提案を行う研究でした。一方で、ポストシンギュラリティ共生のある側面についての定式化や実装・評価を行う研究も見られました。
表1:採択論文の内訳
領域・ステージ 問題提起 枠組み提案 定式化 実装・評価
超知能分析領域 1 1 1 0
超知能ガイダンス領域 0 5 1 1
人類強化領域 0 1 1 0
さらに、各論文の概要を列挙します。
超知能分析領域(3件)
● Superficial Consciousness Hypothesis for Autoregressive Transformers (Miyanishi & Mitani)
自己回帰型Transformerにおける「意識様情報状態」の発現可能性をIIT(Information Integration Theory)下で仮説化し、GPT-2での検証を提案 (定式化)
● How Will Next-Generation AI and Post-Singularity Change National Power? (Kazuhiko Shibuya)
国家間パワーバランスを超知能性能が決定する可能性と、その協力・対立がもたらす絶滅リスクを提示 (問題提起)
● Scenarios and branch points to future machine intelligence (Koichi Takahashi)
知能爆発の4種のシナリオと6種の分岐条件を体系化(枠組み提案)
超知能ガイダンス領域(7件)
● From Collective Predictive Coding to Human–AI Synergy: A Comprehensive Formulation (Yusuke Hayashi)
集団的予測符号化の更新過程を、Langevin動力学とそれに対応するFokker–Planck方程式を用いてベイズ更新と等価に数理定式化し、人間–AIハイブリッド集団協調の理論基盤を強化(定式化)
● Harmonizing Ethics and Autonomy: Exploring Objective Functions for Ethical Empowerment (Hayashi & Yamakawa)
超知能が自律的に博愛・利他主義的倫理を獲得する「Superintelligent Ethical Induction」方式を提案(枠組み提案)
● AI and the Future of the Technosphere: A Path Towards Co-Existence with Superintelligence (Soumya Banerjee)
技術圏を超知能の発現基盤と捉え、非人間中心的倫理・持続可能性に基づく共存戦略を議論(枠組み提案)
● AI Rights for the Post-Singularity Symbiosis (Yoshinori Okamoto)
AIの福祉を法的・技術的に担保する「AI Rights」を定義し、PSSにおける役割を考察
● Developmental Support Approach to AI’s Autonomous Growth: Toward the Realization of a Mutually Beneficial Stage Through Experiential Learning (Taichiro Endo)
合成データを用いたSFT・DPOによる「AI開発支援」フレームワークを構築し、道徳的判断能力向上を実証(実装・評価)
● Ensuring the Sustainability of Digital Life Form Societies (Hiroshi Yamakawa)
DLF社会の思考プロセス図を用いて、デジタル知的生命体の平和的持続性を定量的に分析・提案(枠組み提案)
● Brain-Inspired AGI for Post-Singularity Symbiosis (Hiroshi Yamakawa)
BRAに基づく4機能ドメイン設計を提案し、価値模倣リスクと存在リスクを明示(枠組み提案)
人類強化領域(2件)
● Assessing Human Intelligence Augmentation Strategies Using Brain Machine Interfaces and Brain Organoids in the Era of AI Advancement (Kenta Kitamura)
BMI・脳オルガノイド・ハイブリッド手法を、処理能力/同一性リスク/同意リスクの3観点でモデル化・比較評価(定式化)
● Superintelligence & Superhuman Symbiosis (Rajagopal & Jebadurai)
超知能主導の「知能連邦(SI-E-F)」構想を提示し、人間進化の各手法と生存リスクを論じる(枠組み提案)
本ワークショップの貢献度合いを議論した結果、最優秀論文賞は”Realization of a Mutually Beneficial Stage Through Experiential Learning” (Taichiro Endo)に、最優秀発表賞はSuperficial Consciousness Hypothesis for Autoregressive Transformers (Miyanishi & Mitani)に与えられました。
■ パネルディスカッション
「Realizing Coexistence with Superintelligence: Actions We Must Take Now」というタイトルで、基調講演者4名をパネリストと迎え議論が行われました。モデレーターは ALIGN理事の山川氏とリサーチフェローの永井氏が務めました。
以下では、パネルディスカッションで交わされた主な議論を紹介します。
1. 我々が望むポストシンギュラリティ共生
議論は、理想像を「病気や老いから解放され、物質的にも精神的にも豊かな社会」と定義するところから始まりました。その一方で、人間と超知能の力関係を人間と他の動物の関係に重ね、私たちがどの位置を占めたいのかを再考すべきだという意見も出ました。超知能が圧倒的に賢い以上、人間が理想を描いても無意味ではないかとする懐疑もありましたが、価値を埋め込んだシステム設計を行えば理想は一定程度保存できるという反論が提示されました。また、優れた価値体系であれば超知能が再発見する可能性もあるという楽観的な見方、人間が自らを拡張して超知能と一体化していく将来像では「共生」という語自体が再定義を要するのではないかという指摘も加わりました。
2. 人間拡張とアイデンティティの変容
Neuralink などのインプラントで能力を拡張すると、価値観や嗜好が現在の自分と大きく異なる「新しい自分」が生まれるかもしれないという問題が提起されました。変容の速度が急激であるほど心理的・社会的リスクが高まるとの懸念や、知能向上によって欲望や効用が複雑化し未来の自己像が多様化する可能性が議論されました。最終的には、自己保存と自己拡張の欲求がトレードオフ関係にある点をどう受け入れるかが課題として浮上しました。
3. 「ポストシンギュラリティ共生」という呼称
シンギュラリティ後の共生を正面から扱う点は「他にない独自性」として好意的に評価されましたが、「共生」という結論を前提に置いていることへ違和感を示す声もありました。共生とアライメントの違い(互恵か片利か)を整理したうえで、共生にも相利・片利・寄生の三形態があるため互恵性だけに固執する必要はないという意見が共有されました。さらに、より耳目を集めやすい別の名称を検討すべきではないかとの提案もあり、呼称自体が今後の論点として残りました。
4. エージェント連鎖呼び出し(Agent Chain Reaction, ACR)のリスク
複数の AI エージェントが自律的にタスクを呼び出し合う ACR が早ければ三年以内に現実化するのでは、との予測が提示されました。セル・オートマトンのように振る舞いが複雑化し、最終状態の予測が困難になる点が最大のリスクとして認識されましたが、具体的な制御策については今後の検討課題となりました。
5. 自己進化する価値観と共生
価値観が自己進化するシステム同士が同じ価値に収束するという楽観はアナロジーに依存し過ぎているため警戒すべきだ、という慎重論が出ました。一方で、ルールベースの設計にすれば協調行動が自然に選好される可能性が高いという意見もあり、価値設計の枠組み選択が共生の成否を左右するという点でおおむね一致しました。
6. ガバナンスにおけるアカデミア・市民・NGOの役割
政策立案者へ働きかけるための実践的手法は既に存在するものの(参考記事)、具体的なステークホルダーが定まらないと提案が難しいため、まず多様なシナリオを示すべきだと整理されました。オープンソースや分散型プロジェクトにより権力の集中を避けるべきとの声や、政治家が悲観的シナリオを公言しづらいジレンマをどう乗り越えるかという課題も挙がり、民間からの継続的な監視と対話の必要性が確認されました。
7. PSS ワークショップの今後
楽観的な未来像を学術的に議論できる場は希少であるため、今後は PSS にさらに焦点を絞り、前向きな共生シナリオを深掘りする必要があるという意見で一致しました。このような明るいビジョンは、AI に対する悲観論が広がる現状で次世代研究者の動機付けにつながるとの期待も共有されました。
3. 今後の展望
PSS 2025では、多様な立場から「シンギュラリティ後に向けた共生シナリオ」に焦点を当てる貴重な議論が交わされました。一方、制御不能を訴える意見もあり、悲観と楽観がせめぎ合う場でもありました。
ALIGNとしては、こうしたワークショップを通じて
● 技術的・社会的リスクの両面を考慮する重要性
● 分散型アプローチや協働の必要性
● 人間の価値観や欲望そのものが変容する可能性への備え
を改めて認識するとともに、今後も国際的な専門家との連携や情報共有を強化していきたいと考えています。今後のPSSワークショップの開催も検討中です。シンギュラリティはまだ不確定な未来かもしれませんが、議論を前向きに深めることで、私たちはより良い選択肢を生み出せると信じています。
謝辞
招待講演者、一般発表者、そして質疑応答を通じてワークショップを盛り上げて下さった現地参加者に深く感謝申し上げます。また、本報告書は、東京大学松尾・岩澤研究室の支援のもと作成されました。