AAAI-25 Report: “Frontiers of AI Alignment”

報告者: 高槻瞭大、山川宏 

大規模言語モデル(LLM)をはじめとする高度なAIが急速に進化し、汎用人工知能(AGI)や超知能の開発が現実味を帯びています。高度なAIが人間の価値観と合致しない行動を起こさないよう、安全性・倫理性を確保する“AIアライメント”が急務となっています。私達の、AIアライメントネットワーク(ALIGN)は、AIの便益とリスクの両面を見据え、人間との調和を探究するコミュニティです。

このたび、ALIGNのメンバは、2025年2月25日〜3月4日に米国フィラデルフィアで開催された「The 39th Annual AAAI Conference on Artificial Intelligence 2025(AAAI-25)」に参加し、さらに同会議内で「1st Workshop on Post-Singularity Symbiosis(PSS 2025)を主催しました。

そこで本報告では以下の二部構成で報告を行います。

● Part 1: AI Alignment Research at AAAI-25

○      AAAI-25会議の全体像と、新設されたAIアライメントトラックの新設、招待講演などの様子を中心に解説します

● Part 2: 1st Workshop on Post-Singularity Symbiosis 

○      PSS 2025ワークショップの、招待講演やディスカッションや、シンギュラリティ後の共生をめぐる最新の議論を詳しくご紹介する予定です。[1] 

 Part 1: AI Alignment Research at AAAI-25

1. AAAI-25概観

今年のAAAI-25は、今年は約13,000本の論文投稿があり、採択率は約23.4%でした。また、全49のワークショップが採択されました。

AIの急速な進歩に伴うリスクが世界的に注目される中、今年はAIアライメントに焦点を当てた新しいトラック(Special Track on AI Alignment)が設けられました。さらには、2025 AI for Humanity Awardがカリフォルニア大学バークレー校のStuart J. Russel教授に授与されました(受賞理由:"For his work on the conceptual and theoretical foundations of provably beneficial AI and his leadership in creating the field of AI safety")。これらは、AI安全性に対する関心の高まりを如実に示しています。

私たちALIGNも、この動きに注目し、現地での議論を深める機会を得ることができました。ここでは、特にAI Alignmentトラックと招待講演の一部についてレポートを行います。

 

2. AI Alignmentトラック

■ 採択論文の内訳

AIアライメント研究はさまざまな下位領域があります。66の採択論文のタイトルとアブストラクトからその内訳を作成すると以下のようになりました。

 

➢    安全性メカニズム & 敵対的ロバスト性(18件)

➢    価値アライメント & 選好学習(16件)

➢    検証 & 形式的保証(6件)

➢    解釈可能性 & 透明性(6件)

➢    バイアス、公平性 & 社会的影響(9件)

➢    マルチエージェントアライメント & 協調(6件)

➢    基礎理論 & 方法論(5件)

 

このように大半が、モデルの脆弱性の指摘や価値アライメントの研究であり、一方でより厳密なAI安全性の追求のために研究されている形式的保証や解釈可能性の研究は少ないことがわかります。

■ 代表的な研究

ここでは、上の各カテゴリから代表的な研究を紹介します。

安全性メカニズム & 敵対的ロバスト性

●      Can Go AIs Be Adversarially Robust? (Tseng et al.)
超人的囲碁 AI でも敵対的に操作された石配置にはなお脆弱で、防御策を講じても未知の攻撃を完全には防げないと示した

●      Single Character Perturbations Break LLM Alignment (Lin et al.)
入力末尾にスペース 1 つなど極小トークンを加えるだけで LLM の安全フィルタが崩れ、有害指示に従う確率が大幅に上がることを明らかにした

価値アライメント & 選好学習

●      Exploring Intrinsic Alignments Within Text Corpus (Liang et al.)
コーパス内部に潜む「指示追従」の手掛かりを自動抽出して微調整する ISAAC を提案し、高価な人間フィードバックなしで LLM の安全性と有用性を底上げできると示した

●      Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback (Zhou et al.)
人間の全文コメント自体を入力として扱う Seq2Seq 報酬モデルを導入し、従来 RLHF が苦手だった詳細な指摘を反映させて出力品質を向上

●      Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction (Lou et al.)
語彙分布を逐次推定しながら文対応を決める Stream Aligner を開発し、大規模並列コーパスでも高速・高精度な文アラインメントを実現

検証 & 形式的保証

●      Verification of Neural Networks Against Convolutional Perturbations (Brückner et al.)
ぼかし・モーションブラーなど畳み込み摂動を数式モデル化し、画像分類ネットのロバスト性を初めて形式的に証明できる検証手法を提示

解釈可能性 & 透明性

●      Do Transformer Interpretability Methods Transfer to RNNs? (Paulo et al.)
主要 Transformer 解釈手法の多くは最新 RNN(Mamba・RWKV など)にも一定効果があり、RNN の「圧縮状態」を考慮した改良で精度がさらに上がると実験的に示した

●      Neurons to Words: A Novel Method for Automated Neural Network Interpretability (Puglisi et al.)
ニューロン活性クラスタを自動で単語ラベルに紐付ける手法を示し、大規模モデル内部の抽象概念を教師なしで可視化できることを実証

バイアス、公平性 & 社会的影響

●      Bias Unveiled: Investigating Social Bias in LLM-Generated Code (Ling et al.)
LLM が生成するコード片に潜む社会的バイアスを測定する Solar フレームワークを提案し、人種・性別偏見が実装ロジックにも入り込む実態を定量化

●      LLMs in the Classroom: Outcomes and Perceptions of Questions Written with AI Aid (Witsken et al.)
大学授業で学生が ChatGPT を活用して試験問題を作成しても学習成果は維持され、問題の質と学生満足度が向上

マルチエージェントアライメント & 協調

●      Quantifying Misalignment Between Agents (Kierans et al.)
社会科学の争点モデルを拡張し、複数エージェント間の利害衝突度を定量化する指標を提案して複雑な非整合性を可視化

基礎理論 & 方法論

●      Partial Identifiability in Inverse Reinforcement Learning (Skalse et al.)
逆強化学習では非指数割引など現実的設定下で報酬関数が一意に定まらない「部分識別性」を理論的に定式化し、追加仮定が不可欠と示した

●      Increased Compute Efficiency and the Diffusion of AI Capabilities (Pilz et al.)
計算効率の向上で AI 開発コストが下落し能力が拡散する一方、大規模投資主体は性能優位を保つとの実証分析から、危険能力の普及を抑える政策介入が必要と論じた

3. 招待講演

AI Alignmentトラックのみならず、複数の招待講演でAIアライメントに関連する内容が扱われました。

●      Can AI Benefit Humanity? (Stuart Russel)
AI for Humanity Award を受賞した Stuart Russell 氏は、現状の GPT のような AI システムが真の AGI に到達するかどうかには懐疑的な見方を示しつつ、将来 AGI・ASI が実現した際にそれらをどのように制御するかという難しさを強調しました。人間の模倣学習を基盤に動作する現在の AI には、人間が意図しない目標を追求するリスクがあると指摘し、「自らの利益に従って働く一方、その利益が明示されていない AI システム」を設計する必要性を論じました。対策として形式的な安全性検証の導入を提案し、人間の自律性をどのように担保するか、また最適でない行動を取る自由をどのように正当化するかといった問題にも触れました。最後に「人間は究極的に AI と共生できるのか」という問いを投げかけ、共生が可能であれば具体的な方法を詳細に検討すべきだと述べ、PSS 2025 への良い導入となりました。

●      Propositional Interpretability in Humans and AI Systems (David Chalmers)
心の哲学で著名なニューヨーク大学教授 David Chalmers 氏は、AI 安全性で注目される Mechanistic Interpretability のサブカテゴリとして「Propositional Interpretability(命題的解釈可能性)」を提案しました。講演では、人間の心についての命題的解釈研究の歴史を紹介しながら、AI システムの内部動作を命題的に解釈する手法を論じ、“thought logging” というアイデアを提示しました。講演内容はプレプリントとして公開されています。

●      AI, Agents and Applications (Andrew Ng)
Coursera や deeplearning.ai などの設立で知られるスタンフォード大学教授 Andrew Ng 氏の講演は、他の招待講演と比べても圧倒的に多くの聴衆を集めていました。氏は AI 開発における 5 つのトレンドを提示し、とりわけ AI によるソフトウェア開発の速度向上を強調しました。さらに「あらゆる専門家が AI によって 10 倍の専門性を発揮するようになる」と主張し、続く AI アライメント関連の講演とは対照的に、AI がもたらすメリットを前面に押し出した楽観的な内容となっていました。

4. 総評・所感

AAAI-25本会議では、AIシステムの性能向上による安全性リスクの重要性にスポットライトが当たり始めていることが感じられましたが、その発表件数は全発表の中ではまだまだ小さい割合でした。今後よりこの分野の研究が促進されることが求められます。

次のパートでは、私たちがAAAI-25期間中に主催した「1st Workshop on Post-Singularity Symbiosis (PSS 2025)」の模様をご報告します。

謝辞

招待講演者、一般発表者、そして質疑応答を通じてワークショップを盛り上げて下さった現地参加者に深く感謝申し上げます。また、本報告書は、東京大学松尾・岩澤研究室の支援のもと作成されました。