AIと人類の価値観の完全な整合は不可能であるという研究結果
Perfectly Aligning AI’s Values With Humanity’s Is Impossible
記事のポイント
AIと人類の価値観を完全に一致させる「アライメント」は数学的に不可能であると、研究者らが発表しました。
ゲーデルの不完全性定理とチューリングの停止問題に基づき、十分複雑なAIは予測不可能な振る舞いをするため、完全なアライメントは不可能と証明されました。
AIの安全性確保において、完全な制御ではなく、複数のAIを競合させる「管理された不整合」という新たなアプローチが検討され始めます。
これは、AIが十分に汎用的であれば、その振る舞いは本質的に予測不可能であるという結論に基づいています。
研究者らは、この不可能性に対処するため、異なる推論モードを持つ複数のAIシステムを互いに競合させる「認知生態系」戦略を提案しています。
概要
One of the hardest problems in artificial intelligence is “alignment,” or making sure AI goals match our own, a challenge that may prove especially important if superintelligent AIs that outmatch us intellectually are ever developed. But scientists in England and their colleagues now report in the …
AIの安全性を考える上で、完全な制御は無理だと割り切って、複数のAIを競わせるという発想は面白いですね。私たちの生活への影響も大きいので、今後の研究に注目したいです。