AI倫理 - Synapse Flow

マルチエージェントAIの内部表現から隠れた連合（コアリション）を検出する新しい手法が開発されました。

AIエージェントのツール利用における内部状態を解釈し、失敗の原因を特定する新しい手法が提案されました。

人間からのフィードバック（RLHF）を用いたAIモデル学習において、認知バイアスによる影響を軽減する新し…

生成AIシステムの故障モードを特定する適応型監査手法が提案されました。

強化学習で訓練された共感AIエージェントの、敵対的なユーザー入力に対する堅牢性が評価されました。

コンテンツモデレーションのルール条件付き意思決定推論を評価する新しいベンチマーク「RuleSafe-VL」が発…

AIによる資源配分において、偶発的な不確実性が誤配分を完全に排除できないことを研究しました。

教育用LLMチューターのプロンプトインジェクション防御策が、セキュリティ・ユーザビリティ・遅延のバラン…

エージェントAIがサイバー攻撃のライフサイクルを短縮し、攻撃コストを大幅に削減するリスクが指摘されま…

自律型AIエージェント間の信頼を確立する「MolTrust」というインフラがW3C標準技術で構築・展開されました…

複数の集団が同じ学習システムに影響を与える「アルゴリズム的集団行動（ACA）」を分析する統計的枠組みが…

表形式拡散モデル（TDMs）が生成する合成データにおけるプライバシー漏洩のリスクが定量的に評価されまし…