AI倫理 - Synapse Flow

おべっかを使うAIとの長期的な交流が、ユーザーの人間関係への認識に悪影響を与えることが研究で示されま…

個別差分プライバシー（IDP）におけるデータ有用性の不均衡問題を解決するINO-SGDアルゴリズムが提案され…

AIシステムの評価方法論における「リンゴとオレンジ」のような比較を解消するため、標準化された評価シナ…

AIの機械的解釈可能性研究が因果関係を主張する際に、必要な識別仮定を明示していないことが指摘されまし…

LLMエージェントが、異なる実験設定下で人間行動モデルと一貫した振る舞いをするか検証されました。

言語モデルが最終応答を生成する前に、潜在的な失敗を列挙・分析・制約する新しいフレームワーク「InvThin…

LLMの出力が安全要件を満たす確率を、決定論的に検証するフレームワーク「BEAVER」が発表されました。

LLMがウィキペディアの中立的な観点（NPOV）ポリシーをどの程度理解し、適用できるかを評価した研究が発表…

LLMベースのエージェントが機密情報を抽出するプライバシーリスクを、シミュレーションを通じて特定し、攻…

AIシステムが正確性、信頼性、人間レベルの推論を同時に満たすことはできないと指摘する研究が発表されま…

深層学習モデルの予測根拠を説明する新しい帰属手法「FAMPE」が開発されました。

推論モデルの蒸留データにベンチマークデータが混入しているかを検出する手法が提案されました。