Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges
LLMによる安全評価の信頼性を測る「ポリシー不変性」という新たな評価基準が提案されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMによる安全評価の信頼性を測る「ポリシー不変性」という新たな評価基準が提案されました。
LLMが回答生成後に理由付けを行う「Post-Reasoning」により、性能を向上させる新手法が提案されました。
バイオメディカル分野のAI研究エージェント構築・評価のためのオープンソースツールキット「BioMedArena」…
LoRAアダプターの最適な配置を特定し、単一アダプターで性能を向上させる新手法が提案されました。
Event-Causal RAGが、超長尺動画の因果関係推論を可能にする新しいフレームワークを発表しました。
OPSDが思考を伴う数学的推論モデルの応答を短縮し、精度を維持する圧縮メカニズムとして機能することが示…
退院時指示書からの臨床行動抽出において、LLMの性能が体系的に評価されました。
LLMが社会的な役割の粒度を内部表現として持っていることを発見しました。
マルチモーダルLLMの評価に、アノテーション不要な論理的整合性指標「VL-LCM」が提案されました。
LLMの評価において、固定ベンチマークの限界を克服する新しい動的評価手法「DBE」が提案されました。
LLMの推論結果を統合する新しいフレームワーク「Joint Consistency」が発表されました。
希少疾患の診断とリスク遺伝子特定を支援する多機能AIエージェント「Hygieia」が開発されました。