PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors
LLMエージェントの失敗を早期に警告する「PrefixGuard」という監視フレームワークが開発されました。
LLMエージェントの失敗を早期に警告する「PrefixGuard」という監視フレームワークが開発されました。
LLMベースの決済システムにおいて、タスク成功だけでなくワークフローの忠実性を測る新指標「ASR」が提案…
LLMの内部動作を解釈するため、活性化パッチングの結果をグラフ構造として分析する新手法が提案されました…
自然言語から時相論理式STLを生成するAIフレームワーク「ReasonSTL」が開発されました。
スパースオートエンコーダ(SAE)の機能をグラフ構造で分析する新しい手法が提案されました。
フローモデルのファインチューニングを最適制御問題として捉え、人間選好に合わせる新手法が提案されまし…
LLMエージェント「NeuroAgent」が、複雑な脳画像解析の自動化を実現しました。
SkillOSは、LLMエージェントが過去の経験からスキルを学習し、自己進化する新しいフレームワークです。
LLMベースのマルチエージェントシステム向けに、プロンプトを自動で共同最適化する新フレームワーク「MASP…
RLがLLMの長期的推論を教える際の課題を、新しい論理推論フレームワークで研究しました。
TurboQuantと先行研究であるDRIVE/EDENの量子化手法の関係性が明らかにされました。
ニューラルネットワークの汎化性能と関連するとされる「平坦な最小値」が、実際には錯覚である可能性が示…