BEAVER:効率的な決定論的LLM検証器
LLMの出力が安全要件を満たす確率を、決定論的に検証するフレームワーク「BEAVER」が発表されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの出力が安全要件を満たす確率を、決定論的に検証するフレームワーク「BEAVER」が発表されました。
LLMを活用し、自然言語の指示からPDDLモデルを生成し、計画を策定するエンドツーエンドのフレームワークが…
モバイルGUIエージェントが、プログラム誘導型コンテキスト管理により、長期間にわたる複雑なタスクを効率…
LLMの科学的発見能力を評価する新しいベンチマーク「SDEフレームワーク」が発表されました。
大規模推論モデルの強化学習において、データ効率を大幅に向上させる新手法「Miner」が開発されました。
感情サポート対話エージェントの性能を、外部ツール活用を含めて評価する初のベンチマーク「TEA-Bench」が…
汎用AIモデルの時系列データ処理能力を評価する、TSRBenchという新しいベンチマークが発表されました。
大規模推論モデルの安全性を、外部教師なしで自己生成型アライメントにより向上させる新手法「ThinkSafe」…
教師ありスパースオートエンコーダ(SAE)が、Stable Diffusion 3.5で画像の再構成と編集に成功しました。
ウェブエージェントの非効率な検索軌跡をグラフベースの剪定で最適化するフレームワーク「WebClipper」が…
LLMのハルシネーションを埋め込み空間の幾何学に基づいて分類し、検出可能性を予測する研究が発表されまし…
多言語・非英語圏の医薬品資産を効率的に探索するAIエージェントが開発されました。