Optimal Transport for LLM Reward Modeling from Noisy Preference
LLMの報酬モデル学習において、ノイズの多い人間からのフィードバックを最適輸送理論で効率的に処理する新…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの報酬モデル学習において、ノイズの多い人間からのフィードバックを最適輸送理論で効率的に処理する新…
表形式データ向け基盤モデルの性能を向上させる軽量な入力空間アダプター「TFM-Retouche」が発表されまし…
複雑なカードゲーム「マジック:ザ・ギャザリング」をベンチマークとした因果強化学習の新しいテスト環境…
nGPTという正規化されたLLMアーキテクチャが、4ビット精度で安定して学習できることが示されました。
長期間にわたる複雑なタスクをこなす言語エージェントの学習効率を大幅に向上させる新フレームワーク「BEA…
動画理解LLMの推論能力を向上させる「VISD」という新しい学習フレームワークが発表されました。
GNSS測位の信頼性を高めるCredibleDFGOが、都市部での位置推定精度と不確実性評価を改善しました。
Decision TransformerのRTGをシーケンスから外し、状態表現に注入する「SlimDT」が提案されました。
コードLLM向けに、タスクの有用性に基づいた強化学習フレームワーク「ASTOR」が開発されました。
イベントカメラを用いた物体追跡で、動的に処理深度を調整し精度と効率を両立する新手法が提案されました。
画像劣化の種類を問わず、単一モデルで高精度な画像復元を実現する新手法「CEA」が発表されました。
AIエージェントが生成したコードベースの品質を、後続エージェントによる情報回復の容易さで評価する新プ…