FutureWorld: 実世界の結果報酬を用いた予測エージェント向けライブ強化学習環境
実世界の出来事を予測するAIエージェントの性能を向上させるための新しい強化学習環境「FutureWorld」が発…
実世界の出来事を予測するAIエージェントの性能を向上させるための新しい強化学習環境「FutureWorld」が発…
半導体製造におけるウェーハ欠陥の視覚的質問応答を、小規模な視覚言語モデルで実現するフレームワークが…
LLMエージェントの強化学習において、報酬が少ない環境でも効率的に学習できる新手法「AEM」が開発されま…
LLMを用いた進化的探索により、ザランキェヴィッチ数の正確な値3つと、41個の下限が新たに発見されました。
プロセス報酬モデル(PRM)の推論エラー検出能力を評価する新しいベンチマーク「GR-Ben」が発表されました…
LLMのマルチモーダル推論において、推論ステップに合わせた新しい強化学習手法「SAPO」が提案されました。
アンゴラの低リソース言語向けに、OFA埋め込み初期化と合成データを活用した新しい言語モデル「ANGOFA」が…
グラフ表現学習において、絡み合った表現の問題を解決する新しい自己教師あり学習フレームワーク「DiGGR」…
公開データセットのライセンス順守を支援するAIモデル「LicenseGPT」が開発されました。
LLMがコード理解において、意味を保った構文変更に対してどれほど堅牢かを評価する研究が発表されました。
長文質問応答システムが、談話構造を考慮した階層的検索フレームワークを開発しました。
プライバシーを保護しつつ、ユーザーに合わせた推薦を行うための連合型基盤モデルに関する調査論文が発表…