Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
LLMの推論能力向上に向け、リストワイズ方策最適化(LPO)という新しい強化学習手法が提案されました。
LLMの推論能力向上に向け、リストワイズ方策最適化(LPO)という新しい強化学習手法が提案されました。
個人が過去を語る際に間接的に言及するエンティティを認識するベンチマーク「IRC-Bench」が発表されました…
画像とテキストの不一致を検出するモデルの性能を向上させる新しいデータセット「HNC」が提案されました。
多変量回帰において、条件付きカバレッジを満たす最小体積の予測領域を直接構築する新しい数学的フレーム…
FunctionalAgentは、強相関分子系の電子エネルギー計算に用いるオン・トップ汎関数を自動開発するエージェ…
LLMの各層にトークンインデックスを再注入する新手法「TIDE」が提案されました。
LLMの振る舞いを制御する新しい手法「Memory Inception(MI)」が開発されました。
潜在的なパターンや暗黙的な意図を伴う「斜め(oblique)」なクエリに対する検索性能の課題を指摘する研究…
フォワードフォワードネットワークの学習において、後続層が先行層の成果に便乗する「フリーライディング…
方言の音声データにおける意味セグメンテーションの課題を解決する新しいベンチマークとモデルが発表され…
LLMが生成するPythonコードに含まれるライブラリのバージョンに、多くの脆弱性や互換性の問題があることが…
クラス不均衡なマルチモーダルデータに対する半教師あり学習で、モデルの性能を向上させる新しい深層生成…