CAMEL:報酬モデリングのための信頼度ゲート付きリフレクション
大規模言語モデルの報酬モデルにおいて、CAMELという新しいフレームワークが開発されました。
大規模言語モデルの報酬モデルにおいて、CAMELという新しいフレームワークが開発されました。
PPG波形と自然言語を結びつける大規模なPPG-テキスト質問応答データセット「PulseLM」が公開されました。
医療分野の質問応答において、大規模言語モデルが事実と異なる情報を生成するハルシネーションの発生率が…
大規模言語モデルの知識編集において、精度と編集性の両立を改善する新手法「MetaKE」が提案されました。
LLMが臨床文書から病名コード(ICDコード)を割り当てる際、その根拠となるテキスト証拠を効率的に学習す…
多次元のルーブリック報酬をスカラー化せず、交互に最適化する新しい強化学習フレームワークが提案されま…
強化学習エージェントが制御できる観測空間の次元を、介入的境界発見(IBD)という手法で特定しました。
連続空間における後続表現学習で、時間的抽象化がスペクトル不整合を緩和するメカニズムとして機能するこ…
長尺動画の質問応答において、入力フレーム数を最適化する新しいフレーム選択手法が提案されました。
主要な大規模言語モデルが、誤った情報を生成する際に最も高い自信を示すことが判明しました。
大規模言語モデルの圧縮時に生じる誤差の伝播メカニズムを解明し、効率的な圧縮戦略を提案しました。
LLMの推論能力を向上させる「P^2O」という新しい学習手法が開発されました。