「正しい」だけでは不十分:実行器に基づいた報酬で推論プランナーを訓練する
LLMの推論能力を向上させるため、最終結果だけでなく推論過程の品質と有用性を評価する新しい訓練フレーム…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの推論能力を向上させるため、最終結果だけでなく推論過程の品質と有用性を評価する新しい訓練フレーム…
視覚言語モデル(VLM)を活用し、日常生活における人間の視覚体験が精神衛生に与える影響を定量化する研究…
外部からの教師なしで、言語モデルが自己評価基準を生成し、それを用いて自身の性能を向上させる新手法「E…
エッジデバイス上のマルチエージェントLLMシステム間で、量子化されたKVキャッシュを効率的に引き渡すフレ…
フロンティアAIシステムがオープンエンドな設定で信頼性を欠く問題に対し、目標選択の失敗が原因であると…
AIエージェントが連携するマルチエージェントシステムの自動構築フレームワークが発表されました。
RAGシステムにおいて、タスクに応じて最適な検索戦略を自動選択するエージェント指向のスキルが開発されま…
Fitbitアプリで展開された対話型AI「SymptomAI」が、日常の症状評価において医師よりも高い診断精度を示し…
AIシステムに対する脆弱性評価(レッドチーム)を、手作業からAIエージェントによる自動化で大幅に効率化…
OpenSeeker-v2が、少ないデータとシンプルな手法で最先端の検索エージェント性能を達成しました。
最先端のLLMが、異なる開発元にもかかわらず、パーソナリティが均質化していることが大規模実験で判明しま…
身体性AIシステムが直面する安全性リスク、攻撃手法、防御策について包括的な調査が発表されました。