Vibe Code Bench:AIモデルによるエンドツーエンドWebアプリケーション開発の評価
AIモデルがWebアプリケーションをゼロから構築する能力を評価する新しいベンチマーク「Vibe Code Bench」…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
AIモデルがWebアプリケーションをゼロから構築する能力を評価する新しいベンチマーク「Vibe Code Bench」…
LLMが多ターン感情サポート対話で効果的に機能する新しい強化学習フレームワーク「MICA」が開発されました…
呼吸器の音声データと質問から、疾患診断やモニタリングを行うAIモデル「RAMoEA-QA」が開発されました。
テキストからオーディオを生成するAIモデルが、わずかなプロンプト変更で出力が大きく変わる「意味的脆弱…
LLMが追加データや人間の監視なしに、プロンプトと応答間の相互情報量を最大化することで自己改善する手法…
LLMの評価における候補順序の不安定性を解決するため、複数の順序で評価し結果を集約する新手法「PCFJudge…
マルチモーダルLLMの推論において、異なるデータタイプ(テキスト、画像、動画)の処理を効率化する新しい…
ロボットの知能、能力、実行を統合する単一エージェント運用アーキテクチャ「AEROS」が発表されました。
ロボットがユーザーとの対話を通じて何を記憶し、何を忘れるべきかを学習するフレームワークが開発されま…
Q-価値反復(Q-VI)が最適方策を特定するまでの時間を、幾何学的な視点から分析する新しい研究が発表され…
ロボットの視覚言語行動(VLA)モデルに物理的実現可能性の制約を明示的に導入する研究が発表されました。
強化学習のQ学習において、収束率を厳密に分析する新しい理論が開発されました。