FoodCHA: Multi-Modal LLM Agent for Fine-Grained Food Analysis
FoodCHAは、食事画像を詳細に分析するマルチモーダルLLMエージェントが発表されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
FoodCHAは、食事画像を詳細に分析するマルチモーダルLLMエージェントが発表されました。
住宅開発の可能性を評価する共通データモデルと都市デジタルツインが発表されました。
知識グラフと自己対戦型強化学習を組み合わせた科学文献からの関係推論フレームワーク「SPARK」が提案され…
AIエージェント時代の認知労働の価格決定メカニズムについて、新たな経済モデルが提唱されました。
量子化された大規模推論モデルの精度を向上させる「BitCal-TTS」が発表されました。
LLMの推論能力向上に向け、タスクと無関係なプロンプト摂動で探索を広げる新手法が提案されました。
ドメイン適応における極端なラベルシフト下でのプライベートクラス識別手法が提案されました。
LLMエージェントが不確実な観測を複数候補として記憶する「BeliefMem」が提案されました。
MLLMの内部における視覚表現のエンコードメカニズムを因果的プロービングで分析しました。
RAGの精度と効率を高めるため、テキストとグラフを双方向で連携させる新フレームワーク「TGS-RAG」が提案…
マルチエージェントLLMによるコード生成で、コードの複雑性に応じた最適なエージェント連携構造を動的に選…
大規模視覚言語モデル(LVLM)の注意機構に冗長性があり、効率的に視覚情報を利用できていないことが判明…