Causal Probing for Internal Visual Representations in Multimodal Large Language Models
MLLMの内部における視覚表現のエンコードメカニズムを因果的プロービングで分析しました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
MLLMの内部における視覚表現のエンコードメカニズムを因果的プロービングで分析しました。
Prober.aiは、LLMを活用し、学生の論証的作文能力を向上させるための質問ベースのフィードバックシステム…
RAGの精度と効率を高めるため、テキストとグラフを双方向で連携させる新フレームワーク「TGS-RAG」が提案…
マルチエージェントLLMによるコード生成で、コードの複雑性に応じた最適なエージェント連携構造を動的に選…
大規模視覚言語モデル(LVLM)の注意機構に冗長性があり、効率的に視覚情報を利用できていないことが判明…
大規模推論モデルの思考過程に潜在する安全上のリスクが明らかになりました。
Transformerモデルにおける記憶の競合と幻覚が、隠れ状態空間の「アトラクター幾何学」で説明されました。
LLMの出力がどの学習データに基づいているかを特定する新手法「DataDignity」が発表されました。
グラフ予測モデルGCCMが、対照学習と一貫性モデルを組み合わせ、既存手法の課題を克服しました。
LLMの推論効率を高める量子化手法において、汎化性能を向上させる新しいキャリブレーション手法が提案され…
LLM検索エージェントが推論時にツール利用とトークン生成の予算を効率的に制御する新手法が提案されました…
自己進化型検索エージェントが知識グラフパスを中間教師として活用し、性能を向上させました。