InvThink:より安全な言語モデルのための事前検証推論
言語モデルが最終応答を生成する前に、潜在的な失敗を列挙・分析・制約する新しいフレームワーク「InvThin…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
言語モデルが最終応答を生成する前に、潜在的な失敗を列挙・分析・制約する新しいフレームワーク「InvThin…
AIエージェントのワールドモデル学習を評価する新しいベンチマーク「WorldTest」が提案されました。
大規模推論モデルの訓練のため、推論とソルバーの能力に適応するデータ合成手法が開発されました。
LLMの出力が安全要件を満たす確率を、決定論的に検証するフレームワーク「BEAVER」が発表されました。
LLMを活用し、自然言語の指示からPDDLモデルを生成し、計画を策定するエンドツーエンドのフレームワークが…
モバイルGUIエージェントが、プログラム誘導型コンテキスト管理により、長期間にわたる複雑なタスクを効率…
LLMの科学的発見能力を評価する新しいベンチマーク「SDEフレームワーク」が発表されました。
大規模推論モデルの強化学習において、データ効率を大幅に向上させる新手法「Miner」が開発されました。
感情サポート対話エージェントの性能を、外部ツール活用を含めて評価する初のベンチマーク「TEA-Bench」が…
汎用AIモデルの時系列データ処理能力を評価する、TSRBenchという新しいベンチマークが発表されました。
大規模推論モデルの安全性を、外部教師なしで自己生成型アライメントにより向上させる新手法「ThinkSafe」…
教師ありスパースオートエンコーダ(SAE)が、Stable Diffusion 3.5で画像の再構成と編集に成功しました。