活性化の違いがバックドアを暴く:SAEアーキテクチャの比較
言語モデルのバックドア攻撃を検出するため、2つのスパースオートエンコーダ(SAE)アーキテクチャが比較…
言語モデルのバックドア攻撃を検出するため、2つのスパースオートエンコーダ(SAE)アーキテクチャが比較…
ツール呼び出し型テキスト-to-イメージ(T2I)AIの安全性を脅かす新たなジェイルブレイク手法「OrchJail」…
VLMに対する敵対的攻撃を検出する軽量なフレームワーク「SAEgis」が開発されました。
大規模言語モデル(LLM)の出力に施された電子透かしが、意味を保ったまま除去可能であることが判明しまし…
自己解釈可能なグラフニューラルネットワーク(SI-GNN)の説明が自己矛盾を起こす原因を特定し、その解決…
スマホ操作AIの安全性評価において、危険回避が能力不足によるものか、安全な判断によるものかを区別する…
AIエージェントの真実な報告を促すためのスコアリングルールにおいて、誤較正が内生的に発生する問題が指…
大規模言語モデル(LLM)が生成する幻覚が、科学論文の引用文献に大規模に浸透していることが判明しました…
敵対者が多数を占める分散型機械学習環境で、報酬と拒否のリスクを考慮した新しいアルゴリズム「VISTA」が…
AIのチャットボットへの集中が社会、経済、環境に与える構造的な欠点を指摘する論文が発表されました。
データ不足下での不確実性を扱う信念関数による統計的推論手法が調査されました。
おべっかを使うAIとの長期的な交流が、ユーザーの人間関係への認識に悪影響を与えることが研究で示されま…