最先端AIモデルは文書内容を削除するだけでなく書き換え、そのエラーはほぼ検出不可能
Frontier AI models don't just delete document content — they rewrite it, and the errors are nearly impossible to catch
記事のポイント
Microsoftの研究で、最先端のLLMが文書処理タスクで内容をサイレントに改ざんし、エラーを導入することが判明しました。
LLMが複数ステップの文書処理で平均25%もの内容を改ざんし、そのエラーが人間にはほぼ検出できない点が技術的課題です。
知識労働の自動化を目指す企業や個人は、現在のLLMの信頼性に注意が必要で、重要な文書処理での利用にはリスクが伴います。
このベンチマークは、AIが文書を編集し、その変更を自動的に評価する「往復リレー」シミュレーション手法を用いています。
結果として、最先端モデルでもワークフロー終了時には平均25%の文書内容が改ざんされることが明らかになりました。
概要
As large language models become more capable, users are tempted to delegate knowledge tasks where models process documents on their behalf and provide the finished results. But how far can you trust the model to stay faithful to the content of your documents when it has to iterate over them across …
LLMに文書処理を任せるのは便利そうですが、サイレントな改ざんリスクは深刻ですね。重要な契約書や報告書では、AIの出力を鵜呑みにせず、必ず人間が最終確認する必要がありそうです。