AI倫理 EN MIT Tech Review

AIベンチマークは機能不全。代わりに必要なものとは。

AI benchmarks are broken. Here’s what we need instead.

記事のポイント

何が起きたかAIの性能評価に使われるベンチマークが、現状のAIの能力を適切に測れていないと指摘されています。
何がすごいかAIと人間の単純な比較ではなく、AIが人間と協調して問題を解決する能力を評価する新基準が求められています。
誰に影響あるかAI開発者や研究者は、より実用的なAIの評価方法を導入することで、社会に役立つAIの開発を加速できます。
従来のAI評価は、チェスや数学、コーディングなど、特定のタスクでAIが人間を上回るかどうかに焦点を当てていました。
しかし、現代のAIは人間と協力して複雑な問題を解決する能力が重要であり、この協調性を測るベンチマークが不足しています。
新しい評価基準は、AIが現実世界でどのように機能するかをより正確に反映するでしょう。

概要

For decades, artificial intelligence has been evaluated through the question of whether machines outperform humans. From chess to advanced math, from coding to essay writing, the performance of AI models and applications is tested against that of individual humans completing tasks.  This framing is…

元記事を読む →

関連記事