Improving Model Safety Behavior with Rule-Based Rewards
概要
We've developed and applied a new method leveraging Rule-Based Rewards (RBRs) that aligns models to behave safely without extensive human data collection.
We've developed and applied a new method leveraging Rule-Based Rewards (RBRs) that aligns models to behave safely without extensive human data collection.
SpaceXが最大100万個のデータセンターを地球軌道に打ち上げる申請を行いました。
元Facebook社員が設立したMoonbounceが、AI制御エンジン開発のため1200万ドルを調達しました。
OpenAIがテック系トーク番組「TBPN(The Broadcast Podcast Network)」を買収しました。
Appleの50周年を記念し、読者投票で「Apple史上最高の製品」が決定しました。