OpenAIは評価を「あいまいな目標を具体的かつ明示的にすべき」と明確にし、フロンティア評価は単なるプロンプトの遊び場ではなく、実際のワークフローに合った文脈評価と組み合わせるべきだと明言しています。 応用評価部門の責任者である@shyamalanadkatApplied Evals @OpenAI氏が説明しているのは、Cline-Benchでエージェントをコーディングする際に私たちが求めるのと同じループです。つまり、モデルが苦戦し人間が介入しなければならない、現実世界のハードなコーディングタスクの共有された黄金のセットを、再現可能な環境としてパッケージ化し、ラボやチームが「素晴らしい」とは何かを指定し、実際の条件下でパフォーマンスを測定できる状態です。 具体的な故障事例から学ぶことで改善を図る: OpenAIが評価をどのように考えているかの完全な背景を知りたい方は、こちらの入門記事をご覧ください: