OpenAI чітко зазначив, що оцінки мають «робити нечіткі цілі конкретними та чіткими», а оцінки фронтира мають поєднуватися з контекстуальними оцінками, які відповідають реальним робочим процесам, а не підказкам: Те, що @shyamalanadkat, керівник Applied Evals @OpenAI, описує, що існує той самий цикл, який ми хочемо для кодувальних агентів з Cline-Bench: спільний золотий набір складних, реальних завдань кодування, де моделі стикалися з труднощами, а люди мусили втручатися, упакованих як відтворювані середовища, щоб лабораторії та команди могли визначати, як виглядає «чудово», вимірювати продуктивність у реальних умовах, та покращуватися, навчаючись на конкретних випадках відмови: Якщо хочете дізнатися повний контекст про те, як OpenAI думає про оцінки, ось тут: