熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Cline
我們將您的推論轉換為生產程式碼。
OpenAI 已經明確表示,評估應該 "使模糊的目標具體化和明確化",而前沿評估需要與匹配實際工作流程的上下文評估配對,而不是提示遊樂場:
@shyamalanadkat,OpenAI 應用評估部門負責人,所描述的正是我們希望為編碼代理人與 cline-bench 所建立的相同循環:一組共享的黃金集,包含艱難的、現實世界的編碼任務,模型在這些任務中掙扎,人類不得不介入,這些任務被打包為可重現的環境,以便實驗室和團隊可以具體說明什麼是 "優秀",在真實條件下測量性能,並通過從具體失敗案例中學習來改進:
如果你想了解 OpenAI 如何看待評估的完整背景,這裡有入門資料:



pash11月21日 03:54
我們宣布推出 cline-bench,一個針對代理編碼的現實世界開源基準。
cline-bench 是由參與開發者的現實工程任務構建而成,這些任務是前沿模型失敗時人類不得不介入的情況。
每個被接受的任務都會成為一個完全可重現的強化學習環境,包含一個起始的代碼庫快照、一個真實的提示,以及最終發佈的代碼的真實測試。
對於實驗室和研究人員來說,這意味著:
> 你可以在真實的工程工作上評估模型,而不是 leetcode 謎題。
> 你獲得的環境與 Harbor 和現代評估工具兼容,便於並排比較。
> 你可以使用相同的任務進行 SFT 和 RL,這樣訓練和評估就能保持在真實的工程工作流程中。
今天,我們開始開放貢獻,並通過 Cline Provider 開始收集任務。參與是自願的,並且僅限於開源代碼庫。
當一個困難的任務讓模型陷入困境,而你介入時,這種失敗可以轉化為一個標準化的環境,整個社區都可以研究、基準測試和訓練。
如果你在解決困難的開源問題,特別是商業 OSS,我想親自邀請你來幫忙。我們承諾提供 100 萬美元來贊助開源維護者參加 cline-bench 計劃。
"Cline-bench 是一個很好的例子,展示了開放的現實世界基準如何推動整個生態系統向前發展。高質量、經過驗證的編碼任務,基於實際開發者工作流程,正是我們需要的,以有意義地衡量前沿模型、揭示失敗模式,並推進技術的最前沿。"
– @shyamalanadkat,OpenAI 應用評估部門負責人
"Nous Research 專注於訓練和推廣在現實世界任務中表現優異的模型。cline-bench 將是我們努力最大化模型性能和理解其能力的重要工具。"
– @Teknium,nousresearch 後訓練部門負責人
"我們是 Cline 所做的一切以賦能開源 AI 生態系統的忠實粉絲,並對支持 cline-bench 的發布感到非常興奮。高質量的開放環境對於代理編碼來說是極其稀有的。這次發布將在能力評估和作為挑戰性現實世界任務的後訓練測試平台方面走得很遠,推進我們對自主軟件開發的集體理解和能力。"
– @willccbb,PrimeIntellect 研究負責人
"我們與 Cline 共享對開源的承諾,並相信讓這個基準對所有人可用將幫助我們繼續推進我們 LLM 的前沿編碼能力。"
– @b_roziere,MistralAI 研究科學家
完整細節請參見博客:

6.24K
熱門
排行
收藏



