Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Cline
Chúng tôi chuyển đổi suy luận của bạn thành mã sản xuất.
Cline gặp gỡ các nhà phát triển nơi họ đang có, trong IDE của bạn, trong quy trình làm việc của bạn, và tuần tới tại re:Invent.
Daniel ( @NighttrekETH), Francis ( @inferencetoken), và Rashad sẽ có mặt ở Vegas cả tuần để nói về lập trình agentic, nghe những gì bạn đang xây dựng, và kết nối.
Gửi tin nhắn để uống cà phê hoặc trò chuyện. Nếu bạn thấy chúng tôi ở đó, hãy chào, chúng tôi có quà tặng độc quyền.

3,55K
OpenAI đã rõ ràng rằng các đánh giá nên "biến các mục tiêu mơ hồ thành cụ thể và rõ ràng," và rằng các đánh giá tiên tiến cần phải được kết hợp với các đánh giá ngữ cảnh phù hợp với các quy trình làm việc thực tế thay vì các sân chơi prompt:
Những gì @shyamalanadkat, Trưởng bộ phận Đánh giá Ứng dụng @OpenAI, mô tả là vòng lặp mà chúng tôi muốn cho các tác nhân lập trình với cline-bench: một bộ vàng chung của các nhiệm vụ lập trình khó khăn, thực tế nơi mà các mô hình gặp khó khăn và con người phải can thiệp, được đóng gói dưới dạng các môi trường có thể tái tạo để các phòng thí nghiệm và đội ngũ có thể xác định "tuyệt vời" trông như thế nào, đo lường hiệu suất trong các điều kiện thực tế, và cải thiện bằng cách học từ các trường hợp thất bại cụ thể:
Nếu bạn muốn bối cảnh đầy đủ về cách OpenAI nghĩ về các đánh giá, tài liệu giới thiệu ở đây:



pash03:54 21 thg 11
Chúng tôi xin thông báo về cline-bench, một chuẩn mực mã nguồn mở thực tế cho lập trình agentic.
cline-bench được xây dựng từ các nhiệm vụ kỹ thuật thực tế từ các nhà phát triển tham gia, nơi mà các mô hình tiên tiến đã thất bại và con người phải can thiệp.
Mỗi nhiệm vụ được chấp nhận trở thành một môi trường RL hoàn toàn có thể tái tạo với một bản sao kho khởi đầu, một lời nhắc thực tế và các bài kiểm tra sự thật từ mã mà cuối cùng đã được phát hành.
Đối với các phòng thí nghiệm và nhà nghiên cứu, điều này có nghĩa là:
> bạn có thể đánh giá các mô hình trên công việc kỹ thuật thực sự, không phải các câu đố leetcode.
> bạn nhận được các môi trường tương thích với Harbor và công cụ đánh giá hiện đại để so sánh song song.
> bạn có thể sử dụng cùng một nhiệm vụ cho SFT và RL để việc đào tạo và đánh giá vẫn gắn liền với quy trình làm việc kỹ thuật thực tế.
Hôm nay, chúng tôi mở cửa cho các đóng góp và bắt đầu thu thập các nhiệm vụ thông qua Cline Provider. Sự tham gia là tùy chọn và giới hạn cho các kho mã nguồn mở.
Khi một nhiệm vụ khó làm khó một mô hình và bạn can thiệp, thất bại đó có thể được chuyển thành một môi trường tiêu chuẩn hóa mà toàn bộ cộng đồng có thể nghiên cứu, đánh giá và đào tạo.
Nếu bạn làm việc trên các vấn đề mã nguồn mở khó khăn, đặc biệt là OSS thương mại, tôi muốn mời bạn tham gia. Chúng tôi cam kết 1 triệu đô la để tài trợ cho các người duy trì mã nguồn mở tham gia vào sáng kiến cline-bench.
"Cline-bench là một ví dụ tuyệt vời về cách các chuẩn mực mở, thực tế có thể thúc đẩy toàn bộ hệ sinh thái tiến lên. Các nhiệm vụ lập trình chất lượng cao, được xác minh, gắn liền với quy trình làm việc thực tế của các nhà phát triển chính là những gì chúng tôi cần để đo lường có ý nghĩa các mô hình tiên tiến, phát hiện các chế độ thất bại và thúc đẩy công nghệ tiên tiến."
– @shyamalanadkat, Trưởng phòng Đánh giá Ứng dụng @OpenAI
"Nghiên cứu Nous tập trung vào việc đào tạo và phát triển các mô hình xuất sắc trong các nhiệm vụ thực tế. cline-bench sẽ là một công cụ thiết yếu trong nỗ lực của chúng tôi để tối đa hóa hiệu suất và hiểu rõ khả năng của các mô hình của chúng tôi."
– @Teknium, Trưởng phòng Đào tạo Sau @nousresearch
"Chúng tôi là những người hâm mộ lớn của mọi thứ mà Cline đã làm để trao quyền cho hệ sinh thái AI mã nguồn mở, và rất hào hứng để hỗ trợ việc phát hành cline-bench. Các môi trường mở chất lượng cao cho lập trình agentic là vô cùng hiếm. Việc phát hành này sẽ đi một chặng đường dài cả như một đánh giá về khả năng và như một nền tảng thử nghiệm sau đào tạo cho các nhiệm vụ thực tế khó khăn, nâng cao hiểu biết và khả năng tập thể của chúng tôi về phát triển phần mềm tự động."
– @willccbb, Trưởng phòng Nghiên cứu @PrimeIntellect:
"Chúng tôi chia sẻ cam kết của Cline đối với mã nguồn mở và tin rằng việc làm cho chuẩn mực này có sẵn cho tất cả sẽ giúp chúng tôi tiếp tục thúc đẩy khả năng lập trình tiên tiến của các LLM của chúng tôi."
– @b_roziere, Nhà khoa học Nghiên cứu @MistralAI:
Chi tiết đầy đủ có trong blog:

6,83K
Hàng đầu
Thứ hạng
Yêu thích

