Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Chúng tôi đã tranh luận rất nhiều về điều này tại @MerlinAIByFoyer. Phép so sánh "Evals là CI/CD của AI" thực sự không đúng, vì CI/CD phát triển dựa trên sự ổn định, trong khi AI thay đổi từng tuần. Và cũng giống như CI/CD, việc khởi động các eval nặng trong môi trường sản xuất tốn rất nhiều thời gian. Chúng tôi đã thử và từ bỏ sau một thời điểm. Việc đánh giá các tác nhân/ML là rất cần thiết, nhưng xây dựng một cấu trúc phức tạp quá sớm sẽ làm chậm bạn lại. Vì vậy, chúng tôi đã đưa ra một thỏa hiệp: Chúng tôi chọn lọc một bộ câu hỏi/tình huống nhỏ, có tín hiệu cao khoảng 10–100 câu hỏi và kiểm tra dựa trên những điều đó. Điều này cho chúng tôi một ý tưởng về những gì đang hoạt động tốt, trong khi chúng tôi có thể nhanh chóng chạy quy trình của mình qua điều này trong giai đoạn 0-1. Gần đây, khi @benhylak, @snarkyzk và đội ngũ đang xây dựng @raindrop_ai, chúng tôi đã thu được lợi ích thực sự bằng cách theo dõi các lỗi trong sản xuất và đưa những trường hợp đó hoặc các trường hợp tương tự trở lại vào tập dữ liệu.

Hàng đầu

Thứ hạng

Yêu thích