لقد تصارعنا مع هذا كثيرا في @MerlinAIByFoyer. تشبيه "Evals هي CI / CD ل الذكاء الاصطناعي" لا يصمد حقا لأن CI / CD يزدهر على الاستقرار ، بينما يتحول الذكاء الاصطناعي من أسبوع لآخر. وتماما مثل CI / CD ، فإن تدوير الإيفالات الثقيلة في التحفيز يستهلك الكثير من الوقت. لقد جربناها واستسلمنا إلى ما بعد نقطة. يعد تقييم العوامل / ML أمرا ضروريا ، لكن بناء سقالات متقنة في وقت مبكر جدا يبطئك. لذلك توصلنا إلى حل وسط: نقوم برعاية مجموعة صغيرة عالية الإشارة من ~ 10-100 سؤال / سيناريو ونختبر ضدها. يعطينا هذا فكرة عما يعمل بشكل جيد ، بينما يمكننا تشغيل خط الأنابيب الخاص بنا بسرعة خلال هذا خلال المرحلة 0-1 نفسها. في الآونة الأخيرة ، نظرا لأن @benhylak و @snarkyzk والفريق يبنون @raindrop_ai ، فقد حصلنا على أميال حقيقية من خلال مراقبة حالات الفشل في الإنتاج وطي تلك الحالات أو الحالات المماثلة مرة أخرى في مجموعة البيانات.
swyx
swyx‏5 سبتمبر، 06:08
كود كلود: لا توجد إيفالات [شركة وكيل الكود المعروفة]: لا توجد إيفالات [شركة وكيل الكود المعروفة 2]: كيندا Halfassed Evals [شركة ترميز Vibe الرائدة]: لا توجد إيفالات [الرئيس التنفيذي لشركة تبيع لك إيفال]: مممممم نعم جميع كبار عملائي يقومون بعمل EVALS ، يجب أن تفعل EVALS [رأس المال الاستثماري يحب الرئيس التنفيذي لشركة Evals]: MMMMM نعم ، جميع كبار المؤسسين يقومون بعمل Evals ، يجب أن يفعلوا evals (ملاحظة: أعتقد أيضا أن evals هي impt ، لكن مهندسي الذكاء الاصطناعي المبوب قد لاحظوا أيضا أنه ليس شرطا صارما للنجاح ، وعلى الأقل بالنسبة للمرحلة من 0 إلى 1 ، قد يكون غير مرتبط ، فكر في السبب)
‏‎4.07‏K