المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لقد تصارعنا مع هذا كثيرا في @MerlinAIByFoyer. تشبيه "Evals هي CI / CD ل الذكاء الاصطناعي" لا يصمد حقا لأن CI / CD يزدهر على الاستقرار ، بينما يتحول الذكاء الاصطناعي من أسبوع لآخر. وتماما مثل CI / CD ، فإن تدوير الإيفالات الثقيلة في التحفيز يستهلك الكثير من الوقت. لقد جربناها واستسلمنا إلى ما بعد نقطة.
يعد تقييم العوامل / ML أمرا ضروريا ، لكن بناء سقالات متقنة في وقت مبكر جدا يبطئك. لذلك توصلنا إلى حل وسط: نقوم برعاية مجموعة صغيرة عالية الإشارة من ~ 10-100 سؤال / سيناريو ونختبر ضدها. يعطينا هذا فكرة عما يعمل بشكل جيد ، بينما يمكننا تشغيل خط الأنابيب الخاص بنا بسرعة خلال هذا خلال المرحلة 0-1 نفسها.
في الآونة الأخيرة ، نظرا لأن @benhylak و @snarkyzk والفريق يبنون @raindrop_ai ، فقد حصلنا على أميال حقيقية من خلال مراقبة حالات الفشل في الإنتاج وطي تلك الحالات أو الحالات المماثلة مرة أخرى في مجموعة البيانات.

5 سبتمبر، 06:08
كود كلود: لا توجد إيفالات
[شركة وكيل الكود المعروفة]: لا توجد إيفالات
[شركة وكيل الكود المعروفة 2]: كيندا Halfassed Evals
[شركة ترميز Vibe الرائدة]: لا توجد إيفالات
[الرئيس التنفيذي لشركة تبيع لك إيفال]: مممممم نعم جميع كبار عملائي يقومون بعمل EVALS ، يجب أن تفعل EVALS
[رأس المال الاستثماري يحب الرئيس التنفيذي لشركة Evals]: MMMMM نعم ، جميع كبار المؤسسين يقومون بعمل Evals ، يجب أن يفعلوا evals
(ملاحظة: أعتقد أيضا أن evals هي impt ، لكن مهندسي الذكاء الاصطناعي المبوب قد لاحظوا أيضا أنه ليس شرطا صارما للنجاح ، وعلى الأقل بالنسبة للمرحلة من 0 إلى 1 ، قد يكون غير مرتبط ، فكر في السبب)

4.07K
الأفضل
المُتصدِّرة
التطبيقات المفضلة