متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

لقد تصارعنا مع هذا كثيرا في @MerlinAIByFoyer. تشبيه "Evals هي CI / CD ل الذكاء الاصطناعي" لا يصمد حقا لأن CI / CD يزدهر على الاستقرار ، بينما يتحول الذكاء الاصطناعي من أسبوع لآخر. وتماما مثل CI / CD ، فإن تدوير الإيفالات الثقيلة في التحفيز يستهلك الكثير من الوقت. لقد جربناها واستسلمنا إلى ما بعد نقطة. يعد تقييم العوامل / ML أمرا ضروريا ، لكن بناء سقالات متقنة في وقت مبكر جدا يبطئك. لذلك توصلنا إلى حل وسط: نقوم برعاية مجموعة صغيرة عالية الإشارة من ~ 10-100 سؤال / سيناريو ونختبر ضدها. يعطينا هذا فكرة عما يعمل بشكل جيد ، بينما يمكننا تشغيل خط الأنابيب الخاص بنا بسرعة خلال هذا خلال المرحلة 0-1 نفسها. في الآونة الأخيرة ، نظرا لأن @benhylak و @snarkyzk والفريق يبنون @raindrop_ai ، فقد حصلنا على أميال حقيقية من خلال مراقبة حالات الفشل في الإنتاج وطي تلك الحالات أو الحالات المماثلة مرة أخرى في مجموعة البيانات.

‏‎4.07‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة