المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
المعايير في عالم نموذج اللغة تشبه الاختبارات الموحدة في التعليم.
لا تضمن درجة SAT العالية النجاح في كل تخصص جامعي. وبالمثل ، فإن النتيجة المعيارية العالية لا تضمن أن النموذج سيتفوق في كل مهمة.
إليك كيفية تفسيرها بحكمة. 🧵
ثلاثة أنواع من المعايير مهمة لمستخدمي Cline:
> قدرة الترميز - هل يمكنه فهم وإنشاء التعليمات البرمجية؟
معرفة المجال > - هل تعرف مجالك؟
استخدام الأداة > - هل يمكن أن تعمل مع تكاملات MCP؟
تختبر المعايير المختلفة جوانب مختلفة من الذكاء.

للترميز: تبرز SWE-Bench.
يختبر النماذج ضد مشكلات GitHub الحقيقية من المشاريع مفتوحة المصدر الشائعة. ليست مشاكل مصطنعة - الأخطاء والميزات الفعلية التي يواجهها المطورون يوميا.

درجة SWE-Bench قوية = جيدة في إصلاح الأخطاء وتنفيذ الميزات وإعادة بناء التعليمات البرمجية الحقيقية.
المعايير الخاصة بالمجال مهمة للعمل المتخصص:
• MMLU - 57 مادة أكاديمية (الرعاية الصحية والمالية والعلوم)
• GPQA - علم الأحياء والفيزياء والكيمياء على مستوى الدراسات العليا
• AIME - التفكير الرياضي المتقدم
بناء تطبيقات الرعاية الصحية؟ تحقق من درجات علم الأحياء.
النمذجة المالية؟ أداء الرياضيات مهم.
اختبار معايير استخدام الأداة قدرات MCP:
هل يمكن للنموذج:
• تنسيق مكالمات الأدوات بشكل صحيح؟
• اختر الأدوات المناسبة؟
• ربط أدوات متعددة معا؟
أمر بالغ الأهمية لإعدادات Cline باستخدام تجريف الويب أو أتمتة المتصفح أو أنظمة الذاكرة الموسعة.
القيد: المعايير تحكي جزءا فقط من القصة.
قد يتفوق نموذجان لهما درجات SWE-Bench متشابهة في أشياء مختلفة تماما.

6.4K
الأفضل
المُتصدِّرة
التطبيقات المفضلة