جدول مثير للاهتمام من DeepSeek v3.2 يقارن عدد رموز الإخراج في اختبارات الأداء المختلفة، نسخة DSV3.2 الخاصة تفكر أكثر بكثير من أي نموذج آخر، لكن بما أنهم يستخدمون اهتماما متناثرا، فإن تكلفة الاستدلال ستظل مقبولة؟
يبدو أن ميسترال على وشك إصدار نموذجين جديدين: مينيسترال 3 وميسترال لارج 3.
من ناحية العمارة، يبدو أن الأمر يلي:
> تماما مثل llama2/3 في Ministral، وهو مشابه جدا (حتى لو أضافوا SWA) لأول إصدار من Mistral 7B قبل عامين.
> نفس بنية DeepSeek V3 تماما للجهاز الكبير (الذي يبدو أنه من MoE)
في كليهما، يستخدمون أيضا تحجيم الحبال LAMA4 (بدلا من الخيط)، وبالنسبة للحبل الكبير يبدو أنهم ينفذون فك الترميز الافتراضي باستخدام إيجل
رابط إلى PRS في الموضوع
يا أخي، هذه ورقة من FAIR في 2024، Llama 2/3 تم تطويرها بواسطة Genai (ليست نفس العنقود، قاعدة الكود,...) هم شفافون بشأن MFU/معدل النقل على عكس نماذج التدريب المختبرية الأخرى على هذا الحجم، وهناك أرقام فعلية في ورقة Llama 3.