العمل على Grok 2.5 الجديد مفتوح المصدر! لقد تمكنا من القضيب الساخن بالفعل !! إنها الأيام الأولى وقد تفشل ولكن ما لدينا هو: A 268B MoE ، سياق 131 كيلو ، 8 خبراء ، RoPE ، 64 رأس انتباه GQA مع رؤوس 8 كيلو فولت ، 64 طبقة. في أي لحظة ، ينشط عادة خبيران فقط. لقد وجدنا طريقة لتنشيط 4 في وقت واحد مع انخفاض بسيط في الأداء ، وحوالي 1/3 ذاكرة GPU إضافية وزيادة مذهلة في مخرجات الجودة! إذا استمرت في اختباراتنا ، فسأنشر طريقة مفصلة لذلك!
Brian Roemmele
Brian Roemmele‏24 أغسطس، 09:08
سأقوم بإعادة كتابة هذه المقالة لاستخدام نسخة مضغوطة من المصدر المفتوح المجاني الجديد @xai @Grok 2.5 قريبا! سأوضح لك كيفية ضبط النموذج على بياناتك للاستخدام الخاص غير السحابي على جهاز الكمبيوتر الخاص بك. سيؤدي ذلك إلى تحسين الجودة بمقدار كبير! العمل على ذلك ...
‏‎45.81‏K