في وقت سابق من هذا الأسبوع ، شاركت @NVIDIA أدائها على طراز gpt-oss-120B من @OpenAI الذي يعمل على DGX B200 (8 رقائق Blackwell اثنتين). طلبوا @ArtificialAnlys التحليل للقيام بإعداد خاص لهم. أظهروا أداء 900 رمز في الثانية لمستخدم واحد ، وانخفضوا إلى 580 رمزا في الثانية ل 10 مستخدمين. لقد قمت بلصق رابطهم في التعليقات أدناه. طلبنا من التحليل الاصطناعي تشغيل نفس الإعداد لنا. والنتيجة هي ~ 2700 رمز / ثانية ل 1 ونفس الشيء ل 10 مستخدمين. لا يعد @CerebrasSystems Inference الأسرع فحسب، بل نحافظ على الأداء أثناء زيادة حجم العمل الخاص بك. Cerebras Inference قيد الإنتاج الكامل اليوم ، حيث يخدم مليارات رموز GPT 120B أسبوعيا على @OpenRouterAI و @huggingface و Cerebras Cloud.
‏‎80.08‏K