本週早些時候,@NVIDIA 分享了其在 @OpenAI 的 gpt-oss-120B 模型上運行的性能,該模型在 DGX B200(8 個雙芯片 Blackwell 芯片)上運行。他們要求 @ArtificialAnlys 進行特別設置。他們展示了一個用戶的性能為每秒 900 個令牌,而在 10 個用戶時降至每秒 580 個令牌。我已將他們的鏈接粘貼在下面的評論中。 我們要求 Artificial Analysis 為我們運行相同的設置。結果是 1 個用戶約為 2700 個令牌/秒,10 個用戶也是如此。@CerebrasSystems 的推理不僅是最快的,而且在您擴展工作負載時,我們能夠維持性能。Cerebras 推理今天已全面投入生產,每週在 @OpenRouterAI、@huggingface 和 Cerebras Cloud 上處理數十億個 GPT 120B 令牌。
80.1K