DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Plus tôt cette semaine, @NVIDIA a partagé ses performances sur le modèle gpt-oss-120B d'@OpenAI fonctionnant sur DGX B200 (8 puces Blackwell à deux die). Ils ont demandé à @ArtificialAnlys d'effectuer une configuration spéciale pour eux. Ils ont montré une performance de 900 tokens par seconde pour un utilisateur, et cela est tombé à 580 tokens par seconde pour 10 utilisateurs. J'ai collé leur lien dans les commentaires ci-dessous. Nous avons demandé à Artificial Analysis d'exécuter la même configuration pour nous. Le résultat est d'environ 2700 tokens/s pour 1 utilisateur et le même pour 10 utilisateurs. Non seulement @CerebrasSystems Inference est le plus rapide, mais nous maintenons la performance à mesure que vous augmentez votre charge de travail. Cerebras Inference est en pleine production aujourd'hui, servant des milliards de tokens GPT 120B par semaine sur @OpenRouterAI, @huggingface et le Cerebras Cloud.

80,08K

Meilleurs

Classement

Favoris