A principios de esta semana@NVIDIA compartió su rendimiento en el modelo gpt-oss-120B de @OpenAI que se ejecuta en DGX B200 (8 chips Blackwell de dos troqueles). Le pidieron a @ArtificialAnlys análisis que hiciera una configuración especial para ellos. Mostraron un rendimiento de 900 tokens por segundo para un usuario y se redujeron a 580 tokens por segundo para 10 usuarios. He pegado su enlace en los comentarios a continuación. Le pedimos a Artificial Analysis que ejecutara la misma configuración para nosotros. El resultado es ~2700 token/s para 1 y lo mismo para 10 usuarios. @CerebrasSystems Inference no solo es el más rápido, sino que mantenemos el rendimiento a medida que escala su carga de trabajo. Cerebras Inference está en plena producción hoy, sirviendo miles de millones de tokens GPT 120B por semana en @OpenRouterAI , @huggingface y Cerebras Cloud.
80.12K