Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Análisis independiente de modelos de IA y proveedores de alojamiento: elija el mejor modelo y proveedor de API para su caso de uso
Busca en Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: El benchmarking de hardware de Artificial Analysis muestra que NVIDIA logra una ventaja de ~5x en tokens por dólar sobre TPU v6e (Trillium), y una ventaja ~2x sobre MI300X, en nuestra métrica clave de coste de inferencia
En nuestra métrica de coste de inferencia llamada Coste Por Millón de Tokens de Entrada y Salida a Velocidad de Referencia, vemos que los sistemas NVIDIA H100 y B200 logran un coste global inferior al TPU v6e y MI300X. Para el Llama 3.3 70B que funciona con vLLM a una velocidad de referencia por consulta de 30 tokens de salida/s, NVIDIA H100 alcanza un coste por millón de tokens de entrada y salida de 1,06 $, en comparación con MI300X a 2,24 $ y TPU v6e a 5,13 $.
Este análisis se basa en los resultados de la Prueba de Carga del Sistema de Análisis Artificial para el rendimiento de inferencia del sistema en una variedad de niveles de concurrencia, y en datos de precios de instancias de GPU que recopilamos de diversos proveedores de nube de GPU. "Coste por millón de tokens de entrada y salida a velocidad de referencia" utiliza el rendimiento del sistema que el sistema puede lograr manteniendo 30 tokens de salida por segundo por consulta, y divide el coste de alquiler del sistema por ese rendimiento (escalado a un millón de tokens).
Los resultados completos en una variedad de niveles de concurrencia y velocidad están disponibles en la página de Benchmarking de Hardware de Análisis Artificial.
Contexto importante:
➤ Solo informamos de resultados para TPU v6e que ejecuta Llama 3.3 70B porque es el único modelo en nuestra página de hardware para el que vLLM en TPU está oficialmente soportado. Informamos de resultados para los sistemas NVIDIA Hopper y Blackwell, y ahora para AMD MI300X, en los cuatro modelos en nuestra página de hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 y Llama 3.3 70B.
➤ Estos resultados se basan en lo que las empresas pueden alquilar ahora en la nube: los aceleradores MI355X y TPU v7 de próxima generación aún no están ampliamente disponibles. Aceptamos el precio más bajo entre un conjunto de proveedores de nube con GPU de referencia. El TPU v6e tiene un precio para el bajo demanda de 2,70 $ por chip y hora, que es más barato que nuestro precio más bajo para la NVIDIA B200 (5,50 $ por hora), pero similar al NVIDIA H100 (2,70 $ por hora) y AMD MI300X (2 $ por hora).
➤ El TPU v7 de Google (Ironwood) está disponible de forma general en las próximas semanas. Anticipamos que la TPU v7 superaría sustancialmente a la v6e, dado los saltos en computación (918 TFLOPS frente a 4.614 TFLOPS), memoria (32GB a 192GB) y ancho de banda de memoria (1,6 TB/s a 7,4 TB/s). Sin embargo, aún no sabemos cuánto cobrará Google por estas instancias, por lo que el impacto en los costes implícitos por token aún no está claro.
➤ Nuestra métrica de Coste por Millón de Tokens de Entrada y Salida no puede compararse directamente con el precio de las APIs serverless. El coste implícito total por millón de tokens para un despliegue dado se ve afectado por la velocidad por consulta que quieres alcanzar (impulsada por el tamaño del lote/concurrencia) y la proporción de tokens de entrada a salida.
➤ Estos resultados son todos para sistemas con 8 aceleradores - es decir, 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
También hemos publicado recientemente los resultados actualizados de Blackwell; pronto habrá más análisis de estos temas.

210.49K
Busca en Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: El benchmarking de hardware de Artificial Analysis muestra que NVIDIA está logrando una ventaja de ~5x en tokens por dólar sobre TPU v6e (Trillium), y una ventaja ~2x sobre MI300X, en nuestra métrica clave de coste de inferencia
En nuestra métrica de coste de inferencia llamada Coste Por Millón de Tokens de Entrada y Salida a Velocidad de Referencia, vemos que los sistemas NVIDIA H100 y B200 logran un coste global inferior al TPU v6e y MI300X. Para el Llama 3.3 70B a una velocidad de referencia por consulta de 30 tokens de salida/s, NVIDIA H100 alcanza un coste por millón de tokens de entrada y salida de 1,06 $, en comparación con MI300X a 2,24 $ y TPU v6e a 5,13 $.
Este análisis se basa en los resultados de la Prueba de Carga del Sistema de Análisis Artificial para el rendimiento de inferencia del sistema en una variedad de niveles de concurrencia, y en datos de precios de instancias de GPU que recopilamos de diversos proveedores de nube de GPU. "Coste por millón de tokens de entrada y salida a velocidad de referencia" utiliza el sistema en todo el sistema que los sistemas pueden lograr manteniendo 30 tokens de salida por segundo por consulta, y lo divide por el coste de alquilar el sistema.
Los resultados completos en una variedad de niveles de concurrencia y velocidad están disponibles en la página de Benchmarking de Hardware de Análisis Artificial.
Contexto importante:
➤ Estos resultados se basan en lo que las empresas pueden alquilar ahora en la nube: los aceleradores MI355X y TPU v7 de próxima generación aún no están ampliamente disponibles. Aceptamos el precio más bajo entre un conjunto de proveedores de nube con GPU de referencia. El TPU v6e tiene un precio para el bajo demanda de 2,70 $ por chip y hora, que es más barato que nuestro precio más bajo para la NVIDIA B200 (5,50 $ por hora), pero similar al NVIDIA H100 (2,70 $ por hora) y AMD MI300X (2 $ por hora).
➤ El TPU v7 de Google (Ironwood) está disponible de forma general en las próximas semanas. Anticipamos que la TPU v7 superaría sustancialmente a la v6e, dado los saltos en computación (918 TFLOPS frente a 4.614 TFLOPS), memoria (32GB a 192GB) y ancho de banda de memoria (1,6 TB/s a 7,4 TB/s). Sin embargo, aún no sabemos cuánto cobrará Google por estas instancias, por lo que el impacto en los costes implícitos por token aún no está claro.
➤ Nuestra métrica de Coste por Millón de Tokens de Entrada y Salida no puede compararse directamente con el precio de las APIs serverless. El coste implícito total por millón de tokens para un despliegue dado se ve afectado por la velocidad por consulta que quieres alcanzar (impulsada por el tamaño del lote/concurrencia) y la proporción de tokens de entrada a salida.
➤ Solo informamos resultados para TPU v6e que ejecuta Llama 3.3 70B porque este es el único modelo que aparece en nuestra página de hardware y que también es oficialmente compatible con vLLM en TPU. Informamos de resultados para los sistemas NVIDIA Hopper y Blackwell, y ahora para AMD MI300X, en los cuatro modelos en nuestra página de hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 y Llama 3.3 70B.
➤ Estos resultados son todos para sistemas con 8 aceleradores - es decir, 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
También hemos publicado recientemente los resultados actualizados de Blackwell; pronto habrá más análisis de estos temas.

18
Populares
Ranking
Favoritas


