Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: A análise de hardware da Artificial Analysis mostra que a NVIDIA alcança uma vantagem de ~5x em tokens por dólar em relação ao TPU v6e (Trillium) e uma vantagem de ~2x em relação ao MI300X, em nossa métrica de custo de inferência. Na nossa métrica de custo de inferência chamada Custo Por Milhão de Tokens de Entrada e Saída na Velocidade de Referência, vemos que os sistemas NVIDIA H100 e B200 alcançam um custo geral mais baixo do que o TPU v6e e o MI300X. Para o Llama 3.3 70B rodando com vLLM a uma Velocidade de Referência de Consulta de 30 tokens de saída/s, a NVIDIA H100 alcança um Custo Por Milhão de Tokens de Entrada e Saída de $1.06, em comparação com o MI300X a $2.24 e o TPU v6e a $5.13. Esta análise baseia-se nos resultados do Teste de Carga do Sistema da Artificial Analysis para a taxa de transferência de inferência do sistema em uma variedade de níveis de concorrência, e dados de preços de instâncias de GPU que coletamos de uma variedade de provedores de nuvem de GPU. "Custo Por Milhão de Tokens de Entrada e Saída na Velocidade de Referência" usa a taxa de transferência que o sistema pode alcançar enquanto mantém 30 tokens de saída por segundo por consulta, e divide o custo de aluguel do sistema por essa taxa de transferência (escalonada para um milhão de tokens). Os resultados completos em uma variedade de níveis de concorrência e velocidade estão disponíveis na página de Benchmarking de Hardware da Artificial Analysis. Contexto importante: ➤ Estamos relatando apenas resultados para o TPU v6e rodando Llama 3.3 70B porque este é o único modelo em nossa página de hardware para o qual o vLLM no TPU é oficialmente suportado. Relatamos resultados para sistemas NVIDIA Hopper e Blackwell, e agora para o AMD MI300X, em todos os quatro modelos em nossa página de hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 e Llama 3.3 70B. ➤ Esses resultados são baseados no que as empresas podem alugar agora na nuvem - os aceleradores de próxima geração MI355X e TPU v7 ainda não estão amplamente disponíveis. Pegamos o menor preço de um conjunto de referência de provedores de nuvem de GPU. O TPU v6e é precificado para sob demanda a $2.70 por chip por hora, que é mais barato do que nosso menor preço rastreado para a NVIDIA B200 ($5.50 por hora), mas semelhante ao NVIDIA H100 ($2.70 por hora) e ao AMD MI300X ($2 por hora). ➤ O TPU v7 (Ironwood) do Google estará disponível em geral nas próximas semanas. Esperamos que o TPU v7 supere substancialmente o v6e, dado os saltos em computação (918 TFLOPS para 4,614 TFLOPS), memória (32GB para 192GB) e largura de banda de memória (1.6 TB/s para 7.4 TB/s). No entanto, ainda não sabemos o que o Google cobrará por essas instâncias - então o impacto nos custos implícitos por token ainda não está claro. ➤ Nossa métrica de Custo por Milhão de Tokens de Entrada e Saída não pode ser comparada diretamente aos preços de API sem servidor. O custo implícito geral por milhão de tokens para uma determinada implantação é afetado pela velocidade por consulta que você deseja atingir (impulsionada pelo tamanho do lote/concorrência) e pela proporção de tokens de entrada para tokens de saída. ➤ Esses resultados são todos para sistemas com 8 aceleradores - ou seja, 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Recentemente, também publicamos resultados atualizados do Blackwell - mais análises sobre isso em breve.
Resultados detalhados de como o desempenho escala com a concorrência, conforme avaliado pelo Teste de Carga do Sistema de Análise Artificial
443,48K