熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Zephyr
DM 已開放
訂閱 X 閱讀我關於科技、人工智慧、半導體的文章
推理之王

Artificial Analysis6 小時前
Google TPU v6e 與 AMD MI300X 與 NVIDIA H100/B200:Artificial Analysis 的硬體基準測試顯示,NVIDIA 在每美元代幣數量上相較於 TPU v6e (Trillium) 取得約 5 倍的優勢,並且在我們的關鍵推理成本指標上相較於 MI300X 取得約 2 倍的優勢。
在我們的推理成本指標中,稱為每百萬輸入和輸出代幣的成本(在參考速度下),我們看到 NVIDIA H100 和 B200 系統的整體成本低於 TPU v6e 和 MI300X。對於以 vLLM 在每查詢參考速度 30 輸出代幣/秒運行的 Llama 3.3 70B,NVIDIA H100 的每百萬輸入和輸出代幣成本為 $1.06,相較於 MI300X 的 $2.24 和 TPU v6e 的 $5.13。
這項分析依賴於 Artificial Analysis 系統負載測試的結果,該測試針對不同的併發級別進行系統推理吞吐量測試,以及我們從多家 GPU 雲端提供商收集的 GPU 實例定價數據。“每百萬輸入和輸出代幣的成本(在參考速度下)”使用系統在每查詢保持 30 輸出代幣每秒的情況下所能達到的系統吞吐量,並將系統的租用成本除以該吞吐量(按百萬代幣進行縮放)。
在 Artificial Analysis 硬體基準測試頁面上可以查看不同併發和速度級別的完整結果。
重要背景:
➤ 我們僅報告 TPU v6e 運行 Llama 3.3 70B 的結果,因為這是我們硬體頁面上唯一官方支持 vLLM 在 TPU 上的模型。我們報告 NVIDIA Hopper 和 Blackwell 系統的結果,現在也報告 AMD MI300X 的結果,涵蓋我們硬體頁面上的所有四個模型:gpt-oss-120b、Llama 4 Maverick、DeepSeek R1 和 Llama 3.3 70B。
➤ 這些結果基於公司目前在雲端可以租用的資源 - 下一代 MI355X 和 TPU v7 加速器尚未廣泛可用。我們取自一組 GPU 雲端提供商的最低價格。TPU v6e 的按需定價為每顆晶片每小時 $2.70,這比我們追蹤的 NVIDIA B200 的最低價格 ($5.50 每小時) 便宜,但與 NVIDIA H100 ($2.70 每小時) 和 AMD MI300X ($2 每小時) 相似。
➤ Google 的 TPU v7 (Ironwood) 將在接下來幾週內普遍可用。我們預期 TPU v7 將大幅超越 v6e,考慮到計算能力的飛躍(918 TFLOPS 到 4,614 TFLOPS)、記憶體(32GB 到 192GB)和記憶體帶寬(1.6 TB/s 到 7.4 TB/s)。然而,我們尚不清楚 Google 將對這些實例收取多少費用 - 因此對每代幣隱含成本的影響尚不明朗。
➤ 我們的每百萬輸入和輸出代幣成本指標無法直接與無伺服器 API 定價進行比較。給定部署的每百萬代幣的整體隱含成本受您希望達到的每查詢速度(由批量大小/併發驅動)和輸入與輸出代幣的比例影響。
➤ 這些結果均針對擁有 8 個加速器的系統 - 即 8xH100、8xB200、8xTPU v6e、8xMI300X。
我們最近還發布了更新的 Blackwell 結果 - 更多分析將很快推出。

11.67K
熱門
排行
收藏



