DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Zephyr

DM terbuka Berlangganan X untuk membaca artikel saya tentang teknologi, AI, semikonduktor

Raja Inferensi

Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Benchmarking Perangkat Keras Analisis Buatan menunjukkan NVIDIA mencapai keunggulan ~5x token per dolar dibandingkan TPU v6e (Trillium), dan keunggulan ~2x dibandingkan MI300X, dalam metrik biaya inferensi utama kami Dalam metrik kami untuk biaya inferensi yang disebut Biaya Per Juta Token Input dan Output pada Kecepatan Referensi, kami melihat sistem NVIDIA H100 dan B200 mencapai biaya keseluruhan yang lebih rendah daripada TPU v6e dan MI300X. Untuk Llama 3.3 70B yang berjalan dengan vLLM pada Kecepatan Referensi Per-Kueri 30 token keluaran, NVIDIA H100 mencapai Biaya Per Juta Token Input dan Output sebesar $1,06, dibandingkan dengan MI300X pada $2,24 dan TPU v6e pada $5,13. Analisis ini bergantung pada hasil Uji Beban Sistem Analisis Buatan untuk throughput inferensi sistem di berbagai tingkat konkurensi, dan data harga instans GPU yang kami kumpulkan dari berbagai penyedia cloud GPU. "Biaya Per Juta Token Input dan Output pada Kecepatan Referensi" menggunakan throughput sistem yang dapat dicapai sistem sambil mempertahankan 30 token output per detik per kueri, dan membagi biaya sewa sistem dengan throughput tersebut (diskalakan menjadi satu juta token). Hasil lengkap di berbagai tingkat konkurensi dan kecepatan tersedia di halaman Benchmarking Perangkat Keras Analisis Buatan. Konteks penting: ➤ Kami hanya melaporkan hasil untuk TPU v6e yang menjalankan Llama 3.3 70B karena ini adalah satu-satunya model di halaman perangkat keras kami yang didukung secara resmi vLLM pada TPU. Kami melaporkan hasil untuk sistem NVIDIA Hopper dan Blackwell, dan sekarang untuk AMD MI300X, di keempat model di halaman perangkat keras kami: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 dan Llama 3.3 70B. Hasil ini didasarkan pada apa yang dapat disewa perusahaan sekarang di cloud - akselerator MI355X dan TPU v7 generasi berikutnya belum tersedia secara luas. Kami mengambil harga terendah di seluruh kumpulan referensi penyedia cloud GPU. TPU v6e dihargai sesuai permintaan sebesar $2.70 per chip per jam, yang lebih murah daripada harga terlacak terendah kami untuk NVIDIA B200 ($5.50 per jam) tetapi mirip dengan NVIDIA H100 ($2.70 per jam) dan AMD MI300X ($2 per jam). ➤ TPU v7 Google (Ironwood) akan tersedia secara umum dalam beberapa minggu mendatang. Kami akan mengantisipasi TPU v7 mengungguli v6e secara substansial, mengingat lompatan dalam komputasi (918 TFLOPS hingga 4.614 TFLOPS), memori (32GB hingga 192GB) dan bandwidth memori (1,6 TB/s hingga 7,4 TB/s). Namun, kami belum tahu apa yang akan dikenakan Google untuk instans ini - jadi dampaknya pada biaya per token tersirat belum jelas. ➤ Metrik Biaya per Juta Token Input dan Output kami tidak dapat dibandingkan langsung dengan harga API tanpa server. Biaya tersirat keseluruhan per juta token untuk penyebaran tertentu dipengaruhi oleh kecepatan per kueri yang ingin Anda tuju (didorong oleh ukuran batch/konkurensi) dan rasio token input terhadap output. ➤ Hasil ini semua untuk sistem dengan 8 akselerator - yaitu. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Kami juga baru-baru ini menerbitkan hasil Blackwell yang diperbarui - analisis lebih lanjut akan segera hadir.

Teratas

Peringkat

Favorit