Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zephyr
DM terbuka
Berlangganan X untuk membaca artikel saya tentang teknologi, AI, semikonduktor
Raja Inferensi

Artificial Analysis6 jam lalu
Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Benchmarking Perangkat Keras Analisis Buatan menunjukkan NVIDIA mencapai keunggulan ~5x token per dolar dibandingkan TPU v6e (Trillium), dan keunggulan ~2x dibandingkan MI300X, dalam metrik biaya inferensi utama kami
Dalam metrik kami untuk biaya inferensi yang disebut Biaya Per Juta Token Input dan Output pada Kecepatan Referensi, kami melihat sistem NVIDIA H100 dan B200 mencapai biaya keseluruhan yang lebih rendah daripada TPU v6e dan MI300X. Untuk Llama 3.3 70B yang berjalan dengan vLLM pada Kecepatan Referensi Per-Kueri 30 token keluaran, NVIDIA H100 mencapai Biaya Per Juta Token Input dan Output sebesar $1,06, dibandingkan dengan MI300X pada $2,24 dan TPU v6e pada $5,13.
Analisis ini bergantung pada hasil Uji Beban Sistem Analisis Buatan untuk throughput inferensi sistem di berbagai tingkat konkurensi, dan data harga instans GPU yang kami kumpulkan dari berbagai penyedia cloud GPU. "Biaya Per Juta Token Input dan Output pada Kecepatan Referensi" menggunakan throughput sistem yang dapat dicapai sistem sambil mempertahankan 30 token output per detik per kueri, dan membagi biaya sewa sistem dengan throughput tersebut (diskalakan menjadi satu juta token).
Hasil lengkap di berbagai tingkat konkurensi dan kecepatan tersedia di halaman Benchmarking Perangkat Keras Analisis Buatan.
Konteks penting:
➤ Kami hanya melaporkan hasil untuk TPU v6e yang menjalankan Llama 3.3 70B karena ini adalah satu-satunya model di halaman perangkat keras kami yang didukung secara resmi vLLM pada TPU. Kami melaporkan hasil untuk sistem NVIDIA Hopper dan Blackwell, dan sekarang untuk AMD MI300X, di keempat model di halaman perangkat keras kami: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 dan Llama 3.3 70B.
Hasil ini didasarkan pada apa yang dapat disewa perusahaan sekarang di cloud - akselerator MI355X dan TPU v7 generasi berikutnya belum tersedia secara luas. Kami mengambil harga terendah di seluruh kumpulan referensi penyedia cloud GPU. TPU v6e dihargai sesuai permintaan sebesar $2.70 per chip per jam, yang lebih murah daripada harga terlacak terendah kami untuk NVIDIA B200 ($5.50 per jam) tetapi mirip dengan NVIDIA H100 ($2.70 per jam) dan AMD MI300X ($2 per jam).
➤ TPU v7 Google (Ironwood) akan tersedia secara umum dalam beberapa minggu mendatang. Kami akan mengantisipasi TPU v7 mengungguli v6e secara substansial, mengingat lompatan dalam komputasi (918 TFLOPS hingga 4.614 TFLOPS), memori (32GB hingga 192GB) dan bandwidth memori (1,6 TB/s hingga 7,4 TB/s). Namun, kami belum tahu apa yang akan dikenakan Google untuk instans ini - jadi dampaknya pada biaya per token tersirat belum jelas.
➤ Metrik Biaya per Juta Token Input dan Output kami tidak dapat dibandingkan langsung dengan harga API tanpa server. Biaya tersirat keseluruhan per juta token untuk penyebaran tertentu dipengaruhi oleh kecepatan per kueri yang ingin Anda tuju (didorong oleh ukuran batch/konkurensi) dan rasio token input terhadap output.
➤ Hasil ini semua untuk sistem dengan 8 akselerator - yaitu. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
Kami juga baru-baru ini menerbitkan hasil Blackwell yang diperbarui - analisis lebih lanjut akan segera hadir.

11,66K
>jadilah pendiri solo di Estonia yang menjalankan startup SaaS dari laptop saya
>dapatkan pelanggan pertama di Prancis
>menghabiskan 3 hari mempelajari aturan PPN bahasa Prancis
>dapatkan pelanggan kedua di Jerman
>PPN Jerman berbeda, tampaknya 16% pada hari Selasa
>Portal VIES turun lagi
>faktur ditolak karena nomor berurutan memiliki font yang salah
>bayar 500€ untuk konsultan PPN untuk memberi tahu saya bahwa saya berhutang 12€
>Email GDPR tiba dari otoritas data Austria
>Ini tentang pengguna yang mendaftar dengan email palsu
>akuntan mengatakan saya membutuhkan perwakilan lokal di 7 negara sekarang
>Total pendapatan: 78€
>Total biaya kepatuhan: 2.400 €
>Uni Eropa mengatakan mereka "mendukung inovasi"
>tutup laptop, lamar pekerjaan jarak jauh di startup AS sebagai gantinya

15,82K
"Jangan JAHAT"

New York Post13 jam lalu
Mantan nyonya mantan CEO Google Eric Schmidt menuduh raksasa teknologi melakukan pemerkosaan, pengawasan menyeramkan: dokumen pengadilan

23,2K
Teratas
Peringkat
Favorit
