Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Zephyr

DM đang mở Đăng ký trên X để đọc các bài viết của tôi về công nghệ, AI, chất bán dẫn

Vua của Suy diễn

Google TPU v6e so với AMD MI300X so với NVIDIA H100/B200: Phân tích Phần cứng của Artificial Analysis cho thấy NVIDIA đạt được lợi thế ~5x về số token trên mỗi đô la so với TPU v6e (Trillium), và lợi thế ~2x so với MI300X, trong chỉ số chi phí suy diễn chính của chúng tôi. Trong chỉ số chi phí suy diễn của chúng tôi gọi là Chi phí trên triệu token đầu vào và đầu ra ở Tốc độ Tham chiếu, chúng tôi thấy các hệ thống NVIDIA H100 và B200 đạt được chi phí tổng thể thấp hơn so với TPU v6e và MI300X. Đối với Llama 3.3 70B chạy với vLLM ở Tốc độ Tham chiếu theo yêu cầu là 30 token đầu ra/s, NVIDIA H100 đạt được Chi phí trên triệu token đầu vào và đầu ra là 1,06 đô la, so với MI300X là 2,24 đô la và TPU v6e là 5,13 đô la. Phân tích này dựa trên kết quả của Bài kiểm tra Tải hệ thống Phân tích Nhân tạo cho thông lượng suy diễn hệ thống trên một loạt các mức độ đồng thời, và dữ liệu giá thuê GPU mà chúng tôi thu thập từ một loạt các nhà cung cấp đám mây GPU. "Chi phí trên triệu token đầu vào và đầu ra ở Tốc độ Tham chiếu" sử dụng thông lượng hệ thống mà hệ thống có thể đạt được trong khi duy trì 30 token đầu ra mỗi giây cho mỗi truy vấn, và chia chi phí thuê của hệ thống cho thông lượng đó (được quy đổi thành một triệu token). Kết quả đầy đủ trên một loạt các mức độ đồng thời và tốc độ có sẵn trên trang Phân tích Phần cứng của Artificial Analysis. Bối cảnh quan trọng: ➤ Chúng tôi chỉ báo cáo kết quả cho TPU v6e chạy Llama 3.3 70B vì đây là mô hình duy nhất trên trang phần cứng của chúng tôi mà vLLM trên TPU được hỗ trợ chính thức. Chúng tôi báo cáo kết quả cho các hệ thống NVIDIA Hopper và Blackwell, và bây giờ là cho AMD MI300X, trên tất cả bốn mô hình trên trang phần cứng của chúng tôi: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 và Llama 3.3 70B. ➤ Những kết quả này dựa trên những gì các công ty có thể thuê ngay bây giờ trên đám mây - các bộ tăng tốc MI355X và TPU v7 thế hệ tiếp theo chưa được phổ biến rộng rãi. Chúng tôi lấy giá thấp nhất từ một tập hợp tham chiếu các nhà cung cấp đám mây GPU. TPU v6e có giá thuê theo yêu cầu là 2,70 đô la mỗi chip mỗi giờ, rẻ hơn so với giá thấp nhất mà chúng tôi theo dõi cho NVIDIA B200 (5,50 đô la mỗi giờ) nhưng tương tự như NVIDIA H100 (2,70 đô la mỗi giờ) và AMD MI300X (2 đô la mỗi giờ). ➤ TPU v7 (Ironwood) của Google sẽ sớm có sẵn rộng rãi trong vài tuần tới. Chúng tôi dự đoán TPU v7 sẽ vượt trội hơn v6e một cách đáng kể, với những bước nhảy vọt trong tính toán (918 TFLOPS lên 4.614 TFLOPS), bộ nhớ (32GB lên 192GB) và băng thông bộ nhớ (1,6 TB/s lên 7,4 TB/s). Tuy nhiên, chúng tôi vẫn chưa biết Google sẽ tính phí cho những phiên bản này - vì vậy tác động đến chi phí trên mỗi token chưa rõ ràng. ➤ Chỉ số Chi phí trên triệu token đầu vào và đầu ra của chúng tôi không thể so sánh trực tiếp với giá API không máy chủ. Chi phí tổng thể trên mỗi triệu token cho một triển khai nhất định bị ảnh hưởng bởi tốc độ theo yêu cầu mà bạn muốn nhắm đến (do kích thước lô/đồng thời) và tỷ lệ giữa token đầu vào và đầu ra. ➤ Những kết quả này đều cho các hệ thống với 8 bộ tăng tốc - tức là 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Chúng tôi cũng đã công bố kết quả Blackwell cập nhật gần đây - nhiều phân tích về những điều này sẽ đến sớm.

Hàng đầu

Thứ hạng

Yêu thích