Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Analiza sprzętowa Artificial Analysis pokazuje, że NVIDIA osiąga przewagę ~5x w tokenach na dolara w porównaniu do TPU v6e (Trillium) oraz ~2x przewagę nad MI300X w naszym kluczowym wskaźniku kosztów wnioskowania. W naszym wskaźniku kosztów wnioskowania, zwanym Koszt na Milion Tokenów Wejściowych i Wyjściowych przy Referencyjnej Prędkości, widzimy, że systemy NVIDIA H100 i B200 osiągają niższy całkowity koszt niż TPU v6e i MI300X. Dla Llama 3.3 70B działającego z vLLM przy Referencyjnej Prędkości na Zapytanie wynoszącej 30 tokenów wyjściowych/s, NVIDIA H100 osiąga Koszt na Milion Tokenów Wejściowych i Wyjściowych wynoszący 1,06 USD, w porównaniu do MI300X przy 2,24 USD i TPU v6e przy 5,13 USD. Ta analiza opiera się na wynikach Testu Obciążenia Systemu Artificial Analysis dla przepustowości wnioskowania systemu w różnych poziomach współbieżności oraz danych o cenach instancji GPU, które zbieramy od różnych dostawców chmury GPU. „Koszt na Milion Tokenów Wejściowych i Wyjściowych przy Referencyjnej Prędkości” wykorzystuje przepustowość systemu, którą system może osiągnąć, utrzymując 30 tokenów wyjściowych na sekundę na zapytanie, i dzieli koszt wynajmu systemu przez tę przepustowość (przeskalowaną do miliona tokenów). Pełne wyniki w różnych poziomach współbieżności i prędkości są dostępne na stronie Benchmarking Sprzętowy Artificial Analysis. Ważny kontekst: ➤ Raportujemy wyniki tylko dla TPU v6e działającego z Llama 3.3 70B, ponieważ jest to jedyny model na naszej stronie sprzętowej, dla którego vLLM na TPU jest oficjalnie wspierane. Raportujemy wyniki dla systemów NVIDIA Hopper i Blackwell, a teraz także dla AMD MI300X, dla wszystkich czterech modeli na naszej stronie sprzętowej: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 i Llama 3.3 70B. ➤ Te wyniki opierają się na tym, co firmy mogą obecnie wynajmować w chmurze - następnej generacji akceleratory MI355X i TPU v7 nie są jeszcze szeroko dostępne. Bierzemy najniższą cenę z zestawu referencyjnego dostawców chmury GPU. TPU v6e jest wyceniane na żądanie na 2,70 USD za chip na godzinę, co jest tańsze niż nasza najniższa zarejestrowana cena dla NVIDIA B200 (5,50 USD za godzinę), ale podobne do NVIDIA H100 (2,70 USD za godzinę) i AMD MI300X (2 USD za godzinę). ➤ TPU v7 (Ironwood) Google'a staje się ogólnie dostępne w nadchodzących tygodniach. Spodziewamy się, że TPU v7 znacznie przewyższy v6e, biorąc pod uwagę skoki w obliczeniach (918 TFLOPS do 4 614 TFLOPS), pamięci (32 GB do 192 GB) i przepustowości pamięci (1,6 TB/s do 7,4 TB/s). Jednak nie wiemy jeszcze, ile Google będzie pobierać za te instancje - więc wpływ na sugerowane koszty na tokeny nie jest jeszcze jasny. ➤ Nasz wskaźnik Koszt na Milion Tokenów Wejściowych i Wyjściowych nie może być bezpośrednio porównywany z cenami API bezserwerowego. Całkowity sugerowany koszt na milion tokenów dla danego wdrożenia jest uzależniony od prędkości na zapytanie, którą chcesz osiągnąć (napędzanej przez rozmiar partii/współbieżność) oraz stosunku tokenów wejściowych do wyjściowych. ➤ Te wyniki dotyczą wszystkich systemów z 8 akceleratorami - tj. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Ostatnio opublikowaliśmy również zaktualizowane wyniki Blackwell - więcej analiz wkrótce.

Szczegółowe wyniki dotyczące tego, jak wydajność skaluje się w zależności od współbieżności, na podstawie testu obciążeniowego Systemu Analizy Sztucznej.

322,56K

Najlepsze

Ranking

Ulubione