Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zephyr
DMs sind offen
Abonnieren Sie auf X, um meine Artikel über Technologie, KI und Halbleiter zu lesen
Prime Bros haben hart gekocht


Prime IntellectVor 7 Stunden
Einführung von INTELLECT-3: Skalierung von RL auf ein 100B+ MoE-Modell auf unserem End-to-End-Stack
Erreichung von Spitzenleistungen für seine Größe in Mathematik, Code und Logik
Entwickelt mit denselben Werkzeugen, die wir Ihnen zur Verfügung stellen, von Umgebungen & Auswertungen, RL-Frameworks, Sandkästen & mehr
605
Kannst du ein MoE wie gpt-oss, Kimi oder DeepSeek testen??

Artificial AnalysisVor 8 Stunden
Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Die Hardware-Benchmarking-Analyse von Artificial Analysis zeigt, dass NVIDIA einen Vorteil von ~5x Tokens pro Dollar gegenüber TPU v6e (Trillium) und einen Vorteil von ~2x gegenüber MI300X in unserem wichtigen Metrik für die Inferenzkosten erzielt.
In unserer Metrik für die Inferenzkosten, die als Kosten pro Million Eingabe- und Ausgabetokens bei Referenzgeschwindigkeit bezeichnet wird, sehen wir, dass die Systeme NVIDIA H100 und B200 insgesamt niedrigere Kosten als TPU v6e und MI300X erreichen. Für Llama 3.3 70B, das mit vLLM bei einer Referenzgeschwindigkeit von 30 Ausgabetokens/s läuft, erreicht NVIDIA H100 Kosten pro Million Eingabe- und Ausgabetokens von 1,06 $, verglichen mit MI300X bei 2,24 $ und TPU v6e bei 5,13 $.
Diese Analyse basiert auf den Ergebnissen des Artificial Analysis System Load Tests für die Inferenzdurchsatzrate des Systems über eine Reihe von Parallelitätsstufen sowie auf den Preisdaten für GPU-Instanzen, die wir von einer Reihe von GPU-Cloud-Anbietern sammeln. "Kosten pro Million Eingabe- und Ausgabetokens bei Referenzgeschwindigkeit" verwendet den Durchsatz des Systems, den das System erreichen kann, während es 30 Ausgabetokens pro Sekunde und Abfrage beibehält, und teilt die Mietkosten des Systems durch diesen Durchsatz (auf eine Million Tokens skaliert).
Vollständige Ergebnisse über eine Reihe von Parallelitäts- und Geschwindigkeitsstufen sind auf der Seite der Hardware-Benchmarking von Artificial Analysis verfügbar.
Wichtiger Kontext:
➤ Wir berichten nur über Ergebnisse für TPU v6e, die Llama 3.3 70B ausführt, da dies das einzige Modell auf unserer Hardware-Seite ist, für das vLLM auf TPU offiziell unterstützt wird. Wir berichten über Ergebnisse für NVIDIA Hopper- und Blackwell-Systeme und jetzt auch für AMD MI300X über alle vier Modelle auf unserer Hardware-Seite: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 und Llama 3.3 70B.
➤ Diese Ergebnisse basieren auf dem, was Unternehmen jetzt in der Cloud mieten können - die nächste Generation von MI355X- und TPU v7-Beschleunigern ist noch nicht weit verbreitet verfügbar. Wir nehmen den niedrigsten Preis aus einer Referenzgruppe von GPU-Cloud-Anbietern. TPU v6e wird nach Bedarf zu 2,70 $ pro Chip und Stunde angeboten, was günstiger ist als unser niedrigster erfasster Preis für NVIDIA B200 (5,50 $ pro Stunde), aber ähnlich wie NVIDIA H100 (2,70 $ pro Stunde) und AMD MI300X (2 $ pro Stunde).
➤ Googles TPU v7 (Ironwood) wird in den kommenden Wochen allgemein verfügbar. Wir erwarten, dass TPU v7 v6e erheblich übertreffen wird, angesichts der Sprünge in der Rechenleistung (918 TFLOPS auf 4.614 TFLOPS), dem Speicher (32 GB auf 192 GB) und der Speicherbandbreite (1,6 TB/s auf 7,4 TB/s). Wir wissen jedoch noch nicht, was Google für diese Instanzen verlangen wird - daher ist der Einfluss auf die implizierten Kosten pro Token noch unklar.
➤ Unsere Metrik für Kosten pro Million Eingabe- und Ausgabetokens kann nicht direkt mit der Preisgestaltung von serverlosen APIs verglichen werden. Die insgesamt implizierten Kosten pro Million Tokens für ein bestimmtes Deployment werden durch die Geschwindigkeit pro Abfrage beeinflusst, die Sie anstreben möchten (getrieben durch Batchgröße/Parallelität) und das Verhältnis von Eingabe- zu Ausgabetokens.
➤ Diese Ergebnisse gelten für Systeme mit 8 Beschleunigern - d.h. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
Wir haben auch kürzlich aktualisierte Blackwell-Ergebnisse veröffentlicht - weitere Analysen dazu kommen bald.

667
Diese Vorhersagen sind sooo hart gescheitert

Yuchen JinVor 6 Stunden
Eilmeldung: Wissenschaftler haben herausgefunden, dass LLMs Halluzinationen von Menschen gelernt haben.

3,2K
Top
Ranking
Favoriten
