För $10/timme kan du själv vara värd för Kimi och generera berättelser (eller något annat) med 440 tokens/sek på 8 H200 GPU:er med Prime Intellect. Nyckeln är att inte oroa sig för latens. Om du till exempel vill ha 26 400 tokens från 24 frågor kan du själv vara värd för Kimi och få det på ungefär en minut (när allt är igång och fungerar 😉). Det motsvarar cirka 6 dollar per miljon utdatatokens. Ganska coolt! På Groq är Kimi K2-0905 (256k) dock $3,00 per miljon utdatatokens. Så jag kan inte ens vara värd för mig själv billigare än Groq – åtminstone inte med den belastning och de inställningar jag provade. Men den är fortfarande cirka 2,5 × billigare än Sonnet 4.0, vilket den här modellen (enligt benchmarks) ungefär motsvarar den. Jag tror att det är otroligt stärkande att själv vara värd för en så kraftfull modell. Antingen subventionerar Groq Kimi kraftigt tokens, eller så har de verkligen fantastisk teknik. 🙂 PS: För korta liknande frågor, som bara besvaras av ett fåtal tokens, kan vi få cirka 573 token/sekund utdata som leder till cirka 150 000 prompts per timme. Så 150K enkla klassificeringar per timme för kimi k2 på 8xh200
15,56K