Za 10 $ za hodinu si můžete sami hostovat Kimi a generovat příběhy (nebo cokoli jiného) rychlostí 440 tokenů/s na 8 GPU H200 s Prime Intellect. Klíčem je nestarat se o latenci. Pokud například chcete 26 400 žetonů z 24 otázek, můžete si Kimi hostovat sami a získat to asi za minutu (jakmile bude vše v provozu 😉). To vychází na přibližně 6 $ za milion výstupních tokenů. Docela v pohodě! Na Groqu je však Kimi K2-0905 (256 tisíc) $3,00 za milion výstupních tokenů. Takže si ani nemůžu hostovat levněji než Groq – alespoň ne se zátěží a nastavením, které jsem vyzkoušel. Pořád je ale asi o 2,5 × levnější než Sonnet 4.0, kterému je tento model (podle benchmarků) zhruba ekvivalentní. Myslím, že vlastní hostování tak silného modelu je neuvěřitelně posilující. Buď Groq silně dotuje tokeny Kimi, nebo opravdu mají úžasnou technologii. 🙂 PS: U krátkých podobných otázek, na které odpovídá jen pár tokenů, můžeme získat výstup asi 573 tokenů za sekundu, což vede k asi 150 000 nápovědám za hodinu. Takže 150K jednoduchých klasifikací za hodinu pro kimi k2 na 8xh200
23,7K