以每小时10美元的价格,您可以自托管Kimi,并在8个H200 GPU上以440个令牌/秒的速度生成故事(或其他任何内容),与Prime Intellect一起。 关键是不要担心延迟。例如,如果您想从24个问题中获取26,400个令牌,您可以自托管Kimi,并在大约一分钟内获得(一切准备就绪后😉)。 这大约是每百万输出令牌6美元。相当不错! 不过在Groq上,Kimi K2-0905(256k)的价格是每百万输出令牌3.00美元。所以我甚至无法比Groq自托管更便宜——至少在我尝试的负载和设置下是这样。但这仍然比Sonnet 4.0便宜约2.5倍,而根据基准测试,这个模型大致相当于此。 我认为自托管如此强大的模型是非常赋权的。要么Groq在大力补贴Kimi令牌,要么他们确实拥有惊人的技术。🙂 附言:对于短的类似问题,只用几个令牌回答,我们可以获得大约573个令牌/秒的输出,导致每小时大约150,000个提示。因此,Kimi K2在8个H200上每小时可以进行150K个简单分类。
30.11K