Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por $10/hora, você pode auto-hospedar Kimi e gerar histórias (ou qualquer outra coisa) a 440 tokens/segundo em 8 GPUs H200 com Prime Intellect.
A chave é não se preocupar com a latência. Por exemplo, se você quiser 26.400 tokens de 24 perguntas, pode auto-hospedar Kimi e obter isso em cerca de um minuto (uma vez que tudo esteja funcionando 😉).
Isso resulta em cerca de $6 por milhão de tokens de saída. Bem legal!
No Groq, no entanto, Kimi K2-0905 (256k) custa $3,00 por milhão de tokens de saída. Então, eu não consigo nem auto-hospedar mais barato que o Groq—pelo menos não com a carga e as configurações que tentei. Mas ainda assim é cerca de 2,5× mais barato que o Sonnet 4.0, que este modelo (de acordo com benchmarks) é aproximadamente equivalente.
Acho que auto-hospedar um modelo tão poderoso é incrivelmente empoderador. Ou o Groq está subsidiando fortemente os tokens Kimi, ou eles realmente têm uma tecnologia incrível. 🙂
ps: para perguntas curtas e semelhantes, respondidas por apenas alguns tokens, podemos obter cerca de 573 tokens/segundo de saída, levando a cerca de 150.000 prompts por hora. Então, 150K classificações simples por hora para Kimi K2 em 8xH200.

4,23K
Top
Classificação
Favoritos