Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Por $10/hora, você pode auto-hospedar Kimi e gerar histórias (ou qualquer outra coisa) a 440 tokens/segundo em 8 GPUs H200 com Prime Intellect. A chave é não se preocupar com a latência. Por exemplo, se você quiser 26.400 tokens de 24 perguntas, pode auto-hospedar Kimi e obter isso em cerca de um minuto (uma vez que tudo esteja funcionando 😉). Isso resulta em cerca de $6 por milhão de tokens de saída. Bem legal! No Groq, no entanto, Kimi K2-0905 (256k) custa $3,00 por milhão de tokens de saída. Então, eu não consigo nem auto-hospedar mais barato que o Groq—pelo menos não com a carga e as configurações que tentei. Mas ainda assim é cerca de 2,5× mais barato que o Sonnet 4.0, que este modelo (de acordo com benchmarks) é aproximadamente equivalente. Acho que auto-hospedar um modelo tão poderoso é incrivelmente empoderador. Ou o Groq está subsidiando fortemente os tokens Kimi, ou eles realmente têm uma tecnologia incrível. 🙂 ps: para perguntas curtas e semelhantes, respondidas por apenas alguns tokens, podemos obter cerca de 573 tokens/segundo de saída, levando a cerca de 150.000 prompts por hora. Então, 150K classificações simples por hora para Kimi K2 em 8xH200.

4,23K

Top

Classificação

Favoritos