🚀 Olá, Kimi K2 Thinking!
O Modelo de Agente de Pensamento de Código Aberto está aqui.
🔹 SOTA em HLE (44,9%) e BrowseComp (60,2%)
🔹 Executa até 200 – 300 chamadas de ferramentas sequenciais sem interferência humana
🔹 Destaca-se em raciocínio, busca agente e codificação
🔹 Janela de contexto de 256K
Construído como um agente de pensamento, o K2 Thinking marca nossos mais recentes esforços em escalonamento em tempo de teste — escalonando tanto tokens de pensamento quanto turnos de chamadas de ferramentas.
O K2 Thinking está agora ativo em modo de chat, com o modo agente completo chegando em breve. Também está acessível via API.
🔌 API está ativa:
🔗 Blog técnico:
🔗 Pesos e código:
O NVIDIA DGX Spark chegou!
É tão emocionante fazer o Ollama funcionar no @nvidia DGX Spark.
É super incrível ver 128GB de memória unificada e a arquitetura Grace Blackwell.
👇👇👇