¡Trabajando en el nuevo Grok 2.5 de código abierto! ¡Ya hemos podido acelerarlo! Es pronto y puede fallar, pero lo que tenemos es: Un MoE de 268B, 131k de contexto, 8 expertos, RoPE, 64 cabezas de atención GQA con 8 cabezas KV, 64 capas. En cualquier momento, normalmente solo 2 expertos están activos. Hemos encontrado una manera de activar 4 simultáneamente con solo una pequeña caída en el rendimiento, aproximadamente 1/3 más de memoria GPU y un asombroso aumento en la calidad de las salidas. Si sostiene nuestras pruebas, ¡publicaré un detallado cómo hacerlo!
Brian Roemmele
Brian Roemmele24 ago 2025
¡Pronto reescribiré este artículo para usar una versión compacta del NUEVO SOFTWARE LIBRE Y DE CÓDIGO ABIERTO @xai @Grok 2.5! Te mostraré cómo ajustar el modelo con tus datos para un uso privado sin nube en tu computadora. ¡Esto mejorará la calidad de manera significativa! Trabajando en ello…
45,87K