OpenAI lanzó recientemente su primer modelo de pesos abiertos desde GPT-2, ingresando a un campo liderado por DeepSeek y Qwen de Alibaba. Ankit (@GuptaAnkitV) desglosa estos principales modelos OSS, incluyendo lo que los distingue bajo el capó: mezcla de expertos, entrenamiento de contexto largo y técnicas de post-entrenamiento que moldean el razonamiento y la alineación—y cómo diferentes elecciones de diseño conducen a un rendimiento sorprendentemente similar. 00:00 – Lanzamiento de OpenAI OSS 01:00 – Comparando arquitecturas de LLM de código abierto 01:46 – Resumen de GPT OSS 02:37 – Bajo el capó de GPT OSS 03:25 – Arquitectura de Qwen-3 04:17 – Entrenamiento de Qwen-3 05:12 – Post-entrenamiento de Qwen-3 06:08 – Razonamiento e innovaciones de RL de Qwen-3 06:52 – Resumen de DeepSeek V3 07:40 – Actualizaciones de DeepSeek V3.1 08:39 – Mecanismo de atención (MLA) 09:39 – Comparando tamaños de modelos 10:35 – Estrategias de contexto largo 11:25 – Reflexiones sobre métodos 12:00 – Conclusiones
2,51K