OpenAI lanzó recientemente su primer modelo de pesos abiertos desde GPT-2, ingresando a un campo liderado por DeepSeek y Qwen de Alibaba. Ankit (@GuptaAnkitV) desglosa estos principales modelos de OSS, incluido lo que los distingue bajo el capó: mezcla de expertos, entrenamiento de contexto prolongado y técnicas posteriores al entrenamiento que dan forma al razonamiento y la alineación, y cómo las diferentes opciones de diseño conducen a un rendimiento sorprendentemente similar. 00:00 - Lanzamiento de OpenAI OSS 01:00 - Comparación de arquitecturas LLM de código abierto 01:46 - Descripción general de GPT OSS 02:37 - Bajo el capó de GPT OSS 03:25 - Arquitectura Qwen-3 04:17 - Entrenamiento Qwen-3 05:12 - Qwen-3 después del entrenamiento 06:08 - Razonamiento Qwen-3 e innovaciones de RL 06:52 - Descripción general de DeepSeek V3 07:40 - Actualizaciones de DeepSeek V3.1 08:39 – Mecanismo de Atención (MLA) 09:39 - Comparación de tamaños de modelos 10:35 - Estrategias de contexto largo 11:25 – Reflexiones sobre los métodos 12:00 – Comida para llevar
2.53K