Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI lanzó recientemente su primer modelo de pesos abiertos desde GPT-2, ingresando a un campo liderado por DeepSeek y Qwen de Alibaba.
Ankit (@GuptaAnkitV) desglosa estos principales modelos OSS, incluyendo lo que los distingue bajo el capó: mezcla de expertos, entrenamiento de contexto largo y técnicas de post-entrenamiento que moldean el razonamiento y la alineación—y cómo diferentes elecciones de diseño conducen a un rendimiento sorprendentemente similar.
00:00 – Lanzamiento de OpenAI OSS
01:00 – Comparando arquitecturas de LLM de código abierto
01:46 – Resumen de GPT OSS
02:37 – Bajo el capó de GPT OSS
03:25 – Arquitectura de Qwen-3
04:17 – Entrenamiento de Qwen-3
05:12 – Post-entrenamiento de Qwen-3
06:08 – Razonamiento e innovaciones de RL de Qwen-3
06:52 – Resumen de DeepSeek V3
07:40 – Actualizaciones de DeepSeek V3.1
08:39 – Mecanismo de atención (MLA)
09:39 – Comparando tamaños de modelos
10:35 – Estrategias de contexto largo
11:25 – Reflexiones sobre métodos
12:00 – Conclusiones
2,51K
Parte superior
Clasificación
Favoritos