Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI lanzó recientemente su primer modelo de pesos abiertos desde GPT-2, ingresando a un campo liderado por DeepSeek y Qwen de Alibaba.
Ankit (@GuptaAnkitV) desglosa estos principales modelos de OSS, incluido lo que los distingue bajo el capó: mezcla de expertos, entrenamiento de contexto prolongado y técnicas posteriores al entrenamiento que dan forma al razonamiento y la alineación, y cómo las diferentes opciones de diseño conducen a un rendimiento sorprendentemente similar.
00:00 - Lanzamiento de OpenAI OSS
01:00 - Comparación de arquitecturas LLM de código abierto
01:46 - Descripción general de GPT OSS
02:37 - Bajo el capó de GPT OSS
03:25 - Arquitectura Qwen-3
04:17 - Entrenamiento Qwen-3
05:12 - Qwen-3 después del entrenamiento
06:08 - Razonamiento Qwen-3 e innovaciones de RL
06:52 - Descripción general de DeepSeek V3
07:40 - Actualizaciones de DeepSeek V3.1
08:39 – Mecanismo de Atención (MLA)
09:39 - Comparación de tamaños de modelos
10:35 - Estrategias de contexto largo
11:25 – Reflexiones sobre los métodos
12:00 – Comida para llevar
2.53K
Populares
Ranking
Favoritas