Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A OpenAI lançou recentemente seu primeiro modelo de pesos abertos desde o GPT-2, entrando em um campo liderado pela DeepSeek e pelo Qwen da Alibaba.
Ankit (@GuptaAnkitV) analisa esses principais modelos OSS, incluindo o que os diferencia internamente: mistura de especialistas, treinamento de longo contexto e técnicas de pós-treinamento que moldam o raciocínio e o alinhamento—e como diferentes escolhas de design levam a desempenhos surpreendentemente semelhantes.
00:00 – Lançamento do OSS da OpenAI
01:00 – Comparando Arquiteturas de LLM de Código Aberto
01:46 – Visão Geral do GPT OSS
02:37 – Por Dentro do GPT OSS
03:25 – Arquitetura do Qwen-3
04:17 – Treinamento do Qwen-3
05:12 – Pós-Treinamento do Qwen-3
06:08 – Raciocínio e Inovações em RL do Qwen-3
06:52 – Visão Geral do DeepSeek V3
07:40 – Atualizações do DeepSeek V3.1
08:39 – Mecanismo de Atenção (MLA)
09:39 – Comparando Tamanhos de Modelos
10:35 – Estratégias de Longo Contexto
11:25 – Reflexões sobre Métodos
12:00 – Conclusões
2,56K
Top
Classificação
Favoritos