Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
investigación @cornell @meta // modelos de lenguaje, teoría de la información, ciencia de la IA
descubrí cómo "deshacer" el RL y convertir gpt-oss de nuevo en un modelo base
dejaré caer los pesos mañana
gn


jack morris9 ago, 03:21
¿Tienes curiosidad sobre los datos de entrenamiento de los nuevos modelos gpt-oss de OpenAI? Yo también.
Así que generé 10 millones de ejemplos de gpt-oss-20b, realicé un análisis y los resultados fueron... bastante extraños.
Es hora de un análisis profundo 🧵

180,28K
ok, ¡necesito ayuda! Intenté ajustar finamente GPT-OSS durante el fin de semana. Funciona durante ~100 pasos, luego lanza un error de falta de memoria CUDA.
Supongo que de vez en cuando, todos los tokens se dirigen a un solo experto. Entonces, el entrenamiento falla.
¿Hay una solución fácil? Nunca he ajustado finamente un MoE antes.
86,17K
¿qué modelo deberíamos hacer a continuación?

jack morris9 ago, 03:21
¿Tienes curiosidad sobre los datos de entrenamiento de los nuevos modelos gpt-oss de OpenAI? Yo también.
Así que generé 10 millones de ejemplos de gpt-oss-20b, realicé un análisis y los resultados fueron... bastante extraños.
Es hora de un análisis profundo 🧵

22,22K
explicación más corta de GPT-5: ¡esto es exactamente lo que predecían las leyes de escalado!
el modelo es mejor, los retornos son decrecientes, y lamentablemente las mejoras en la inteligencia general absoluta solo serán más pequeñas
la buena noticia es que aún hay mucho por hacer. la personalidad, el razonamiento, la memoria y la creatividad siguen siendo problemas abiertos
26,55K
el mundo del capital de riesgo proporciona mucho valor, pero a veces parece que simplemente queman dinero.
varias startups que conozco recaudaron ~100M en total hace tres años para hacer IA, construyeron software que nadie usó nunca, y ahora todos trabajan en otros lugares en cosas no relacionadas.
¿A dónde fue todo ese dinero?
18,47K
es extraño en la era de las redes sociales sentir que todos están trabajando en las revisiones y réplicas de NeurIPS en este momento, pero nadie está hablando de ello públicamente.
Contribuí a tres réplicas. Una de las tres fue extremadamente frustrante.
¿Quién más está trabajando en réplicas? ¿Cómo va para ti?
12,73K
Parte superior
Clasificación
Favoritos
En tendencia on-chain
En tendencia en X
Principales fondos recientes
Más destacado