Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Estoy leyendo este informe de Anthropic sobre el uso real de Claude y los números impactan como un ladrillo.
Pasaron por 100,000 conversaciones.
Aquí está la parte que me detuvo:
La mayoría de las tareas que la gente lleva a Claude normalmente tardan alrededor de 90 minutos.
Con Claude, esas mismas tareas se completan un 80 por ciento más rápido.
Eso significa que alguien ahorra horas cada semana sin siquiera intentarlo.
Luego el informe se vuelve más grande.
Si aplicas estas ganancias a la economía de EE. UU., los modelos actuales por sí solos aumentan la productividad laboral en un 1.8 por ciento al año durante la próxima década.
Casi el doble del ritmo reciente.
Y nada de esto incluye mejores modelos.
Esto es solo cómo la gente ya usa Claude en este momento.
Esta podría ser la primera vez que hemos visto evidencia concreta de lo que la IA está haciendo dentro de trabajos reales.
Cambio silencioso.
Impacto masivo.
Ya está sucediendo.

1,2K
Este artículo del MIT me dejó boquiabierto 🤯
El artículo trata sobre "ARC" y cambió completamente la forma en que veo el benchmark.
Los investigadores no trataron ARC como un rompecabezas lógico en absoluto. Trataron cada tarea como una transformación visual.
Cuadrícula de entrada → cuadrícula de salida. Nada más complicado que eso.
Construyeron un pequeño Vision Transformer, lo entrenaron desde cero en el pequeño conjunto de datos de ARC y utilizaron un simple truco de lienzo para colocar cada ejemplo como una imagen.
Luego añadieron cambios de escala, traducciones y priors visuales básicos que verías en el trabajo clásico de visión por computadora.
Eso es todo.
Sin cadena de pensamiento, sin indicaciones, sin trucos simbólicos ingeniosos.
Solo un modelo mirando píxeles y aprendiendo cómo se mueven, giran, crecen, colapsan o se trasladan las formas.
¿La parte sorprendente?
Este pequeño modelo alcanza un 54.5% solo y un 60.4% cuando se combina con un U-Net.
Eso está justo alrededor del rendimiento humano promedio con un modelo que cabe en el tamaño de una pequeña aplicación móvil.
Ver ARC resuelto de esta manera hace que todo el benchmark se sienta diferente.
Las tareas de repente parecen mapeos de imágenes en lugar de reglas ocultas. Las tareas de reflexión realmente parecen reflexiones.
Las tareas de simetría parecen simetría. Las tareas de gravedad parecen piezas "cayendo" directamente hacia abajo en el lienzo.
Honestamente, todavía lo estoy procesando.
Este podría ser el resultado de ARC más fundamentado que he leído en años y proviene de tratar el benchmark de la manera más literal que alguien haya hecho.

3,56K
Parte superior
Clasificación
Favoritos


