Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Albert
Relaciones Claude @AnthropicAI. ¡Las opiniones son mías!
Tuvimos que eliminar la evaluación de aerolíneas de banco τ2 de nuestra tabla de benchmarks porque Opus 4.5 la rompió por ser demasiado ingeniosa.
El benchmark simula a un agente de atención al cliente de aerolínea. En un caso de prueba, un cliente angustiado llama para cambiar su vuelo, pero tiene un billete de clase económica básica. La política de la aerolínea simulada establece que los billetes de clase económica básica no pueden modificarse.
La respuesta "correcta" es que el modelo rechaza la solicitud.
En cambio, el Opus 4.5 encontró una laguna legal en la política.
Mejoró la cabina y luego modificó los vuelos. Ayudar al cliente y seguir la política, pero técnicamente suspender el caso de prueba.
Transcripción del modelo:

212.7K
>Opus 4.5 "parece poder vibrar código para siempre"
He comprobado que esto es muy cierto. Habrá mucho más por venir, pero básicamente puedes configurar y olvidar este modelo mientras trabaja en tareas de programación para ti en segundo plano.
Parece que hemos dado un cambio de escalón.

Dan Shipper 📧hace 19 horas
NOTICIAS DE ÚLTIMA HORA:
¡@AnthropicAI acabo de lanzar Claude Ops 4.5! Es, con diferencia, el mejor modelo de programación que he usado nunca.
Lo hemos estado probando internamente @every los últimos días, y supone un cambio de paradigma absoluto para cualquier tipo de tarea de programación.
Extiende el horizonte de lo que puedes codificar vibrando
La generación actual de nuevos modelos —Sonnet 4.5 de Anthropic, Gemini 3 de Google o Codex Max 5.1 de OpenAI— pueden construir competentemente un producto mínimo viable de una sola vez, o corregir un error altamente técnico de forma autónoma.
Pero al final, si seguías presionándoles para que sintieran más el código, empezarían a tropezar con sus propios pies: el código sería enrevesado y contradictorio, y te quedarías atascado en bugs interminables. Aún no hemos encontrado ese límite con Opus 4.5—parece que puede vibrar código para siempre.
Trabajar en paralelo lleva a un nivel completamente nuevo
Como es mucho mejor planificando y programando, puede funcionar con más autonomía—lo que significa que puedes hacer más en paralelo sin romper nada.
@kieranklaassen trabajado en 11 proyectos diferentes en seis horas—y obtuve buenos resultados en todos ellos.
Excelente en iteraciones de diseño
Opus 4.5 es increíblemente hábil iterando un diseño de forma autónoma usando un MCP como Playwright. Los modelos anteriores perdían el hilo tras unos ciclos, o decían que un diseño estaba hecho cuando no lo estaba.
Opus 4.5 es increíble iterando de forma autónoma hasta que un diseño es perfecto en píxeles.
Ahora mismo tenemos una comprobación completa de 4.000 palabras en @every con todo lo que hemos probado:
84.69K
Populares
Ranking
Favoritas

