Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Albert
Claude Relaties @AnthropicAI. Meningen zijn van mijzelf!
We moesten de τ2-bench luchtvaart evaluatie uit onze benchmarktabel verwijderen omdat Opus 4.5 het kapot maakte door te slim te zijn.
De benchmark simuleert een klantenservicemedewerker van een luchtvaartmaatschappij. In één testgeval belt een ongeruste klant in met de wens om hun vlucht te wijzigen, maar ze hebben een basis economie ticket. Het beleid van de gesimuleerde luchtvaartmaatschappij stelt dat basis economie tickets niet gewijzigd kunnen worden.
Het "juiste" antwoord is dat het model het verzoek weigert.
In plaats daarvan vond Opus 4.5 een maas in het beleid.
Het upgrade de cabine, en wijzigde vervolgens de vluchten. Het hielp de klant en volgde het beleid, maar faalde technisch gezien in het testgeval.
Model transcript:

85,72K
>Opus 4.5 "lijkt in staat te zijn om code voor altijd te viberen"
Ik heb ontdekt dat dit heel waar is. Er komt veel meer aan, maar in wezen kun je dit model instellen en vergeten, omdat het op de achtergrond voor jou aan coding taken werkt.
Het voelt alsof we een stapverandering hebben bereikt.

Dan Shipper 📧8 uur geleden
BREAKING NEWS:
@AnthropicAI heeft zojuist Claude Ops 4.5 gelanceerd!! Het is VERRE van het beste coderingsmodel dat ik ooit heb gebruikt.
We hebben het de afgelopen dagen intern getest bij @every, en het is een absolute paradigmaverschuiving voor elke soort coderingstaak.
Het breidt de horizon uit van wat je kunt vibe code
De huidige generatie nieuwe modellen—Anthropic’s Sonnet 4.5, Google’s Gemini 3, of OpenAI’s Codex Max 5.1—kan allemaal competent een minimum levensvatbaar product in één keer bouwen, of een zeer technische bug autonoom oplossen.
Maar uiteindelijk, als je ze bleef pushen om meer te vibe code, zouden ze over hun eigen voeten struikelen: De code zou verwarrend en tegenstrijdig zijn, en je zou vast komen te zitten in eindeloze bugs. We hebben die limiet nog niet gevonden met Opus 4.5—het lijkt in staat te zijn om voor altijd te vibe code.
Brengt werken in parallel naar een heel nieuw niveau
omdat het veel beter is in plannen en coderen, kan het met meer autonomie werken—wat betekent dat je meer parallel kunt doen zonder iets te breken.
@kieranklaassen heeft aan 11 verschillende projecten gewerkt in zes uur—en had goede resultaten op allemaal.
Geweldig in ontwerpiteratie
Opus 4.5 is ongelooflijk goed in het autonoom itereren door een ontwerp met een MCP zoals Playwright. Vorige modellen zouden de draad verliezen na een paar cycli, of zeggen dat een ontwerp klaar was terwijl dat niet zo was.
Opus 4.5 is geweldig in het autonoom itereren totdat een ontwerp pixelperfect is.
we hebben nu een volledige vibe check van 4.000 woorden op @every met alles wat we getest hebben:
64,37K
Boven
Positie
Favorieten

