Jeg har nå testet Opus 4.5 mot GPT-5.1-Codex-Max på backend-oppgaver de siste 24 timene, og ærlig talt klarer jeg ikke å bestemme meg for en klar vinner.
Vanligvis når man sammenligner modeller, er vinneren ganske tydelig veldig raskt. Ikke denne gangen.
Testingen fortsetter.
Introduksjon: AI-forsker 🧪
Et Gemini 3-drevet multi-agent AI-system som autonomt kjører ML-eksperimenter
Bare gi det et forskningsspørsmål, så vil det:
- Designeksperimenter
- Koble opp spesialagenter med egne GPU-er for å kjøre dem
- Skrive en oppgave
Og det er åpen kildekode!
Vi trenger en ny måte å uttrykke AI-kostnader på...
$/token gir ikke så mye mening lenger.
Kanskje en referanse som prøver å gi en følelse av kostnaden for å kjøre en gjennomsnittlig arbeidsmengde?
Dette er bemerkelsesverdig: Opus 4.5 er ~60 % dyrere enn Sonnet (25 dollar per million produksjon sammenlignet med 15 dollar per million), men hvis den kan bruke 76 % færre utgangs-resonnement-tokens til samme komplekse oppgave, kan det ende opp billigere!