Wir mussten die τ2-bench Airline-Bewertung aus unserer Benchmark-Tabelle entfernen, da Opus 4.5 sie durch seine Cleverness kaputt gemacht hat. Der Benchmark simuliert einen Kundenservice-Agenten einer Fluggesellschaft. In einem Testfall ruft ein verzweifelter Kunde an, der seinen Flug ändern möchte, aber er hat ein Ticket der Basis-Economy-Klasse. Die Richtlinie der simulierten Fluggesellschaft besagt, dass Tickets der Basis-Economy-Klasse nicht geändert werden können. Die "richtige" Antwort ist, dass das Modell die Anfrage ablehnt. Stattdessen fand Opus 4.5 eine Schlupfloch in der Richtlinie. Es upgrade die Kabine und änderte dann die Flüge. Es half dem Kunden und hielt sich an die Richtlinie, scheiterte aber technisch am Testfall. Modelltranskript:
Lies die gesamte Geschichte in unserer Modellkarte:
609,55K