Det är något tillfredsställande, och djupt konstigt, när en LLM rapporterar att den har fixat 37 av 41 misslyckade tester (en förbättring på 90%) och sedan frågar vad man ska göra härnäst och korrekt tolkar "Framåt!"
26,85K