Hodně jsme s tím zápasili v @MerlinAIByFoyer. Analogie "Evals are the CI/CD of AI" ve skutečnosti neplatí, protože CI/CD prosperuje díky stabilitě, zatímco AI se mění z týdne na týden. A stejně jako CI/CD, roztočení těžkých evalů v prod zabere spoustu času. Zkusili jsme to a vzdali jsme to až za bod. Hodnocení agentů/ML je zásadní, ale příliš brzké budování komplikované kostry vás zpomaluje. A tak jsme přišli s kompromisem: Sestavíme malou sadu ~10–100 otázek/scénářů s vysokým signálem a testujeme na jejich základech. To nám dává představu o tom, co funguje dobře, zatímco můžeme rychle projít naším potrubím během samotné fáze 0-1. V poslední době, když @benhylak, @snarkyzk a tým budují @raindrop_ai, jsme získali skutečný počet kilometrů tím, že jsme monitorovali selhání v produkci a zahrnovali tyto nebo podobné případy zpět do datové sady.
swyx
swyx5. 9. 06:08
Claude Code: no evals [Známá společnost Code Agent]: Žádné hodnocení [Dobře známý Code Agent Company 2]: Tak trochu polovičatí evalové [Přední společnost zabývající se kódováním vibrací]: Žádné hodnocení [CEO společnosti prodávající vám evals]: mmmmm Ano, všichni moji top zákazníci dělají evals, vy byste měli dělat evals [VC je zamilovaný do generálního ředitele společnosti EVALS]: Mmmmm Ano, všichni moji top zakladatelé dělají EVALS, musí dělat EVLs (POZNÁMKA: také si myslím, že evaly jsou důležité, ale inženýři eval pilled ai si také všimli, že to není striktní požadavek pro úspěch a alespoň pro fázi 0-to-1 může být dokonce antikorelované, přemýšlejte proč)
4,07K