DApp Store | Centrum Web3 pro události a hry

Populární témata

Hodně jsme s tím zápasili v @MerlinAIByFoyer. Analogie "Evals are the CI/CD of AI" ve skutečnosti neplatí, protože CI/CD prosperuje díky stabilitě, zatímco AI se mění z týdne na týden. A stejně jako CI/CD, roztočení těžkých evalů v prod zabere spoustu času. Zkusili jsme to a vzdali jsme to až za bod. Hodnocení agentů/ML je zásadní, ale příliš brzké budování komplikované kostry vás zpomaluje. A tak jsme přišli s kompromisem: Sestavíme malou sadu ~10–100 otázek/scénářů s vysokým signálem a testujeme na jejich základech. To nám dává představu o tom, co funguje dobře, zatímco můžeme rychle projít naším potrubím během samotné fáze 0-1. V poslední době, když @benhylak, @snarkyzk a tým budují @raindrop_ai, jsme získali skutečný počet kilometrů tím, že jsme monitorovali selhání v produkci a zahrnovali tyto nebo podobné případy zpět do datové sady.

4,07K

Top

Hodnocení

Oblíbené