Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hodně jsme s tím zápasili v @MerlinAIByFoyer. Analogie "Evals are the CI/CD of AI" ve skutečnosti neplatí, protože CI/CD prosperuje díky stabilitě, zatímco AI se mění z týdne na týden. A stejně jako CI/CD, roztočení těžkých evalů v prod zabere spoustu času. Zkusili jsme to a vzdali jsme to až za bod.
Hodnocení agentů/ML je zásadní, ale příliš brzké budování komplikované kostry vás zpomaluje. A tak jsme přišli s kompromisem: Sestavíme malou sadu ~10–100 otázek/scénářů s vysokým signálem a testujeme na jejich základech. To nám dává představu o tom, co funguje dobře, zatímco můžeme rychle projít naším potrubím během samotné fáze 0-1.
V poslední době, když @benhylak, @snarkyzk a tým budují @raindrop_ai, jsme získali skutečný počet kilometrů tím, že jsme monitorovali selhání v produkci a zahrnovali tyto nebo podobné případy zpět do datové sady.

5. 9. 06:08
Claude Code: no evals
[Známá společnost Code Agent]: Žádné hodnocení
[Dobře známý Code Agent Company 2]: Tak trochu polovičatí evalové
[Přední společnost zabývající se kódováním vibrací]: Žádné hodnocení
[CEO společnosti prodávající vám evals]: mmmmm Ano, všichni moji top zákazníci dělají evals, vy byste měli dělat evals
[VC je zamilovaný do generálního ředitele společnosti EVALS]: Mmmmm Ano, všichni moji top zakladatelé dělají EVALS, musí dělat EVLs
(POZNÁMKA: také si myslím, že evaly jsou důležité, ale inženýři eval pilled ai si také všimli, že to není striktní požadavek pro úspěch a alespoň pro fázi 0-to-1 může být dokonce antikorelované, přemýšlejte proč)

4,07K
Top
Hodnocení
Oblíbené