We hebben hier bij @MerlinAIByFoyer veel mee geworsteld. De analogie "Evals zijn de CI/CD van AI" houdt niet echt stand, aangezien CI/CD gedijt op stabiliteit, terwijl AI van week tot week verandert. En net als bij CI/CD kost het opzetten van zware evaluaties in productie een hoop tijd. We hebben het geprobeerd en zijn op een gegeven moment opgegeven. Het evalueren van agenten/ML is essentieel, maar het bouwen van uitgebreide scaffolding te vroeg vertraagt je. Dus hebben we een compromis bedacht: We cureren een kleine, hoog-signaal set van ~10–100 vragen/scenario's en testen daartegen. Dit geeft ons een idee van wat goed werkt, terwijl we onze pipeline snel door deze fase kunnen laten lopen tijdens de 0-1 fase zelf. Meer recent, terwijl @benhylak, @snarkyzk en het team @raindrop_ai aan het bouwen zijn, hebben we echt profijt gehad van het monitoren van fouten in productie en het terugvouwen van die of soortgelijke gevallen in de dataset.
swyx
swyx5 sep, 06:08
Claude Code: geen evaluaties [bekend code agent bedrijf]: geen evaluaties [bekend code agent bedrijf 2]: een beetje halfslachtige evaluaties [leidend vibe coding bedrijf]: geen evaluaties [ceo van het bedrijf dat je evaluaties verkoopt]: mmmmm ja, al mijn topklanten doen evaluaties, je zou evaluaties moeten doen [vc's verliefd op ceo van het evaluatiebedrijf]: mmmmm ja, al mijn top oprichters doen evaluaties, moet evaluaties doen (NOTE: ik -denk- ook dat evaluaties belangrijk zijn, maar de evaluatie-gepilde AI-ingenieurs hebben ook opgemerkt dat het geen strikte vereiste voor succes is en, tenminste voor de 0-tot-1 fase, zelfs anticorrelerend kan zijn, denk na over waarom)
4,17K