Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
We hebben hier bij @MerlinAIByFoyer veel mee geworsteld. De analogie "Evals zijn de CI/CD van AI" houdt niet echt stand, aangezien CI/CD gedijt op stabiliteit, terwijl AI van week tot week verandert. En net als bij CI/CD kost het opzetten van zware evaluaties in productie een hoop tijd. We hebben het geprobeerd en zijn op een gegeven moment opgegeven.
Het evalueren van agenten/ML is essentieel, maar het bouwen van uitgebreide scaffolding te vroeg vertraagt je. Dus hebben we een compromis bedacht: We cureren een kleine, hoog-signaal set van ~10–100 vragen/scenario's en testen daartegen. Dit geeft ons een idee van wat goed werkt, terwijl we onze pipeline snel door deze fase kunnen laten lopen tijdens de 0-1 fase zelf.
Meer recent, terwijl @benhylak, @snarkyzk en het team @raindrop_ai aan het bouwen zijn, hebben we echt profijt gehad van het monitoren van fouten in productie en het terugvouwen van die of soortgelijke gevallen in de dataset.

5 sep, 06:08
Claude Code: geen evaluaties
[bekend code agent bedrijf]: geen evaluaties
[bekend code agent bedrijf 2]: een beetje halfslachtige evaluaties
[leidend vibe coding bedrijf]: geen evaluaties
[ceo van het bedrijf dat je evaluaties verkoopt]: mmmmm ja, al mijn topklanten doen evaluaties, je zou evaluaties moeten doen
[vc's verliefd op ceo van het evaluatiebedrijf]: mmmmm ja, al mijn top oprichters doen evaluaties, moet evaluaties doen
(NOTE: ik -denk- ook dat evaluaties belangrijk zijn, maar de evaluatie-gepilde AI-ingenieurs hebben ook opgemerkt dat het geen strikte vereiste voor succes is en, tenminste voor de 0-tot-1 fase, zelfs anticorrelerend kan zijn, denk na over waarom)

4,17K
Boven
Positie
Favorieten