DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

We hebben hier bij @MerlinAIByFoyer veel mee geworsteld. De analogie "Evals zijn de CI/CD van AI" houdt niet echt stand, aangezien CI/CD gedijt op stabiliteit, terwijl AI van week tot week verandert. En net als bij CI/CD kost het opzetten van zware evaluaties in productie een hoop tijd. We hebben het geprobeerd en zijn op een gegeven moment opgegeven. Het evalueren van agenten/ML is essentieel, maar het bouwen van uitgebreide scaffolding te vroeg vertraagt je. Dus hebben we een compromis bedacht: We cureren een kleine, hoog-signaal set van ~10–100 vragen/scenario's en testen daartegen. Dit geeft ons een idee van wat goed werkt, terwijl we onze pipeline snel door deze fase kunnen laten lopen tijdens de 0-1 fase zelf. Meer recent, terwijl @benhylak, @snarkyzk en het team @raindrop_ai aan het bouwen zijn, hebben we echt profijt gehad van het monitoren van fouten in productie en het terugvouwen van die of soortgelijke gevallen in de dataset.

4,17K

Boven

Positie

Favorieten