"De beste video over AI-evaluaties die ik heb gezien" Als je AI-evaluaties vanaf nul wilt leren door een praktisch voorbeeld te volgen, moet je mijn gratis, stapsgewijze tutorial met @_amankhan bekijken. Link naar de video in de onderstaande post.
Peter Yang
Peter Yang24 aug 2025
"Iedereen zegt dat AI-evaluaties belangrijk zijn, dus laten we er daadwerkelijk een live vanaf nul bouwen." Hier is mijn nieuwe aflevering met @_amankhan (Arize) waarin we AI-evaluaties voor een klantenservicemedewerker live bouwen, inclusief: ✅ Het creëren van de evaluatiecriteria ✅ Het labelen van de gouden dataset ✅ Het afstemmen van LLM-rechters met menselijke scores Enkele inzichten van Aman: 1. PM's moeten zelf handmatig labelen. "Ik heb het nooit nuttig gevonden om menselijke evaluaties uit te besteden aan aannemers. De PM moet in de spreadsheet zitten om goed oordeel te behouden." 2. Definieer van tevoren wat goed/gemiddeld/slecht eruitziet op criteria zoals nauwkeurigheid en toon. Dit wordt je rubric voor consistente evaluatie binnen je team. 3. Zorg ervoor dat je LLM-rechters overeenkomen met je menselijke scores voordat je opschaalt. Test de rechters eerst op een paar dozijn gevallen en streef naar een matchpercentage van minstens 80%. 📌 Kijk nu: Ook beschikbaar op: Spotify: Apple: Nieuwsbrief:
3,99K